Делать подкаст без записи собственного голоса — это уже не «дешёвая замена», а отдельный жанр. У AI-голосов нет плохих дней, не надо чистить шум, не надо переписывать строчку три раза. Получается готовый аудиокусок за минуту, в одном тоне, в одном темпе.
В аудио-генераторе Quantium сейчас доступны голоса от Google (включая Charon, Aoede, Kore и ещё 28 имён). Я записал тестовый эпизод подкаста на 18 минут, перепробовав 12 голосов, — ниже выжимка по тому, что реально работает.
Главные голоса — кому что подходит
| Голос | Тон | Для чего лучше |
|---|---|---|
| Charon | Глубокий мужской | Аналитика, серьёзные темы, документалка |
| Aoede | Тёплый женский | Истории, лайфстайл, интервью |
| Kore | Нейтральный женский | Новости, бизнес, обучающий контент |
| Puck | Игривый мужской | Юмор, лёгкие форматы |
| Fenrir | Уверенный мужской | Технические обзоры, разборы |
| Leda | Молодая женская | Реклама, TikTok-формат |
Charon — мой главный рабочий выбор для подкаста про финансы. Низкий, без надрыва, не «новостной диктор» и не «корпоративный голос». Хорошо ложится на тексты длиной 5-30 минут, не утомляет.
Aoede — если делаешь нарративный подкаст с историями, она звучит так, будто рассказчик действительно проживает текст, а не читает.
Kore — самый «нейтральный» из тройки, и это её сила. Под образовательный контент, где не надо отвлекать от смысла, она работает лучше всех.
Эмоции и интонация — как управлять
В отличие от старых TTS, модели Gemini понимают стилистические указания внутри промпта. Пишешь не «озвучь этот текст», а «озвучь этот текст с лёгкой иронией, как будто рассказываешь смешную историю другу». Модель адаптирует подачу.
Что работает (пробовал на десятках текстов):
- «Spoken in a calm, thoughtful manner» — медитативный темп, длинные паузы
- «Excited, slightly faster pace» — энергичная подача, без крикливости
- «Whispering, intimate tone» — для интро или эмоциональных моментов
- «Slight British accent» — да, акценты тоже работают
- «Read like a documentary narrator» — нейтрально-серьёзная подача
Паузы и темп
Главный фейл новичков — текст идёт без пауз, как из автомата. AI-голоса умеют паузы, но надо им подсказать:
- Многоточие в середине предложения = короткая пауза (~0.4 сек)
- Тире = средняя пауза (~0.6 сек)
- Двойной перенос строки = длинная пауза (~1.2 сек) — для перехода между темами
- Запятые работают как мини-паузы, не злоупотребляй
Темп задаётся в стилистическом указании: «slow, contemplative pace», «brisk and energetic», «conversational tempo».
Воркфлоу: от скрипта до готового эпизода
Я делаю это так (18-минутный эпизод — 35 минут на всё):
- Шаг 1. Скрипт пишу в чате с ChatGPT 5.4 с памятью моего тона.
- Шаг 2. Разбиваю скрипт на куски по 2-3 минуты. Голосовые модели лучше работают с короткими кусками — меньше дрейфа интонации.
- Шаг 3. Каждый кусок отдельно генерирую с одним и тем же стилистическим указанием.
- Шаг 4. Скачиваю файлы и склеиваю в редакторе (Audacity, любой бесплатный).
- Шаг 5. Подкладываю музыку и фоновое ambience — это уже отдельный этап в звуковом редакторе.
Подробнее про базовую механику — в туториале по TTS.
Цена за минуту в Quantium
В Quantium TTS оплачивается посимвольно, ориентировочно 1 кредит = ~250 символов = ~20 секунд речи. 18-минутный эпизод (примерно 15 000 знаков) = ~60 кредитов. Это около 2% от месячного тарифа Basic.
Для сравнения: коммерческие сервисы TTS (ElevenLabs, Resemble) стоят $5-15 за час речи. В Quantium тот же объём — заметно дешевле, потому что входит в общий тариф вместе с чатом, картинками и видео.
Связанные материалы: туториал TTS, аудио-возможности, галерея работ, кейс маркетолога.
Попробуйте Quantium бесплатно
20 кредитов в месяц на бесплатном тарифе. 30+ нейросетей в одном Telegram-боте.
Открыть бот →


