Делать подкаст без записи собственного голоса — это уже не «дешёвая замена», а отдельный жанр. У AI-голосов нет плохих дней, не надо чистить шум, не надо переписывать строчку три раза. Получается готовый аудиокусок за минуту, в одном тоне, в одном темпе.

В аудио-генераторе Quantium сейчас доступны голоса от Google (включая Charon, Aoede, Kore и ещё 28 имён). Я записал тестовый эпизод подкаста на 18 минут, перепробовав 12 голосов, — ниже выжимка по тому, что реально работает.

Главные голоса — кому что подходит

ГолосТонДля чего лучше
CharonГлубокий мужскойАналитика, серьёзные темы, документалка
AoedeТёплый женскийИстории, лайфстайл, интервью
KoreНейтральный женскийНовости, бизнес, обучающий контент
PuckИгривый мужскойЮмор, лёгкие форматы
FenrirУверенный мужскойТехнические обзоры, разборы
LedaМолодая женскаяРеклама, TikTok-формат

Charon — мой главный рабочий выбор для подкаста про финансы. Низкий, без надрыва, не «новостной диктор» и не «корпоративный голос». Хорошо ложится на тексты длиной 5-30 минут, не утомляет.

Aoede — если делаешь нарративный подкаст с историями, она звучит так, будто рассказчик действительно проживает текст, а не читает.

Kore — самый «нейтральный» из тройки, и это её сила. Под образовательный контент, где не надо отвлекать от смысла, она работает лучше всех.

Эмоции и интонация — как управлять

В отличие от старых TTS, модели Gemini понимают стилистические указания внутри промпта. Пишешь не «озвучь этот текст», а «озвучь этот текст с лёгкой иронией, как будто рассказываешь смешную историю другу». Модель адаптирует подачу.

Что работает (пробовал на десятках текстов):

  • «Spoken in a calm, thoughtful manner» — медитативный темп, длинные паузы
  • «Excited, slightly faster pace» — энергичная подача, без крикливости
  • «Whispering, intimate tone» — для интро или эмоциональных моментов
  • «Slight British accent» — да, акценты тоже работают
  • «Read like a documentary narrator» — нейтрально-серьёзная подача

Паузы и темп

Главный фейл новичков — текст идёт без пауз, как из автомата. AI-голоса умеют паузы, но надо им подсказать:

  • Многоточие в середине предложения = короткая пауза (~0.4 сек)
  • Тире = средняя пауза (~0.6 сек)
  • Двойной перенос строки = длинная пауза (~1.2 сек) — для перехода между темами
  • Запятые работают как мини-паузы, не злоупотребляй

Темп задаётся в стилистическом указании: «slow, contemplative pace», «brisk and energetic», «conversational tempo».

Воркфлоу: от скрипта до готового эпизода

Я делаю это так (18-минутный эпизод — 35 минут на всё):

  • Шаг 1. Скрипт пишу в чате с ChatGPT 5.4 с памятью моего тона.
  • Шаг 2. Разбиваю скрипт на куски по 2-3 минуты. Голосовые модели лучше работают с короткими кусками — меньше дрейфа интонации.
  • Шаг 3. Каждый кусок отдельно генерирую с одним и тем же стилистическим указанием.
  • Шаг 4. Скачиваю файлы и склеиваю в редакторе (Audacity, любой бесплатный).
  • Шаг 5. Подкладываю музыку и фоновое ambience — это уже отдельный этап в звуковом редакторе.

Подробнее про базовую механику — в туториале по TTS.

Цена за минуту в Quantium

В Quantium TTS оплачивается посимвольно, ориентировочно 1 кредит = ~250 символов = ~20 секунд речи. 18-минутный эпизод (примерно 15 000 знаков) = ~60 кредитов. Это около 2% от месячного тарифа Basic.

Для сравнения: коммерческие сервисы TTS (ElevenLabs, Resemble) стоят $5-15 за час речи. В Quantium тот же объём — заметно дешевле, потому что входит в общий тариф вместе с чатом, картинками и видео.

Связанные материалы: туториал TTS, аудио-возможности, галерея работ, кейс маркетолога.

Q
Quantium Editorial 30+ нейросетей в одном Telegram-боте

Попробуйте Quantium бесплатно

20 кредитов в месяц на бесплатном тарифе. 30+ нейросетей в одном Telegram-боте.

Открыть бот →

Читайте также