Стандарт

Озвучивает ваш текст по-русски выбранным голосом и отдаёт готовый аудиофайл. Цена: 0,0005 ₽ за 1 символ или 500 рублей за 1 миллион символов. Подсказка по SSML разметке.

Описание

Стандарт - это нейросеть для озвучки текста русскими голосами: вставляете текст (или загружаете TXT-файл), выбираете диктора и получаете готовое аудио.

Как это работает

Вы пишете текст - нейросеть превращает его в речь, как будто диктор читает вслух. Если включить SSML, вы можете “подсказать” ей, где сделать паузу, что выделить голосом и как прочитать фразу, чтобы звучало естественнее.

Настройки

Тип генерации - озвучить текст прямо в форме или загрузить TXT-файл (удобно для больших материалов).
Голос - можно выбрать одного из дикторов: Наталья, Александра, Марфа, Тарас, Борис или Сергей.
Формат аудио (для режима “Текст”) - WAV, PCM или OPUS. Если планируете монтаж в видеоредакторе, чаще всего удобнее WAV.
Формат текста (для режима “Текст”) - обычный текст или SSML. SSML полезен, когда нужно управлять паузами и ударением в сложных местах.
Текст / TXT-файл - в режиме текста до 4000 символов, в режиме файла - большой объём (до 1 000 000 символов).

Для чего подойдёт

Озвучить ролик для школьного проекта или презентации на работе, когда не хочется записывать свой голос.
Сделать “говорящую” инструкцию: как пройти, как оплатить, как собрать мебель - и отправить аудио родственникам.
Быстро начитать статью, объявление или пост, чтобы слушать в дороге.
Подготовить черновую озвучку для видео: сначала прогнать текст через нейросеть, а потом при желании заменить на живого диктора.

Ограничения

Иногда нейросети ошибаются с ударениями, особенно в редких фамилиях, названиях и заимствованных словах - такие места лучше проверять прослушиванием.
В режиме TXT-файла SSML не поддерживается, поэтому тонко управлять паузами и интонацией там не получится.
Длинные тексты могут звучать ровно и “дикторски”; если нужен артистичный стиль, обычно помогает ручная правка текста и добавление пауз через SSML (в режиме “Текст”).

Чем отличается от аналогов

Стандарт - это “понятная базовая” озвучка: несколько готовых русских голосов, два режима подачи (текст или файл) и выбор формата аудио. Её сильная сторона - простота и предсказуемый результат без лишних настроек, а слабая - ограниченный набор голосов и отсутствие тонких “студийных” параметров, если вы хотите прямо режиссировать подачу.