Kling Voice

Создаёт кастомный голос по короткому аудио или видео фрагменту, чтобы потом использовать его для озвучки. Цена - 1 рубль за создание голоса.

Описание

Kling Voice - это нейросеть, которая делает “слепок” голоса по короткому фрагменту аудио или видео и превращает его в кастомный голосовой профиль. Дальше такой голос можно использовать для озвучки текста - например, чтобы один и тот же персонаж говорил одинаково в разных роликах.

По заявлениям создателей и описаниям функции Voice Control, упор сделан на стабильность голоса (чтобы тембр не “плавал” в середине фразы), а также на более естественную подачу - с эмоциями, нормальным темпом и интонацией. Также заявляется хорошая синхронизация речи с видео (когда это используется вместе с генерацией/липсинком) и поддержка речи на китайском и английском, причём голос, созданный по одному языку, может звучать похоже и на другом.

Как это работает

Ты загружаешь короткий фрагмент (5-30 секунд), где слышен один человек без посторонних звуков. Нейросеть “считывает” особенности голоса: тембр, манеру говорить, ритм, типичные интонации - и сохраняет это как отдельный кастомный голос.

Дальше этот голос можно применять в озвучке: нейросеть будет стараться говорить “тем же человеком”, даже если текст другой.

Настройки

Файл - загрузи аудио или видео с голосом. Лучше всего подходит кусок, где человек говорит ровно и понятно: без музыки, без эха, без нескольких собеседников и без шумной улицы.

Для чего подойдёт

Сделать постоянный голос для персонажа в коротких видео, чтобы он узнавался от ролика к ролику.
Озвучить семейное видео “своим голосом”, даже если не хочется записывать длинную дорожку целиком.
Подготовить голос для ведущего в обучающих роликах: один раз загрузил пример - дальше можно генерировать озвучку по тексту.
Быстро собрать несколько вариантов подачи одного текста (спокойно/эмоционально), если в исходном примере это хорошо слышно.

Ограничения

Нужен чистый исходник: если в файле шум, музыка, сильное эхо или два голоса сразу, результат обычно заметно хуже.
Короткий фрагмент не всегда передаёт “все нюансы” голоса (особенно редкие эмоции и необычные интонации) - иногда приходится подбирать более удачный кусок.
По отзывам пользователей, в некоторых случаях генерация может отклоняться из‑за встроенных ограничений/фильтров, и это иногда происходит даже без очевидных “запрещённых” слов - из-за чего могут быть неудачные попытки и повторы.

Чем отличается от аналогов

Kling Voice в первую очередь заточен под связку с видео и Voice Control: идея в том, чтобы держать один и тот же голос стабильным в разных сценах и роликах, а не просто “прочитать текст”. Поэтому тут особенно важны короткий чистый референс (5-30 секунд) и повторяемость голоса, когда ты используешь его снова и снова.