Создаёт кастомный голос по короткому аудио или видео фрагменту, чтобы потом использовать его для озвучки. Цена - 1 рубль за создание голоса.
Kling Voice - это нейросеть, которая делает “слепок” голоса по короткому фрагменту аудио или видео и превращает его в кастомный голосовой профиль. Дальше такой голос можно использовать для озвучки текста - например, чтобы один и тот же персонаж говорил одинаково в разных роликах.
По заявлениям создателей и описаниям функции Voice Control, упор сделан на стабильность голоса (чтобы тембр не “плавал” в середине фразы), а также на более естественную подачу - с эмоциями, нормальным темпом и интонацией. Также заявляется хорошая синхронизация речи с видео (когда это используется вместе с генерацией/липсинком) и поддержка речи на китайском и английском, причём голос, созданный по одному языку, может звучать похоже и на другом.
Ты загружаешь короткий фрагмент (5-30 секунд), где слышен один человек без посторонних звуков. Нейросеть “считывает” особенности голоса: тембр, манеру говорить, ритм, типичные интонации - и сохраняет это как отдельный кастомный голос.
Дальше этот голос можно применять в озвучке: нейросеть будет стараться говорить “тем же человеком”, даже если текст другой.
Kling Voice в первую очередь заточен под связку с видео и Voice Control: идея в том, чтобы держать один и тот же голос стабильным в разных сценах и роликах, а не просто “прочитать текст”. Поэтому тут особенно важны короткий чистый референс (5-30 секунд) и повторяемость голоса, когда ты используешь его снова и снова.