Замена голоса

Заменяет голос в аудио на выбранную модель и помогает создать свою голосовую модель по записи. Цена: замена голоса - 20 ₽ за аудио, создание модели - 70 ₽, 90 ₽ или 120 ₽ в зависимости от качества.

Описание

Замена голоса - это инструмент для замены голоса в песне или речи и для обучения собственной голосовой модели по аудиозаписи. По набору настроек он похож на решения на базе RVC: такие системы берут исходный голос, сохраняют интонацию и ритм фразы, а тембр подменяют на голос выбранной модели.

Разработчики подобных систем обычно делают упор на две вещи: чтобы голос был похож на выбранную модель и чтобы при этом не терялась подача исходника - паузы, манера произношения, высота и эмоциональные акценты. В открытых материалах по RVC говорится, что такие инструменты умеют обучать модели на сравнительно небольших наборах аудио, а для определения высоты голоса часто используют алгоритм RMVPE, который считается удачным балансом между качеством и скоростью.

Для создания своей модели здесь нужен отдельный чистый аудиофайл без музыки, шума и сильного эха. Это логично: чем чище запись, тем меньше в готовом голосе будет хрипов, металлического оттенка и случайных артефактов. Для замены голоса, наоборот, загружается уже готовое аудио, после чего можно выбрать обученную модель и при желании подкрутить результат вручную.

Как это работает

Сначала система отделяет особенности речи или вокала от самого тембра. Потом она накладывает на эту основу голос выбранной модели. За счёт этого фраза остаётся похожей по ритму и интонации на оригинал, но звучит уже другим голосом.

При обучении модели нейросеть слушает вашу запись и запоминает характер тембра: насколько голос плотный, звонкий, мягкий, высокий или низкий. После этого эту модель можно применять к новым аудиофайлам - например, к песне, дикторской записи или разговорному фрагменту.

Настройки

В режиме замены голоса доступны такие параметры:

Режим - выбрать, что вы хотите сделать: заменить голос или обучить новую модель.
Аудиофайл - исходная запись для обработки. Подойдут MP3, WAV и M4A длительностью от 30 секунд до 6 минут.
Выбор голоса - готовая модель, на которую будет заменён исходный голос.
Пол голоса в оригинале - помогает системе точнее подобрать преобразование, когда исходный голос мужской или женский.
Дополнительные настройки - открывают ручную подстройку результата.
Пресет настроек - готовые варианты под разные задачи: более чистый голос, более сильное сходство с моделью или более мягкое звучание для пения.
Точная подстройка высоты - меняет высоту голоса модели относительно исходника. Полезно, когда голос после замены звучит слишком высоко или низко.
Тональность всей песни - сдвигает весь трек целиком, вместе с инструменталом.
Громкость основного вокала, бэк-вокала и инструментала - помогает собрать более аккуратный микс на выходе.
Сила голоса модели - отвечает за то, насколько результат тянется к тембру выбранной модели.
Смешивание громкости - регулирует, насколько итог следует динамике исходного файла.
Реверб - добавляет ощущение пространства.
Защита согласных - помогает сохранить шипящие и чёткие согласные, когда голос начинает расплываться.
Сглаживание высоты - убирает резкие скачки по нотам.
Алгоритм определения высоты - можно выбрать rmvpe или mangio-crepe. Первый обычно даёт более чистый результат, второй иногда звучит мягче на вокале.
Точность mangio-crepe - ручная настройка для этого алгоритма.
Формат вывода - MP3 или WAV.

В режиме создания модели видны другие настройки:

Название модели - как она будет называться у вас в списке.
Пол голоса - нужен для более точной дальнейшей замены.
Аудиофайл - запись для обучения модели. Лучше брать чистый голос без музыки.
Тип материала - речь или пение. Для разговорных задач лучше речь, для вокала - пение.
Качество тренировки - быстрое, стандартное или максимальное.
Подтверждение согласия - нужно подтвердить, что это ваш голос или есть разрешение правообладателя.

Для чего подойдёт

сделать кавер, где песня звучит вашим обученным голосом
заменить голос в демо-записи перед публикацией
проверить, как будет звучать одна и та же фраза в другом тембре
подготовить шуточное поздравление или озвучку для друзей
сделать черновой вокал для аранжировки, когда хочется быстро услышать идею
обучить модель собственного голоса и потом использовать её для разных аудиофайлов
попробовать разговорную озвучку на базе своей записи, когда нужен узнаваемый тембр

Ограничения

Лучший результат обычно получается на чистом исходнике. Когда в записи много шума, сильный реверб, музыка забивает вокал или голос записан в комнате с эхом, качество падает - согласные могут смазываться, а тембр становится неестественным.

На сложном пении с экстремально высокими нотами, рычанием, шёпотом или плотным автотюном результат бывает менее ровным. Ещё один частый момент - хорошо обученная модель всё равно не делает чудо из плохой записи: слабый микрофон, перегруз и фоновый гул потом слышны и в преобразованном аудио.

Есть и правовое ограничение: для обучения чужого голоса нужно согласие правообладателя. Это прямо отражено в форме инструмента.

Чем отличается от аналогов

По интерфейсу этот инструмент рассчитан не только на тех, кто хочет нажать одну кнопку, но и на людей, которым нужна ручная подстройка результата. Здесь есть пресеты для типовых сценариев и отдельные ползунки для высоты, громкости вокала и инструментала, реверба и технических параметров преобразования.

От более простых голосовых конвертеров он отличается тем, что умеет не просто менять тембр на готовый шаблон, а обучать собственные модели по загруженной записи. Это полезно, когда нужен именно свой голос, а не абстрактный мужской или женский вариант.