DeepFilterNet3

Убирает фоновый шум и делает речь заметно чище в аудиозаписи. Цена - 0.2 ₽/сек.

Описание

DeepFilterNet3 - нейросеть для улучшения речи в аудио: она подавляет фоновые шумы (гул, шипение, улицу, вентилятор, клавиатуру), чтобы голос звучал разборчивее. Это открытая модель из семейства DeepFilterNet, рассчитанная на работу в реальном времени и с небольшой задержкой.

По описанию авторов и публикациям о DeepFilterNet3, модель сделана так, чтобы чистить речь аккуратно и быстро: она не просто "режет" шумы, а подстраивает обработку под то, как человек воспринимает звук. В некоторых реализациях DeepFilterNet3 также заявляют апсемплинг до 48 кГц - грубо говоря, приводят звук к стандартной "высокой" частоте дискретизации, удобной для видео и дальнейшего монтажа.

Как это работает

DeepFilterNet3 слушает запись и пытается отделить речь от всего лишнего. Проще всего представить так:

находит, где в записи голос, а где фон;
снижает громкость шума;
старается не "съесть" согласные и окончания слов, чтобы речь не стала глухой или металлической.

Из-за того что модель рассчитана на работу в реальном времени, она обычно хорошо подходит для записей с постоянным фоном (например, кондиционер или улица за окном), но в совсем тяжёлых случаях может звучать более агрессивно.

Настройки

Аудио - загрузите один файл (до 10 минут), который нужно почистить.
Формат результата - в каком виде скачать готовый файл (например, MP3 для удобства, WAV/FLAC если хотите без потерь качества).
Битрейт - качество сжатия для MP3/AAC/OGG/OPUS: чем выше, тем меньше потерь, но больше размер файла. Обычно 192 kbps - нормальный выбор для речи, 256-320 kbps - если не хотите лишних компромиссов.

Для чего подойдёт

Почистить голосовое сообщение, которое записали в машине или на улице, чтобы слова стали понятнее.
Улучшить звук в записи лекции/урока, где на фоне слышны люди, эхо или гул помещения.
Подтянуть качество дорожки для подкаста, если микрофон ловил вентилятор ноутбука или шум системного блока.
Сделать речь разборчивее в видео для семейного архива, когда камера писала звук "как получится".

Ограничения

Это именно про речь: музыка, пение и сложные звуковые сцены модель может обработать хуже, иногда с заметными искажениями.
При очень сильном шуме (например, ветер прямо в микрофон) голос может стать чуть "сжатым" или искусственным - это нормальная плата за агрессивное шумоподавление.
Если фон постоянно меняется и перекрывает голос (крики рядом, внезапные хлопки), чудес не будет: часть артефактов может остаться.

Чем отличается от аналогов

DeepFilterNet3 ценят за сочетание качества и скорости: модель сделана так, чтобы работать с низкой задержкой и без тяжёлого железа, поэтому её часто выбирают, когда нужно чистить голос быстро и стабильно, а не ждать долгой обработки.