The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Индекс форумов
Составление сообщения

Исходное сообщение
"Компания Mozilla представила систему синтеза речи LPCNet"
Отправлено opennews, 20-Ноя-18 21:14 
Компания Mozilla развивает (https://hacks.mozilla.org/2018/11/lpcnet-dsp-boosted-neural-.../) новую систему синтеза речи LPCNet (https://people.xiph.org/~jm/demo/lpcnet/), которая дополняет ранее запущенную (https://www.opennet.ru/opennews/art.shtml?num=47648) инициативу по разработке системы  распознавания речи. LPCNet обеспечивает более эффективный синтез речи благодаря комбинированию традиционных методов цифровой обработки сигналов (DSP)  с механизмами синтеза на основе машинного обучения.


Несмотря на то, что современные модели синтеза речи на основе нейронных сетей, такие как WaveNet (https://deepmind.com/blog/wavenet-generative-model-raw-audio/), позволяют добиться превосходного качества синтеза, их реализация сильно усложнена и требует большой вычислительной мощности. Данная особенность затрудняет использование подобных систем для синтеза речи в режиме реального времени на таких устройствах, как телефоны. В качестве выхода в LPCNet предлагается (https://jmvalin.ca/papers/lpcnet_icassp2019.pdf) использовать первичный синтез с использованием DSP с последующим применением нейронной сети для улучшения результата.

Помимо синтеза речи LPCNet также может применяться и в других областях, требующих повышения качества голосового сигнала. Например, LPCNet подходит для создания технологий сжатия речи для передачи по низкоскоростным каналам связи, для устранения шумов, для изменения скорости воспроизведения речи, для фильтрации результата работы различных кодеков и для синтезирования недостающих фрагментов, утерянных из-за потери пакетов.


Исходные тексты реализации LPCNet распространяются (https://github.com/mozilla/LPCNet) под лицензией BSD. Код написан на языке Си с использованием Keras (https://keras.io/), высокоуровневого фреймворка для построения нейронных сетей, который может работать поверх TensorFlow, CNTK и Theano. Для работы требуется
GPU (достаточно GT1060, но для обучения модели рекомендуется использовать более мощный GPU с поддержкой CUDA и CUDNN, напрмер GTX 1080 Ti). Для загрузки доступны (https://jmvalin.ca/misc_stuff/lpcnet_models/) уже готовые модели, натренированные на голосовых данных (http://www-mmsp.ece.mcgill.ca/Documents/Data/) от лаборатории университета Макгилла. Систему можно обучить и на своих данных, для этого потребуется несколько часов аннотированных записей голоса.


URL: https://hacks.mozilla.org/2018/11/lpcnet-dsp-boosted-neural-.../
Новость: https://www.opennet.ru/opennews/art.shtml?num=49639

 

Ваше сообщение
Имя*:
EMail:
Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email).
Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.
Заголовок*:
Сообщение*:
 
При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру