Automatic Speech Recognition (ASR) это технология, использующая Машинное Обучение (Machine Learning) или Искусственный Интеллект (Artificial Intelligence, AI) для обработки человеческой речи с целью преобразования в читаемый текст. Технология экспоненциально развивается и находит применение в самых различных популярных приложениях, таких как TikTok и Instagram для подписей в реальном времени, в Spotify для перевода трансляций подкастов, в Zoom для транскрипций общения, на YouTube для автоматического создания титров, и т. п.
По мере того, как ASR быстро становится более точным, приближаясь к распознаванию речи человеком, будет происходить взрывной рост для приложений, использующих ASR в своих продуктах, чтобы делать более удобным доступ к audio и video данным. API-интерфейсы Speech-to-Text, такие как AssemblyAI, уже делают технологию ASR более простой для применения, доступной и точной.
В этой статье (перевод [1]) дается общий обзор на технологию ASR, включая рассмотрение тем:
• История появления ASR • Как работает ASR • Ключевые термины и функции ASR • Ключевые приложения ASR • Проблемы ASR сегодня
[История появления ASR]
Появление ASR можно отсчитывать с 1952 года, когда Bell Labs создала "Audrey", цифровой распознаватель голоса. Audrey могла поначалу только лишь понимать наговариваемые числа, и несколько позже также научилась распознавать рудиментарные слова наподобие "hello".
На протяжении последних 15 лет ASR работает на основе классических технологий машинного обучения, таких как Hidden Markov Models. Развитие этих технологий, сделавших попытку стать промышленным стандартом, за последние годы вышло на плато, открывая путь новым подходам наподобие технологии Deep Learning, которая в последние годы находила применение в других областях, таких как автопилоты для авто.
В 2014 году компания Baidu опубликовала скандальную статью "Deep Speech: масштабирование сквозного распознавания речи" [2]. В этой статье исследователи продемонстрировали силу применения Deep Learning для создания мощной и точной системы распознавания речи. Это дало толчок к возрождению интереса к разработкам в области ASR, популяризации методики Deep Learning, в результате технологии распознавания речи ушли от застоя и начали приближаться по качеству работы к человеческому уровню.
Точность не только резко возросла, но и значительно улучшился доступ к технологии ASR. Десять лет назад клиентам пришлось бы заключать длительные, дорогостоящие корпоративные контракты на программное обеспечение для лицензирования технологии ASR. Сегодня разработчики, стартапы и компании из рейтинга Fortune 500 получили доступ к технологии State-of-the-Art ASR через простой API наподобие Speech-to-Text AssemblyAI.
Давайте поближе рассмотрим 2 лидирующих подхода к ASR.
[Как работает ASR. Традиционный метод]
В настоящее время существует 2 основных метода автоматического распознавания речи: традиционный гибридный и комплексный сквозной Deep Learning.
Традиционный гибридный метод является унаследованным подходом к распознаванию речи, и доминировал в этой области за последние 15 лет. Несмотря на очевидное отсутствие прогресса и перспектив развития в точности распознавания, многие компании все еще полагаются на этот традиционный подход - по той причине, что уже накоплен довольно большой опыт, как построить надежную модель распознавания.
На рисунке ниже иллюстрируется общий принцип работы традиционного гибридного метода распознавания речи.
Рис. 1. Традиционные системы HMM и GMM.
Традиционный HMM (Hidden Markov Models) и GMM (Gaussian Mixture Models) требуют принудительного выравнивания данных. Это процесс получения текстовой транскрипции сегмента звуковой речи, в каких интервалах времени произносимых фраз появляются определенные слова. Как можно видеть на картинке выше, этот метод комбинирует применение модели словаря (Lexicon Model) + модели акустики (Acoustic Model) + модели языка (Language Model), чтобы делать предсказания для перевода речи в текст.
Lexicon Model. Модель словаря описывает, как слова произносятся фонетически. Обычно для каждого языка требуется бор пользовательских фонем, подготовленных вручную специалистами-фонетиками.
Acoustic Model. Акустическая модель (AM) моделирует звуковые шаблоны речи. Работа акустической модели в состоит в предсказании, какой звук или фонема наговаривается для каждого сегмента речи из принудительно выровненных данных. Акустическая модель обычно работает в варианте HMM или GMM.
Language Model. Языковая модель (LM) представляет статистику языка. Она обучена последовательностям слов, которые произносятся наиболее часто. Задача языковой модели - предсказать, какие слова последуют из текущих произнесенных слов, и с какой вероятностью.
В процессе декодирования речи и преобразования её в текст используются все эти вышеупомянутые модели.
Несмотря на ряд своих недостатков, традиционный гибридный подход ASR все еще широко используется. Самый большой его недостаток - низкая точность. Кроме того, каждая модель должна быть тренирована отдельно, что требует значительных затрат времени и лабораторных исследований. Также трудно получить принудительно выровненные данные, для чего требуется много труда специалистов. И наконец, нужны эксперты для построения наборов фонетики, чтобы повысить точность модели.
[End-to-End Deep Learning]
Сквозной метод с применением технологии глубокого обучения (end-to-end Deep Learning) это новый подход к тому, как мы понимаем работу ASR.
С помощью сквозной системы можно непосредственно отобразить последовательность входных акустических элементов в последовательность слов. Данные не должны быть принудительно выровнены. В зависимости от архитектуры система Deep Learning может быть обучена создавать точные стенограммы без словарной модели и языковой модели [3], хотя языковые модели могут помочь получить более точные результаты.
CTC, LAS и RNNT это популярные архитектуры распознавания речи, работающие по принципу end-to-end Deep Learning. Эти системы могут быть очень точно натренированы для получения отличных результатов распознавания без необходимости применения принудительного выравнивания данных, языковых моделей и моделей словаря.
Модели End-to-end Deep Learning проще в обучении и требуют меньшее количество лабораторных исследований по сравнению с традиционной модели распознавания речи. Они также более точны в распознавании, чем используемые сегодня традиционные модели. Сообщество разработчиков Deep Learning активно ищут пути улучшения своих моделей, и существует определенная уверенность, что качество распознавания в ближайшие несколько лет достигнет человеческого уровня.
[Ключевые термины и функции ASR]
Acoustic Model: акустическая модель берет оцифрованный звук и делает предсказания, какие слова в нем присутствуют.
Language Model: языковая модель может использоваться как помощь в корректных предсказаний акустической модели.
Word Error Rate: индустриальный стандарт измерений, насколько точным была трансляция ASR в сравнении с человеческой трансляцией.
Speaker Diarization: отвечает на вопрос, кто когда говорил? Также это называют метками спикеров (speaker labels).
Custom Vocabulary: пользовательский словарь, так называемый Word Boost. Повышает точность благодаря наличию списка определенных ключевых слов или фраз, применяемых для анализа входного аудиофайла.
Sentiment Analysis: анализ настроений говорящего. Заключается в выделении сегментов позитивного, негативного или нейтрального акцента сегментов речи в аудио или видео файле.
См. также описание фич, специфичных для AssemblyAI [5].
[Ключевые приложения ASR]
Компании используют технологию ASR для приложений Speech-to-Text в различных отраслях. Некоторые примеры:
Телефония. Трекинг звонков, облачные решения для телефонии и call-центры требуют точных транскрипций речи, а также продвинутых функций аналитики наподобие Conversation Intelligence, аналитики звонков, распознавание персон говорящих и т. д.
Видео платформы. Асинхронная, в реальном времени генерация титров становится индустриальным стандартом. Платформы публикации и редактирования видео также требуют автоматической модерации и разделения контента на категории - для повышения качества поиска видео материалов и их доступности.
Мониторинг медиа. Speech-to-Text API может помочь для вещательного TV, подкастов, радио более точно определять упоминания брендов и других тем для улучшения рекламы.
Виртуальное общение. Платформы организации конференций наподобие Zoom, Google Meet, WebEx требуют более точных транскрипций и анализа содержимого речи, чтобы управлять ключевой информацией и действиями.
[Проблемы ASR сегодня]
Основная задача для ASR в настоящий момент - максимально приблизиться к уровням точности транскрипции, которыми обладает человек. Несмотря на то, что оба подхода к ASR - традиционный гибридный и и end-to-end Deep Learning - значительно улучшились, но пока что им все еще не достигнут уровень 100% человеческой точности. Причина в том, что слишком много ньюансов в том, как мы говорим, разные диалекты, сленг и даже тональность речи. Самые лучшие модели Deep Learning не могут покрыть весь этот набор требований без значительных усилий по разработке и обучению.
Существует мнение, что решить проблему точности распознавания речи можно с помощью создания пользовательских моделей Speech-to-Text. Однако если не требуется реализовать очень специфический случай применения наподобие распознавания детской речи, пользовательские модели все еще остаются менее точными, более трудными в обучении и более дорогими для практического использования, чем хорошо обученная модель end-to-end Deep Learning.
Другая основная проблема - приватность Speech-to-Text для API. Слишком много больших компаний ASR используют пользовательские данные для тренировки моделей без явного на то разрешения, что вызывает серьезную обеспокоенность по поводу конфиденциальности данных. Постоянное хранение данных в облаке также повышает потенциальную опасность эксплуатацию уязвимостей в защите, особенно если аудио или видео файлы содержат персональную идентификационную информацию пользователей.
[Ссылки]
1. What is ASR? site:assemblyai.com. 2. Deep Speech: Scaling up end-to-end speech recognition arxiv.org. 3. How to Train Large Deep Learning Models as a Startup site:assemblyai.com. 4. Comparing End-To-End Speech Recognition Architectures in 2021 site:assemblyai.com. 5. All Audio Intelligence models site:assemblyai.com. |