Повышение точности распознавания внесловарных слов для интегральной системы автоматического распознавания русской речи
https://doi.org/10.17586/2226-1494-2022-22-6-1143-1149
Аннотация
Предмет исследования. Системы автоматического распознавания речи (Automatic Speech Recognition, ASR) активно внедряются в нашу повседневную жизнь, тем самым упрощая способ взаимодействия с электронными устройствами. Развитие интегральных (end-to-end) подходов только ускоряет данный процесс. Тем не менее постоянная эволюция и большая степень флективности русского языка приводят к проблеме распознавания новых вне словарных (Out Оf Vocabulary, OOV) слов, которые не принимали участие в процессе обучения ASR-системы при ее создании. В связи с этим ASR-модель может прогнозировать наиболее похожее слово из обучающих данных, что влечет к ошибке распознавания. Особенно это касается ASR-моделей, использующих декодирование на основе взвешенного конечного автомата (Weighted Finite State Transducer, WFST), так как они заведомо ограничены списком словарных слов, которые могут появиться в результате распознавания. Выполнено исследование проблемы на основе открытой базы русского языка (common voice) и интегральной ASR-системы, использующей WFST-декодер.
Метод. Предложен метод дообучения интегральной ASR-системы на основе дискриминативной функции потерь MMI (Maximum Mutual Information) и метода декодирования интегральной модели с помощью TG графа. Дискриминативное обучение позволило сгладить распределение вероятностей предсказания акустических классов, добавив таким образом большую вариативность в результате распознавания. Так как декодирование с помощью TG графа не имеет ограничений на распознавание только словарных слов, оно позволило использовать языковую модель, обученную на большом количестве внешних текстовых данных.
Основные результаты. В качестве тестового множества использована восьмичасовая подвыборка из базы common voice. Общее число OOV-слов в тестовой выборке составило 18,1 %. Полученные результаты показали, что использование предложенных методов сократило пословную ошибку распознавания на 3 % в абсолютном значении относительно стандартного метода декодирования интегральных моделей. При этом сохранилась возможность распознавания OOV-слов на сравнимом уровне.
Практическая значимость. Использование предложенных методов может улучшить общее качество распознавания ASR-систем и сделать их более устойчивыми к распознаванию новых слов, которые не участвовали в процессе обучения модели.
Об авторах
А. Ю. АндрусенкоРоссия
Андрусенко Андрей Юрьевич – аспирант, научный сотрудник; программист
Санкт-Петербург, 194044;
Санкт-Петербург, 197101
sc 57211637170
А. Н. Романенко
Россия
Романенко Алексей Николаевич – кандидат технических наук, ведущий научный сотрудник; старший научный сотрудник
Санкт-Петербург, 194044;
Санкт-Петербург, 197101
sc 56414341400
Список литературы
1. Hinton G., Deng L., Yu D., Dahl G.E., Mohamed A., Jaitly N., Senior A., Vanhoucke V., Nguyen P., Sainath T.N., Kingsbury B. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups // IEEE Signal Processing Magazine. 2012. V. 29. N 6. P. 82–97. https://doi.org/10.1109/MSP.2012.2205597
2. Graves A., Fernandez S., Gomez F., Schmidhuber J. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks // Proc. of the 23rd International Conference on Machine Learning (ICML). 2006. P. 369–376. https://doi.org/10.1145/1143844.1143891
3. Synnaeve G., Xu Q., Kahn J., Likhomanenko T., Grave E., Pratap V., Sriram A., Liptchinsky V., Collobert R. End-to-end ASR: From supervised to semi-supervised learning with modern architectures // arXiv. 2019. ArXiv:1911.08460. https://doi.org/10.48550/arXiv.1911.08460
4. Li J., Lavrukhin V., Ginsburg B., Leary R., Kuchaiev O., Cohen J.M., Nguyen H., Gadde R.T. Jasper: An end-to-end convolutional neural acoustic model // Proc. of the 20th Annual Conference of the International Speech Communication Association: Crossroads of Speech and Language (INTERSPEECH). 2019. P. 71–75. https://doi.org/10.21437/Interspeech.2019-1819
5. Khokhlov Y., Tomashenko N., Medennikov I., Romanenko A. Fast and accurate OOV decoder on high-level features // Proc. of the 18th Annual Conference of the International Speech Communication Association (INTERSPEECH). 2017. P. 2884–2888. https://doi.org/10.21437/Interspeech.2017-1367
6. Alumaë A., Tilk O., Ullah A. Advanced rich transcription system for Estonian speech // Frontiers in Artificial Intelligence and Applications. 2018. V. 307. P. 1–8. https://doi.org/10.3233/978-1-61499-912-6-1
7. Braun R., Madikeri S., Motlicek P. A comparison of methods for OOV-word recognition on a new public dataset // Proc. of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 2021. P. 5979–5983. https://doi.org/10.1109/ICASSP39728.2021.9415124
8. Laptev A., Andrusenko A., Podluzhny I., Mitrofanov A., Medennikov I., Matveev Y. Dynamic acoustic unit augmentation with BPE-dropout for low-resource end-to-end speech recognition // Sensors (Basel). 2021. V. 21. N 9. P. 3063. https://doi.org/10.3390/s21093063
9. Andrusenko A., Laptev A., Medennikov I. Exploration of end-to-end ASR for OpenSTT - Russian open speech-to-text dataset // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2020. V. 12335. P. 35–45. https://doi.org/10.1007/978-3-030-60276-5_4
10. An K., Xiang H., Ou Z. CAT: A CTC-CRF based ASR toolkit bridging the hybrid and the end-to-end approaches towards data efficiency and low latency // Proc. of the 21st Annual Conference of the International Speech Communication Association (INTERSPEECH). 2020. P. 566–570. https://doi.org/10.21437/Interspeech.2020-2732
11. Hadian H., Sameti H., Povey D., Khudanpur S. End-to-end speech recognition using lattice-free MMI // Proc. of the 19th Annual Conference of the International Speech Communication, (INTERSPEECH). 2018. P. 12–16. https://doi.org/10.21437/Interspeech.2018-1423
12. Laptev A., Majumdar S., Ginsburg B. CTC variations through new WFST topologies // Proc. of the 23rd Annual Conference of the International Speech Communication Association (INTERSPEECH). 2022. P. 1041–1045 https://doi.org/10.21437/Interspeech.2022-10854
13. Zeyer A., Schlüter R., Ney H. Why does CTC result in peaky behavior? // arXiv. 2021. arXiv:2105.14849. https://doi.org/10.48550/arXiv.2105.14849
14. Ardila R., Branson M., Davis K., Henretty M., Kohler M., Meyer J., Morais R., Saunders L., Tyers F.M., Weber G. Common voice: A massively-multilingual speech corpus // Proc. of the 12th International Conference on Language Resources and Evaluation (LREC). 2020. P. 4218–4222.
15. Park D., Chan W., Zhang Y., Chiu C., Zoph B., Cubuk E.D., Le Q.V. SpecAugment: A simple data augmentation method for automatic speech recognition // Proc. of the 20th Annual Conference of the International Speech Communication Association: Crossroads of Speech and Language (INTERSPEECH). 2019. P. 2613–2617 https://doi.org/10.21437/interspeech.2019-2680
16. Gulati A., Qin J., Chiu C., Parmar N., Zhang Y., Yu J., Han W., Wang S., Zhang Z., Wu Y., Pang R. Conformer: Convolutionaugmented transformer for speech recognition // Proc. of the 21st Annual Conference of the International Speech Communication Association (INTERSPEECH). 2020. P. 5036–5040. https://doi.org/10.21437/Interspeech.2020-3015
17. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., Kaiser Ł., Polosukhin I. Attention is all you need // Proc. of the 31st Annual Conference on Neural Information Processing Systems (NIPS). 2017. P. 5998–6008.
18. Povey D., Ghoshal A., Boulianne G., Burget L., Glembek O., Goel N., Hannemann M., Motlicek P., Qian Y., Schwarz P., Silovsky J., Stemmer G., Vesely K. The Kaldi speech recognition toolkit // Proc. of the IEEE 2011 Workshop on Automatic Speech Recognition and Understanding. 2011.
19. Watanabe S., Hori T., Karita S., Hayashi T., Nishitoba J., Unno Y., Soplin N.E.Y., Heymann J., Wiesner M., Chen N., Renduchintala A., Ochiaiet T. ESPnet: End-to-end speech processing toolkit // Proc. of the 19th Annual Conference of the International Speech Communication (INTERSPEECH). 2018. P. 2207–2211. https://doi.org/10.21437/Interspeech.2018-1456
Рецензия
Для цитирования:
Андрусенко А.Ю., Романенко А.Н. Повышение точности распознавания внесловарных слов для интегральной системы автоматического распознавания русской речи. Научно-технический вестник информационных технологий, механики и оптики. 2022;22(6):1143-1149. https://doi.org/10.17586/2226-1494-2022-22-6-1143-1149
For citation:
Andrusenko A.Yu., Romanenko A.N. Improving out of vocabulary words recognition accuracy for an end-to-end Russian speech recognition system. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2022;22(6):1143-1149. https://doi.org/10.17586/2226-1494-2022-22-6-1143-1149