Нейросетевой метод визуального распознавания голосовых команд водителя  с использованием механизма внимания

А. А. Аксёнов; Е. В. Рюмина; Д. А. Рюмин; Д. В. Иванько; А. А. Карпов

doi:10.17586/2226-1494-2023-23-4-767-775

Нейросетевой метод визуального распознавания голосовых команд водителя с использованием механизма внимания

А. А. Аксёнов, Е. В. Рюмина, Д. А. Рюмин, Д. В. Иванько, А. А. Карпов

https://doi.org/10.17586/2226-1494-2023-23-4-767-775

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Введение. Визуальное распознавание речи или автоматическое чтение речи по губам все чаще применяется для преобразования речи в текст. Видеоданные доказывают свою необходимость в системах мультимодального распознавания речи, особенно когда использование акустических данных затруднено в виду сильных аудиошумов или недоступно. Основная цель исследования заключается в повышении эффективности распознавания команд водителя путем анализа визуальной информации для снижения тактильного взаимодействия с различными автомобильными системами (мультимедийными и навигационными, телефонными звонками и др.) во время вождения. Метод. Предложен метод автоматического чтения речи водителя по губам в процессе управления транспортным средством на основе глубокой нейронной сети архитектуры 3DResNet18. Выполнен анализ динамической информации о движении губ диктора с помощью 3D-сверточных слоев нейросети. Использование нейросетевой архитектуры с двунаправленной моделью Long Short-Term Memory и механизмом внимания позволяет добиться более высокой точности распознавания при незначительном снижении скорости работы. Основные результаты. Предложены и исследованы два варианта нейросетевых архитектур для визуального распознавания речи. При использовании первой нейросетевой архитектуры результат распознавания голосовых команд водителя составил 77,68 %, что ниже на 5,78 %, по сравнению со второй. Скорость работы системы определена показателем реального времени (Real-Time Factor, RTF), значение которого для первой нейросетевой архитектуры равен 0,076, а второй — 0,183, что выше более чем в два раза. Предложенный метод апробирован на данных дикторов многомодального корпуса RUSAVIC, записанных в автомобиле. Обсуждение. Результаты исследования могут найти применение в системах аудиовизуального распознавания речи. Подобные системы могут быть рекомендованы для применения в сильно зашумленных условиях, например, в процессе управления транспортным средством. Проведенный анализ позволил выбрать оптимальную нейросетевую модель визуального распознавания речи для последующего встраивания в ассистивную систему на базе мобильного устройства.