| |||||
The Emissia.Offline Letters Электронное научное издание (педагогические и психологические науки) | |||||
Издается с 7 ноября 1995 г. Учредитель: Российский государственный педагогический университет им. А.И.Герцена, Санкт-Петербург | |||||
|
|||||
_________ Шифр научной специальности 5.8.3. Исследование проведено при поддержке Фонда содействия инноваций - грант по конкурсу “Старт-Взлет” (Договор 5294ГС1/101578) Тарасов Алексей Александрович Шеляго Наталья Дмитриевна Авраменко Анна Петровна Туманова Нина Сергеевна Распознавание речи в логопедии: первоначальное эмпирическое исследование Аннотация Ключевые слова: логопедия, ИКТ, распознавание речи, коррекционная педагогика, искусственный интеллект. ---------------- Aleksei A. Tarasov Natalia D. Shelyago Anna P. Avramenko Nina S. Tumanova
Abstract Key words: speech therapy, ICT, speech recognition, ASR, special education, artificial intelligence. ---------------- Развитие речевой деятельности является приоритетным направлением в системе дошкольного образования, что подтверждается Федеральным государственным образовательным стандартом дошкольного образования [1]. Цифровизация образовательного процесса, включающая использование информационно-коммуникационных технологий (ИКТ) и технологий искусственного интеллекта (ИИ), открывает новые возможности для коррекции речевых нарушений у детей в различных языковых реалиях [2, 3, 4]. С научной точки зрения, применение технологии ИКТ и ИИ в логопедической практике представляет собой междисциплинарное направление, интегрирующее знания из лингвистики, психологии, педагогики и информатики. Их применение, в особенности ИИ-технологии, позволяет индивидуализировать коррекционный процесс, учитывая уникальные особенности речи ребенка и темп освоения основных проблемных звуков русского языка. Среди ИИ-технологий в связи со спецификой коррекционной работой особенно выделяется технология распознавания речи (ASR или Speech-to-text), которая с помощью механизмов акустического моделирования способна вычислить вероятности определенных последовательностей речевых элементов говорящего, которые могут быть представлены как отдельными буквами, так и слогами, словами или фразами. На практике системы ASR позволяют в автоматизированном режиме генерировать расшифровку (скрипт) потока речи, которая может быть использована для последующего анализа. Таким образом, прослеживается возможность интеграции технологии ASR в процесс автоматизации звуков, который предполагает постоянный контроль качества речевой продукции со стороны логопеда за многократными повторениями слогов, слов, предложений, которые достаточно монотонные и трудозатратные, как для логопедов, так и для детей с нарушениями звукопроизношения [5]. Развивающие логопедические онлайн-платформы, например Домашний логопед для детей, Мерсибо, Логоша, обеспечивают интерактивное взаимодействие ребенка с заданиями с игровой механикой, стимулируя речевую активность. Однако все вышеназванные платформы не дают содержательной обратной связи на основе анализа речи ребенка. При этом уже существуют онлайн-инструменты, которые на основе технологии ASR проводят логопедическую диагностику. Среди данных решений можно выделить Логопотам - приложение с интерактивными логопедическими упражнениями для постановки речи и коррекции речевых нарушений у детей [6], а также приложение Novator Space с заявленным качеством распознавания дефектов речи в районе 80% по оценке экспертов-логопедов [7]. Данные решения с использованием технологии ASR объединяет отсутствие детализированных валидных методологий оценки качества распознавания дефектов речи, которые не представлены в открытых источниках. Одновременно исследователями предпринимаются попытки определить качество автоматического распознавания речи на русском языке у таких популярных моделей на основе архитектуры трансформеров, как Whisper [8]. Несмотря на то, что данная работа рассматривает речь взрослых людей, именно такой подход с четко прописанной методологией исследования и понятным объектом позволяет выяснить возможность применения популярных систем распознавания речи для логопедической коррекции. С целью определения качества систем автоматического распознавания речи для детской речи было проведено сравнительное исследование. Первоначально одним из автором исследования в практической логопедической работе был собран набор данных с характеристиками, представленными в таблице. Таблица 1 Основные характеристики собранного речевого материала
Собранный речевой материал можно разделить на следующие типы:
После этапа сбора данных автором-логопедов была произведена ручная аннотация (транскрибирование) речевого материала. Таким образом получилось создать эталонный скрипт, который сравнивался с результатами отобранных систем ASR, которые были выбраны на основе доступности и простоты проведения тестирования (представлены ниже в таблице). Для определения качества распознавания речевого материала использовались общепринятые критерии Word Error Rate (WER) и Character Error Rate (CER). Вычисление WER происходит на уровне слов и включает подсчет количества вставок, удалений и замен, необходимых для преобразования полученного скрипта в эталонную транскрипцию. CER измеряет количество ошибок на уровне символов. Интерпретация результатов по критериям CER/WER основана на следующем принципе: более низкие показатели ошибок указывают на высокую точность системы ASR. В таблицах ниже представлены оценки по данным критериям в исследуемых системах ASR. Таблица 2 Значения WER, полученные при тестировании моделей
Таблица 3 Значения CER, полученные при тестировании моделей
Модели семейства Whisper (Whisper API, Whisper, Whisper Small, за исключением Whisper tiny) демонстрируют низкие значения как по CER, так и по WER при распознавании слогов и слов. Современные достижения в области ИИ открывают новые перспективы для логопедии. Проведенное сравнительное эмпирическое исследование показало, что некоторые существующие системы ASR могут показывать высокое качество распознавания детской речи при работе с определенными типами речевых образцов. При этом очевидно, что данное первоначальное эмпирическое исследование необходимо продолжить с последующим расширением изучаемого речевого материала, а также привлечением к тестированию специализированных систем ASR.
Рекомендовано к публикации: Literature
| |||||
| |||||
Copyright (C) 2025, Письма
в Эмиссия.Оффлайн (The Emissia.Offline Letters): электронный научный журнал ISSN 1997-8588 (online). ISSN 2412-5520 (print-smart), ISSN 2500-2244 (CD-R) Свидетельство о регистрации СМИ Эл № ФС77-33379 (000863) от 02.10.2008 от Федеральной службы по надзору в сфере связи и массовых коммуникаций При перепечатке и цитировании просим ссылаться на " Письма в Эмиссия.Оффлайн ". Эл.почта: emissia@mail.ru Internet: http://www.emissia.org/ Тел.: +7-812-9817711, +7-904-3301873 Адрес редакции: 191186, Санкт-Петербург, наб. р. Мойки, 48, РГПУ им. А.И.Герцена, корп.11, к.24а Издатель: Консультационное бюро доктора Ахаяна [ИП Ахаян А.А.], гос. рег. 306784721900012 от 07,08,2006. |