Письма в

 Эмиссия.Оффлайн

2025

 The Emissia.Offline Letters           Электронное научное издание (педагогические и психологические науки)  

Издается с 7 ноября 1995 г.  Учредитель:  Российский государственный педагогический университет им. А.И.Герцена, Санкт-Петербург

ART  3511

 2025 г., выпуск  № 5 (май)


Ссылаться на эту работу следует следующим образом:
А.А.Тарасов, Н.Д.Шеляго, А.П.Авраменко, Н.С.Туманова. Распознавание речи в логопедии: первоначальное эмпирическое исследование // Письма в Эмиссия.Оффлайн (The Emissia.Offline Letters): электронный научный журнал. 2025. №5 (май). ART 3511. URL: http://emissia.org/offline/2025/3511.htm

_________ Шифр научной специальности 5.8.3.

Исследование проведено при поддержке Фонда содействия инноваций - грант по конкурсу “Старт-Взлет” (Договор 5294ГС1/101578)

Тарасов Алексей Александрович
кандидат педагогических наук, преподаватель, Московский государственный университет им М.В. Ломоносова, г. Москва
lexicon.msk@gmail.com

Шеляго Наталья Дмитриевна
старший преподаватель, Российский государственный университет нефти и газа им И.М. Губкина, г. Москва
shelyago.n@gubkin.ru

Авраменко Анна Петровна
кандидат педагогических наук, доцент, Московский государственный университет им М.В. Ломоносова, г. Москва
avram4ik@gmail.com

Туманова Нина Сергеевна
логопед-дефектолог, Центр коррекции и развития «Вершина Результата», г. Москва
rezultat_logoped@mail.ru

Распознавание речи в логопедии: первоначальное эмпирическое исследование

Аннотация
В статье рассматривается возможность применения систем автоматического распознавания речи (ASR) в логопедическое работе. Описаны существующие ASR инструменты, разработанные для работы с детьми с произносительными нарушениями. Впервые представлены результаты первоначального эмпирического исследования о качестве автоматического распознавания речи открытых систем ASR. В результате делается вывод о необходимости продолжения исследования на более широком речевом материале.

Ключевые слова: логопедия, ИКТ, распознавание речи, коррекционная педагогика, искусственный интеллект.

----------------

Aleksei A. Tarasov
Candidate of Pedagogical Sciences, Lecturer, Lomonosov Moscow State University, Moscow
lexicon.msk@gmail.com

Natalia D. Shelyago
Senior Lecturer, Gubkin Russian State University of Oil and Gas, Moscow
shelyago.n@gubkin.ru

Anna P. Avramenko
Candidate of Pedagogical Sciences, Associate Professor, Lomonosov Moscow State University, Moscow
avram4ik@gmail.com

Nina S. Tumanova
speech therapist-defectologist, Correction and Development Center "Vershina Resultata", Moscow
rezultat_logoped@mail.ru


Speech recognition in speech therapy: an initial empirical study

Abstract
The article proposes the possibility of using automatic speech recognition (ASR) systems in speech therapy. The existing ASR tools developed for working with children with pronunciation disorders are described. The results of an initial empirical study on the quality of automatic speech recognition of open ASR systems are presented for the first time. It is concluded that it is necessary to continue the research on a wider speech material.

Key words: speech therapy, ICT, speech recognition, ASR, special education, artificial intelligence.

----------------

Развитие речевой деятельности является приоритетным направлением в системе дошкольного образования, что подтверждается Федеральным государственным образовательным стандартом дошкольного образования [1]. Цифровизация образовательного процесса, включающая использование информационно-коммуникационных технологий (ИКТ) и технологий искусственного интеллекта (ИИ), открывает новые возможности для коррекции речевых нарушений у детей в различных языковых реалиях [2, 3, 4].

С научной точки зрения, применение технологии ИКТ и ИИ в логопедической практике представляет собой междисциплинарное направление, интегрирующее знания из лингвистики, психологии, педагогики и информатики. Их применение, в особенности ИИ-технологии, позволяет индивидуализировать коррекционный процесс, учитывая уникальные особенности речи ребенка и темп освоения основных проблемных звуков русского языка.

Среди ИИ-технологий в связи со спецификой коррекционной работой особенно выделяется технология распознавания речи (ASR или Speech-to-text), которая с помощью механизмов акустического моделирования способна вычислить вероятности определенных последовательностей речевых элементов говорящего, которые могут быть представлены как отдельными буквами, так и слогами, словами или фразами. На практике системы ASR позволяют в автоматизированном режиме генерировать расшифровку (скрипт) потока речи, которая может быть использована для последующего анализа. Таким образом, прослеживается возможность интеграции технологии ASR в процесс автоматизации звуков, который предполагает постоянный контроль качества речевой продукции со стороны логопеда за многократными повторениями слогов, слов, предложений, которые достаточно монотонные и трудозатратные, как для логопедов, так и для детей с нарушениями звукопроизношения [5].

Развивающие логопедические онлайн-платформы, например Домашний логопед для детей, Мерсибо, Логоша, обеспечивают интерактивное взаимодействие ребенка с заданиями с игровой механикой, стимулируя речевую активность. Однако все вышеназванные платформы не дают содержательной обратной связи на основе анализа речи ребенка. При этом уже существуют онлайн-инструменты, которые на основе технологии ASR проводят логопедическую диагностику. Среди данных решений можно выделить Логопотам - приложение с интерактивными логопедическими упражнениями для постановки речи и коррекции речевых нарушений у детей [6], а также приложение Novator Space с заявленным качеством распознавания дефектов речи в районе 80% по оценке экспертов-логопедов [7]. Данные решения с использованием технологии ASR объединяет отсутствие детализированных валидных методологий оценки качества распознавания дефектов речи, которые не представлены в открытых источниках.

Одновременно исследователями предпринимаются попытки определить качество автоматического распознавания речи на русском языке у таких популярных моделей на основе архитектуры трансформеров, как Whisper [8]. Несмотря на то, что данная работа рассматривает речь взрослых людей, именно такой подход с четко прописанной методологией исследования и понятным объектом позволяет выяснить возможность применения популярных систем распознавания речи для логопедической коррекции.

С целью определения качества систем автоматического распознавания речи для детской речи было проведено сравнительное исследование. Первоначально одним из автором исследования в практической логопедической работе был собран набор данных с характеристиками, представленными в таблице.

Таблица 1

Основные характеристики собранного речевого материала

Собранный речевой материал можно разделить на следующие типы:

  1. Слоги (прямые/обратные) со свистящим З: за, зо, зы, зу, аз, оз, ез, юз.
     
  2. Слова со свистящим З: зоя, коза, музыка, забавный, зайка, тазы, бизок, возок, медуза.
     
  3. Иные слова: привет, начнем, готов.

После этапа сбора данных автором-логопедов была произведена ручная аннотация (транскрибирование) речевого материала. Таким образом получилось создать эталонный скрипт, который сравнивался с результатами отобранных систем ASR, которые были выбраны на основе доступности и простоты проведения тестирования (представлены ниже в таблице).

Для определения качества распознавания речевого материала использовались общепринятые критерии Word Error Rate (WER) и Character Error Rate (CER). Вычисление WER происходит на уровне слов и включает подсчет количества вставок, удалений и замен, необходимых для преобразования полученного скрипта в эталонную транскрипцию. CER измеряет количество ошибок на уровне символов.

Интерпретация результатов по критериям CER/WER основана на следующем принципе: более низкие показатели ошибок указывают на высокую точность системы ASR. В таблицах ниже представлены оценки по данным критериям в исследуемых системах ASR.

Таблица 2

Значения WER, полученные при тестировании моделей

Таблица 3

Значения CER, полученные при тестировании моделей

Модели семейства Whisper (Whisper API, Whisper, Whisper Small, за исключением Whisper tiny) демонстрируют низкие значения как по CER, так и по WER при распознавании слогов и слов.

Современные достижения в области ИИ открывают новые перспективы для логопедии. Проведенное сравнительное эмпирическое исследование показало, что некоторые существующие системы ASR могут показывать высокое качество распознавания детской речи при работе с определенными типами речевых образцов. При этом очевидно, что данное первоначальное эмпирическое исследование необходимо продолжить с последующим расширением изучаемого речевого материала, а также привлечением к тестированию специализированных систем ASR.


Литература

  1. Федеральный государственный образовательный стандарт дошкольного образования (ФГОС ДО). 2023.

  2. Оралбекова, Д., Мамырбаев, О., Касымова, Д., Мухсина, К. Проблемы разработки системы распознавания детской речи для казахского языка // Вестник КазАТК, 130(1), 2024. С. 286–295.

  3. Kitzing, P., Maier, A., Åhlander, V.L. Automatic speech recognition (ASR) and its use as a tool for assessment or therapy of voice, speech, and language disorders // Logopedics Phoniatrics Vocology. Vol. 34. No 2. 2009. Pp. 91–96. DOI: 10.1080/14015430802657216.

  4. Schipor, O.A., Pentiuc, S.G., Schipor, M.D. Automatic assessment of pronunciation quality of children within assisted speech therapy // Elektronika ir Elektrotechnika. Vol. 122. No 6. 2012. Pp. 15-18. DOI: 10.5755/j01.eee.122.6.1813.

  5. Омельченко Людмила Владимировна Автоматизация звуков на ограниченном речевом материале // СДО. №6. 2010. URL: https://cyberleninka.ru/article/n/avtomatizatsiya-zvukov-na-ogranichennom-rechevom-materiale [Дата обращения 05.05.2025]

  6. Приложение с интерактивными логопедическими упражнениями для постановки речи и коррекции речевых нарушений у детей Логопотам : свидетельство о гос. регистрации прогр. для ЭВМ № 2024616638 Российская Федерация; правообладатель общество с ограниченной ответственностью "ЛОГОМИР" (RU). Зарегистрировано в Реестре программ для ЭВМ 22.03.2024; опубл. 22.03.2024. URL: https://www1.fips.ru/fips_servl/fips_servlet?DB=EVM&DocNumber=2024616638&TypeFile=html [Дата обращения 05.05.2025]

  7. Хоменко А.А., Зинченко И.В., Брызгалова Ю.В. Диагностика речевых нарушений у дошкольников с помощью искусственного интеллекта // Педагогическая перспектива. №1(13). 2024. С. 58–65. DOI: 10.55523/27822559_2024_1(13)_58. EDN SUXXVD.

  8. Мамаев И.Д., Риехакайнен Е.И. Автоматическая расшифровка записей устной речи: тестирование программы Whisper // Социо- и психолингвистические исследования. 2023. Вып. 11. С. 19-22. EDN: ONBYJY.

Рекомендовано к публикации:
А.А.Ахаян, доктор педагогических наук, член Редакционной Коллегии

Literature

  1. Federal'nyy gosudarstvennyy obrazovatel'nyy standart doshkol'nogo obrazovaniya (FGOS DO). 2023.

  2. Oralbekova, D., Mamyrbayev, O., Kasymova, D., Mukhsina, K. Problemy razrabotki sistemy raspoznavaniya detskoy rechi dlya kazakhskogo yazyka // Vestnik KazATK, 130(1), 2024. S. 286–295.

  3. Kitzing, P., Maier, A., Åhlander, V.L. Automatic speech recognition (ASR) and its use as a tool for assessment or therapy of voice, speech, and language disorders // Logopedics Phoniatrics Vocology. Vol. 34. No 2. 2009. Pp. 91–96. DOI: 10.1080/14015430802657216.

  4. Schipor, O.A., Pentiuc, S.G., Schipor, M.D. Automatic assessment of pronunciation quality of children within assisted speech therapy // Elektronika ir Elektrotechnika. Vol. 122. No 6. 2012. Pp. 15-18. DOI: 10.5755/j01.eee.122.6.1813.

  5. Omel'chenko Lyudmila Vladimirovna Avtomatizatsiya zvukov na ogranichennom rechevom materiale // SDO. №6. 2010. URL: https://cyberleninka.ru/article/n/avtomatizatsiya-zvukov-na-ogranichennom-rechevom-materiale [Data obrashcheniya 05.05.2025]

  6. Prilozheniye s interaktivnymi logopedicheskimi uprazhneniyami dlya postanovki rechi i korrektsii rechevykh narusheniy u detey Logopotam : svidetel'stvo o gos. registratsii progr. dlya EVM № 2024616638 Rossiyskaya Federatsiya; pravoobladatel' obshchestvo s ogranichennoy otvetstvennost'yu "LOGOMIR" (RU). Zaregistrirovano v Reyestre programm dlya EVM 22.03.2024; opubl. 22.03.2024. URL: https://www1.fips.ru/fips_servl/fips_servlet?DB=EVM&DocNumber=2024616638&TypeFile=html [Data obrashcheniya 05.05.2025]

  7. Khomenko A.A., Zinchenko I.V., Bryzgalova YU.V. Diagnostika rechevykh narusheniy u doshkol'nikov s pomoshch'yu iskusstvennogo intellekta // Pedagogicheskaya perspektiva. №1(13). 2024. S. 58–65. DOI: 10.55523/27822559_2024_1(13)_58. EDN SUXXVD.

  8. Mamayev I.D., Riyekhakaynen Ye.I. Avtomaticheskaya rasshifrovka zapisey ustnoy rechi: testirovaniye programmy Whisper // Sotsio- i psikholingvisticheskiye issledovaniya. 2023. Vyp. 11. S. 19-22. EDN: ONBYJY.
     


Copyright (C) 2025, Письма в Эмиссия.Оффлайн (The Emissia.Offline Letters): электронный научный журнал
ISSN 1997-8588 (
online). ISSN 2412-5520 (print-smart), ISSN 2500-2244 (CD-R)
Свидетельство о регистрации СМИ Эл № ФС77-33379 (000863) от 02.10.2008 от Федеральной службы по надзору в сфере связи и массовых коммуникаций
При перепечатке и цитировании просим ссылаться на " Письма в Эмиссия.Оффлайн
".
Эл.почтаemissia@mail.ru  Internet: http://www.emissia.org/  Тел.: +7-812-9817711, +7-904-3301873
Адрес редакции: 191186, Санкт-Петербург, наб. р. Мойки, 48, РГПУ им. А.И.Герцена, корп.11, к.24а
Издатель: Консультационное бюро доктора Ахаяна [ИП Ахаян А.А.], гос. рег. 306784721900012 от 07,08,2006.

Рейтинг@Mail.ru

    Rambler's Top100