ART 3594 Готская Ирина Борисовна Игнатьев Денис Сергеевич Щербинин Артем Владимирович Экспериментальное исследование корректности решения учебных задач генеративными предобученными трансформерами (GPT) Irina B. Gotskaya Denis S. Ignatyev Artem V. Shcherbinin An experimental study of the correctness of solving educational problems using generative pretrained transformers (GPT)

Письма в

2025

The Emissia.Offline Letters Электронное научное издание (педагогические и психологические науки) Издается с 7 ноября 1995 г.

ART 3594

2025 г., выпуск № 9 (сентябрь)

Ссылаться на эту работу следует следующим образом:
И.Б.Готская, Д.С.Игнатьев, А.В.Щербинин. Экcпериментальное исследование корректности решения учебных задач генеративными предобученными трансформерами ( GРT ) // Письма в Эмиссия.Оффлайн (The Emissia.Offline Letters): электронный научный журнал. 2025. №9 (сентябрь). ART 3594. URL: http://emissia.org/offline/2025/3594.htm

_________ Шифр научной специальности 5.8.7

Готская Ирина Борисовна
доктор педагогических наук, профессор, Российский государственный педагогический университет им. А.И. Герцена, Национальный исследовательский университет ИТМО, Санкт-Петербург
iringot@mail.ru

Игнатьев Денис Сергеевич
магистрант, образовательная программа «Корпоративное электронное обучение», Российский государственный педагогический университет им. А.И. Герцена, Санкт-Петербург
ignatev_den@bk.ru

Щербинин Артем Владимирович
магистрант, образовательная программа «Корпоративное электронное обучение», Российский государственный педагогический университет им. А.И. Герцена, Санкт-Петербург
spiderr3333@gmail.com

Экспериментальное исследование корректности решения учебных задач генеративными предобученными трансформерами (GPT)

Аннотация
В статье представлены результаты сравнительного экспериментального исследования генеративных предобученных трансформеров (GPT) на примерах решения школьных (математика, информатика, физика и химия) и вузовских (интегралы и дифференциальные уравнения) задач. Выявлены возможности и ограничения исследуемых GPT.

Ключевые слова: искусственный интеллект, большие языковые модели, БЯМ, генеративные предобученные трансформеры, GPT.

----------------

Irina B. Gotskaya
Doctor of Pedagogical Sciences, Professor, A.I. Herzen State Pedagogical University of Russia, National Research University ITMO, St. Petersburg
iringot@mail.ru

Denis S. Ignatyev
Master's Student, Educational Program "Corporate e-Learning", A.I. Herzen State Pedagogical University of Russia, St. Petersburg
ignatev_den@bk.ru

Artem V. Shcherbinin
Master's Student, Educational Program "Corporate e-Learning", A.I. Herzen State Pedagogical University of Russia, St. Petersburg
spiderr3333@gmail.com

An experimental study of the correctness of solving educational problems using generative pretrained transformers (GPT)

Abstract
This article presents the results of a comparative experimental study of generative pretrained transformers (GPTs) using examples of solving school (mathematics, computer science, physics, and chemistry) and university (integrals and differential equations) problems. The capabilities and limitations of the GPTs under study are identified.

Key words: artificial intelligence, large language models, LLM, generative pretrained transformers, GPT.

----------------

Ключевым вызовом современности после появления компьютеров и информатизации по праву рассматриваются развивающиеся технологии искусственного интеллекта (далее – ИИ), с которыми связываются не только технологические прорывы в развитии человечества, но и возможные потенциальные риски. Применительно к системе образования, несмотря на отличающиеся позиции ученых и педагогов-практиков [1], большинство сходятся во мнении о необходимости поиска путей и методов применения технологий ИИ в профессиональной педагогической деятельности. К настоящему времени накоплен первый опыт применения технологии ИИ в общем [2] и высшем [3-5] образовании. Особый интерес в настоящее время представляют системы, построенные на больших языковых моделях (далее - БЯМ), в частности, генеративные предобученные трансформеры (GPT - Generative pre-trained transformer), которые как AI‑ассистенты и AI‑тьюторы [6] находят применение не только в образовании, но и в повседневной жизни (например, виртуальный голосовой помощник «Алиса» от компании Яндекс).

Учитывая активное развитие как отечественных, так и зарубежных решений, перед пользователями встаёт задача обоснованного выбора ИИ-модели для практического применения, в том числе в сфере образования. В условиях высокой вариативности архитектур, масштабов обучающих выборок и методологических подходов к дообучению, актуализируется необходимость комплексной экспертной оценки БЯМ. В прикладной практике наиболее значимыми параметрами оценки выступают: способность модели к многоязычной генерации и пониманию текстов; устойчивость к феномену галлюцинирования, заключающемуся в генерации недостоверной или вымышленной информации; последовательность и логичность ответов при соблюдении тематической и семантической целостности; ясность и структурированность формулировок; соответствие генерируемых данных исходной задаче (корректность ответа). Кроме того, принципиальное значение имеют адаптивность модели к контексту ввода и устойчивость к неоднозначным или конфликтующим формулировкам, что позволяет обеспечивать корректную интерпретацию входных данных и повышение надёжности результатов.

Для оценки эффективности БЯМ в решении образовательных задач был разработан и проведен эксперимент, целью которого являлось сравнение шести моделей: Grok 3 (xAI), DeepSeek V3 (DeepSeek), ChatGPT-4o (OpenAI), Le Chat (Mistral AI), GigaChat 2 Max (Сбербанк), YandexGPT 5 Pro (Яндекс). В рамках эксперимента были охвачены школьные и вузовские дисциплины, в том числе: алгебра (10–11 классы), геометрия (10–11 классы), информатика (11 класс), физика (11 класс), химия (9 класс), а также разделы высшей математики — интегралы и дифференциальные уравнения (2 курс вуза). По каждой из указанных дисциплин была разработана совокупность из 15 заданий, что в сумме составило 90 задач. Отбор заданий осуществлялся на основе анализа действующих образовательных программ и включал как теоретические, так и практические задачи.

Каждая задача решалась в отдельном чате, чтобы исключить влияние контекста предыдущих запросов на результаты. Для задач, содержащих математические формулы, использовался формат LaTeX, обеспечивающий точную передачу условий. Запросы к моделям формировались на русском языке следующим образом: для стандартных задач применялся промпт «Реши задачу по предмету “<Предмет>”. Текст задачи: <Задача>», а для задач с формулами — «Реши задачу по предмету “<Предмет>”. Текст задачи в виде LaTeX-формулы: <Задача>». В случае неверного ответа модели предоставлялась вторая попытка с переформулированным запросом: «Тебе не удалось решить эту задачу. Ответ не соответствует ожидаемому. Забудь свой предыдущий ответ и попробуй решить её ещё раз. Для лучшего результата продублирую задачу: <Задача>».

Оценка ответов проводилась по четырем критериям: правильность ответа с первой попытки; полнота ответа; правильность ответа со второй попытки; галлюцинирование — степень отклонения модели от исходной задачи, логики её постановки и связности формируемого ответа. Уточним, под галлюцинированием понимались значительные нарушения когерентности текста или очевидная утрата контекста (необоснованная замена языка в середине ответа; неуместные или бессвязные фрагменты, не относящиеся к содержанию задачи; попытки решения, демонстрирующие утрату контекста задачи). В случае отсутствия подобных отклонений, даже при наличии фактических ошибок, модели присваивалось 0 баллов. При наличии описанных признаков — оценка составляла - 1 балл. Такой подход позволил дифференцировать стандартные ошибки от случаев системной деградации генерации, нарушающей логико-семантические рамки задачи. Максимальная совокупная оценка за выполнение одной задачи составляла 2 балла.

Результаты эксперимента свидетельствуют о значительном потенциале БЯМ для применения в обучении. Общая численность заданий в выборке составила 540. Результаты их выполнения распределились следующим образом: количество верных ответов с первой попытки (оценка 2 балла) — 399, частично верных ответов (1 балл) — 87. Общее число вторых попыток составило 143, из которых успешными (верный ответ со второй попытки) оказались 14, а неудачными (ответ остаётся неверным) — 129. Ответы, получившие 0 баллов (полностью неверные), составили 54 случая. Кроме того, было выявлено 3 случая галлюцинирования. Таким образом, доля корректных ответов с первой попытки составляет 73,9% от общего числа заданий. Доля успешных повторных попыток оказалась незначительной — 9,8% от всех вторых попыток, указывает на ограниченную способность моделей переосмысливать задачу и корректировать свои ошибки при переформулировке запроса. Галлюцинации зафиксированы лишь в 3 случаях (менее 1%), что говорит о достаточно высоком уровне надёжности всех моделей. Кроме того, все модели продемонстрировали тенденцию предоставлять полные ответы, даже в случае их некорректности. Этот аспект подчеркивает необходимость контроля для корректной интерпретации и использования таких ответов. Результаты представлены на диаграмме (Рисунок 1).

Рис. 1. Диаграмма результатов эксперимента шести моделей БЯМ

Наивысший суммарный результат показала модель Grok (163 балла), что позволяет характеризовать её как наиболее устойчивую к разнообразию задач в рамках предложенного набора. Вторую позицию заняла модель DeepSeek с результатом 157 баллов, что также свидетельствует о её высоком уровне производительности. Обе модели показали стабильные результаты, не демонстрируя значительных провалов в отдельных дисциплинах. ChatGPT и Le Chat продемонстрировали сбалансированные результаты, в то время как отечественные модели (GigaChat и YandexGPT) показали конкурентоспособные результаты, сопоставимые с зарубежными аналогами, не демонстрируя принципиального отставания в решении задач школьного и вузовского уровня. Разброс итоговых баллов между моделями, за исключением Grok и DeepSeek, оказался сравнительно небольшим, что свидетельствует о постепенном выравнивании качества генерации ответов среди современных БЯМ.

Анализ результатов по учебным дисциплинам показал (Рисунок 2), что ни одна из моделей не достигла максимального балла (30) ни в одной из дисциплин. Наиболее заметно низкие результаты показала модель GigaChat по дисциплине «Интегралы и дифференциальные уравнения», набрав всего 17 баллов и значительно отстав от других моделей (средний балл по дисциплине — 23).

Рис. 2. Диаграмма распределения результатов эксперимента шести моделей БЯМ по учебным дисциплинам

В то же время, по остальным дисциплинам GigaChat показал результаты, сопоставимые с конкурентами, что позволяет предположить наличие специфических пробелов в обработке задач по высшей математике. Средний балл по химии (27,5) оказался наивысшим среди всех дисциплин.

Проведенный эксперимент выявил как сильные стороны, так и ограничения современных БЯМ в решении образовательных задач. Высокая доля верных ответов с первой попытки (73,9%), низкий уровень галлюцинаций (менее 1%) и конкурентоспособность отечественных моделей подтверждают их значительный потенциал для применения в образовательной практике. Ограниченная способность к самокоррекции и специфические слабости по отдельным дисциплинам указывают направления дальнейших исследований и доработки.

Литература

Parviz M., AI in education: Comparative perspectives from STEM and Non-STEM instructors // Computers and Education Open. 2024. vol. 6. DOI: 10.1016/j.caeo.2024.100190.
Свердлова Н.А., Орлова Е.С. Анализ возможностей искусственного интеллекта применительно к обучению в школе // Международный научно-исследовательский журнал. 2024. №1 (139). DOI: 10.23670/IRJ.2024.139.161. URL: https://research-journal.org/archive/1-139-2024-january/10.23670/IRJ.2024.139.161 [Дата обращения 01.09.2025]
Бабкина А.А., Андрюшечкина Н.А. Применение искусственного интеллекта в математике // Международный журнал гуманитарных и естественных наук. 2023. № 11-2 (86). С. 178-181. DOI: 10.24412/2500-1000-2023-11-2-178-181.
Блейхер О.В., Рванова А.С., Исаева Т.Т. Сравнительный анализ использования чат-ботов в обучении математике студентов технического вуза: эмпирические данные (2024, 2025) // Современное профессиональное образование. 2025. № 4. С. 33-35.
Елсакова Р.З., Кузьмина Н.Н., Кочкина Д.В. Искусственный vs естественный интеллект в образовательном процессе вуза // Вестник ЮУрГУ. Серия «Образование. Педагогические науки». 2024. Т. 16, № 1. С. 90-101. DOI: 10.14529/ped240109.
Liu X., Zhong B. A systematic review on how educators teach AI in K-12 education // Educational Research Review. 2024. No. 45. DOI: 10.1016/j.edurev.2024.100642.

Рекомендовано к публикации:
А.А.Ахаян, доктор педагогических наук, член Редакционной Коллегии

Literature

Parviz M., AI in education: Comparative perspectives from STEM and Non-STEM instructors // Computers and Education Open. 2024. vol. 6. DOI: 10.1016/j.caeo.2024.100190.
Sverdlova N.A., Orlova E.S. Analiz vozmozhnostey iskusstvennogo intellekta primenitel’no k obucheniyu v shkole // Mezhdunarodnyy nauchno-issledovatel’skiy zhurnal. 2024. №1 (139). DOI: 10.23670/IRJ.2024.139.161. URL: https://research-journal.org/archive/1-139-2024-january/10.23670/IRJ.2024.139.161 [Data obrashcheniya 01.09.2025]
Babkina A.A., Andryushichkina N.A. Primenenie iskusstvennogo intellekta v matematike // Mezhdunarodnyy zhurnal gumanitarnyh i estestvennyh nauk. 2023. № 11-2 (86). S. 178-181. DOI: 10.24412/2500-1000-2023-11-2-178-181.
Bleykher O.V., Rvanova A.S., Isaeva T.T. Sravnitel’nyy analiz ispol’zovaniya chat-botov v obuchenii matematike studentov tekhnicheskogo vuza: empiricheskie dannye (2024, 2025) // Sovremennoe professional’noe obrazovanie. 2025. № 4. S. 33-35.
Elsakova R.Z., Kuz’mina N.N., Kochkina D.V. Iskusstvennyy vs estestvennyy intellekt v obrazovatel’nom protsesse vuza // Vestnik YuUrGU. Seriya «Obrazovanie. Pedagogicheskie nauki». 2024. T. 16, № 1. S. 90-101. DOI: 10.14529/ped240109.
Liu X., Zhong B. A systematic review on how educators teach AI in K-12 education // Educational Research Review. 2024. No. 45. DOI: 10.1016/j.edurev.2024.100642.

Copyright (C) 2025, Письма в Эмиссия.Оффлайн (The Emissia.Offline Letters): электронный научный журнал
ISSN 1997-8588 (online). ISSN 2500-2244 (CD-R)
Свидетельство о регистрации СМИ Эл № ФС77-33379 (000863) от 02.10.2008 от Федеральной службы по надзору в сфере связи и массовых коммуникаций
При перепечатке и цитировании просим ссылаться на " Письма в Эмиссия.Оффлайн ".
Эл.почта: emissia@mail.ru Internet: http://www.emissia.org/ Тел.: +7-812-9817711, +7-904-3301873
Адрес редакции: 191186, Санкт-Петербург, наб. р. Мойки, 48, РГПУ им. А.И.Герцена
Учредитель: Федеральное государственное бюджетное образовательное учреждение высшего образования "Российский государственный педагогический университет
им. А.И.Герцена""
Издатель: Консультационное бюро доктора Ахаяна [ИП Ахаян А.А.], гос. рег. 306784721900012 от 07,08,2006.