ОБРОБКА ПРИРОДНОЇ МОВИ УКРАЇНСЬКОЮ: ВИКЛИКИ ТА ПЕРСПЕКТИВИ ВИКОРИСТАННЯ ШТУЧНОГО ІНТЕЛЕКТУ В ОСВІТІ

  • Б.Д. Пацай Київський національний університет імені Тараса Шевченка
  • І.М. Нечипорук Ірпінський ліцей інноваційних технологій
  • А.О. Ковтун Ірпінський ліцей інноваційних технологій
Ключові слова: обробка природньої мови, self-attention, векторні представлення, токенізація, BERT, штучний інтелект

Анотація

Стаття присвячена дослідженню проблем, пов’язаних із використанням технологій обробки природної мови (NLP) для аналізу та генерації навчальних матеріалів українською мовою. Автори акцентують увагу на труднощах, які виникають через обмежені ресурси української мови, зокрема недостатню кількість корпусів текстів для тренування моделей штучного інтелекту. У статті розглядаються основні причини низької якості результатів, отриманих від NLP-моделей, зокрема нерелевантні навчальні дані, неправильна токенізація, відсутність аналізу контексту та логічних зв’язків у тексті. Дослідження включає порівняння роботи мовних моделей OpenAI та BERT, зокрема їх точність, контекстуальність та адаптивність до української мови. Автори пропонують використання двонаправленого аналізу контексту, який застосовується в моделі BERT, для покращення розуміння тексту та генерації тестів. Експериментальна частина роботи демонструє, що налаштування токенізації, фільтрація стоп-слів та використання алгоритмів self-attention значно підвищують якість роботи моделей. Стаття підкреслює необхідність розробки спеціалізованих моделей, адаптованих до особливостей української мови, а також збільшення обсягів навчальних даних для професійних сфер. Висновки дослідження вказують на перспективність використання NLP у освіті, але за умови подальшого вдосконалення технологій та їх адаптації до мовних реалій. Дане дослідження може бути використано для подальшої адаптації мовних моделей для розробки тестових завдань.

Посилання

Berment V. Méthodes pour informatiser les langues et les groupes de langues «peu dotées» : Doctoral dissertation, Université Joseph-Fourier-Grenoble I / Université Joseph-Fourier-Grenoble I, 2004.

Hamotskyi S., Levbarg A. I., Hänig C. Eval-UA-tion 1.0: Benchmark for Evaluating Ukrainian (Large) Language Models: Proceedings of the Third Ukrainian Natural Language Processing Workshop (UNLP)@ LREC-COLING 2024. 2024. May. P. 109–119.

Cambria E., White B. Jumping NLP Curves: A Review of Natural Language Processing Research. IEEE Computational Intelligence Magazine. 2014. Vol. 9, No. 2. P. 48–57. DOI: https://doi.org/10.1109/MCI.2014.2307227.

Vysotska V. Computer linguistic system modelling for Ukrainian language processing. CEUR Workshop Proceedings. 2024. Vol. 3722. P. 288–342.

Vysotska V., Pukach P., Lytvyn V., Uhryn D., Ushenko Y., Hu Z. Intelligent analysis of Ukrainian-language tweets for public opinion research based on NLP methods and machine learning technology. International Journal of Modern Education and Computer Science (IJMECS). 2023. Vol. 15, No. 3. P. 70–93. DOI: https://doi.org/10.5815/ijmecs.2023.03.06.

Mashtalir S. V., Nikolenko O. V. Data preprocessing and tokenization techniques for technical Ukrainian texts. Applied Aspects of Information Technology. 2023. Т. 6, № 3. С. 318–326. DOI: https://doi.org/10.15276/aait.06.2023.22.

Glorot X., Bengio Y. Understanding the difficulty of training deep feedforward neural networks. Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics. 2010. March. P. 249–256.

Norouzi M., Mikolov T., Bengio S., Singer Y., Shlens J., Frome A., Dean J. Zero-shot learning by convex combination of semantic embeddings. arXiv preprint arXiv:1312.5650. 2013. DOI: https://doi.org/10.48550/arXiv.1312.5650.

Rodriguez P. L., Spirling A. Word embeddings: What works, what doesn’t, and how to tell the difference for applied research. The Journal of Politics. 2022. Vol. 84, No. 1. P. 101–115. DOI: https://doi.org/10.1086/715162.

Tenney I. BERT rediscovers the classical NLP pipeline. arXiv preprint arXiv:1905.05950. 2019. DOI: https://doi.org/10.48550/arXiv.1905.05950.

Elov B. B., Khamroeva S. M., Xusainova Z. Y. The pipeline processing in NLP: E3S Web of Conferences. 2023. DOI: https://doi.org/10.1051/e3sconf/202341303011.

Im J., Cho S. Distance-based self-attention network for natural language inference. arXiv preprint arXiv:1712.02047. 2017. DOI: https://doi.org/10.48550/arXiv.1712.02047.

Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A., Polosukhin I. Attention is all you need: NIPS. 2017. December.

Переглядів статті: 10
Завантажень PDF: 5
Опубліковано
2025-01-27
Як цитувати
Пацай, Б., Нечипорук, І., & Ковтун, А. (2025). ОБРОБКА ПРИРОДНОЇ МОВИ УКРАЇНСЬКОЮ: ВИКЛИКИ ТА ПЕРСПЕКТИВИ ВИКОРИСТАННЯ ШТУЧНОГО ІНТЕЛЕКТУ В ОСВІТІ. Цифрова економіка та економічна безпека, (1 (16), 172-179. https://doi.org/10.32782/dees.16-26