Виправлення помилок лематизації тексту за допомогою словника
Date Issued
2023
Author(s)
Смиш, О. Р.
Жежерун, О. П.
Abstract
Працюючи з обробкою природної мови важливим аспектом є точність отримуваних даних. У власному дисертаційному дослідженні, присвяченому створенню системи для розв’язування задач з геометрії, які записані природною українською мовою [1], головною і першочерговою частиною застосунку є модуль обробки тексту задач. Цей модуль поетапно виконує попереднє опрацювання сирого тексту, далі застосовує UDPipe [2] аналізатор для токенізації, теґування, лематизації та аналізу залежностей, потім проводить уніфікацію словосполук. Хоча для української мови UD 2.10 демонструє точність лематизації понад 97% [3], помилки трапляються, – інколи аналізатор може залишити початкове слово без змін або ж некоректно змінити це слово.
File(s)![Thumbnail Image]()
Loading...
Name
Наукова_весна_2023-193-194.pdf
Size
319.98 KB
Format
Adobe PDF
Checksum
(MD5):4a37009150c3d45f5ca0f0de67839f09