Разработка и оценка алгоритма лексической субституции для русского языка на основе предсказывающих нейросетевых моделей

Авторы:
Аннотация:

Статья посвящена опыту разработки и оценки алгоритма лексической субституции для русского языка. Задача лексической субституции, заключающаяся в подборе подходящей замены для целевого слова в контексте, активно исследовалась в течение последних нескольких десятилетий применительно к английскому и некоторым другим европейским языкам, но не русскому. Кроме того, большинство алгоритмов не принимают во внимание тип семантических отношений, связывающих замены с целевым словом. Алгоритм, рассматриваемый в статье, работает с русским языком и подбирает замены трех типов: синонимы, гиперонимы и гипонимы целевого слова. Для отбора кандидатов используется лексическая база данных RuWordNet, а в основе алгоритма ранжирования кандидатов лежат статичные предсказывающие векторные представления слов fastText. Оценка алгоритма лексической субституции проведена посредством психолингвистического эксперимента, результаты которого анализируются в статье. Полученные результаты могут представлять интерес для специалистов в области компьютерной лингвистики и искусственного интеллекта и могут быть применены в таких задачах обработки и анализа естественного языка, как перефразирование, машинный перевод, упрощение текстов, а также в лингводидактике.