Тематическое моделирование в задаче автоматической рубрикации новостных текстов

Авторы:
Аннотация:

Тематическое моделирование широко используется в рамках интеллектуального анализа текстов на естественном языке, в ходе которого посредством статического анализа текстов обнаруживается скрытая тематическая структура. В данной статье предлагается подход к автоматической рубрикации новостных статей с использованием методов тематического моделирования в сочетании с процедурой автоматического назначения меток тем. Тематическое моделирование осуществляется при помощи ряда алгоритмов на языке программирования Python, включая латентное размещение Дирихле (latent Dirichlet allocation, LDA), неотрицательное матричное разложение (non-negative matrix factorization, NMF) и генеративную модель битермов (biterm topic model, BTM). Для автоматического назначения меток тем применяется подход с использованием языковой модели ChatGPT. Оценка кандидатов в метки основана на результатах опроса респондентов. Проведенные эксперименты показывают, что предложенный алгоритм может служить эффективным средством в задаче автоматической рубрикации текстов. Полученные результаты представляют интерес для специалистов в области прикладной и компьютерной лингвистики, медиакоммуникаций и научной журналистики.