Лингвистические параметры для идентификации скрытых сетевых сообществ
Современные процедуры лингвистической диагностики нуждаются в усовершенствовании применительно к изучению текстов социальных сетей. Одна из проблем, требующих решения, – это выявление лингвистических признаков текстов, значимых для профилирования пользователей – участников скрытых сообществ. Целью данного исследования является разработка гибридного алгоритма обнаружения скрытых сетевых сообществ, учитывающего интересы пользователей, тематику их постов и опирающегося на контекстуализированные языковые модели. Выбор данного подхода обусловлен тем, что алгоритмы выделения скрытых сообществ, основанные на математических методах, используют формальные показатели без учета лингвистических параметров текстов. Это может привести к искажению реального количества и свойств скрытых сообществ. Материалом исследования является корпус русскоязычных постов социальной сети ВКонтакте объемом более 10000 текстов. В результате эксперимента по применению гибридного алгоритма, предложенного авторами статьи, было выделено 34 скрытых сообщества. Авторская методика выявления и профилирования скрытых сообществ представляет интерес для специалистов в области медиаисследований, которые изучают архитектуру социальных сетей. Методику можно внедрить в существующие системы автоматической модерации групп и системы прогнозирования сетевых тенденций.