Ключевые выражения в русскоязычных научно-популярных текстах: сравнение восприятия устной и письменной речи с результатами автоматического анализа
Процесс передачи информации может осуществляться посредством устной и письменной речи. Механизмы восприятия содержания письменных и устных текстов проявляются на разных уровнях компонентов коммуникации и понимания текста, включая уровень выделения ключевых выражений. Ключевые выражения представляют основополагающую информацию о тексте в компактной форме, способствуя структурированию текстов, их классификации и быстрой оценке содержимого. Цель данного исследования заключается в анализе различий, возникающих при восприятии одного и того же текста, представленного в письменной и устной формах. В рамках исследования были рассмотрены как письменные, так и устные русскоязычные тексты. Исследование включало в себя выделение ключевых выражений как вручную, так и автоматическими методами. Этот подход был выбран с целью выявления алгоритмов, способных приближенно воспроизводить механизмы выбора ключевых выражений, используемых носителями языка. Эксперименты были проведены на материале аудиозаписей и транскриптов выступлений русскоязычных лекторов проекта «Постнаука». Для автоматического выделения ключевых фраз в письменных текстах были применены следующие алгоритмы: статистические (Log-Likelihood, T-test, PMI test, Chi-square), гибридные (RAKE, RuTermExtract, SpaCy), с использованием машинного обучения (KeyBERT) и ChatGPT. Ручная аннотация была получена в ходе перцептивных экспериментов с привлечением русскоязычных участников. Дополнительно было проанализировано распределение ключевых выражений в структуре текстов. Результаты, полученные с применением автоматических алгоритмов выделения ключевых выражений, и результаты перцептивных экспериментов демонстрируют низкий уровень соответствия между выделенными ключевыми выражениями. Были исследованы возможности различных автоматических алгоритмов извлечения ключевых выражений и установлены ограничения при их применении в анализе письменных и устных текстов. Наши наблюдения указывают на то, что для создания эффективных методов выделения ключевых выражений необходимо учитывать типологические характеристики естественных языков, представленных в анализируемых текстах, предметные области текстов, а также наличие необходимых лингвистических и программных ресурсов. Также были получены свидетельства в пользу того, что выбор метода выделения ключевых выражений должен основываться на критериях, связанных не только с устойчивостью и частотностью ключевых выражений, но и с их восприятием.