Именованные сущности в немецкоязычной прессе: корпусный и экспертный анализ
Анализ имен собственных, упоминаемых в новостных текстах, представляет отдельный исследовательский интерес, поскольку позволяет косвенным образом определить затрагиваемые в изданиях темы. В статье представлены результаты анализа автоматической процедуры по извлечению именованных сущностей на материале немецкоязычной прессы. Исследование было проведено на материале как общегерманских изданий, нацеленных на широкий охват аудитории, так и региональных и локальных газет, ориентированных на более узкую аудиторию федеральных земель Германии. Работа осуществлялась в два этапа: в ходе первого этапа при помощи инструмента Stanza из текстов каждого издания, а также из всей коллекции статей в целом были извлечены сущности, принадлежащие к одной из трех категорий (антропонимы, эргонимы и топонимы), далее для первых 50 частотных единиц были построены семантические сети, отражающие отношения между ними. На следующем этапе работы упомянутые имена собственные были подвергнуты экспертному анализу с последующей кластеризацией, позволившей, во-первых, выделить ополнительные темы, которые не были выявлены на предыдущем шаге при помощи автоматической процедуры, а во-вторых, осуществить глубинный анализ. Результаты показывают превалирование привнесенных в медийное поле тематик, связанных с современной концепцией политического образования, в материалах общегерманской прессы, в то время как локальная тематика по большей части сконцентрировала на местной повестке. Автоматическое выделение именованных сущностей может рассматриваться как необходимый этап для последующего дискурсивного анализа, при этом полученный материал нуждается в дополнительной экспертной оценке.