Статистические методы в лексикографических исследованиях: представление частотной лексики

Авторы:
Аннотация:

Статистические методы используются в лингвистике на протяжении долгого времени. Однако в последнее время в связи с развитием информационных технологий статистический аппарат получил свое второе развитие и стал более активно применяться для решения прикладных задач, в том числе при обработке и представлении текстовых данных. Целью работы является описание ряда статистических метрик, которые используются в лексикографических исследованиях, на примере частотного словаря русского языка, корпусов текстов и баз данных, в которых содержится информация сочетаемости лексических единиц. Данные показатели используются для дифференциации лексики по разным основаниям, представления высоко- и низкочастотных единиц, выделения слов и устойчивых словосочетаний, характерных для текстов определенного стиля или темы. Также в статье содержится краткий исторический обзор применения количественных методов к анализу текстов и обсуждаются вопросы, связанные со статистической лексикографией.