Влияние предварительной обработки набора данных на концептуальную разметку текстовых токенов на основе двунаправленной LSTM

Авторы:
Аннотация:

В статье рассматривается проблема предварительной обработки набора данных на естественном языке для повышения качества работы нейросетевой модели. Цель исследования – выяснить параметры предварительной обработки набора текстовых данных, обеспечивающие более высокие показатели качества модели, направленной на соотнесение текстового ввода (последовательности лексических единиц) с семантическими (концептуальными) классами, т.е. на концептуальную разметку текста. Наша методология включает в себя: а) моделирование концептуального аннотирования текстовых единиц; б) экспериментирование с вариантами предварительной обработки набора текстовых данных. Специфика модели концептуального аннотирования, которую мы предлагаем, состоит в том, что она принимает на вход токены (в нижнем регистре), представляющие собой слова и многокомпонентные лексические единицы (словосочетания), некоторые из них аннотированы концептами предметной области. Поскольку каждый токен может относиться к нескольким концептуальным классам, задача разметки концептов ставится как задача классификации по нескольким меткам. В данном исследовании мы используем в качестве материала корпус новостных сообщений о террористических актах на английском языке. Мы экспериментировали с предварительной обработкой набора данных на основе корпуса путем: а) лемматизации токенов; б) удаления стоп-слов; в) включения разделителей предложений в качестве отдельных токенов в словарь модели. Модель классификации с несколькими метками, используемая для экспериментов с обучением, представляла собой нейронную сеть, которая строит последовательности эмбеддингов лексических единиц и передает их на обработку в последовательно расположенные двунаправленные слои долгой краткосрочной памяти (Bi-LSTM-слои). Результаты экспериментов показывают, что набор данных, предварительно обработанный в соответствии со всеми вышеупомянутыми процедурами, продемонстрировал самые высокие микро-, макро- и средневзвешенные значения показателя F1. Поклассовая оценка F1 достигает на тестовом наборе данных значения 88% для класса, характеризующегося большой употребительностью и низкой лексической вариативностью в обучающей, проверочной и тестовой выборках. Новизна работы заключается в предложенном подходе к контент-анализу новостных сообщений о терактах с использованием предложенной модели классификации по нескольким меткам. Новые результаты были получены в ходе экспериментов с различными предварительно обработанными корпусами новостей о терактах. Предложенная методика может быть масштабирована для проведения контент-анализа новостных сообщений, специфичных для других предметных областей.