Searching for multicomponent terms in comparable scientific corpora
В статье предлагается использование полнотекстовых сопоставимых корпусов научных текстов со встроенной частью в виде выровненных результатов машинного перевода (МП). Такой корпус предназначен для решения задач извлечения, гармонизации и перевода терминологии, поскольку анализ и сравнение этих текстов позволяет идентифицировать терминологические единицы для формирования словарных статей. Особое внимание уделяется сложным и непараллельным структурам английских многокомпонентных терминологических именных групп, их вариантов и модификаций в рамках одного текста, что определяет необходимость трехчастного корпуса текстов, включающего параллельные/сопоставимые тексты и их машинный перевод. Исследование подтвердило, что многокомпонентные терминологические именные группы не только характерны для научных текстов, но демонстрируют многозначные отношения зависимостей, вызванные их синтаксической компрессией, что как правило является результатом свертки предложения или именной группы. Эти модификации в свою очередь являются результатом стандартных процедур, описанных в статье.