82331 | ИПУ РАН

Автор(ы):

Автор(ов):

Параметры публикации

Тип публикации:

Статья в журнале/сборнике

Название:

Методы обнаружения переводных заимствований в больших текстовых коллекциях

ISBN/ISSN:

1992-2264

DOI:

10.14357/19922264210105

Наименование источника:

Информатика и её применения

Обозначение и номер тома:

Т. 15, вып. 1

Город:

Москва

Издательство:

ФГУ "Федеральный исследовательский центр "Информатика и управление " Российской академии наук"

Год издания:

2021

Страницы:

30-41

Аннотация

Рассматривается задача обнаружения переводных заимствований. Для решения предлагается использовать моноязыковой подход — свести задачу обнаружения заимствований к одному языку, используя машинный перевод. В связи со спецификой рассматриваемой задачи предлагаемый алгоритм обнаружения должен быть устойчив к неоднозначностям перевода. Предлагается декомпозировать задачу на несколько этапов. Сначала отбираются документы-кандидаты, устойчивость к неоднозначности перевода достигается за счет замены слов на метки кластеров, полученных с помощью дистрибутивной модели. Затем происходит сравнение найденных кандидатов и рассматриваемого документа, для этого используется отображение текстовых фрагментов документов в векторное пространство высокой размерности. Вычислительный эксперимент проводится для языковой пары «русский–английский» на двух выборках — синтетическом корпусе и на статьях из журналов, входящих в Российский индекс научного цитирования (РИНЦ).

Библиографическая ссылка:

Кузнецова М.В., Бахтеев О.Ю., Чехович Ю.В. Методы обнаружения переводных заимствований в больших текстовых коллекциях // Информатика и её применения. 2021. Т. 15, вып. 1. С. 30-41.