82331

Автор(ы): 

Автор(ов): 

3

Параметры публикации

Тип публикации: 

Статья в журнале/сборнике

Название: 

Методы обнаружения переводных заимствований в больших текстовых коллекциях

ISBN/ISSN: 

1992-2264

DOI: 

10.14357/19922264210105

Наименование источника: 

  • Информатика и её применения

Обозначение и номер тома: 

Т. 15, вып. 1

Город: 

  • Москва

Издательство: 

  • ФГУ "Федеральный исследовательский центр "Информатика и управление " Российской академии наук"

Год издания: 

2021

Страницы: 

30-41
Аннотация
Рассматривается задача обнаружения переводных заимствований. Для решения предлагается использовать моноязыковой подход — свести задачу обнаружения заимствований к одному языку, используя машинный перевод. В связи со спецификой рассматриваемой задачи предлагаемый алгоритм обнаружения должен быть устойчив к неоднозначностям перевода. Предлагается декомпозировать задачу на несколько этапов. Сначала отбираются документы-кандидаты, устойчивость к неоднозначности перевода достигается за счет замены слов на метки кластеров, полученных с помощью дистрибутивной модели. Затем происходит сравнение найденных кандидатов и рассматриваемого документа, для этого используется отображение текстовых фрагментов документов в векторное пространство высокой размерности. Вычислительный эксперимент проводится для языковой пары «русский–английский» на двух выборках — синтетическом корпусе и на статьях из журналов, входящих в Российский индекс научного цитирования (РИНЦ).

Библиографическая ссылка: 

Кузнецова М.В., Бахтеев О.Ю., Чехович Ю.В. Методы обнаружения переводных заимствований в больших текстовых коллекциях // Информатика и её применения. 2021. Т. 15, вып. 1. С. 30-41.