82464 | ИПУ РАН

Автор(ы):

Сафин К. Ф. (Московский физико-технический институт)

Чехович Ю. В. (ИПУ РАН, Лаборатория 42)

Автор(ов):

Параметры публикации

Тип публикации:

Тезисы доклада

Название:

Определение факта заимствования в текстовых документах без указания источника

ISBN/ISSN:

978-5-907366-47-3

Наименование конференции:

20-я Всероссийская конференция с международным участием "Математические методы распознавания образов" (Москва, 2021)

Наименование источника:

Сборник тезисов 20-й Всероссийской конференции с международным участием "Математические методы распознавания образов" (Москва, 2021)

Город:

Москва

Издательство:

Российская Академия наук

Год издания:

2021

Страницы:

300-301

Аннотация

Существует два глобальных подхода к задаче поиска заимствований в тексте: обнаружение «внешних» и «внутренних» заимствований. Первый подход представляет собой поиск по внешней коллекции документов, которые могли были быть использованы для заимствования. Второй подход же, наоборот, не использует никаких внешних данных, а анализирует текст изолированно. Корпус документов для поиска внешних заимствований, как правило, довольно большой, а значит и поиск по нему является тяжелой вычислительной задачей. Поэтому корпус документов заранее подготавливают (например, индексируют). Тем не менее, задача поиска заимствований по внешнему корпусу остается ресурсоемкой. При поиске внутренних заимствований внешний корпус документов не используется. При поиске анализируются различные стилистические, синтаксические, орфографические особенности текста. Предлагается совместить эти два подхода для ускорения поиска текстовых заимствований. При большом потоке документов, которые необходимо проверить на наличие заимствований, система поиска по внешнему корпусу обрабатывает каждый документ и в каждом находит блоки заимствований, если такие имеются. Однако можно использовать поиск внутренних заимствований для определения факта наличия заимствований как таковых. Предлагаемый метод позволяет фильтровать тексты с высоким показателем оригинальности, которые не нуждаются в дополнительной проверке. Поэтому основной метрикой при настройке параметров алгоритма является полнота среди текстов с заимствованиями. В работе используется корпус текстов, подготовленных и размеченных в рамках конкурса PAN-2020. Корпус содержит документы на английском языке. Каждый документ может содержать от 0 до 10 вставок текста другого авторства.

Библиографическая ссылка:

Сафин К.Ф., Чехович Ю.В. Определение факта заимствования в текстовых документах без указания источника / Сборник тезисов 20-й Всероссийской конференции с международным участием "Математические методы распознавания образов" (Москва, 2021). М.: Российская Академия наук, 2021. С. 300-301.