82364

Автор(ы): 

Автор(ов): 

2

Параметры публикации

Тип публикации: 

Статья в журнале/сборнике

Название: 

О комбинированном алгоритме обнаружения заимствований в текстовых документах

ISBN/ISSN: 

2079-8156

DOI: 

10.15514/ISPRAS-2022-34(1)-11

Наименование источника: 

  • Труды Института системного программирования РАН

Обозначение и номер тома: 

Т. 34, № 1

Город: 

  • Москва

Издательство: 

  • Институт системного программирования РАН

Год издания: 

2022

Страницы: 

151-160
Аннотация
Поиск заимствований в текстовом документе по отношению к обширной коллекции потенциальных источников является вычислительно тяжелой задачей. При этом существуют так называемые внутренние методы поиска заимствований, которые не используют внешний корпус, а анализируют исключительно проверяемый документ. Эти методы не отличаются точностью, но обеспечивают довольно высокую производительность. В работе предложен комбинированный подход к обнаружению текстовых заимствований, основанный на использовании внутренних методов для выявления высокооригинальных документов, проверка которых по внешней коллекции не требуется. Предлагаемый алгоритм призван разгрузить систему поиска заимствований по внешней коллекции, отфильтровывая документы с высокой степенью оригинальности. В работе предлагается алгоритм поиска внутренних заимствований, описываются результаты вычислительных экспериментов.

Библиографическая ссылка: 

Сафин К.Ф., Чехович Ю.В. О комбинированном алгоритме обнаружения заимствований в текстовых документах // Труды Института системного программирования РАН. 2022. Т. 34, № 1. С. 151-160.