82545

Автор(ы): 

Автор(ов): 

2

Параметры публикации

Тип публикации: 

Тезисы доклада

Название: 

Анализ на внутренние заимствования как способ отбора высокооригинальных документов

ISBN/ISSN: 

978-5-907366-77-0

Наименование конференции: 

  • 14-я Международная конференция "Интеллектуализация обработки информации" (Москва, 2022)

Наименование источника: 

  • Материалы 14-й Международной конференции "Интеллектуализация обработки информации" (Москва, 2022)

Город: 

  • Москва

Издательство: 

  • Российская Академия наук

Год издания: 

2022

Страницы: 

325-326
Аннотация
Рассматривается задача обнаружения некорректных текстовых заимствований. Поиск заимствований в текстовых документах является сложной, но в то же время востребованной задачей, особенно в академической и студенческой средах. Можно выделить два глобальных подхода к задаче поиска некорректных заимствований в тексте: поиск внешних заимствований (external plagiarism detection) и поиск внутренних заимствований (intrinsic plagiarism detection). Поиск внешних заимствований представляет собой поиск по внешней коллекции документов, которые могли быть использованы в качестве источника заимствования. Поиск внутренних заимствований же, наоборот, не использует внешнюю коллекцию потенциальных источников, а анализирует текст изолированно. Методы поиска заимствований по внешней коллекции являются точными, так как обнаруживают точные совпадения в анализируемом тексте и в тексте источнике. Однако они являются ресурсоемкими, так как размеры коллекций для поиска как правило очень большие. Методы поиска внутренних заимствований, напротив, являются гораздо менее точными, так как выявляют нерегулярности в стиле письма автора, которые не обязательно могут оказаться заимствованиями. Описывается вычислительный эксперимент, демонстрирующий работоспособность данного метода, а также объем сэкономленных вычислительных ресурсов. Показывается, что на размеченных и синтетических данных подход позволяет сократить поток документов, которым не требуется детальная проверка, почти на треть. При этом важно подчеркнуть, что это не только ускоряет время обработки отдельных документов, а позволяет использовать вычислительные ресурсы более целенаправленно, то есть детально анализировать именно те документы, которые нуждаются в такой проверке.

Библиографическая ссылка: 

Сафин К.Ф., Чехович Ю.В. Анализ на внутренние заимствования как способ отбора высокооригинальных документов / Материалы 14-й Международной конференции "Интеллектуализация обработки информации" (Москва, 2022). М.: Российская Академия наук, 2022. С. 325-326.