82545 | ИПУ РАН

Автор(ы):

Сафин К. Ф. (Московский физико-технический институт)

Чехович Ю. В. (ИПУ РАН, Лаборатория 42)

Автор(ов):

Параметры публикации

Тип публикации:

Тезисы доклада

Название:

Анализ на внутренние заимствования как способ отбора высокооригинальных документов

ISBN/ISSN:

978-5-907366-77-0

Наименование конференции:

14-я Международная конференция "Интеллектуализация обработки информации" (Москва, 2022)

Наименование источника:

Материалы 14-й Международной конференции "Интеллектуализация обработки информации" (Москва, 2022)

Город:

Москва

Издательство:

Российская Академия наук

Год издания:

2022

Страницы:

325-326

Аннотация

Рассматривается задача обнаружения некорректных текстовых заимствований. Поиск заимствований в текстовых документах является сложной, но в то же время востребованной задачей, особенно в академической и студенческой средах. Можно выделить два глобальных подхода к задаче поиска некорректных заимствований в тексте: поиск внешних заимствований (external plagiarism detection) и поиск внутренних заимствований (intrinsic plagiarism detection). Поиск внешних заимствований представляет собой поиск по внешней коллекции документов, которые могли быть использованы в качестве источника заимствования. Поиск внутренних заимствований же, наоборот, не использует внешнюю коллекцию потенциальных источников, а анализирует текст изолированно. Методы поиска заимствований по внешней коллекции являются точными, так как обнаруживают точные совпадения в анализируемом тексте и в тексте источнике. Однако они являются ресурсоемкими, так как размеры коллекций для поиска как правило очень большие. Методы поиска внутренних заимствований, напротив, являются гораздо менее точными, так как выявляют нерегулярности в стиле письма автора, которые не обязательно могут оказаться заимствованиями. Описывается вычислительный эксперимент, демонстрирующий работоспособность данного метода, а также объем сэкономленных вычислительных ресурсов. Показывается, что на размеченных и синтетических данных подход позволяет сократить поток документов, которым не требуется детальная проверка, почти на треть. При этом важно подчеркнуть, что это не только ускоряет время обработки отдельных документов, а позволяет использовать вычислительные ресурсы более целенаправленно, то есть детально анализировать именно те документы, которые нуждаются в такой проверке.

Библиографическая ссылка:

Сафин К.Ф., Чехович Ю.В. Анализ на внутренние заимствования как способ отбора высокооригинальных документов / Материалы 14-й Международной конференции "Интеллектуализация обработки информации" (Москва, 2022). М.: Российская Академия наук, 2022. С. 325-326.