82371

Автор(ы): 

Автор(ов): 

7

Параметры публикации

Тип публикации: 

Статья в журнале/сборнике

Название: 

Поиск текстовых заимствований в рукописных текстах

ISBN/ISSN: 

2686-9543

DOI: 

10.31857/S2686954323601720

Наименование источника: 

  • Доклады Российской академии наук. Математика, информатика, процессы управления

Обозначение и номер тома: 

Т. 514, № 2

Город: 

  • Москва

Издательство: 

  • ФГБУ "Издательство "Наука"

Год издания: 

2023

Страницы: 

297-307
Аннотация
Поиск заимствований в учебных работах становится в последнее время все более актуальной задачей. Повышение популярности онлайн-образования, активная экспансия онлайн-платформ, ориентированных на среднее образование, формируют потребность в инструменте, способном проверять на заимствования рукописные работы школьников. Существующие подходы к поиску рукописных заимствований не подходят для быстрой проверки значительного количества работ по большими коллекциям потенциальных источников. Это существенно ограничивает их применимость. Кроме того, на практике требуется обрабатывать изображения текстовых страниц посредственного качества, выполненные, как правило, с помощью фотокамер мобильных телефонов. Мы предлагаем метод, который позволяет выявлять заимствованные фрагменты текста в документах, представленных в виде изображений (фотографий) рукописных текстов, при сопоставлении с большими коллекциями источников. Метод включает в себя три этапа: распознавание символов рукописного текста, поиск кандидатов и последующий точный поиск источника заимствований. В работе приведены результаты экспериментов по оценке качества и производительности разработанной системы. Полнота поиска заимствований в рукописных документах достигает 83.3% при обработке изображений высокого качества и 77.4% при обработке изображений худшего качества. Время выполнения поиска для одного документа по коллекции источников из 100 000 документов составляет в среднем 3.2 с при использовании CPU. Результаты показали, что созданная нами система может быть масштабирована и использована для промышленных задач, требующих быстрой проверки сотен тысяч школьных сочинений по большому количеству потенциальных источников заимствований. Все эксперименты проводились на открытом наборе данных HWR200.

Библиографическая ссылка: 

Грабовой А.В., Каприелова М.С., Кильдяков А.С., Потяшин И.О., Сейил Т.Б., Финогеев Е.Л., Чехович Ю.В. Поиск текстовых заимствований в рукописных текстах // Доклады Российской академии наук. Математика, информатика, процессы управления. 2023. Т. 514, № 2. С. 297-307.