82323

Автор(ы): 

Автор(ов): 

4

Параметры публикации

Тип публикации: 

Статья в журнале/сборнике

Название: 

Поиск почти дубликатов изображений рукописных текстов для высоконагруженных сервисов

ISBN/ISSN: 

1029-3620

DOI: 

10.31857/S0002338824040085

Наименование источника: 

  • Известия Российской академии наук. Теория и системы управления

Обозначение и номер тома: 

№4

Город: 

  • Москва

Издательство: 

  • ФГБУ "Издательство "Наука"

Год издания: 

2024

Страницы: 

129-138
Аннотация
Решение задачи поиска заимствований в рукописных текстах становится год от года более актуальным. Одним из видов заимствований является почти дублирование рукописной работы – съемка того же рукописного текста в других условиях или использование различных аугментаций. Существующие подходы к обнаружению почти дубликатов не приспособлены к работе с большими коллекциями, что существенно ограничивает их использование на практике. Представлен метод на основе машинного обучения, который позволяет производить обнаружение почти дубликатов изображений рукописных текстов среди больших коллекций потенциальных источников. Процесс включает в себя три основных этапа: перевод изображения в векторное представление, поиск кандидатов и последующий отбор источника дублирования среди кандидатов. Приведены результаты экспериментов по оценке качества и производительности разработанной системы: достигнуты 59 и 80% полноты и 5.5 и 4.8% доли ложноположительных срабатываний приближенных к реальным и синтетических данных соответственно, время работы метода составляет 5.5 с/запрос при размере коллекции около 10 тыс. изображений. Результаты показали, что созданный метод может быть использован для решения задач, требующих проверки рукописных документов по большому количеству потенциальных источников заимствований.

Библиографическая ссылка: 

Варламова К.Д., Каприелова М.С., Потяшин И.О., Чехович Ю.В. Поиск почти дубликатов изображений рукописных текстов для высоконагруженных сервисов // Известия Российской академии наук. Теория и системы управления. 2024. №4. С. 129-138.