В работе рассматривается задача поиска почти-дубликатов текстов школьных сочинений в больших коллекциях данных. Предпосылками к решению данной задачи является возможность школьников применять для написания выпускных сочинений заранее заготовленные тексты, в том числе полученные из открытых коллекций школьных сочинений. Актуальность задачи подтверждается работами [1, 2], посвященными анализу нарушений при написании академических испытаний, а также частичному переходу школьного образования на удаленный режим.
Задача поиска почти-дубликатов рассматривается как задача информационного поиска, где сочинению ставится в соответствие заимствованный текст из коллекции. В рамках рассматриваемой задачи сочинение представляется набором изображений рукописного текста, написанного автором, в то время как документы из коллекции представимы в виде машиночитаемых текстов.