При поиске заимствований в письменных работах значительной проблемой является распознавание отдельных структурных элементов документа: таблиц, иллюстраций, оглавления, библиографии. Без точного определения структурного элемента, к которому относится конкретный фрагмент текста, невозможен учет особенностей этого структурного элемента при выявлении заимствований.
Растет количество ложноположительных и ложноотрицательных ошибок, как и количество методов маскировки заимствований для недобросовестных пользователей. В докладе предлагается мультиязычный метод распознавания таблиц. Мы провели сравнение с другими решениями: PDF Plumber и CascadeNet. Скорость работы всех решений, кроме CascadeNet, проверялась на одной и той же машине, CascadeNet дополнительно потребовал подключения GPU.
Предложенный метод показал лучшее качество и скорость работы, чем аналогичные методы распознавания таблиц.