82547 | ИПУ РАН

Автор(ы):

Автор(ов):

Параметры публикации

Тип публикации:

Тезисы доклада

Название:

Распознавание таблиц в форматированных документах

ISBN/ISSN:

978-5-907366-77-0

Наименование конференции:

14-я Международная конференция "Интеллектуализация обработки информации" (Москва, 2022)

Наименование источника:

Материалы 14-й Международной конференции "Интеллектуализация обработки информации" (Москва, 2022)

Город:

Москва

Издательство:

Российская Академия наук

Год издания:

2022

Страницы:

355-357

Аннотация

При поиске заимствований в письменных работах значительной проблемой является распознавание отдельных структурных элементов документа: таблиц, иллюстраций, оглавления, библиографии. Без точного определения структурного элемента, к которому относится конкретный фрагмент текста, невозможен учет особенностей этого структурного элемента при выявлении заимствований. Растет количество ложноположительных и ложноотрицательных ошибок, как и количество методов маскировки заимствований для недобросовестных пользователей. В докладе предлагается мультиязычный метод распознавания таблиц. Мы провели сравнение с другими решениями: PDF Plumber и CascadeNet. Скорость работы всех решений, кроме CascadeNet, проверялась на одной и той же машине, CascadeNet дополнительно потребовал подключения GPU. Предложенный метод показал лучшее качество и скорость работы, чем аналогичные методы распознавания таблиц.

Библиографическая ссылка:

Копаничук И.В., Очнева И.М., Огальцов А.В., Каприелова М.С., Финогеев Е.Л., Кильдяков А.С., Чехович Ю.В. Распознавание таблиц в форматированных документах / Материалы 14-й Международной конференции "Интеллектуализация обработки информации" (Москва, 2022). М.: Российская Академия наук, 2022. С. 355-357.