82547

Автор(ы): 

Автор(ов): 

7

Параметры публикации

Тип публикации: 

Тезисы доклада

Название: 

Распознавание таблиц в форматированных документах

ISBN/ISSN: 

978-5-907366-77-0

Наименование конференции: 

  • 14-я Международная конференция "Интеллектуализация обработки информации" (Москва, 2022)

Наименование источника: 

  • Материалы 14-й Международной конференции "Интеллектуализация обработки информации" (Москва, 2022)

Город: 

  • Москва

Издательство: 

  • Российская Академия наук

Год издания: 

2022

Страницы: 

355-357
Аннотация
При поиске заимствований в письменных работах значительной проблемой является распознавание отдельных структурных элементов документа: таблиц, иллюстраций, оглавления, библиографии. Без точного определения структурного элемента, к которому относится конкретный фрагмент текста, невозможен учет особенностей этого структурного элемента при выявлении заимствований. Растет количество ложноположительных и ложноотрицательных ошибок, как и количество методов маскировки заимствований для недобросовестных пользователей. В докладе предлагается мультиязычный метод распознавания таблиц. Мы провели сравнение с другими решениями: PDF Plumber и CascadeNet. Скорость работы всех решений, кроме CascadeNet, проверялась на одной и той же машине, CascadeNet дополнительно потребовал подключения GPU. Предложенный метод показал лучшее качество и скорость работы, чем аналогичные методы распознавания таблиц.

Библиографическая ссылка: 

Копаничук И.В., Очнева И.М., Огальцов А.В., Каприелова М.С., Финогеев Е.Л., Кильдяков А.С., Чехович Ю.В. Распознавание таблиц в форматированных документах / Материалы 14-й Международной конференции "Интеллектуализация обработки информации" (Москва, 2022). М.: Российская Академия наук, 2022. С. 355-357.