Задача автоматического выделения структуры научных публикаций возникает при необходимости систематизировать и нормализовать накопленные данные с разными целями: формирование базы данных публикаций с возможностью поиска по ней, построение графов цитирования по библиографическим
ссылкам, использование размеченных данных в качестве данных для обучения
языковых моделей. Очевидным решением кажется использование эвристических алгоритмов,
например, регулярных выражений, основанных на предположениях о расположении и формате нужных данных в тексте. Однако, для обеспечения высокой
эффективности таких методов требуется разработка множества правил, учитывающих все возможные особенности каждого типа структурных элементов