Для создания базы данных научных статей и их нормализации требуется инструмент, который
призван систематизировать данные с целью обеспечения эффективного поиска и анализа цитирования.
Однако разнообразие форматов самих статей является главным вызовом. Использование эвристических
методов, таких как регулярные выражения, может быть полезным, но требует разработки множества
правил для учета различных структурных элементов. При этом альтернативные подходы, основанные на
машинном обучении, обеспечивают высокую точность, которая зависит от качества данных и выбранной
модели. В данной работе рассматривается возможность дообучения модели с открытым исходным кодом
GROBID, используемой для автоматического извлечения структурных элементов научных публикаций.