77880 | ИПУ РАН

Автор(ы):

Автор(ов):

Параметры публикации

Тип публикации:

Тезисы доклада

Название:

Использование инструмента GROBID для извлечения структурных элементов русскоязычных научных публикаций

Электронная публикация:

Да

Наименование конференции:

66-я Всероссийская научная конференция МФТИ (Москва, 2024)

Наименование источника:

Труды 66-й Всероссийской научной конференции МФТИ (Москва, 2024)

Город:

Москва

Издательство:

МФт

Год издания:

2024

Страницы:

71-72

Аннотация

Для создания базы данных научных статей и их нормализации требуется инструмент, который призван систематизировать данные с целью обеспечения эффективного поиска и анализа цитирования. Однако разнообразие форматов самих статей является главным вызовом. Использование эвристических методов, таких как регулярные выражения, может быть полезным, но требует разработки множества правил для учета различных структурных элементов. При этом альтернативные подходы, основанные на машинном обучении, обеспечивают высокую точность, которая зависит от качества данных и выбранной модели. В данной работе рассматривается возможность дообучения модели с открытым исходным кодом GROBID, используемой для автоматического извлечения структурных элементов научных публикаций.

Библиографическая ссылка:

Кирьянов П.А., Латипов А.Р., Блашкун М.Р. Использование инструмента GROBID для извлечения структурных элементов русскоязычных научных публикаций / Труды 66-й Всероссийской научной конференции МФТИ (Москва, 2024). М.: МФт, 2024. С. 71-72.