82844 | ИПУ РАН

Автор(ы):

Автор(ов):

Параметры публикации

Тип публикации:

Статья в журнале/сборнике

Название:

Современные методы токенизации текстов в финансовой сфере

ISBN/ISSN:

3033-5477

DOI:

https://doi.org/10.26794/3033-7097-2025-1-3-19-29

Наименование источника:

Цифровые решения и технологии искусственного интеллекта

Обозначение и номер тома:

Т. 1, № 3

Город:

Москва

Издательство:

Финансовый университет при Правительстве Российской Федерации, Москва, Российская Федерация

Год издания:

2025

Страницы:

19-29

Аннотация

В работе рассматривается токенизация как ключевой этап обработки текстовых данных, особенно в финансовой сфере. Анализируются современные методы токенизации с примерами из последних исследований и их влияние на эффективность NLP-моделей. Исследование показывает, что алгоритмы токенизации по словам (BPE, WordPiece, Unigram) стали стандартом для языковых моделей благодаря гибкости и эффективности сжатия текста. Обсуждаются ограничения длины входной последовательности в языковых моделях (BPE и WordPiece демонстрируют склонность к избыточному разбиению, Unigram требует сложного обучения, а символьная токенизация создает чрезмерно длинные последовательности) и методы преодоления этих ограничений, включая разбиение текста на части, иерархическую обработку и экстраполяцию предобученных моделей с архитектурой трансформеров для работы с длинными входными данными. Для финансовых данных рекомендуется использование доменно-ориентированных токенизаторов или дообучение на специализированных системах, что подтверждается успешным опытом BloombergGPT. Особое внимание уделяется проблеме обработки длинных текстов. Предложены три под хода к решению: разделение текста на части; иерархическая обработка; экстраполяция моделей-трансформеров. В заключение подчеркивается значимость токенизации для финансовой аналитики, где качество обработки текста напрямую влияет на принятие решений. Развитие методов токенизации продолжается параллельно с совершен ствованием NLP-моделей, что делает этот этап обработки текста критически важным компонентом современных аналитических систем.

Библиографическая ссылка:

Болтачев Э.Ф., Фархадов М.П., Тюляков А.И. Современные методы токенизации текстов в финансовой сфере // Цифровые решения и технологии искусственного интеллекта. 2025. Т. 1, № 3. С. 19-29.