82844

Автор(ы): 

Автор(ов): 

3

Параметры публикации

Тип публикации: 

Статья в журнале/сборнике

Название: 

Современные методы токенизации текстов в финансовой сфере

ISBN/ISSN: 

3033-5477

DOI: 

https://doi.org/10.26794/3033-7097-2025-1-3-19-29

Наименование источника: 

  • Цифровые решения и технологии искусственного интеллекта

Обозначение и номер тома: 

Т. 1, № 3

Город: 

  • Москва

Издательство: 

  • Финансовый университет при Правительстве Российской Федерации, Москва, Российская Федерация

Год издания: 

2025

Страницы: 

19-29
Аннотация
В работе рассматривается токенизация как ключевой этап обработки текстовых данных, особенно в финансовой сфере. Анализируются современные методы токенизации с примерами из последних исследований и их влияние на эффективность NLP-моделей. Исследование показывает, что алгоритмы токенизации по словам (BPE, WordPiece, Unigram) стали стандартом для языковых моделей благодаря гибкости и эффективности сжатия текста. Обсуждаются ограничения длины входной последовательности в языковых моделях (BPE и WordPiece демонстрируют склонность к избыточному разбиению, Unigram требует сложного обучения, а символьная токенизация создает чрезмерно длинные последовательности) и методы преодоления этих ограничений, включая разбиение текста на части, иерархическую обработку и экстраполяцию предобученных моделей с архитектурой трансформеров для работы с длинными входными данными. Для финансовых данных рекомендуется использование доменно-ориентированных токенизаторов или дообучение на специализированных системах, что подтверждается успешным опытом BloombergGPT. Особое внимание уделяется проблеме обработки длинных текстов. Предложены три под хода к решению: разделение текста на части; иерархическая обработка; экстраполяция моделей-трансформеров. В заключение подчеркивается значимость токенизации для финансовой аналитики, где качество обработки текста напрямую влияет на принятие решений. Развитие методов токенизации продолжается параллельно с совершен ствованием NLP-моделей, что делает этот этап обработки текста критически важным компонентом современных аналитических систем.

Библиографическая ссылка: 

Болтачев Э.Ф., Фархадов М.П., Тюляков А.И. Современные методы токенизации текстов в финансовой сфере // Цифровые решения и технологии искусственного интеллекта. 2025. Т. 1, № 3. С. 19-29.