82616

Автор(ы): 

Автор(ов): 

3

Параметры публикации

Тип публикации: 

Тезисы доклада

Название: 

Достаточный размер обучающей выборки и его связь со сходимостью поверхности функции потерь

ISBN/ISSN: 

978-5-317-07438-8

Наименование конференции: 

  • 22-я Всероссийская конференция с международным участием "Математические методы распознавания образов" (Муром, 2025)

Наименование источника: 

  • Тезисы докладов 22-й Всероссийской конференции с международным участием "Математические методы распознавания образов" (Муром, 2025)

Город: 

  • Муром

Издательство: 

  • МАКС Пресс

Год издания: 

2025

Страницы: 

73-76
Аннотация
В последние годы развитие глубоких нейронных сетей неизбежно сталкивается с проблемой количества обучающих данных. Это связано с постоянным ростом желаемого качества и, как следствие, размера моделей. Так, большие языковые модели уже давно перешли за порог в один миллиард параметров и даже приближаются к одному триллиону [1]. Обучение настолько гигантских моделей требует существенных вычислительных затрат, что и приводит к появлению новых исследований [2,3], поднимающих вопрос о связи между вычислительным бюджетом , исчисляемом в количестве операций с плавающей точкой (FLOPs), количеством параметров модели и размером обучающего набора данных (так называемом Scaling Law). Работа посвящена проблеме достаточного размера выборки и тому, как поведение ландшафта поверхности функции потерь по мере увеличения количества обучающих данных связано с обобщающей способностью и стабильностью итоговой модели. Т.е.мы не ставим ограничение в вычислительном бюджете, а напрямую минимизируем для фиксированного числа параметров . В ранних исследованиях в этом направлении [4] изучались линейные модели с явным выражением оценки максимального правдоподобия. А для модели линейной регрессии доказывалось, что постепенное увеличение числа обучающих объектов приводит к стабилизации функции правдоподобия в смысле ее математического ожидания и дисперсии. Эксперименты на различных данных и архитектурах подтверждают сходи мость поверхности функции потерь и метрики ∆+1, причем ее аналитическое значение (2) и эмпирическая оценка методом Монте–Карло из (1) практически совпадают.

Библиографическая ссылка: 

Киселев Н.С., Мешков В.С., Грабовой А.В. Достаточный размер обучающей выборки и его связь со сходимостью поверхности функции потерь / Тезисы докладов 22-й Всероссийской конференции с международным участием "Математические методы распознавания образов" (Муром, 2025). Муром: МАКС Пресс, 2025. С. 73-76.