В последние годы развитие глубоких нейронных сетей неизбежно сталкивается с проблемой количества обучающих данных. Это связано с постоянным ростом желаемого качества и, как следствие, размера моделей. Так, большие
языковые модели уже давно перешли за порог в один миллиард параметров и даже приближаются к одному триллиону [1]. Обучение настолько гигантских моделей требует существенных вычислительных затрат, что и приводит к появлению новых исследований [2,3], поднимающих вопрос о связи между вычислительным бюджетом , исчисляемом в количестве операций с плавающей точкой (FLOPs), количеством параметров модели и размером обучающего набора данных (так называемом Scaling Law).
Работа посвящена проблеме достаточного размера выборки и тому, как поведение ландшафта поверхности функции потерь по мере увеличения количества обучающих данных связано с обобщающей способностью и стабильностью
итоговой модели. Т.е.мы не ставим ограничение в вычислительном бюджете, а напрямую минимизируем для фиксированного числа параметров . В ранних исследованиях в этом направлении [4] изучались линейные модели с явным выражением оценки максимального правдоподобия. А для модели линейной регрессии доказывалось, что постепенное увеличение числа обучающих объектов приводит к стабилизации функции правдоподобия в смысле ее математического ожидания и дисперсии. Эксперименты на различных данных и архитектурах подтверждают сходи
мость поверхности функции потерь и метрики ∆+1, причем ее аналитическое значение (2) и эмпирическая оценка методом Монте–Карло из (1) практически совпадают.