Объем и качество обучающих выборок имеет решающее значение в построении эффективной модели машинного обучения. Задача определения достаточного объема выборки хорошо исследована для линейных моделей [1], где разработаны различные математические методы решения на основе статистических тестов и ошибок I-го и II-го рода. Однако существующие методы определения достаточного размера выборки для глубоких нейросетевых архитектур используют эмпирические оценки и не являются строго доказанными.
В данном исследовании предлагается подход, основанный на анализе по верхности функции потерь [2,3]. Экспериментально и теоретически доказано, что топологические характеристики данной поверхности изменяются в зависимости от объема обучающей выборки, демонстрируя тенденцию к стабилизации при достижении достаточного ее объема [2,3]. Этот факт указывает на то, что существует связь между сложностью модели, поверхностью оптимизационной задачи и объемом данных для обучения.
Сложность выборки определяется не только количеством объектов, но и их структурной сложностью и структурной сложностью всей выборки в совокупности. Как показано на примере задач детекции машинной генерации, даже
выборки с большим количеством объектов могут обладать низкой внутренней сложностью из-за шаблонности и однородности их структуры [4]. Следовательно, классическую задачу определения достаточного объема выборки необходимо сформулировать как проблему баланса между сложностью модели и сложностью данных. В рамках данного подхода требуется определить сложность выборки и сложность модели независимо и получить некоторую функцию связи, которая позволит их согласовывать.