Доклад посвящен проблеме повторяемости и масштабирования экспериментов в машинном обучении. Данная проблема возникла после значительного рывка в технологиях, которые позволили использовать современные модели машинного обучения значительно чаще при решении прикладных задачах. Отсутствие повторяемости экспериментов приводит к искаженным результатам [1], которые могут повлиять на конечный результат всего исследования. Повторяемость экспериментов связано с задачей масштабирования экспериментов. Обе эти задачи требуют некоторой унификации кода, которое позволяет перезапускать код эксперимента множество раз, причем гарантируя единый результат. В случае масштабирования разные запуски выполняются с различными начальными условиями — к примеру, с различными гипераметрами, для ускорения подбора.
Основной целью исследования является анализ существующих решений для построения системы проведения экспериментов на базе существующих открытых библиотек. В докладе анализируются различные инструменты для повышения качества проводимых исследований. Анализируются методы для работы с данными DVC [2] и методы для обучения моделей глубокого обучения на локальном компьютере и на внешнем кластере. В качестве базовых методов MLOps рассматриваются MLflow [3], W&B [4], Kubeflow [5]. В работе анализируется возможность использования различных инструментов в кластерных архитектурах, возможность использования кода при разработке моделей машинного обучения в команде, поддержка ipynb тетрадок и т.д. При построении итоговой системы проведения экспериментов учитывает общая популярность различных инструментов. В частности, их интеграция в уже существующие библиотеки обучения моделей глубокого обучения.