Исследуется задача выбора достаточного размера выборки. Рассматривается проблема определения достаточного размера выборки без постановки статистической гипотезы о распределении параметров модели. Предлагаются два подхода на основании близости апостериорных распределений параметров модели на схожих подвыборках.
Схожими подвыборками называются такие подмножества исходной выборки, что одно из них может быть получено из другого удалением, заменой или добавлением одного объекта.
Предлагаются два определения: KL-достаточный размер выборки, начиная с которого дивергенция Кульбака-Лейблера между апостериорными распределениями становится мала, а также S-достаточный размер выборки, начиная с которого функция близости s-score из [2] не отличается от единицы на некоторое наперед заданное число. В настоящей работе доказывается корректность предложенных подходов в вероятностной модели с нормальным апостериорным распределением параметров.
Проводится вычислительный эксперимент для анализа свойств предложенных методов. Используются синтетические выборки, полученные из модели линейной регрессии. Проводится определение KL-достаточного и S-достаточного размеров выборки.