Подавляющее большинство задач машинного зрения на данный момент решаются глубокими нейронными сетями, однако в контексте сравнения изображений нейросети имеют ряд критических недостатков. Перспективной альтернативой являются прямые функциональные метрики, так как они не требуют обучения, вычислительно компактны и интерпретируемы. Рассматривается вопрос применимости одной из подобных метрик, а именно метрики Громова – Вассерштейна для прямого «попиксельного» сравнения классов изображений. Был проведён обзор литературы с целью изучения использования данной метрики в задачах компьютерного зрения. Кроме того, был проведён численный эксперимент по прямому сравнению классов изображений на наборах данных MNIST и CIFAR-10, а также с изображениями простейших геометрических фигур (набор ФИГУРА-4). Сравнивалось распределение значений метрики объединённого Громова – Вассерштейна между объектами одного класса и разных, что оценивалось критерием Манна – Уитни. Также был проведён аналогичный эксперимент с метрикой объединённого несбалансированного Громова – Вассерштейна на наборе данных CIFAR-10 с целью снятия ограничения на равенство суммарной интенсивности пикселей изображений. Результаты показали, что в общем случае метрики Громова – Вассерштейна и объединённого Громова – Вассерштейна ограниченно применимы для решения задачи прямого («попиксельного») сравнения классов изображений в случае «простых» изображений, и неприменимы в случае «сложных» изображений.