В докладе представлена архитектура Vision Transformer (ViT) для автоматизированного обнаружения утопления в акваториях, задача которой стоит остро из-за задержек реакции спасателей. ViT преобразует изображения в серию токенов для их последующего анализа с использованием энкодера трансформера, демонстрируя высокую точность распознавания утопающих лиц по видеоданным. Это исследование показывает важность использования передовых алгоритмов машинного обучения для улучшения систем безопасности на воде и имеет большое потенциальное значение для спасения жизней.