Человеческий мозг остается одной из малоизученных структур, несмотря на значительное количество исследований в этой области. Понимание механизмов обработки визуальной информации мозгом является ключевой задачей в об
ласти нейронауки и разработки интерфейсов мозг — компьютер. Декодирование визуальной информации на основе нейронных сигналов может значительно расширить наши знания о функционировании мозга. В данной работе ставит
ся задача реконструкции наблюдаемых изображений на основе одновременных сигналов функциональной магнитно-резонансной томографии (фМРТ) и электроэнцефалографии (ЭЭГ).
Для оценки качества энкодера сигналов мозга используется CLIP-Score, измеряющий косинусное расстояние между объединенными эмбеддингами и эмбеддингами изображений. Этот показатель позволяет оценить, насколько хо
рошо модель способна выравнивать нейросигналы с визуальными стимулами.
Результаты демонстрируют, что комбинирование данных фМРТ (обеспечивающих высокое пространственное разрешение) и ЭЭГ (обеспечивающей высокое временное разрешение) приводит к значительному улучшению качества реконструкции визуальных стимулов по сравнению с использованием каждой модальности по отдельности. Предложенный фреймворк открывает новые перспективы для разработки интерфейсов мозг-компьютер, эффективно использующих преимущества пространственной и временной информации, извлекаемой из нейросигналов.