
HexFormer: Гиперболический Vision Transformer с агрегацией по экспоненциальной карте
Исследователи разработали HexFormer — гиперболический визуальный трансформер для классификации изображений, который использует агрегацию по экспоненциальной карте в своем механизме внимания. Архитектура включает как гиперболический вариант, так и гибридную версию, сочетающую гиперболический энкодер с евклидической классификационной головой. Эксперименты показывают, что HexFormer превосходит стандартные евклидические модели и предыдущие гиперболические трансформеры по различным наборам данных, причем гибридный вариант демонстрирует наилучшие результаты. Исследование также подчеркивает, что гиперболические модели обеспечивают лучшую стабильность градиента и меньшую чувствительность к стратегиям обучения, что предполагает практические преимущества использования гиперболической геометрии для задач компьютерного зрения.










