
HexFormer: Hyperbolischer Vision Transformer mit exponentieller Kartenaggregation
Forscher haben HexFormer entwickelt, einen hyperbolischen Vision-Transformer zur Bildklassifizierung, der in seinem Aufmerksamkeitsmechanismus eine Exponentialabbildungsaggregierung nutzt. Die Architektur umfasst sowohl eine hyperbolische Variante als auch eine hybride Version, die einen hyperbolischen Encoder mit einem euklidischen Klassifikationskopf kombiniert. Experimente zeigen, dass HexFormer die standardmäßigen euklidischen Modelle und frühere hyperbolische Transformer in verschiedenen Datensätzen übertrifft, wobei die hybride Variante die besten Ergebnisse erzielt. Die Studie hebt zudem hervor, dass hyperbolische Modelle eine verbesserte Gradientstabilität und reduzierte Sensitivität gegenüber Trainingsstrategien bieten, was auf praktische Vorteile der Verwendung hyperbolischer Geometrie für visuelle Aufgaben hinweist.










