
HexFormer: Trasformatore Vision Hyperbolico con Aggregazione Mappa Esponenziale
I ricercatori hanno sviluppato HexFormer, un trasformatore visivo iperbolico per la classificazione delle immagini che utilizza l'aggregazione tramite mappa esponenziale nel suo meccanismo di attenzione. L'architettura comprende sia una variante iperbolica sia una versione ibrida che combina un codificatore iperbolico con una testa di classificazione euclidea. Gli esperimenti dimostrano che HexFormer supera i modelli euclidei standard e i precedenti trasformatori iperbolici su diversi dataset, con la variante ibrida che ottiene i risultati migliori. Lo studio evidenzia inoltre che i modelli iperbolici offrono una maggiore stabilità dei gradienti e una ridotta sensibilità alle strategie di addestramento, suggerendo vantaggi pratici nell'utilizzo della geometria iperbolica per compiti visivi.










