
HexFormer: Transformador de Visão Hiperbólica com Agregação de Mapa Exponencial
Pesquisadores desenvolveram o HexFormer, um transformador hiperbólico de visão para classificação de imagens que utiliza agregação de mapeamento exponencial em seu mecanismo de atenção. A arquitetura inclui uma variante hiperbólica e uma versão híbrida que combina um codificador hiperbólico com uma cabeça de classificação euclidiana. Os experimentos mostram que o HexFormer supera modelos euclidianos padrão e transformadores hiperbólicos anteriores em diversos conjuntos de dados, sendo a variante híbrida a que apresenta os melhores resultados. O estudo também destaca que os modelos hiperbólicos oferecem maior estabilidade nos gradientes e menor sensibilidade às estratégias de treinamento, sugerindo vantagens práticas ao se utilizar a geometria hiperbólica em tarefas de visão.










