
HexFormer: Transformador de Visión Hiperbólica con Agregación de Mapa Exponencial
Investigadores han desarrollado HexFormer, un transformador visual hiperbólico para la clasificación de imágenes que utiliza agregación de mapas exponenciales en su mecanismo de atención. La arquitectura incluye tanto una variante hiperbólica como una versión híbrida que combina un codificador hiperbólico con una cabeza de clasificación euclidiana. Los experimentos demuestran que HexFormer supera a los modelos euclidianos estándar y a transformadores hiperbólicos anteriores en diversos conjuntos de datos, siendo la variante híbrida la que logra los mejores resultados. El estudio también destaca que los modelos hiperbólicos ofrecen una mayor estabilidad en los gradientes y una menor sensibilidad a las estrategias de entrenamiento, lo que sugiere ventajas prácticas en el uso de la geometría hiperbólica para tareas de visión.










