
HexFormer : Transformateur de vision hyperbolique avec agrégation par carte exponentielle
Des chercheurs ont développé HexFormer, un transformateur de vision hyperbolique pour la classification d'images qui utilise l'agrégation par carte exponentielle dans son mécanisme d'attention. L'architecture comprend à la fois une variante hyperbolique et une version hybride qui combine un encodeur hyperbolique avec une tête de classification euclidienne. Les expériences montrent que HexFormer surpasse les modèles euclidiens standards et les précédents transformateurs hyperboliques sur divers ensembles de données, la variante hybride obtenant les meilleurs résultats. L'étude souligne également que les modèles hyperboliques offrent une meilleure stabilité des gradients et une sensibilité réduite aux stratégies d'entraînement, suggérant des avantages pratiques dans l'utilisation de la géométrie hyperbolique pour les tâches de vision.










