AI
Actualités IA

Dernières actualités IA

HexFormer : Transformateur de vision hyperbolique avec agrégation par carte exponentielle

HexFormer : Transformateur de vision hyperbolique avec agrégation par carte exponentielle

Des chercheurs ont développé HexFormer, un transformateur de vision hyperbolique pour la classification d'images qui utilise l'agrégation par carte exponentielle dans son mécanisme d'attention. L'architecture comprend à la fois une variante hyperbolique et une version hybride qui combine un encodeur hyperbolique avec une tête de classification euclidienne. Les expériences montrent que HexFormer surpasse les modèles euclidiens standards et les précédents transformateurs hyperboliques sur divers ensembles de données, la variante hybride obtenant les meilleurs résultats. L'étude souligne également que les modèles hyperboliques offrent une meilleure stabilité des gradients et une sensibilité réduite aux stratégies d'entraînement, suggérant des avantages pratiques dans l'utilisation de la géométrie hyperbolique pour les tâches de vision.

arXiv
Apprendre et Vérifier : Un Cadre pour la Vérification Rigoureuse des Réseaux de Neurones Informés par la Physique

Apprendre et Vérifier : Un Cadre pour la Vérification Rigoureuse des Réseaux de Neurones Informés par la Physique

Un nouveau cadre "Apprendre et Vérifier" répond aux lacunes des réseaux de neurones dans la résolution des équations différentielles en offrant des bornes d'erreur calculables. Il combine une perte maximale doublement lissée pour l'entraînement avec l'arithmétique d'intervalle pour la vérification, produisant ainsi des bornes d'erreur a posteriori rigoureuses. Des tests numériques réussis sur des équations différentielles ordinaires non linéaires démontrent son potentiel pour des applications fiables en apprentissage automatique scientifique.

arXiv
Diffusion pour la désocclusion : Inpainting par diffusion conscient des accessoires pour une reconnaissance biométrique de l'oreille robuste

Diffusion pour la désocclusion : Inpainting par diffusion conscient des accessoires pour une reconnaissance biométrique de l'oreille robuste

Une étude évalue une technique de peinture de l'oreille basée sur la diffusion, visant à améliorer les systèmes de reconnaissance des oreilles confrontés à des obstructions causées par des accessoires tels que les boucles d'oreilles et les écouteurs. Ce modèle reconstruit les zones occluses de l'oreille tout en préservant l'exactitude anatomique. Des tests menés sur différents modèles de transformateurs visuels montrent que cette technique améliore les performances de reconnaissance, soulignant ainsi son utilité pratique dans les applications biométriques.

arXiv
Airtable se lance dans le domaine des agents d'IA avec Superagent

Airtable se lance dans le domaine des agents d'IA avec Superagent

Le PDG d'Airtable, Howie Liu, poursuit le lancement d'une nouvelle gamme de produits malgré une chute de deux tiers de la valorisation de l'entreprise. Liu est convaincu que cette initiative permettra à Airtable de se positionner pour la croissance et l'innovation dans un marché logiciel très concurrentiel. Les nouveaux produits visent à améliorer l'expérience utilisateur et à élargir les capacités d'Airtable, illustrant un pivot stratégique face aux défis financiers.

TechCrunch
Phoebe Gates et Sophia Kianni lèvent 35 millions de dollars pour rendre le shopping amusant à nouveau

Phoebe Gates et Sophia Kianni lèvent 35 millions de dollars pour rendre le shopping amusant à nouveau

Phia, une startup dirigée par les fondatrices Phoebe Gates et Sophia, se concentre sur le développement d'un agent de shopping intelligent tout en faisant face aux défis posés par une récente tempête de neige à New York. L'équipe reste déterminée à mener à bien son projet, mettant en avant l'importance de l'adaptabilité tant dans leur environnement de travail que dans le développement de leur produit.

TechCrunch
La mission lunaire de la Chine lance un nouveau modèle open-source Kimi K2.5 et un agent de codage

La mission lunaire de la Chine lance un nouveau modèle open-source Kimi K2.5 et un agent de codage

L'intelligence artificielle Moonshot de la Chine, soutenue par Alibaba et HongShan, a lancé Kimi K2.5, un modèle d'IA open-source capable de traiter du texte, des images et des vidéos. Cette avancée positionne Kimi K2.5 comme un outil polyvalent pour les développeurs, susceptible d'améliorer les applications dans la création de contenu et l'analyse multimédia. Ce lancement illustre l'engagement continu de la Chine dans la technologie IA, visant à renforcer sa compétitivité sur le marché mondial.

TechCrunch
Perspectives des leaders technologiques et des étudiants sur l'avenir de l'IA

Perspectives des leaders technologiques et des étudiants sur l'avenir de l'IA

L'article aborde les défis de la navigation dans l'incertitude du monde actuel, marqué par des changements politiques, technologiques, culturels et scientifiques majeurs. Il souligne la difficulté de prévoir les tendances futures et met en avant la nécessité d'adaptabilité et de pensée critique dans le processus décisionnel. Le texte suggère que les individus et les organisations doivent cultiver la résilience et rester informés pour répondre efficacement aux transformations en cours.

Wired
Tous en l'honneur de JudgeGPT

Tous en l'honneur de JudgeGPT

Dans son article, Lauren Feiner examine le potentiel de l'IA pour remédier aux inefficacités du système juridique. Elle met en avant des applications spécifiques, telles que l'analyse prédictive des résultats des affaires et l'examen de documents assisté par IA, qui pourraient rationaliser les processus et réduire les coûts. Cependant, elle souligne également les préoccupations concernant les biais dans les modèles d'IA et la nécessité d'une supervision réglementaire pour garantir l'équité et la transparence des procédures judiciaires. L'article soutient que, bien que l'IA puisse améliorer l'efficacité, une mise en œuvre soigneuse est essentielle pour éviter d'aggraver les disparités existantes.

The Verge
ctELM : Décodage et manipulation des représentations des essais cliniques avec des modèles de langage d'embeddings

ctELM : Décodage et manipulation des représentations des essais cliniques avec des modèles de langage d'embeddings

Des chercheurs ont développé un nouveau cadre open-source appelé ctELM, destiné à aligner les grands modèles de langage (LLMs) avec les embeddings des essais cliniques en utilisant la méthode des modèles de langage par embeddings (ELM). Ce cadre permet de fournir des descriptions précises et des comparaisons d'essais cliniques à partir des embeddings, et il peut générer des résumés d'essais plausibles en se basant sur des vecteurs conceptuels tels que l'âge et le sexe. L'implémentation vise à améliorer la transparence et les capacités génératives dans les applications biomédicales.

arXiv
Apprentissage par renforcement multi-objectifs pour une prise de décision tactique efficace des camions dans le trafic autoroutier

Apprentissage par renforcement multi-objectifs pour une prise de décision tactique efficace des camions dans le trafic autoroutier

Un nouveau cadre d'apprentissage par renforcement multi-objectifs utilisant l'optimisation de politique proximale (PPO) s'attaque aux compromis complexes rencontrés lors de la conduite sur autoroute pour les véhicules lourds, en équilibrant sécurité, efficacité énergétique et efficacité temporelle. Ce système génère un ensemble continu de politiques Pareto-optimales, permettant des ajustements flexibles du comportement de conduite sans nécessiter de réentraînement. Cette approche adaptable améliore la prise de décision pour le transport autonome, évaluée sur une plateforme de simulation évolutive.

arXiv
Confiance, méfiance ou changement : Apprentissage par renforcement robuste basé sur les préférences avec retour d'information multi-experts

Confiance, méfiance ou changement : Apprentissage par renforcement robuste basé sur les préférences avec retour d'information multi-experts

TriTrust-PBRL (TTP) est un nouveau cadre conçu pour améliorer l'apprentissage par renforcement basé sur les préférences en s'attaquant aux défis posés par des annotateurs hétérogènes. Contrairement aux méthodes existantes, TTP apprend à la fois un modèle de récompense et des paramètres de confiance spécifiques aux experts, ce qui lui permet d'identifier et d'inverser les retours adverses. Cela se traduit par une robustesse significative, comme le montrent des tâches variées telles que MetaWorld et DM Control, où TTP surpasse les approches PBRL actuelles tout en maintenant une performance élevée, même face à des retours peu fiables. Le cadre fonctionne sans nécessiter de caractéristiques détaillées des experts, ce qui en fait un ajout fluide aux systèmes existants.

arXiv
Le dernier chip IA de Microsoft rivalise avec ceux d'Amazon et de Google

Le dernier chip IA de Microsoft rivalise avec ceux d'Amazon et de Google

Microsoft a commencé le déploiement de sa puce Maia 200 dans ses centres de données. Cette nouvelle puce est conçue pour améliorer les capacités de traitement et optimiser l'efficacité des services cloud. La Maia 200 vise à soutenir une variété de charges de travail, avec un potentiel d'amélioration des performances pour les applications d'intelligence artificielle et d'apprentissage automatique. Cette mise à niveau s'inscrit dans la stratégie de Microsoft visant à optimiser son infrastructure et à réduire les coûts opérationnels. D'autres détails concernant les indicateurs de performance et les délais de déploiement devraient être communiqués dans les semaines à venir.

The Verge