Dernières actualités IA

Des données pan-phénomiques basées sur l'apprentissage profond révèlent l'évolution explosive de la disparité visuelle chez les oiseaux

Une étude récente tire parti de l'apprentissage profond, en particulier d'un modèle ResNet34, pour analyser l'évolution morphologique des oiseaux en reconnaissant plus de 10 000 espèces. Elle montre que l'espace d'embedding de haute dimension du modèle capture la convergence phénotypique et la disparité morphologique associées à la richesse des espèces, soulignant cette richesse comme un facteur clé dans l'expansion du morphospace. Les schémas post-extinction K-Pg révèlent un "premier sursaut" de diversité. Fait notable, l'étude met également en avant la capacité du modèle à former des structures hiérarchiques dans un contexte d'entraînement à étiquettes plates, remettant en question les hypothèses sur la dépendance des CNN aux textures locales.

arXiv

il y a 126 jours

SymPlex : Un transformateur conscient de la structure pour la résolution symbolique des équations aux dérivées partielles

SymPlex présente un nouveau cadre d'apprentissage par renforcement destiné à dériver des solutions analytiques aux équations aux dérivées partielles (EDP) sans nécessiter de données de vérité terrain. Il utilise un Transformer conscient de la structure, nommé SymFormer, pour optimiser les solutions uniquement sur la base de l'EDP et de ses conditions aux limites. Cette approche permet d'obtenir des solutions interprétables qui gèrent efficacement les comportements non lisses, représentant ainsi une avancée significative par rapport aux méthodes numériques traditionnelles. Des tests empiriques montrent que SymPlex parvient à récupérer avec précision des solutions complexes d'EDP, soulignant son potentiel pour des applications pratiques en modélisation mathématique et en ingénierie.

arXiv

il y a 126 jours

Entraînement rapide-lent efficace pour des modèles de langage multimodaux de grande taille via l'élagage des tokens visuels

Des chercheurs ont développé DualSpeed, un cadre visant à améliorer l'efficacité de l'entraînement des modèles de langage multimodaux de grande taille (MLLM) en s'attaquant aux inefficacités liées à la taille massive des modèles et aux jetons visuels. DualSpeed adopte une approche en deux modes : un mode rapide qui utilise l'élagage de jetons visuels (Visual Token Pruning, VTP) pour réduire le nombre de jetons visuels, et un mode lent qui s'entraîne sur des séquences complètes afin d'assurer la cohérence. Cette méthode permet d'accélérer considérablement l'entraînement—2,1 fois pour LLaVA-1.5 et 4,0 fois pour LLaVA-NeXT—tout en maintenant plus de 99 % de performance. Le code est disponible sur GitHub.

arXiv

il y a 126 jours

Dassault Systèmes et NVIDIA s'associent pour développer une plateforme d'IA industrielle alimentant des jumeaux numériques.

Une nouvelle architecture d'IA industrielle partagée intègre des jumeaux numériques avec une infrastructure d'IA évolutive, améliorant ainsi la prise de décision en temps réel dans le secteur manufacturier. Ce modèle validé par la science optimise les processus, permettant aux industries d'exploiter l'IA pour la maintenance prédictive et l'amélioration de l'efficacité opérationnelle. Cette architecture positionne l'IA industrielle comme un outil essentiel dans les environnements de production modernes.

Nvidia.com

il y a 126 jours

Darren Aronofsky, votre contenu alimenté par l'IA nuit à l'histoire américaine dans 'On This Day…1776'

La nouvelle série de courts-métrages "En ce jour… 1776" s'ouvre sur une image poignante d'une main effleurant la page de titre du "Bon Sens" de Thomas Paine, soulignant ainsi son importance historique. Cette série vise à explorer les événements clés de la Révolution américaine, tout en offrant un contexte et des éclairages sur les figures et les idées influentes de cette période.

CNET

il y a 126 jours

Pourquoi de plus en plus de consommateurs préfèrent les achats améliorés par l'IA tout en s'attendant à une touche humaine

Un récent rapport de ZDNET révèle que 73 % des consommateurs utilisent des chatbots d'IA pour leurs recherches de produits, illustrant ainsi une tendance croissante dans le secteur du commerce en ligne. L'article souligne l'importance pour les entreprises d'intégrer des outils d'IA afin d'améliorer l'engagement des clients et de simplifier l'expérience d'achat, alors que la dépendance des consommateurs à ces technologies ne cesse d'augmenter.

ZDNet

il y a 127 jours

SpaceX d'Elon Musk acquiert officiellement xAI, avec un projet de construction de centres de données dans l'espace

SpaceX a annoncé l'acquisition de la startup d'intelligence artificielle d'Elon Musk, xAI, marquant une avancée significative dans le domaine de l'IA. Cette fusion propulse SpaceX au rang de la société privée la plus valorisée au monde. L'intégration vise à tirer parti de la technologie de xAI pour améliorer les opérations et les processus décisionnels de SpaceX, ce qui pourrait rationaliser ses projets ambitieux d'exploration spatiale.

TechCrunch

il y a 127 jours

Le HHS utilise des outils d'IA de Palantir pour cibler la 'DEI' et l' 'idéologie de genre' dans les subventions

Le Département de la Santé et des Services sociaux utilise depuis mars des outils d'intelligence artificielle développés par Palantir pour améliorer les processus de sélection et d'audit des subventions et des descriptions de poste. Cette initiative vise à garantir le respect des réglementations fédérales et à renforcer la supervision. L'intégration de ces outils d'IA devrait permettre de rationaliser les opérations et de réduire les erreurs dans la gestion des subventions.

Wired

il y a 127 jours

PixelGen : La diffusion de pixels surpasse la diffusion latente grâce à la perte perceptuelle

PixelGen est un nouveau cadre de diffusion de pixels qui contourne les limitations des modèles de diffusion latente traditionnels en optimisant directement dans l'espace pixel. Il utilise deux pertes perceptuelles—LPIPS pour les motifs locaux et DINO pour la sémantique globale—afin d'améliorer la qualité des images. PixelGen atteint un FID compétitif de 5,11 sur ImageNet-256 avec seulement 80 époques d'entraînement et démontre de solides performances dans des tâches de génération d'images à partir de texte à grande échelle, comme en témoigne un score GenEval de 0,79. Cette approche élimine le besoin de VAE et d'étapes auxiliaires, offrant ainsi un modèle génératif à la fois simplifié et efficace. Le code complet est disponible sur GitHub.

arXiv

il y a 127 jours

Élargir les capacités de l'apprentissage par renforcement grâce aux retours textuels

Une étude récente propose l'apprentissage par renforcement à partir de retours textuels (RLTF), exploitant les critiques écrites pour améliorer les modèles de langage de grande taille après leur entraînement. Contrairement aux méthodes traditionnelles, le RLTF utilise l'apprentissage par renforcement sur plusieurs tours, permettant aux modèles d'intégrer les retours sans nécessiter de démonstrations approfondies. Deux techniques, la distillation auto-dirigée et la modélisation des retours, ont été testées sur diverses tâches et ont systématiquement surpassé les bases de référence existantes, indiquant que les retours textuels peuvent améliorer de manière significative l'efficacité des performances des modèles.

arXiv

il y a 127 jours

Segmentation automatisée multi-têtes par l'intégration d'une tête de détection dans le réseau de neurones à couche contextuelle

Une nouvelle architecture de Transformer multi-têtes avec portes, inspirée du Swin U-Net, améliore l'auto-segmentation en radiothérapie en intégrant le contexte inter-tranche et une tête de détection parallèle. Ce modèle réduit efficacement les faux positifs, atteignant une perte de Dice moyenne de $0.013 \pm 0.036$ contre $0.732 \pm 0.314$ pour les méthodes traditionnelles. Cette avancée renforce la fiabilité du contouring automatisé dans les environnements cliniques.

arXiv

il y a 127 jours

Optimisation de la communication pour l'entraînement de Mixture-of-Experts avec le parallélisme hybride des experts

Une étude récente met en lumière les défis liés à la mise en œuvre de la communication Expert Parallel (EP) dans les modèles de mélange d'experts (MoE) à hyperscale durant l'entraînement. Ce modèle de communication requiert une approche tous-à-tous, compliquée par des dynamiques et une certaine sparsité. Les résultats suggèrent qu'optimiser l'efficacité de la communication EP est essentiel pour améliorer les performances des MoE, ce qui pourrait considérablement réduire les temps d'entraînement et optimiser l'utilisation des ressources dans des environnements d'apprentissage automatique à grande échelle.

Nvidia.com

il y a 127 jours