Dernières actualités IA

Modèles de fond augmentés par récupération pour les transformations de paires moléculaires appariées afin de recapturer l'intuition en chimie médicinale

Des chercheurs ont mis au point un nouveau modèle de base pour la génération d'analogues chimiques à partir de paires moléculaires appariées (MMP). Ce modèle permet de créer une diversité de variables en fonction de schémas de transformation définis par l'utilisateur, améliorant ainsi le contrôle sur le processus. Baptisée MMPT-RAG, cette méthode intègre des références externes pour renforcer la pertinence contextuelle. Les expériences montrent des avancées significatives en matière de diversité et de nouveauté des composés générés, faisant de cet outil un atout précieux pour la chimie médicinale dans le cadre de la découverte de médicaments.

arXiv

il y a 54 jours

Étude des effets de refroidissement non linéaires sur l'accumulation du champ polaire dans le Soleil à l'aide de réseaux de neurones informés par la physique

Une nouvelle étude utilise des réseaux de neurones informés par la physique (PINN) pour analyser le comportement du dynamo solaire, en se concentrant sur l'impact du quenching par inclinaison (TQ) et du quenching par latitude (LQ) sur le champ polaire du Soleil et les amplitudes des cycles solaires. En ajustant les paramètres de transport, les chercheurs ont découvert que la suppression du TQ augmente avec la diffusivité, tandis que le LQ prédomine dans des conditions dominées par l'advection. L'étude précise la relation entre les effets du TQ et du LQ sur l'accumulation dipolaire, améliorant ainsi la précision des prévisions concernant les cycles solaires. Comparé aux modèles traditionnels, le PINN présente des taux d'erreur réduits et capture plus efficacement les tendances non linéaires, offrant un outil prometteur pour les prévisions futures des cycles solaires.

arXiv

il y a 54 jours

Cadre de Compétences des Agents : Perspectives sur le Potentiel des Petits Modèles Linguistiques dans les Environnements Industriels

Le cadre des compétences d'agent, soutenu par GitHub Copilot, LangChain et OpenAI, montre un potentiel considérable pour les modèles de langage de petite taille (SLMs) dans des contextes industriels. Une étude présente une définition formelle du processus de compétence d'agent et évalue divers modèles de langage, révélant que les SLMs de taille intermédiaire (12B-30B paramètres) tirent un grand avantage de ce cadre. En revanche, les modèles plus petits rencontrent des difficultés en matière de sélection de compétences. À noter que les modèles spécialisés dans le code, d'environ 80B paramètres, atteignent des performances comparables à celles des solutions propriétaires tout en améliorant l'efficacité des GPU. Ces informations contribuent à optimiser le déploiement des compétences d'agent dans des environnements limités par la sécurité des données et les contraintes budgétaires.

arXiv

il y a 54 jours

Les grandes entreprises technologiques affirment que l'IA générative sauvera la planète, sans fournir de preuves convaincantes.

Un nouveau rapport de Joshi, soutenu par des groupes environnementaux, révèle que de nombreuses affirmations concernant les initiatives environnementales manquent de preuves solides. Les conclusions remettent en question la validité de divers programmes et soulignent la nécessité de données plus rigoureuses pour appuyer les politiques environnementales. Cela pourrait avoir des répercussions sur le financement et la confiance du public envers ces initiatives.

Wired

il y a 55 jours

Le nouveau modèle de l'IA de Sarvam en Inde constitue un pari majeur sur la viabilité de l'IA open-source

Le laboratoire indien d'IA Sarvam a lancé une nouvelle suite de modèles de langage de grande taille, conçus pour être plus compacts et plus efficaces que les options existantes. Cette initiative stratégique vise à s'approprier une part de marché face à des modèles plus volumineux et propriétaires, en proposant des alternatives open-source qui pourraient améliorer l'accessibilité et réduire les coûts pour les développeurs et les entreprises.

TechCrunch

il y a 55 jours

Les fonctionnalités de personnalisation peuvent rendre les LLMs plus agréables.

Des recherches récentes mettent en lumière une problématique préoccupante concernant les grands modèles de langage (GML) qui conservent des informations sur les utilisateurs pour des interactions personnalisées. L'étude révèle qu'en dépit des avantages de la personnalisation, ces modèles présentent un risque pour la vie privée des utilisateurs en stockant des données sensibles. Cela soulève des questions cruciales sur la sécurité des données et le consentement des utilisateurs dans les futures mises en œuvre des GML.

Mit.edu

il y a 55 jours

L'Inde alimente sa mission en intelligence artificielle avec NVIDIA

L'Inde accueille le Sommet sur l'Impact de l'IA, rassemblant des dirigeants mondiaux et des experts de l'industrie pour discuter de l'avenir de l'intelligence artificielle. Parmi les sujets clés figurent le déploiement éthique de l'IA, les cadres réglementaires et la collaboration entre gouvernements et entreprises technologiques. Parmi les participants notables se trouvent des chefs d'État et des leaders de grandes entreprises d'IA, avec pour objectif de promouvoir la coopération internationale et d'établir des normes pour le développement de l'IA.

Nvidia.com

il y a 55 jours

Dominant sur le tableau des leaders des noyaux GPU MODE avec NVIDIA cuda.compute

Python demeure le langage de prédilection pour l'apprentissage automatique en raison de sa convivialité. Cependant, pour tirer pleinement parti des performances des GPU, il est souvent nécessaire de recourir au C++ pour le développement de noyaux personnalisés. Les avancées récentes visent à simplifier ce processus, permettant aux développeurs d'écrire du code GPU haute performance directement en Python, ce qui rationalise les flux de travail et améliore la productivité.

Nvidia.com

il y a 55 jours

Comment la co-conception extrême matériel-logiciel de NVIDIA a permis un important gain en inférence pour les modèles souverains de Sarvam AI.

Avec l'adoption croissante de l'intelligence artificielle, les développeurs font face à des défis majeurs pour optimiser les modèles de langage de grande taille (LLMs) en vue d'applications concrètes. Parmi les principaux enjeux, on trouve la nécessité d'atteindre des performances souhaitées tout en maîtrisant la latence et les coûts, de nombreux modèles exigeant des ressources informatiques considérables. Des solutions sont actuellement explorées pour trouver un équilibre entre efficacité et performance.

Nvidia.com

il y a 55 jours

Dépendance à la taille de l'ensemble des méthodes de post-traitement en apprentissage profond visant à minimiser un score (in)juste : exemples motivants et solution de preuve de concept

L'article aborde les défis liés à l'utilisation du score de probabilité continue classé ajusté (aCRPS) pour l'entraînement des prévisions d'ensemble, notamment lorsque des dépendances structurelles entre les membres sont introduites. Il met en lumière deux approches problématiques : la calibration linéaire des membres et une méthode d'apprentissage profond susceptible de créer des problèmes de sur-dispersion. Les auteurs proposent les "transformers de trajectoire", adaptant le cadre PoET pour maintenir l'indépendance conditionnelle dans les prévisions. Cette méthode réduit efficacement les biais systématiques et améliore la fiabilité des prévisions hebdomadaires de température moyenne issues du système ECMWF, quel que soit la taille de l'ensemble (3 contre 9 membres lors de l'entraînement ; 9 contre 100 en temps réel).

arXiv

il y a 55 jours

Résolution de problèmes d'évitement robustes aux paramètres avec des faisabilités inconnues grâce à l'apprentissage par renforcement

Des recherches récentes présentent l'Exploration Guidée par la Faisabilité (EGF), une méthode qui répond aux limites de l'apprentissage par renforcement profond dans les problèmes de reachabilité. L'EGF identifie des conditions initiales réalisables et apprend une politique sûre, surpassant les méthodes existantes de plus de 50 % en termes de couverture dans des scénarios complexes dans les simulateurs MuJoCo et Kinetix. Cette approche améliore la sécurité dans les tâches de contrôle à haute dimension.

arXiv

il y a 55 jours

Amélioration de la préservation de la sémantique des bâtiments dans l'entraînement des modèles d'IA grâce aux encodages des grands modèles linguistiques

Une nouvelle étude révèle que l'utilisation d'embeddings de grands modèles de langage (LLM) améliore l'entraînement de l'IA pour la construction de sémantiques dans le secteur de l'architecture, de l'ingénierie, de la construction et de l'exploitation (AECO). Des tests effectués sur 42 sous-types d'objets de construction montrent que cette approche surpasse le codage one-hot traditionnel, avec l'embedding compacté de llama-3 atteignant un score F1 moyen pondéré de 0,8766. Cette méthode renforce la capacité de l'IA à interpréter des sémantiques complexes, indiquant un potentiel significatif pour une application plus large dans les tâches de l'AECO.

arXiv

il y a 55 jours