Ultime notizie IA

Modelli Fondamentali Aumentati per il Recupero per Trasformazioni di Coppie Molecolari Abbinati per Ricapitolare l'Intuizione della Chimica Medica

I ricercatori hanno sviluppato un nuovo modello di base per la generazione di analoghi chimici utilizzando coppie molecolari abbinate (MMP). Questo modello consente la generazione di variabili diversificate basate su schemi di trasformazione definiti dall'utente, migliorando così il controllo del processo. Il metodo, denominato MMPT-RAG, integra riferimenti esterni per aumentare la rilevanza contestuale. Gli esperimenti hanno mostrato notevoli progressi in termini di diversità e novità dei composti generati, rendendolo uno strumento prezioso per la chimica medicinale nella scoperta di farmaci pratici.

arXiv

156 giorni fa

Indagine sugli effetti di spegnimento non lineari nell'accumulo di campo polare nel Sole attraverso reti neurali informate dalla fisica

Un nuovo studio sfrutta le Reti Neurali Informate dalla Fisica (PINN) per analizzare il comportamento del dyna solare, concentrandosi su come il fenomeno del tilt quenching (TQ) e del latitude quenching (LQ) influenzino il campo polare del Sole e le ampiezze dei cicli solari. Modificando i parametri di trasporto, i ricercatori hanno scoperto che la soppressione del TQ aumenta con la diffusività, mentre il LQ prevale in condizioni dominate dall'advezione. Lo studio affina la comprensione della relazione tra gli effetti del TQ e del LQ sulla formazione del dipolo, migliorando l'accuratezza predittiva per i cicli solari. Rispetto ai modelli tradizionali, le PINN offrono tassi di errore ridotti e catturano le tendenze non lineari in modo più efficace, rappresentando uno strumento promettente per le previsioni future sui cicli solari.

arXiv

156 giorni fa

Framework delle Competenze degli Agenti: Prospettive sul Potenziale dei Piccoli Modelli Linguistici negli Ambienti Industriali

Il framework Agent Skill, supportato da GitHub Copilot, LangChain e OpenAI, mostra notevoli potenzialità per i piccoli modelli linguistici (SLMs) in contesti industriali. Uno studio presenta una definizione formale del processo Agent Skill e valuta diversi modelli linguistici, rivelando che i SLMs di dimensioni moderate (con 12B-30B di parametri) traggono grandi vantaggi da questo framework. Al contrario, i modelli più piccoli faticano nella selezione delle competenze. È interessante notare che i modelli specializzati nella scrittura di codice, con circa 80B di parametri, raggiungono prestazioni simili a quelle dei modelli closed-source, migliorando nel contempo l’efficienza delle GPU. Queste informazioni sono utili per ottimizzare l’implementazione delle Agent Skills in ambienti vincolati da requisiti di sicurezza dei dati e budget limitati.

arXiv

156 giorni fa

Le grandi aziende tecnologiche affermano che l'intelligenza artificiale generativa salverà il pianeta, ma mancano prove concrete.

Un nuovo rapporto di Joshi, sostenuto da gruppi ambientalisti, rivela che molte affermazioni riguardanti iniziative ambientali mancano di prove sostanziali. I risultati mettono in discussione la validità di diversi programmi e suggeriscono la necessità di dati più rigorosi a supporto delle politiche ambientali. Ciò potrebbe avere ripercussioni sul finanziamento e sulla fiducia del pubblico in queste iniziative.

Wired

156 giorni fa

Il nuovo modello del laboratorio indiano Sarvam rappresenta una scommessa significativa sulla fattibilità dell'IA open-source

Il laboratorio indiano di intelligenza artificiale Sarvam ha lanciato una nuova suite di modelli di linguaggio di grandi dimensioni, progettata per essere più piccola ed efficiente rispetto alle opzioni esistenti. Questa mossa strategica mira a conquistare quote di mercato da modelli più grandi e proprietari, offrendo alternative open-source che potrebbero migliorare l'accessibilità e ridurre i costi per sviluppatori e aziende.

TechCrunch

156 giorni fa

Le funzionalità di personalizzazione possono rendere i LLM più conformi.

Ricerche recenti mettono in evidenza un problema preoccupante legato ai modelli di linguaggio di grandi dimensioni (LLM), che conservano informazioni degli utenti per interazioni personalizzate. Lo studio rivela che, nonostante i vantaggi della personalizzazione, questi modelli rischiano di compromettere la privacy degli utenti memorizzando dati sensibili. Ciò solleva interrogativi cruciali sulla sicurezza dei dati e sul consenso degli utenti nelle future implementazioni degli LLM.

Mit.edu

156 giorni fa

L'India potenzia la sua missione nell'IA con NVIDIA

L'India ospita il Summit sull'Impatto dell'IA, riunendo leader globali ed esperti del settore per discutere il futuro dell'intelligenza artificiale. Tra i temi principali si annoverano l'implementazione etica dell'IA, i quadri normativi e la collaborazione tra governi e aziende tecnologiche. Tra i partecipanti di spicco figurano capi di Stato e leader di importanti aziende di IA, con l'obiettivo di promuovere la cooperazione internazionale e stabilire standard per lo sviluppo dell'intelligenza artificiale.

Nvidia.com

156 giorni fa

NVIDIA cuda.compute guida la classifica dei kernel GPU MODE

Python continua a essere il linguaggio di riferimento per il machine learning grazie alla sua facilità d'uso, ma per ottenere prestazioni ottimali dalle GPU è spesso necessario ricorrere al C++ per lo sviluppo di kernel personalizzati. I recenti progressi mirano a semplificare questo processo, consentendo agli sviluppatori di scrivere codice GPU ad alte prestazioni direttamente in Python, ottimizzando i flussi di lavoro e aumentando la produttività.

Nvidia.com

157 giorni fa

Come il design coadiuvato di hardware e software estremo di NVIDIA ha fornito un significativo incremento delle inferenze per i modelli sovrani di Sarvam AI

Con l'aumento dell'adozione dell'IA, gli sviluppatori si trovano ad affrontare sfide significative nell'ottimizzazione dei modelli di linguaggio di grandi dimensioni (LLM) per le applicazioni nel mondo reale. Tra i problemi principali vi è il raggiungimento delle prestazioni desiderate, gestendo al contempo la latenza e i costi, dato che molti modelli richiedono ingenti risorse computazionali. Si stanno esplorando soluzioni per bilanciare efficienza ed efficacia.

Nvidia.com

157 giorni fa

Dipendenza dalla dimensione dell'ensemble nei metodi di post-elaborazione del deep learning che minimizzano un punteggio (non) equo: esempi motivanti e una soluzione di prova del concetto

L'articolo affronta le sfide nell'utilizzo del punteggio di probabilità continua regolato (aCRPS) per l'addestramento delle previsioni in ensemble, in particolare quando si introducono dipendenze strutturali tra i membri. Vengono evidenziati due approcci problematici: la calibrazione lineare dei membri e un metodo di deep learning che può generare problemi di sovradispersione. Gli autori propongono i "trasformatori di traiettoria", adattando il framework PoET per mantenere l'indipendenza condizionale nelle previsioni. Questo metodo riduce efficacemente i bias sistematici e migliora l'affidabilità delle previsioni della temperatura media settimanale provenienti dal sistema ECMWF, indipendentemente dalle dimensioni dell'ensemble (3 contro 9 membri in fase di addestramento; 9 contro 100 in tempo reale).

arXiv

157 giorni fa

Risoluzione dei problemi di evasione robusta ai parametri con fattibilità sconosciuta tramite apprendimento per rinforzo

Recenti ricerche hanno introdotto l'Explorazione Guidata dalla Fattibilità (FGE), un metodo che affronta le limitazioni dell'apprendimento profondo per rinforzo nei problemi di raggiungibilità. FGE è in grado di identificare condizioni iniziali fattibili e di apprendere una politica sicura, superando le metodologie esistenti di oltre il 50% in termini di copertura in scenari complessi nei simulatori MuJoCo e Kinetix. Questo approccio migliora la sicurezza nelle attività di controllo ad alta dimensione.

arXiv

157 giorni fa

Miglioramento della preservazione della semantica edilizia nella formazione di modelli AI con codifiche di grandi modelli linguistici

Un nuovo studio rivela che l'uso di embedding di grandi modelli linguistici (LLM) migliora l'addestramento dell'IA per la costruzione della semantica nel settore dell'architettura, ingegneria, costruzione e operazioni (AECO). Testando 42 sottotipi di oggetti edilizi, l'approccio ha superato la tradizionale codifica one-hot, con l'embedding compatto di llama-3 che ha raggiunto un punteggio medio ponderato F1 di 0.8766. Questo metodo potenzia la capacità dell'IA di interpretare semantiche complesse, suggerendo un potenziale significativo per applicazioni più ampie nelle attività AECO.

arXiv

157 giorni fa