Aktuelle KI-Nachrichten

Wiedererlangungs-unterstützte Grundmodelle für angepasste molekulare Paartransformationen zur Rekapitulation der Intuition der Arzneimittelsynthese

Forscher haben ein neues Grundmodell zur Generierung chemischer Analoga entwickelt, das auf passenden Molekülpaaren (MMPs) basiert. Dieses Modell ermöglicht die vielfältige Erzeugung von Variablen, die auf benutzerdefinierten Transformationsmustern beruhen, und verbessert damit die Steuerbarkeit. Die Methode mit dem Namen MMPT-RAG integriert externe Referenzen, um die kontextuelle Relevanz zu steigern. Experimente zeigen bedeutende Fortschritte in der Diversität und Neuheit der erzeugten Verbindungen, was es zu einem wertvollen Werkzeug für die medizinische Chemie in der praktischen Arzneimittelentdeckung macht.

arXiv

vor 54 Tagen

Untersuchung der nichtlinearen Abschalteeffekte auf den Aufbau polarer Felder in der Sonne mittels physikinformierter neuronaler Netzwerke

Eine neue Studie nutzt Physik-informierte neuronale Netze (PINN), um das Verhalten des solaren Dynamo zu analysieren. Dabei wird insbesondere untersucht, wie die Neigungseinschränkung (TQ) und die Breitenabhängigkeitseinschränkung (LQ) das polare Magnetfeld der Sonne und die Amplituden der Sonnenzyklen beeinflussen. Durch die Anpassung der Transportparameter stellten die Forscher fest, dass die Unterdrückung von TQ mit der Diffusivität zunimmt, während LQ in advektionsdominierten Bedingungen überwiegt. Die Studie verfeinert die Beziehung zwischen den Auswirkungen von TQ und LQ auf den Aufbau des Dipolfeldes, was die Vorhersagegenauigkeit für Sonnenzyklen verbessert. Im Vergleich zu herkömmlichen Modellen bietet PINN reduzierte Fehlerraten und erfasst nichtlineare Trends effektiver, wodurch es ein vielversprechendes Werkzeug für zukünftige Vorhersagen der Sonnenzyklen darstellt.

arXiv

vor 54 Tagen

Agent Skill Framework: Perspektiven zum Potenzial kleiner Sprachmodelle in industriellen Umgebungen

Das Agent Skill-Framework, unterstützt von GitHub Copilot, LangChain und OpenAI, zeigt vielversprechende Ansätze für kleine Sprachmodelle (SLMs) in industriellen Anwendungen. Eine Studie führt eine formale Definition des Agent Skill-Prozesses ein und bewertet verschiedene Sprachmodelle. Dabei wird deutlich, dass mittelgroße SLMs (mit 12 bis 30 Milliarden Parametern) erheblich von diesem Framework profitieren. Im Gegensatz dazu haben kleinere Modelle Schwierigkeiten bei der Auswahl von Fähigkeiten. Bemerkenswert ist, dass code-spezialisierte Modelle mit etwa 80 Milliarden Parametern eine Leistung erreichen, die mit geschlossenen Systemen vergleichbar ist, während sie gleichzeitig die GPU-Effizienz verbessern. Diese Erkenntnisse tragen dazu bei, die Implementierung von Agent Skills in Umgebungen zu optimieren, die durch Datensicherheit und Budgetbeschränkungen limitiert sind.

arXiv

vor 54 Tagen

Große Technologieunternehmen behaupten, dass generative KI den Planeten retten wird, liefern jedoch wenig Beweise dafür.

Ein neuer Bericht von Joshi, unterstützt von Umweltgruppen, zeigt, dass viele Behauptungen über Umweltinitiativen an substantiellen Beweisen mangeln. Die Ergebnisse stellen die Gültigkeit verschiedener Programme in Frage und legen nahe, dass es eines rigoroseren Datenmaterials bedarf, um Umweltpolitiken zu untermauern. Dies könnte Auswirkungen auf die Finanzierung und das öffentliche Vertrauen in diese Initiativen haben.

Wired

vor 55 Tagen

Indisches KI-Labor Sarvam setzt mit neuen Modellen auf die Zukunft von Open-Source-KI

Das indische KI-Labor Sarvam hat eine neue Reihe von großen Sprachmodellen vorgestellt, die kleiner und effizienter sind als die bestehenden Optionen. Mit diesem strategischen Schritt zielt das Unternehmen darauf ab, Marktanteile von größeren, proprietären Modellen zu gewinnen, indem es Open-Source-Alternativen anbietet, die die Zugänglichkeit verbessern und die Kosten für Entwickler und Unternehmen senken könnten.

TechCrunch

vor 55 Tagen

Personalisierungsfunktionen können große Sprachmodelle einfühlsamer gestalten

Jüngste Forschungsergebnisse beleuchten ein besorgniserregendes Problem bei großen Sprachmodellen (LLMs), die Benutzerdaten für personalisierte Interaktionen speichern. Die Studie zeigt, dass trotz der Vorteile der Personalisierung diese Modelle die Gefahr bergen, die Privatsphäre der Nutzer zu gefährden, indem sie sensible Daten speichern. Dies wirft entscheidende Fragen zu Datensicherheit und Nutzerzustimmung bei zukünftigen Einsätzen von LLMs auf.

Mit.edu

vor 55 Tagen

Indien Unterstützt Seine KI-Mission Mit NVIDIA

Indien veranstaltet den AI Impact Summit, bei dem globale Führungspersönlichkeiten und Branchenexperten zusammenkommen, um über die Zukunft der Künstlichen Intelligenz zu diskutieren. Zu den zentralen Themen gehören der ethische Einsatz von KI, regulatorische Rahmenbedingungen und die Zusammenarbeit zwischen Regierungen und Technologieunternehmen. Zu den prominenten Teilnehmern zählen Staatsoberhäupter und Führungskräfte großer KI-Firmen, die darauf abzielen, internationale Kooperationen zu fördern und Standards für die Entwicklung von KI zu setzen.

Nvidia.com

vor 55 Tagen

Führende Position im GPU MODE Kernel-Ranking mit NVIDIA cuda.compute

Python bleibt die führende Sprache im Bereich des maschinellen Lernens dank seiner benutzerfreundlichen Natur. Um jedoch eine optimale GPU-Leistung zu erzielen, ist es häufig erforderlich, C++ für die Entwicklung maßgeschneiderter Kernel zu verwenden. Jüngste Fortschritte zielen darauf ab, diesen Prozess zu vereinfachen, indem Entwicklern ermöglicht wird, leistungsstarken GPU-Code direkt in Python zu schreiben. Dies streamlines die Arbeitsabläufe und steigert die Produktivität.

Nvidia.com

vor 55 Tagen

Wie die extreme Hardware-Software-Ko-Entwicklung von NVIDIA einen erheblichen Inferenzschub für die souveränen Modelle von Sarvam AI ermöglichte

Mit dem rasanten Anstieg der KI-Nutzung sehen sich Entwickler vor erhebliche Herausforderungen gestellt, wenn es darum geht, große Sprachmodelle (LLMs) für den praktischen Einsatz zu optimieren. Zu den zentralen Problemen zählt die Erreichung der gewünschten Leistungsfähigkeit bei gleichzeitiger Berücksichtigung von Latenzzeiten und Kosten, da viele Modelle erhebliche Rechenressourcen benötigen. Es werden Lösungen geprüft, um Effizienz und Effektivität in Einklang zu bringen.

Nvidia.com

vor 55 Tagen

Ensemblegrößenabhängigkeit von Deep-Learning-Post-Processing-Methoden zur Minimierung eines (un)fairen Scores: Motivierende Beispiele und eine Proof-of-Concept-Lösung

Der Artikel behandelt die Herausforderungen bei der Verwendung des angepassten kontinuierlichen Rang-Wahrscheinlichkeitswerts (aCRPS) zur Schulung von Ensembleprognosen, insbesondere wenn strukturelle Abhängigkeiten zwischen den Mitgliedern eingeführt werden. Er hebt zwei problematische Ansätze hervor: die lineare Kalibrierung der Mitglieder und eine tiefenlernbasierte Methode, die zu Überdispersion führen kann. Die Autoren schlagen "Trajektorien-Transformatoren" vor, die das PoET-Framework anpassen, um die bedingte Unabhängigkeit in den Prognosen aufrechtzuerhalten. Diese Methode reduziert systematische Verzerrungen effektiv und verbessert die Zuverlässigkeit der wöchentlichen Mitteltemperaturprognosen des ECMWF-Systems, unabhängig von der Größe des Ensembles (3 vs. 9 Mitglieder in der Schulung; 9 vs. 100 in Echtzeit).

arXiv

vor 55 Tagen

Lösung von parameterrobusten Vermeidungsproblemen mit unbekannter Machbarkeit durch Reinforcement Learning

Jüngste Forschungen präsentieren die Feasibility-Guided Exploration (FGE), ein Verfahren, das die Einschränkungen des Deep Reinforcement Learning bei Erreichbarkeitsproblemen adressiert. FGE identifiziert machbare Anfangsbedingungen und erlernt eine sichere Strategie, wobei es bestehende Methoden in anspruchsvollen Szenarien der MuJoCo- und Kinetix-Simulatoren um über 50 % bei der Abdeckung übertrifft. Dieser Ansatz verbessert die Sicherheit in hochdimensionalen Steuerungsaufgaben.

arXiv

vor 55 Tagen

Verbesserung der Erhaltung von Gebäudesemantik in der KI-Modelltraining durch Encodierungen großer Sprachmodelle

Eine neue Studie zeigt, dass die Verwendung von Embeddings großer Sprachmodelle (LLM) das KI-Training zur Entwicklung von Semantik in der Architektur-, Ingenieur-, Bau- und Betriebsbranche (AECO) verbessert. Bei Tests an 42 Untertypen von Bauobjekten übertraf dieser Ansatz die herkömmliche One-Hot-Codierung. Das komprimierte Embedding von Llama-3 erzielte einen gewichteten durchschnittlichen F1-Score von 0,8766. Diese Methode verbessert die Fähigkeit der KI, komplexe Semantiken zu interpretieren, was auf ein erhebliches Potenzial für eine breitere Anwendung in AECO-Aufgaben hinweist.

arXiv

vor 55 Tagen