AI
KI-Nachrichten

Aktuelle KI-Nachrichten

Deep-Learning-gestützte Pan-Phenomik-Daten zeigen die explosive Evolution der visuellen Diversität bei Vögeln

Deep-Learning-gestützte Pan-Phenomik-Daten zeigen die explosive Evolution der visuellen Diversität bei Vögeln

Eine aktuelle Studie nutzt Deep Learning, insbesondere ein ResNet34-Modell, zur Analyse der morphologischen Evolution von Vögeln, indem sie über 10.000 Vogelarten erkennt. Die Ergebnisse zeigen, dass der hochdimensionale Einbettungsraum des Modells phänotypische Konvergenz und morphologische Unterschiede erfasst, die mit der Artenvielfalt verknüpft sind. Dies unterstreicht die Bedeutung der Artenvielfalt als entscheidenden Faktor für die Expansion im Morphospace. Die Muster nach dem K-Pg-Aussterben weisen auf einen „frühen Schub“ in der Diversität hin. Besonders hervorzuheben ist auch die Fähigkeit des Modells, hierarchische Strukturen in einem flachen Label-Trainingskontext zu bilden, was die Annahmen über die Abhängigkeit von CNNs von lokalen Texturen in Frage stellt.

arXiv
SymPlex: Ein struktur-aware Transformer zur symbolischen Lösung von PDEs

SymPlex: Ein struktur-aware Transformer zur symbolischen Lösung von PDEs

SymPlex präsentiert ein neuartiges Framework für Reinforcement Learning, das analytische Lösungen für partielle Differentialgleichungen (PDEs) ableitet, ohne auf belastbare Grunddaten angewiesen zu sein. Dabei wird ein struktursensitiver Transformer, SymFormer, eingesetzt, um Lösungen ausschließlich basierend auf der PDE und ihren Randbedingungen zu optimieren. Dieser Ansatz ermöglicht interpretierbare Lösungen, die effektiv mit nicht-glatten Verhaltensweisen umgehen können, und stellt einen bedeutenden Fortschritt im Vergleich zu traditionellen numerischen Methoden dar. Empirische Tests zeigen, dass SymPlex komplexe Lösungen von PDEs präzise rekonstruiert, was das Potenzial für praktische Anwendungen in der mathematischen Modellierung und Ingenieurwissenschaft unterstreicht.

arXiv
Schnelles und effizientes Training multimodaler großer Sprachmodelle durch visuelles Token-Pruning

Schnelles und effizientes Training multimodaler großer Sprachmodelle durch visuelles Token-Pruning

Forscher haben DualSpeed entwickelt, ein Framework zur Steigerung der Trainingseffizienz von multimodalen großen Sprachmodellen (MLLMs), das die Ineffizienzen im Zusammenhang mit enormen Modellgrößen und visuellen Tokens angeht. DualSpeed verfolgt einen dualen Ansatz: einen schnellen Modus, der Visual Token Pruning (VTP) einsetzt, um die Anzahl der visuellen Tokens zu reduzieren, und einen langsamen Modus, der auf vollständigen Sequenzen trainiert, um Konsistenz zu gewährleisten. Diese Methode beschleunigt das Training erheblich – um das 2,1-Fache für LLaVA-1.5 und um das 4,0-Fache für LLaVA-NeXT – und erreicht dabei eine Leistungsfähigkeit von über 99 %. Der Code ist auf GitHub verfügbar.

arXiv
Dassault Systèmes und NVIDIA gehen Partnerschaft zur Entwicklung einer industriellen KI-Plattform für virtuelle Zwillinge ein

Dassault Systèmes und NVIDIA gehen Partnerschaft zur Entwicklung einer industriellen KI-Plattform für virtuelle Zwillinge ein

Eine neue geteilte industrielle KI-Architektur integriert Digitale Zwillinge mit skalierbarer KI-Infrastruktur und verbessert so die Entscheidungsfindung in Echtzeit in der Fertigung. Dieses wissenschaftlich validierte Modell optimiert Prozesse und ermöglicht es den Unternehmen, KI für vorausschauende Wartung und gesteigerte Betriebseffizienz zu nutzen. Die Architektur positioniert industrielle KI als ein entscheidendes Werkzeug in modernen Produktionsumgebungen.

Nvidia.com
Darren Aronofskys AI-gestützter Ansatz gefährdet die amerikanische Geschichte in 'On This Day…1776'

Darren Aronofskys AI-gestützter Ansatz gefährdet die amerikanische Geschichte in 'On This Day…1776'

Die neue Kurzfilmreihe "An diesem Tag…1776" beginnt mit einer eindrucksvollen Visualisierung, in der eine Hand über die Titelseite von Thomas Paines "Common Sense" streicht und dessen historische Bedeutung hervorhebt. Diese Reihe hat sich zum Ziel gesetzt, zentrale Ereignisse der Amerikanischen Revolution zu beleuchten und dabei Kontext sowie Einblicke in die einflussreichen Persönlichkeiten und Ideen dieser Zeit zu bieten.

CNET
Warum immer mehr Verbraucher KI-gestütztes Einkaufen bevorzugen und dennoch den menschlichen Kontakt erwarten

Warum immer mehr Verbraucher KI-gestütztes Einkaufen bevorzugen und dennoch den menschlichen Kontakt erwarten

Ein aktueller Bericht von ZDNET zeigt, dass 73 % der Verbraucher KI-Chatbots für Produktsuchen nutzen, was einen wachsenden Trend im E-Commerce widerspiegelt. Der Artikel hebt hervor, dass Unternehmen KI-Tools integrieren müssen, um die Kundenbindung zu stärken und das Einkaufserlebnis zu optimieren, da die Abhängigkeit der Verbraucher von diesen Technologien zunimmt.

ZDNet
SpaceX erwirbt offiziell xAI und plant den Bau von Datenzentren im Weltraum

SpaceX erwirbt offiziell xAI und plant den Bau von Datenzentren im Weltraum

SpaceX hat die Übernahme von Elon Musks KI-Startup xAI bekannt gegeben, was einen bedeutenden Schritt in den Bereich der künstlichen Intelligenz darstellt. Diese Fusion katapultiert SpaceX zur wertvollsten privaten Firma der Welt. Ziel der Integration ist es, die Technologie von xAI zu nutzen, um die Betriebsabläufe und Entscheidungsprozesse bei SpaceX zu optimieren, und möglicherweise die ehrgeizigen Projekte im Bereich der Weltraumforschung zu straffen.

TechCrunch
HHS nutzt KI-Tools von Palantir zur Fokussierung auf 'DEI' und 'Gender-Ideologie' in Förderanträgen

HHS nutzt KI-Tools von Palantir zur Fokussierung auf 'DEI' und 'Gender-Ideologie' in Förderanträgen

Das Gesundheitsministerium nutzt seit März KI-Tools von Palantir, um die Prüf- und Auditprozesse für Fördermittel und Stellenbeschreibungen zu optimieren. Dieses Vorhaben zielt darauf ab, die Einhaltung bundesstaatlicher Vorschriften zu gewährleisten und die Aufsicht zu verbessern. Die Integration dieser KI-Werkzeuge soll die Abläufe effizienter gestalten und Fehler im Fördermittelmanagement reduzieren.

Wired
PixelGen: Pixel-Diffusion übertrifft latente Diffusion mit perceptuellem Verlust

PixelGen: Pixel-Diffusion übertrifft latente Diffusion mit perceptuellem Verlust

PixelGen ist ein neuartiges Pixel-Diffusionsframework, das die Einschränkungen traditioneller zweistufiger latenter Diffusionsmodelle umgeht, indem es direkt im Pixelfeld optimiert. Es nutzt zwei perceptuelle Verluste – LPIPS für lokale Muster und DINO für globale Semantik –, um die Bildqualität zu verbessern. PixelGen erreicht einen wettbewerbsfähigen FID-Wert von 5,11 auf ImageNet-256 mit nur 80 Trainingsepochen und zeigt starke Leistungen bei großangelegten Text-zu-Bild-Aufgaben, wie durch einen GenEval-Wert von 0,79 belegt wird. Dieser Ansatz macht den Einsatz von VAEs und zusätzlichen Phasen überflüssig und bietet ein schlankes und effektives generatives Modell. Der vollständige Code ist auf GitHub verfügbar.

arXiv
Erweiterung der Fähigkeiten des Reinforcement Learning durch Text-Feedback

Erweiterung der Fähigkeiten des Reinforcement Learning durch Text-Feedback

Eine aktuelle Studie stellt RL aus Text-Feedback (RLTF) vor, das Textkritiken nutzt, um große Sprachmodelle nach dem Training zu verbessern. Im Gegensatz zu herkömmlichen Methoden verwendet RLTF verstärkendes Lernen über mehrere Dialogrunden, was es den Modellen ermöglicht, Feedback zu verinnerlichen, ohne dass umfangreiche Demonstrationen erforderlich sind. Zwei Techniken, Selbst-Distillation und Feedback-Modellierung, wurden in verschiedenen Aufgaben getestet und übertrafen dabei konstant bestehende Vergleichswerte. Dies deutet darauf hin, dass Text-Feedback die Leistung von Modellen effizient erheblich steigern kann.

arXiv
Multi-Head-Automatisierte Segmentierung durch Integration des Erkennungsmoduls in das Kontextschicht-Neuronale Netzwerk

Multi-Head-Automatisierte Segmentierung durch Integration des Erkennungsmoduls in das Kontextschicht-Neuronale Netzwerk

Eine neue gated Multi-Head-Transformer-Architektur, die auf Swin U-Net basiert, verbessert die automatische Segmentierung in der Strahlentherapie, indem sie den inter-slice Kontext und einen parallelen Erkennungsmechanismus integriert. Dieses Modell verringert effektiv die Anzahl der falsch-positiven Ergebnisse und erreicht einen durchschnittlichen Dice-Verlust von $0.013 \pm 0.036$, im Vergleich zu $0.732 \pm 0.314$ bei traditionellen Methoden. Dieser Fortschritt erhöht die Zuverlässigkeit der automatisierten Konturierung in klinischen Anwendungen.

arXiv
Optimierung der Kommunikation für das Training von Mixture-of-Experts mit hybrider Expertenparallelisierung

Optimierung der Kommunikation für das Training von Mixture-of-Experts mit hybrider Expertenparallelisierung

Eine aktuelle Studie beleuchtet die Herausforderungen bei der Implementierung der Expert Parallel (EP) Kommunikation in hyperskalaren Mixture-of-Experts (MoE) Modellen während des Trainings. Das Kommunikationsmodell erfordert einen All-zu-All-Ansatz, der durch dynamische Prozesse und Sparseität kompliziert wird. Die Ergebnisse deuten darauf hin, dass die Verbesserung der Effizienz der EP-Kommunikation entscheidend ist, um die Leistung von MoE zu optimieren. Dies könnte die Trainingszeiten und die Ressourcennutzung in großangelegten Machine-Learning-Umgebungen erheblich verbessern.

Nvidia.com