Últimas noticias de IA

Modelos de Fundación Aumentados por Recuperación para Transformaciones de Parejas Moleculares Coincidentes que Recapitulaban la Intuición de la Química Medicinal

Investigadores han desarrollado un nuevo modelo fundamental para la generación de análogos químicos utilizando pares moleculares emparejados (MMPs). Este modelo permite la generación de variables diversas basadas en patrones de transformación definidos por el usuario, lo que mejora la capacidad de control. El método, denominado MMPT-RAG, incorpora referencias externas para aumentar la relevancia contextual. Los experimentos indican avances significativos en la diversidad y novedad de los compuestos generados, lo que lo convierte en una herramienta valiosa para la química medicinal en el descubrimiento práctico de fármacos.

arXiv

hace 54 días

Investigación de los Efectos de Amortiguamiento No Lineales en la Acumulación de Campo Polar en el Sol Mediante Redes Neuronales Informadas por la Física

Un nuevo estudio utiliza Redes Neuronales Informadas por la Física (PINN) para analizar el comportamiento del dínamo solar, centrándose en cómo el apagado por inclinación (TQ) y el apagado por latitud (LQ) afectan el campo polar del Sol y las amplitudes del ciclo solar. Al ajustar los parámetros de transporte, los investigadores descubrieron que la supresión de TQ aumenta con la difusividad, mientras que LQ prevalece en condiciones dominadas por la advección. El estudio refina la relación entre los efectos de TQ y LQ en la acumulación del dipolo, mejorando la precisión predictiva para los ciclos solares. En comparación con los modelos tradicionales, PINN ofrece tasas de error reducidas y captura tendencias no lineales de manera más efectiva, representando una herramienta prometedora para las predicciones futuras de los ciclos solares.

arXiv

hace 54 días

Marco de Habilidades de Agentes: Perspectivas sobre el Potencial de los Pequeños Modelos de Lenguaje en Entornos Industriales

El marco de habilidades del agente, respaldado por GitHub Copilot, LangChain y OpenAI, muestra un gran potencial para los modelos de lenguaje pequeños (SLMs) en contextos industriales. Un estudio presenta una definición formal del proceso de habilidades del agente y evalúa diversos modelos de lenguaje, revelando que los SLMs de tamaño moderado (con entre 12 y 30 mil millones de parámetros) se benefician enormemente de este marco. En cambio, los modelos más pequeños enfrentan dificultades en la selección de habilidades. Cabe destacar que los modelos especializados en código, que rondan los 80 mil millones de parámetros, igualan el rendimiento de los modelos de código cerrado mientras mejoran la eficiencia de las GPU. Estos hallazgos son clave para optimizar la implementación de habilidades de agentes en entornos limitados por la seguridad de los datos y el presupuesto.

arXiv

hace 54 días

Grandes tecnológicas afirman que la IA generativa salvará el planeta, pero no presentan suficientes pruebas.

Un nuevo informe de Joshi, respaldado por grupos ambientales, revela que muchas afirmaciones sobre iniciativas medioambientales carecen de evidencia sustancial. Los hallazgos ponen en tela de juicio la validez de varios programas y sugieren la necesidad de datos más rigurosos que respalden las políticas ambientales. Esto podría tener implicaciones para la financiación y la confianza pública en estas iniciativas.

Wired

hace 55 días

El nuevo modelo del laboratorio indio de IA Sarvam representa una importante apuesta por la viabilidad de la IA de código abierto

El laboratorio indio de inteligencia artificial Sarvam ha lanzado una nueva gama de modelos de lenguaje de gran tamaño, diseñados para ser más pequeños y eficientes que las opciones existentes. Este movimiento estratégico busca captar cuota de mercado de los modelos más grandes y propietarios, ofreciendo alternativas de código abierto que podrían mejorar la accesibilidad y reducir costos para desarrolladores y empresas.

TechCrunch

hace 55 días

Las funciones de personalización pueden hacer que los LLM sean más accesibles.

Investigaciones recientes destacan un problema preocupante relacionado con los modelos de lenguaje de gran tamaño (LLMs) que retienen información de los usuarios para ofrecer interacciones personalizadas. El estudio revela que, a pesar de los beneficios de la personalización, estos modelos corren el riesgo de comprometer la privacidad del usuario al almacenar datos sensibles. Esto plantea preguntas cruciales sobre la seguridad de los datos y el consentimiento del usuario en futuras implementaciones de LLM.

Mit.edu

hace 55 días

India Impulsa Su Misión de IA Con NVIDIA

India está organizando la Cumbre de Impacto de la IA, un evento que reúne a líderes globales y expertos de la industria para debatir sobre el futuro de la inteligencia artificial. Entre los temas clave se encuentran el uso ético de la IA, los marcos regulatorios y la colaboración entre gobiernos y empresas tecnológicas. Entre los asistentes destacados se encuentran jefes de estado y líderes de importantes firmas de IA, con el objetivo de promover la cooperación internacional y establecer estándares para el desarrollo de la inteligencia artificial.

Nvidia.com

hace 55 días

Liderazgo en el ranking de kernels de GPU MODE con NVIDIA cuda.compute

Python sigue siendo el lenguaje predominante en el aprendizaje automático gracias a su facilidad de uso. Sin embargo, para alcanzar un rendimiento óptimo en GPU, a menudo es necesario recurrir al C++ para el desarrollo de núcleos personalizados. Los avances recientes buscan simplificar este proceso, permitiendo a los desarrolladores escribir código de GPU de alto rendimiento directamente en Python, lo que agiliza los flujos de trabajo y mejora la productividad.

Nvidia.com

hace 55 días

Cómo el Co-Diseño Extremo de Hardware y Software de NVIDIA Potenció el Ingreso de Inferencia para los Modelos Soberanos de Sarvam AI

A medida que la adopción de la inteligencia artificial se dispara, los desarrolladores se enfrentan a importantes desafíos para optimizar los modelos de lenguaje de gran tamaño (LLMs) para aplicaciones del mundo real. Entre los principales problemas se encuentran lograr el rendimiento deseado mientras se gestionan la latencia y los costos, ya que muchos de estos modelos requieren recursos computacionales significativos. Se están explorando soluciones para equilibrar la eficiencia con la efectividad.

Nvidia.com

hace 55 días

Dependencia del tamaño del conjunto en métodos de post-procesamiento de aprendizaje profundo que minimizan una puntuación (in)justa: ejemplos motivadores y una solución de prueba de concepto

El artículo aborda los desafíos de utilizar la puntuación de probabilidad continua ajustada (aCRPS) para entrenar pronósticos en conjuntos, especialmente cuando se introducen dependencias estructurales entre los miembros. Se destacan dos enfoques problemáticos: la calibración lineal de los miembros y un método de aprendizaje profundo que puede generar problemas de sobredispersión. Los autores proponen los "transformadores de trayectoria", adaptando el marco PoET para mantener la independencia condicional en las predicciones. Este método reduce de manera efectiva los sesgos sistemáticos y mejora la fiabilidad de las previsiones de temperatura media semanal del sistema ECMWF, sin importar el tamaño del conjunto (3 frente a 9 miembros en el entrenamiento; 9 frente a 100 en tiempo real).

arXiv

hace 55 días

Resolución de Problemas de Evitación Robusta a Parámetros con Viabilidad Desconocida mediante Aprendizaje por Refuerzo

Investigaciones recientes presentan la Exploración Guiada por la Viabilidad (FGE, por sus siglas en inglés), un método que aborda las limitaciones del aprendizaje por refuerzo profundo en problemas de alcanzabilidad. FGE identifica condiciones iniciales viables y desarrolla una política segura, superando a los métodos existentes en más del 50% en términos de cobertura en escenarios desafiantes en los simuladores MuJoCo y Kinetix. Este enfoque mejora la seguridad en tareas de control de alta dimensionalidad.

arXiv

hace 55 días

Mejorando la preservación de la semántica en la construcción durante el entrenamiento de modelos de inteligencia artificial con codificaciones de grandes modelos de lenguaje

Un nuevo estudio revela que el uso de embeddings de modelos de lenguaje de gran tamaño (LLM) mejora el entrenamiento de la inteligencia artificial para la construcción de semánticas en la industria de arquitectura, ingeniería, construcción y operación (AECO). Al realizar pruebas en 42 subtipos de objetos de construcción, este enfoque superó al tradicional one-hot encoding, logrando un puntaje F1 ponderado promedio de 0.8766 con el embedding compacto llama-3. Este método potencia la capacidad de la IA para interpretar semánticas complejas, lo que indica un potencial significativo para su aplicación en tareas más amplias dentro del sector AECO.

arXiv

hace 55 días