Últimas notícias de IA

Modelos Fundamentais Aumentados por Recuperação para Transformações de Pares Moleculares Correspondentes a Recapturar a Intuição da Química Medicinal

Pesquisadores desenvolveram um novo modelo de base para gerar análogos químicos utilizando pares moleculares correspondentes (MMPs). Este modelo possibilita a geração de variáveis diversas com base em padrões de transformação definidos pelo usuário, aumentando a controlabilidade. O método, denominado MMPT-RAG, incorpora referências externas para melhorar a relevância contextual. Experimentos indicam avanços significativos na diversidade e novidade dos compostos gerados, tornando-o uma ferramenta valiosa para a química medicinal na descoberta prática de medicamentos.

arXiv

há 54 dias

Investigação dos Efeitos de Resfriamento Não Linear na Construção de Campo Polar no Sol Usando Redes Neurais Informadas por Física

Um novo estudo utiliza Redes Neurais Informadas por Física (PINN) para analisar o comportamento do dínamo solar, com foco em como o apagamento de inclinação (TQ) e o apagamento de latitude (LQ) impactam o campo polar do Sol e as amplitudes dos ciclos solares. Ao ajustar os parâmetros de transporte, os pesquisadores descobriram que a supressão do TQ aumenta com a difusividade, enquanto o LQ predomina em condições dominadas pela advecção. A pesquisa aprimora a relação entre os efeitos do TQ e do LQ na formação do dipolo, aumentando a precisão das previsões para os ciclos solares. Em comparação com modelos tradicionais, a abordagem PINN apresenta taxas de erro reduzidas e capta tendências não lineares de maneira mais eficaz, mostrando-se uma ferramenta promissora para futuras previsões dos ciclos solares.

arXiv

há 54 dias

Framework de Habilidades de Agentes: Perspectivas sobre o Potencial de Pequenos Modelos de Linguagem em Ambientes Industriais

O framework Agent Skill, apoiado pelo GitHub Copilot, LangChain e OpenAI, demonstra um potencial significativo para modelos de linguagem pequenos (SLMs) em contextos industriais. Um estudo apresenta uma definição formal do processo Agent Skill e avalia diversos modelos de linguagem, revelando que SLMs de tamanho moderado (entre 12B e 30B de parâmetros) se beneficiam consideravelmente do framework. Em contrapartida, modelos menores enfrentam dificuldades na seleção de habilidades. Destaca-se que modelos especializados em código, com cerca de 80B de parâmetros, apresentam desempenho equivalente ao de soluções proprietárias, ao mesmo tempo em que melhoram a eficiência das GPUs. Essas informações são valiosas para otimizar a implementação de Agent Skills em ambientes com restrições de segurança de dados e orçamento.

arXiv

há 54 dias

Grandes empresas de tecnologia afirmam que a IA generativa salvará o planeta, mas não apresentam muitas provas.

Um novo relatório de Joshi, apoiado por grupos ambientais, revela que muitas alegações sobre iniciativas ambientais carecem de evidências substanciais. As descobertas colocam em dúvida a validade de diversos programas e sugerem a necessidade de dados mais rigorosos para sustentar as políticas ambientais. Isso pode ter implicações para o financiamento e para a confiança pública nessas iniciativas.

Wired

há 55 dias

O novo modelo da lab de IA indiana Sarvam representa uma aposta significativa na viabilidade da IA de código aberto

O laboratório indiano de inteligência artificial Sarvam lançou um novo conjunto de modelos de linguagem de grande escala, projetados para serem menores e mais eficientes do que as opções existentes. Essa estratégia visa conquistar participação de mercado em relação a modelos maiores e proprietários, oferecendo alternativas de código aberto que podem aumentar a acessibilidade e reduzir custos para desenvolvedores e empresas.

TechCrunch

há 55 dias

Recursos de personalização podem tornar LLMs mais agradáveis

Pesquisas recentes destacam uma preocupação significativa em relação aos modelos de linguagem de grande escala (LLMs) que retêm informações dos usuários para interações personalizadas. O estudo revela que, apesar dos benefícios da personalização, esses modelos correm o risco de comprometer a privacidade dos usuários ao armazenar dados sensíveis. Isso levanta questões cruciais sobre a segurança dos dados e o consentimento dos usuários nas futuras implementações de LLM.

Mit.edu

há 55 dias

Índia Impulsiona Sua Missão em IA com NVIDIA

A Índia está sediando a Cúpula de Impacto da IA, reunindo líderes globais e especialistas da indústria para debater o futuro da inteligência artificial. Os principais tópicos em pauta incluem a aplicação ética da IA, estruturas regulatórias e a colaboração entre governos e empresas de tecnologia. Entre os participantes estão chefes de Estado e líderes de grandes empresas de IA, com o objetivo de promover a cooperação internacional e estabelecer padrões para o desenvolvimento da inteligência artificial.

Nvidia.com

há 55 dias

Liderança do Quadro de Classificação de Kernel GPU MODE com NVIDIA cuda.compute

O Python continua sendo a linguagem dominante em machine learning devido à sua facilidade de uso, mas para alcançar um desempenho ideal em GPU, muitas vezes é necessário recorrer ao C++ para o desenvolvimento de kernels personalizados. Avanços recentes buscam simplificar esse processo, permitindo que os desenvolvedores escrevam código de GPU de alto desempenho diretamente em Python, otimizando fluxos de trabalho e aumentando a produtividade.

Nvidia.com

há 55 dias

Como o Co-Design Extremo de Hardware e Software da NVIDIA Proporcionou um Aumento Significativo na Inferência dos Modelos Soberanos da Sarvam AI

Com a adoção da IA em ascensão, os desenvolvedores enfrentam desafios significativos na otimização de modelos de linguagem de grande escala (LLMs) para aplicações no mundo real. Entre os principais problemas estão a busca por um desempenho satisfatório, ao mesmo tempo em que se gerenciam a latência e os custos, uma vez que muitos desses modelos demandam recursos computacionais substanciais. Soluções estão sendo investigadas para equilibrar eficiência e eficácia.

Nvidia.com

há 55 dias

Dependência do tamanho do conjunto de modelos em métodos de pós-processamento de aprendizado profundo que minimizam uma pontuação (in)justa: exemplos motivadores e uma solução de prova de conceito

O artigo aborda os desafios do uso do escore de probabilidade contínua classificado ajustado (aCRPS) para o treinamento de previsões em conjuntos, especialmente quando dependências estruturais entre os membros são introduzidas. Destaca duas abordagens problemáticas: a calibração linear dos membros e um método de aprendizado profundo que pode gerar problemas de superdispersão. Os autores propõem os "transformadores de trajetória", adaptando a estrutura PoET para manter a independência condicional nas previsões. Esse método reduz de forma eficaz os vieses sistemáticos e melhora a confiabilidade nas previsões da temperatura média semanal do sistema ECMWF, independentemente do tamanho do conjunto (3 contra 9 membros no treinamento; 9 contra 100 em tempo real).

arXiv

há 55 dias

Solução de Problemas de Evitação Robusta a Parâmetros com Viabilidade Desconhecida Usando Aprendizado por Reforço

Pesquisas recentes apresentam a Exploração Guiada pela Viabilidade (FGE), um método que aborda as limitações do aprendizado por reforço profundo em problemas de alcançabilidade. A FGE identifica condições iniciais viáveis e aprende uma política segura, superando os métodos existentes em mais de 50% na cobertura de cenários desafiadores nos simuladores MuJoCo e Kinetix. Essa abordagem melhora a segurança em tarefas de controle de alta dimensionalidade.

arXiv

há 55 dias

Aprimoramento da Preservação de Semântica em Edificações na Capacitação de Modelos de IA com Codificações de Modelos de Linguagem de Grande Escala

Um novo estudo revela que o uso de embeddings de grandes modelos de linguagem (LLM) melhora o treinamento de IA para a construção de semântica na indústria de arquitetura, engenharia, construção e operação (AECO). Testes realizados em 42 subtipos de objetos de construção mostraram que essa abordagem superou a codificação one-hot tradicional, com o embedding compactado do llama-3 alcançando uma média ponderada de F1-score de 0,8766. Esse método aprimora a capacidade da IA de interpretar semáticas complexas, indicando um potencial significativo para aplicações mais amplas em tarefas do setor AECO.

arXiv

há 55 dias