3.1 C
Nova Iorque
quarta-feira, dezembro 4, 2024

AI leva o treinamento científico cruzado a novos patamares com um enorme conjunto de dados abertos


Uma colaboração pioneira revelou dois vastos conjuntos de dados científicos que poderão ajudar os sistemas de IA a pensar em todas as disciplinas – desde a explosão de estrelas até aos padrões de fluxo sanguíneo – marcando um passo significativo em direcção a máquinas que podem fazer ligações inesperadas entre campos aparentemente não relacionados.

Tempo estimado de leitura: 6 minutos

E se a inteligência synthetic pudesse pensar como um cientista renascentista, obtendo insights sobre astronomia, biologia, física e muito mais? O projeto Polymathic AI deu um grande passo em direção a esse objetivo ao liberar 115 terabytes de dados científicos diversos – mais do dobro do tamanho dos dados de treinamento por trás do GPT-3 – selecionados especificamente para ajudar os sistemas de IA a desenvolver uma compreensão científica multidisciplinar.

“Esses conjuntos de dados inovadores são, de longe, as mais diversas coleções em grande escala de dados de alta qualidade para treinamento de aprendizado de máquina já reunidas para essas áreas”, explica Michael McCabe, engenheiro de pesquisa do Flatiron Institute da cidade de Nova York. “A curadoria desses conjuntos de dados é uma etapa crítica na criação de modelos multidisciplinares de IA que permitirão novas descobertas sobre o nosso universo.”

O nome da iniciativa deriva do conceito de polímatas – aqueles raros indivíduos cuja experiência abrange vários campos. Mas, em vez de depender de mentes brilhantes e singulares, o projeto visa codificar o pensamento interdisciplinar nos próprios sistemas de IA. Os conjuntos de dados abrangem tudo, desde retratos de galáxias do Telescópio Espacial James Webb até simulações de sistemas biológicos e dinâmica de fluidos.

“O aprendizado de máquina vem acontecendo há cerca de 10 anos na astrofísica, mas ainda é muito difícil de usar em instrumentos, em missões e em disciplinas científicas”, observa o cientista pesquisador da Polymathic AI, François Lanusse. “Conjuntos de dados como o Universo Multimodal são o que nos permitirão construir modelos que compreendem nativamente todos esses dados e podem ser usados ​​como um canivete suíço para a astrofísica.”

Os dados são divididos em duas coleções principais. O Universo Multimodal fornece 100 terabytes de observações e medições astronômicas. A coleção Properly oferece 15 terabytes de simulações numéricas que modelam processos complexos como explosões de supernovas e desenvolvimento de embriões através de equações diferenciais parciais – descrições matemáticas que surgem repetidamente em campos científicos.

“Os conjuntos de dados disponíveis gratuitamente são um recurso sem precedentes para o desenvolvimento de modelos sofisticados de aprendizado de máquina que podem então resolver uma ampla gama de problemas científicos”, diz Ruben Ohana, pesquisador do Centro de Matemática Computacional do Flatiron Institute. “A comunidade de aprendizado de máquina sempre foi de código aberto; é por isso que tem sido tão rápido em comparação com outros campos.”

Glossário

IA polimática
Sistemas de inteligência synthetic projetados para funcionar em múltiplas disciplinas científicas, semelhantes aos polímatas humanos que têm experiência em muitas áreas
Aprendizado de máquina
Um tipo de inteligência synthetic que melhora automaticamente por meio da experiência e da análise de dados
Equações Diferenciais Parciais
Equações matemáticas que descrevem muitos fenômenos físicos e aparecem repetidamente em diferentes campos científicos

Teste seu conhecimento

Qual o tamanho dos novos conjuntos de dados em comparação com os dados de treinamento do GPT-3?

Os novos conjuntos de dados totalizam 115 terabytes, o que é mais que o dobro do tamanho dos 45 terabytes de dados de treinamento do GPT-3.

Quais são as duas coleções principais nos conjuntos de dados divulgados?

O Universo Multimodal (100 TB de dados astronômicos) e o Poço (15 TB de simulações numéricas).

Como as equações diferenciais parciais conectam fenômenos científicos aparentemente diferentes?

Essas equações aparecem em diversos processos, desde a mecânica quântica até o desenvolvimento embrionário, fornecendo descrições matemáticas que unem diferentes campos científicos.

Que mudança basic no desenvolvimento da IA ​​este projeto representa em comparação com as ferramentas científicas tradicionais de IA?

Embora as ferramentas tradicionais de IA sejam desenvolvidas especificamente para aplicações específicas, este projeto visa desenvolver modelos verdadeiramente polimáticos que possam funcionar em todas as disciplinas e encontrar conexões inesperadas entre campos.


Gostou dessa história? Assine nossa publication em scienceblog.substack.com.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles