Abordarei este exemplo de candidato à molécula do ano – na verdade o eventual vencedor na enquete do leitor – do ponto de vista dos dados. É um metaloceno organizado na forma de um anel composto por 18 subunidades.(cite)10.1038/s41586-023-06192-4(/cite) Grande o suficiente para merecer um modelo 3D em vez das imagens estáticas que você quase invariavelmente obtém em periódicos (e C&EN). Então, como ir ao diário e adquirir as coordenadas para tal modelo?
Bem, hoje em dia os periódicos mais conceituados incluem uma declaração de “disponibilidade de dados”, que neste caso é indicada por meio de um identificador estilo URL para informações de apoio. A propósito, isso significa que esse identificador pode não ser persistente, pois o caminho para o documento na string https://static-content.springer.com/esm/artpercent3A10.1038percent2Fs41586-023-06192-4/MediaObjects/41586_2023_6192_MOESM1_ESM.pdf
pode mudar no futuro de acordo com os fluxos de trabalho de produção dos editores. O arquivo Acrobat contém as coordenadas necessárias, das quais dou uma pequena amostra aqui:
18‐ring ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ 1386 Vitality = ‐29312.63737385 dispersion contribution = ‐2.415738946 C 5.1700172 1.6243489 ‐11.0779621 C 5.6857216 1.5855492 ‐12.4187559 C 6.0496599 0.6048512 ‐13.3969079 C 6.1219344 ‐0.8254711 ‐13.5066237
Selecionei as coordenadas da molécula no PDF, colei em um editor de texto e depois passei alguns minutos removendo as linhas em branco estranhas resultantes devido às quebras de página presentes no documento PDF (um formato de documento paginado NÃO é um bom veículo para dados!) . Em seguida, adicionei mais linhas (no topo e na cauda) para, por exemplo, torná-lo visível usando um editor molecular como o Gaussview, apenas para obter o seguinte erro.
Um pouco de pesquisa leva, por exemplo, à seguinte página: A diferença entre um travessão e um sinal de menos. Lá você encontra quatro glifos diferentes, qualquer um dos quais pode parecer um sinal de menos – na verdade, pode haver mais. A seguir, usando o seguinte recurso: https://www.fontspace.com/unicode/analyzer#e=4oCQ nos diz que o “-” encontrado nas informações de apoio é na verdade um “hífen“. Digitado em um teclado como “-”, aprende-se que é um “hífen-menos“. Há também “-” que surge como um “Sinal de menos“, enquanto um “-” emerge como um “PT Traço“. Ainda está confuso? Bem, tudo depende se o criador do programa de visualização molecular que você está prestes a usar incluiu todas essas variações no código do programa. Neste caso claramente não, uma vez que um hífen não é reconhecido. Depois de chegar a esse estágio, cerca de 30 minutos de coçar a cabeça ocasional se passaram e você ainda descobriu como fazer uma localização international e substituir um hífen por um sinal de menos usando seu software program preferido.
O que tudo isso tem a ver com FAIR? Isso significa Findestrutível, UMacessível, EUinteroperável e Rutilizável. E essas ações têm de ser possíveis não apenas por um ser humano, mas por um sistema autónomo e provavelmente não supervisionado que recolha dados para aprendizagem automática ou inteligência synthetic. A descoberta foi facilitada pela declaração de “disponibilidade de dados” usando o artigo DOI (um identificador totalmente persistente), mas provavelmente apenas um ser humano poderia realmente lidar com a diversidade de apresentações de dados encontrados em vários editores (portanto, para ser técnico, o acesso a localização dos dados de suporte raramente ou nunca é realmente declarada no registro de metadados associado ao DOI, que é o que uma máquina precisaria para acessar os dados). O Acesso neste caso significa resolver a URL acima, mas somente se ela não mudar no futuro! Mas a próxima parte, a interoperabilidade, é um desafio maior. Como eu, muitos humanos também podem demorar 30 minutos, ou simplesmente desistir, para lidar com o desafio de reconhecer que um hífen não é um sinal de menos! Portanto, embora estejamos gratos por essa declaração de “disponibilidade de dados”, sonho com o dia em que isso se torne de facto uma declaração de “disponibilidade de dados JUSTA”!‡ Ainda não há muitos sinais de que isso aconteça. Acho que os algoritmos de IA ficarão, de fato, mais inteligentes e mais rápidos do que as pessoas para lidar com esses problemas.
De qualquer forma, agora você tem um modelo 3D do 18-metaloceno como a molécula selecionada do ano deste ano! Clique na imagem acima para carregá-la.
‡Por exemplo, os dados deste submit estão disponíveis em um repositório FAIR, com o identificador DOI persistente: https://doi.org/10.14469/hpc/13536. Contém as coordenadas otimizadas usando o método PM7. Estas são muito pouco diferentes das coordenadas do artigo, que foram obtidas usando o método PBE0/Def2-TZVP, um cálculo notável visto que utiliza 21618 funções básicas!
Relacionado
Esta entrada foi publicada sexta-feira, 29 de dezembro de 2023 às 15h59 e arquivada em Sem categoria. Você pode acompanhar quaisquer respostas a esta entrada através do RSS 2.0 alimentar. Você pode deixe uma respostaou trackback do seu próprio web site.