2.1 C
Nova Iorque
segunda-feira, fevereiro 24, 2025

Os segredos dos metadados FAIR: otimização para compostos químicos.


A ideia dos chamados dados FAIR (Findable, Accessible, Interoperable and Reusable) é que cada objeto tenha um registro de metadados associado que serve para viabilizar os quatro aspectos do FAIR. Cada um desses registros é identificado por um identificador persistente conhecido como DOI. O truque para produzir dados FAIR úteis é definir o que pode ser chamado de “granularidade” dos objetos de dados que geram os mais facilmente encontráveis ​​e que permitem de forma mais útil os outros três atributos do FAIR.

Para definir o cenário de como fazer isso de maneira superb, primeiro apresentei dois exemplos extremos de objetos FAIR relacionados à espectroscopia química, como a RMN. Eles serão diretamente associados a um artigo de periódico que descreve, para fins de argumentação, digamos 50 compostos novos para a ciência, com a existência desses objetos de dados identificada através de uma declaração de disponibilidade de dados anexada ao artigo. Cada composto pode ser caracterizado por informações espectroscópicas e cristalográficas e talvez por alguma análise computacional. Para a análise espectroscópica, talvez 5 tipos de experimentos de RMN possam ser incluídos, dando um complete de cerca de 10 tipos separados de conjuntos de dados para cada composto, ou em números redondos, digamos 500 conjuntos de dados para os 50 compostos relatados em tal artigo.

  • Método A: os dados associados a um artigo assumem a forma de um arquivo ZIP (ou outro tipo de arquivo compactado) contendo todos os 500 conjuntos de dados FAIR pretendidos. O arquivo ZIP resultante é então descrito com um único registro de metadados e atribuído a um único DOI usando por exemplo as ferramentas de um repositório de dados. Esse registro de metadados tem a tarefa (gigantesca) de descrever todos esses conjuntos de dados, talvez em dez tipos diferentes de experimentos. Este tipo de objeto monolítico não é incomum, por diversas razões. Alguns repositórios impõem uma cobrança significativa por cada deposição e, portanto, a tentação de reduzir custos seria adotar este expediente.
  • Método B: O outro extremo é depositar literalmente todos os 500 conjuntos de dados separadamente e atribuir 500 DOIs, cada um com um registro de metadados separado. A questão agora é menos quão bem o registro de metadados pode descrever cada conjunto de dados, mas mais estabelecer a relacionamentos entre esses 501 objetos (o artigo do periódico e cada conjunto de dados). Tais relacionamentos podem incluir:
    • aquela entre a estrutura molecular composta e o conjunto de dados
    • entre, digamos, o conjunto de dados e o tipo de experimento espectroscópico (por exemplo, IR, MS, RMN, XRD, Comp)
    • aquela entre diferentes, por exemplo, experimentos de RMN para o mesmo composto (o núcleo, a sequência de pulso, o solvente, and so on.).
    • No complete, estes poderiam representar muitas relações individuais entre os 500 conjuntos de dados e o próprio artigo (formalmente em torno de 5012/2!)

Antes de definir nossa solução, mostro abaixo como um repositório típico como o Zenodo lida com os relacionamentos entre os objetos de dados mencionados acima.

O tipo de relação é selecionado de uma lista controlada de cerca de 30 e é inserido para cada registro de metadados particular person associado a um DOI. Então, claramente, os relacionamentos na segunda categoria teriam que ser iniciados individualmente, o que é dificilmente viável para 5012/2 entradas. E na primeira categoria, apenas uma relação entre o grande arquivo único de dados e o DOI da revista pode ser adicionada. Uma das relações mais importantes neste contexto é a “Tem parte” ou “Faz parte de” (diagrama acima).

O uso disso agora constitui Método C.

  1. Começa-se criando o que poderia ser chamado de entrada superior ou de nível 1, que conterá informações importantes de metadados, como os autores contribuintes, o instituto onde os dados foram obtidos, o título e a descrição geral dos conjuntos de dados futuros, uma licença, uma information, uma declaração do artigo publicado associado aos dados e finalmente o DOI deste registro de metadados. Esta entrada de nível superior também listaria todos os compostos no nível 2 para os quais os dados estão disponíveis e cada um sendo referenciado por uma declaração “Tem parte” através de um DOI para cada composto.
  2. Cada composto no nível 2, por sua vez, apontaria de volta ao nível 1 por meio de uma declaração de metadados “Faz parte de”. Cada composto no nível 2 também listaria os experimentos espectroscópicos disponíveis para esse composto, por exemplo, o método de RMN como parte do nível 3. Teria uma declaração “Faz parte de” apontando de volta para a entrada do composto de nível 2.
  3. A lista dos diferentes experimentos de RMN no nível 3 também possui declarações “Tem parte” apontando para a lista de experimentos de RMN no nível 4.
  4. Cada experimento de RMN conduzido no nível 4 conteria uma declaração “Faz parte de” de volta ao nível 3 e uma lista de entradas “Tem parte” que descrevem os arquivos de dados individuais disponíveis para esse experimento no registro de metadados para o nível 4.

Se desejar, você pode inspecionar todas as declarações “Tem parte”/”Faz parte de” nos registros de metadados para esses vários níveis invocando, por exemplo https://information.datacite.org/utility/vnd.datacite.datacite+xml/10.14469/hpc/11446 (substituindo, por exemplo 11446 por qualquer um dos sufixos DOI mostrados em vermelho no diagrama abaixo). Eles estão todos associados a este artigo publicado.(cite)10.1021/acs.inorgchem.3c01506(/cite)

O que esse uso de declarações de partes relacionais alcança? Bem, comparado com método Aonde tudo tinha que ser alcançado dentro de um único registro de metadados (e na prática nunca é) ou método Bonde um grande número de relacionamentos teriam que ser declarados (e novamente nunca são), Método C consegue um bom equilíbrio entre os dois. Ao coletar as informações de metadados em grupos, pode-se obter uma estrutura de informações mais facilmente navegável e também permitir que subgrupos herdem efetivamente propriedades do grupo superior.

Termino observando que muito poucas coleções de dados FAIR associadas a artigos de periódicos publicados adotam tais procedimentos, em grande parte devido à muito pouca exploração atual das relações entre os dados, como a usada acima (“Faz parte”/”Faz parte de ”). O repositório em si deve ser cuidadosamente projetado para fazer isso da forma mais automática possível e não exigir que o depositante humano invoque cada instância manualmente (como mostrado no exemplo). por exemplo Zenódo acima). Um exemplo desse repositório é descrito aqui.(cite)10.1186/s13321-017-0190-6(/cite)


Os próprios conjuntos de dados podem ser disponibilizados em mais de um formato (para NMR, um arquivo Bruker ZIP, um arquivo Mnova, um formato JCAMP-DX ou apenas um espectro PDF), aumentando assim o número ainda mais.
Isso me lembra de quando eu ensinava teoria orbital molecular usando o método Hückel, que requer a diagonalização de uma matriz secular. Por exemplo, para o naftaleno, esta operação teria que ser realizada numa matriz 10*10, algo quase impossível manualmente. No entanto, pode-se usar a teoria dos grupos para bloquear a diagonalização desta matriz em matrizes muito menores, com os elementos fora da diagonal entre elas definidos como zero, reduzindo assim consideravelmente a tarefa em questão.

Esta entrada foi publicada quarta-feira, 11 de dezembro de 2024 às 12h22 e arquivada em Química interessante. Você pode acompanhar quaisquer respostas a esta entrada através do RSS 2.0 alimentar. Você pode deixe uma respostaou trackback do seu próprio web site.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles