4.2 C
Nova Iorque
sábado, fevereiro 22, 2025

Dados brutos: a evolução de dados justos e cristalografia.


Os dados científicos em química percorreram um longo caminho nas últimas décadas. Originalmente emaranhado em artigos científicos na forma de tabelas de números ou diagramas, foi (parcialmente) desvencorado a apoiar informações quando os periódicos se tornaram eletrônicos no last dos anos 90. (CITE) 10.1021/acs.orglett.5b01700 (/citação) A próxima fase da próxima fase da próxima foi a introdução de repositórios de dados nos primeiros naiços. Agora associado a empresas comerciais inovadoras, como a FigShare e, mais tarde, o Zenodo não comercial, esses repositórios também se espalharam para a forma institucional, como por exemplo O projeto de espectros anteriores de 2006 (cite) 10.1021/ci7004737 (/cite) e ainda em evolução. (cite) 10.1186/s13321-017-0190-6 (/cite) Talvez os exemplos mais conhecidos e certamente um dos exemplos antigos de Os dados estruturais em química são o CCDC (Cambridge Crystallographic Information Middle) CSD (Cambridge Structural banco de dados) que opera há mais de 55 anos, mesmo antes da period on-line! A curadoria aqui é o contexto importante, uma vez que você encontrará dados de difração de cristal que foram refinados em um modelo estrutural, primeiro pelos autores que relatam a estrutura e depois por CSD que, entre outras operações, validam os dados associados usando um utilitário chamado Checkcif. (cite) 10.1107/s090744490804362x (/cite) O que talvez não seja realizado pela maioria dos usuários dessa fonte de dados é que os dados originais ou “RAW”, conforme obtido de um difratômetro de raios-X e do qual os dados CSD são derivados, na verdade não está disponível no CSD. Essa forma primária de dados cristalográficos é o tópico deste publish.

A maioria dos dados químicos agora emerge de um instrumento, onde já é processado parcialmente internamente antes de serem oferecidos. Tais dados brutos/primários talvez sejam mais conhecidos na forma de informações de RMN, onde são oferecidos pelo instrumento na forma de um decaimento de fid ou indução livre. Sua transformação deste formulário em que todos os químicos conhecem como espectro requer mais processamento de software program e incluindo outras operações, como a integração de pico. É esse espectro processado que tradicionalmente period oferecido como parte de um artigo científico (geralmente apenas em forma visible ou de pico) e raramente a forma FID foi disponibilizada a qualquer pessoa interessada. É importante afirmar que a transformação em Spectrum também incorrer em uma perda significativa de dados. Um projeto interessante liderado pelos editores de dois periódicos de química orgânica (CITE) 10.1021/acs.joc.0c00248 (/cite), (cite) 10.1021/acs.orglett.0c00383 (/cite) teve o objetivo de incentivar a apresentação da feira Os dados da revista, embora de fato o projeto realmente se concentrasse no envio de dados brutos de RMN. Como se viu, apenas uma proporção muito pequena de todas as submissões a esses periódicos durante o período de um ano realmente forneceu esses dados (~ 113 conjuntos de dados) na forma de arquivos zip e contendo em qualquer lugar entre um e ~ 100 conjuntos reais de dados brutos de RMN por arquivo. Deve -se afirmar que os dados brutos não são necessariamente dados justos. Este último exige que metadados ricos descrevam os dados para se tornarem encontrados, acessíveis, interoperáveis ​​e reutilizáveis ​​(justos), e esses metadados não foram realmente gerados como parte deste projeto do editor.

Aqui vou dar uma olhada mais de perto em dados brutos potencialmente justos na área de cristalografia. Este projeto é talvez menos conhecido que o anterior (cite) 10.1021/acs.joc.0c00248 (/cite), (cite) 10.1021/acs.orglett.0c00383 (/citação) Portanto, a presente postagem se esforça para melhorar conhecido. Assim como na RMN, um ponto de partida útil é descrever os vários estágios do ciclo de vida dos dados de cristal.

  1. Um cristal é montado no difratômetro e as imagens de difração de raios-X são registradas. Estes são considerados os dados brutos e, como na maioria dos instrumentos, sua forma é determinada pelo próprio instrumento e pelo software program usado para iniciar o processo de refinamento em uma estrutura molecular.
  2. Este refinamento então atribui um grupo espacial aos dados e deriva os chamados fatores de estrutura ou hkl dados. Agora, esses dados podem ser capturados em uma forma muito mais padrão conhecida como CIF (arquivo de informações cristalográficas) e hoje é o formato que é depositado com CSD.
  3. Uma forma reduzida do arquivo CIF, contendo um subcono da informação, mas sem o hkl Os dados são muito mais comuns e foram o formulário originalmente enviado ao CSD até alguns anos atrás.
  4. Muitas vezes, uma imagem do modelo resultante para a estrutura molecular também é incluída. Embora seja baseado nos dados no arquivo CIF, ele não contém dados reutilizáveis ​​como tal e é considerado disponível apenas para uso e percepção humano.

É o formulário 1 que está faltando nos conjuntos de dados CSD. Como pode ser bastante grande (~ 0,5-9 gbyte), a recomendação atual é que ele não é armazenado no CSD, mas nos repositórios de dados locais. Portanto, agora vemos a necessidade de estabelecer, se possível, hyperlinks bidirecionais entre o tipo 1 e os tipos 2-4 e identificar quais características de Truthful cada uma possui. Principalmente, o f (encontrado) da feira será explorado aqui. Isso é feito ilustrando algumas pesquisas por esses dados, com base nos metadados registrados no DATACITE.

  1. https://commons.datacite.org/?question=relatedIdentifiers.relatedIdentifier:10.5517* (157 obras)
    Esta pesquisa simples identifica qualquer entrada em qualquer repositório que cita em seus metadados registra o doi para uma entrada no CSD, assumindo o formulário 10.5517* o que é comum a todas as entradas.
  2. ? Question = RelatedIdentifiers .media_type: aplicativo/zip) (9 trabalhos).
    Isso também especifica que a Pesquisa 5 é ainda mais restrita, exigindo que um dos quatro tipos de mídia também esteja presente no registro de metadados do repositório. Esses tipos são arquivos compactados padrão que os dados de cristal bruto provavelmente serão armazenados, juntamente com uma entrada CIF que está claramente associada a dados de estrutura de cristal. O booleano ou indica que qualquer um deles pode estar presente! Agora se pode ter um pouco mais certo de que essas entradas contêm dados de estrutura de cristal. O fato de não podemos ter certeza absoluta é claramente uma deficiência atual dos metadados presentes para as entradas!
  3. ? Question = Identificador:*10.5517*+e+(RelatedIdentifiers.RelatedIdentifier:*10.14469*) (7 trabalhos)
    Oito trabalhos da pesquisa 6 originam de um repositório com o prefixo 10.14469* E agora agora se pode reverter a direção e perguntar quantos são referenciados nos metadados para cada merchandise publicado no CSD? Cerca de 945.473 entradas no CSD atualmente têm um identificador de DOI persistente associado a elas, tudo começando a 10.5517* E agora agora se pode procurar quantos deles também fazem referência a um identificador relacionado em 10.14469* Sete deles aparecem lá.
  4. Também nos registros de metadados CSD é um merchandise com o atributo RelationType = ”IsderivedFrom” carregando o significado de que os dados do CSD são derivados de dados (brutos) mantidos em outros lugares. Esta informação é capturada durante o processo de deposição com CCDC conforme abaixo.

    https://commons.datacite.org/?Question=Identifier:*10.5517*+ e+(RelatedIdentifiers.RelationTyPe:issourceOf+or+RelatedIdentifiers.RelationTyPe:IrivedFrom) (7 trabalhos)
    Isso restringe os conjuntos de dados em CSD associados a dados brutos adicionais por Isterived de ou ISSOURCEOF relacionamentos. O CCDC me diz que o número verdadeiro é de cerca de 65, portanto as origens dessa incompatibilidade precisam ser identificadas.

Portanto, os projetos que visam capturar dados da instrumentação química estão apenas começando a revelar o potencial desse sistema moderno para armazenar dados em dois ou mais locais e reconciliar várias formas desses dados, da forma bruta a dados derivados ou processados. O usuário interessado pode usar qualquer formulário que seja mais relevante para suas necessidades, e ter encontrado um formulário pode trazer de volta aos outros formulários. Podemos antecipar muitos desenvolvimentos nessa área em um futuro próximo.


É preciso expandir o arquivo para descobrir quantos conjuntos de dados brutos reais estão dentro, em vez de saber de antemão quantos conjuntos de dados estão contidos lá, ou qualquer outra coisa sobre suas propriedades. O processo de publicação é descrito aqui para um repositório em doi: 10.14469/hpc/10178 Do esquema de datacite; ... Isterived de deve ser usado para um recurso que seja um derivado de um recurso unique. Neste exemplo, o conjunto de dados é derivado de um conjunto de dados maior e os valores de dados foram manipulados de seu estado unique. ... ISSOURCEOF é o recurso unique a partir do qual um recurso derivado foi criado. Neste exemplo, este é o conjunto de dados unique sem manipulação de valor.


Este publish tem doi: 10.14469/hpc/10177


Esta entrada foi publicada na terça -feira, 1 de março de 2022 às 14:16 e é arquivada em Químico. Você pode seguir qualquer resposição a esta entrada através do RSS 2.0 alimentar. Você pode Deixe uma respostaou trackback do seu próprio website.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles