Base de dados ou repositório de dados? – Uma história breve e muito seletiva do gerenciamento de dados em química.

24 de fevereiro de 2025

124

No ultimate dos anos 80, os grupos de pesquisa em química começaram a substituir a apresentação de seus dados de pesquisa baseados em papel, armazenando-os em uma forma digital facilmente recuperável. Isso exigia um banco de dados de computador e, inicialmente, eles eram acessíveis apenas em computadores dedicados específicos em laboratório. Estes mudaram gradualmente a partir dos anos 90 em diante para estar acessíveis on -line, para que mais de uma pessoa pudesse usá -las em locais diferentes. Pelo menos onde eu trabalhei, as infraestruturas^‡ Para configurar esses bancos de dados, na maioria das vezes não estavam disponíveis como parte das disposições de pesquisa padrão e, portanto, precisavam ser instaladas e mantidas pelo próprio grupo. O software program de banco de dados assumiu muitas formas diferentes e não period incomum para cada grupo de um departamento encontrar uma solução diferente que atendesse melhor às suas necessidades. O resultado foi uma proliferação de soluções amplamente não interoperáveis que não se comunicaram. Cada banco de dados teve que ser pesquisado localmente e poderia haver dez ou mais esses recursos em um departamento. O conhecimento de como o sistema opera também residia em apenas uma pessoa, que tendia a evaporar quando esse guru deixou o grupo.

Após o milênio, dois recém -chegados começaram a aparecer, um chamado de ELN (Caderno de Laboratório Eletrônico) e o segundo um repositório de dados. O primeiro foi um banco de dados fortemente personalizado contendo dados de pesquisa obtidos de instrumentos, computadores, imagens/vídeo, desenhos de estrutura química and so on. Os elns, até hoje, têm limitações de interoperabilidade com outros ELNs e o conteúdo de um ELN são frequentemente fechados, exigindo credenciais de autenticação para acessar. O repositório de dados também começou a aparecer em química nesse período. Mesmo em suas primeiras encarnações, poderia estar associado a um “entrance -end” do ELN como parte do pipeline de dados; Um exemplo inicial desse acoplamento é descrito aqui. (CITE) 10.1021/CI500302P (/citação) Outra frase -chave que se associou a repositórios a partir de 2014 foi o conceito de feira, incluindo idéias como o Descoberta (Descobertabilidade) e Interoperabilidade de dados,^† um tema frequentemente explorado e ilustrado neste weblog.

Esses últimos dezessete anos viram organizações como agências de financiamento e editores exigindo cada vez mais o uso de métodos de gerenciamento de dados, usando um repositório por conta própria ou uma combinação de um ELN e repositório como operações de rotina em atividades de pesquisa e processos de publicação. O acoplamento próximo de um ELN e repositório ainda é incomum.

Um colega recentemente me alertou para um repositório de química computacional lançado pela primeira vez em 2014; www.iochem-bd.org Lendo o sobre Texto, encontrei essas declarações;

O Chem-BD é um repositório digital destinado a gerenciar e armazenar arquivos de química computacional.
Objetivos: Crie um banco de dados distribuído dos resultados da química computacional: reduza o tamanho e aumente o valor.
Defina um padrão de dados comum entre todos os formatos de química quântica (XML – CML (CITE) 10.1021/CI990052B (/cite))

Então isso é ambos um banco de dados e Um repositório de dados, além de adotar um louvável padrão de dados comum!(CITE) 10.1021/CI990052B (/cite) Decidi explorar os dois primeiros aspectos aqui usando esse recurso como exemplo.

Embora a distinção absoluta entre os dois tipos possa estar embaçada, a diferença essential entre os dois é que um banco de dados funciona em curadoria por meio de um índice estruturado do dadosenquanto um repositório aspira a ter atributos justos principalmente por meio de seu Metadados Conforme exposto pelo registro (os metadados são dados que descrevem os dados).
Um banco de dados contém esse índice de dados localmente e a descoberta dos dados está associada puramente à funcionalidade do banco de dados. As estruturas de dados são definidas por um esquema de banco de dados, descrevendo em detalhes todos os termos indexados (uma chave e seu valor) e pesquisados usando os valores desses pares de chaves. É improvável que este esquema seja exatamente o mesmo que por exemplo Bancos de dados em tópicos relacionados, principalmente porque o banco de dados é independente e autoconsistente.
Um repositório de dados também usa um esquema (doi: 10.14454/3W3Z-SA82 e (cite) 10.1002/Leap.1429 (/cite))^♠ para expressar os pares -chave, mas desta vez é expresso como metadados. Agora, esse metadado é registrado externamente no repositório usando uma agência de registro. (CITE) 10.1002/salto.1429 (/cite) Os metadados para cada objeto depositado recebe um identificador persistente conhecido como um doi. Embora possa ser indexado e pesquisável localmente, deve ser capaz de também ser pesquisado em formulário agregado/federado usando os serviços fornecidos por registro ou outras agências. Essa independência dos metadados faz parte desses critérios justos.
Enquanto um banco de dados pode ser muito granulado para descrever as propriedades individuais de um objeto, os metadados do repositório tendem a ser mais grossos para descrever o objeto como um todo, para colocá -lo em contexto e transmitir proveniência.
Tanto bancos de dados quanto repositórios podem ter o que é chamado de API (interface do programador de aplicativos) para permitir o acesso à máquina (o UM de justo) para o conteúdo. O acesso ao primeiro normalmente exigiria que o código sob medida fosse escrito e possivelmente credenciais de autenticação, enquanto as informações para acessar os dados mantidos no repositório são fornecidos by way of os metadados registrados (que normalmente não exigem credenciais). O acesso ao repositório também pode exigir código, mas se os metadados forem cuidadosamente padronizados pela adesão ao esquema, o código poderá ser mais geral do que o necessário para um banco de dados.^♥
Uma entrada típica no www.iochem-bd.org repositório tem um doi de 10.19061/iochem-bd-4-36
Esse DOI está registrado na agência Crossref, normalmente usada para registrar artigos de periódicos, em vez de datacite que é usada para registrar dados e outros objetos de pesquisa. Os metadados para este DOI podem ser vistos usando o serviço de resolução https://api.crossref.org/works/10.19061/iochem-bd-4-36/rework/utility/vnd.crossref.unixsd+xml e mostra que ele contém amplamente as informações bibliográficas típicas de um artigo de periódica. Portanto, nesse sentido, é certamente um repositório, mas usando um esquema de metadados que é mais frequentemente usado para artigos de periódicos do que para conjuntos de dados.
O registro de metadados Crossref também tem um merchandise https://www.iochem-bd.org/deal with/10/235025 que aponta para a chamada página de destino para esse merchandise, mas informações sobre as propriedades dos dados reais devem ser obtidas diretamente do repositório.
Como os metadados que descrevem os dados são mantidos apenas neste repositório e não em outro lugar (um registro de metadados locais), eles só podem ser consultados localmente e a consulta não pode ser sobre metadados agregados fornecidos pela Agência de Registro. Uma consulta da máquina teria que ser construída codificando uma solicitação adequada usando a API fornecida para o aspecto do banco de dados deste repositório.

Este exemplo serviu para destacar apenas algumas das distinções muitas vezes sutis entre por exemplo um banco de dados e um repositório de dados e que alguns exemplos podem realmente ser ambos. Ele também destaca que os repositórios podem ter os atributos da Honest, que por si mesmos são motivados perguntando “O que uma máquina poderia fazer para obter dados?”^♥ em vez do que um humano poderia alcançar navegando. Portanto, outra pergunta que surge ao avaliar as características de um repositório é se cada merchandise mantido lá tem um registro de metadados de habilitação justa que descreve os dados, um registro que é registrado de uma maneira que pode ser agregada e, portanto, usada para encontrar e acessar conteúdo em todo Vários repositórios independentes.

Este put up tem doi 10.14469/hpc/10043

^‡De fato, nessa época, poucas infra -estruturas on -line/da Web estavam disponíveis como parte dos recursos departamentais. Veja também aqui. ^†Nesse último consideração, observo um workshop dedicado amplamente a essa interoperabilidade e acesso à máquina em química em breve; https://www.cecam.org/workshop-details/1165 ^♠O esquema Crossref não é referenciado usando um DOI atribuído: information.crossref.org/experiences/assist/schema_doc/5.3.1/.^♥Um exemplo pode ser visto em doi: 10.14469/hpc/10059 Aqui, invocando um hiperlink baseado puramente nos dados doi e no tipo de mídia de dados necessário, por sua vez, o código de chamadas (JavaScript), que recupera os metadados mantidos para esse doi e o analisa para identificar se indica a presença de um manifesto de arquivo. Se isso acontecer, identifica o tipo de manifesto (neste caso) e a mídia tipo o manifesto aponta e finalmente usa que se manifestam para recuperar dados filtrados pelo tipo de mídia e os transportar para um visualizador (JSMOL). Nesse caso, o endpoint é a visualização, mas também pode ser por exemplo Empured em um programa de AI/ML para análise. Nesse caso, apenas uma instância de dados é recuperada da máquina, mas, em princípio Pesquisas adequadas de metadados registrados. (Cite) 10.1002/mrc.5186 (/cite)

Relacionado

Esta entrada foi publicada na quarta -feira, 26 de janeiro de 2022 às 10:41 e é arquivada em Químico. Você pode seguir qualquer resistência a esta entrada através do RSS 2.0 alimentar. Você pode Deixe uma respostaou trackback do seu próprio website.