10.9 C
Nova Iorque
segunda-feira, março 10, 2025

Uma comparação de pesquisas com base nos registros de metadados de três repositórios de pesquisa (atualização: cinco).


Em A postagem anterior do weblogObservei os registros de metadados registrados no Datacite para alguns arquivos de modelagem computacional química, conforme publicado em três repositórios diferentes. Aqui, eu aceito uma etapa mais longe, analisando como as pesquisas da loja de metadados do datacite para três valores específicos dos metadados associados a esse conjunto de dados.

Pesquisa 1: O valor de metadados de -1705.490787 é na verdade a energia livre de Gibbs calculada para a molécula associada ao conjunto de dados, uma molécula que apareceu neste Postagem do weblog . https://commons.datacite.org/?Question=*-170* é uma pesquisa não em campo pela corda truncada -170* (onde * é um personagem de curinga e Diz -se que “escapa” do sinal menos, pois por si só um menos pode indicar um operador booleano e não), resultando em 70.918 Trabalha correspondendo à consulta. Pelo que sabemos sobre o conjunto de dados em questão, este é um grande número de falsos positivos. Como podemos reduzi -los?

Pesquisa 1A: https://commons.datacite.org/?Question=topics.topic:-170* é uma pesquisa em campo, especificando que a string deve ocorrem no campo de assunto (62 obras), mas isso ainda tem 57 falsos positivos.

Pesquise 1b: https://commons.datacite.org/?question=topics.topic:-1705.490787* (de fato precisão de -1705.4* também é suficiente) take away todos os falsos positivos (5 obras). Mas existem falsos negativos? De fato, por outros motivos, sabemos que existem dois trabalhos no repositório da figueira onde o valor de -1705.490787 aparece nos itens de palavra -chave na página de destino de por exemplo 10.6084/m9.figshare.16685497 e é indexado e pesquisável localmente, mas não aparece nos metadados registrados e, portanto, não está incluído nos resultados das pesquisas acima.

Pesquisa 2: Mais uma restrição formalmente muito mais forte na pesquisa é https://commons.datacite.org/?question=topics.subjectscheme:gibbs_energy+and+topics.topic:-1705.490787* pelo qual a SubjectScheme é adicionado à pesquisa 1brestrito ao valor Gibbs_energy. Isso agora retorna 3 trabalhos, dois a menos que a pesquisa 1b. Existem mais dois falsos negativos porque, como notado anteriormenteo SubjectScheme O termo não é definido no registro de metadados do repositório Zenodo, onde estão localizados os dois itens ausentes.

Pesquise 2a: https://commons.datacite.org/?Question=topics.subjectscheme:gibbs_energy+ e+topics.topic:*1705.490787*+ e+topics.schemeuri:*goldbook* é ainda mais restrito a especificar um Gibbs _energy De acordo com a definição do livro da IUPAC Gold.

Pesquise 2b: https://commons.datacite.org/?Question=topics.subjectscheme:gibbs_energy+ e+topics.topic:*1705.490787*+ e+topics.schemeuri:**lBook+And+Topics.Valueuri:GaUSHAUSS.Schemeuri:* é o mais alto nível de restrição, implicando não apenas que o termo Gibbs_energy é especificado pela definição do livro de ouro da IUPAC, mas que seu valor é o determinado por (neste exemplo) o gaussiano (implementação).

Portanto, para resumir o que estabelecemos até agora, podemos eliminar com sucesso os falsos positivos especificando uma pesquisa em campo com um requisito de que o campo se relaciona especificamente Gibbs_energy. Mas, devido a omissões nos registros de metadados, também temos quatro falsos negativos resultantes de fazer isso.

Pesquisa 3: https://commons.datacite.org/?Question=topics.topic:velnvpxnokvtc-vjkzstdtsa-n Procura por outro termo de sujeito, o Chave Inchi para a molécula relacionada aos dados (5 obras). Aqui novamente, no entanto, contexto para a string VELNVPXNOKVVTC-VJKZSTDTSA-N está faltando, embora novamente a string seja longa o suficiente para garantir que seja única. Mas poderíamos dar um passo adiante.

Pesquisa 4: https://commons.datacite.org/?Question=topics.subjectscheme:inchikey+and+topics.topic:velnvpxnokvtc-vjkzstdtssa-n restringe o termo do sujeito apenas àquelas strings que descrevem um Inchikey (3 obras). Novamente, isso se deve ao Zenodo não especificar o SubjectScheme e o FigShare, nem sequer contendo o Inchikey em seu registro de metadados.

Pesquise 4a: https://commons.datacite.org/?Question=topics.subjectscheme:inchikey+ e+topics.schemeuri:*inchi-trust*+ e+topics.topic:velnvpxnokvtc-vjkzstdtssa-n restringe ainda mais o Inchikey especificando a autoridade para a definição do esquema como a Inchi Belief.

Pesquisa 5: https://commons.datacite.org/?question=topics.topic:inchi=1s/c25h39no9* é a consulta 1, mas na sequência de polegadas, em vez da tecla Inchi, e com os mesmos resultados de antes (5 obras). Aqui, a corda é deliberadamente truncada para retornar apenas a fórmula molecular da molécula.

Pesquise 5a: https://commons.datacite.org/?question=topics.subjectscheme:inchi+and+topics.topic:inchi=1s/c25h39no9* é a consulta 4, com o súdito mudado apenas para o componente de fórmula molecular de uma polegada (3 obras).

Pesquise 5b: https://commons.datacite.org/?Question=topics.topic:inchi=1s/c25h39no9/c1-6-26-20-24-13-9-12-14(31-2-23(29,16/13-12-14 1312129313.13.13.13.13.13129313.13.13.13.131212-2313.13.13.13.13. truques muito menos da corda Inchi, estendendo -a à tabela de conexão molecular. Observe como personagens como ( ou ) foram escapados com um prefixo. Esses caracteres são usados ​​para agrupar na consulta de pesquisa e, portanto, devem ser escapares para serem incluídos na consulta.

Pesquise 5c: https://commons.datacite.org/?Question=topics.topic:inchi=1s/c25h39no9/c1-6-26-20-24-13-9-12-14 1.31-2-23129,16 em 3 ) 17 (12 ) 33-4 ) 25 (26,30 ) 19 (34-5 ) 18 (24 ) 22 (11-27,21 (28 ) 35-20 ) 8-7-15 (24 ) 32-3 /H12-20,27,29-30H, 6-11H2,1-5H3* Para esta sequência de comprimento (e strings de polegadas podem ficar muito longas!) Pode ocorrer um erro não identificado, sugerindo que a string integrante é melhor não usada para essas pesquisas.

Pesquisa 6:

A partir desses experimentos, aprendemos que a qualidade e a integridade/riqueza do registro de metadados são vitais para garantir que nenhum falso positivo ou negativo seja devolvido pela pesquisa. Garantir que tais metadados riqueza é algo que um repositório deve fazer, e é interessante que dois dos repositórios mais conhecidos atualmente tenham falhas nesse sentido. Posso tentar um ou dois outros repositórios populares para ver como eles se comportam e relatarão se eu encontrar algo interessante.


Por isso https://commons.datacite.org/doi.org?question=topics.subjectscheme:*iChikey* revela todas as entradas que especificam uma polegada nos metadados do assunto (185.414 obras), mas https://commons.datacite.org/doi.org?question=topics.subjectscheme:*iChikey* e+topics.schemeuri:*inchi-trust* revela apenas 1748 destes especificam ainda mais a confiança da Inchi como a autoridade. Mais dois depositários, Dados de Mendeley e Harvard DataSverse foram preenchidos com os mesmos dados. Ver aqui.


Este put up tem doi: 10.14469/hpc/9162

Esta entrada foi publicada na terça -feira, 28 de setembro de 2021 às 17:34 e é arquivada em Químico. Você pode seguir qualquer resistência a esta entrada através do RSS 2.0 alimentar. Você pode Deixe uma respostaou trackback do seu próprio web site.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles