7 C
Nova Iorque
sábado, março 1, 2025

Usando anotações para vincular metadados às ontologias


Tornando a Feira de Dados Ambientais – Findável, acessível, interoperável e reutilizável (Wilkinson et al. 2016) tem sido um desafio de longo prazo. A grande diversidade de ciências ambientais, que abrange os domínios de pesquisa física, química, biológica e ecológica, apresenta desafios especiais para a interoperabilidade e a reutilização. A interoperabilidade é aprimorada por metadados e vocabulários padrão, e a reutilização depende de descrições precisas de atributos de dados amplamente variados. As unidades de medição são um aspecto dos dados necessários para interpretar e usar dados. Mas como discutido em Hanisch et al. (2022)houve desafios substanciais em tornar as unidades consistentes e legíveis à máquina.

Uma colaboração entre os Iniciativa de Dados Ambientais (EDI)Assim, Rede de pesquisa ecológica de longo prazo (LTER)Assim, Rede Nacional de Observatório Ecológico (NEON)e DataOne está vinculando Advert hoc Unidades refletidas em suas respectivas contribuições de dados para um vocabulário da comunidade (Qudt.org). Nosso artigo descreve o processo de vinculação Advert hocdiversas descrições unitárias dos metadados ambientais existentes. Conseguimos combinar 91% dos 355.057 usos de unidades em metadados com unidades no QUDT e produziu uma tabela de pesquisa que mapas Advert hoc para unidades QUDT. Aqui não contamos esse processo de mapeamento, mas, em vez disso, focamos na utilidade das anotações unitárias adicionadas aos metadados existentes.

Nos metadados havia muitas vezes muitos diferentes Advert hoc unidades que mapearam o mesmo conceito subjacente. Por exemplo, “DEG_C” no QUDT foi mapeado para pelo menos 17 representações unitárias diferentes (ignorando o caso da carta) nos metadados que examinamos. A maioria foi listada como “Celsius”, mas milhares de outros usaram outras variantes, incluindo alguns erros de ortografia comuns (por exemplo, Celcius).

Unidades advert hoc mapeando para deg_c

Grande parte dos metadados existentes em EDI, LTER, NEON e DATAPONE usa o Esquema de Metadados Ecológicos (EML) para metadados. Este esquema legível por máquina facilita múltiplas representações dos metadados de Páginas da internet legíveis por humanos para código gerado Para processar os dados. A versão mais recente do esquema suporta “Anotações”. com o qual os metadados podem incluir referências de forma interpretável por computador, que podem identificar inequivocamente termos ou conceitos e capturar relacionamentos entre elementos de metadados e recursos externos que fornecem mais detalhes sobre a entidade.

Para unidades, uma anotação típica em metadados EML que descreve uma coluna contendo dados de precipitação em milímetros seria:


http://qudt.org/schema/qudt/hasUnit
http://qudt.org/vocab/unit/MilliM

Essa estrutura flexível permite uma anotação para abordar qualquer tipo de relacionamento (aqui, “tem unidade”) e valor (aqui, “Millim” na qudt ontologia) e por sua colocação em um documento de metadados a associam a um atributo ou coluna específica de dados. Essa estrutura forma uma estrutura de descrição de recursos (RDF) Triplet que é a base dos dados abertos vinculados e da Internet semântica. Nós (como humanos) também podemos seguir as de volta à ontologia do URI para ver informações adicionais sobre as dimensões, multiplicadores para unidades SI e hyperlinks para padrões adicionais.

Página da web qudt para milim
High da página da Internet Qudt para Millim

Dado o poder das anotações, agora estamos trabalhando para integrar mais anotações unitárias aos metadados ecológicos no repositório EDI. A tabela de pesquisa, descrita em o artigoestá disponível publicamente em um conjunto de dados, juntamente com os metadados e o código brutos (Porter et. al. 2022). Esta tabela pode ser facilmente ingerida por programas estatísticos e da Internet para automatizar a anotação de metadados.

Em alguns casos, o conhecimento da unidade sozinho é suficiente para automatizar as conversões da unidade. Por exemplo, se um atributo do conjunto de dados tiver unidades em gramas e outro em quilogramas, a referência ao QUDT fornecerá os multiplicadores necessários para convertê -los na mesma unidade SI. No entanto, descrever claramente uma medição requer mais do que apenas a definição da unidade. Em um conjunto de dados, a unidade pode estar se referindo a “gramas de carbono por metro quadrado”, em outro “gramas de nitrogênio por metro quadrado”. Portanto, uma medição consiste em ambas as unidades (gramas por metro quadrado) e a entidade ou entidades (carbono, nitrogênio) a que a unidade se aplica. Em nosso artigo, focamos na parte da “unidade” da medição, um primeiro passo necessário em direção a um conjunto mais abrangente de anotações descrevendo mais completamente uma medição. Além de descrever as entidades às quais uma unidade se aplica, anotações adicionais podem capturar contexto importante, como se a medição do carbono foi coletada no solo ou na água. Portanto, a adição de anotações adicionais nos permitirá fortalecer a interoperabilidade e a reutilização dos dados. Nosso objetivo é chegar a um ponto em que a integração totalmente automatizada de diversos dados se tornará rotina. A adição de anotações da unidade é uma primeira etapa sólida e necessária, mas é apenas o início desse processo maior.

Abaixo está um diagrama de triplos RDF que podem ser criados com anotações de metadados. O exemplo faz uso de outras ontologias, além do QUDT: Chebi (elementos químicos de interesse biológico)e ENVO (Ontologia do Meio Ambiente).

Gráfico de anotações descrevendo uma medição
Gráfico de anotações descrevendo uma medição

O aprimoramento dos metadados com essas anotações facilitará a integração automatizada ou semi-automatizada de diversos conjuntos de dados, aumentando assim sua interoperabilidade e reutilização e tornando-os mais justos.

A co-autores Margaret O’Brien, Marina Frants, Stevan Earl, Mary Martin e Christine M. Laney contribuíram para este submit.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles