Metadados de Métodos para Conjuntos de Dados do Solo

Alandmanson, CC BY-SA 4.0, via Wikimedia Commons

Um dos conteúdos mais importantes de qualquer conjunto de dados da pesquisa são os metadados de métodos. Os metadados de métodos descrevem como os dados foram produzidos. Eles incluem, desde aspectos relacionados à amostragem, passando pelos menores detalhes sobre os procedimentos laboratoriais implementados, até as correções e transformações aplicadas aos dados antes de seu uso.

Os metadados de métodos são fundamentais para possibilitar o reúso seguro dos dados da pesquisa num futuro próximo (cinco anos) ou distante (50 ou mais anos). E isso se aplica, tanto a terceiros, como a quem produziu os dados. Sem os metadados de métodos, a decisão sobre reusar ou não um conjunto de dados, e qual a maneira mais apropriada de fazer isso, fica repleta de incertezas. As pessoas interessadas em reusar os dados acabam tendo o trabalho adicional de contactar os produtores dos dados para obter mais informações. Muitas vezes, esse trabalho adicional se mostra ineficiente ou, até mesmo, impossível. Isso porque os produtores dos dados podem não ter muitas informações adicionais para compartilhar e, na pior das hipóteses, já são falecidos e não deixaram nenhum registro documental.

Os metadados de métodos também são fundamentais quando queremos utilizar dados de dois ou mais conjuntos de dados de modo combinado. São eles que permitem definir se dados de diferentes origens podem ser combinados e qual é a maneira mais apropriada de fazermos sua junção. Para compreender melhor esse cenário, suponha que dispomos de dois conjunto de dados. Ambos consistem na classificação taxonômica de perfis de solo, identificada utilizando uma mesma edição do Sistema Brasileiro de Classificação de Solos. A junção dos dois conjuntos de dados parece razoável, dado que lidam com a mesma variável, a classificação taxonômica.

Agora suponha que, ao consultarmos a descrição dos métodos de campo e laboratório, identificamos que cada conjunto de dados foi produzido utilizando métodos consideravelmente distintos. Um deles utilizou descrições morfológicas e resultados de análises laboratoriais de amostras coletadas em trincheiras. Já o outro usou apenas descrições morfológicas de amostras coletadas em sondagens feitas com trado holandês. Isso significa que as variáveis são operacionalmente distintas e sua junção exigirá algum tipo de pré-processamento. Contudo, como uma classificação taxonômica inferida a partir de sondagens com trado é mais incerta do que aquela identificada usando perfis completos, dependendo da aplicação intendida, a junção dos conjuntos de dados pode passar a ser questionável.

Alessandro Samuel-Rosa
Alessandro Samuel-Rosa
Professor Adjunto

Meus interesses de pesquisa incluem otimização amostral, geoestatística e aprendizado de máquina, e dados abertos do solo.

comments powered by Disqus

Relacionados