Prévia do material em texto
DataCite como uma nova fonte bibliométrica: Cobertura, pontos fortes e limitações Robinson-Garcia, N.; Mongeon, P.; Jeng, W.; Costas Comesana, R. Licença: Versão: Licença não exclusiva da Universidade de Leiden Baixado em: https://hdl.handle.net/1887/57880 Nota: Para citar esta publicação, use a versão final publicada (se aplicável). Não Aplicável (ou Desconhecido) Citação Robinson-Garcia, N., Mongeon, P., Jeng, W., & Costas Comesana, R. (2017). DataCite como uma nova fonte bibliométrica: Cobertura, pontos fortes e limitações. Journal Of Informetrics, 11(3), 841-854. doi:10.1016/ j.joi.2017.07.003 Machine Translated by Google https://hdl.handle.net/1887/license:3 https://hdl.handle.net/1887/57880 Abstrato Palavras-chave Wei Jeng3 e Rodrigo Costas4,5 1 Os pedidos de disponibilidade e compartilhamento de dados remontam ao início do século 20 , quando Galton declarou: “Comecei a pensar que ninguém deveria publicar resultados biométricos, sem apresentar uma cópia manuscrita bem organizada e bem encadernada de todos os seus dados , em algum lugar onde deve ser acessível, sob restrições razoáveis, para aqueles que desejam verificar seu trabalho” (Galton, 1901, como citado em Perneger, 2011). No entanto, faz apenas algumas décadas que a tecnologia possibilitou o desenvolvimento da infraestrutura necessária para que isso acontecesse (Peng, 2011). Na última década, agências de fomento público, editoras e instituições direcionaram seus esforços para o desenvolvimento dessa infraestrutura, bem como para o incentivo à geração de dados. Nicolas Robinson-Garcia1*, Philippe Mongeon2 , vários campos. Apesar dessas limitações, enfatizamos o valor e o potencial do DataCite para se tornar uma das principais fontes de desenvolvimento de métricas de dados. elrobin@ingenio.upv.es DataCite sobre o uso dessa fonte para análises bibliométricas de dados abertos. Destacamos problemas relacionados à incompletude de metadados, falta de padronização e definições ambíguas de registros baixados da API OAI do DataCite e elaborar uma série de recomendações rcostas@cwts.leidenuniv.nl Compartilhamento de dados, citações de dados, fontes bibliométricas, dados abertos, infraestrutura de dados, métricas de dados, Trabalho aceito para publicação no Journal of Informetrics Este artigo explora as características do DataCite para determinar suas possibilidades e potencial como uma nova fonte de dados bibliométricos para analisar a produção acadêmica de dados abertos. A ciência aberta e os crescentes requisitos de compartilhamento de dados de governos, órgãos financiadores, instituições e periódicos científicos levaram a uma demanda premente pelo desenvolvimento de métricas de dados. Como primeiro passo para métricas de dados confiáveis, precisamos compreender melhor as limitações e ressalvas das informações fornecidas por fontes de dados abertos. Neste artigo, examinamos criticamente 1. Introdução autor correspondente wjeng@ntu.edu.tw * 3Departamento de Biblioteconomia e Ciência da Informação, Universidade Nacional de Taiwan, (Taiwan) 5Centro de Pesquisa em Avaliação, Ciência e Tecnologia (CREST), Stellenbosch University, Private Bag X1, Matieland 7602 (África do Sul) INGENIO (CSIC-UPV), Universitat Politècnica de València (Espanha) 2École de bibliothéconomie et des sciences de l'information, Université de Montréal (Canadá) 4CWTS, Universidade de Leiden (Holanda) philippe.mongeon@umontreal.ca DataCite como uma nova fonte bibliométrica: Cobertura, pontos fortes e limitações 1 Machine Translated by Google mailto:elrobin@ingenio.upv.es mailto:rcostas@cwts.leidenuniv.nl mailto:philippe.mongeon@umontreal.ca Skrol O design da infraestrutura é um fator chave para promover o compartilhamento e a reutilização de dados. Piwowar, Becich, Bilofsky e Crowley (2008) analisaram como certos elementos de estruturas de compartilhamento de dados podem influenciar a usabilidade, descoberta e reutilização de dados para diferentes partes interessadas. Embora medir o impacto dos dados seja um elemento altamente relevante na agenda política de pesquisa, uma medida direta de reutilização de dados é muito difícil de alcançar (Missier, 2016). Tentativas de métricas, como downloads de conjuntos de dados ou citações de dados, foram propostas para rastrear a reutilização de dados Para que as citações de dados se tornem um indicador válido sobre a reutilização de dados, é necessária uma mudança no comportamento de comunicação dos pesquisadores ao citar fontes, bem como no significado que eles atribuem às suas referências (Mayernik, 2012; Parsons & Fox, 2013). Iniciativas como o lançamento do Data Citation Index e o consórcio DataCite são exemplos de esforços direcionados à promoção de citações de dados. No entanto, pouco se sabe sobre a produção de dados, práticas específicas de campo e outros requisitos básicos, como o formato que um registro de dados deve ter para facilitar a recuperação de informações e análises bibliométricas. Estudos anteriores com foco no Data Citation Index da Thomson Reuters (agora Clarivate Analytics) exploraram vieses disciplinares e tipos de dados incluídos (Torres-Salinas, Martín-Martín e Fuente-Gutiérrez, 2014), práticas de citação de dados entre campos (Robinson-García et al., 2015) e a relação entre citações de dados e menções de dados em mídias sociais (Peters, Kraker, Lex, Gumpenberger, & Gorraiz, 2016). Em linha com o movimento de ciência aberta e apelos para maior compartilhamento e reutilização de dados, destacamos a importância das publicações e citações de dados. Este artigo analisa a estrutura e o tipo de metadados oferecidos pelo DataCite para avaliar seu potencial para se tornar uma fonte importante para o desenvolvimento de métricas em nível de dados. DataCite é uma organização internacional sem fins lucrativos formada em 2009. É um consórcio de instituições públicas de pesquisa, órgãos financiadores e editores em todo o mundo cuja missão é promover a acessibilidade e rastreamento de dados de pesquisa aberta. Para este último, Práticas de compartilhamento e reutilização de dados têm sido adotadas em diferentes ritmos pelas diferentes comunidades científicas. Por exemplo, a infraestrutura de dados é amplamente desenvolvida dentro da comunidade de cristalografia, que remonta ao início dos anos 1970 (Torres-Salinas, Robinson-García, & Cabezas-Clavijo, 2012). Uma expansão semelhante pode ser observada em Genômica ou Astronomia (Borgman, 2012). Por outro lado, as ciências sociais e as humanidades adotaram essas novas práticas em um ritmo mais lento do que os campos STEM (Doorn, Dillo, & van Horik, 2013; Kim & Adler, 2015). registros (DataCite, 2015). (Costas, Meijer, Zahedi, & Wouters, 2013; Piwowar, Day, & Fridsma, 2007). 2 compartilhamento e reutilização dentro da comunidade científica, promovendo citações de dados (Robinson-García, Jiménez-Contreras, & Torres-Salinas, 2015). A DataCite defende o uso de Identificadores de Objetos Digitais (DOI) atribuindo DOIs a seus (Konkiel, 2013). Enquanto o primeiroparece ser problemático na captura de diferentes dimensões de uso (Mayernik, Hart, Maull e Weber, 2016), -- por exemplo, dados podem ser baixados para fins de validação de pesquisa, -- mais esforço foi colocado na chamada de movimento de “citações de dados” Trabalho aceito para publicação no Journal of Informetrics Em um relatório recente, Costas et al. (2013) destacaram a necessidade de desenvolver padrões de publicação de dados, reduzindo a dispersão de repositórios de dados e facilitando a rastreabilidade, citação e medição de registros de dados. A fonte mais abrangente de dados abertos atualmente disponível é o DataCite, que contém mais de 7 milhões de registros de acesso livre, quase dobrando os números relatados pela última vez para o Data Citation Index (Peters et al., 2016). Machine Translated by Google Skrol Skrol DataCite Metadata Store (https://oai.datacite.org/). O DataCite Metadata Store é um serviço para gerenciar atividades relacionadas ao registro do Digital Object Identifier (DOI) no DataCite. O MDS é usado para criar, registrar, armazenar e gerenciar DOIs e metadados de conjuntos de dados associados criados por usuários e membros do DataCite. Aqui somos apresentados aos dados brutos fornecidos pelos membros do DataCite e ainda não foram processados pelo DataCite. examinamos a estrutura da base de dados e o nível de padronização das informações fornecidas em cada campo, para avaliar a usabilidade dos dados para fins bibliométricos. O artigo está estruturado da seguinte forma. Primeiramente, apresentamos o esquema de metadados dos registros DataCite (2015). Em seguida, avaliamos a integridade dos dados em cada campo específico e fornecemos uma visão geral da cobertura do banco de dados. Por fim, discutimos o potencial do DataCite como fonte para rastrear a produção de dados abertos e fornecemos algumas recomendações para seu uso como ferramenta para estudar a produção de dados e os padrões de citação. DataCite fornece APIs ao público para download de registros indexados em seu banco de dados. Estes dois pontos de acesso contêm o mesmo número de registos mas diferem na estrutura com que são apresentados bem como no detalhe da informação prestada. 3 Este artigo tem como objetivo explorar as características dos dados coletados pelo DataCite para determinar seu potencial como uma nova fonte de dados bibliométricos para o estudo da produção de dados abertos. Especificamente, Ao longo do restante do artigo, todas as referências feitas à estrutura de metadados do DataCite são baseadas nessas informações. estrutura e define cada campo (DataCite Metadata Working Group, 2015). Observe que, embora uma versão 4.0 do esquema de metadados tenha sido implementada recentemente, neste artigo nos referimos à versão 3.1, pois era o esquema em vigor no momento da coleta de dados. Esta versão inclui Além desses dois pontos de acesso, o DataCite permite consultas em massa por meio de dois URLs adicionais: pesquisa SOLR (https://search.datacite.org/ui) e pesquisa (https://search.datacite.org/). Neste artigo, usamos o DataCite Metadata Store para recuperar todos os registros do DataCite. Esta seção está estruturada em três partes. A primeira descreve os diferentes pontos de acesso disponibilizados pelo DataCite e as vantagens e limitações de usar um ou outro. Em segundo lugar, coletamos e descrevemos as informações fornecidas pelo DataCite quanto à sua estrutura, definição dos campos de registro de dados e informações solicitadas a cada repositório. O objetivo é dar ao leitor um relato completo sobre o que o DataCite espera receber de cada repositório de dados e como essa informação deve ser apresentada ao usuário final. A última parte descreve o conjunto de dados baixado da API OAI pública do DataCite. As informações recuperadas e sua estrutura são comparadas com as informações fornecidas na primeira subseção. (https://oai.datacite.org). DataCite fornece um esquema de metadados que mostra o registro Trabalho aceito para publicação no Journal of Informetrics API REST DataCite (https://api.datacite.org/). A API DataCite REST inclui o mesmo conteúdo que o DataCite Metadata Store, mas com camadas adicionais de informações por registro. A equipe do DataCite adiciona novas informações a cada registro sobre financiamento, ORCIDs, citações não fornecidas pelos próprios data centers. Em abril de 2016, recuperamos todos os registros do DataCite usando sua API OAI pública 3. Dados e métodos 2. Objetivos 3.1 Pontos de acesso ao DataCite 3.2 Esquema de Metadados DataCite v. 3.1 Machine Translated by Google https://oai.datacite.org/ https://search.datacite.org/ui https://search.datacite.org/ https://oai.datacite.org/ https://api.datacite.org/ Contribuinte. Este campo inclui as instituições e indivíduos envolvidos na coleta, gestão, distribuição ou outros tipos de contribuições para a produção dos dados. Inclui como subcampo o tipo de contribuição (ou seja, pessoa de contato, coletor de dados, etc.). Identificador Relacionado. Este campo contém identificadores diferentes do DOI. Título. O nome pelo qual o recurso é conhecido. Às vezes, também inclui subtítulo como um subcampo. O Criador. Este campo inclui o nome, sobrenome ou nome de filiação dos criadores dos registros de dados. Seria equivalente ao campo autor dos registros bibliográficos. Tipo de recurso. Aqui, uma classificação de dois níveis de tipos de dados é introduzida. Enquanto o nível superior é uma lista fechada de 15 tipos de dados, a classificação do segundo nível é um campo de texto livre. Ano de Publicação. O ano em que o registro de dados foi disponibilizado ao público, que pode diferir do ano de sua criação. A documentação do DataCite reconhece que isso pode ser problemático em certos casos, deixando para o usuário que deposita os dados escolher sua data preferida para fins de citação. Geolocalização. Inclui a localização geográfica em que os dados apresentados foram coletados. Descrição. Este é um campo estruturado. Se utilizado, pode ser inserido texto livre, mas o tipo de conteúdo (resumo, métodos, informações da série, sumário e outros) deve ser especificado. Editor. DataCite define editor como “[o] nome da entidade que detém, arquiva, publica, imprime, distribui, libera, emite ou produz o recurso” (DataCite, 2015). Para a prática atual, pode haver diferentes interpretações sobre esta definição, portanto, pode ser realizada por diferentes atores. Assim, pode resultar em ambiguidade quanto ao tipo de entidades designadas como publicadoras, nomeadamente autores individuais, instituições ou repositórios de dados individuais. Discutimos essa limitação na subseção 4.2. Os dados foram analisados e organizados em um banco de dados SQL. Um total de 7.440.415 registros foram recuperados. A API não fornece o campo de geolocalização recomendado . Este campo foi incluído em setembro de 2016. Ele fornece cinco campos opcionais: Relação, Formato, Idioma e Direitos.esquema. campos obrigatórios, recomendados e opcionais. Nas seções a seguir, descrevemos brevemente os principais campos recuperados do DataCite Metadata Store. Além disso, os campos Identifier e RelatedIdentifier e os campos Publication Year e Date Trabalho aceito para publicação no Journal of Informetrics Assunto. Este é um campo de texto livre que pode incluir palavras-chave, códigos de classificação, assuntos ou frases- chave. Inclui como subcampo o esquema de assunto utilizado, se houver, com um link para o assunto identificador. Embora, em princípio, o DataCite encoraje e promova o uso de números DOI, ele também permite a inclusão de outros identificadores exclusivos (por exemplo, URN, CCDC, chave INCHI, URL). Data. Devido à potencial ambiguidade do ano de publicação, este campo permite especificar mais de uma data que pode ser relevante para o usuário, como disponibilidade de dados, coleta, publicação, etc. 4 3.2.1 Campos obrigatórios 3.2.2 Campos recomendados 3.3 Descrição geral do banco de dados recuperado Machine Translated by Google Descrição identificador Editor Linguagem Tipo de recurso Título Formatar Contribuinte O Criador Centro de dados Direitos 20% 60% 100%0% 40% 80% A Figura 1 mostra o compartilhamento de registros no DataCite com informações em cada um dos campos descritos no Apêndice A. Vemos que muitos registros contêm campos vazios (mesmo os obrigatórios). Um total de 1.092.131 registros (14,7% de todos os registros coletados) não inclui nenhum dado. Isso parece ser causado por modificações feitas pelo DataCite na estrutura de dados. Mais especificamente, o DataCite emprega o Open Archives Initiative Protocol for Metadata Harvesting (OAI- PMH) e atribui um ID OAI a cada registro. Parece que quando um registro precisa ser modificado, um novo registro é criado com as informações atualizadas. As informações do registro antigo são excluídas (exceto a OAI e as informações do centro de dados), mas não o registro em si. A Figura 2 mostra um exemplo de um registro vazio. Este é um elemento importante a ser considerado ao trabalhar com a API do DataCite, pois esses registros devem ser removidos da amostra. 5 fornecer os registros ao DataCite. 762 organizações foram incluídas como centros de dados no momento do download. Essas organizações contrataram um membro individual da DataCite para atribuir DOIs. O Apêndice A inclui uma descrição detalhada de cada campo recuperado e as informações que eles contêm. Trabalho aceito para publicação no Journal of Informetrics Ao focar nos registros que incluem informações (6.348.284 registros), ainda encontramos que 1.306 registros (0,02%) não incluem título ou informações do editor. O tipo de recurso e o idioma são relatados em 60% e 51% dos registros, respectivamente. Os campos contribuidor (18%) e relação (25%) têm a menor presença nos registros do DataCite. são combinados em dois campos (Identificador e Data). Além disso, indica o Data Center Data Assunto Relação Figura 1. Distribuição das informações de metadados por campos Machine Translated by Google Figura 2. Exemplo de um registro vazio recuperado da API do DataCite Tabela 1. Registros por tipo de recurso e compartilhamento dos 3 principais subtipos mais comuns no DataCite. Em subtipos negrito-cursivos que aparecem em mais de uma categoria de tipo de dados 4.1 Tipos de recursos N Artigos de conferência (15,5%), artigos de periódicos (15,4%), relatório (10,1%) Programas registros. Em seguida, analisamos a distribuição geográfica dos data centers e o número de registros por país. Também analisamos o campo do editor para separar os diferentes tipos de entidades que ele contém. Também apresentamos uma visão geral dos diferentes tipos de datas incluídos no banco de dados. Por fim, focamos na descrição do campo de relação, que contém DOIs de registros relacionados, tentando entender o(s) tipo(s) de ligação capturados pelo DataCite. Conjunto de dados (63,5%), Metadados (5,8%), Pacote de dados (4,1%) 6,78 por texto (18%), imagem (14%) e coleção (7%). Conforme observado na tabela 1, a maioria dos registros com 'texto' ResourceType são manuscritos, artigos de congressos ou periódicos. Os registros marcados como imagens são heterogêneos, variando de pôsteres acadêmicos a manuscritos históricos ou figuras de dados. O subtipo não é obrigatório e, portanto, está vazio em muitos registros. Por exemplo, apenas 4,3%, 6% e 6% dos registros com o tipo de recurso “Modelo”, “Som” e “Filme”, respectivamente, possuem um subtipo. No geral, encontramos 158.781 variações diferentes de subtipos de recursos, uma ramificação natural de ser um campo de texto livre, mas que reflete diferentes entendimentos do que são dados e o que está incluído em cada um dos 15 tipos de dados. Coleção (20,7%), arquivo de trabalho Gaussiano (9,1%), Relatório (4,7%) 0,03 14,32 Imagem (11,9%), Figura (11,2%), Placa (8,1%) O campo ResourceType apresenta uma lista controlada de 15 valores, complementada por um subtipo de texto livre. A Tabela 1 relata o número total de registros por tipo de recurso e os três subtipos mais comuns. Observamos que 42% dos registros são categorizados como conjuntos de dados, seguindo 12.340 Texto 786.882 % Imagem 641.404 6 Ferramenta de simulação (16,9%), Software (10,8%), Código (5,3%) Trabalho aceito para publicação no Journal of Informetrics Tipo de recurso Número de registros Subtipos mais frequentes 17.56 Nesta seção, relatamos nossas descobertas sobre o conteúdo de cada campo e o nível de padronização dos dados. Primeiro, apresentamos estatísticas descritivas sobre diferentes tipos de dados Conjunto de dados 1.867.627 41,69 Coleção 303.638 4. Resultados Machine Translated by Google Modelo Objeto de arquivo (63,9%), sensor aerotransportado HIAPER-HAIS (2,4%), objeto físico (0,9%) Filme fluxo de trabalho 100 Modelo (2,8%), Ontologia (0,9%), Shapefiles (0,2%) Tipo de recurso Número de registros Subtipos mais frequentes 0,02 0,01 Trabalho aceito para publicação no Journal of Informetrics 209 960 470 Também observamos redundâncias de classificação entre os dois níveis. Por exemplo, o tipo de recurso “conjunto de dados” possui um subtipo também denominado “conjunto de dados”. Também existem subtipos redundantes entre diferentes tipos de recursos. Por exemplo, o subtipo “relatório” aparece como um subtipo dos tipos de recurso “coleção” e “texto”. Um caso especificamente problemático é o tipo de recurso Objeto físico % Recursos interativos (12,2%), Objeto de aprendizagem (2,1%), Sites Web (0,3%) Recursos interativos Serviço A partir de agora, nos referiremos como “registros de dados” a todos os registros no DataCite que tenham um tipo de recurso diferente de “texto” (ou seja, consideramos como registros relacionados a dados todos os registros que não são artigos, como manuscritos ou pré-impressões) . N 0,01 Fluxo de trabalho Taverna 2 (7,2%), fluxo de trabalho (1,0%), fluxo de trabalho do RapidMiner (0,5%) 0,01 registros de dados. Estes resultados refletem o problema conceptual ainda existente sobre o significado que “publicar” tem no modelo de produção de dados (Costas et al., 2013) ou, pelo menos, o efeito da diversidade de registos incluídos no DataCite. O Apêndice B fornece mais detalhes sobre esta classificação. Também dividimos os editores em 11 tipos de entidade para melhor compreender o que os usuários entendem como “editor de dados”, mas também para identificar diferentes tipos de instituições que publicam dados Trabalho aceito para publicação no Journal of Informetrics 10 Conforme mostrado na Figura 5, um total de 156 entidades distintas são identificadas a partir das 1.148 variantes de nomes desambiguadas do campo do editor . A maioria dos registros foi atribuída a 18 repositórios temáticos (43%). Das 156 entidades, 35 são repositórios institucionais, seguidos de 33 organismos de investigação (por exemplo, centros de investigação e associações científicas) e 24 editoras académicas (revistas). produtos. Distinguimos quatro tipos de repositórios (ou seja, repositórios nacionais, institucionais, disciplinares e multidisciplinares), e as outras entidades são grupos diversos (órgão de pesquisa, órgão profissional e órgão educacional), editores, empresas, conferências e indivíduos. Figura 4. Número total de registros de dados (excluindo o tipo de dados “texto”) por país usando data center e dados de afiliação de editor. O eixo Y é logarítmico. Os países são ordenados de acordo com o número total de registros usando a afiliação do datacenter. Machine Translated by Google Figura 5. Número de registros e participação nos registros de dados (após exclusão do texto) por tipo de editora. Apenas registros com informações do editor e tipo de dados são mostrados. disponíveis publicamente, atualizados, etc. Assim, quando as informações são fornecidas no campo data , um dos 9 subtipos a seguir é obrigatório: aceito, disponível, protegido por direitos autorais, coletado, criado, emitido, enviado, atualizado e válido. uma data apresentada com um formato de quatro dígitos. Identificamos 4.242.804 registros de dados com esse formato. O campo de data é um campo de texto livre opcional que pode se referir a diferentes datas relevantes para o registro. 11 campo quando este último não estiver no formato de quatro dígitos. Portanto, as informações de data recuperadas com a API devem ser processadas de alguma forma antes de serem usadas. Neste estudo, definimos “ano de publicação” como O ano de publicação é um campo chave em qualquer análise bibliométrica que pretenda fornecer uma perspetiva longitudinal ou enquadrar o(s) período(s) de estudo. O DataCite exige que o ano de publicação seja apresentado em um formato de quatro dígitos. No entanto, um ponto importante a ser considerado para o desenvolvimento de métricas de dados é que os registros de dados podem estar sujeitos a diferentes ações ocorrendo em diferentes datas de ações, que podem ser todas incluídas nos metadados. Assim, o DataCite (2015) possui dois campos relacionados à data: ano de publicação e data. O campo do ano de publicação é um campo obrigatório que o DataCite Metadata Working Group (2015) define como “o ano em que os dados foram ou serão disponibilizados publicamente”. Ainda assim, o DataCite reconhece que essas informações podem não estar claras ou indisponíveis, fornecendo alternativas como, “[se] essa data não puder ser determinada, use a data de registro” ou “[se] um período de embargo estiver em vigor, use o data em que termina o período de embargo”. Concluindo que “[i] se não houver um valor de ano de publicação padrão, use a data que seria preferida do ponto de vista da citação”. Conforme mencionado anteriormente e apresentado no Apêndice 1, o campo “data” recuperado DataCite Metadata Store OAI API combina o ano de publicação e a data em um único campo. Portanto, as distinções discutidas acima não estão disponíveis. Isso significa que várias datas podem ser atribuídas a um único registro e que o campo do ano de publicação só pode ser diferenciado da data Esse processo de limpeza não é totalmente preciso, pois um total de 50.679 registros relatou anos de publicação acima de 2099 ou do início dos anos 1000 e, portanto, não foram considerados1 . A Figura 6 mostra o Trabalho aceito para publicação no Journal of Informetrics Eles podem estar relacionados à data em que o conjunto de dados foi criado, carregado em um repositório, feito 1 Embora existam casos de registros de dados que datam do início dos anos 1000, por exemplo, objetos de arquivo digitalizados. 33 # registros % registros de dados 18571 24 852954 Tipo de editores 2326 24 Empresa 5111799 repositório institucional 408355 6 Conferência 40634 repositório multidisciplinar corpo educacional 18 1 35 repositório nacional 19215 1 Total 2205204 156 8025 2 621544 repositório temático 764962 5 Corpo profissional corpo de pesquisa 5 149305 # editores Individual 20704 Editora científica 67,78% 83,26% 43,18% 88,45% 9,85% 42,33% 9,67% 0,00% 0,00% 0,00% 93,59% 78,74% 72, 47% 2 Não encontrado 4.3 Ano de publicação e datas relacionadas Machine Translated by Google número de registros para o período 1950-2020. Observamos muitos registros datados de 2016 em diante devido ao embargo a que estão restritos. 12 Trabalho aceito para publicação no Journal of Informetrics O fato de não haver uma definição clara para o campo ano de publicação pode levar a algumas discrepâncias nos dados. Isso é especialmente significativo no caso de dados históricos em que o usuário pode optar por indicar a data do registro histórico ou a data de sua recuperação. Figura 7 1400000 1960 1990 800000 1000000 1980 400000 20102000 600000 Figura 6. Número de registros por ano usando o ano de publicação no DataCite. período 1950-2020 1950 Figura 7. Exemplo de registro com data anterior ao desenvolvimento de repositórios de dados. 6A. Conteúdo de uma fotografia tirada em 1929. 6B Registro de dados no DataCite. A data de publicação do registro é 1929. 200000 0 2020 1200000 1970 Machine Translated by Google A API OAI DataCite também fornece um campo chamado de relação, que é equivalente ao campo RelatedIdentifier no DataCite Metadata Schema. A principal diferença é que aqui recuperamos apenas as informações fornecidas pelos datacenters, enquanto o campo RelatedIdentifier recuperado da API REST inclui informações adicionais fornecidas pela equipe DataCite. Isto Após uma verificação superficial de alguns desses casos, observamos que ocasionalmente a relação é formada por um registro de dados de contêiner (ou seja, um banco de dados) e suas tabelas (ou seja, conjuntos de dados). Por exemplo, o banco de dados doi:10.15468/dl.qnbifh incluía, no momento da coleta de dados, 5.192 conjuntos de dados relacionados. Isso explica parcialmente a distribuição distorcida observada na Figura 8B. Em outroscasos, a relação indica a (re)utilização dos dados ao vincular os dados a um artigo. No entanto, esse campo parece não conter o DOI dos artigos que citam o registro de dados, e não encontramos critérios evidentes para caracterizar os tipos de relações relatadas nesse campo. Em relação aos registros com datas adicionais, identificamos 2.095.183 registros, dos quais 43% informavam a data de disponibilidade, 25% informavam a data de criação, 14% declaravam a data de coleta e 12% a atualização e 3% a data de emissão. Menos de 0,2% dos registros informaram a data de copyright, submissão, validade ou aceitação. Menos de 25% dos números DOI relacionados pertencem a outros registros DataCite. Aproximadamente 15% pertencentes a artigos indexados na Web of Science (Figura 8C). Quando focamos no tipo de dados dos DOIs relacionados contidos no DataCite (Figura 8D), observamos que 90% deles são conjuntos de dados. fornece o exemplo de uma fotografia digitalizada que já havia sido publicada em sua forma física. Aqui, o campo do ano de publicação contém o valor 1929, que é de fato a data em que a fotografia foi tirada. contém identificadores para publicações (por exemplo, DOIs, arxiv, bibcode, handles; não necessariamente no DataCite). Como todos os registros no DataCite incluem um número DOI junto com outros identificadores associados, cruzamos os números DOI relacionados com: 1) o próprio banco de dados DataCite, para encontrar possíveis relações entre os registros de dados no DataCite; e 2) com a Web of Science, para identificar potenciais relações com publicações científicas. Conforme mostrado na Figura 8A, 23% de todos os registros DataCite incluem DOIs relacionados. O número de números DOI relacionados por registro varia muito, mostrando uma distribuição altamente distorcida (Figura 8B). A Figura 8C cruza DOIs relacionados ao DataCite com registros DataCite, com registros DataCite definidos como conjuntos de dados e com registros do Web of Science. Trabalho aceito para publicação no Journal of Informetrics 13 4.4 Números DOI relacionados Machine Translated by Google Trabalho aceito para publicação no Journal of Informetrics 14 Curiosamente, Robinson-García et al. (2016) relataram um tipo semelhante de relações também consignadas no Data Citation Index da Thomson Reuters, embora, nesse caso, apenas as relações entre conjuntos de dados e artigos científicos tenham sido incluídas. No entanto, relataram uma dependência do repositório do relato dessas relações, ou seja, dependendo do repositório encontraríamos registros com relações ou não. No DataCite há evidências sugerindo que tal dependência também existe, neste caso com data centers: apenas 226 (30%) data centers relataram pelo menos um registro de dados Figura 8. Análise do campo de relação no DataCite. Um compartilhamento de registros no DataCite com números DOI relacionados nos registros do DataCite. B. Distribuição do número de números DOI relacionados por registro de dados. C. Parcela de números DOI relacionados incluídos no DataCite por tipo de dados. D. Parcela de números DOI relacionados indexados no DataCite, indexados no DataCite e com informações de tipo de dados e indexados no Web of Science. Machine Translated by Google 15 A pesquisa sobre compartilhamento de dados e dados abertos está crescendo, ao mesmo tempo em que os órgãos financiadores estão incentivando uma maior transparência na pesquisa. Termos como ciência orientada por dados, ciência intensiva em dados e ciência aberta estão se tornando cada vez mais comuns em documentos e declarações de políticas, como o Horizon2020 da União Europeia (Comissão Europeia, 2016). Neste contexto, o DataCite é chamado a desempenhar um papel importante como fonte para a análise e estudo da publicação e reutilização de dados. Embora a demanda por métricas de dados seja uma constante desde o início da década de 2010 (Costas et al., 2013), ainda há um longo caminho a percorrer até que o movimento se expanda para campos mais amplos da Ciência e para mais países. Trabalho aceito para publicação no Journal of Informetrics Este artigo apresenta a primeira coleta e análise de dados em larga escala do DataCite para avaliar seu potencial como ferramenta bibliométrica capaz de fornecer informações e métricas sobre atividades de dados abertos em macroescala. Comparado com outros produtos similares, como o Data Citation com um número DOI relacionado, e 44 (5%) deles relataram números DOI relacionados em todos os seus registros (ver Figura 9). Figura 9. Compartilhamento de registros com números DOI relacionados atribuídos a eles. Azul representa registros com números DOI relacionados. Cinza representa registros sem números DOI relacionados relatados. 5. Considerações finais e recomendações Machine Translated by Google Além disso, os problemas levantados ao analisar as informações fornecidas pelos campos de ano e data de publicação levantam questões sobre quando os dados são produzidos e divulgados. Com relação ao campo “Editor”, parece que sua definição atual é muito ampla, pois existe uma variedade de entidades que podem deter, possuir, arquivar, publicar (e assim por diante) um objeto digital disponível no DataCite. Pelo que foi demonstrado, o campo reúne uma enorme diversidade de entidades que não são estritamente editoras (por exemplo, repositórios, organismos de investigação, empresas, etc.). Na verdade, como as informações do “Data Center” são únicas No entanto, essa simplicidade analítica do Data Citation Index ignora alguns dos principais problemas encontrados ao explorar a natureza e a heterogeneidade dos dados abertos. Como mostrado neste artigo, os metadados dos registros DataCite são muito ricos e heterogêneos, aqui descrevemos algumas das questões importantes que precisam ser consideradas ao usar o DataCite como fonte de dados para análise de dados abertos. No entanto, destacamos a importante diversidade de tipos de dados incluídos no DataCite. De certa forma, os muitos tipos de dados cobertos pelo DataCite sugerem que uma compreensão mais ampla do que constitui dados de pesquisa é muito necessária. De fato, a presença de múltiplos tipos relacionados a dados como “Imagens”, “coleção” ou “software” reforça a ideia de que precisamos deixar de considerar “dados” como um tipo de publicação homogêneo. Índice, o tamanho e a riqueza dos dados do DataCite oferecem maiores possibilidades como fonte bibliométrica para o desenvolvimento de métricas de dados abertos. Ainda assim, essa riqueza de dados tem um preço. Problemas conceituais como o que são dados ou a que campo ou disciplina científica pertencem diferentes conjuntos de dados, juntamente com problemas técnicos como a falta de padronização de muitos de seus campos, ainda podem representar uma vantagem em relação ao Data Citation Index, em que a estrutura de campos no Data Citation Index adapta até certo ponto a estruturados registros bibliográficos. Isso apresenta uma vantagem positiva para o Data Citation Index porque permite análises bibliométricas sem processamento prévio (por exemplo, Robinson-Garcia, Jiménez-Contreras & Torres-Salinas, 2016). 16 Um elemento crítico importante que precisa ser considerado ao trabalhar com DataCite é que, como tal, todos os registros incluídos no banco de dados não são estritamente relacionados a dados. Por exemplo, mais de 12% dos registros válidos no DataCite são textos ou artigos. Portanto, para identificar e analisar adequadamente a produção de dados, diversos filtros precisam ser aplicados por tipos de dados. Trabalho aceito para publicação no Journal of Informetrics O esquema DataCite está estreitamente alinhado com o Dublin Core, o que permite a interoperabilidade entre diferentes plataformas e tipos de registro, bem como garante níveis mínimos de qualidade dos metadados gerados pelo autor (Greenberg et al., 2002). No entanto, a simplicidade do modelo (Lagoze, 2001) deixa margem à ambiguidade em muitos dos domínios necessários para desenvolver qualquer tipo de análise bibliométrica. Descobrimos que um grande problema existente no DataCite é que muitos registros estão faltando informações em muitos dos campos (mesmo os obrigatórios). Além disso, tornar obrigatórios alguns dos campos recomendados (por exemplo, o assunto, a afiliação institucional do criador) aumentaria o potencial do DataCite para análises bibliométricas. Também seria útil tornar obrigatório um subcampo “tipo de relação” para o campo “Relação” que é um dos campos mais promissores para o desenvolvimento de métricas de dados. Vale a pena notar que esta informação está agora disponível no novo esquema de metadados e através da página de busca do DataCite. 5.1 Questões centrais sobre os metadados fornecidos pelo DataCite 5.1.2 Campos de Metadados DataCite 5.1.1 Tipos de dados e a definição de “dados” Machine Translated by Google 6.1 Pesquisa adicional 2 O formato atual de citação de dados recomendado do DataCite é o seguinte. Criador (ano de publicação). Título. Editor. Identificador (DataCite, 2015). 6. Recomendações Com base nos resultados deste artigo é possível sugerir uma série de recomendações que podem ser úteis para usuários que desejam utilizar o DataCite para desenvolver métricas de dados e para DataCite como fornecedora de registros de dados em atividades de compartilhamento de dados. Estas recomendações destinam-se a maximizar seus esforços para fornecer um serviço que promova eficientemente a publicação e citação de dados. O tamanho do DataCite e o fato de ser acessível gratuitamente destacam seu potencial para se tornar uma valiosa fonte de informação para análises quantitativas de produção, compartilhamento e (re)uso de dados. No entanto, existem questões críticas relacionadas à estrutura e limpeza dos registros do DataCite que precisam ser abordadas para melhorar sua usabilidade. Em qualquer caso, as conclusões tiradas aqui são baseadas no DataCite Metadata Store e não consideram nenhuma funcionalidade aprimorada disponível por meio da API DataCite REST. Neste sentido, devem ser esclarecidas as vantagens e limitações da utilização de diferentes pontos de acesso para que os utilizadores possam optar por um ou outro consoante a análise que pretendam realizar. Assim, os usuários devem decidir antecipadamente quais tipos de dados são relevantes para a análise e entender as possíveis perdas de informações que os filtros irão impor. Por fim, uma questão importante e crítica para a potencial usabilidade do banco de dados para fins de métrica Ano de publicação, editor, criador) torna a recuperação de dados mais árdua e torna necessária a eliminação da ambiguidade dos dados. Simplesmente impondo um formato padrão para determinados campos, como o campo criador , ou incluindo uma lista fechada para o campo e subcampo ResourceType ou para o assunto campo melhoraria muito a qualidade dos dados e facilitaria sua análise. Em segundo lugar, os problemas relacionados à integridade dos dados reduzem o conjunto de dados analisáveis à medida que mais filtros são usados para recuperar os registros. Por exemplo, para focar apenas em registros relacionados a dados (por exemplo, conjuntos de dados), é necessário filtrar por ResourceType. No entanto, este campo está vazio para uma quantidade substancial (40%) de registros. Além disso, o DataCite Metadata Store contém uma ampla variedade de “tipos de recursos”. 17 para cada registro de dados, poderia fazer mais sentido usá-lo para fins de citação do que o editor, que é um campo de texto livre2 . é a falta de padronização de muitos campos de metadados. Tendo muitos campos de texto livre (por exemplo Nesse sentido, os usuários potenciais do DataCite devem considerar as seguintes questões: Primeiro, os registros vazios devem ser removidos antes de tentar fazer qualquer declaração sobre os dados reais contidos no DataCite. Conforme observado na subseção 'Descrição geral do banco de dados recuperado', mais de 1 milhão de registros foram encontrados vazios no momento da recuperação dos dados. A não remoção desses registros pode confundir as contagens do tamanho real do banco de dados. O DataCite é atualmente uma das principais fontes de dados disponíveis para o desenvolvimento de métricas de dados, e um grande promotor de compartilhamento e reutilização de dados. Com efeito, apesar da sua recente criação, o DataCite é provavelmente a maior base de dados, com um vasto e heterogéneo conjunto de registos de dados, aproximando-nos um passo de um ideal de ciência aberta caracterizado pela sua transparência e pela sua capacidade de otimizar a utilização dos recursos. Ao fornecer uma visão geral da estrutura e do conteúdo dos registros DataCite, este artigo serviu como um primeiro passo para uma melhor compreensão Trabalho aceito para publicação no Journal of Informetrics Terceiro, uma quantidade considerável de processamento e limpeza de dados provavelmente será necessária, já que a maioria dos campos não é padronizada. Além disso, o fato de alguns campos serem mesclados (por exemplo, data de publicação e data) torna obrigatório o tratamento e a limpeza dos dados antes de analisá-los. Machine Translated by Google http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020- Kim, Y., & Adler, M. (2015). Comportamentos de compartilhamento de dados dos cientistas sociais: investigando os papéis das motivações individuais, pressões institucionais e repositórios de dados. Jornal Internacional de Gerenciamento de Informações, 35(4), 408–418. foi parcialmente apoiado pelo projeto da Comissão Europeia RTD-B6-00964-2013 Acompanhamento da evolução e benefícios da Investigação e Inovação Responsável (MoRRI). Nicolas Robinson-Garcia é atualmente apoiado por uma bolsa Juan de la Cierva-Formación do Ministério da Economia e Competitividade da Espanha. Greenberg, J., Pattuelli,MC, Parsia, B., & Robertson, WD (2002). Metadados do Dublin Core gerados pelo autor para recursos da Web: um estudo de linha de base em uma organização. Jornal de Informação Digital, 2(2). Disponível em https://journals.tdl.org/jodi/index.php/jodi/article/view/42 Costas, R., Meijer, I., Zahedi, Z., & Wouters, PF (2013). O valor das métricas de dados de pesquisa para conjuntos de dados de um ponto de vista cultural e técnico. Um relatório de troca de conhecimento [relatório de pesquisa externa]. Disponível em https://openaccess.leidenuniv.nl/handle/1887/23586 32. Konkiel, S. (2013). Citações de rastreamento e altmetria para dados de pesquisa: desafios e oportunidades. Boletim da Sociedade Americana de Ciência e Tecnologia da Informação, 39, 27– Borgman, CL (2012). O enigma do compartilhamento de dados de pesquisa. Jornal da Sociedade Americana de Ciência e Tecnologia da Informação, 63(6), 1059–1078. Revista D-Lib, 7(1). https://doi.org/10.1045/january2001-lagoze Comissão Europeia (2016). Programa H2020. Diretrizes sobre gerenciamento de dados FAIR no Horizonte 2020. Versão 2.1 Disponível em: produção, publicação e reutilização de dados pela comunidade científica. Pesquisas futuras se concentrarão em comparações com diferentes tipos de acesso aos registros do DataCite, no estudo das relações entre autores de publicações científicas e criadores de conjuntos de dados, no desenvolvimento de classificações adequadas de registros de dados e na presença de menções a DOIs nas referências de publicações científicas aos dados. 18 Grupo de Trabalho de Metadados DataCite. (2015). Esquema de metadados DataCite para publicação e citação de dados de pesquisa. Versão 3.1 DataCite eV http://dx.doi.org/10.5438/0010 Doorn, P., Dillo, I., & van Horik, R. (2013). Mentiras, mentiras malditas e dados de pesquisa: o compartilhamento de dados pode impedir a fraude de dados? Jornal Internacional de Curadoria Digital, 8(1), 229–243. Trabalho aceito para publicação no Journal of Informetrics Lagoze, C. (2001) Mantendo o Dublin Core simples. Descoberta entre domínios ou descrição de recursos? Os resultados preliminares deste artigo foram relatados na Conferência das 3h realizada em Bucareste (Romênia), de 27 a 29 de setembro de 2016. Os autores gostariam de agradecer a Henri de Winter da CWTS por ajudar na recuperação dos dados e a Kristian Garza da DataCite para discussões frutíferas e úteis sobre pontos de acesso ao DataCite e estrutura de registros. Os dois revisores anônimos também são agradecidos por seus comentários construtivos e recomendações. Este estudo hi-oa-data-mgt_en.pdf Reconhecimentos Referências Machine Translated by Google Mayernik, MS, Hart, DL, Maull, KE e Weber, NM (2016). Avaliar e rastrear os resultados e o impacto das infraestruturas de pesquisa. Jornal da Associação de Ciência e Tecnologia da Informação. https://doi.org/ 10.1002/asi.23721 Torres-Salinas, D., Martín-Martín, A., & Fuente-Gutiérrez, E. (2014). Análise da cobertura do Data Citation Index– Thomson Reuters: disciplinas, tipologias documentais e repositórios. Peng, RD (2011). Pesquisa reprodutível em ciência computacional. Ciência, 334(6060), 1226. 19 Parsons, MA, & Fox, PA (2013). Publicação de dados é a metáfora certa? Data Science Journal, 12, WDS32-WDS46. Torres-Salinas, D., Robinson-García, N., & Cabezas-Clavijo, Á. (2012). Compartilhe os dados de investigação em ciência: introdução ao compartilhamento de dados. El Profesional de La Información, 21(2), 173–184. Peters, I., Kraker, P., Lex, E., Gumpenberger, C., & Gorraiz, J. (2016). Dados de pesquisa explorados: uma análise estendida de citações e altmetria. Scientometrics, 107(2), 723-744. Perneger, TV (2011). Compartilhando dados brutos: outra das ideias de Francis Galton. British Medical Journal, 342, d3035. Robinson-García, N., Jiménez-Contreras, E., & Torres-Salinas, D. (2016). Analisar as práticas de citação de dados usando o Data Citation Index. Jornal da Associação de Ciência e Tecnologia da Informação, 67(12), 2964-2975. Mayernik, MS (2012). Bridging data lifecycles: Tracking data use via data citations workshop report. NCAR Nota Técnica NCAR/TN-494+ PROC, Boulder, CO: Centro Nacional de Pesquisa Atmosférica (NCAR), 2013, http://dx. doi. org/10.5065/D6PZ56TX. Piwowar, HA, Becich, MJ, Bilofsky, H., & Crowley, RS (2008). Rumo a uma cultura de compartilhamento de dados: recomendações para liderança de centros acadêmicos de saúde. PLoS Medicine, 5(9), e183. Piwowar, HA, Day, RS, & Fridsma, DB (2007). O compartilhamento de dados de pesquisa detalhados está associado ao aumento da taxa de citações. PLoS UM, 2(3), e308. Trabalho aceito para publicação no Journal of Informetrics Missier, P. (2016). Trajetórias de dados: rastreando a reutilização de dados publicados para atribuição transitiva de crédito. Jornal Internacional de Curadoria Digital, 11(1), 1-16. Revista Española de Documentación Científica, 37(1), e036. Machine Translated by Google Descrição do campo ResourceType Este campo inclui tanto a classificação do tipo de dados de primeiro nível quanto Título Nome do conjunto de dados ou arquivo armazenado no repositório. Data Center Instituição encarregada de alimentar o DataCite com registros. Os data centers têm um identificador exclusivo, cada um construído em duas partes. Em primeiro lugar, a instituição intermediária e, em segundo lugar, a instituição de envio. Por exemplo, BL.IMPERIAL é o identificador do Imperial College London. BL significa British Library, a instituição intermediária e IMPERIAL para a instituição de envio. Criador Autor do registro de dados. Este campo não é apresentado em um formato padronizado (ou seja, Sobrenome, Iniciais). Descrição Este campo inclui em seu conteúdo as cinco subseções distintas descritas pelo DataCite. No entanto, nem todos os registros incluem todas as subseções. entidades furiosas de repositórios, revistas, instituições, etc. Formato Campo não padronizado que inclui uma descrição formal do conteúdo do registro. Aqui encontramos informações que vão desde uma descrição catalográfica do conteúdo (ou seja, Zwei Teile em 1 banda; 17 cm) até o formato real do arquivo enviado (ou seja, arquivo SPSS). Relação Este campo relaciona cada registro de dados com números DOI adicionais. A forma como tal relação é estabelecida não está formalmente declarada nos autos. Apesar do DataCite oferecer uma lista controlada de valores indicando o tipo de relação estabelecida entre os registros, não encontramos essa informação nos dados recuperados. Mais sobre isso na subseção 3.4 Editor Formato não padronizado que inclui uma grande variedade de diferentes Direitos Formato não padronizado, incluindo o titular dos direitos autorais, se houver, ou a licença pela qual o registro de dados está protegido. As informações são relatadas aqui não apenas em inglês, mas também em outros idiomas. Contribuidor Indivíduos e instituições que colaboram na criação dos dados, mas não são considerados criadores. Assimcomo o campo 'Criador', este campo não é apresentado em um formato padronizado. 20 Data Este campo inclui o campo obrigatório 'Ano de Publicação', bem como o campo 'Data', o que significa que cada registo pode ter mais do que um ano de publicação. O formato é padronizado, mas heterogêneo. Portanto, as informações do 'Ano da Publicação' aparecem como um número de quatro dígitos, enquanto a Data aparece informando o tipo de data e o ano real (ou seja, Disponível: 01/02/2005). Trabalho aceito para publicação no Journal of Informetrics Palavras-chave de assunto atribuídas a cada registro de dados. Embora observemos que para alguns repositórios é empregado um sistema de classificação fixo, isso não é sistematizado para todos os registros de dados. Idioma Campo não padronizado que indica o idioma do registro. O idioma é indicado usando um formato de dois dígitos, um formato de três dígitos ou o nome completo. Em alguns casos, mais de um idioma é relatado (ou seja, fr-en) Identificador Identificador de número único. O DataCite atribui DOIs a todos os registros de dados, embora muitos incluam identificadores adicionais, como CCDC (Cambridge Crystallographic Data Center) ou InChI (International Chemical Identifier). a classificação de tipo de dados de segundo nível. Apêndice A. Campos recuperados e descrição de seu conteúdo Machine Translated by Google Bildarchiv, Universidade de Pittsburgh Conferência Congresso Europeu de Radiologia 149.305 Oceans (PISCO), Leibniz Institut für Astrophysik Potsdam Repositório Nacional Repositório Digital da Irlanda, Colchester, Essex: Dados do Reino Unido 8.025 Tipo de editor Exemplos Repositório temático Data-Planet™ Statistical Ready Reference da Conquest Systems, Inc.; Centro de Dados Cristalográficos de Cambridge Arquivo Figshare, ZENODO Individual W. Jegher & A. Ostertag, JF Boscovits Corpo educacional nanoHUB 2.205.204 repositório multidisciplinar 20.704 852.954 408.355 Organismo profissional Bund Schweizer Architekten, Freidenker-Vereinigung der Schweiz, Union syndicale Suisse Trabalho aceito para publicação no Journal of Informetrics Zofinger Tagblatt, PeerJ Órgão de pesquisa Parceria para Estudos Interdisciplinares de 18.571 Os editores foram classificados em onze categorias mutuamente exclusivas para analisar diferentes infraestruturas de dados nacionais. A seguir, incluímos os doze tipos de editores identificados junto com exemplos para cada um deles. (AIP) 40.634 2.326 # registros 764.962 Empresa Huber & Co. AG, Verlegergemeinschaft Werk, Bauen + Wohnen Bauen + Wohnen GmbH 21 Repositório institucional Imperial College London, ETH-Bibliothek Zürich, Editora científica German Medical Science GMS Publishing House, 19.215 Apêndice B. Classificação dos tipos de editores Machine Translated by Google