DataCite as a novel bibliometric source- Coverage, strengths and limitations

Escola Colegio Estadual Barao Do Rio Branco

Daniel Flagher

em 12/12/2024

Conteúdos escolhidos para você

71 pág.

2022-01-06-13-28-46-64087875-nocoes-de-mineracao-de-dados

UNAMA

177 pág.

Business intelligence na prática_ modelagem multidimensional e data warehouse - UNIASSELVI

UNIP

164 pág.

Planejamento-e-Elaboracao-de-Bases-de-Dados-LIVRO (1)

IFCE

114 pág.

Perguntas dessa disciplina

Em organizações que lidam com grande volume de informações, a estruturação e o acesso eficiente aos dados são fatores importantes para a tomada de dec

UNIVESP

Em bancos de dados relacionais, o uso adequado de índices pode melhorar significativamente a performance das consultas. A decisão sobre o tipo de í...

DESAFIO PROFISSIONAL DE BANCO DE DADOS Esta é a descrição do seu Desafio Profissional. Para que você possa desenvolver sua atividade e chegar à con...

UniCesumar

ETAPA 1 - Apresentação do Desafio Profissional. Você foi contratado recentemente como Analista de Banco de Dados pela "MedLife Clínicas", uma rede ...

UniCesumar

Durante a implantação de um sistema de informações em uma secretaria de educação, identificou-se que diferentes unidades escolares mantinham bases pró

Material

Conteúdos escolhidos para você

71 pág.

2022-01-06-13-28-46-64087875-nocoes-de-mineracao-de-dados

UNAMA

177 pág.

Business intelligence na prática_ modelagem multidimensional e data warehouse - UNIASSELVI

UNIP

164 pág.

Planejamento-e-Elaboracao-de-Bases-de-Dados-LIVRO (1)

IFCE

114 pág.

Perguntas dessa disciplina

Em organizações que lidam com grande volume de informações, a estruturação e o acesso eficiente aos dados são fatores importantes para a tomada de dec

UNIVESP

Em bancos de dados relacionais, o uso adequado de índices pode melhorar significativamente a performance das consultas. A decisão sobre o tipo de í...

DESAFIO PROFISSIONAL DE BANCO DE DADOS Esta é a descrição do seu Desafio Profissional. Para que você possa desenvolver sua atividade e chegar à con...

UniCesumar

ETAPA 1 - Apresentação do Desafio Profissional. Você foi contratado recentemente como Analista de Banco de Dados pela "MedLife Clínicas", uma rede ...

UniCesumar

Durante a implantação de um sistema de informações em uma secretaria de educação, identificou-se que diferentes unidades escolares mantinham bases pró

Prévia do material em texto

DataCite como uma nova fonte bibliométrica: Cobertura, pontos fortes
e limitações
Robinson-Garcia, N.; Mongeon, P.; Jeng, W.; Costas Comesana, R.
Licença:
Versão:
Licença não exclusiva da Universidade de Leiden
Baixado em: https://hdl.handle.net/1887/57880
Nota: Para citar esta publicação, use a versão final publicada (se aplicável).
Não Aplicável (ou Desconhecido)
Citação
Robinson-Garcia, N., Mongeon, P., Jeng, W., & Costas Comesana, R. (2017). DataCite como uma nova fonte
bibliométrica: Cobertura, pontos fortes e limitações. Journal Of Informetrics, 11(3), 841-854. doi:10.1016/
j.joi.2017.07.003
Machine Translated by Google
https://hdl.handle.net/1887/license:3
https://hdl.handle.net/1887/57880
Abstrato
Palavras-chave
Wei Jeng3 e Rodrigo Costas4,5
1
Os pedidos de disponibilidade e compartilhamento de dados remontam ao início do século 20 , quando Galton declarou:
“Comecei a pensar que ninguém deveria publicar resultados biométricos, sem apresentar uma cópia manuscrita bem
organizada e bem encadernada de todos os seus dados , em algum lugar onde deve ser acessível, sob restrições
razoáveis, para aqueles que desejam verificar seu trabalho” (Galton, 1901, como citado em Perneger, 2011). No
entanto, faz apenas algumas décadas que a tecnologia possibilitou o desenvolvimento da infraestrutura necessária
para que isso acontecesse (Peng, 2011). Na última década, agências de fomento público, editoras e instituições
direcionaram seus esforços para o desenvolvimento dessa infraestrutura, bem como para o incentivo à geração de
dados.
Nicolas Robinson-Garcia1*, Philippe Mongeon2 ,
vários campos. Apesar dessas limitações, enfatizamos o valor e o potencial do DataCite para se tornar uma das
principais fontes de desenvolvimento de métricas de dados.
elrobin@ingenio.upv.es
DataCite
sobre o uso dessa fonte para análises bibliométricas de dados abertos. Destacamos problemas relacionados à
incompletude de metadados, falta de padronização e definições ambíguas de
registros baixados da API OAI do DataCite e elaborar uma série de recomendações
rcostas@cwts.leidenuniv.nl
Compartilhamento de dados, citações de dados, fontes bibliométricas, dados abertos, infraestrutura de dados, métricas de dados,
Trabalho aceito para publicação no Journal of Informetrics
Este artigo explora as características do DataCite para determinar suas possibilidades e potencial como uma nova
fonte de dados bibliométricos para analisar a produção acadêmica de dados abertos. A ciência aberta e os crescentes
requisitos de compartilhamento de dados de governos, órgãos financiadores, instituições e periódicos científicos
levaram a uma demanda premente pelo desenvolvimento de métricas de dados. Como primeiro passo para métricas
de dados confiáveis, precisamos compreender melhor as limitações e ressalvas das informações fornecidas por fontes
de dados abertos. Neste artigo, examinamos criticamente
1. Introdução
autor correspondente
wjeng@ntu.edu.tw
*
3Departamento de Biblioteconomia e Ciência da Informação, Universidade Nacional de Taiwan, (Taiwan)
5Centro de Pesquisa em Avaliação, Ciência e Tecnologia (CREST), Stellenbosch University, Private Bag X1, Matieland
7602 (África do Sul)
INGENIO (CSIC-UPV), Universitat Politècnica de València (Espanha)
2École de bibliothéconomie et des sciences de l'information, Université de Montréal (Canadá)
4CWTS, Universidade de Leiden (Holanda)
philippe.mongeon@umontreal.ca
DataCite como uma nova fonte bibliométrica:
Cobertura, pontos fortes e limitações
1
Machine Translated by Google
mailto:elrobin@ingenio.upv.es
mailto:rcostas@cwts.leidenuniv.nl
mailto:philippe.mongeon@umontreal.ca
Skrol
O design da infraestrutura é um fator chave para promover o compartilhamento e a reutilização de dados. Piwowar,
Becich, Bilofsky e Crowley (2008) analisaram como certos elementos de estruturas de compartilhamento de dados
podem influenciar a usabilidade, descoberta e reutilização de dados para diferentes partes interessadas.
Embora medir o impacto dos dados seja um elemento altamente relevante na agenda política de pesquisa, uma
medida direta de reutilização de dados é muito difícil de alcançar (Missier, 2016). Tentativas de métricas, como
downloads de conjuntos de dados ou citações de dados, foram propostas para rastrear a reutilização de dados
Para que as citações de dados se tornem um indicador válido sobre a reutilização de dados, é necessária uma
mudança no comportamento de comunicação dos pesquisadores ao citar fontes, bem como no significado que eles
atribuem às suas referências (Mayernik, 2012; Parsons & Fox, 2013). Iniciativas como o lançamento do Data Citation
Index e o consórcio DataCite são exemplos de esforços direcionados à promoção de citações de dados. No entanto,
pouco se sabe sobre a produção de dados, práticas específicas de campo e outros requisitos básicos, como o formato
que um registro de dados deve ter para facilitar a recuperação de informações e análises bibliométricas. Estudos
anteriores com foco no Data Citation Index da Thomson Reuters (agora Clarivate Analytics) exploraram vieses
disciplinares e tipos de dados incluídos (Torres-Salinas, Martín-Martín e Fuente-Gutiérrez, 2014), práticas de citação
de dados entre campos (Robinson-García et al., 2015) e a relação entre citações de dados e menções de dados em
mídias sociais (Peters, Kraker, Lex, Gumpenberger, & Gorraiz, 2016).
Em linha com o movimento de ciência aberta e apelos para maior compartilhamento e reutilização de dados,
destacamos a importância das publicações e citações de dados. Este artigo analisa a estrutura e o tipo de metadados
oferecidos pelo DataCite para avaliar seu potencial para se tornar uma fonte importante para o desenvolvimento de
métricas em nível de dados. DataCite é uma organização internacional sem fins lucrativos formada em 2009. É um
consórcio de instituições públicas de pesquisa, órgãos financiadores e editores em todo o mundo cuja missão é
promover a acessibilidade e rastreamento de dados de pesquisa aberta. Para este último,
Práticas de compartilhamento e reutilização de dados têm sido adotadas em diferentes ritmos pelas diferentes
comunidades científicas. Por exemplo, a infraestrutura de dados é amplamente desenvolvida dentro da comunidade
de cristalografia, que remonta ao início dos anos 1970 (Torres-Salinas, Robinson-García, & Cabezas-Clavijo, 2012).
Uma expansão semelhante pode ser observada em Genômica ou Astronomia (Borgman, 2012). Por outro lado, as
ciências sociais e as humanidades adotaram essas novas práticas em um ritmo mais lento do que os campos STEM
(Doorn, Dillo, & van Horik, 2013; Kim & Adler, 2015).
registros (DataCite, 2015).
(Costas, Meijer, Zahedi, & Wouters, 2013; Piwowar, Day, & Fridsma, 2007).
2
compartilhamento e reutilização dentro da comunidade científica, promovendo citações de dados (Robinson-García,
Jiménez-Contreras, & Torres-Salinas, 2015).
A DataCite defende o uso de Identificadores de Objetos Digitais (DOI) atribuindo DOIs a seus
(Konkiel, 2013). Enquanto o primeiroparece ser problemático na captura de diferentes dimensões de uso (Mayernik,
Hart, Maull e Weber, 2016), -- por exemplo, dados podem ser baixados para fins de validação de pesquisa, -- mais
esforço foi colocado na chamada de movimento de “citações de dados”
Trabalho aceito para publicação no Journal of Informetrics
Em um relatório recente, Costas et al. (2013) destacaram a necessidade de desenvolver padrões de publicação de
dados, reduzindo a dispersão de repositórios de dados e facilitando a rastreabilidade, citação e medição de registros
de dados. A fonte mais abrangente de dados abertos atualmente disponível é o DataCite, que contém mais de 7
milhões de registros de acesso livre, quase dobrando os números relatados pela última vez para o Data Citation Index
(Peters et al., 2016).
Machine Translated by Google
Skrol
Skrol
DataCite Metadata Store (https://oai.datacite.org/). O DataCite Metadata Store é um serviço para gerenciar
atividades relacionadas ao registro do Digital Object Identifier (DOI) no DataCite. O MDS é usado para criar, registrar,
armazenar e gerenciar DOIs e metadados de conjuntos de dados associados criados por usuários e membros do
DataCite. Aqui somos apresentados aos dados brutos fornecidos pelos membros do DataCite e ainda não foram
processados pelo DataCite.
examinamos a estrutura da base de dados e o nível de padronização das informações fornecidas em cada campo,
para avaliar a usabilidade dos dados para fins bibliométricos. O artigo está estruturado da seguinte forma.
Primeiramente, apresentamos o esquema de metadados dos registros DataCite (2015). Em seguida, avaliamos a
integridade dos dados em cada campo específico e fornecemos uma visão geral da cobertura do banco de dados.
Por fim, discutimos o potencial do DataCite como fonte para rastrear a produção de dados abertos e fornecemos
algumas recomendações para seu uso como ferramenta para estudar a produção de dados e os padrões de citação.
DataCite fornece APIs ao público para download de registros indexados em seu banco de dados. Estes dois pontos
de acesso contêm o mesmo número de registos mas diferem na estrutura com que são apresentados bem como no
detalhe da informação prestada.
3
Este artigo tem como objetivo explorar as características dos dados coletados pelo DataCite para determinar seu
potencial como uma nova fonte de dados bibliométricos para o estudo da produção de dados abertos. Especificamente,
Ao longo do restante do artigo, todas as referências feitas à estrutura de metadados do DataCite são baseadas
nessas informações.
estrutura e define cada campo (DataCite Metadata Working Group, 2015). Observe que, embora uma versão 4.0 do
esquema de metadados tenha sido implementada recentemente, neste artigo nos referimos à versão 3.1, pois era o
esquema em vigor no momento da coleta de dados. Esta versão inclui
Além desses dois pontos de acesso, o DataCite permite consultas em massa por meio de dois URLs adicionais:
pesquisa SOLR (https://search.datacite.org/ui) e pesquisa (https://search.datacite.org/). Neste artigo, usamos o
DataCite Metadata Store para recuperar todos os registros do DataCite.
Esta seção está estruturada em três partes. A primeira descreve os diferentes pontos de acesso disponibilizados
pelo DataCite e as vantagens e limitações de usar um ou outro. Em segundo lugar, coletamos e descrevemos as
informações fornecidas pelo DataCite quanto à sua estrutura, definição dos campos de registro de dados e
informações solicitadas a cada repositório. O objetivo é dar ao leitor um relato completo sobre o que o DataCite
espera receber de cada repositório de dados e como essa informação deve ser apresentada ao usuário final. A
última parte descreve o conjunto de dados baixado da API OAI pública do DataCite. As informações recuperadas e
sua estrutura são comparadas com as informações fornecidas na primeira subseção.
(https://oai.datacite.org). DataCite fornece um esquema de metadados que mostra o registro
Trabalho aceito para publicação no Journal of Informetrics
API REST DataCite (https://api.datacite.org/). A API DataCite REST inclui o mesmo conteúdo que o DataCite
Metadata Store, mas com camadas adicionais de informações por registro. A equipe do DataCite adiciona novas
informações a cada registro sobre financiamento, ORCIDs, citações não fornecidas pelos próprios data centers.
Em abril de 2016, recuperamos todos os registros do DataCite usando sua API OAI pública
3. Dados e métodos
2. Objetivos
3.1 Pontos de acesso ao DataCite
3.2 Esquema de Metadados DataCite v. 3.1
Machine Translated by Google
https://oai.datacite.org/
https://search.datacite.org/ui
https://search.datacite.org/
https://oai.datacite.org/
https://api.datacite.org/
Contribuinte. Este campo inclui as instituições e indivíduos envolvidos na coleta, gestão, distribuição ou outros tipos de
contribuições para a produção dos dados. Inclui como subcampo o tipo de contribuição (ou seja, pessoa de contato,
coletor de dados, etc.).
Identificador Relacionado. Este campo contém identificadores diferentes do DOI.
Título. O nome pelo qual o recurso é conhecido. Às vezes, também inclui subtítulo como um subcampo.
O Criador. Este campo inclui o nome, sobrenome ou nome de filiação dos criadores dos registros de dados. Seria
equivalente ao campo autor dos registros bibliográficos.
Tipo de recurso. Aqui, uma classificação de dois níveis de tipos de dados é introduzida. Enquanto o nível superior é
uma lista fechada de 15 tipos de dados, a classificação do segundo nível é um campo de texto livre.
Ano de Publicação. O ano em que o registro de dados foi disponibilizado ao público, que pode diferir do ano de sua
criação. A documentação do DataCite reconhece que isso pode ser problemático em certos casos, deixando para o
usuário que deposita os dados escolher sua data preferida para fins de citação.
Geolocalização. Inclui a localização geográfica em que os dados apresentados foram coletados.
Descrição. Este é um campo estruturado. Se utilizado, pode ser inserido texto livre, mas o tipo de conteúdo (resumo,
métodos, informações da série, sumário e outros) deve ser especificado.
Editor. DataCite define editor como “[o] nome da entidade que detém, arquiva, publica, imprime, distribui, libera, emite
ou produz o recurso” (DataCite, 2015). Para a prática atual, pode haver diferentes interpretações sobre esta definição,
portanto, pode ser realizada por diferentes atores. Assim, pode resultar em ambiguidade quanto ao tipo de entidades
designadas como publicadoras, nomeadamente autores individuais, instituições ou repositórios de dados individuais.
Discutimos essa limitação na subseção 4.2.
Os dados foram analisados e organizados em um banco de dados SQL. Um total de 7.440.415 registros foram
recuperados. A API não fornece o campo de geolocalização recomendado . Este campo foi incluído em setembro de
2016. Ele fornece cinco campos opcionais: Relação, Formato, Idioma e Direitos.esquema.
campos obrigatórios, recomendados e opcionais. Nas seções a seguir, descrevemos brevemente os principais campos
recuperados do DataCite Metadata Store.
Além disso, os campos Identifier e RelatedIdentifier e os campos Publication Year e Date
Trabalho aceito para publicação no Journal of Informetrics
Assunto. Este é um campo de texto livre que pode incluir palavras-chave, códigos de classificação, assuntos ou frases-
chave. Inclui como subcampo o esquema de assunto utilizado, se houver, com um link para o assunto
identificador. Embora, em princípio, o DataCite encoraje e promova o uso de números DOI, ele também permite a
inclusão de outros identificadores exclusivos (por exemplo, URN, CCDC, chave INCHI, URL).
Data. Devido à potencial ambiguidade do ano de publicação, este campo permite especificar mais de uma data que
pode ser relevante para o usuário, como disponibilidade de dados, coleta, publicação, etc.
4
3.2.1 Campos obrigatórios
3.2.2 Campos recomendados
3.3 Descrição geral do banco de dados recuperado
Machine Translated by Google
Descrição
identificador
Editor
Linguagem
Tipo de recurso
Título
Formatar
Contribuinte
O Criador
Centro de dados
Direitos
20% 60% 100%0% 40% 80%
A Figura 1 mostra o compartilhamento de registros no DataCite com informações em cada um dos
campos descritos no Apêndice A. Vemos que muitos registros contêm campos vazios (mesmo os
obrigatórios). Um total de 1.092.131 registros (14,7% de todos os registros coletados) não inclui nenhum
dado. Isso parece ser causado por modificações feitas pelo DataCite na estrutura de dados. Mais
especificamente, o DataCite emprega o Open Archives Initiative Protocol for Metadata Harvesting (OAI-
PMH) e atribui um ID OAI a cada registro. Parece que quando um registro precisa ser modificado, um
novo registro é criado com as informações atualizadas. As informações do registro antigo são excluídas
(exceto a OAI e as informações do centro de dados), mas não o registro em si. A Figura 2 mostra um
exemplo de um registro vazio. Este é um elemento importante a ser considerado ao trabalhar com a API
do DataCite, pois esses registros devem ser removidos da amostra.
5
fornecer os registros ao DataCite. 762 organizações foram incluídas como centros de dados no momento
do download. Essas organizações contrataram um membro individual da DataCite para atribuir DOIs. O
Apêndice A inclui uma descrição detalhada de cada campo recuperado e as informações que eles
contêm.
Trabalho aceito para publicação no Journal of Informetrics
Ao focar nos registros que incluem informações (6.348.284 registros), ainda encontramos que 1.306
registros (0,02%) não incluem título ou informações do editor. O tipo de recurso e o idioma são relatados
em 60% e 51% dos registros, respectivamente. Os campos contribuidor (18%) e relação (25%) têm a
menor presença nos registros do DataCite.
são combinados em dois campos (Identificador e Data). Além disso, indica o Data Center
Data
Assunto
Relação
Figura 1. Distribuição das informações de metadados por campos
Machine Translated by Google
Figura 2. Exemplo de um registro vazio recuperado da API do DataCite
Tabela 1. Registros por tipo de recurso e compartilhamento dos 3 principais subtipos mais comuns no DataCite. Em subtipos negrito-cursivos
que aparecem em mais de uma categoria de tipo de dados
4.1 Tipos de recursos
N
Artigos de conferência (15,5%), artigos de periódicos
(15,4%), relatório (10,1%)
Programas
registros. Em seguida, analisamos a distribuição geográfica dos data centers e o número de registros por país. Também
analisamos o campo do editor para separar os diferentes tipos de entidades que ele contém. Também apresentamos
uma visão geral dos diferentes tipos de datas incluídos no banco de dados. Por fim, focamos na descrição do campo
de relação, que contém DOIs de registros relacionados, tentando entender o(s) tipo(s) de ligação capturados pelo
DataCite.
Conjunto de dados (63,5%), Metadados (5,8%),
Pacote de dados (4,1%)
6,78
por texto (18%), imagem (14%) e coleção (7%). Conforme observado na tabela 1, a maioria dos registros com 'texto'
ResourceType são manuscritos, artigos de congressos ou periódicos. Os registros marcados como imagens são
heterogêneos, variando de pôsteres acadêmicos a manuscritos históricos ou figuras de dados. O subtipo não é
obrigatório e, portanto, está vazio em muitos registros. Por exemplo, apenas 4,3%, 6% e 6% dos registros com o tipo de
recurso “Modelo”, “Som” e “Filme”, respectivamente, possuem um subtipo. No geral, encontramos 158.781 variações
diferentes de subtipos de recursos, uma ramificação natural de ser um campo de texto livre, mas que reflete diferentes
entendimentos do que são dados e o que está incluído em cada um dos 15 tipos de dados.
Coleção (20,7%), arquivo de trabalho Gaussiano
(9,1%), Relatório (4,7%)
0,03
14,32 Imagem (11,9%), Figura (11,2%), Placa (8,1%)
O campo ResourceType apresenta uma lista controlada de 15 valores, complementada por um subtipo de texto livre. A
Tabela 1 relata o número total de registros por tipo de recurso e os três subtipos mais comuns. Observamos que 42%
dos registros são categorizados como conjuntos de dados, seguindo
12.340
Texto 786.882
%
Imagem 641.404
6
Ferramenta de simulação (16,9%), Software (10,8%),
Código (5,3%)
Trabalho aceito para publicação no Journal of Informetrics
Tipo de recurso Número de registros Subtipos mais frequentes
17.56
Nesta seção, relatamos nossas descobertas sobre o conteúdo de cada campo e o nível de padronização dos dados.
Primeiro, apresentamos estatísticas descritivas sobre diferentes tipos de dados
Conjunto de dados 1.867.627 41,69
Coleção 303.638
4. Resultados
Machine Translated by Google
Modelo
Objeto de arquivo (63,9%), sensor
aerotransportado HIAPER-HAIS (2,4%), objeto
físico (0,9%)
Filme
fluxo de trabalho
100
Modelo (2,8%), Ontologia (0,9%), Shapefiles (0,2%)
Tipo de recurso Número de registros Subtipos mais frequentes
0,02
0,01
Trabalho aceito para publicação no Journal of Informetrics
209
960
470
Também observamos redundâncias de classificação entre os dois níveis. Por exemplo, o tipo de recurso “conjunto de
dados” possui um subtipo também denominado “conjunto de dados”. Também existem subtipos redundantes entre
diferentes tipos de recursos. Por exemplo, o subtipo “relatório” aparece como um subtipo dos tipos de recurso “coleção”
e “texto”. Um caso especificamente problemático é o tipo de recurso
Objeto físico
%
Recursos interativos (12,2%), Objeto de
aprendizagem (2,1%), Sites Web (0,3%)
Recursos interativos
Serviço
A partir de agora, nos referiremos como “registros de dados” a todos os registros no DataCite que tenham um tipo de
recurso diferente de “texto” (ou seja, consideramos como registros relacionados a dados todos os registros que não
são artigos, como manuscritos ou pré-impressões) .
N
0,01
Fluxo de trabalho Taverna 2 (7,2%), fluxo de
trabalho (1,0%), fluxo de trabalho do RapidMiner (0,5%)
0,01
registros de dados. Estes resultados refletem o problema conceptual
ainda existente sobre o significado que “publicar” tem no modelo de produção de dados (Costas et al., 2013)
ou, pelo menos, o efeito da diversidade de registos incluídos no DataCite.
O Apêndice B fornece mais detalhes sobre esta classificação.
Também dividimos os editores em 11 tipos de entidade para melhor compreender o que os usuários
entendem como “editor de dados”, mas também para identificar diferentes tipos de instituições que publicam dados
Trabalho aceito para publicação no Journal of Informetrics
10
Conforme mostrado na Figura 5, um total de 156 entidades distintas são identificadas a partir das 1.148
variantes de nomes desambiguadas do campo do editor . A maioria dos registros foi atribuída a 18 repositórios
temáticos (43%). Das 156 entidades, 35 são repositórios institucionais, seguidos de 33 organismos de
investigação (por exemplo, centros de investigação e associações científicas) e 24 editoras académicas (revistas).
produtos. Distinguimos quatro tipos de repositórios (ou seja, repositórios nacionais, institucionais, disciplinares
e multidisciplinares), e as outras entidades são grupos diversos (órgão de pesquisa, órgão profissional e
órgão educacional), editores, empresas, conferências e indivíduos.
Figura 4. Número total de registros de dados (excluindo o tipo de dados “texto”) por país usando data center e dados
de afiliação de editor. O eixo Y é logarítmico. Os países são ordenados de acordo com o número total de registros usando a
afiliação do datacenter.
Machine Translated by Google
Figura 5. Número de registros e participação nos registros de dados (após exclusão do texto) por tipo de editora. Apenas registros
com informações do editor e tipo de dados são mostrados.
disponíveis publicamente, atualizados, etc. Assim, quando as informações são fornecidas no campo data , um dos 9
subtipos a seguir é obrigatório: aceito, disponível, protegido por direitos autorais, coletado, criado, emitido, enviado,
atualizado e válido.
uma data apresentada com um formato de quatro dígitos. Identificamos 4.242.804 registros de dados com esse formato.
O campo de data é um campo de texto livre opcional que pode se referir a diferentes datas relevantes para o registro.
11
campo quando este último não estiver no formato de quatro dígitos. Portanto, as informações de data recuperadas com a
API devem ser processadas de alguma forma antes de serem usadas. Neste estudo, definimos “ano de publicação” como
O ano de publicação é um campo chave em qualquer análise bibliométrica que pretenda fornecer uma perspetiva
longitudinal ou enquadrar o(s) período(s) de estudo. O DataCite exige que o ano de publicação seja apresentado em um
formato de quatro dígitos. No entanto, um ponto importante a ser considerado para o desenvolvimento de métricas de
dados é que os registros de dados podem estar sujeitos a diferentes ações ocorrendo em diferentes datas de ações, que
podem ser todas incluídas nos metadados. Assim, o DataCite (2015) possui dois campos relacionados à data: ano de
publicação e data. O campo do ano de publicação é um campo obrigatório que o DataCite Metadata Working Group
(2015) define como “o ano em que os dados foram ou serão disponibilizados publicamente”. Ainda assim, o DataCite
reconhece que essas informações podem não estar claras ou indisponíveis, fornecendo alternativas como, “[se] essa data
não puder ser determinada, use a data de registro” ou “[se] um período de embargo estiver em vigor, use o data em que
termina o período de embargo”. Concluindo que “[i] se não houver um valor de ano de publicação padrão, use a data que
seria preferida do ponto de vista da citação”.
Conforme mencionado anteriormente e apresentado no Apêndice 1, o campo “data” recuperado DataCite Metadata Store
OAI API combina o ano de publicação e a data em um único campo. Portanto, as distinções discutidas acima não estão
disponíveis. Isso significa que várias datas podem ser atribuídas a um único registro e que o campo do ano de publicação
só pode ser diferenciado da data
Esse processo de limpeza não é totalmente preciso, pois um total de 50.679 registros relatou anos de publicação acima
de 2099 ou do início dos anos 1000 e, portanto, não foram considerados1 . A Figura 6 mostra o
Trabalho aceito para publicação no Journal of Informetrics
Eles podem estar relacionados à data em que o conjunto de dados foi criado, carregado em um repositório, feito
1 Embora existam casos de registros de dados que datam do início dos anos 1000, por exemplo, objetos de arquivo digitalizados.
33
# registros % registros de dados
18571
24
852954
Tipo de editores
2326
24
Empresa
5111799
repositório institucional
408355
6
Conferência
40634
repositório multidisciplinar
corpo educacional
18
1
35
repositório nacional
19215
1
Total
2205204
156
8025
2
621544
repositório temático
764962
5
Corpo profissional
corpo de pesquisa
5
149305
# editores
Individual
20704
Editora científica
67,78%
83,26%
43,18%
88,45%
9,85%
42,33%
9,67%
0,00%
0,00%
0,00%
93,59%
78,74%
72, 47%
2
Não encontrado
4.3 Ano de publicação e datas relacionadas
Machine Translated by Google
número de registros para o período 1950-2020. Observamos muitos registros datados de 2016
em diante devido ao embargo a que estão restritos.
12
Trabalho aceito para publicação no Journal of Informetrics
O fato de não haver uma definição clara para o campo ano de publicação pode levar a algumas
discrepâncias nos dados. Isso é especialmente significativo no caso de dados históricos em que
o usuário pode optar por indicar a data do registro histórico ou a data de sua recuperação. Figura 7
1400000
1960 1990
800000
1000000
1980
400000
20102000
600000
Figura 6. Número de registros por ano usando o ano de publicação no DataCite. período 1950-2020
1950
Figura 7. Exemplo de registro com data anterior ao desenvolvimento de repositórios de dados. 6A. Conteúdo de uma fotografia
tirada em 1929. 6B Registro de dados no DataCite. A data de publicação do registro é 1929.
200000
0
2020
1200000
1970
Machine Translated by Google
A API OAI DataCite também fornece um campo chamado de relação, que é equivalente ao campo
RelatedIdentifier no DataCite Metadata Schema. A principal diferença é que aqui recuperamos apenas as
informações fornecidas pelos datacenters, enquanto o campo RelatedIdentifier recuperado da API REST inclui
informações adicionais fornecidas pela equipe DataCite. Isto
Após uma verificação superficial de alguns desses casos, observamos que ocasionalmente a relação é
formada por um registro de dados de contêiner (ou seja, um banco de dados) e suas tabelas (ou seja,
conjuntos de dados). Por exemplo, o banco de dados doi:10.15468/dl.qnbifh incluía, no momento da coleta de
dados, 5.192 conjuntos de dados relacionados. Isso explica parcialmente a distribuição distorcida observada
na Figura 8B. Em outroscasos, a relação indica a (re)utilização dos dados ao vincular os dados a um artigo.
No entanto, esse campo parece não conter o DOI dos artigos que citam o registro de dados, e não encontramos
critérios evidentes para caracterizar os tipos de relações relatadas nesse campo.
Em relação aos registros com datas adicionais, identificamos 2.095.183 registros, dos quais 43% informavam
a data de disponibilidade, 25% informavam a data de criação, 14% declaravam a data de coleta e 12% a
atualização e 3% a data de emissão. Menos de 0,2% dos registros informaram a data de copyright, submissão,
validade ou aceitação.
Menos de 25% dos números DOI relacionados pertencem a outros registros DataCite. Aproximadamente 15%
pertencentes a artigos indexados na Web of Science (Figura 8C). Quando focamos no tipo de dados dos DOIs
relacionados contidos no DataCite (Figura 8D), observamos que 90% deles são conjuntos de dados.
fornece o exemplo de uma fotografia digitalizada que já havia sido publicada em sua forma física. Aqui, o
campo do ano de publicação contém o valor 1929, que é de fato a data em que a fotografia foi tirada.
contém identificadores para publicações (por exemplo, DOIs, arxiv, bibcode, handles; não necessariamente
no DataCite). Como todos os registros no DataCite incluem um número DOI junto com outros identificadores
associados, cruzamos os números DOI relacionados com: 1) o próprio banco de dados DataCite, para
encontrar possíveis relações entre os registros de dados no DataCite; e 2) com a Web of Science, para
identificar potenciais relações com publicações científicas. Conforme mostrado na Figura 8A, 23% de todos
os registros DataCite incluem DOIs relacionados. O número de números DOI relacionados por registro varia
muito, mostrando uma distribuição altamente distorcida (Figura 8B). A Figura 8C cruza DOIs relacionados ao
DataCite com registros DataCite, com registros DataCite definidos como conjuntos de dados e com registros do Web of Science.
Trabalho aceito para publicação no Journal of Informetrics
13
4.4 Números DOI relacionados
Machine Translated by Google
Trabalho aceito para publicação no Journal of Informetrics
14
Curiosamente, Robinson-García et al. (2016) relataram um tipo semelhante de relações também
consignadas no Data Citation Index da Thomson Reuters, embora, nesse caso, apenas as relações
entre conjuntos de dados e artigos científicos tenham sido incluídas. No entanto, relataram uma
dependência do repositório do relato dessas relações, ou seja, dependendo do repositório
encontraríamos registros com relações ou não. No DataCite há evidências sugerindo que tal
dependência também existe, neste caso com data centers: apenas 226 (30%) data centers relataram pelo menos um registro de dados
Figura 8. Análise do campo de relação no DataCite. Um compartilhamento de registros no DataCite com números DOI relacionados
nos registros do DataCite. B. Distribuição do número de números DOI relacionados por registro de dados. C. Parcela de números
DOI relacionados incluídos no DataCite por tipo de dados. D. Parcela de números DOI relacionados indexados no DataCite,
indexados no DataCite e com informações de tipo de dados e indexados no Web of Science.
Machine Translated by Google
15
A pesquisa sobre compartilhamento de dados e dados abertos está crescendo, ao mesmo tempo em que os
órgãos financiadores estão incentivando uma maior transparência na pesquisa. Termos como ciência
orientada por dados, ciência intensiva em dados e ciência aberta estão se tornando cada vez mais comuns
em documentos e declarações de políticas, como o Horizon2020 da União Europeia (Comissão Europeia,
2016). Neste contexto, o DataCite é chamado a desempenhar um papel importante como fonte para a análise
e estudo da publicação e reutilização de dados. Embora a demanda por métricas de dados seja uma
constante desde o início da década de 2010 (Costas et al., 2013), ainda há um longo caminho a percorrer até
que o movimento se expanda para campos mais amplos da Ciência e para mais países.
Trabalho aceito para publicação no Journal of Informetrics
Este artigo apresenta a primeira coleta e análise de dados em larga escala do DataCite para avaliar seu
potencial como ferramenta bibliométrica capaz de fornecer informações e métricas sobre atividades de dados
abertos em macroescala. Comparado com outros produtos similares, como o Data Citation
com um número DOI relacionado, e 44 (5%) deles relataram números DOI relacionados em todos os seus
registros (ver Figura 9).
Figura 9. Compartilhamento de registros com números DOI relacionados atribuídos a eles. Azul representa registros com números
DOI relacionados. Cinza representa registros sem números DOI relacionados relatados.
5. Considerações finais e recomendações
Machine Translated by Google
Além disso, os problemas levantados ao analisar as informações fornecidas pelos campos de ano e data de
publicação levantam questões sobre quando os dados são produzidos e divulgados. Com relação ao campo
“Editor”, parece que sua definição atual é muito ampla, pois existe uma variedade de entidades que podem deter,
possuir, arquivar, publicar (e assim por diante) um objeto digital disponível no DataCite. Pelo que foi demonstrado,
o campo reúne uma enorme diversidade de entidades que não são estritamente editoras (por exemplo, repositórios,
organismos de investigação, empresas, etc.). Na verdade, como as informações do “Data Center” são únicas
No entanto, essa simplicidade analítica do Data Citation Index ignora alguns dos principais problemas encontrados
ao explorar a natureza e a heterogeneidade dos dados abertos. Como mostrado neste artigo, os metadados dos
registros DataCite são muito ricos e heterogêneos, aqui descrevemos algumas das questões importantes que
precisam ser consideradas ao usar o DataCite como fonte de dados para análise de dados abertos.
No entanto, destacamos a importante diversidade de tipos de dados incluídos no DataCite. De certa forma, os
muitos tipos de dados cobertos pelo DataCite sugerem que uma compreensão mais ampla do que constitui dados
de pesquisa é muito necessária. De fato, a presença de múltiplos tipos relacionados a dados como “Imagens”,
“coleção” ou “software” reforça a ideia de que precisamos deixar de considerar “dados” como um tipo de publicação
homogêneo.
Índice, o tamanho e a riqueza dos dados do DataCite oferecem maiores possibilidades como fonte bibliométrica
para o desenvolvimento de métricas de dados abertos. Ainda assim, essa riqueza de dados tem um preço.
Problemas conceituais como o que são dados ou a que campo ou disciplina científica pertencem diferentes
conjuntos de dados, juntamente com problemas técnicos como a falta de padronização de muitos de seus campos,
ainda podem representar uma vantagem em relação ao Data Citation Index, em que a estrutura de campos no
Data Citation Index adapta até certo ponto a estruturados registros bibliográficos. Isso apresenta uma vantagem
positiva para o Data Citation Index porque permite análises bibliométricas sem processamento prévio (por exemplo,
Robinson-Garcia, Jiménez-Contreras & Torres-Salinas, 2016).
16
Um elemento crítico importante que precisa ser considerado ao trabalhar com DataCite é que, como tal, todos os
registros incluídos no banco de dados não são estritamente relacionados a dados. Por exemplo, mais de 12% dos
registros válidos no DataCite são textos ou artigos. Portanto, para identificar e analisar adequadamente a produção
de dados, diversos filtros precisam ser aplicados por tipos de dados.
Trabalho aceito para publicação no Journal of Informetrics
O esquema DataCite está estreitamente alinhado com o Dublin Core, o que permite a interoperabilidade entre
diferentes plataformas e tipos de registro, bem como garante níveis mínimos de qualidade dos metadados gerados
pelo autor (Greenberg et al., 2002). No entanto, a simplicidade do modelo (Lagoze, 2001) deixa margem à
ambiguidade em muitos dos domínios necessários para desenvolver qualquer tipo de análise bibliométrica.
Descobrimos que um grande problema existente no DataCite é que muitos registros estão faltando informações
em muitos dos campos (mesmo os obrigatórios). Além disso, tornar obrigatórios alguns dos campos recomendados
(por exemplo, o assunto, a afiliação institucional do criador) aumentaria o potencial do DataCite para análises
bibliométricas. Também seria útil tornar obrigatório um subcampo “tipo de relação” para o campo “Relação” que é
um dos campos mais promissores para o desenvolvimento de métricas de dados. Vale a pena notar que esta
informação está agora disponível no novo esquema de metadados e através da página de busca do DataCite.
5.1 Questões centrais sobre os metadados fornecidos pelo DataCite
5.1.2 Campos de Metadados DataCite
5.1.1 Tipos de dados e a definição de “dados”
Machine Translated by Google
6.1 Pesquisa adicional
2 O formato atual de citação de dados recomendado do DataCite é o seguinte. Criador (ano de
publicação). Título. Editor. Identificador (DataCite, 2015).
6. Recomendações
Com base nos resultados deste artigo é possível sugerir uma série de recomendações que podem ser úteis para usuários
que desejam utilizar o DataCite para desenvolver métricas de dados e para
DataCite como fornecedora de registros de dados em atividades de compartilhamento de dados. Estas recomendações
destinam-se a maximizar seus esforços para fornecer um serviço que promova eficientemente a publicação e citação de
dados. O tamanho do DataCite e o fato de ser acessível gratuitamente destacam seu potencial para se tornar uma valiosa
fonte de informação para análises quantitativas de produção, compartilhamento e (re)uso de dados. No entanto, existem
questões críticas relacionadas à estrutura e limpeza dos registros do DataCite que precisam ser abordadas para melhorar
sua usabilidade. Em qualquer caso, as conclusões tiradas aqui são baseadas no DataCite Metadata Store e não consideram
nenhuma funcionalidade aprimorada disponível por meio da API DataCite REST. Neste sentido, devem ser esclarecidas as
vantagens e limitações da utilização de diferentes pontos de acesso para que os utilizadores possam optar por um ou outro
consoante a análise que pretendam realizar.
Assim, os usuários devem decidir antecipadamente quais tipos de dados são relevantes para a análise e entender as possíveis
perdas de informações que os filtros irão impor.
Por fim, uma questão importante e crítica para a potencial usabilidade do banco de dados para fins de métrica
Ano de publicação, editor, criador) torna a recuperação de dados mais árdua e torna necessária a eliminação da ambiguidade
dos dados. Simplesmente impondo um formato padrão para determinados campos, como o campo criador , ou incluindo uma
lista fechada para o campo e subcampo ResourceType ou para o assunto
campo melhoraria muito a qualidade dos dados e facilitaria sua análise.
Em segundo lugar, os problemas relacionados à integridade dos dados reduzem o conjunto de dados analisáveis à medida
que mais filtros são usados para recuperar os registros. Por exemplo, para focar apenas em registros relacionados a dados
(por exemplo, conjuntos de dados), é necessário filtrar por ResourceType. No entanto, este campo está vazio para uma
quantidade substancial (40%) de registros. Além disso, o DataCite Metadata Store contém uma ampla variedade de “tipos de recursos”.
17
para cada registro de dados, poderia fazer mais sentido usá-lo para fins de citação do que o editor, que é um campo de texto
livre2 .
é a falta de padronização de muitos campos de metadados. Tendo muitos campos de texto livre (por exemplo
Nesse sentido, os usuários potenciais do DataCite devem considerar as seguintes questões: Primeiro, os registros vazios
devem ser removidos antes de tentar fazer qualquer declaração sobre os dados reais contidos no DataCite. Conforme
observado na subseção 'Descrição geral do banco de dados recuperado', mais de 1 milhão de registros foram encontrados
vazios no momento da recuperação dos dados. A não remoção desses registros pode confundir as contagens do tamanho
real do banco de dados.
O DataCite é atualmente uma das principais fontes de dados disponíveis para o desenvolvimento de métricas de dados, e um
grande promotor de compartilhamento e reutilização de dados. Com efeito, apesar da sua recente criação, o DataCite é
provavelmente a maior base de dados, com um vasto e heterogéneo conjunto de registos de dados, aproximando-nos um
passo de um ideal de ciência aberta caracterizado pela sua transparência e pela sua capacidade de otimizar a utilização dos
recursos. Ao fornecer uma visão geral da estrutura e do conteúdo dos registros DataCite, este artigo serviu como um primeiro
passo para uma melhor compreensão
Trabalho aceito para publicação no Journal of Informetrics
Terceiro, uma quantidade considerável de processamento e limpeza de dados provavelmente será necessária, já que a
maioria dos campos não é padronizada. Além disso, o fato de alguns campos serem mesclados (por exemplo, data de
publicação e data) torna obrigatório o tratamento e a limpeza dos dados antes de analisá-los.
Machine Translated by Google
http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-
Kim, Y., & Adler, M. (2015). Comportamentos de compartilhamento de dados dos cientistas sociais: investigando
os papéis das motivações individuais, pressões institucionais e repositórios de dados. Jornal Internacional de
Gerenciamento de Informações, 35(4), 408–418.
foi parcialmente apoiado pelo projeto da Comissão Europeia RTD-B6-00964-2013 Acompanhamento da evolução e
benefícios da Investigação e Inovação Responsável (MoRRI). Nicolas Robinson-Garcia é atualmente apoiado por
uma bolsa Juan de la Cierva-Formación do Ministério da Economia e Competitividade da Espanha.
Greenberg, J., Pattuelli,MC, Parsia, B., & Robertson, WD (2002). Metadados do Dublin Core gerados pelo autor
para recursos da Web: um estudo de linha de base em uma organização. Jornal de Informação Digital, 2(2).
Disponível em https://journals.tdl.org/jodi/index.php/jodi/article/view/42
Costas, R., Meijer, I., Zahedi, Z., & Wouters, PF (2013). O valor das métricas de dados de pesquisa para
conjuntos de dados de um ponto de vista cultural e técnico. Um relatório de troca de conhecimento
[relatório de pesquisa externa]. Disponível em https://openaccess.leidenuniv.nl/handle/1887/23586
32.
Konkiel, S. (2013). Citações de rastreamento e altmetria para dados de pesquisa: desafios e
oportunidades. Boletim da Sociedade Americana de Ciência e Tecnologia da Informação, 39, 27–
Borgman, CL (2012). O enigma do compartilhamento de dados de pesquisa. Jornal da Sociedade Americana
de Ciência e Tecnologia da Informação, 63(6), 1059–1078.
Revista D-Lib, 7(1). https://doi.org/10.1045/january2001-lagoze
Comissão Europeia (2016). Programa H2020. Diretrizes sobre gerenciamento de dados FAIR no Horizonte
2020. Versão 2.1 Disponível em:
produção, publicação e reutilização de dados pela comunidade científica. Pesquisas futuras se concentrarão em
comparações com diferentes tipos de acesso aos registros do DataCite, no estudo das relações entre autores de
publicações científicas e criadores de conjuntos de dados, no desenvolvimento de classificações adequadas de
registros de dados e na presença de menções a DOIs nas referências de publicações científicas aos dados.
18
Grupo de Trabalho de Metadados DataCite. (2015). Esquema de metadados DataCite para publicação e citação de
dados de pesquisa. Versão 3.1 DataCite eV http://dx.doi.org/10.5438/0010
Doorn, P., Dillo, I., & van Horik, R. (2013). Mentiras, mentiras malditas e dados de pesquisa: o
compartilhamento de dados pode impedir a fraude de dados? Jornal Internacional de Curadoria Digital, 8(1), 229–243.
Trabalho aceito para publicação no Journal of Informetrics
Lagoze, C. (2001) Mantendo o Dublin Core simples. Descoberta entre domínios ou descrição de recursos?
Os resultados preliminares deste artigo foram relatados na Conferência das 3h realizada em Bucareste (Romênia),
de 27 a 29 de setembro de 2016. Os autores gostariam de agradecer a Henri de Winter da CWTS por ajudar na
recuperação dos dados e a Kristian Garza da DataCite para discussões frutíferas e úteis sobre pontos de acesso ao
DataCite e estrutura de registros. Os dois revisores anônimos também são agradecidos por seus comentários
construtivos e recomendações. Este estudo
hi-oa-data-mgt_en.pdf
Reconhecimentos
Referências
Machine Translated by Google
Mayernik, MS, Hart, DL, Maull, KE e Weber, NM (2016). Avaliar e rastrear os resultados e o impacto das
infraestruturas de pesquisa. Jornal da Associação de Ciência e Tecnologia da Informação. https://doi.org/
10.1002/asi.23721
Torres-Salinas, D., Martín-Martín, A., & Fuente-Gutiérrez, E. (2014). Análise da cobertura do Data Citation Index–
Thomson Reuters: disciplinas, tipologias documentais e repositórios.
Peng, RD (2011). Pesquisa reprodutível em ciência computacional. Ciência, 334(6060), 1226.
19
Parsons, MA, & Fox, PA (2013). Publicação de dados é a metáfora certa? Data Science Journal, 12,
WDS32-WDS46.
Torres-Salinas, D., Robinson-García, N., & Cabezas-Clavijo, Á. (2012). Compartilhe os dados de investigação
em ciência: introdução ao compartilhamento de dados. El Profesional de La Información, 21(2), 173–184.
Peters, I., Kraker, P., Lex, E., Gumpenberger, C., & Gorraiz, J. (2016). Dados de pesquisa explorados: uma
análise estendida de citações e altmetria. Scientometrics, 107(2), 723-744.
Perneger, TV (2011). Compartilhando dados brutos: outra das ideias de Francis Galton. British Medical
Journal, 342, d3035.
Robinson-García, N., Jiménez-Contreras, E., & Torres-Salinas, D. (2016). Analisar as práticas de citação de
dados usando o Data Citation Index. Jornal da Associação de Ciência e Tecnologia da Informação, 67(12),
2964-2975.
Mayernik, MS (2012). Bridging data lifecycles: Tracking data use via data citations workshop report. NCAR
Nota Técnica NCAR/TN-494+ PROC, Boulder, CO: Centro Nacional de Pesquisa Atmosférica
(NCAR), 2013, http://dx. doi. org/10.5065/D6PZ56TX.
Piwowar, HA, Becich, MJ, Bilofsky, H., & Crowley, RS (2008). Rumo a uma cultura de compartilhamento
de dados: recomendações para liderança de centros acadêmicos de saúde. PLoS Medicine, 5(9), e183.
Piwowar, HA, Day, RS, & Fridsma, DB (2007). O compartilhamento de dados de pesquisa
detalhados está associado ao aumento da taxa de citações. PLoS UM, 2(3), e308.
Trabalho aceito para publicação no Journal of Informetrics
Missier, P. (2016). Trajetórias de dados: rastreando a reutilização de dados publicados para atribuição
transitiva de crédito. Jornal Internacional de Curadoria Digital, 11(1), 1-16.
Revista Española de Documentación Científica, 37(1), e036.
Machine Translated by Google
Descrição do campo
ResourceType Este campo inclui tanto a classificação do tipo de dados de primeiro nível quanto
Título Nome do conjunto de dados ou arquivo armazenado no repositório.
Data Center Instituição encarregada de alimentar o DataCite com registros. Os data centers têm um
identificador exclusivo, cada um construído em duas partes. Em primeiro lugar, a instituição
intermediária e, em segundo lugar, a instituição de envio. Por exemplo, BL.IMPERIAL é o
identificador do Imperial College London. BL significa British Library, a instituição
intermediária e IMPERIAL para a instituição de envio.
Criador Autor do registro de dados. Este campo não é apresentado em um formato padronizado (ou
seja, Sobrenome, Iniciais).
Descrição Este campo inclui em seu conteúdo as cinco subseções distintas descritas pelo DataCite. No
entanto, nem todos os registros incluem todas as subseções.
entidades furiosas de repositórios, revistas, instituições, etc.
Formato Campo não padronizado que inclui uma descrição formal do conteúdo do registro. Aqui
encontramos informações que vão desde uma descrição catalográfica do conteúdo (ou
seja, Zwei Teile em 1 banda; 17 cm) até o formato real do arquivo enviado (ou seja,
arquivo SPSS).
Relação Este campo relaciona cada registro de dados com números DOI adicionais. A forma como tal
relação é estabelecida não está formalmente declarada nos autos. Apesar do DataCite
oferecer uma lista controlada de valores indicando o tipo de relação estabelecida entre os
registros, não encontramos essa informação nos dados recuperados. Mais sobre isso na
subseção 3.4
Editor Formato não padronizado que inclui uma grande variedade de diferentes
Direitos Formato não padronizado, incluindo o titular dos direitos autorais, se houver, ou a licença
pela qual o registro de dados está protegido. As informações são relatadas aqui não
apenas em inglês, mas também em outros idiomas.
Contribuidor Indivíduos e instituições que colaboram na criação dos dados, mas não são considerados
criadores. Assimcomo o campo 'Criador', este campo não é apresentado em um formato
padronizado.
20
Data Este campo inclui o campo obrigatório 'Ano de Publicação', bem como o campo 'Data', o que
significa que cada registo pode ter mais do que um ano de publicação. O formato é
padronizado, mas heterogêneo. Portanto, as informações do 'Ano da Publicação' aparecem
como um número de quatro dígitos, enquanto a Data aparece informando o tipo de data e
o ano real (ou seja, Disponível: 01/02/2005).
Trabalho aceito para publicação no Journal of Informetrics
Palavras-chave de assunto atribuídas a cada registro de dados. Embora observemos que para alguns
repositórios é empregado um sistema de classificação fixo, isso não é sistematizado para
todos os registros de dados.
Idioma Campo não padronizado que indica o idioma do registro. O idioma é indicado usando um formato
de dois dígitos, um formato de três dígitos ou o nome completo. Em alguns casos, mais
de um idioma é relatado (ou seja, fr-en)
Identificador Identificador de número único. O DataCite atribui DOIs a todos os registros de dados,
embora muitos incluam identificadores adicionais, como CCDC (Cambridge Crystallographic
Data Center) ou InChI (International Chemical Identifier).
a classificação de tipo de dados de segundo nível.
Apêndice A. Campos recuperados e descrição de seu conteúdo
Machine Translated by Google
Bildarchiv, Universidade de Pittsburgh
Conferência Congresso Europeu de Radiologia
149.305
Oceans (PISCO), Leibniz Institut für Astrophysik Potsdam
Repositório Nacional Repositório Digital da Irlanda, Colchester, Essex: Dados do Reino Unido
8.025
Tipo de editor Exemplos
Repositório temático Data-Planet™ Statistical Ready Reference da Conquest Systems, Inc.;
Centro de Dados Cristalográficos de Cambridge
Arquivo
Figshare, ZENODO
Individual W. Jegher & A. Ostertag, JF Boscovits Corpo
educacional nanoHUB
2.205.204
repositório
multidisciplinar
20.704
852.954
408.355
Organismo profissional Bund Schweizer Architekten, Freidenker-Vereinigung der
Schweiz, Union syndicale Suisse
Trabalho aceito para publicação no Journal of Informetrics
Zofinger Tagblatt, PeerJ
Órgão de pesquisa Parceria para Estudos Interdisciplinares de
18.571
Os editores foram classificados em onze categorias mutuamente exclusivas para analisar diferentes infraestruturas
de dados nacionais. A seguir, incluímos os doze tipos de editores identificados junto com exemplos para cada um
deles.
(AIP)
40.634
2.326
# registros
764.962
Empresa Huber & Co. AG, Verlegergemeinschaft Werk, Bauen + Wohnen
Bauen + Wohnen GmbH
21
Repositório institucional Imperial College London, ETH-Bibliothek Zürich,
Editora científica German Medical Science GMS Publishing House,
19.215
Apêndice B. Classificação dos tipos de editores
Machine Translated by Google

DataCite as a novel bibliometric source- Coverage, strengths and limitations

Escola Colegio Estadual Barao Do Rio Branco

Ferramentas de estudo

Conteúdos escolhidos para você

2022-01-06-13-28-46-64087875-nocoes-de-mineracao-de-dados

Business intelligence na prática_ modelagem multidimensional e data warehouse - UNIASSELVI

Planejamento-e-Elaboracao-de-Bases-de-Dados-LIVRO (1)

livrociencia de dados

Big Data e o apoio à decisão

Perguntas dessa disciplina

Em organizações que lidam com grande volume de informações, a estruturação e o acesso eficiente aos dados são fatores importantes para a tomada de dec

Em bancos de dados relacionais, o uso adequado de índices pode melhorar significativamente a performance das consultas. A decisão sobre o tipo de í...

DESAFIO PROFISSIONAL DE BANCO DE DADOS Esta é a descrição do seu Desafio Profissional. Para que você possa desenvolver sua atividade e chegar à con...

ETAPA 1 - Apresentação do Desafio Profissional. Você foi contratado recentemente como Analista de Banco de Dados pela "MedLife Clínicas", uma rede ...

Durante a implantação de um sistema de informações em uma secretaria de educação, identificou-se que diferentes unidades escolares mantinham bases pró

Conteúdos escolhidos para você

2022-01-06-13-28-46-64087875-nocoes-de-mineracao-de-dados

Business intelligence na prática_ modelagem multidimensional e data warehouse - UNIASSELVI

Planejamento-e-Elaboracao-de-Bases-de-Dados-LIVRO (1)

livrociencia de dados

Big Data e o apoio à decisão

Perguntas dessa disciplina

Em organizações que lidam com grande volume de informações, a estruturação e o acesso eficiente aos dados são fatores importantes para a tomada de dec

Em bancos de dados relacionais, o uso adequado de índices pode melhorar significativamente a performance das consultas. A decisão sobre o tipo de í...

DESAFIO PROFISSIONAL DE BANCO DE DADOS Esta é a descrição do seu Desafio Profissional. Para que você possa desenvolver sua atividade e chegar à con...

ETAPA 1 - Apresentação do Desafio Profissional. Você foi contratado recentemente como Analista de Banco de Dados pela "MedLife Clínicas", uma rede ...

Durante a implantação de um sistema de informações em uma secretaria de educação, identificou-se que diferentes unidades escolares mantinham bases pró

Mais conteúdos dessa disciplina