Portal de Eventos, Conferencia Internacional BIREDIAL-ISTEC 2015

Tamaño de la fuente: 
A consistência dos dados e o controle de qualidade dos registros no Repositório Institucional UNESP
Juliano Benedito Ferreira, Ana Paula Grisoto, Felipe Augusto Arakaki, Flavia Maria Bastos, Silvana Aparecida Borsetti Gregorio Vidotti

Última modificación: 17/11/2015

Resumen


Resumo


Com o movimento de acesso aberto e da necessidade de disponibilização da produção científica em Repositórios Institucionais, a UNESP implementou seu Repositório em setembro de 2013. Para sua população foram coletados registros das bases de dados Scopus, Web of Science, SciELO (ASSUMPÇÃO et al., 2014) e dos currículos Lattes dos docentes da Universidade. A coleta automática de registros em bases de dados e a partir do currículo Lattes, gera problemas como a duplicação de registros e de inconsistência e qualidade dos dados, sendo necessário realizar o controle de qualidade dos registros. O objetivo desse trabalho é apresentar como o Repositório Institucional UNESP vem trabalhando para minimizar a inconsistência dos dados nos registros coletados em diferentes bases de dados. É uma pesquisa aplicada, com uma abordagem qualitativa que busca explorar alternativas para o controle e normalização dos registros coletados automaticamente. Desse modo, a coleta dos registros teve início com a Web of Science, os dados foram coletados em eXtensible Markup Language (XML) por meio do web service da Web of Science e da Scopus, a partir da aquisição dos registros em XML. Para a realização de outras coletas como da SciELO e do currículo Lattes, foi desenvolvido pela equipe do Repositório programas e folhas de estilo XSLT (eXtensible Stylesheet Language for Transformation) para auxiliar a atividade de coleta e conversão dos registros. Há ainda, a população com as dissertações, teses e teses de livre-docência defendidas na Universidade, que são importadas para o Repositório, a partir de uma coleta realizada no Aleph, (software utilizado pela Rede de Bibliotecas da Unesp), e convertidas para o padrão DSpace, além de outros recursos inseridos manualmente como os E-books. As bases de dados possuem padronizações diferentes para o tratamento de seus dados, desse modo há grande dificuldade para que a qualidade dos registros coletados sejam satisfatórios para importação no Repositório. Muitos registros podem ser duplicados, por serem indexados em mais de uma base de dados e por já terem sido importados por coletas anteriores. Outro problema verificado, é a inconsistência dos registros de autoridade de pessoas. Para minimizar esses problemas foram adotados alguns procedimentos, entre eles estão a verificação automática dos registros duplicados, por meio de uma ferramenta que verifica título, ano e DOI. E para a padronização dos nomes dos autores, foram criados XMLs com as variações dos nomes para normalização, além da verificação  manual realizada, onde é verificado todos os metadados do registro. O controle de qualidade está em desenvolvimento e considera-se que os resultados obtidos vem sendo satisfatórios, entretanto, esses procedimentos requerem muito tempo. Para auxiliar nesses processos a Unesp investiu em duas novas ferramentas, o Metadata Quality module (em fase de implementação), que identifica registros duplicados e possibilita a realização da edição em lotes. E a ferramenta ORCID (Open Researcher and Contributor ID) (em fase de estudos), que facilitará a identificação dos docentes vinculados à Universidade. Por tanto, considera-se como prioridade a qualidade dos dados no Repositório, para garantir a consistência e consequentemente, a visibilidade da produção científica da instituição.


Palavras-chave: Repositório Institucional UNESP; Coleta automática de dados; Consistência de dados;


Data consistency and quality control of the records in the Institutional Repository UNESP


Abstract


With the open access movement and the need for provision of scientific literature in Institutional Repositories, UNESP implemented its Repository in September 2013. For its population were collected records of Scopus databases, Web of Science, SciELO (ASSUMPÇÃO et al., 2014) and Lattes curricula of the University faculty. The automatic collection of records in databases and from the Lattes curriculum, generates problems such as duplicate records and inconsistency and data quality, being necessary to perform the quality control records. The aim of this paper is to present how Institutional Repository UNESP has been working to minimize the inconsistency of the data in the records collected in different databases. It is an applied research with a qualitative approach that seeks to explore alternatives for the control and standardization of records collected automatically. Thus, harvesting metadata started with the Web of Science, the data were collected in eXtensible Markup Language (XML) through the web service Web of Science and Scopus, from procurement of XML records. To carry out other harvesting as SciELO and Lattes curriculum was developed by Repository staff programs and XSLT style sheets (eXtensible Stylesheet Language for Transformation) to assist the activity of harvesting and conversion of descriptive records. There is also the population with dissertations, theses and Habilitation thesis defended in University, which are imported in the Repository, from  harvesting  held at Aleph (software used by Unesp Libraries Network), and converted to standard DSpace, and other manually entered features such as e-books. The databases have different standardizations for the treatment of their data, thus it is very difficult for the quality of the collected records are satisfactory to import the repository. Many records can be duplicated by being indexed in more than one database and have already been imported by previous samplings. Another problem encountered is the inconsistency of autors authority records. To minimize these problems were adopted some procedures, which include automatic checking for duplicate records, using a tool that checks title, year and DOI. And for the standardization of the names of the authors were created XMLs with variations of the names for standardization, in addition to the manual scan performed, which is checked every record metadata. Quality control is in progress and it is considered that the results obtained has been satisfactory, however, these procedures require much time. To assist in these processes Unesp invested in two new tools, the Metadata Quality module (under implementation), which identifies duplicate records and enables the performance of batch editing. And the tool ORCID (Open Researcher and Contributor ID) (under study), which will facilitate the identification of teachers connected to the University. Therefore, it is considered as a priority the quality of data in the repository, to ensure consistency and consequently the visibility of the scientific production of the institution.




Keywords: Institutional Repository UNESP; Automatic data harvesting; Data consistency;


Para poder ver los trabajos, es necesario registrarse en la conferencia