Pular para o conteúdo principal

Modelagem de dados para a publicação de Dados Abertos (Conectados) - parte 01


Por Thiago Ávila*

Dando continuidade à nossa série de artigos sobre Dados Abertos (conectados), vamos apresentar a terceira melhor prática para a publicação de Dados Abertos Conectados, aplicando-os no contexto Governamental. Estes artigos têm como fundamentação a dissertação de mestrado, Uma Proposta de Modelo de Processo para Publicação de Dados Abertos Conectados Governamentais”[1], onde desenvolvi uma revisão de literatura que identificou 70 recomendações para a publicação de Dados Abertos Conectados Governamentais, distribuído entre as 10 melhores práticas estabelecidas pelo W3C[12], que estão sendo exploradas em continuidade a esta série de artigos aqui no blog, cuja metodologia apresentei no artigo anterior.

Para identificar recomendações voltadas a implementar a terceira melhor prática, “3. Modelar os dados”, foi estabelecida a seguinte questão de pesquisa: “O que os processos de publicação de dados abertos (conectados) recomendam a ser feito para contemplar a melhor prática de Modelar os Dados?". Neste artigo apresentaremos três recomendações para modelagem de dados e no próximo artigo, apresentaremos outras quatro recomendações.

Para esta melhor prática, o W3C (2014) [19] destaca a necessidade do envolvimento dos responsáveis técnicos pelos dados, incluindo os gestores das bases de dados e os responsáveis por padrões e políticas de gestão da informação. Administradores de Bancos de Dados (DBAs) da organização devem ser envolvidos se os dados a serem publicados tiverem origem em bancos de dados relacionais utilizados por sistemas de informação.

Esta etapa também requer um estudo da documentação dos dados, podendo ser necessárias algumas reuniões de esclarecimento. Após o entendimento sobre os dados que serão publicados, devem ser explanados os conceitos de Dados Abertos e Dados Abertos Conectados e posteriormente, serem analisados os relacionamentos entre os conjuntos de dados. O W3C recomenda que seja evidenciado o maior número de outros conjuntos de dados que se relacionam com o conjunto de dados que será o objeto de publicação.

Os processos do Brasil [4], Chile [5] e Equador [9] descreveram atividades aplicáveis a dados abertos que podem ser utilizadas também para dados abertos conectados. Os demais processos analisados (Consoli, 2014; Mendonça, 2013; Ding, 2011; Bauer, 2012; Hyland e Wood, 2011; Villazon-Terrazas, 2011) [2, 9, 13, 15, 17] são voltados à publicação de Dados Conectados. Todos os processos analisados, em sua maioria, contemplam também as atividades de modelagem de dados não-conectados e agregam novas atividades.

A seguir serão apresentadas as recomendações identificadas nos processos que poderão auxiliar a incorporação desta boa prática em atividades de publicação de dados.

3.1. Gerar cópias de segurança das bases de dados que serão abertas

Considerando que a abertura de dados demanda integridade e confiabilidade das fontes originais, esta recomendação sugere que, inicialmente, sejam geradas cópias de segurança em todas as bases de dados que serão objeto das atividades de abertura e conexão de dados conforme sugerido pelos processos estabelecidos por Hyland (2011) [13], Galiotou (2013) [11] e Ding (2011) [9]. Complementarmente, esta recomendação deve ser adotada com maior prioridade quando se fizer necessária à adoção de técnicas de higienização em bases de dados.






3.2. Higienizar os dados

A melhoria da qualidade dos dados pode ser obtida mediante técnicas de higienização (limpeza dos dados), sendo possível à identificação de possíveis erros e inconsistências das bases de dados que serão posteriormente corrigidos conforme sugerido nos processos do Brasil[4] e em “Methodological Guidelines for Publishing Linked Data [17]. Tal entendimento é corroborado nos processos estabelecidos por Ding (2011) [9] e (Mendonca, 2013) [15].

No caso de dados e informações oriundas de muitas fontes de dados distintas, distribuídas e representadas em vários formatos diferentes (por exemplo, bases de dados, XML, CSV, dados geoespaciais, etc.) estas exigem um esforço adicional para assegurar modelagem fácil e eficiente. Isso inclui livrar seus dados e informações de qualquer informação adicional que não será incluída nos conjuntos de dados publicados conforme o processo estabelecido por (Bauer, 2012) [2].

3.3. Estabelecer rotinas de conversão de dados para formatos legíveis por máquina

Considerando que os dados publicados costumam ser utilizados por diversos públicos distintos e que fazem uso de tecnologias e formatos distintos, e ainda, que o volume de dados a serem publicados e mantidos costuma aumentar, outra recomendação relevante consiste no estabelecimento de rotinas de conversão de dados para vários formatos legíveis por máquina. Os processos do Brasil, Chile, Colômbia e Equador buscam detalhar esta etapa (Colombia:2012, Ecuador:2014) [5, 6].

Recomendam que, posteriormente à modelagem, os dados sejam convertidos para formatos legíveis por máquina, como o XML, CSV, TXT, JSON, KML ou RDF. Devem ser eliminados conteúdos que não sejam relevantes ao usuário, como títulos, subtítulos e informações extra dos arquivos. O processo colombiano enfatiza que as rotinas de conversão dos dados também contemplem a geração de metadados que detalhem a estruturação dos arquivos de dados.

Daremos continuidade na apresentação das outras quatro recomendações para a modelagem de Dados Abertos Conectados nos próximo artigo desta série.

Até a próxima!!!



* Este artigo foi desenvolvido a partir da pesquisa de Mestrado “Uma Proposta de Modelo de Processo para Publicação de Dados Abertos Conectados Governamentais”, de autoria de Thiago José Tavares Ávila, no âmbito do Programa de Pós-Graduação em Modelagem Computacional do Conhecimento, do Instituto de Computação da Universidade Federal de Alagoas (UFAL).


Referências:

[1] ÁVILA, T. J. T. Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais. 223 p. Dissertação (Mestrado) — Instituto de Computação, Universidade Federal de Alagoas, Maceió, Alagoas, Brasil, 2015. Dissertação de Mestrado em Modelagem Computacional do Conhecimento.
[2] BAUER, F.; KALTENBÖCK, M. Linked Open Data: The Essentials - A Quick Start
Guide for Decision Makers. Semantic Web Company, 2012. 59 p. ISBN 9783902796059. Disponível em: <http://www.semantic-web.at/LOD-TheEssentials.pdf>.
[3] BERNERS-LEE, T. Linked Data. 2006. Disponível em: <http://www.w3.org/
DesignIssues/LinkedData.html>.
[4] BRASIL. Manual para Elaboração de Plano de Dados Abertos. [S.l.], 2014. v. 7, 38 p. Disponível em: <http://www.planejamento.gov.br/secretarias/upload/Arquivos/governoáberto/manual_elaboracao_plano_dados_abertos.pdf>.
[5] CHILE. Norma Técnica para Publicación de Datos Abiertos en Chile.
[S.l.], 2013. 1-28 p. Disponível em: < http://instituciones.gobiernoabierto.cl/NormaTecnicaPublicacionDatosChile_v2-1.pdf>.
[6] COLOMBIA. Guía para la apertura de datos en Colombia. [S.l.], 2012. 67 p. Disponível em: < http://programa.gobiernoenlinea.gov.co/apc-aa-files/da4567033d075590cd3050598756222c/Datos_Abiertos_Guia_v2_0.pdf >.
[7] COMSODE. Methodology for publishing datasets as open data - COMSODE. [S.l.], 2014.1-31 p. Disponível em: <http://www.comsode.eu/index.php/deliverables/>.
[8] CONSOLI, S. et al. Geolinked Open Data for the Municipality of Catania. Proceedings of the 4th International Conference on Web Intelligence, Mining and Semantics (WIMS14), p. 58, 2014.
[9] DING, L. et al. TWC LOGD: A Portal for Linked Open Government Data Ecosystems. Journal of Web Semantics, Elsevier B.V., v. 9, n. 3, p. 325-333, 2011. ISSN 15708268.
[10] ECUADOR. Guia de Política Pública de Datos Abiertos. [S.l.], 2014. 21 p. Disponível em: <http://www.gobiernoelectronico.gob.ec/wp-content/uploads/2014/12/GPP-DA-v01-20141128-SNAP-SGE.pdf>.
[11] GALIOTOU, E.; FRAGKOU, P. Applying Linked Data Technologies to Greek Open Government Data: A Case Study. Procedia - Social and Behavioral Sciences, v. 73, p. 479-486, 2013. ISSN 18770428. Disponível em: <http://linkinghub.elsevier.com/
retrieve/pii/S187704281300373X>.
[12] GÓMEZ-PÉREZ, A.; SUÁREZ-FIGUEROA, M. C. NeOn Methodology for Building Ontology Networks: a Scenario-based Methodology. In: Proceedings of International Conference on Software, Services & Semantic Technologies. Sofia, Bulgaria: [s.n.], 2009. ISBN 978-954-9526-62-2.
[13] HYLAND, B.; WOOD, D. The Joy of Data - A Cookbook for Publishing Linked Government Data on the Web. In: . Linking Government Data. [S.l.: s.n.], 2011. p. 3-25.
[14] JANSSEN, M.; CHARALABIDIS, Y.; ZUIDERWIJK, A. Benefits, adoption barriers and myths of open data and open government. Information Systems Management, Taylor & Francis, v. 29, n. 4, p. 258-268, 2012.
[15] MENDONÇA, R. R. d. et al. LOP - Capturing and Linking Open Provenance on
LOD Cycle. In: Proceedings of the Fifth Workshop on Semantic Web Information
Management - SWIM '13. ACM Press, 2013. p. 1-8. Disponível em: <http://dl.acm.org/citation.cfm?id=2484712.2484715>.
[16] OKF. Guia de Dados Abertos. 2015. Disponível em: <http://opendatahandbook.org/guide/pt_BR>.
[17] VILLAZÓN-TERRAZAS, B. et al. Methodological guidelines for publishing government linked data. Linking Government Data, p. 27-49, 2011.
[18] VILLAZÓN-TERRAZAS, B.; SUÁREZ-FIGUEROA, M. C.; GÓMEZ-PÉREZ, A. A Pattern-Based Method for Re-Engineering Non-Ontological Resources into Ontologies. International Journal on Semantic Web and Information Systems (IJSWIS), v. 6, n. 4, p. 27-63, 2010.
[19] W3C. Best Practices for Publishing Linked Data. 2014. Acessado em 02/05/2017. Disponível em: <http://www.w3.org/TR/ld-bp/>.
[20] URUGUAY. Guía rápida de publicación em datos.gub.uy. Montevideo, 2012.



[1] Disponível em http://schemaweb.info
[2] Disponível em http://schemacache.com
[3] Disponível em http://swoogle.umbc.edu
[4] Linked Open Vocabularies - disponível em http://labs.mondeca.com/dataset/lov/index.html
[5] Disponível em http://protege.stanford.edu
[6] Disponível em http://www.neon-toolkit.org
[7] Disponível em http://www.topquadrant.com/products/TBComposer.html
[8] Disponível em http://www.altova.com/semanticworks.html.





Voltar

Comentários