Por
Thiago Ávila*
Dando
continuidade à nossa série de artigos sobre Dados Abertos
(conectados), vamos apresentar a terceira melhor prática para a
publicação de Dados Abertos Conectados, aplicando-os no contexto
Governamental. Estes artigos têm como fundamentação a dissertação
de mestrado, “Uma
Proposta de Modelo de Processo para Publicação de Dados Abertos
Conectados Governamentais”[1],
onde desenvolvi uma revisão de literatura que identificou 70
recomendações para a publicação de Dados Abertos Conectados
Governamentais, distribuído entre as 10 melhores práticas
estabelecidas pelo W3C[12], que estão sendo exploradas em
continuidade a esta série de artigos aqui no blog, cuja metodologia
apresentei no artigo anterior.
Para
identificar recomendações voltadas a implementar a terceira melhor
prática, “3. Modelar os dados”, foi
estabelecida a seguinte questão de pesquisa: “O que os
processos de publicação de dados abertos (conectados) recomendam a
ser feito para contemplar a melhor prática de Modelar os Dados?".
Neste artigo apresentaremos três recomendações para modelagem
de dados e no próximo artigo, apresentaremos outras quatro
recomendações.
Para
esta melhor prática, o W3C (2014) [19] destaca a necessidade do
envolvimento dos responsáveis técnicos pelos dados, incluindo os
gestores das bases de dados e os responsáveis por padrões e
políticas de gestão da informação. Administradores de Bancos de
Dados (DBAs) da organização devem ser envolvidos se os dados a
serem publicados tiverem origem em bancos de dados relacionais
utilizados por sistemas de informação.
Esta
etapa também requer um estudo da documentação dos dados, podendo
ser necessárias algumas reuniões de esclarecimento. Após o
entendimento sobre os dados que serão publicados, devem ser
explanados os conceitos de Dados Abertos e Dados Abertos Conectados e
posteriormente, serem analisados os relacionamentos entre os
conjuntos de dados. O W3C recomenda que seja evidenciado o maior
número de outros conjuntos de dados que se relacionam com o conjunto
de dados que será o objeto de publicação.
Os
processos do Brasil [4], Chile [5] e Equador [9] descreveram
atividades aplicáveis a dados abertos que podem ser utilizadas
também para dados abertos conectados. Os demais processos analisados
(Consoli, 2014; Mendonça, 2013; Ding, 2011; Bauer, 2012; Hyland e
Wood, 2011; Villazon-Terrazas, 2011) [2, 9, 13, 15, 17] são voltados
à publicação de Dados Conectados. Todos os processos analisados,
em sua maioria, contemplam também as atividades de modelagem de
dados não-conectados e agregam novas atividades.
A
seguir serão apresentadas as recomendações identificadas nos
processos que poderão auxiliar a incorporação desta boa prática
em atividades de publicação de dados.
3.1.
Gerar cópias de segurança das bases de dados que serão abertas
Considerando
que a abertura de dados demanda integridade e confiabilidade das
fontes originais, esta recomendação sugere que, inicialmente, sejam
geradas cópias de segurança em todas as bases de dados que serão
objeto das atividades de abertura e conexão de dados conforme
sugerido pelos processos estabelecidos por Hyland (2011) [13],
Galiotou (2013) [11] e Ding (2011) [9]. Complementarmente, esta
recomendação deve ser adotada com maior prioridade quando se fizer
necessária à adoção de técnicas de higienização em bases de
dados.
3.2.
Higienizar os dados
A
melhoria da qualidade dos dados pode ser obtida mediante técnicas de
higienização (limpeza dos dados), sendo possível à identificação
de possíveis erros e inconsistências das bases de dados que serão
posteriormente corrigidos conforme sugerido nos processos do
Brasil[4] e em “Methodological Guidelines for Publishing Linked
Data [17]. Tal entendimento é corroborado nos processos
estabelecidos por Ding (2011) [9] e (Mendonca, 2013) [15].
No
caso de dados e informações oriundas de muitas fontes de dados
distintas, distribuídas e representadas em vários formatos
diferentes (por exemplo, bases de dados, XML, CSV, dados
geoespaciais, etc.) estas exigem um esforço adicional para assegurar
modelagem fácil e eficiente. Isso inclui livrar seus dados e
informações de qualquer informação adicional que não será
incluída nos conjuntos de dados publicados conforme o processo
estabelecido por (Bauer, 2012) [2].
3.3.
Estabelecer rotinas de conversão de dados para formatos legíveis
por máquina
Considerando
que os dados publicados costumam ser utilizados por diversos públicos
distintos e que fazem uso de tecnologias e formatos distintos, e
ainda, que o volume de dados a serem publicados e mantidos costuma
aumentar, outra recomendação relevante consiste no estabelecimento
de rotinas de conversão de dados para vários formatos legíveis por
máquina. Os processos do Brasil, Chile, Colômbia e Equador buscam
detalhar esta etapa (Colombia:2012,
Ecuador:2014) [5, 6].
Recomendam
que, posteriormente à modelagem, os dados sejam convertidos para
formatos legíveis por máquina, como o XML, CSV, TXT, JSON, KML ou
RDF. Devem ser eliminados conteúdos que não sejam relevantes ao
usuário, como títulos, subtítulos e informações extra dos
arquivos. O processo colombiano enfatiza que as rotinas de conversão
dos dados também contemplem a geração de metadados que detalhem a
estruturação dos arquivos de dados.
Daremos
continuidade na apresentação das outras quatro recomendações para
a modelagem de Dados Abertos Conectados nos próximo artigo desta
série.
Até
a próxima!!!
*
Este artigo foi desenvolvido a partir da pesquisa de Mestrado “Uma
Proposta de Modelo de Processo para Publicação de Dados Abertos
Conectados Governamentais”, de autoria de Thiago José Tavares
Ávila, no âmbito do Programa de Pós-Graduação em Modelagem
Computacional do Conhecimento, do Instituto de Computação da
Universidade Federal de Alagoas (UFAL).
Referências:
[1]
ÁVILA, T. J. T. Uma proposta de modelo de processo para
publicação de dados abertos conectados governamentais. 223 p.
Dissertação (Mestrado) — Instituto de Computação, Universidade
Federal de Alagoas, Maceió, Alagoas, Brasil, 2015. Dissertação de
Mestrado em Modelagem Computacional do Conhecimento.
[2] BAUER,
F.; KALTENBÖCK, M. Linked Open Data: The Essentials - A Quick
Start
Guide
for Decision Makers. Semantic Web Company, 2012. 59 p. ISBN
9783902796059. Disponível em:
<http://www.semantic-web.at/LOD-TheEssentials.pdf>.
[3]
BERNERS-LEE, T. Linked Data. 2006. Disponível em:
<http://www.w3.org/
DesignIssues/LinkedData.html>.
[4]
BRASIL. Manual para Elaboração de Plano de Dados Abertos. [S.l.],
2014. v. 7, 38 p. Disponível em:
<http://www.planejamento.gov.br/secretarias/upload/Arquivos/governoáberto/manual_elaboracao_plano_dados_abertos.pdf>.
[5]
CHILE. Norma Técnica para Publicación de Datos Abiertos en
Chile.
[S.l.],
2013. 1-28 p. Disponível em: <
http://instituciones.gobiernoabierto.cl/NormaTecnicaPublicacionDatosChile_v2-1.pdf>.
[6]
COLOMBIA. Guía para la
apertura de datos en Colombia.
[S.l.], 2012. 67 p. Disponível em: <
http://programa.gobiernoenlinea.gov.co/apc-aa-files/da4567033d075590cd3050598756222c/Datos_Abiertos_Guia_v2_0.pdf
>.
[7]
COMSODE. Methodology for publishing datasets as open data -
COMSODE. [S.l.], 2014.1-31 p. Disponível em:
<http://www.comsode.eu/index.php/deliverables/>.
[8]
CONSOLI, S. et al. Geolinked Open Data for the Municipality of
Catania. Proceedings of the 4th International Conference on Web
Intelligence, Mining and Semantics (WIMS14), p. 58, 2014.
[9] DING,
L. et al. TWC LOGD: A Portal for Linked Open Government Data
Ecosystems. Journal of Web Semantics, Elsevier B.V., v. 9, n. 3, p.
325-333, 2011. ISSN 15708268.
[10]
ECUADOR. Guia de Política Pública de Datos Abiertos. [S.l.], 2014.
21 p. Disponível em:
<http://www.gobiernoelectronico.gob.ec/wp-content/uploads/2014/12/GPP-DA-v01-20141128-SNAP-SGE.pdf>.
[11]
GALIOTOU, E.; FRAGKOU, P. Applying Linked Data Technologies to
Greek Open Government Data: A Case Study. Procedia - Social and
Behavioral Sciences, v. 73, p. 479-486, 2013. ISSN 18770428.
Disponível em: <http://linkinghub.elsevier.com/
retrieve/pii/S187704281300373X>.
[12]
GÓMEZ-PÉREZ, A.; SUÁREZ-FIGUEROA, M. C. NeOn Methodology for
Building Ontology Networks: a Scenario-based Methodology. In:
Proceedings of International Conference on Software, Services &
Semantic Technologies. Sofia, Bulgaria: [s.n.], 2009. ISBN
978-954-9526-62-2.
[13]
HYLAND, B.; WOOD, D. The Joy of Data - A Cookbook for Publishing
Linked Government Data on the Web. In: . Linking Government Data.
[S.l.: s.n.], 2011. p. 3-25.
[14]
JANSSEN, M.; CHARALABIDIS, Y.; ZUIDERWIJK, A. Benefits, adoption
barriers and myths of open data and open government. Information
Systems Management, Taylor & Francis, v. 29, n. 4, p.
258-268, 2012.
[15]
MENDONÇA, R. R. d. et al. LOP - Capturing and Linking Open
Provenance on
LOD
Cycle. In: Proceedings of the Fifth Workshop on Semantic Web
Information
Management
- SWIM '13. ACM Press, 2013. p. 1-8. Disponível em:
<http://dl.acm.org/citation.cfm?id=2484712.2484715>.
[16]
OKF. Guia de Dados Abertos. 2015. Disponível em:
<http://opendatahandbook.org/guide/pt_BR>.
[17]
VILLAZÓN-TERRAZAS, B. et al. Methodological guidelines for
publishing government linked data. Linking Government Data, p. 27-49,
2011.
[18]
VILLAZÓN-TERRAZAS, B.; SUÁREZ-FIGUEROA, M. C.; GÓMEZ-PÉREZ, A. A
Pattern-Based Method for Re-Engineering Non-Ontological Resources
into Ontologies. International Journal on Semantic Web and
Information Systems (IJSWIS), v. 6, n. 4, p. 27-63, 2010.
[19]
W3C. Best Practices for Publishing Linked Data. 2014. Acessado
em 02/05/2017. Disponível em: <http://www.w3.org/TR/ld-bp/>.
[20]
URUGUAY. Guía rápida de publicación em datos.gub.uy. Montevideo,
2012.
17
p. Disponível em: <
https://www.agesic.gub.uy/innovaportal/file/2478/1/guia_publicacion_datos_abiertos.pdf>.
Comentários
Postar um comentário