Pular para o conteúdo principal

Seleção de dados para a publicação de Dados Abertos (Conectados) – parte 1

Por Thiago Ávila*

Dando continuidade à nossa série de artigos sobre Dados Abertos (conectados), vamos apresentar a segunda melhor prática para a publicação de Dados Abertos Conectados, aplicando-os no contexto Governamental. Estes artigos têm como fundamentação a dissertação de mestrado, “Uma Proposta de Modelo de Processo para Publicação de Dados Abertos Conectados Governamentais”[1], onde desenvolvi uma revisão de literatura que identificou 70 recomendações para a publicação de Dados Abertos Conectados Governamentais, distribuído entre as 10 melhores práticas estabelecidas pelo W3C[12], que estão sendo exploradas em continuidade a esta série de artigos aqui no blog, cuja metodologia apresentei no artigo anterior.

Para identificar recomendações voltadas a implementar a segunda melhor prática, “2. Seleção de Conjuntos de Dados”, foi estabelecida a seguinte questão de pesquisa: “O que os processos de publicação de dados abertos (conectados) recomendam a ser feito para contemplar a melhor prática de Selecionar Conjuntos de Dados?"


Na sequência serão apresentadas as recomendações identificadas nos processos que poderão auxiliar a incorporação desta melhor prática em atividades de publicação de dados.

A segunda melhor prática (BPLD) estabelecida consiste na seleção dos conjuntos de dados que serão publicados. Segundo o W3C (2014) [12], devem ser selecionados apenas os dados que são catalogados ou criados pela instituição que está implementando o processo de abertura. Preferencialmente, devem ser priorizados dados que, ao serem combinados com outros dados, produzam grande valor. 

Esta mensuração de valor deve ser guiada pelo potencial de reuso do dado e sua popularidade. Dados de natureza geoespacial, saúde, legislação, população e demografia costumam ser dados bem demandados e sua publicação como dados conectados deve ser priorizada.

A seguir serão apresentadas as recomendações identificadas nos processos que poderão auxiliar a incorporação desta BPLD em atividades de publicação de dados. Devido a quantidade de recomendações (onze), este artigo será dividido em duas partes.

2.1. Analisar a estrutura organizacional da instituição publicadora

Para facilitar o entendimento da organização publicadora de dados, recomenda-se analisar a estrutura organizacional, visando identificar a sua complexidade, níveis hierárquicos, cultura organizacional, perfis profissionais, serviços que oferta ao público, principais clientes, dentre outros. O processo COMSODE [7] recomenda que seja analisado, além da estrutura organizacional, a legislação envolvida e as regras e normas adotadas e estabelecidas pela instituição, bem como os documentos que descrevem o planejamento e agendas estratégicas.

Sugere ainda a identificação prioritária das unidades organizacionais e respectivos líderes que estão envolvidos com a coleta, criação ou gestão de dados que poderão ser potenciais conjuntos de dados abertos. Importante registrar tais dados numa relação de dados possíveis para serem abertos e conectados.

2.2. Estabelecer diretrizes que orientem a priorização de dados a serem abertos 

Outra recomendação identificada visa o estabelecimento de diretrizes e questões-chave que orientem a priorização dos dados a serem abertos. O processo COMSODE contém um rico detalhamento sobre que tipos de dados devem ser priorizados durante um processo de abertura (COMSODE, 2014) [7]. O processo do Governo do Chile (CHILE, 2013) [5] estabelece que a priorização dos dados a serem publicados passe pela seleção do que é mais requisitado pelo cidadão.

Por outro lado, o processo do Uruguai (URUGUAY, 2012) [13] recomenda que sejam priorizados os dados que são de mais fácil transformação e acesso para serem publicados. Cumpre destacar que um processo de abertura de dados é interativo e por esta razão, o publicador pode retornar a esta etapa de escolha dos conjuntos de dados mesmo após ter desenvolvido outras etapas (OKF, 2015) [10].

Os processos do Chile e do Uruguai sugerem o estabelecimento de algumas perguntas-chave que ajudarão na identificação dos dados a serem priorizados na abertura, conforme relação a seguir CHILE (2013b), URUGUAY (2012) [5, 13]:
  • Que informação é entregue com maior frequência aos cidadãos através dos meios de solicitação de acesso ás informações públicas? 
  • Que informações consideradas pela instituição como de interesse público são entregues à imprensa com maior frequência? 
  • Que informações são entregues para outras instituições regularmente e que podem ser ofertadas amplamente ao público? 
  • Que informações da sua instituição atendem aos requisitos de dados abertos e podem ser publicadas? 
  • Que informações da sua instituição ainda não atendem aos requisitos de dados abertos, mas que podem ser facilmente convertidas para dados abertos? 
  • Que informações são solicitadas habitualmente e que exigem um processamento de dados para serem entregues?
Complementarmente ao estabelecimento de perguntas-chave sobre quais dados abrir, o processo “Guia de Dados Abertos”, da OKFN, sugere que o publicador faça uma lista curta de conjuntos de dados sobre os quais pode se haver retorno, onde esta lista também pode ser baseada noutros catálogos de dados existentes (OKF, 2015) [10]. Não é essencial que essa lista coincida com as suas expectativas. O principal objetivo aqui é mensurar a demanda. Ela pode ser baseada nos catálogos de dados abertos de outros países.

Este processo recomenda o estabelecimento de consultas públicas como elementos relevantes para se mensurar as demandas dos clientes das organizações publicadoras.

2.3. Realizar consultas aos usuários sobre a demanda de dados 

Os processos do Equador, COMSODE e “Guia de Dados Abertos” recomendam que seja estabelecida uma sistemática periódica de se consultar a comunidade sobre quais dados são demandados para abertura, mediante uma consulta pública, disponível numa página da Web. Os processos sugerem que a consulta seja feita da forma mais acessível, mediante uma página Web e URL simples e que possa ser compartilhada em listas de e-mail, fóruns e em mídias sociais (Ecuador,2014; OKF,2015; Uruguay,2012) [9, 10, 13]. O processo da OKFN sugere ainda que a consulta deve facilitar ao máximo o envio de respostas, desencorajando a obrigatoriedade de identificação dos respondentes. Complementarmente pode ser realizada uma audiência pública para discutir os resultados da consulta pública e ainda, captar novas sugestões de dados a serem abertos (OKF, 2015) [10].
Por fim, é desejável o apoio explícito de algum agente político que anuncie esta intenção de abertura, pois dará maior abrangência e relevância para esta atividade junto ao público, conforme os processos da OKFN e do Equador, pois esta prática contribui para o estabelecimento de uma cultura de uso e reuso de dados motivando os usuários a consumirem os dados ofertados com maior frequência, bem como demandar novos dados (Ecuador, 2014) [9].

Ademais, após analisar as demandas de informação oriundas dos usuários, sugere-se identificar quais conjuntos de dados da organização possuem alta relevância e múltiplos usuários e comparar com a demanda dos usuários, conforme sugerido pelo processo COMSODE (COMSODE,2014) [7].

2.4. Identificar os dados que serão abertos

Outra recomendação presente em vários processos consiste na identificação de quais dados serão abertos e publicados. Devem ser identificados os dados que ainda não foram abertos e publicados, bem como os dados que já foram publicados, mas que serão reusados, sendo publicados num formato mais enriquecido, conforme sugere o processo “Methodological guidelines for publishing government linked data” (Villazon-Terrazas, 2011) [11].

Posterior à etapa de consulta pública, ao se identificar as informações candidatas a serem publicadas, devem ser selecionadas prioritariamente aquelas que se encontrem em condições imediatas de serem publicadas, conforme o processo do Uruguai, devendo ser considerado ainda os aspectos legais, de completude, capacidade para manter a informação atualizada, formatos, dentre outros. O processo do Chile sugere que deve ser evitada a publicação de arquivos que possuam apenas parágrafos de texto em sua totalidade. 

Cumpre destacar que o processo da OKFN ressalta que, apesar de existirem abordagens que priorizem a publicação de dados que sejam mais fáceis de disponibilizar ao público, deve ser considerado se tais dados sejam relevantes, pois a publicação de dados que não tenham relevância pode prejudicar a credibilidade da iniciativa, dando a entender que a abertura de dados não considera o que é relevante para a sociedade, mas sim, o que é mais simples de se disponibilizar. 

Para esta identificação dos conjuntos de dados, o processo COMSODE deve se registrar no mínimo, as seguintes informações (COMSODE, 2014) [7]:
  • Título e descrição; 
  • Unidade organizacional responsável; 
  • Pessoa de contato (Para consultas sobre o conjunto de dados); 
  • Formatos dos recursos de dados (Armazenado num banco de dados relacional ou não, armazenado como arquivos de dados tabulares em in XLS(X), ODS, XML, CSV ou ainda apenas em arquivos de texto não estruturados ou semiestruturados) e uma breve descrição de cada formato. 
Caso o publicador deseje uma descrição mais detalhada, os processos da Colômbia e do Equador ainda sugerem outras informações adicionais relevantes que podem ser registradas para cada conjunto de dados identificado (Colombia, 2012) [4].

2.5. Definir nível de maturidade dos dados a serem publicados (1-5 estrelas)

Considerando o cumprimento das recomendações de se identificar os dados que serão abertos e publicados, e ainda, os que tem potencial para serem conectados, sugere-se que seja definido previamente o nível de enriquecimento dos dados que serão publicados.) A definição deste nível de maturidade servirá para nortear quais dados devem ser selecionados para publicação, considerando que, quanto maior o nível de maturidade, maior o esforço necessário para publicação. Desta maneira, a análise de custo-benefício entre conjunto de dado x nível de maturidade da publicação consiste de atividade relevante para o planejamento da publicação de dados abertos.

Nesta direção, para cada conjunto de dados, o processo COMSODE sugere seja definido o nível (alvo) da atividade de abertura, conforme o esquema 5 estrelas para dados abertos (Berners-Lee, 2006) [2]. 

O processo COMSODE destaca que, no mínimo, deve ser estabelecido o nível 3 de enriquecimento, sendo aceitável o nível 2 em casos especiais cujos dados existam exclusivamente em documentos não estruturados e que não seja possível a sua organização para convertê-los num documento estruturado (COMSODE, 2014) [7].

Para cada nível de abertura, este processo recomenda uma série de requisitos e providências a serem adotadas, sugerindo ainda atenção para que seja definido o período de atualização de cada conjunto de dados, de que maneira os dados serão disponibilizados (num único arquivo, particionado em vários arquivos, mediante uma API Rest, endpoint SPARQL), etc.), e ainda, para que sejam disponibilizadas as séries históricas de atualização do arquivo, quando for o caso.)

No próximo artigo desta série, veremos outras seis recomendações para a seleção de dados para a publicação de Dados Abertos Conectados.

Até a próxima!!!

* Este artigo foi desenvolvido a partir da pesquisa de Mestrado “Uma Proposta de Modelo de Processo para Publicação de Dados Abertos Conectados Governamentais”, de autoria de Thiago José Tavares Ávila, no âmbito do Programa de Pós-Graduação em Modelagem Computacional do Conhecimento, do Instituto de Computação da Universidade Federal de Alagoas (UFAL).

[1] ÁVILA, T. J. T. Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais. 223 p. Dissertação (Mestrado) — Instituto de Computação, Universidade Federal de Alagoas, Maceió, Alagoas, Brasil, 2015. Dissertação de Mestrado em Modelagem Computacional do Conhecimento.
[2] BERNERS-LEE, T. Linked Data. 2006. Disponível em: <http://www.w3.org/
DesignIssues/LinkedData.html>.
[3] BRASIL. Manual para Elaboração de Plano de Dados Abertos. [S.l.], 2014. v. 7, 38 p. Disponível em: <http://www.planejamento.gov.br/secretarias/upload/Arquivos/governoáberto/manual_elaboracao_plano_dados_abertos.pdf>.
[4] BRASIL. Lei No 12.527, de 18 de Novembro de 2011. 2011. Disponível em:
<http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm>.
[5] CHILE. Norma Técnica para Publicación de Datos Abiertos en Chile.
[S.l.], 2013. 1-28 p. Disponível em: < http://instituciones.gobiernoabierto.cl/NormaTecnicaPublicacionDatosChile_v2-1.pdf>.
[6] COLOMBIA. Guía para la apertura de datos en Colombia. [S.l.], 2012. 67 p. Disponível em: < http://programa.gobiernoenlinea.gov.co/apc-aa-files/da4567033d075590cd3050598756222c/Datos_Abiertos_Guia_v2_0.pdf >.
[7] COMSODE. Methodology for publishing datasets as open data - COMSODE. [S.l.], 2014.1-31 p. Disponível em: <http://www.comsode.eu/index.php/deliverables/>.
[8] CONSOLI, S. et al. Geolinked Open Data for the Municipality of Catania. Proceedings of the 4th International Conference on Web Intelligence, Mining and Semantics (WIMS14), p. 58, 2014.
[9] ECUADOR. Guia de Política Pública de Datos Abiertos. [S.l.], 2014. 21 p. Disponível em: <http://www.gobiernoelectronico.gob.ec/wp-content/uploads/2014/12/GPP-DA-v01-20141128-SNAP-SGE.pdf>.
[10] OKF. Guia de Dados Abertos. 2015. Disponível em: <http://opendatahandbook.org/guide/pt_BR>.
[11] VILLAZÓN-TERRAZAS, B. et al. Methodological guidelines for publishing government linked data. Linking Government Data, p. 27-49, 2011.
[12] W3C. Best Practices for Publishing Linked Data. 2014. Acessado em 02/05/2017. Disponível em: <http://www.w3.org/TR/ld-bp/>.
[13] URUGUAY. Guía rápida de publicación em datos.gub.uy. Montevideo, 2012.
17 p. Disponível em: < https://www.agesic.gub.uy/innovaportal/file/2478/1/guia_publicacion_datos_abiertos.pdf>.
Voltar

Comentários