Pular para o conteúdo principal

Por que precisamos conectar os dados publicados na Web?

Por Thiago Ávila*

No primeiro artigo desta série, abordamos a problemática da oferta de dados que vem crescendo exponencialmente no âmbito da economia digital, mas com qualidade e poder de reutilização muito baixo. Conforme já explorado, estes dados estão, predominantemente, em formato não estruturado - o que limita sua descrição e reutilização por outras aplicações e pessoas. Além disso, devido à baixa qualidade dos dados disponibilizados, o processo de reutilização tem sido caro [1].

Nesta direção, novas abordagens em torno dos dados foram sendo desenvolvidas ao longo dos anos e atualmente, busca-se o estabelecimento de um conceito de dado que possa ser amplamente utilizado sem restrições de uso e aplicações, de tal maneira que o ciclo de produção de conhecimento possa ser mais rico e aprimorado [2]. O conceito de dados abertos foi estabelecido neste horizonte e consistem de Dados que podem ser utilizados livremente, reutilizados e redistribuído por qualquer pessoa - sujeito apenas, no máximo, com a exigência de atribuir o compartilhamento pela mesma licença [3].

Os dados abertos permitem que pessoas e organizações utilizem informações públicas livremente para gerar aplicativos, fazer análises ou mesmo produtos comercializáveis. Para que um conjunto de dados seja considerado aberto, ele precisa permitir que o cidadão acessasse com facilidade e o utilize ou redistribua sem restrições. Ademais, os dados precisam ser facilmente encontrados em um lugar indexado, sem impedimento de leitura por máquinas ou restrições legais [4].

No âmbito governamental, para conceituar o como devem ser os dados abertos governamentais foram estabelecidas três leis, ou seja, as condições para que um determinado dado governamental seja considerado como aberto [5]:

Se o dado não pode ser encontrado e indexado na Web, ele não existe; 
Se não estiver aberto e disponível em formato compreensível por máquina, ele não pode ser reaproveitado; e 
Se algum dispositivo legal não permitir sua replicação, ele não é útil. 

Complementarmente, a The Association of Computing Machinery’s publicou uma recomendação para dados governamentais, onde estabeleceu que:

"Os dados publicados pelo governo deve ser em formatos e abordagens que promovam a análise e reutilização desses dados." [6].

Desta forma, o conceito de dados abertos governamentais emergiu como uma forte referência à publicação de dados na web, criando novos canais de comunicação entre governos e seus cidadãos, onde inúmeros portais e catálogos de dados web foram desenvolvidos, em nível continental, como o da União Europeia (www.publicdata.eu – reunindo catálogos de 29 países), em nível nacional como o dos E.U.A. (www.data.gov), do Reino Unido (www.data.gov.uk) e do Brasil (www.dados.gov.br), e ainda em nível local, como o do Estado de Alagoas (www.dados.al.gov.br), ofertando milhares de conjuntos de dados online. Tais iniciativas têm sido bastante impulsionadas em nível global, como o estabelecimento da Parceria para o Governo Aberto (Open Government Partnership) [7] que reúne cerca de 65 países (incluindo o Brasil) em torno do estabelecimento de Governos mais transparentes, participativos e que engajem a sociedade na co-criação e colaboração em torno de soluções de interesse público.

Assim, o volume de dados e informações produzido, bem como a atual descentralização destas estruturas de produção impõem desafios cada vez maiores, pois a tomada de decisão precisa ser subsidiada por informações integradas, comumente decorrente do cruzamento de várias bases de dados. Neste contexto, os consumidores de dados visualizam que a oferta de dados atual vastamente espalhada pela web representa um grande inconveniente, pois existe a necessidade de primeiro obter e armazenar estes dados localmente, antes que possam ser utilizados para a produção de informações relevantes [8].

Cumpre ressaltar ainda que, mesmo que a informação do setor público esteja disponível em formato aberto, pode estar publicada de forma caótica. Ademais, a mesma informação pode ser encontrada em diferentes locais da web e ainda, sem haver nenhuma conexão entre tais fontes de informações, apresentando, por exemplo, qual é a informação mais atualizada. Diante desta situação, para que os usuários tenham confiança nos dados disponibilizados eles buscam analisar a sua procedência, dando preferência àqueles que são originários de fontes confiáveis. Por outro lado, estes dados confiáveis são naturalmente disponibilizados por fontes distribuídas, não sendo incomum a ausência de hiperlinks para informações relacionadas, ora armazenadas no mesmo repositório de dados ou não [9].

O desafio presente consiste no fornecimento de meios eficazes para acessar dados das fontes distribuídas, e ainda, estipular mecanismos através dos quais eles podem ser conectados e integrados [8]. Outro desafio reside na limitação dos seres humanos em processar e conectar a atual oferta de dados e informações disponíveis, considerando que a internet faz com que a riqueza do conhecimento humano esteja disponível para qualquer pessoa, em qualquer lugar. Mais um desafio reside em como classificar e efetivamente utilizar o crescente volume de informação disponível para a obtenção das respostas necessárias.

Uma iniciativa interessante na direção deste desafio foi à proposição, por Tim Berners-Lee de uma escala de maturidade dos dados, conhecida como Esquema das 5 Estrelas dos Dados Abertos[10], conforme descrito abaixo: 

1-Estrela: O dado está disponível na web, em qualquer formato (pdf, png, jpeg);

2-Estrelas: O dado está disponível como sendo legível por máquina e estruturado (uma planilha do Excel);

3-Estrelas: O dado está disponível num formato não-proprietário (uma planilha CSV).

4-Estrelas: O dado é publicado usando os padrões de dados abertos do World Wide Web Consortium, como o (RDF e SPARQL) e possui identificadores universais (URIS); 

5-Estrelas: Todos os itens acima se aplicam, além de links para dados de fontes diferentes e utilização de semântica, ou seja, o dado é enriquecido e conectado com outros dados.


Figura 01 – Esquema de maturidade 5 Estrelas dos Dados Abertos [11] 

Além dos novos conceitos estabelecidos, desta importante escala de maturidade, do conjunto de esforços que vem sendo desenvolvidos pelo W3C, há uma grande intenção em aprimorar a oferta de dados gerados pela economia digital, afinal, os dados estão bem espalhados em sistemas e catálogos de dados mundo afora e, relembrando o primeiro artigo desta série, 67% da oferta de dados em 2020 poderão ser inúteis para reuso e apoio a construção do conhecimento e subsidiar a tomada de decisão e esta oferta de dados estará cada vez mais distribuída ao redor do globo. 

Precisamos ou não pensar em como melhorar esta oferta de dados e conectando-a e enriquecendo-a efetivamente? 

No próximo artigo desta série apresentaremos uma das perspectivas em desenvolvimento para a melhoria de dados na Web, que são os “Dados Conectados” apresentaremos este conceito e ao longo dos próximos posts, seu potencial, casos e uso, vantagens e limitações.

Até a próxima!!!

* Estes artigos contam são oriundos de pesquisas científicas desenvolvidas no Núcleo de Excelência em Tecnologias Sociais (NEES), do Instituto de Computação da Universidade Federal de Alagoas (UFAL) e contam com a contribuição direta dos pesquisadores Dr. Ig Ibert Bittencourt (UFAL), Dr. Seiji Isotani (USP), e Armando Barbosa, Danila Oliveira, Judson Bandeira, Thiago Ávila e Williams Alcântara (UFAL).

[1] Alcantara, Williams; Bandeira, Judson; Barbosa, Armando; Lima, André; Ávila, Thiago; Bittencourt, Ig & Isotani, Seiji. (2015). Desafios no uso de Dados Abertos Conectados na Educação Brasileira. Anais do DesafiE - 4º Workshop de Desafios da Computação Aplicada à Educação. CSBC 2015. Recife: Sociedade Brasileira de Computação.
[2] Bandeira, Judson; Alcantara; Williams; Barbosa, Armando; Ávila, Thiago; Oliveira, Danila; Bittencourt, I. & Isotani, S. (2014). Dados Abertos Conectados. Jornada de Atualização em Tecnologia da Informação. Anais do III Simpósio Brasileiro de Tecnologia da Informação - SBTI 2014. 
[3] OKFN. Open Data HandBook. Why Open Data ?. Open Knowledge Foundation. Disponível em: http://opendatahandbook.org/guide/en/why-open-data/. Acesso em: jul. 2015
[4] Neves. Otávio Moreira de Castro. Evolução Das Políticas De Governo Aberto No Brasil. Anais do VI Congresso Brasileiro de Gestão Pública – CONSAD. Brasília, Brasil. 2013. Acesso em out. 2014. Disponível em: http://consadnacional.org.br/wp-content/uploads/2013/05/092-EVOLU%C3%87%C3%83O-DAS-POL%C3%8DTICAS-DE-GOVERNO-ABERTO-NO-BRASIL.pdf 
[5] Eaves, David. (2009). The Three Laws of Open Government Data. Disponível em Eaves.ca: http://eaves.ca/2009/09/30/three-law-of-open-government-data. Acesso em: jul. 2015
[6] ACM. Association of Computing Machinery. ACM Recommendation On Open Government. 2009. Disponível em: http://www.acm.org/public-policy/open-government
[7] OGP. Open Government Partnership. Participating Countries. 2014. Acesso em: jul. 2015. Disponível em: http://www.opengovpartnership.org/countries
[8] Heath, T. (2011). Linked Data — Welcome to the Data Network. IEEE Internet Computing archive. Volume 15 Issue 6. Pages 70-73
[9] Galiotou, Eleni and Fragkou, Pavlina (2013). Applying Linked Data Technologies to Greek Open Government Data: A Case Study. Journal of Social and Behavioral Sciences, p 479-486, vol. 73; doi: 10.1016/j.sbspro.2013.02.080.
[10]Berners-Lee, Tim (2006). Linked Data. W3C. Acesso em: jul. 2015. Disponível em: http://www.w3.org/DesignIssues/LinkedData.html
[11] 5 STARS OPEN DATA... “5 Stars Open Data”. 2012. Acessado em set. 2014. Disponível em: http://5stardata.info/


Voltar

Comentários