Vamos começar este artigo analisando a figura 01, extraída do site DataPortals.org [1], que mostra a ocorrência de catálogos de dados abertos no mundo:
Figura 01 – Distribuição dos catálogos de dados abertos governamentais
no mundo [1]
Hummm ... 200 catálogos na Europa, 140 na América do Norte, 22 na
América do Sul, 23 na África, 21 na Ásia e 15 na Oceania. Tudo bem. E como
fazer para responder algumas questões relevantes como:
- Quais os dados disponíveis sobre ocorrência de doenças no hemisfério sul ?
- Ou ainda, quais as ocorrências de determinado tipo de crime nestes países ?
- Quantas escolas foram abertas desde 2008 em cada país que possua um catálogo de dados ?
Como se tratam de catálogos de dados abertos, provavelmente, para tentar
responder a pelo menos uma destas perguntas será preciso acessar os 424
catálogos, buscar em cada um deles o dado desejado, fazer o download de cada
conjunto de dado, padronizar o formato de dados, metadados, levar para uma
ferramenta de extração, tratamento de carga de dados (ETL), construir uma
consulta para depois ter um resultado. Muito esforço, não ? E deixando a coisa
um pouco mais complexa, se a licença de uso de um conjunto de dados impedir que
este dado seja cruzado com outro dado, ou ainda, se o formato disponibilizado
seja proprietário ou um formato de baixa qualidade, como o PDF? Provavelmente
você ficará sem responder as suas perguntas.
A web que conhecemos atualmente é a web dos documentos, onde são
priorizados e disponibilizados páginas HTML, arquivos de diversos formatos,
como planilhas, documentos de texto, mapas, coordenadas geográficas, animações,
conteúdo multimídia, etc. Acontece que os dados, mesmo que estejam disponíveis
em formatos abertos, para serem acessíveis primeiro é preciso encontrar o
arquivo que armazena os dados, para ai sim, acessar cada dado, pois, em sua
maioria são formatos não estruturados e são adequados para facilitar o acesso e
leitura para humanos e não são compreensíveis por máquina [2].
Considerando situações corriqueiras como esta, o World Wide Web
Consortium - W3C tem desenvolvido muitos esforços para não apenas estabelecer
os padrões da internet global, mas ultimamente, para a oferta de dados na Web,
como já apresentamos no post anterior.
E como seria se pudéssemos acessar diretamente os dados disponíveis na
web, mediante consultas a servidores de dados? Consultas que acessem dados de
diversas origens, espalhados ao longo do mundo e ainda, obtendo não apenas os
dados, mas a semântica relacionada a eles. Buscando construir esta web
dos dados que, dentre outras muitas coisas, resolvem aos problemas corriqueiros
do inicio do artigo que, ao longo destes esforços e pesquisas desenvolvidas
pelo W3C, Tim Berners-Lee (ele mesmo, o mesmo cara que inventou a Web) propôs
um conceito muito promissor que são os Dados Conectados, do termo em inglês, Linked
Data [3].
Em definição, Linked Data se resume ao conjunto de boas
práticas para a publicação de dados na web. Linked Data define
princípios para a publicação e consumo dos dados e os classificam de acordo com
sua disponibilidade, acesso, estruturação e conexão [2].
Assim como a web do hipertexto, a web dos dados é construída a partir de
documentos na web, porém, diferentemente da web do hipertexto, onde os links
são âncoras que relacionam uma página web a outra (ou a um arquivo), na web dos
dados, os links são apontados para os dados que são descritos por um framework
de recursos, conhecido como RDF (Resource Description Framework). Além
disso, cada dado é identificado por um identificador universal - URI (Universal
Resource Identifier) e ainda, podem ser acessados mediante uma linguagem de
consulta que é o SPARQL (SPARQL Protocol and RDF Query Language).
Para um dado ser conectado, ele precisa obedecer
aos quatro princípios para publicação [4]:
1. Use URIs para definir coisas;
2. Use HTTP URIs para que os dados possam ser encontrados por humanos e
agentes na web;
3. Quando um dado for solicitado através de HTTP URIs, fornecer todas as
informações sobre o mesmo, em um formato de dados estruturados utilizando
padrões como RDF e SPARQL;
4. Incluir links para outras fontes de dados relacionados (usando URIs)
para que seja possível obter mais informações.
A partir do conceito de Dados Conectados, algumas nações globais já
estão considerando este novo paradigma e incentivando a sua produção e oferta.
Países como o Reino Unido e os Estados Unidos da América já possuem uma boa
oferta de dados em formato RDF nos seus catálogos de dados governamentais. Além
disso, grandes projetos em escala global tem crescido a cada ano, como a DBPedia[5],
que é a base de dados conectada a partir da Wikipedia ou a LODSpringer[6],
que visa ofertar dados conectados sobre artigos, periódicos e conferências
científicas editorados pela Springer.
Enfim, sobre o Reino Unido já é possível responder a terceira pergunta
do início deste artigo “Quantas escolas foram abertas desde 2008 em cada país
que possua um catálogo de dados ?”. Basta executar
a seguinte consulta SPARQL abaixo:
PREFIX sch-ont: <http://education.data.gov.uk/ontology/school#>
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>
SELECT ?school ?name ?date ?easting ?northing WHERE {
?school a sch-ont:School; sch-ont:establishmentName ?name;
sch-ont:openDate ?date ;
sch-ont:easting ?easting ;
sch-ont:northing ?northing .
FILTER (?date > "2008-01-01"^^xsd:date && ?date < "2009-01-01"^^xsd:date)
}
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>
SELECT ?school ?name ?date ?easting ?northing WHERE {
?school a sch-ont:School; sch-ont:establishmentName ?name;
sch-ont:openDate ?date ;
sch-ont:easting ?easting ;
sch-ont:northing ?northing .
FILTER (?date > "2008-01-01"^^xsd:date && ?date < "2009-01-01"^^xsd:date)
}
Nos próximos artigos continuaremos apresentando o potencial, casos de
uso, vantagens, limitações e muito mais sobre o universo dos Dados Conectados.
Até a próxima!!!
* Estes artigos são oriundos de pesquisas científicas desenvolvidas
no Núcleo de Excelência em Tecnologias Sociais (NEES), do Instituto de
Computação da Universidade Federal de Alagoas (UFAL) e contam com a
contribuição direta dos pesquisadores Dr. Ig Ibert Bittencourt (UFAL), Dr.
Seiji Isotani (USP), e Armando Barbosa, Danila Oliveira, Judson Bandeira,
Thiago Ávila e Williams Alcântara (UFAL).
[1]
DataPortals. (2015). A Comprehensive List of Open Data Portals from Around the
World. Open Knowledge Foundation.
[2] Bandeira, Judson; Alcantara; Williams; Barbosa, Armando;
Ávila, Thiago; Oliveira, Danila; Bittencourt, I. & Isotani, S. (2014).
Dados Abertos Conectados. Jornada de Atualização em Tecnologia da Informação.
Anais do III Simpósio Brasileiro de Tecnologia da Informação - SBTI 2014.
[3]Berners-Lee,
Tim (2006). Linked Data. W3C. Acesso em: jul. 2015. Disponível em: http://www.w3.org/DesignIssues/LinkedData.html
[4] Bizer,
Christian; Heath, Tom; Berners-Lee, Tim (2009). Linked data – the story so far.
International Journal On Semantic Web And Information Systems, v. 5, n. 3, p.
1-22.
[5] DBPedia – http://www.dbpedia.org
Comentários
Postar um comentário