Por Thiago Ávila*
Dando continuidade à
nossa série de artigos sobre Dados Abertos (conectados), vamos apresentar a quinta
melhor prática para a publicação de Dados Abertos Conectados, aplicando-os no
contexto Governamental. Estes artigos têm como fundamentação a dissertação de
mestrado, “Uma Proposta de Modelo de Processo para Publicação de Dados Abertos
Conectados Governamentais”[1], onde desenvolvi uma revisão de literatura que identificou 70
recomendações para a publicação de Dados Abertos Conectados Governamentais,
distribuído entre as 10 melhores práticas estabelecidas pelo W3C[6], que estão
sendo exploradas em continuidade a esta série de artigos aqui no blog, conforme
apresentado no sétimo artigo desta série.
Para identificar recomendações voltadas a implementar a quinta melhor prática, “5. Estabelecer bons identificadores universais (URIs)”, foi estabelecida a seguinte questão de pesquisa: “O que os processos de publicação de dados abertos (conectados) recomendam a ser feito para contemplar a melhor prática de Especificar Bons Identificadores Universais (URIs)?"
Um Identificador Uniforme de Recurso (URI) - Uniform Resource Identifier (em inglês) é uma cadeia de caracteres compacta usada para identificar ou denominar um recurso na Internet. O principal propósito desta identificação é permitir a interação com representações do recurso através de uma rede, tipicamente a Rede Mundial, usando protocolos específicos. URIs são identificados em grupos definindo uma sintaxe específica e protocolos associados.
Um URI pode ser
classificado como um localizador (URL) ou um nome (URN), ou ainda
como ambos. Um Nome
de Recurso Uniforme URN
- Uniform
Resource Name
(em inglês)
é como o nome de uma pessoa, enquanto que um Localizador
de Recurso Uniforme URL
- Uniform
Resource Locator
(em inglês)
é como o seu endereço. O URN define a identidade de um item,
enquanto que o URL nos dá um método para o encontrar.
Figura 01 – Relação entre URI, URL e URN. Disponível em: https://i.stack.imgur.com/mcTKf.jpg.
Acesso em: 02/01/2018
Um URN típico é o
sistema ISBN para identificar individualmente os
livros. ISBN 0-486-27557-4 (urn:isbn:0-486-27557-4) cita sem
equívocos uma edição específica da obra de Shakespeare "Romeu e
Julieta" - Romeo and Juliet
(em inglês). Para aceder a este
objeto e ler o livro, é necessário obter a sua localização, ou seja, através de
um endereço URL. Um URL típico para este livro é um caminho de arquivos, como file:////home/pedro/Desktop/RomeoAndJuliet.pdf,
identificando o livro eletrônico salvo no disco de um PC local. Então o
propósito de URNs e URLs é o de serem complementares (Wikipedia, 2017).
Segundo AVILA (2015) [1], A oferta de dados abertos (conectados ou não) é provida através de páginas, sítios ou catálogos Web e por esta natureza, a definição dos endereços/identificadores eletrônicos (URIs) de acesso aos dados consiste de etapa muito relevante num processo de publicação, pois será através destes endereços que os dados serão encontrados pelos usuários. A definição de identificadores de conjuntos de dados é uma forma de representar entidades do mundo real em arquivos digitais, seja mediante a inserção de linhas em tabelas, elementos em documentos XML ou objetos em documentos JSON. É importante saber o que o identificador de cada entidade representa. Por exemplo, em uma tabela, é necessário identificar quais colunas formam os das entidades representadas nesta tabela (COMSODE, 2014) [2].
Identificadores são muito importantes, especialmente para desenvolvedores de softwares. Eles os utilizam para identificar recursos de dados em seu código-fonte e para fundir informações sobre as entidades de diferentes fontes de dados (COMSODE, 2014) [2]. Logo, esta etapa do processo é crucial e precisa ser desenvolvida considerando as melhores práticas disponíveis. Para a definição das estruturas dos catálogos (esquemas), o processo COMSODE recomenda a utilização do vocabulário DCAT[9], voltado a facilitar a interoperabilidade entre catálogos de dados publicados na Web.
Villazón-Terrazas et al. (2011) [5] complementa que o objetivo dos dados conectados é promover uma visão da Web como um banco de dados global, e a interligação dos dados da mesma forma que os documentos da Web. Neste banco de dados global é necessário identificar os recursos de dados na Internet, e precisamente os URIs são estabelecidos para cumprir esta função.
Dos processos analisados, apenas três apresentam de forma explícita recomendações para o estabelecimento de URIs para publicação de dados. Tais recomendações serão analisadas em complementação ao que é recomendado por W3C (2014) e Wood et al. (2013) [6,8]. Galiotou e Fragkou (2013) [3] destacam a importância do estabelecimento de boas URIs, sem apresentar uma recomendação específica.
A seguir serão apresentadas as cinco primeiras recomendações identificadas nos processos que poderão auxiliar a incorporação das Melhores Práticas para Publicação de Dados Conectados (BPLD- Best Practices for Publishing Linked Data), em atividades de publicação de dados. No próximo artigo apresentaremos outras cinco, totalizando onze recomendações para esta boa prática.
5.1 Utilizar URIs para conectar os dados
Esta é uma recomendação
muito importante, porém óbvia, quando da existência de dados abertos conectados,
consiste na utilização de URIs para conectar tais dados. A inserção de links
para outros URIs representa o quarto princípio dos dados conectados, de modo
que seja possível descobrir novos dados a partir de um determinado recurso ou
conjunto de dados, seja no mesmo órgão publicador ou em conjuntos ou recursos
de dados de outras organizações. Analogamente, esta conexão pode ser entendida
como um URL de uma página Web que também é usado por outras páginas da Web para
estabelecer um hiperlink para esta página (VILLAZÓN-TERRAZAS et al., 2011) [5].
Figura 02 – Camadas
da Web Semântica. Disponível em: https://www.w3.org/2002/Talks/04-sweb/sw-stack-2002.png. Acesso em 02/01/2018
5.2 Estabelecer URIs persistentes, que não se alterem
em nenhum momento
Uma URI, por ser um
identificador universal, que potencialmente se conectará a diversos outros
recursos de dados, não deve mudar. Por esta razão, este princípio recomenda que
as URIs não contenham absolutamente nada que possam ser passíveis de mudanças,
ou seja, as URIs precisam ser persistentes e estáveis. Hyland e Wood (2011),
Wood et al. (2013), W3C (2014) [4, 6, 7] sugerem ainda que devem ser utilizados
domínios que a instituição publicadora tenha controle, de tal maneira que se
elimine o risco de mudanças de domínio causadas por atores externos ao controle
da instituição publicadora. O processo COMSODE reforça que uma boa URI não deve
mudar durante todo o ciclo de vida do recurso de dados (COMSODE, 2014) [2].
5.3 Proporcionar pelo menos um recurso de dados em
formato que seja legível por máquina para cada URI
Esta recomendação reforça
outras recomendações anteriores de que sempre deve ser provido uma URI para
recurso de dados legível por máquina para cada URI que resolva o recurso de
dados legível para humanos (WOOD et al., 2013) [8].
5.4 Usar URIs como nomes para as coisas
URIs são
identificadores, mas também podem cumprir a função de nomear recursos, pois uma
URI bem estabelecida ajudará o usuário tanto na localização quanto no
reconhecimento do recurso de dado (W3C). Considerando que os cidadãos serão
grandes usuários destes recursos, deve ser associada a URI o máximo de
informações possíveis facilitando o entendimento do usuário sobre o que ele irá
encontrar ao acessar este identificador (VILLAZÓN-TERRAZAS et al., 2011) [5].
5.5 Estabelecer design simplificado de URIs
Considerando que os
URIs são identificadores universais, devem ser de fácil compreensão para o
usuário. Desta maneira, as URIs devem ser estabelecidas com simplicidade,
estabilidade e capacidade de gerenciamento. Cumpre destacar que os URIs devem
ser estabelecidos como identificadores e não apenas para nomear recursos da Web
(VILLAZÓN-TERRAZAS et al., 2011) [5]. Hyland e Wood (2011) [4] apresentam recomendações
complementares, onde sugere a utilização de URIs limpas (de fácil entendimento).
Daremos
continuidade na apresentação de recomendações para a publicação
de Dados Abertos Conectados nos próximos artigos desta série.
Até
a próxima!!!
* Este artigo foi desenvolvido a partir da pesquisa de Mestrado “Uma Proposta de Modelo de Processo para Publicação de Dados Abertos Conectados Governamentais”, de autoria de Thiago José Tavares Ávila, no âmbito do Programa de Pós-Graduação em Modelagem Computacional do Conhecimento, do Instituto de Computação da Universidade Federal de Alagoas (UFAL).
Referências:
[1] ÁVILA, T. J. T. Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais. 223 p. Dissertação (Mestrado) — Instituto de Computação, Universidade Federal de Alagoas, Maceió, Alagoas, Brasil, 2015. Dissertação de Mestrado em Modelagem Computacional do Conhecimento.
[2]
COMSODE. Methodology for publishing
datasets as open data - COMSODE. [S.l.], 2014.1-31 p. Disponível em:
<http://www.comsode.eu/index.php/deliverables/>.
[3] GALIOTOU, E.; FRAGKOU, P. Applying linked data technologies to greek
open government data: a case study. Procedia - Social and Behavioral
Sciences, v. 73, p. 479–486, 2013. ISSN 18770428.
[4] HYLAND, B.; WOOD, D. The Joy of Data - A Cookbook for Publishing
Linked Government Data on the Web. In: . Linking Government Data. [S.l.:
s.n.], 2011. p. 3-25.
[5]
VILLAZÓN-TERRAZAS, B. et al. Methodological
guidelines for publishing government linked data. Linking Government Data,
p. 27-49, 2011.
[6]
W3C. Best Practices for Publishing Linked
Data. 2014. Acessado em 02/05/2017. Disponível em:
<http://www.w3.org/TR/ld-bp/>.
[7]
Wikipedia. URI. 2017. Acessado em
02/01/2018. Disponível em: <https://pt.wikipedia.org/wiki/URI>.
[8] WOOD, D. et al. Linked data: structured data on the Web.
[S.l.]: Manning Publications, 2013. 336 p. ISBN 9781617290398.
[9]
Disponível em http://www.w3.org/TR/vocab-dcat/
Comentários
Postar um comentário