Pular para o conteúdo principal

Bons identificadores universais (URIs) para a publicação de Dados Abertos (Conectados) – parte 01

Por Thiago Ávila*

Dando continuidade à nossa série de artigos sobre Dados Abertos (conectados), vamos apresentar a quinta melhor prática para a publicação de Dados Abertos Conectados, aplicando-os no contexto Governamental. Estes artigos têm como fundamentação a dissertação de mestrado, Uma Proposta de Modelo de Processo para Publicação de Dados Abertos Conectados Governamentais”[1], onde desenvolvi uma revisão de literatura que identificou 70 recomendações para a publicação de Dados Abertos Conectados Governamentais, distribuído entre as 10 melhores práticas estabelecidas pelo W3C[6], que estão sendo exploradas em continuidade a esta série de artigos aqui no blog, conforme apresentado no sétimo artigo desta série.

Para identificar recomendações voltadas a implementar a quinta melhor prática, “5. Estabelecer bons identificadores universais (URIs)”, foi estabelecida a seguinte questão de pesquisa: O que os processos de publicação de dados abertos (conectados) recomendam a ser feito para contemplar a melhor prática de Especificar Bons Identificadores Universais (URIs)?"

Um Identificador Uniforme de Recurso (URI)Uniform Resource Identifier (em inglês) é uma cadeia de caracteres compacta usada para identificar ou denominar um recurso na Internet. O principal propósito desta identificação é permitir a interação com representações do recurso através de uma rede, tipicamente a Rede Mundial, usando protocolos específicos. URIs são identificados em grupos definindo uma sintaxe específica e protocolos associados.


Um URI pode ser classificado como um localizador (URL) ou um nome (URN), ou ainda como ambos. Um Nome de Recurso Uniforme URN - Uniform Resource Name (em inglês) é como o nome de uma pessoa, enquanto que um Localizador de Recurso Uniforme URL - Uniform Resource Locator (em inglês) é como o seu endereço. O URN define a identidade de um item, enquanto que o URL nos dá um método para o encontrar.





Um URN típico é o sistema ISBN para identificar individualmente os livros. ISBN 0-486-27557-4 (urn:isbn:0-486-27557-4) cita sem equívocos uma edição específica da obra de Shakespeare "Romeu e Julieta" - Romeo and Juliet (em inglês). Para aceder a este objeto e ler o livro, é necessário obter a sua localização, ou seja, através de um endereço URL. Um URL típico para este livro é um caminho de arquivos, como file:////home/pedro/Desktop/RomeoAndJuliet.pdf, identificando o livro eletrônico salvo no disco de um PC local. Então o propósito de URNs e URLs é o de serem complementares (Wikipedia, 2017).

Segundo AVILA (2015) [1], A oferta de dados abertos (conectados ou não) é provida através de páginas, sítios ou catálogos Web e por esta natureza, a definição dos endereços/identificadores eletrônicos (URIs) de acesso aos dados consiste de etapa muito relevante num processo de publicação, pois será através destes endereços que os dados serão encontrados pelos usuários. A definição de identificadores de conjuntos de dados é uma forma de representar entidades do mundo real em arquivos digitais, seja mediante a inserção de linhas em tabelas, elementos em documentos XML ou objetos em documentos JSON. É importante saber o que o identificador de cada entidade representa. Por exemplo, em uma tabela, é necessário identificar quais colunas formam os das entidades representadas nesta tabela (COMSODE, 2014) [2].

Identificadores são muito importantes, especialmente para desenvolvedores de softwares. Eles os utilizam para identificar recursos de dados em seu código-fonte e para fundir informações sobre as entidades de diferentes fontes de dados (COMSODE, 2014) [2]. Logo, esta etapa do processo é crucial e precisa ser desenvolvida considerando as melhores práticas disponíveis. Para a definição das estruturas dos catálogos (esquemas), o processo COMSODE recomenda a utilização do vocabulário DCAT[9], voltado a facilitar a interoperabilidade entre catálogos de dados publicados na Web.

Villazón-Terrazas et al. (2011) [5] complementa que o objetivo dos dados conectados é promover uma visão da Web como um banco de dados global, e a interligação dos dados da mesma forma que os documentos da Web. Neste banco de dados global é necessário identificar os recursos de dados na Internet, e precisamente os URIs são estabelecidos para cumprir esta função.

Dos processos analisados, apenas três apresentam de forma explícita recomendações para o estabelecimento de URIs para publicação de dados. Tais recomendações serão analisadas em complementação ao que é recomendado por W3C (2014) e Wood et al. (2013) [6,8]. Galiotou e Fragkou (2013) [3] destacam a importância do estabelecimento de boas URIs, sem apresentar uma recomendação específica.

A seguir serão apresentadas as cinco primeiras recomendações identificadas nos processos que poderão auxiliar a incorporação das Melhores Práticas para Publicação de Dados Conectados (BPLD- Best Practices for Publishing Linked Data), em atividades de publicação de dados. No próximo artigo apresentaremos outras cinco, totalizando onze recomendações para esta boa prática.

5.1 Utilizar URIs para conectar os dados
Esta é uma recomendação muito importante, porém óbvia, quando da existência de dados abertos conectados, consiste na utilização de URIs para conectar tais dados. A inserção de links para outros URIs representa o quarto princípio dos dados conectados, de modo que seja possível descobrir novos dados a partir de um determinado recurso ou conjunto de dados, seja no mesmo órgão publicador ou em conjuntos ou recursos de dados de outras organizações. Analogamente, esta conexão pode ser entendida como um URL de uma página Web que também é usado por outras páginas da Web para estabelecer um hiperlink para esta página (VILLAZÓN-TERRAZAS et al., 2011) [5].

Figura 02 – Camadas da Web Semântica. Disponível em: https://www.w3.org/2002/Talks/04-sweb/sw-stack-2002.png. Acesso em 02/01/2018

5.2 Estabelecer URIs persistentes, que não se alterem em nenhum momento
Uma URI, por ser um identificador universal, que potencialmente se conectará a diversos outros recursos de dados, não deve mudar. Por esta razão, este princípio recomenda que as URIs não contenham absolutamente nada que possam ser passíveis de mudanças, ou seja, as URIs precisam ser persistentes e estáveis. Hyland e Wood (2011), Wood et al. (2013), W3C (2014) [4, 6, 7] sugerem ainda que devem ser utilizados domínios que a instituição publicadora tenha controle, de tal maneira que se elimine o risco de mudanças de domínio causadas por atores externos ao controle da instituição publicadora. O processo COMSODE reforça que uma boa URI não deve mudar durante todo o ciclo de vida do recurso de dados (COMSODE, 2014) [2].

5.3 Proporcionar pelo menos um recurso de dados em formato que seja legível por máquina para cada URI
Esta recomendação reforça outras recomendações anteriores de que sempre deve ser provido uma URI para recurso de dados legível por máquina para cada URI que resolva o recurso de dados legível para humanos (WOOD et al., 2013) [8].

5.4 Usar URIs como nomes para as coisas
URIs são identificadores, mas também podem cumprir a função de nomear recursos, pois uma URI bem estabelecida ajudará o usuário tanto na localização quanto no reconhecimento do recurso de dado (W3C). Considerando que os cidadãos serão grandes usuários destes recursos, deve ser associada a URI o máximo de informações possíveis facilitando o entendimento do usuário sobre o que ele irá encontrar ao acessar este identificador (VILLAZÓN-TERRAZAS et al., 2011) [5].

5.5 Estabelecer design simplificado de URIs
Considerando que os URIs são identificadores universais, devem ser de fácil compreensão para o usuário. Desta maneira, as URIs devem ser estabelecidas com simplicidade, estabilidade e capacidade de gerenciamento. Cumpre destacar que os URIs devem ser estabelecidos como identificadores e não apenas para nomear recursos da Web (VILLAZÓN-TERRAZAS et al., 2011) [5]. Hyland e Wood (2011) [4] apresentam recomendações complementares, onde sugere a utilização de URIs limpas (de fácil entendimento).

Daremos continuidade na apresentação de recomendações para a publicação de Dados Abertos Conectados nos próximos artigos desta série.

Até a próxima!!!

* Este artigo foi desenvolvido a partir da pesquisa de Mestrado “Uma Proposta de Modelo de Processo para Publicação de Dados Abertos Conectados Governamentais”, de autoria de Thiago José Tavares Ávila, no âmbito do Programa de Pós-Graduação em Modelagem Computacional do Conhecimento, do Instituto de Computação da Universidade Federal de Alagoas (UFAL).

Referências:

[1] ÁVILA, T. J. T. Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais. 223 p. Dissertação (Mestrado) — Instituto de Computação, Universidade Federal de Alagoas, Maceió, Alagoas, Brasil, 2015. Dissertação de Mestrado em Modelagem Computacional do Conhecimento.
[2] COMSODE. Methodology for publishing datasets as open data - COMSODE. [S.l.], 2014.1-31 p. Disponível em: <http://www.comsode.eu/index.php/deliverables/>.
[3] GALIOTOU, E.; FRAGKOU, P. Applying linked data technologies to greek open government data: a case study. Procedia - Social and Behavioral Sciences, v. 73, p. 479–486, 2013. ISSN 18770428.
[4] HYLAND, B.; WOOD, D. The Joy of Data - A Cookbook for Publishing Linked Government Data on the Web. In: . Linking Government Data. [S.l.: s.n.], 2011. p. 3-25.
[5] VILLAZÓN-TERRAZAS, B. et al. Methodological guidelines for publishing government linked data. Linking Government Data, p. 27-49, 2011.
[6] W3C. Best Practices for Publishing Linked Data. 2014. Acessado em 02/05/2017. Disponível em: <http://www.w3.org/TR/ld-bp/>.
[7] Wikipedia. URI. 2017. Acessado em 02/01/2018. Disponível em: <https://pt.wikipedia.org/wiki/URI>.
[8] WOOD, D. et al. Linked data: structured data on the Web. [S.l.]: Manning Publications, 2013. 336 p. ISBN 9781617290398. 
[9] Disponível em http://www.w3.org/TR/vocab-dcat/
Voltar

Comentários