Bons identificadores universais (URIs) para a publicação de Dados Abertos (Conectados)

Bons identificadores universais (URIs) para a publicação de Dados Abertos (Conectados) – parte 02

Por Thiago Ávila*

Dando continuidade à nossa série de artigos sobre Dados Abertos (conectados), continuamos apresentando a quinta melhor prática para a publicação de Dados Abertos Conectados, aplicando-os no contexto Governamental. Estes artigos têm como fundamentação a dissertação de mestrado, “Uma Proposta de Modelo de Processo para Publicação de Dados Abertos Conectados Governamentais”[1], onde desenvolvi uma revisão de literatura que identificou 70 recomendações para a publicação de Dados Abertos Conectados Governamentais, distribuído entre as 10 melhores práticas estabelecidas pelo W3C[6], que estão sendo exploradas em continuidade a esta série de artigos aqui no blog, sétimo artigo dessa série.

Para identificar recomendações voltadas a implementar a quinta melhor prática, “5. Estabelecer bons identiﬁcadores universais (URIs)”, foi estabelecida a seguinte questão de pesquisa: “O que os processos de publicação de dados abertos (conectados) recomendam a ser feito para contemplar a melhor prática de Especificar Bons Identificadores Universais (URIs)?"

No artigo passado, segundo AVILA (2015) [1], aprendemos que a oferta de dados abertos (conectados ou não) é provida através de páginas, sítios ou catálogos Web e por esta natureza, a deﬁnição dos endereços/identiﬁcadores eletrônicos (URIs) de acesso aos dados consiste de etapa muito relevante num processo de publicação, pois será através destes endereços que os dados serão encontrados pelos usuários.

A seguir serão apresentadas outras seis recomendações identificadas nos processos que poderão auxiliar a incorporação desta BPLD (Best Practices for Publishing Linked Data) em atividades de publicação de dados, totalizando onze recomendações para esta boa prática.

Figura 01 – The LOD Cloud [8]

5.6 Utilizar identiﬁcadores relacionados a informações do mundo real

Um identiﬁcador não deve ser um valor sem sentido artiﬁcialmente gerado para ser armazenado como uma mera chave primária no banco de dados. Deve ser um valor que será utilizado para compartilhar informações sobre a entidade no mundo real e pelos sistemas reais. Por outro lado, devem ser evitados, no estabelecimento de URIs, a geração de números ou chaves aleatórias, que não apresentem uma lógica de entendimento para o usuário.

Por exemplo, as organizações empresariais em um determinado país podem ser identiﬁcadas por um número de identiﬁcação exclusiva destas organizações (como o número do Cadastro Nacional de Pessoas Jurídicas (CNPJ) do Brasil). Este número é usado por diferentes autoridades públicas e os seus sistemas de informação para identiﬁcar esta entidade, neste caso à organização empresarial (COMSODE, 2014) [2].

5.7 Usar URIs HTTP para que recursos de dados possam ser encontrados via Web por pessoas e máquinas

Complementarmente a recomendação anterior (Utilizar identiﬁcadores relacionados a informações do mundo real), as URIs devem ser estabelecidas mediante uma estrutura lógica, que seja compreensível, ora por humanos, ora por máquinas com o objetivo que os recursos de dados possam ser encontrados na Web por ambos os tipos de usuários (HYLAND; WOOD, 2011; WOOD et al., 2013; W3C, 2014) [4, 6, 7]. Por exemplo, URIs que sejam formados por códigos identiﬁcadores numéricos podem ser facilmente entendidas por máquinas, mas dificilmente serão memorizadas por humanos, devendo ser utilizadas palavras-chave relacionadas ao mundo real como na recomendação anterior (HYLAND; WOOD, 2011) [4]. No caso de dados abertos conectados, é necessário garantir que as URIs de entidades (conjuntos ou recursos de dados) sejam dereferenciadas. Isso signiﬁca que, se um cliente resolve uma URI de uma entidade, deve receber uma notação RDF legível por máquina desta entidade, em formatos como o Turtle ou JSON-LD mediante o seguinte detalhamento (COMSODE, 2014) [2]:

No acesso a URI do catálogo, o servidor retorna os metadados sobre o catálogo;
No acesso a URI de um conjunto de dados, o servidor retorna o registro do conjunto de dados e os metadados sobre as distribuições (recursos) contidas no conjunto de dados;
No acesso a URI de um recurso de dados, o servidor retorna os dados e os metadados sobre o respectivo recurso.

Figura 02 – Uso de URIs para identificar objetos do mundo real [9]

5.8 Estabelecer URIs neutras

Uma URI podem conter signiﬁcados, estabelecidos por chaves naturais ou derivadas de sistemas. Todavia, deve-se ter o entendimento de que ao se estabelecer uma URI, ela deve existir para sempre, e por esta razão, não devem ser incluídos elementos pasde negócio, segurança, serviços eletrônicos ou digitais, sistema de valores, SOA, sociedade, TI (Tecnologia da Informação), TOGAF, Transparência, W3C, Web dos Dados, Web Semântica, XBRLsíveis de mudança futura, como números de versão ou siglas de tecnologias (Ex: Se uma URI de uma página desenvolvida na tecnologia ASP termina com .asp, se a tecnologia mudar para PHP é possível que a URI passe a terminar com .php). Além disso, URIs neutras também contribuem para a segurança do domínio e dos dados publicados, por não expor detalhes que possam comprometer a disponibilidade do sítio (W3C, 2014) [6].

5.9 Utilizar datas em URIs com moderação

Datas devem ser utilizadas com moderação: O uso de datas em URIs deve ser utilizado apenas para casos onde os dados mudam ao longo do tempo e se faz necessário guardar e disponibilizar o seu histórico. Tal utilização é comum para publicação de dados estatísticos, regulamentos, especiﬁcações, dentre outros documentos que tenham atualização periódica (mensal, trimestral, anual). O uso de datas deve ser utilizado apenas quando for realmente necessário, tendo uma justiﬁcativa plausível para seu uso (W3C, 2014) [6].

5.10 Utilizar hashs (#) em URIs cautelosamente

Uma recomendação especíﬁca consiste no uso de hashs (#) em URIs pois, apesar de serem muito utilizados na Web para mapeamento de elementos de conteúdo, as hashs(#) não são enviadas para o servidor, ﬁcando limitadas ao lado cliente. Desta maneira, a adoção de hashs não garante que o conteúdo identiﬁcado pela hash será devidamente processado por máquinas, podendo limitar a sua interpretação apenas para humanos (HYLAND; WOOD, 2011) [4]. Villazón-Terrazas et al. (2011) [5] sugere a utilização de barras (slashs) sempre que possível em substituições ao hash.

5.11 URIs das entidades (conjuntos de dados ou recursos) sejam diferentes das URIs das páginas que apresentam estes recursos para a leitura feita por humanos

Foi extraída a recomendação que haja uma diferenciação entre as URIs com conteúdos acessíveis por humanos e por máquinas. Exempliﬁcando: A URI (ou URL) de uma página que descreve um conjunto de dados (contendo seu título, descrição, fonte) é diferente da URI do conjunto de dados em si (o arquivo que contém os dados).
O processo COMSODE (COMSODE, 2014) [2] apresenta ainda uma estrutura padronizada para estabelecimento de URIs para catálogos e respectivos dados e ainda recomenda que cada órgão publicador tenha seu próprio catálogo armazenando seus dados, pois desta maneira, terá maior controle sobre a deﬁncição de URIs adequadas, conforme as práticas apresentadas. É ressaltado ainda que para a publicação de dados de 1-3 estrelas, as convenções para estabelecimento de URIs são desejáveis. Entretanto, para publicação de dados 4 ou 5 estrelas, tais condições são obrigatórias. Ademais, uma URI sempre deve retornar informação útil e quando se tratar de dados abertos conectados, este retorno deverá ser utilizando os padrões RDF ou SPARQL (WOOD et al., 2013) [6].

Daremos continuidade na apresentação de recomendações para a publicação de Dados Abertos Conectados nos próximos artigos desta série, abordando os vocabulários para a publicação de dados.

Até a próxima!!!

* Este artigo foi desenvolvido a partir da pesquisa de Mestrado “Uma Proposta de Modelo de Processo para Publicação de Dados Abertos Conectados Governamentais”, de autoria de Thiago José Tavares Ávila, no âmbito do Programa de Pós-Graduação em Modelagem Computacional do Conhecimento, do Instituto de Computação da Universidade Federal de Alagoas (UFAL).

Referências:

[1] ÁVILA, T. J. T. Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais. 223 p. Dissertação (Mestrado) — Instituto de Computação, Universidade Federal de Alagoas, Maceió, Alagoas, Brasil, 2015. Dissertação de Mestrado em Modelagem Computacional do Conhecimento.

[2] COMSODE. Methodology for publishing datasets as open data - COMSODE. [S.l.], 2014.1-31 p. Disponível em: <http://www.comsode.eu/index.php/deliverables/>.

[3] GALIOTOU, E.; FRAGKOU, P. Applying linked data technologies to greek open government data: a case study. Procedia - Social and Behavioral Sciences, v. 73, p. 479–486, 2013. ISSN 18770428.

[4] HYLAND, B.; WOOD, D. The Joy of Data - A Cookbook for Publishing Linked Government Data on the Web. In: . Linking Government Data. [S.l.: s.n.], 2011. p. 3-25.

[5] VILLAZÓN-TERRAZAS, B. et al. Methodological guidelines for publishing government linked data. Linking Government Data, p. 27-49, 2011.

[6] W3C. Best Practices for Publishing Linked Data. 2014. Acessado em 02/05/2017. Disponível em: <http://www.w3.org/TR/ld-bp/>.

[7] WOOD, D. et al. Linked data: structured data on the Web. [S.l.]: Manning Publications, 2013. 336 p. ISBN 9781617290398.

[8] Disponível em: http://www.cosasbuenas.es/img/lodlicensesoeg900.jpg. Acesso em 02/01/2018.

[9] Disponível em: http://images.slideplayer.com/37/10701387/slides/slide_10.jpg. Acesso em 02/01/2018.

Voltar

Comunidade Áreas de Integração

Termo para busca

Bons identificadores universais (URIs) para a publicação de Dados Abertos (Conectados) – parte 02

Marcadores

Comentários

Postar um comentário