Siga-me no Twitter em @vascofurtado

quinta-feira, 9 de junho de 2011

Estaria Google Temendo A Web Semântica?

Desde que comecei a fazer pesquisa, aliás desde que comecei a estudar computação, Inteligência Artificial (IA) sofreu com estigmas. “É muito complicado”. “Só serve na academia”. “Não tem nada de inteligente”, etc.

A Web Semântica sempre me pareceu que seria a grande revolução da IA. A máxima difundida nesse contexto de que “um pouco de semântica faz uma grande diferença” ajuda a explicar o porque de meu otimismo. IA sempre baseou-se na capacidade de representar conhecimento. Grandes bases de conhecimento eram necessárias e toda a complexidade de tratar o conhecimento nas mesmas foi e ainda é assunto de pesquisa na área. No entanto, o surgimento da web modificou um pouco isso. A grande base de dados/conhecimento que se esperava representar, de repente, já existe: é a própria web. Quando se passar de uma representação baseada em links para páginas, como a web tradicional de hoje, para uma representação de links para dados, como vislumbra a web semântica, tem-se automaticamente essa base de conhecimento gigantesca. Não precisa de muita complexidade para representar esses links inter-recursos. Propriedades simples como transitividade entre dados que estão interligados com várias bases já proporciona um poder de inferência sem igual.

Depois do otimismo dos últimos anos, algo acontece para abalar mesmo os mais otimistas: Google não parece satisfeito com o desenrolar das coisas. Senão vejamos. Em que se baseia o negócio da Google? Organizar os dados da web através de um algoritmo que busca páginas relevantes calculadas a partir de links. Estaria a web semântica, quando começa a estruturar os dados da web de outra forma que não links para páginas, gerando uma onda contrária à direção que Google veleja?

Vejo alguns sinais claros de que isso ocorre ao analisar decisões recentes sobre  padrões para representar dados na web. O W3C, comitê gestor da web, tem tentado, há cerca de dez anos, definir padrões para representação de dados na web. As recentes sugestões todas foram na direção de usar RDF (Resource Description Framework). Facebook, quando decidiu usar uma variação chamada RDFa, deu um enorme impulso para aceitação desse padrão.   

Há alguns dias, o IPTC (International Press Telecommunication Counsil) decidiu lançar uma ontologia para representar dados sobre notícias, chamada rNews, que também se baseia em RDFa. Vários outros exemplos indicavam que esse padrão decolaria.

De repente, na semana passada, contra todos os prognósticos, Google, Microsoft e Yahoo se juntaram e lançaram schema (schema.org). Um outro padrão para representar as informações na web e que não segue RDFa.  Os três gigantes associados disseram que seus mecanismos de busca só vão reconhecer o significado de páginas que seguirem esse padrão. Schema usa microdata que é reconhecidamente menos extensível que RDFa, mas que mantém o status quo que os gigantes das buscas adoram. Uma ducha de água fria nos entusiastas na web semântica. Isso diminui a velocidade com que dados padronizados vão poder ser ligados e representados com um pouco de semântica.
Quiçá isso seja só uma redução de velocidade que no futuro seja desprezível. De qualquer forma é bom ficar atento. Não queria ter Google como inimigo. Acompanhado de Microsoft e Yahoo então! IA terá que esperar um pouco mais para ter sua glória?

3 comentários:

Daniel Schwabe disse...

Apenas para esclarecer. O RDFa é uma das codificações possiveis para o modelo de dados RDF, que procura expressar a "semânica" (significado) dos dados. Não é, portanto, uma alternativa a RDF, apenas uma serialização que se insere naturalmente em marcações HTML já existentes.
A proposta do schema.org (Google, Microsoft e Yahoo) usa microdata, que é um formato alternativo para representar RDF, mais simples porém mais limitado. Este formato foi proposto como parte do HTML5, que tem como editor um funcionário da Google.

Portanto a discussão RDFa x Microdata é apenas sintática, e de fato, pouco relevante, pois é muito fácil escrever tradutores de um formato para o outro (que já estão disponíveis).

Como parte do schema.org, foram também propostos vocabulários (ontologias) para descrever dados sobre os temas de maior interesse das máquinas de busca - produtos, eventos, pessoas, etc...
Acredito que é aí que reside o maior conflito, pois estes vocabulários propostos NÃO seguem nenhum dos padrões já estabelecidos (p.ex., FOAF, Good Relations, etc...). A as máquinas de busca só irão indexar os dados codificados nestes vocabulários (e mais alguns já processados atualmente).
Sendo assim, Google e Microsoft efetivamente passam a controlar os vocabulários utilizados para descrever grande parte dos (meta)dados que irão ser disponibilizados na WWW - e é aí que "mora o perigo"!.

Alyne disse...

Dr. Vasco, sou jornalista e gostaria de conversar com o senhor sobre o Wikicrimes. Você pode me passar um e-mail ou telefone para contato? Obrigada

Alyne disse...

importante: alinepavanelli@gmail.com
Obrigada