A Internet em tabelas

Quarta-feira, 17/06/2009

quadrados

A Internet é um gigantesco repositório de informação desestruturada. Vou explicar com um exemplo: o internauta encontra facilmente informações sobre raças de cães, mas se quiser organizar essas raças pelo tamanho do animal, vai ter que garimpar as informações de peso e medidas raça por raça e tabelar os dados usando recursos cerebrais próprios. Se o internauta tiver sorte, encontrará um site que traz a tabela prontinha, mas essa não é a regra, infelizmente. Mesmo quando encontra os dados tabelados, não é simples gerenciá-los para obter combinações como, por exemplo: que raças de cães grandes têm temperamento dócil?

Estruturar a web, colocando cada dado em um quadradinho é um dos grandes desafios da Web Semântica. Uma abordagem é deixar a tarefa por conta dos geradores de conteúdo que passariam a gerar informação já estruturada. O Freebase vai por essa linha. Freebase é mais do que uma grande enciclopédia, é um banco de dados altamente estruturado com informações enciclopédicas. Outra linha de ação é aquela em que os buscadores fazem das tripas coração para estruturar a informação desarticulada e solta pela rede. Três serviços recém-lançados se propõem essa tarefa: Wolfram, Bing e Google Squared. Por trás deles têm gente de peso. Wolfram é desenvolvido pela mesma equipe que criou o software Mathematica. Google Squared conta com a experiência em buscas do Google. O Bing é da Microsoft, que também tem punch para entrar nessa briga. Cada um dos três usa uma abordagem diferente, o que é muito interessante, pois traz para os internautas soluções variadas que não competem diretamente entre si. O Wolfram faz a análise estatística dos dados da Web para fornecer resultados numéricos confiáveis. O Bing se propõe a agir em nichos específicos como viagens e compras e, dessa forma, trazer informação organizada e mastigadinha para o usuário. O Google Squared deixa o usuário estruturar a informação de forma dinâmica.

Viva! Agora sim, a Web Semântica está acontecendo. Para algumas pessoas a Internet em tabelas nunca vai fazer falta, mas convenhamos, informação bruta é quase nada, informação  gerenciável  leva ao conhecimento.

resposta

Estamos entrando na era da Web 3.0, também chamada de Web semântica. Uma área que vai avançar muito nessa nova fase da Internet é a dos sistemas de respostas. Diferente de um sistema de busca, que fornece endereços, o sistema de respostas responde diretamente as perguntas do usuário. Já existem sistemas de resposta disponíveis na praça como o Answers.com. No Answers o usuário digita um assunto e recebe textos extraídos de fontes populares como Wikipedia ou Oxford Press. O serviço prestado pelo Answers é o de organizar a informação para o usuário, poupando-o de visitar site por site coletando os dados que precisa. A relevância de um serviço como esse é discutível, pois apenas queima uma etapa da pesquisa e deixa a cargo do sistema a seleção das fontes. Mas não vamos tirar o mérito dessa iniciativa que pode ser prática para pessoas que querem apenas uma resposta básica sobre assuntos do senso comum. Outros sistemas de resposta estão em desenvolvimento e prometem ir além com recursos avançados de semântica para dar respostas a perguntas complexas. Um exemplo nessa linha é o Webscalers da Universidade de Binghamton, outro é o Wolfram da Universidade de Harvard.

O que me preocupa nos sistemas de resposta é o modelo suicida que eles adotam. Esses sistemas não respondem às perguntas por si, recorrem a fontes da Internet. O que eles fazem é um trabalho de interpretação, pesquisa, classificação, filtragem e síntese, o que não é pouco. Em outras palavras, eles atuam como se fossem um ser humano que pesquisa na Internet e processa os dados até chegar a uma boa síntese. Como se vê, os sistemas de resposta dependem de fontes de conteúdo. Quem publica conteúdo na Internet espera receber visitas, afinal, elas geram receita publicitária, assinaturas ou alguma outra forma de recompensa menos tangível como satisfação pessoal, prestígio e reconhecimento. Se os internautas passarem a usar maciçamente os sistemas de resposta, os sites de conteúdo deixarão de ser visitados por pessoas. Somente o robô indexador do sistema de respostas fará uma varredura periódica no site em busca dos conteúdos. Sem visitação, os conteudistas deixarão de atuar e o sistema de respostas perderá as fontes que são vitais à qualidade de suas respostas, ou seja, o sistema de respostas destrói a si mesmo.

Esse cenário apocalíptico de extinção das fontes de conteúdo provavelmente não vai acontecer porque o ecossistema da informação reage e se adapta, mas existe o perigo real de os sistemas de resposta se tornarem poderosos a ponto de subordinar os produtores de conteúdo às suas regras. Aí caímos naquela engrenagem de poder econômico velha conhecida da indústria cultural. Os sistemas de resposta atuam na distribuição da informação. Eles são intermediários entre quem consome e quem produz. Em um mundo ideal, o intermediário tem o valor justo e proporcional ao serviço que presta. No mundo real, porém, os intermediários costumam ter poder muito superior à importância do seu papel. Eles é que dão as cartas. Pensando bem, já vemos essa desproporção hoje no poder acumulado pelo Google. Até agora, o Google, que é administrado por gente esperta, não matou a galinha dos ovos de ouro. O Google leva os internautas até os sites de conteúdo, enquanto que os sistemas de respostas prometem fazer exatamente o contrário. O Google concentra um poder imenso, mas que poderá parecer nanico se um dia os sistemas de respostas assumirem o posto de Grande Oráculo Universal.

oraculo-de-delfos

Imagine que você quer saber dia, hora e local do próximo jogo do seu time de futebol. Não seria bom escrever no buscador de Internet uma pergunta simples como:
— Quero informações sobre o próximo jogo do Atlético Paranaense.
E receber uma resposta direta:
— O próximo jogo será contra o Coritiba, dia 25/04 às 16h na Arena da Baixada.
O dia em que isso acontecer, os buscadores deixarão de ser meros sistemas de busca para se tornarem oráculos da sabedoria do universo. Rezo para que esse dia nunca chegue. Prefiro o modelo atual em que o sistema de busca responde com endereços de Internet, pois buscadores nada mais são do que uma evolução da lista telefônica. O sistema de busca não tem que dar respostas e, sim, informar onde eu as encontro, da mesma forma que a lista telefônica não fechava negócios, apenas informava o número da loja. Não é o que pensa o pesquisador Weiyi Meng, da Universidade de Binghamton, nos EUA. Ele e sua equipe estão desenvolvendo um sistema de busca que fornece respostas em vez de endereços. O projeto da Universidade pode ser acompanhado no site Webscalers. Não sei até onde vai a ingenuidade do professor Meng, ou seria eu o ingênuo por não botar fé na viabilidade de uma proposta como esta? Acredito que para muitas consultas seja possível fornecer respostas em vez de endereços. A pergunta “quanto é 2 + 2?” pode ser respondida diretamente com uma razoável chance de êxito, mas a imensa maioria das perguntas admite respostas múltiplas, sem falar nas que pertencem ao reino das polêmicas emaranhadas e intransponíveis. Uma pergunta simples como “Quem descobriu o Brasil?” não é simples. Se você pensou em Pedro Álvares Cabral, com certeza, se lembrou das aulas de História do ensino fundamental, mas aqueles bons velhos tempos não voltam mais. Qual é o nível de profundidade que se espera dessa pergunta? O que é descobrimento? Houve outras viagens ao Brasil antes de Cabral vir demarcar essas terras como colônia portuguesa?
Se um sistema de respostas substituísse o sistema de busca os sites de Internet deixariam de ser visitados porque o usuário teria o que precisa no passo anterior à visita. Quem iria produzir conteúdo sem a perspectiva de receber visitas, exceto a dos robôs do Google? Como o ecossistema da informação equilibraria essa equação? Por fim, um sistema de respostas criaria uma perigosa ilusão de verdade suprema. Para que verificar fontes se o buscador já fez isso usando algoritmos idôneos? Quem iria definir esses algoritmos? Atualmente, já temos a caixa preta do ranqueamento do Google que coloca no topo da sua lista quem ele quiser. Imagine se um dia ele começar a dar respostas baseado na fonte que ele quiser. É incrível como algumas pessoas estão dispostas a depositar confiança bobina em sistemas cômodos, mas de alto risco. Bem, isso não é nenhuma novidade, afinal não são poucos os que dizem: li na Internet, logo é verdade.