Vizualizar Versão Completa : Nova ferramenta busca dados em mais de 500 milhões de sites


tpcs_90
17-06-2009, 01:33 PM
No meio da corrida entre a Google, a Microsoft e o Yahoo! pelos mais altos postos no ranking de buscas, e com o ainda tímido WolframAlpha, pesquisadores da Universidade de Washington começam a testar mais uma ferramenta de busca, que rastreia relacionamentos entre palavras em mais de 500 milhões de sites da internet. Seu nome: TextRunner.
Segundo o site Technology Review, do MIT, alguns especialistas já afirmam que o TextRunner será a base para uma nova geração de buscas mais inteligentes na web, na qual lotes de informação serão primeiramente recolhidos e então combinados de forma consistente.
A diferença do TextRunner para os outros buscadores é que ele se baseia no relacionamento entre duas ou mais palavras. A combinação "mata bactéria" leva a resultados como "calor mata bactéria" ou "luz ultravioleta mata bactéria", resultados chamados triplos que permitem à ferramenta prever o texto e visitar a página da qual vieram as informações.
Além disso, ele funciona sozinho e aprende sozinho. Se encontra a sentença "mamíferos têm sangue quente" e "cachorros são mamíferos", a ferramenta logo deduz que cachorros devem ter sangue quente.
"A importância do TextRunner está no fato de ser escalável porque não tem supervisão", explica Peter Norvig, diretor de pesquisa do Google, que doou ao projeto a imensa base de dados de sites usada pela empresa, para que a nova ferramenta possa analisar e ser testada, noticiou o site Slashdot. "Ela pode descobrir e aprender milhões de relações, mais de uma ao mesmo tempo", completa.
Norvig explica que as antigas ferramentas de busca precisavam de instruções do programador. Por exemplo, para encontrar nomes de CEOs em milhões de documentos, você primeiro precisa treinar o software com outros exemplos, como "Steve Jobs é CEO da Apple" e "Sheryl Sandberg é CEO do Facebook". "Com o TextRunner, não há humanos no loop: ele acha relações sozinho" diz o diretor, que afirmou também que o Google já possui um projeto similar.
Segundo Oren Etzioni, cientista computacional da Universidade de Washington e líder do projeto, a primeira versão da ferramenta é apenas um protótipo e não é destinada ao público, servindo apenas para demonstrações da extração automatizada de informações dos milhões de websites.
Porém, para os interessados em conhecer o início dessa ferramenta, basta acessá-la pelo endereço tinyurl.com/textrunner. A interface ainda é bem primária, com a cara dos primeiros sites da internet, mas um clique em um dos exemplos disponíveis já mostra o poder de sua busca.
Com um olhar bem científico, a ferramenta permite procurar por termos através de argumentos, predicados e questões inteiras formuladas, como "Quem foi presidente dos Estados Unidos?".
O resultado é apresentado de forma muito organizada, com hyperlinks que rapidamente levam a composições alternativas de texto, descrições e outros links. Uma busca básica por um dos exemplos, a pergunta "Quem construiu as pirâmides", em vez de levar a um único e óbvio resultado, leva a 36, cada qual com o número de fontes na frente.
Outros tópicos, resultantes de outras relações de palavras como "podem ter construído", "pararam de construir" e "não construíram" também são listados da mesma forma.
O TextRunner se assemelha, de certa forma, ao recentemente festejado WolframAlpha, e por enquanto parece mostrar de maneira um pouco mais crua suas fontes, em uma interface temporariamente tosca, lembrando um pouco os resultados atuais do próprio Google.

Créditos www.terra.com.br/tecnologia (http://www.terra.com.br/tecnologia)
:)