Conteúdos
SEMBrasil
Contato
Pesquisas
Newsletter

HOME > ENTREVISTAS > ENTREVISTA COM DAN CROW, COORDENADOR DO GOOGLEBOT
Dan Crow é o gerente dos serviços de indexação do Google – coordena o Googlebot que nada mais faz do que rastrear e retornar toda a informação que está na Web para o banco de dados do Google. Nós conversamos sobre os problemas em indexar Web 2.0; se o Google estaria ou não trabalhando em conjunto com a Adobe; Web invisível (Dark Web ou Deep Web) e sobre o futuro do arquivo de instruções de indexação (robots.txt).
Fonte: The Guardian
Entrevista por: Bobbie Johnson
Data: 27 de Março de 2007
Tradução: Dayene Luizon e Gustavo Bacchin
Link para versão original: http://blogs.guardian.co.uk/technology/archives/2007/03/27/interview_googles_dan_crow.html
BJ: Durante os últimos anos houve um considerável progresso na maneira em que o conteúdo é apresentado na web. Atualmente, quais são os principais problemas com indexação?
DC: Nós realizamos um trabalho eficiente com HTML, mas com Flash poderíamos melhorar. Ao encontrarmos uma página na Web que contenha um video em Flash, nós extraímos e indexamos apenas o texto. Porém Flash é muito mais rico que isto. Por isso, um dos projetos em que estou traballhando no momento, baseia-se em como melhorar o nosso processamento de Flash – esta é uma área em que ainda podemos ser melhores. Porém este não é só um problema nosso.
BJ: Há uma ironia no fato de que vocês são incapazes de indexar o conteúdo dos videos do YouTube, considerando que ele hoje pertence ao Google. Quais seriam as alternativas, tentar indexar o conteúdo dos vídeos ou encontrar uma maneira de se incluir mais “metadata”?
DC: No momento, nosso conselho é de que os webmasters precisam nos ajudar e muito – um video em Flash é basicamente uma série de páginas virtuais. Se você usar links em HTML, nós então seremos capazes de ver a estrutura geral. O conteúdo ainda estará em Flash, mas pelo menos, conseguiremos acessar parte dele. No mínimo, nós gostaríamos de ser inteligentes o suficiente para enxergar dentro do Flash. Mas nós ainda não chegamos nesse ponto.
BJ: Vocês estão trabalhando com a Adobe para melhorar a indexação de dados em aplicações como Flash?
DC: Eu não posso falar sobre isso.
BJ: Porque Flex e Apollo seriam uma chance de se encontrar uma alternativa.
DC: Com certeza. Esta não é uma obeservação infundada. Nós certamente precisamos descobrir isso… não tem sido a nossa prioridade, mas durante os últimos seis meses temos dado maior atenção.
BJ: Você acha que ainda poderão aparecer novas linguagens que serão completamente invisíveis ao Google?
DC: No momento não sei de nenhuma linguagem que poderia transformar a maneira como indexamos páginas. Ajax seria provavelmente a única que poderia causar algum impacto. Claro que nada é impossível, e nós tentamos manter os ouvidos bem abertos. Até agora, nosso mecanismo de indexação e busca tem se mostrado extremamente eficaz. Minha suspeita é de que não haverão mudanças por um bom tempo.
BJ: E a respeito da “Web Invisível” – sites que não possuem links externos e por isso são invisíveis ao Google? Quão eficiente é o Google em entender o que existe lá fora?
DC: Bom, indexação certamente tem seus limites – o limite físico de quão rápido podemos indexar um site, nas nossas máquinas e nas máquinas que estão sendo indexadas por nós. Isso significa que podemos construir uma lista de sites cada vez maior e indexá-los em frequências diferentes.
Mas nós ainda não sabemos o quanto da Web nossa lista abrange. Temos uma estimativa boa, mas não conseguimos saber exatamente qual a percentagem de informação online que ela cobre.
BJ: Ultimamente temos ouvido falar muito a respeito da violação de direitos autorais e recentemente uma decisão da justiça Belga mostrou a preocupação de algumas empresas que consideram a indexação de seu conteúdo injusta. Você acha que a única alternativa para bloquear spiders seria o uso do robot.txt?
DC: Nós poderîamos certamente fazer um trabalho mais elaborado para educar as pessoas em como usar o robots.txt. Esta é uma tecnologia que todo muito conhece mas nem sempre sabe como usá-la. Há diversas maneiras de empregá-la. É surpreendente o quão avançadas são as restrições que você pode criar.
E é um sistema robusto. A melhor parte é que robots.txt é um formato padrão usado por todas as ferramentas: Google, Yahoo, MSN e outros.
BJ: E a respeito do uso de robots.txt para dizer ao Google que destrua a informação que foi indexada?
DC: Nós já ouvimos essa idéia antes - “depois de data X não mostre determinada informação nos resultados de busca”. Me parece um pedido razoável e nada que não possa ser feito num futuro próximo.
Não é um padrão formal da Web. Mas acho que podemos pensar mais nessa idéia.
Por fim, é do interesse de todas as ferramentas de busca e também do interesse dos usuários, que tenhamos um bom mecanismo (referindo-se ao robots.txt). Acredito que até agora, estamos realizando um ótimo trabalho.
Clique na estrela correspondente ao seu voto:




(2 votos)
Comentários
0 pessoa(s) comentaram até agora
Não existe nenhum comentário postado.Avisos
Os itens com asterisco (*) são campos de preenchimento obrigatório.
Todos devem se identificar através do e-mail válido.
Os e-mails dos usuários não serão divulgados no site.
Os comentários estão sujeitos à moderação.
Enviar Comentário
Calendário
|
|||||||||||||||||||||||||||||||||||||||||||||||||
Eventos pagos
Eventos gratuitos
Eventos pagos e gratuitos
Painel do Usuário
Colunistas
Google SearchWiki: impacto em resultados orgânicos?
Boas práticas de Links Patrocinados
Tagnologia: universo que une o onlie e o offline
Como a arquitetura de informação pode influenciar em SEO?
Patrocínio