Em maio, Udi Manber apresentou nosso grupo de qualidade de busca responsável pela classificação dos resultados das consultas. Naquele post, Ubi apresentou várias equipes dentro da “Qualidade” (como gostamos de chamar o grupo), incluindo Classificação Principal, Busca Internacional, Interfaces com o Usuário, Avaliação, Webspam e outras equipes. Hoje eu gostaria de falar mais sobre uma daquelas equipes: A equipe de Classificação Principal.
Meu nome é Amit Singhal. Sou o Google Fellow encarregado da equipe de busca do Google. Trabalhei na área de busca nos últimos 18 anos tendo sido apresentado à busca em 1990 como estudante de pos graduação em ciência da computação. No mundo acadêmico, a área de busca é conhecida como Recuperação de Informação (ou RI). Após passar uma década como pesquisador de RI, vim para o Google em 2000 e trabalho com a busca desde então.
A busca do Google é um conjunto de algoritmos usados para encontrar os documentos mais relevantes para a consulta de um usuário. Fazemos isso em centenas de milhões de consultas por dia, a partir de um conjunto de bilhões e bilhões de páginas. Esses algoritmos são executados para cada consulta realizada na maioria dos serviços de busca do Google. Enquanto a busca de páginas Web é o nosso serviço mais usado e mais conhecido, os mesmos algoritmos também são usados - com algumas modificações - para outros serviços de busca do Google, incluindo Imagens, Notícias, YouTube, Mapas, Pesquisa de Produtos, Pesquisa de Livros e outros.
A pergunta mais comum que ouço sobre a classificação do Google é “como é que vocês fazem?". Obviamente, existem várias coisas que ajudam a criar um sistema de classificação tão moderno como o nosso e eu me aprofundarei na tecnologia por trás dele em um outro post. Hoje gostaria de compartilhar brevemente as filosofias por trás do processo de classificação do Google:
1) os resultados mais relevantes localmente servidos globalmente
2) manter a simplicidade
3) sem intervenção manual
A primeira filosofia é óbvia. Por causa de nossa paixão pela busca, queremos ter absoluta certeza de que todas as consultas dos usuários obtenham os resultados mais relevantes. Freqüentemente chamamos esse princípio de “nenhuma consulta será abandonada”. Sempre que fornecemos resultados inferiores ao ideal para qualquer consulta em qualquer idioma, em qualquer país - e o fazemos (busca não é de forma alguma um problema resolvido) - usamos isso como inspiração para melhorias futuras.
O segundo princípio também parece óbvio. Não é o desejo de todo arquiteto de sistema manter seus sistemas simples? Bem, conforme os sistemas de busca avançam, dada a grande variedade de consultas de usuários que precisamos responder em vários idiomas, é comum querer adicionar mais complexidade ao sistema para servir a fração incremental seguinte das consultas. Trabalhamos muito para que nosso sistema se mantenha simples sem comprometer a qualidade dos resultados. Esse é um esforço constante que vale à pena. Fazemos cerca de dez alterações de classificação toda semana e o grande fator considerado é a simplicidade na implementação de cada mudança. Nossos engenheiros entendem exatamente porque uma página foi classificada de certa maneira para uma dada consulta. Esse sistema simples e compreensível nos permitiu inovações rápidas, o que é visível! A filosofia de “manter a simplicidade” nos serve muito bem.
Nenhuma discussão sobre a classificação do Google seria completa sem que se fizesse a comum - porém equivocada! :) - pergunta: “O Google edita manualmente seus resultados?” Vou responder a essa pergunta usando a nossa terceira filosofia: "sem intervenção manual". No nosso ponto de vista, a Internet é feita por pessoas. Vocês são as pessoas que criam páginas e links para as páginas. Estamos usando toda essa contribuição humana através de nossos algoritmos. A ordenação final dos resultados é decidida por nossos algoritmos usando as contribuições da comunidade maior da Internet e não manualmente por nós. Acreditamos que o julgamento subjetivo de qualquer indivíduo é... bem... subjetivo, e as informações filtradas por nossos algoritmos do vasto volume de conhecimento humano codificado nas páginas da Internet e seus links é melhor do que a subjetividade individual.
A segunda razão pela qual temos um princípio contra o ajuste manual de nossos resultados é que, freqüentemente, uma consulta com resultados ruins é apenas um sintoma de uma melhoria em potencial a ser feita ao nosso algoritmo de classificação. Melhorar o algoritmo fundamental não apenas melhora aquela consulta, melhora toda uma classe de consultas e, na maioria das vezes, para todos os idiomas. Devo acrescentar, entretanto, que existem políticas claras para sites recomendados pelo Google e nós tomamos as devidas providências contra sites que, por quaisquer motivos, violam nossas políticas (ex.: exigências legais, pornografia infantil, vírus, malware, etc.).
Fique ligado no meu próximo post em que discutirei em detalhes as tecnologias por trás de nossa classificação e darei exemplos de várias técnicas modernas de classificação em ação. Nossa paixão pela busca está mais forte do que nunca, e devo dizer que, como um pesquisador de busca, tenho o melhor emprego do mundo. :-)