Qualidade de Pesquisa é o nome de uma equipe responsável pela classificação dos resultados de pesquisa do Google. Nosso trabalho é claro: Algumas centenas de milhões de vezes por dia pessoas fazem perguntas ao Google e, dentro de uma fração de segundos, o Google precisa decidir quais dentre os bilhões de páginas da Internet serão exibidas a elas - e em que ordem. Ultimamente, temos feito outras coisas também. Mas voltaremos a esse assunto mais tarde.
Para algo que é usado tão freqüentemente por tantas pessoas, surpreendentemente sabe-se pouco sobre a classificação no Google. Isso é inteiramente nossa culpa e foi planejado assim. Honestamente, somos bastante reservados sobre o que fazemos. Existem duas razões para isso: concorrência e abuso. A concorrência é uma razão bastante óbvia. Nenhuma empresa quer compartilhar suas receitas secretas com seus concorrentes. Quanto ao abuso, se deixarmos nossas fórmulas de classificação acessíveis demais, facilitaremos para que as pessoas burlem o sistema. A segurança através da obscuridade nunca é a medida mais eficaz e nós não contamos exclusivamente com isso, mas ela evita muitos abusos.
Os detalhes dos algoritmos de classificação são de muitas maneiras as jóias da coroa do Google. Temos orgulho delas e as protegemos com todo cuidado. Estima-se que mais de mil programadores e cientistas foram utilizados diretamente em seu desenvolvimento e o ritmo da inovação não diminuiu.
Mas ser totalmente reservado também não é o ideal e essa postagem é parte de um novo esforço de revelar um pouco mais do que revelamos no passado. Tentaremos periodicamente contar novas coisas, explicar coisas velhas, dar orientação, divulgar notícias e participar de conversas. Vamos começar com algumas informações gerais sobre o nosso grupo. Teremos mais postagens no futuro.
Vou usar um momento para me apresentar. Meu nome é Udi Manber e sou VP de engenharia do Google, responsável pela Qualidade de Pesquisa. Estou no Google há mais de dois anos e trabalho com tecnologias de pesquisa há quase 20 anos.
O coração do grupo é a equipe que trabalha na classificação principal. A classificação é difícil, muito mais difícil do que a maioria das pessoas pensa. Uma razão para isso é que os idiomas são inerentemente ambíguos e os documentos não seguem nenhum conjunto específico de regras. Realmente não há normas sobre como juntar informações, portanto, nós precisamos conseguir entender todas as páginas da Internet escritas por qualquer pessoa, por qualquer razão. E isso é apenas metade do problema. Também precisamos entender as consultas que as pessoas fazem, que têm em média menos de três palavras e mapeá-las de acordo com nossa compreensão de todos os documentos. Sem dizer que pessoas diferentes têm necessidades diferentes. E nós temos que fazer tudo isso em apenas alguns milissegundos.
A parte mais famosa do nosso algoritmo de classificação é o PageRank, um algoritmo desenvolvido por Larry Page e Sergey Brin, fundadores do Google. O PageRank ainda é usado hoje, mas agora é parte de um sistema muito maior. Outras partes incluem modelos de idioma (a capacidade de lidar com frases, sinônimos, sinais diacríticos, erros de digitação, etc.), modelos de consulta (não é apenas o idioma, a questão é como as pessoas o usam hoje), modelos de tempo (algumas consultas são melhor respondidas com uma página com 30 minutos de idade e algumas são melhor respondidas com uma página que resistiu ao teste do tempo) e modelos personalizados (nem todas as pessoas querem a mesma coisa).
Outra equipe de nosso grupo é responsável por avaliar como estamos indo. Isso é feito de várias maneiras diferentes, mas o objetivo é sempre o mesmo: melhorar a experiência do usuário. Este não é o objetivo principal, é o único. Existem avaliações automatizadas a cada minuto (para garantir que nada dê errado), avaliações periódicas de nossa qualidade geral e, mais importante, avaliações das melhorias de algoritmos específicos. Quando um engenheiro tem uma nova idéia, ele cria um novo algoritmo, nós testamos essa idéia exaustivamente. Temos uma equipe de estatísticos que analisa os dados e determina o valor da nova idéia e nos reunimos com eles semanalmente (algumas vezes duas vezes por semana) para analisar novas idéias e aprovar novos lançamentos. Em 2007, lançamos mais de 450 novas melhorias, cerca de 9 por semana em média. Algumas dessas melhorias são simples e óbvias -- por exemplo, consertamos a maneira com que as consultas de acrônimos em hebraico eram tratadas (em hebraico, os acrônimos são indicados por um (“) ao lado do último caractere, assim IBM seria IB”M) e algumas são bastante complicadas -- por exemplo, fizemos alterações significativas ao algoritmo PageRank em janeiro. Na maior parte do tempo buscamos melhorias em relevância, mas também trabalhamos em projetos em que o único objetivo é simplificar os algoritmos. O simples é bom.
A pesquisa internacional tem sido uma das principais áreas de concentração nos últimos dois anos. Isso significa todos os idiomas falados e não apenas os principais. No ano passado, por exemplo, fizemos grandes melhorias em azerbaijani, idioma falado por cerca de 8 milhões de pessoas. Nos últimos meses, lançamos corretores ortográficos em estoniano, catação, sérvio, sérvio-croata, ucraniano, bosniano, latviano, filipino, esloveno e farsi. Organizamos uma rede de pessoas em todo o mundo que nos dão feedback e temos um grande número de voluntários de todas as partes do Google que falam diferentes idiomas e nos ajudam a melhorar a pesquisa.
Outra equipe se dedica a novos recursos e novas interfaces com o usuário. Ter um bom motor é algo necessário para se ter um bom carro, mas não é o suficiente. O carro precisa ser confortável e fácil de dirigir. A interface de pesquisa com o usuário do Google é bastante simples. Muito poucos usuários leem nossas páginas de ajuda e eles se viram muito bem sem elas (mas é bom lê-las mesmo assim e nós estamos trabalhando para melhorá-las ainda mais). Quando adicionamos novos recursos, tentamos garantir que sejam intuitivos e fáceis de usar para todos. Uma das mudanças mais visíveis que fizemos nos últimos anos foi a Pesquisa Universal. Outras incluem o Google Notebook, Mecanismos de Pesquisa Personalizados e obviamente várias melhorias do iGoogle. A equipe de interface com o usuário tem o auxílio de uma equipe de especialistas em usabilidade que conduz estudos com o usuário e avalia novos recursos. Eles viajam por todo o mundo e chegam a ir até as casas das pessoas para ver os usuários em seus habitats naturais. (Não se preocupe, eles não chegam sem se anunciar ou sem serem convidados!)
Há uma equipe inteira que se concentra no combate ao spam e outros tipos de abuso. Essa equipe trabalha em vários assuntos desde texto oculto até páginas fora do assunto principal entulhadas com palavras-chave inúteis e muitos outros esquemas que as pessoas usam para tentar obter uma classificação mais alta em nossos resultados de pesquisa. A equipe identifica novas tendências de spam e trabalha para reagir a essas tendências de maneiras escalonáveis e, como todas as outras equipes, fazem isso internacionalmente. O grupo de spam trabalha lado a lado com a equipe Central de Webmasters do Google para que possam compartilhar idéias com todos e para que também possam ouvir os donos dos sites.
Existem outras equipes devotadas a projetos particulares. Em geral, nossa estrutura organizacional é bastante informal. As pessoas se deslocam e novos projetos começam a todo momento.
Uma dos principais fatores sobre a pesquisa é que as expectativas dos usuários crescem rapidamente. As consultas de amanhã serão bem mais difíceis do que as consultas de hoje. Exatamente como a lei de Moore determina que a velocidade de computação dobra a cada 18 meses, existe uma lei não escrita e oculta que torna a complexidade de nossa consulta duas vezes mais difícil num curto período de tempo. É impossível medir isso com precisão, mas todos nós percebemos. Sabemos que não podemos descansar por ter alcançado algum sucesso e que temos que trabalhar duro para enfrentar os desafios. Como mencionei anteriormente, continuaremos a fornecer atualizações sobre a qualidade de pesquisa nos próximos meses, portanto, fique ligado.