O Blog do Google Brasil
Novidades sobre os produtos e a tecnologia do Google no Brasil e no mundo
Você pergunta. A Busca do Google entende – cada vez melhor
30 outubro, 2019
Se tem uma coisa que aprendi ao longo de quinze anos trabalhando na Busca do Google é o seguinte: as pessoas têm uma curiosidade sem fim. Processamos bilhões de buscas por dia, e 15% delas são inéditas – nunca foram feitas antes. Por isso, o Google tem de criar maneiras de mostrar resultados para pesquisas que não podemos prever.
Quando pessoas comuns, como você e eu, entram na Busca, elas nem sempre sabem muito bem o que estão procurando ou como formular a pergunta. Talvez a gente não saiba quais palavras usar, ou qual a grafia correta de um termo. Isso porque, com frequência, recorremos à Busca justamente para aprender, e não porque já sabemos o que descobrir.
Para ser útil, a Busca do Google tem de compreender a linguagem. Cabe a nós entender o que o usuário está procurando e encontrar informações relevantes na internet – não importa como a pessoa digite a palavra ou formule a pergunta. Embora o Google venha trabalhando há anos para melhorar cada vez mais sua capacidade de compreensão da linguagem, nem sempre a gente acerta – sobretudo no caso de consultas complexas ou feitas em tom de bate-papo. Isso explica o fato de que muita gente digite a pergunta num idioma que apelidamos de “palavrachavês”: uma sequência de palavras que, na avaliação do usuário, o Google será capaz de compreender – mas que é diferente do jeito que a pessoa faria a pergunta numa conversa normal.
Graças aos mais recentes avanços da equipe de pesquisa em compreensão da linguagem – fruto do aprendizado de máquina –, conseguimos melhorar sensivelmente nosso entendimento das consultas dos usuários. É o maior progresso dos últimos cinco anos, e uma das maiores conquistas da história da Busca.
Os modelos BERT na Busca
No ano passado
começamos a usar uma técnica
baseada em redes neurais, disponível em formato open source, que realiza um pré-treinamento em processamento de linguagem natural (NLP, na sigla em inglês). Essa técnica se chama “Bidirectional Encoder Representations from Transformers” (Representações Bidirecionais de Codificação de Transformers) – ou
BERT
, para resumir. Com ela, qualquer pessoa é capaz de ensinar um sistema a responder perguntas da forma mais avançada.
Essa revolução é resultado de pesquisas do Google sobre os chamados transformers – modelos que processam palavras e analisam a relação com os demais termos da frase, em vez de analisar palavra por palavra, na ordem em que estão escritas. Com isso, um modelo BERT leva em conta o contexto no qual determinada palavra se insere, uma vez que considera também as palavras que vêm antes e depois daquele termo. Essa tecnologia é especialmente útil para entender o raciocínio por trás da forma como as pessoas digitam as consultas.
Sozinhos, porém, avanços em software não bastam para essa conquista: também é preciso de hardware novo. O BERT cria modelos tão complexos que superam a capacidade do hardware tradicional. Por isso, pela primeira vez o Google está usando as mais modernas
TPUs de Nuvem
para trazer os resultados da Busca e oferecer informações mais relevantes, mais rápido.
Como o Google compreende as buscas dos usuários?
A explicação oferecida nos parágrafos acima possui muitos detalhes técnicos. Mas afinal de contas, o que isso significa para você? Bem, o uso de modelos BERT na classificação e na exibição dos resumos dos resultados da Busca permite que o Google melhore muito o “cardápio” de informações que oferece ao usuário. No caso da classificação dos resultados, a tecnologia BERT ajuda a Busca a entender ainda mais uma a cada dez buscas feitas em inglês nos Estados Unidos – e, nos próximos meses, também em outros países e idiomas.
No caso de consultas maiores e mais coloquiais, ou de buscas nas quais preposições como “para” e “de” sejam fundamentais para compreender a informação desejada, a Busca vai entender o contexto de cada palavra digitada. Isso significa que o usuário pode fazer a pesquisa escrevendo da forma natural de falar.
O lançamento dessa novidade chega depois de uma bateria de
testes
, realizados para garantir que as mudanças fossem de fato positivas para os usuários. A seguir mostramos alguns exemplos usados no nosso processo de avaliação, que comprovam a capacidade do BERT de compreender a intenção por trás do que as pessoas escrevem.
Alguém digita: “2019 turista brasileiro para EUA precisa de visto”. A preposição “para”, bem como sua relação com as demais palavras digitadas, é fundamental para entender o sentido da consulta. O brasileiro vai viajar para os Estados Unidos, e não o contrário. Antes da nova mudança, o algoritmo não era capaz de compreender a importância dessa relação, e com frequência os resultados falavam de americanos em viagem para o Brasil. Agora, com o BERT, a Busca passa a considerar esse tipo de nuance e entende que uma palavrinha tão simples quanto “para” tem uma grande importância num caso como este – e, consequentemente, será capaz de mostrar resultados mais precisos.
Veja, a seguir, mais algumas situações nas quais o BERT ajuda a identificar sutilezas de linguagem que nem sempre os computadores são capazes de entender (ao contrário dos humanos). O modelo BERT ajuda a entender que as palavras “for someone” (para alguém) são um pedaço fundamental desta consulta. Antes dele, o algoritmo não identificava esse sentido e oferecia resultados genéricos sobre receitas médicas.
No passado, uma consulta como esta deixaria o sistema confuso: ele dava importância excessiva à palavra “curb” (meio-fio) e ignorava o termo “no” (não). Com isso, não compreendia a centralidade da negativa na hora de trazer as respostas. Às vezes a gente até mostrava resultados que falavam sobre estacionar o carro numa “colina com meio-fio”!
Enquanto a página de resultados antiga incluía um livro na categoria “Young Adult” (jovens leitores), agora o BERT entende que a correspondência para a palavra “adult” estava fora de contexto, e mostra resultados mais relevantes.
Uma Busca aprimorada, em mais idiomas
Os modelos BERT estão sendo aplicados também a Buscas feitas em todo o mundo. Uma das características mais determinantes desse sistema é sua capacidade de aplicar o que aprendeu numa língua a outros idiomas. Assim, um modelo que aprendeu a partir do inglês (usado em grande parte dos conteúdos da internet) pode transferir esse conhecimento a outras línguas. Isso ajuda a mostrar resultados mais úteis em várias línguas nas quais a Busca está disponível.
No caso dos resumos, o BERT está sendo usado para melhorar a classificação desses resumos em mais de vinte países. Já observamos melhorias consideráveis em coreano, hindi e português.
Ainda há muito trabalho a fazer
Não importa o que você queira saber ou qual o seu idioma: o Google deseja que você não tenha mais de escrever em “palavrachavês” e possa fazer suas pesquisas de um jeito natural, como faria normalmente. Mas, de vez em quando, pode ser que o Google ainda se atrapalhe. Mesmo com o BERT a gente às vezes erra. Se você pesquisar “qual estado fica ao sul de Nebraska”, a melhor resposta que o BERT pode oferecer é “South Nebraska”. (Nebraska do Sul, nome de um bairro na cidade de Tampa, na Flórida – que nem fica ao sul de Nebraska e nem mesmo é um estado.)
Compreender a linguagem é um desafio constante, que nos incentiva a continuar trabalhando e aprimorando a Busca. Queremos melhorar sempre, para compreender o significado de todas as consultas que você faz no Google – e para devolver as respostas que você realmente deseja saber.
Publicado por Pandu Nayak, pesquisador e vice-presidente de Busca do Google
Categorias
#carnaval
#copabr
#DáUmGoogle #YearinSearch #YearinSearchBrasil
#gddbr
#gonegoogle
#GoogleArts&Culture #Vermeer
#googleatrio20
#GoogleforBrazil
#hangoutsdenatal
#hangoutSPFW
#MaesCriadoras
#marcocivil
#ViladoPapaiNoel
+1
10 anos de Chrome; Chrome; Novo Chrome
10 anos de Google
20 anos de Google
20 anos do Google; Google 20 anos; Google; Aniversário do Google
admin
AdMob
adsense
adwords
AI
ajuda
Amazon
amazonas
Amazônia
America Latina
América Latina
Android
Android Go
aniversário
aplicativo
apps
art project
arte urbana
arte urbana contemporânea
artificial intelligence
artistas
Bach
blogger
bolsa
brazil elections
busca
busca 2017
busca do ano
buzz
caffeine
Campus São Paulo
Carnaval
celular
ceu
Change the Game
China
chrome
chromebook
chuvas
Cidadania Digital
cinejoia
cloud computing
colorpluscity
compartilhamento
comunidades
conecte
Conta do Google
conversas agrupadas
copa do mundo
COVID19
Creators for Change
Cresça com o Google
CriandoOrgulho
Cultural Institute
cultural institute; berlim; muro
currents
curso
dados móveis
data center
datally
desenvolvedores
design
detona ralph
Developer Bus
developer day
Dia da Internet Segura
dia da privacidade de dados; privacidade
Dia Internacional da Mulher
doação
docs
Doodle
doodle4google
drive
Earth
Ecad
educação
elections
eleições
email
empreendedor
férias
fifa
Files
filmes
FLIP
Frida Kahlo Google Arts & Culture
gdd
geo
gmail
GNI
Google
Google Allo
google apps
Google Apps para empresas
Google Arts & Culture
Google Assistente
Google Business Internship
Google Cloud
Google Docs
google earth
google earth solidário
Google Earth Timelapse
google for education
google green
google io
google mapas
google maps
Google news
google notícias
google pay
Google Play
Google Press Summit
Google Science Fair
Google translator
Google Trends; Eleições; Eleições 2018
google trips
google.org
Google+
gps
graffiti
Grand Canyon
hackathon
hangouts
hiroshima
histórico
horário de pico
IA
IE8
impacto econômico
índice
inteligência artificial
International Women's Day
internet
internet aberta
iphone
jardim zoológico
jornalismo
labs
LARA
LARA 2019
Latin America Research Awards
Latitude
leilão
lemann
liberdade
liberdade de expressão
livros
localização
machine learning
mãe
mapas
maps
marimoon
musica
My Account
nagasaki
natal
navegador
NBU
negócio
neutralidade de rede
next billion users
NextUp
notícia
nova escola
novo
oceano
offline
onebox
orkut
orquestra sinfônica
pagamento
painel do conhecimento
pesquisa
pesquisa 2017
pesquisa de lugar
pesquisa do ano
pesquisa por voz
places
Playtime
pré-visualizações
Primer
privacidade
produtividade
Programa Proteção Avançada
rafael cortez
retrospectiva
revista veja
Rewind
rio
Safer Internet Day
Search
segurança
serviços geoespaciais
Sketchup
street view
surui
tecnologia na escola
termos de serviço
thinkinfinite
Timelapse
traductor
tradutor
Transparency Report
treinamentos
trips
tv
universidades
viagem
Video
voice search
voz
wallace and gromit
WAN-IFRA
WAP
waze
web analytics
web store
webmaster
webmasters
windows
year in search
YouTube
YouTube Coachella
YouTube Go
YouTube Kids
YouTube NextUp
YouTube Space
YouTube Space Rio
YouTube symphony
zeca baleiro
zeitgeist 2011
zeitgeist 2012
Arquivo
2022
fev.
jan.
2021
dez.
nov.
out.
set.
ago.
jul.
jun.
mai.
abr.
mar.
fev.
jan.
2020
dez.
nov.
out.
set.
ago.
jul.
jun.
mai.
abr.
mar.
fev.
jan.
2019
dez.
nov.
out.
set.
ago.
jul.
jun.
mai.
abr.
mar.
fev.
jan.
2018
dez.
nov.
out.
set.
ago.
jul.
jun.
mai.
abr.
mar.
fev.
jan.
2017
dez.
nov.
out.
set.
ago.
jul.
jun.
mai.
abr.
mar.
fev.
jan.
2016
dez.
nov.
out.
set.
ago.
jul.
jun.
mai.
abr.
mar.
fev.
jan.
2015
dez.
nov.
out.
set.
ago.
jul.
jun.
mai.
abr.
mar.
fev.
jan.
2014
dez.
nov.
out.
set.
ago.
jul.
jun.
mai.
abr.
mar.
fev.
jan.
2013
dez.
nov.
out.
set.
ago.
jul.
jun.
mai.
abr.
mar.
fev.
jan.
2012
dez.
nov.
out.
set.
ago.
jul.
jun.
mai.
abr.
mar.
fev.
jan.
2011
dez.
nov.
out.
set.
ago.
jul.
jun.
mai.
abr.
mar.
fev.
jan.
2010
dez.
nov.
out.
set.
ago.
jul.
jun.
mai.
abr.
mar.
fev.
jan.
2009
dez.
nov.
out.
set.
ago.
jul.
jun.
mai.
abr.
mar.
fev.
2008
dez.
nov.
out.
set.
ago.
jul.
jun.
mai.
abr.
mar.
fev.
jan.
2007
dez.
nov.
out.
set.
ago.
jul.
jun.
mai.
abr.
mar.
fev.
jan.
2006
dez.
nov.
out.
set.
ago.
jul.
Feed
Follow @googlebrasil