Não sou um robô!

Como humanos resolvem problemas que os robôs não conseguem
Na edição anterior conversamos sobre como o Google utiliza suas ferramentas de pesquisa e o papel das pessoas que efetuam as buscas no aprimoramento de seus resultados. Na edição de hoje iremos nos aprofundar nas formas nas quais a gigante da tecnologia utiliza seus próprios usuários para aperfeiçoar outros produtos. Para isso precisamos falar sobre um serviço chamado reCAPTCHA.
Esta ferramenta foi desenvolvida por estudantes da universidade Carnegie Mellon, uma instituição de pesquisa privada no estado da Pensilvânia, nos EUA, no início de 2007. O objetivo dos alunos era impedir que robôs – programas desenvolvidos para executar tarefas repetidamente, em uma velocidade muito rápida – pudessem comprar milhares de ingressos de shows e jogos de futebol americano em questão de poucos minutos. Estes ingressos seriam então revendidos pelos desenvolvedores dos robôs em outros sites, por preços maiores – como um cambista digital.
O reCAPTCHA mostrava aos compradores uma sequência de letras e números aleatórios e distorcidos que, na época, era indecifrável aos robôs. Quando o usuário digitava esta sequência corretamente, garantia que estes eram, de fato, humanos. Com o avanço das pesquisas na universidade o serviço foi evoluindo e, em parceria com o jornal The New York Times, surgiu uma nova versão da ferramenta. O periódico tinha interesse em digitalizar todo seu arquivo, cuja primeira edição datava de meados de setembro de 1857.
O processo de digitalização consiste em tirar uma sequência de fotos de cada edição, em alta resolução, que então passam por um processo de reconhecimento óptico de caracteres. O problema deste processo é exatamente o mesmo enfrentado pelos criadores dos robôs mencionados anteriormente: o reconhecimento de caracteres feito pelos computadores não é perfeito. Além disso, quanto mais antiga a edição, mais, o papel havia amarelado, a tinta se apagado e dobras e ranhuras atrapalharam a análise automática.
Na parceria feita entre as empresas, as centenas de milhares de pessoas que utilizavam a ferramenta para se identificarem como humanos, passaram então a receber duas palavras como desafio para provar que não são robôs: uma palavra de controle, que o serviço de reconhecimento de imagens já havia digitalizado corretamente, e uma palavra que não havia sido possível detectar. Ao digitar as duas palavras corretamente, o usuário ganhava acesso ao site e, ao mesmo tempo, ajudava na tradução de palavras que não puderam ser digitalizadas automaticamente. O sistema digitalizou todo o catálogo do jornal em poucos meses.
Em 2009 a plataforma foi comprada pelo Google, que passou a ter ideias mais ambiciosas. Seu primeiro projeto foi implementar o serviço no Google Books, digitalizando um acervo que conta hoje com mais de 25 milhões de livros. O reCAPTCHA foi utilizado para corrigir erros de digitalização, bem como aprimorar palavras de difícil reconhecimento e termos que pudessem estar separados entre duas páginas.
À medida em que os robôs foram se tornando mais inteligentes, a empresa também encontrou outras maneiras de utilizar a ferramenta para aprimorar seus produtos, especialmente o Google Street View – serviço que permite que usuários vejam ruas e estradas com alto nível de detalhe. A primeira aplicação selecionava imagens com os números de casas e estabelecimentos, e solicitava que os usuários digitassem estes números. Utilizando o mesmo princípio da detecção de palavras, agora os usuários passaram a auxiliar o serviço do Google Maps na detecção exata dos números de casas e empresas, aprimorando suas rotas.
Na última atualização da ferramenta – utilizada até hoje – você provavelmente já foi solicitado a selecionar semáforos, faixas de pedestre, carros, placas, e outros objetos de vias públicas. Com centenas de milhões de resoluções por dia, todos nós estamos ensinando carros autônomos a identificar minuciosamente os mais variados elementos de vias públicas, e assim, dirigirem sozinhos.