Smartphones já têm. Computadores, há algum tempo. Smartwatches aderiram, e a vindoura internet das coisas promete usar bastante. Estamos falando da tecnologia de reconhecimento de fala, na qual sua voz é quem manda. E prepare a garganta, pois ela poderá ser o próximo grande salto na interface homem-máquina.

O exemplo atual mais conhecido do uso do reconhecimento de voz está nos assistentes pessoais inteligentes, capaz de realizar diversas tarefas para seus usuários, como trazer informações do trânsito e da meteorologia, agenda de compromissos, preços de produtos, sugestões de locais para comprar e passear etc.

Você pode usar o teclado para interagir com os assistentes, mas quase todos já têm recursos de reconhecer voz como forma extra de interação. São exemplos de assistentes pessoais a Siri (Apple), Google Now (Google/Android), S Voice (Samsung) e Cortana (Microsoft) --este último ainda não tem versão em português.

Não deixe de ler: 6 links que provam que o Google sabe tudo sobre você

Era preciso treinar a assistente

Mas reagir às nossas solicitações faladas não é tão simples. A grosso modo, os assistentes pessoais usam o reconhecimento de voz para inserir dados no dispositivo e, por isso, precisam interpretar linguisticamente o que falamos. Também contam com acesso aos seus dados pessoais, buscas na internet e auxílio a outros aplicativos instalados no dispositivo.

Redes neurais, que realizam conexões de dados de forma parecida com o sistema nervoso, também vêm sendo pesquisados para esse fim. Mas os estudos em reconhecimento de voz existem pelo menos desde os anos 30 pela Bell Labs, grande empresa de pesquisa dos EUA.

"No final da década de 80, os programas que utilizam redes neurais passaram a ser viáveis e, com eles, surgiu a possibilidade concreta de se desenvolver modelos computacionais para o reconhecimento de voz. Os primeiros sistemas eram muito limitados e exigiam treinamento do software, para que este se adaptasse ao seu usuário. O treinamento poderia ser algo demorado", diz Rosa Vicari, responsável pelo grupo de inteligência artificial da UFRGS (Universidade Federal do Rio Grande do Sul).

As tecnologias envolvendo voz também são um meio alternativo de comunicação para pessoas com necessidades especiais de ordem visual ou motora, capaz de tarefas como leitura automatizada de textos, por exemplo. "Atualmente, esse tipo de aplicação também já atingiu escala comercial, motivando o investimento de grandes empresas, devido a demanda cada vez maior. A realidade é que cada vez mais teremos interações humanos-máquinas através da voz", prevê Rosa.

Como será o amanhã?

Quando a Siri foi lançada, recebeu críticas: 46% dos donos de aparelhos iOS acreditavam que a empresa exagerou nas capacidades prometidas. Isso aparentemente foi resolvido e hoje a assistente da Apple é bem aceita, pesquisa do site Experts Exchange, aponta que a Siri é a preferida entre os norte-americanos e também bateu o desempenho da Google Now e Cortana em testes.

Os vestíveis, o setor automotivo e a vindoura internet das coisas já olham pro futuro da voz enquanto ferramenta. Vários smartwatches das grandes marcas, como os da Apple, Samsung e Motorola, reconhecem as vozes de seus donos --até para compensar os diminutos teclados das suas telas.
O Brillo, sistema da Google com suporte a dispositivos como lâmpadas e fechaduras inteligentes, foi lançado no ano passado e permitirá uso da voz para executar comandos. A Apple lançou em 2014 o CarPlay, um sistema inteligente que liga iPhones a uma central multimídia dos carros e usa a Siri apara ajudar o motorista em trajetos, ligações telefônicas e outros comandos.

Porém, ainda estamos um pouco longe de usar só a voz para controlarmos tudo. As atuais tecnologias de voz precisam corrigir muitas falhas de compreensão. Além disso, levantam constantes debates sobre a privacidade dos dados coletados.

"As possibilidades são infinitas, mas estamos dando um passo de cada vez. Não há atalhos pois trata-se mais de um método artesanal do que de um típico esforço de codificação", disse ao UOL por e-mail Bharath Mohan, gerente de produto da Microsoft responsável pelo Cortana. Apple, Google e Samsung foram procurados para falar sobre o Siri, Now e S Voice, mas não falaram com a reportagem.

Aplicações atuais e futuras

Assistente pessoal em qualquer lugar

Desde 2011 a Siri auxilia os usuários de iPhones e iPads. Na esteira dela veio a concorrência: Google Now (Google/Android), S Voice (Samsung), Cortana (Microsoft), M (Facebook) e Echo (Amazon). O que elas fazem? De um modo geral, são praticamente secretárias de bolso: a partir de perguntas, frases e buscas via voz (ou teclado), trazem informações relevantes para o cotidiano, como previsão do tempo, bolsa de valores e trânsito; navegador em trajetos de carro; sugerem restaurantes, lojas e serviços a partir de sua localização; realizam buscas na internet; agendam compromissos; e interagem com outros aplicativos. Habilitar o recurso de voz é opcional: o usuário deve ir nas configurações do aparelho e confirmar se quer mesmo usar as assistentes dessa forma. Os smartwatches também usam versões adaptadas das assistentes pessoais.

Escrever textos sem teclado

Seja para pessoas com deficiência ou para quem não quer mais usar teclados físicos ou virtuais, a possibilidade de ditar um texto e transformá-lo em frases prontas é uma mão na roda. No iOS, desde 2014 é possível clicar no botão do microfone no teclado virtual e ditar o que quiser em português, com direito a pontuação. O Google Now também faz isso, mas no momento, só há suporte para esse tipo de pontuação em alemão, inglês, espanhol, francês, italiano e russo. E os demais apps de voz em sua maioria só reconhecem bem o inglês.

Tradução simultânea

Em 2013, o aplicativo do Google Tradutor lançou uma atualização em que era possível pessoas de diferentes línguas usarem o programa para traduzir suas frases simultaneamente. Basta tocar em um botão com microfone na interface do app e este faria o resto, mostrando e tocando o áudio das traduções. Depois foi a vez do Skype fazer o mesmo, em 2014. Ambos ainda não funcionam com a precisão esperada, mas são úteis nos momentos mais "desesperados".

Controle da casa conectada

A Internet das Coisas é um conjunto de produtos e tecnologias em desenvolvimento que pretendem funcionar e reagir de forma mais inteligente aos nossos hábitos e necessidades, além de criar objetos e ambientes que "conversam" entre si. Na prática, esse sistema conecta-se à internet ou a redes privadas, unindo "gadgets" como computadores, notebooks, tablets e celulares, além de televisões, geladeiras, iluminação e automóveis. Uma prévia do que pode acontecer já pode ser vista no uso do Kinect (foto), aparelho da Microsoft que funciona com o videogame Xbox One. Quando o dono da casa falar na sala "Xbox, ligue", o console se liga sozinho. E é possível configurar para ligar outros dispositivos, como TV, home theater e receptor de TV a cabo.

"Chofer" do carro autônomo

Ford, Lexus, Hyundai, Chrysler, Honda e GM são algumas das montadoras que já lançam ou prometem lançar carros com sistemas de comandos de voz, seja sozinhos ou em parcerias com outras empresas. E já que possuem "expertise" no assunto, as gigantes da tecnologia já estão dispostas a participar desse mercado, com iniciativas como Carplay (Apple), Android Auto (Google) e uma adaptação do Cortana para veículos (Microsoft). O protótipo de carro autônomo do Google (foto) não usa voz porque teoricamente não precisa: seus sensores, radares e computadores fazem tudo sozinho. Mas como nos testes já apresentou problemas e acidentes, comenta-se que o reconhecimento de voz surja para melhorar a relação do carrinho com os "motoristas" humanos.

Interação completa com robôs

Pode ser que em breve aquilo que vemos em "Star Wars" se torne real. Nos filmes, personagens humanos conversam livremente com os "dróides" R2-D2, C-3PO e BB-8 como se fossem pessoas dotadas de plena compreensão. Na verdade robôs como o Asimo (foto), da Honda, já fazem isso, mas de forma limitada. Se a tecnologia chegar a um nível de sofisticação capaz de entender e reagir a tudo que falamos, talvez teremos de fato um robô humanoide em cada lar resolvendo as tarefas chatas que nós, humanos, costumamos procrastinar... desde que eles não se chateiem nem se vinguem de nós por isso.

O que falta?

Acompanhar a velocidade da fala

Quem usa as assistentes pessoais dos celulares já deve ter sentido: quanto mais rápido você falar, maior a chance do programa entender tudo errado. O que acontece é que enquanto falamos, o software precisa processar em tempo real quais palavras foram ditas. A tecnologia atual é até bem precisa, mas quando aceleramos o discurso, não apenas há menos pausas que separam as palavras umas das outras, como também não as pronunciamos tão bem. Isso acaba comprometendo o resultado. Mas convenhamos: falar sempre pausadamente não é lá muito fluido no cotidiano, então seria ótimo se os programas acelerassem sua capacidade de compreensão com o passar do uso.

Compreender diferentes timbres e volumes de voz

Se diferentes pessoas falarem uma mesma frase para o mesmo assistente pessoal, é possível que a Siri, Google Now e afins entendam essa frase de formas diferentes, ou pelo menos não a entendam de primeira com todos eles. O desempenho do reconhecimento de voz também pode variar conforme timbres, volumes e ênfases dadas por cada interlocutor.

Entender sotaques e gírias regionais

Algumas gírias o Google Now entende bem, como a pernambucana "arretado" ou a baiana "zoró". Mas se você tentar falar a interjeição gaúcha "bá, chê", ele vai entender como "bate" ou "boot". "O desafio é desenvolver sistemas de reconhecimento de voz que sejam precisos independentes das características do falante, como sotaque nativo x estrangeiro, homem x mulher x criança, fala coloquial x formal", diz Aline Villavicencio, professora do grupo de inteligência artificial da UFRGS (Universidade Federal do Rio Grande do Sul).

Melhorar no quesito multilíngua

Os atuais programas até aceitam mais de uma língua, mas patinam um pouco na hora de distinguir de qual idioma é determinada palavra. E quanto mais idiomas você colocar na mistura, mais difícil vai ser essa separação. É um problema que atrapalha bastante aqueles que têm que lidar com palavras, nomes e expressões em inglês no trabalho, ou para falar termos estrangeiros que foram assimilados no nosso cotidiano, como "mouse" e "dossiê".

Captar e interpretar o som em situações complexas

Ruídos externos estão entre os maiores inimigos do reconhecimento de voz. A diferença entre usar uma assistente pessoal em um escritório em silêncio e em uma rua com carros buzinando ou em uma sala com eco é gritante: a precisão diminui, e o processamento do que foi dito tende a ser bem mais lento. Evoluções nisso passariam não apenas pelo software, que precisaria filtrar melhor as vozes dos demais barulhos, mas também por microfones cada vez melhores em dispositivos móveis.

Pontuar e caprichar na gramática em textos longos

O recurso de voz dos iPhones já aceita pontuação. Se você disser: "Eu amo você ponto", a frase sera escrita como "Eu amo você." No Google Now isso só ocorre em algumas línguas, e o português ainda não está entre elas. O fato é que pontuar com a voz ainda é um dilema, e o ideal mesmo é que o locutor apenas consiga a pontuação com a entonação correta, como ao falar a frase "Você vem hoje?" o sistema já colocar a interrogação por si só. Outro problema é que os sistemas ainda não entendem tão bem questões como sintaxe e concordância verbal em alguns casos. Você pode falar "concordou" e ele entender "concordo", por exemplo.

Expandir vocabulário e aceitar neologismos

Em um teste informal no UOL, o Google Now transformou "imexível", palavra maluca cunhada pelo ex-ministro Antônio Rogério Magri (foto), em "inesquecível". E reverteu "Expelliarmus", um dos feitiços das histórias de Harry Potter, como "italianos". Por mais memória ou auxílio ao Google que tenham os sistemas de reconhecimento de voz, eles podem se confundir nesses casos. Se você inventar uma palavra ou preferir uma forma curiosa de escrever palavras antigas, como a popular na internet "quenhe vc", corruptela de "quem é você?", não conte com a compreensão total do reconhecimento de voz até que o tal termo esteja totalmente difundido.

Usar sem parecermos bobos

Quando os celulares se tornaram populares, muita gente estranhou a nova situação de pessoas "falando sozinhas" na rua. Se o uso das assistentes pessoais e de outras formas de reconhecimento de voz se tornarem imprescindíveis, essa sensação vai se repetir. Afinal, ainda é bem esquisito ficar repetindo a mesma frase ou pergunta no meio da rua com o celular apontado para a boca.

Saber quando não agir

Em 2014, o áudio de um anúncio de TV sobre o Xbox One acabava ativando o videogame à revelia dos usuários, ao falar o comando "Xbox on". Esse é um exemplo do que pode acontecer se ficarmos totalmente cercados de diferentes tecnologias de reconhecimento de voz: algo que não era pra ser contextualmente um comando para a máquina acabar ativando ou desativando algo sem querer. É uma tarefa difícil para os desenvolvedoras de inteligência artificial conseguirem "adivinhar" as intenções do usuário ou saber quando agir ou não.

Garantir alguma privacidade

A questão da privacidade e segurança dos dados ainda preocupa nessa seara. Afinal, se todo mundo ficar falando em voz alta com as máquinas, quem garante que alguém mal intencionado não estará por perto ouvindo os comandos para usá-los em crimes? Ou que uma assistente pessoal ativada o tempo todo não ouve e grava absolutamente tudo que ouvimos? Pode parecer paranoia demais, mas o CEO da Apple, Tim Cook, já se pronunciou sobre a Siri dizendo: "A Apple não tem acesso aos dados. Por isso não há preocupações com a privacidade para a maioria das pessoas, acho, quando as informações são mantidas em seu dispositivo e estão protegidas com a sua senha". Será?

Via UOL Tecnologia

A TI na rua do Baú

terça-feira, 16 de fevereiro de 2016

Assistente de voz é o futuro ? #Siri #Google Now