Indice de Artigos

Fale devagar, por favor

Renato Sabbatini

Uma das tecnologias computacionais mais prometidas pelos escritores de ficção científica e menos realizadas é o reconhecimento automático da fala. Para quem não gosta de usar teclados (a maioria), ou não pode usar teclados (gente com tendinite, operadores com as mãos cheias, e deficientes físicos), um sistema que realmente funcionasse de verdade seria o máximo. Com um programa desses, a pessoa simplesmente dita as palavras em um microfone ligado à placa de som do computador, e o texto correspondente vai aparecendo na tela de um processador de textos. Uma idéia sensacional, portanto.

Mas isso não é fácil de fazer, principalmente em um microcomputador. Há pelo menos 30 anos, milhares de pesquisadores em todo o mundo têm tentado desenvolver um sistema de reconhecimento de fala que seja, ao mesmo tempo, barato, confiável (mais de 98 % de acerto), independente do locutor (não precisa aprender a voz de quem fala, antes), e que permita a fala contínua, sem pausas entre as palavras.

Os resultados têm deixado muito a desejar, mas isso não impediu que duas empresas pioneiras na pesquisa desses sistemas, lançassem, quase que simultaneamente, programas de reconhecimento de voz destinados ao mercado de grandes consumidores. Ambas, a IBM e a Kurzweil, já tinham lançado versões tecnologicamente mais complexas, custando entre mil a 2 mil dólares a cópia. O programa da Kurzweil funciona bem, e foi capaz de conquistar alguns nichos específicos de mercado, como o de ditado de relatórios médicos (radiologia, patologia, etc.). O da IBM ainda não “pegou” comercialmente, mas tem um enorme potencial, como se pode imaginar.

Os programas que foram lançados este ano são o VoiceType, da IBM, e o VoicePad, da Kurzweil; ambos custando na faixa dos 80 dólares, o que é um preço sensacional para um software tão complexo. Eles têm várias características em comum: são baratos, independentes de locutor, tem um vocabulário embutido contendo cerca de 25 a 40 mil palavras de uso corrente, e não são capazes de reconhecer fala contínua, sem pausas entre as palavras. A taxa de acerto é razoavel, como veremos: em condições ideais (que explicarei melhor mais adiante): cerca de 90 %, mas é suficientemente baixa para deixar o usuário irritado com os erros cometidos, o que exige depois um trabalho manual de correção.

O VoicePad tem algumas vantagens em relação ao produto da IBM. O vocabulário fixo é menor, mas ele admite que o usuário adicione até 3 mil palavras de uso particular. Além disso, reconhece números em voz contínua, o que é ótimo. O preço é ligeiramente mais caro, mas o produto é claramente superior ao da IBM, pelo menos em número de características (não dá para entender, a não ser quem conhece a IBM, porque ela faria um ato tão idiota de impedir que a versão do VoiceType para o consumidor de massa não permita adicionar novas palavras. Sem isso o programa fica praticamente impossível de usar para textos especializados em qualquer área, ou até mesmo em literatura).

Assim, depois de pensar alguns minutos, comprei o VoicePad, da Kurzweil, e comecei a testá-lo logo que cheguei em casa. O programa exige pelo menos 16 megabytes de memória, e um Pentium 100 para cima é altamente recomendado, senão fica muito lento. A instalação é fácil, mas aí veio a primeira decepção: o sistema reconhecia menos de 70 % das minhas palavras. Seria minha culpa, por não falar inglês perfeito ? Seria do microfone ? Bem, aí notei na documentação do sistema que os resultados podem ser melhores se: a) você treinar o sistema, falando cerca de 400 palavras comuns do idioma inglês; b) se estiver ditando em um ambiente sem ruídos sonoros, e usando um microfone direcional de alta qualidade; c) falar acentuando bem as sílabas. O sistema então melhorou seu desempenho para uns 80 %, mas o que é ainda insatisfatório para aplicações práticas. Neste ponto, não sei se o problema reside na qualidade de meu inglês, ou se o sistema é fraco mesmo. Provavelmente não vai dar para usar.

De qualquer forma, parece magia negra quando o sistema funciona. Juntou gente em volta, fascinada, observando o seu desempenho. É uma tecnologia revolucionária, que promete muito. Esta semana, uma empresa chamada Dragon Systems anunciou o primeiro sistema de reconhecimento de voz que não exige pausas. O único problema é o preço: 995 dólares. .


 

Publicado em: Jornal Correio Popular, Campinas, 08/04/1997.

Autor: Email: sabbatin@nib.unicamp.br
WWW: http://home.nib.unicamp.br/~sabbatin Jornal: http://www.cpopular.com.br


Copyright © 1997 Correio Popular, Campinas, Brazil