Voice Interaction: o conhecimento através da fala

Apresenta-se como uma das tecnologias mais usadas atualmente na vida pessoal e no trabalho, e permite realizarmos tarefas diárias com o simples uso de comandos de voz

12 · 12 · 2018

Desde responder a perguntas de segurança de um banco por telefone e realizar pesquisas online, ao pedir que o assistente virtual do smartphone defina uma tarefa ou dite uma lista, todos são exemplos de soluções que esta tecnologia apresenta para facilitar o nosso quotidiano.

Voice Interaction, ou em português "reconhecimento de voz", evoluiu bastante na última década. Inicialmente, o reconhecimento processava-se apenas com o utilizador a falar pausadamente. Hoje em dia, já tem a possibilidade de efetuar ditados contínuos porque se tornou mais inteligente, uma vez que possui um conjunto de regras gramaticais incorporadas que permitem perceber melhor o que está a ser ditado, com a capacidade de reconhecer os nossos padrões particulares de voz.

O reconhecimento de voz usa diferentes técnicas para reconhecer a voz humana. Transforma os sinais de áudio digitais em fala reconhecida que passam por diversas etapas, nas quais são aplicados métodos matemáticos e estatísticos que permitem compreender o que está a ser ditado.

Resumindo, o reconhecimento de voz é uma alternativa ao uso do teclado. Fala-se para um computador ou smartphone e as palavras aparecem no ecrã. O software por detrás dessa tecnologia traduz o discurso oral para o digital. Também é usado para validar a identidade e pode ser usada como uma alternativa ao código PIN ou às senhas tradicionais. 

Aumentar a produtividade através da voz
 
Não devemos esperar que a comunicação oral substitua completamente a comunicação escrita mas está explícito que o reconhecimento de voz está a ganhar terreno e a trazer inúmeros benefícios para a nossa vida profissional e pessoal. Com o uso do software de reconhecimento de voz, podemos responder a e-mails rapidamente, gravar discursos, navegar na Internet, obter as atualizações recentes do clima e saber as últimas notícias. Para aqueles com deficiências físicas e visuais, esse software ajuda nas tarefas quotidianas, tais como ler mensagens, tocar música e ajustar a iluminação e o termostato da casa.
 
Posto isto, essa tecnologia pode facilitar a experiência do utilizador numa grande variedade de tarefas, entre as quais: 
 
- Permitir a digitalização de grandes quantidades de texto num período relativamente curto de tempo.
Atualmente é possível evitar o uso de caneta e papel para fazer anotações, porque várias aplicações podem reconhecer a sua voz através do microfone, do smartphone ou do computador com um software que grava e regista o que estás a dizer. Essa aplicação é chamada de Speech Recognition System. Por exemplo, esse sistema pode ser usado num smartphone Android, com o Google Assistent, ou num Iphone, com a Siri. Ambos vão permitir escrever e-mails através da voz na aplicação do Gmail.
 
- Fornece sempre a escrita correta de uma palavra e elimina a necessidade de perder tempo a corrigir erros ortográficos.
 
- Ajuda os alunos com dificuldades de aprendizagem ou deficiências físicas que afetam a capacidade de escrever. Por exemplo, durante o percurso escolar podem usar essa tecnologia para fazer testes, exames e trabalhos. Ou no caso das pessoas com deficiências físicas podem utilizá-la para comunicar eficazmente com os outros.
 
- Permite que seja mais fácil recordar tarefas ou compromissos importantes. Por exemplo, enquanto utilizador do Windows, podemos usar a Cortana, que é uma assistente virtual ativada por voz que facilita a configuração de tarefas.
 
- Permite estimar o tempo no trânsito através de uma assistente virtual. Por exemplo, a Alexa (a assistente virtual da Amazon) fornecerá informações que ajudam a planear o resto do dia ou durante o caminho, depois de dizermos qual o nosso ponto de origem e de destino.
 
Uma tecnologia com arestas a limar
 
Apesar desta tecnologia estar amplamente disponível ao público e ter inúmeros benefícios, a sua forma de funcionamento ainda é frequentemente questionada e apresenta algumas desvantagens: 
 
Lenta e imprecisa: a maioria das pessoas não escreve tão rápido como fala e em teoria, um programa de reconhecimento de voz é suposto escrever mais rápido do que no teclado do computador. No entanto, isso não é tão linear devido à necessidade de revisão e correção depois de ditar um texto para o computador. O software pode interpretar as palavras corretamente mas também tem de fazer as correções em relação à pontuação. Além disso, o programa não consegue reconhecer palavras como nomes de marcas que não tenham sido adicionados ao registo de palavras no programa.
 
Esforço vocal: ao usar esse tipo de programa, tendencialmente falamos mais alto do que uma conversa normal. Esse hábito pode provocar uma lesão nas cordas vocais. E embora não haja nenhuma ligação científica definitiva entre a utilização de um programa destes e os problemas na voz, o falar alto por longos períodos de tempo tem tendência a causar tensão e rouquidão.
 
Fatores ambientais: num ambiente barulhento, o programa pode deixar de reconhecer a voz e pode até gerar vozes de texto ouvido por trás. Por outro lado, um teclado pode ser usado em qualquer ambiente.
 
Interpretação de vozes incomuns: o utilizador tem de preparar o programa após a instalação, num processo que envolve a leitura de várias passagens em voz alta. Desta forma, vai comparar a voz com dialetos regionais conhecidos e ajusta-se automaticamente. No entanto, algumas pessoas com sotaques incomuns ou particularmente fortes podem não alcançar os números de precisão solicitados por algum software de reconhecimento de voz.
 

 

 

 

depois de dizermos qual o nosso ponto de origem e de destino,