Os intrincados caminhos da voz
16/10/2003 15:45 :: João Carlos Pinheiro da Fonseca
Por detrás da compressão de sinais para tevê digital e das aplicações multimídia para celulares, há uma complexa cadeia de tecnologia. O cientista brasileiro Abraham Alcaim, do Cetuc-RJ, explica, aqui, esta complexidade.
O comando de dispositivos pela voz exige o reconhecimento da voz humana – um som complexo – em geral, independentemente de qual seja o locutor (um complicador, pois cada locutor tem suas características individuais).
“Já o reconhecimento de um locutor determinado, que pode se valer de classificadores de padrões do tipo estatístico (assim como o reconhecimento de voz), é voltado para aplicações nas quais é a voz do locutor que serve como senha”, explicou à TELEBRASIL o cientista Abraham Alcaim da PUC-Rio e também coordenador de Pós-Graduação do Centro de Pesquisas Cetuc (Centro de Estudos em Telecomunicações da Universidade Católica).
O reconhecimento da voz continuada é bem mais difícil do que o de simples palavras isoladas. Na fala continuada, as pausas entre sílabas, palavras e parágrafos e o stress do locutor constituem, dentre outros, sérios desafios. Os primeiros estudos sobre reconhecimento de voz continuada, em português falado no Brasil, datam de 1997, em teses orientadas por Abraham Alcaim, na PUC-Rio, e por Fábio Violaro, na Unicamp.
Desafio especial
Neste momento há o reconhecimento da voz para a fala continuada e para qualquer locutor, com limitação para ambientes ruidosos. Os ambientes ruidosos que têm sido habitualmente testados pertencem a um banco de dados usualmente empregados pela comunidade científica. Como exemplos, têm-se os ambientes de cabine de avião, de fábrica, de parlatório (o mais agressivo) e o denominado ruído branco.
Um desafio especial são as aplicações de voz em aparelhos celulares e na Internet e que utilizam técnicas de reconhecimento de voz cujo processamento precisa ser distribuído entre o aparelho do cliente e o de seu provedor ou receptor. A classificação da voz, por exemplo, que requer bastante processamento, precisa ser efetuada nas instalações do provedor.
A Pós-Graduação do Cetuc se concentra em duas áreas: Sistemas de Comunicação e Eletromagnetismo Aplicado. Sob estas denominações se pesquisam, dentre outros fenômenos, o processamento da informação (voz e imagem), sistemas de transmissão (satélites e celulares), comunicações ópticas, antenas e propagação.
Por sua vez, um grupo do Rio de Janeiro, que compreende a PUC-Rio, UFRJ, IME e UFF, estuda a compressão de vídeo e de áudio, itens importantes na definição do padrão brasileiro para a televisão digital. Padrões de compressão como o MPEG-4 (que prevê compressão baseada em objetos), H264 e outros mais são objetos de avaliação por parte desse grupo.