Page 48 - Telebrasil - Maio/Junho 1988
P. 48
com a maior naturalidade. Mas no caso
V ocoders do emprego de máquinas, as dificulda
des são muito grandes e a solução gera)
0 vocoder de formantes se destina a — compreensão de extenso vocabulário,
identificar as freqüências de ressonân expresso por um grande universo de lo
cia fi, Í2 , f3 do sinal e suas respectivas cutores, m uitos dos quais podem ser
amplitudes A i, A 2, A 3 caracterizadas identificados — ainda não foi encon
por bits. O vocoder de formantes é bas-
trada.
tante eficiente necessitando de apenas
O reconhecimento do locutor envolve
27 bits para identificar os formantes,
dois problemas distintos: a verificação
com taxas de 32 blocos para transmissão
de uma identidade (senha) apresentada
de parâmetros, conduzindo a taxas de
como tal e a identificação de uma identi
864 e até menos bits para representar o
dade desconhecida. O primeiro proble
aparelho fonador. Para achar os for
ma, muito comum em aplicações comer
mantes empregam-se várias técnicas,
ciais, resolve-se fazendo uma compara
explica Alcaim, tais como a das deriva
ção com o dado correspondente armaze
das da análise rápida de Fourier.
nado na máquina, aceitando ou rejei
Uma técnica bastante popular (vide
tando a senha (vocal) proposta. Já na
figura), é a da codificação com predição
instância da identificação (que recai na
linear (LPC ) que tem como hipótese
esfera criminal) o locutor não se identi
principal o fato de que uma amostra da A fala humana é um fenôm eno e x tre m a
voz pode ser vaticinada com base na mente complexo que só agora começa a ser fica e é necessário efetuar n compara-1
ções com a base de dados, tantas quan
ponderação linear de um número finito dominado.
de amostras precedentes. O método da tas forem necessárias para reconhecera
predição linear leva em conta os parâ senha ou a fala proposta.
metros do filtro inverso A, a amplitude compreendem a melhoria dos sinais dis
do sinal G, a decisão entre som surdo ou torcidos por alguma razão (mergulha Reconhecimento da fala
sonoro e o período fundamental To dos dores em ambiente hélio-oxigênio), am
pulsos de excitação. Matematicamente, bientes ruidosos (ênfase no 2.° formante, Segundo Alcaim , o reconhecimento
existem técnicas para a solução das em comunicações com helicópteros), lei da fala é a parte mais complexa das téc
equações LPC, como a solução recursiva tora de textos para cegos, informações nicas de voz e o problema geral precisa
de Durbin, que permite determinar coe de dados bancários comandadas a com ser abordado sob diversas hipóteses,
ficientes de reflexão kj e de correlação putador, treinamento para surdos (mos- tais como: reconhecer palavras isoladas
parcial (parcor). Os chips da Texas Ins tra-se o espectrograma do som para re (ou seja reconhecer uma palavra dentre
trument, muito populares para a sín ferencial da fonação). um vocabulário finito armazenado na
tese de voz, são baseados nos princípios No caso da leitora para cegos, in máquina) e reconhecer a fala contínua
vento que data dos anos 70, o que se faz é (algo m uito m ais complicado de atin
do vocoder LPC.
observar um texto e depois digitalizá-lo. gir). Outro aspecto a considerar é o de
Outra técnica é do processamento ce-
A seguir, cada letra é isolada e compara saber se o reconhecimento da fala irá de
pe8tral ou homomórfica, de Ben Blade,
especialmente empregado para identifi da com uma tabela que contém armaze pender do locutor — o que pressupõe
cação de locutores e que parte do princí nado o som correspondente e faz-se a treinam ento anterior da máquina com
pio de que um sinal de voz é fruto da ex síntese da voz. este locutor — ou se independerá do lo
citação e do modelo do aparelho vocal. Um capítulo à parte é o reconheci cutor (a máquina tem capacidade de dis
mento da voz envolvendo o reconheci tinguir uma fala, levando em conta as
Na técnica cepestral, aplica-se um cir
cuito logarítimico e transforma-se o do mento do locutor e o reconhecimento da variações de pronúncia que esta sofre de
mínio das freqüências para o do tempo, fala, algo que um homem que aprendeu indivíduo para indivíduo). Finalmente,
aplicando-se o método conhecido como a falar uma língua desde criança faz resta saber que tipo de aprendizado será»
Fourier, rápidas para sinais discretos.
Este tratamento permite obter o período
fundamental (T0), a variação lenta do si SONS SONOROS E SURDOS
nal e sua variação rápida.
H- T
Aplicações 0 sinal sonoro visto ao longo do tempo é caracterizado por dw
sos picos de energia e apresenta um período T0 representativo ói
excitação (jatos de ar) impressa ao aparelho fonador.
A análise e síntese da voz apresen
tam inúmeras aplicações, as mais co
nhecidas são as técnicas de modulação
por código de pulsos ou MCP (PC M ). To 0 sinal surdo ao longo do tempo nào apresenta picos definidos i
davia, o método de digitalização da voz sua distribuição de energia segue uma lei uniforme. Tais cano
terísticas se aproximam do chamado ruído branco.
ou PCM é relativam ente ineficiente
(vide tabela) em termos de capacidade
de memória necessária para armazenar
a voz, pois o que faz é apenas acompa
nhar digitalmente o sinal no domínio do de um sinal sonoro distribuída ao longo das freqúèncM
vista como uma curva mais suave a que se superei# os-
tempo. Ainda que processos adicionais
? ais rápidas (a excitação impressa ao aparelho fors
como o PCM adaptativo, o PCM diferen
cial e os métodos de compansão (vem de
comprimir, expandir) possam melhorar
as taxas de transmissão do sinal digital
PCM, residem nas técnicas da represen
0 aparelho vocal se reflete na curva suave aqui aprese't:
tação paramétrica da voz aqui descritos caracterizada por picos de ressonância de energia em : rés
os melhoramentos que tornarão a voz qüências distintas — são os formantes
digital universal.
Outras aplicações das técnicas de voz