Page 47 - Telebrasil - Maio/Junho 1988
P. 47
se debruçam à procura de soluções tec
nológicas cada vez mais avançadas para A Voz Humana
o problema da síntese e da análise da
voz. Como sintomas deste esforço sur
Se a voz de um cantor de ópera ou de sob excesso de pressão ou oclusivas (b, d).
gem um chip aqui, uma aplicação ban
um astro de rock-and-roll pode ser inter
cária ali, um brinquedo falante acolá, Descobriu-se que a voz — um fenô
pretada subjetivamente, a descrição do meno eminentemente variável e comple
que vão revelando que o assunto afinal aparelho fonador feita pelos cientistas,
de contas está em ebulição. Mas afinal, o não é nada romântica. Para eles, o apara xo — podia ser obtida através de um mo
delo paramétrico (materializado por cir
que se esconde atrás dessa engenharia to vocal "é um tubo acústico, uniforme, cuitos elétricos) simulando o aparelho vo
aparentemente esotérica e m aravi dotado de uma membrana bipartida e de cal e acionado (excitado) de maneira ade
lhosa? uma cavidade ressonante, com cerca de quada, quer através de um gerador de ruí
17 cm e cujas seções transversais variam do (em se tratando de sons surdos) ou en
Técnicas de voz entre 0 e 20 cm2 ao longo do tempo, produ tão pelo período fundamental (T0) repre
zindo sons através de vibrações longitudi sentativo dos sons sonoros. Matematica
nais de moléculas de ar, na cavidade” . mente, trata-se de configurar o aparelho
Tomando novamente o exemplo do
Existem dois tipos básicos de som: os so vocal ou H (z) que varia a cada 20ms
fonógrafo, o que nele se fez foi traduzir
noros e os surdos (neste as cordas vocais (como o faz boca, língua e glote) pelo uso
uma onda sonora em impulsos mecâni não vibram). de técnicas vocoders (de canal, de forman-
cos, armazenando-os em riscos de cera e Do ponto de vista da excitação do tes, LPC). Entra aqui a noção de filtro in-
depois, por um processo inverso, repro aparelho vocal existem três mecanismos: yerso A (z) = 1/H (z) que mostra que o pro
duzindo-os sob forma do som original. sequência de pulsos, quase periódicos, cesso de síntese é inverso ao de análise da
Com a aplicação de novas técnicas o som com período fundamental da ordem de voz. Assim, através da análise da voz digi
daqui por diante subentendido como 8ms e que corresponde às vogais e suas as talizada obtem-se os parâmetros repre
sociações e também aos sons em que en sentativos do aparelho fonador, em dado
voz) foi sendo transformado em elemen
tram as cavidades nasais; turbulências instante, e de sua excitação, que posteri
tos elétricos, armazenados sob forma
contínuas produzidas por contrições es ormente permitirá sua síntese, num pro
magnética (fita) e reproduzidos nova
treitas do aparelho vocal ou sons fricati- cesso reverso.
mente através de um alto-falante. As vos (s, f, ch); súbito despreendimento de ar
primeiras formas de tratamento do si
nal de voz foram de caráter analógico.
Isto é. um sinal elétrico contínuo acom
panhava, no tempo, todas as variações Para tanto, a primeira coisa era obser de ceifagem (clipping) nas amplitudes
acústicas do sinal de voz. Foi um proces var o comportamento do sinal da voz centrais ou solução de Sondhi; a ceifa
so que funcionou e ainda funciona na re (vide box) para daí inferir-se um modelo gem central e infinita; a função média
produção tradicional dos sons. que pudesse produzi-la. Os resultados das diferenças de magnitude, e o cepes-
Todavia, descobriu-se teoricamente foram positivos e se desenvolveram vo tro (termo derivado da palavra es
que um sinal analógico podia ser repro coders (voice coders) baseado em diver pectro).
duzido por uma série de impulsos discre sas técnicas tais como o vocoder de for- Existem várias maneiras, como foi
tos, desde que tomados em quantidade mantes e o de codificação com predição visto, de identificar os parâmetros
suficiente — tecnicamente diz-se que "a linear (LPC). característicos do aparelho fonador, em
taxa de amostragem deve ser o dobro da dado momento. Um deles é o método dos
faixa passante do sinal (teorema devido Análise e síntese formantes. Vejamos sua origem. Cap
a Nyquist)” . Tinha nascido, assim, a tada através de um microfone, passando
idéia das técnicas digitais que passaram A análise e a síntese da voz são pro por circuitos apropriados, a voz humana
a se vulgarizar com o fabuloso progresso cessos complementares. A análise da é capaz de gerar configurações numa
dos dispositivos de estado sólido (tran voz determina se um som é surdo ou so tela catódica que permitem analisá-la.
sistores e chips). As vantagens da infor noro, qual o período fundamental T0 do Um diagrama muito popular entre os
mação sob forma digital são inúmeras, sinal digitalizado (e que corresponde à analistas é o de freqüência-amplitude
visto que a cada nível de impulso digital excitação do aparelho vocal) e os parâ que mostra a distribuição da energia do
pode ser atribuído um número (chama- metros que caracterizam o aparelho fo sinal de voz, ao longo do espectro de fre
se a isto codificar) e o sinal passa de uma nador em dado momento (técnicas de vo quências que o constitui. Ao analisar
sequência analógica para uma série de coder). A posse destes três dados per um destes diagramas — estudavam-se
números (bits) mais facilmente armaze mite sintetizar a onda, vale dizer, repro vogais — verificou-se que apresenta
nados e sobretudo manipulados por um duzir a voz original. vam três picos de ressonância típicas
computador. Para saber se um som é surdo ou so nas quais se concentrava a energia e
Do ponto de vista de técnicas de voz, noro existem várias técnicas. Uma que correspondiam à geom etria do
uma das primeiras aplicações da digi delas é examinar o denominado "cruza aparelho vocal para o som em apreço.
talização foi a do sistema PCM, no qual mentos por zero” ou passagem das os Tais freqüências de ressonância foram
o sinal analógico é transformado em cilações do sinal pela origem. Como in denominadas de formantes.
uma série de elementos discretos (bits) dicado por Abraham Alcaim, pesquisa Assim, para o som A identificaram-
que acompanham as variações do sinal dor da PUC/RJ, os sons surdos possuem se formantes em ^ = 730 khz, f2 = 1090
original. Logo procuraram-se métodos, muito maior número de cruzamento por khz, f3 = 2440 khz; para o som de Í7, fj =
com base em manipulações digitais, que zero do que os sons sonoros. Outra ma 300 khz, f2 = 870 khz, f3 = 2240 khz; e
permitissem armazenar a mesma infor neira é examinar a correlação do sinal assim por diante. Descobriu-se também
mação numa quantidade menor de bits. considerado. Se a função não apresentar que, em geral, a energia (ou amplitude
Por outro lado, procuravam-se técni periodicidade é provável se tratar de um do sinal) era maior nas freqüências for
cas baseadas na reprodução do aparelho som surdo (ruído branco). Caso contrá mantes mais baixas do que nas altas. E
fonador humano. E qual a idéia? Se fos rio, trata-se de um som sonoro. mais, ao tomar três geradores de sinais
se possível estabelecer um modelo ma Outra característica a ser determi nas frequências fj, f2, f3 acionados atra
temático do aparelho vocal, reproduzi-lo nada é o período fundamental T0 repre vés de pulsos de excitação de período Tq,
por meio de circuitos e excitá-lo com pul sentativo do sinal de voz e que pode ser com as respectivas amplitudes e interli
sos elétricos, tal como faz o ser humano obtido de várias maneiras, uma das gadas suas saídas a um auto-falante, ob-
ao injetar ar para falar, ter-se-ia uma quais já mencionada — a função de cor tinha-se um sinal parecido com o da vo
maneira muito mais econômica do que relação. O professor Alcaim, da PUC/ gal original. Estava assim efetuando-se
as técnicas PCM para armazenar a voz. RJ, indica outras: a filtragem com uso um vocoder de formantes. *