Page 47 - Telebrasil - Maio/Junho 1988

P. 47

se debruçam à procura de soluções tec

nológicas cada vez mais avançadas para A Voz Humana

o problema da síntese e da análise da

voz. Como sintomas deste esforço sur

Se a voz de um cantor de ópera ou de sob excesso de pressão ou oclusivas (b, d).
gem um chip aqui, uma aplicação ban

um astro de rock-and-roll pode ser inter
cária ali, um brinquedo falante acolá, Descobriu-se que a voz — um fenô
pretada subjetivamente, a descrição do meno eminentemente variável e comple

que vão revelando que o assunto afinal aparelho fonador feita pelos cientistas,

de contas está em ebulição. Mas afinal, o não é nada romântica. Para eles, o apara xo — podia ser obtida através de um mo
delo paramétrico (materializado por cir
que se esconde atrás dessa engenharia to vocal "é um tubo acústico, uniforme, cuitos elétricos) simulando o aparelho vo

aparentemente esotérica e m aravi dotado de uma membrana bipartida e de cal e acionado (excitado) de maneira ade

lhosa? uma cavidade ressonante, com cerca de quada, quer através de um gerador de ruí

17 cm e cujas seções transversais variam do (em se tratando de sons surdos) ou en

Técnicas de voz entre 0 e 20 cm2 ao longo do tempo, produ tão pelo período fundamental (T0) repre

zindo sons através de vibrações longitudi sentativo dos sons sonoros. Matematica

nais de moléculas de ar, na cavidade” . mente, trata-se de configurar o aparelho
Tomando novamente o exemplo do
Existem dois tipos básicos de som: os so vocal ou H (z) que varia a cada 20ms
fonógrafo, o que nele se fez foi traduzir
noros e os surdos (neste as cordas vocais (como o faz boca, língua e glote) pelo uso
uma onda sonora em impulsos mecâni não vibram). de técnicas vocoders (de canal, de forman-

cos, armazenando-os em riscos de cera e Do ponto de vista da excitação do tes, LPC). Entra aqui a noção de filtro in-

depois, por um processo inverso, repro aparelho vocal existem três mecanismos: yerso A (z) = 1/H (z) que mostra que o pro

duzindo-os sob forma do som original. sequência de pulsos, quase periódicos, cesso de síntese é inverso ao de análise da

Com a aplicação de novas técnicas o som com período fundamental da ordem de voz. Assim, através da análise da voz digi

daqui por diante subentendido como 8ms e que corresponde às vogais e suas as talizada obtem-se os parâmetros repre

sociações e também aos sons em que en sentativos do aparelho fonador, em dado
voz) foi sendo transformado em elemen

tram as cavidades nasais; turbulências instante, e de sua excitação, que posteri
tos elétricos, armazenados sob forma
contínuas produzidas por contrições es ormente permitirá sua síntese, num pro
magnética (fita) e reproduzidos nova
treitas do aparelho vocal ou sons fricati- cesso reverso.

mente através de um alto-falante. As vos (s, f, ch); súbito despreendimento de ar

primeiras formas de tratamento do si

nal de voz foram de caráter analógico.

Isto é. um sinal elétrico contínuo acom

panhava, no tempo, todas as variações Para tanto, a primeira coisa era obser de ceifagem (clipping) nas amplitudes

acústicas do sinal de voz. Foi um proces var o comportamento do sinal da voz centrais ou solução de Sondhi; a ceifa

so que funcionou e ainda funciona na re (vide box) para daí inferir-se um modelo gem central e infinita; a função média

produção tradicional dos sons. que pudesse produzi-la. Os resultados das diferenças de magnitude, e o cepes-

Todavia, descobriu-se teoricamente foram positivos e se desenvolveram vo tro (termo derivado da palavra es

que um sinal analógico podia ser repro coders (voice coders) baseado em diver pectro).

duzido por uma série de impulsos discre sas técnicas tais como o vocoder de for- Existem várias maneiras, como foi

tos, desde que tomados em quantidade mantes e o de codificação com predição visto, de identificar os parâmetros

suficiente — tecnicamente diz-se que "a linear (LPC). característicos do aparelho fonador, em

taxa de amostragem deve ser o dobro da dado momento. Um deles é o método dos

faixa passante do sinal (teorema devido Análise e síntese formantes. Vejamos sua origem. Cap

a Nyquist)” . Tinha nascido, assim, a tada através de um microfone, passando

idéia das técnicas digitais que passaram A análise e a síntese da voz são pro por circuitos apropriados, a voz humana

a se vulgarizar com o fabuloso progresso cessos complementares. A análise da é capaz de gerar configurações numa

dos dispositivos de estado sólido (tran voz determina se um som é surdo ou so tela catódica que permitem analisá-la.

sistores e chips). As vantagens da infor noro, qual o período fundamental T0 do Um diagrama muito popular entre os

mação sob forma digital são inúmeras, sinal digitalizado (e que corresponde à analistas é o de freqüência-amplitude

visto que a cada nível de impulso digital excitação do aparelho vocal) e os parâ que mostra a distribuição da energia do

pode ser atribuído um número (chama- metros que caracterizam o aparelho fo sinal de voz, ao longo do espectro de fre

se a isto codificar) e o sinal passa de uma nador em dado momento (técnicas de vo quências que o constitui. Ao analisar

sequência analógica para uma série de coder). A posse destes três dados per um destes diagramas — estudavam-se

números (bits) mais facilmente armaze mite sintetizar a onda, vale dizer, repro vogais — verificou-se que apresenta

nados e sobretudo manipulados por um duzir a voz original. vam três picos de ressonância típicas

computador. Para saber se um som é surdo ou so nas quais se concentrava a energia e

Do ponto de vista de técnicas de voz, noro existem várias técnicas. Uma que correspondiam à geom etria do

uma das primeiras aplicações da digi delas é examinar o denominado "cruza aparelho vocal para o som em apreço.

talização foi a do sistema PCM, no qual mentos por zero” ou passagem das os Tais freqüências de ressonância foram

o sinal analógico é transformado em cilações do sinal pela origem. Como in denominadas de formantes.

uma série de elementos discretos (bits) dicado por Abraham Alcaim, pesquisa Assim, para o som A identificaram-

que acompanham as variações do sinal dor da PUC/RJ, os sons surdos possuem se formantes em ^ = 730 khz, f2 = 1090

original. Logo procuraram-se métodos, muito maior número de cruzamento por khz, f3 = 2440 khz; para o som de Í7, fj =

com base em manipulações digitais, que zero do que os sons sonoros. Outra ma 300 khz, f2 = 870 khz, f3 = 2240 khz; e

permitissem armazenar a mesma infor neira é examinar a correlação do sinal assim por diante. Descobriu-se também

mação numa quantidade menor de bits. considerado. Se a função não apresentar que, em geral, a energia (ou amplitude

Por outro lado, procuravam-se técni periodicidade é provável se tratar de um do sinal) era maior nas freqüências for

cas baseadas na reprodução do aparelho som surdo (ruído branco). Caso contrá mantes mais baixas do que nas altas. E

fonador humano. E qual a idéia? Se fos rio, trata-se de um som sonoro. mais, ao tomar três geradores de sinais

se possível estabelecer um modelo ma Outra característica a ser determi nas frequências fj, f2, f3 acionados atra

temático do aparelho vocal, reproduzi-lo nada é o período fundamental T0 repre vés de pulsos de excitação de período Tq,

por meio de circuitos e excitá-lo com pul sentativo do sinal de voz e que pode ser com as respectivas amplitudes e interli

sos elétricos, tal como faz o ser humano obtido de várias maneiras, uma das gadas suas saídas a um auto-falante, ob-

ao injetar ar para falar, ter-se-ia uma quais já mencionada — a função de cor tinha-se um sinal parecido com o da vo

maneira muito mais econômica do que relação. O professor Alcaim, da PUC/ gal original. Estava assim efetuando-se

as técnicas PCM para armazenar a voz. RJ, indica outras: a filtragem com uso um vocoder de formantes. *

42 43 44 45 46 47 48 49 50 51 52