Page 47 - Telebrasil - Maio/Junho 1988
P. 47

se debruçam à procura de soluções tec­



     nológicas cada vez mais avançadas para                                                                                                                                                                        A  Voz Humana


     o problema da síntese e da análise da


     voz. Como sintomas deste esforço sur­

                                                                                                                                                 Se a voz de um cantor de ópera ou de                                                                       sob excesso de pressão ou oclusivas (b, d).
     gem um chip aqui, uma aplicação ban­

                                                                                                                                        um astro de rock-and-roll pode ser inter­
     cária ali, um brinquedo  falante  acolá,                                                                                                                                                                                                                        Descobriu-se que  a  voz — um fenô­
                                                                                                                                        pretada subjetivamente,  a descrição do                                                                             meno eminentemente variável e comple­

     que vão revelando que o assunto afinal                                                                                              aparelho  fonador feita pelos cientistas,


     de contas está em ebulição. Mas afinal, o                                                                                           não é nada romântica. Para eles, o apara­                                                                           xo — podia ser obtida através de um mo­
                                                                                                                                                                                                                                                             delo paramétrico (materializado por cir­
     que se esconde atrás dessa engenharia                                                                                               to vocal  "é um tubo  acústico,  uniforme,                                                                          cuitos elétricos) simulando o aparelho vo­


      aparentemente esotérica  e  m aravi­                                                                                               dotado de uma membrana bipartida e de                                                                               cal e acionado (excitado) de maneira ade­



      lhosa?                                                                                                                             uma cavidade ressonante, com cerca de                                                                               quada, quer através de um gerador de ruí­

                                                                                                                                          17 cm e cujas seções transversais variam                                                                           do (em se tratando de sons surdos) ou en­



                                Técnicas de voz                                                                                          entre 0 e 20 cm2 ao longo do tempo, produ­                                                                          tão pelo período fundamental (T0) repre­

                                                                                                                                         zindo sons através de vibrações longitudi­                                                                          sentativo dos sons sonoros. Matematica­


                                                                                                                                          nais de  moléculas de  ar,  na  cavidade” .                                                                         mente, trata-se de configurar o aparelho
            Tomando novamente o exemplo  do
                                                                                                                                          Existem dois tipos básicos de som: os so­                                                                          vocal  ou  H  (z) que  varia a cada 20ms
      fonógrafo, o que nele se fez foi traduzir
                                                                                                                                          noros e os surdos (neste as cordas vocais                                                                           (como o faz boca, língua e glote) pelo uso
      uma onda sonora em impulsos mecâni­                                                                                                 não vibram).                                                                                                        de técnicas vocoders (de canal, de forman-



      cos, armazenando-os em riscos de cera e                                                                                                    Do  ponto  de  vista  da  excitação  do                                                                      tes, LPC). Entra aqui a noção de filtro in-


       depois, por um processo inverso, repro­                                                                                           aparelho vocal existem três mecanismos:                                                                              yerso A (z) =  1/H (z) que mostra que o pro­



       duzindo-os sob forma do som original.                                                                                             sequência de pulsos,  quase  periódicos,                                                                             cesso de síntese é inverso ao de análise da


       Com a aplicação de novas técnicas o som                                                                                           com  período fundamental  da ordem  de                                                                               voz. Assim, através da análise da voz digi­


         daqui por diante subentendido como                                                                                               8ms e que corresponde às vogais e suas as­                                                                          talizada obtem-se os parâmetros repre­

                                                                                                                                          sociações e também  aos sons em que en­                                                                             sentativos do aparelho fonador, em dado
       voz) foi sendo transformado em elemen­

                                                                                                                                          tram as cavidades nasais; turbulências                                                                              instante, e de sua excitação, que posteri­
       tos elétricos,  armazenados sob  forma
                                                                                                                                          contínuas  produzidas por contrições es­                                                                            ormente permitirá sua síntese, num pro­
       magnética (fita) e reproduzidos nova­
                                                                                                                                          treitas do aparelho vocal ou sons fricati-                                                                          cesso reverso.

        mente através de um  alto-falante.  As                                                                                            vos (s, f, ch); súbito despreendimento de ar



        primeiras formas de tratamento do si­


        nal de voz foram de caráter analógico.


        Isto é. um sinal elétrico contínuo acom­


        panhava, no tempo, todas as variações                                                                                    Para tanto, a primeira coisa era obser­                                                                                      de ceifagem (clipping) nas amplitudes


        acústicas do sinal de voz. Foi um proces­                                                                                 var o comportamento do sinal  da voz                                                                                        centrais ou solução de Sondhi; a ceifa­



        so que funcionou e ainda funciona na re­                                                                                  (vide box) para daí inferir-se um modelo                                                                                    gem central e infinita; a função média


         produção tradicional dos sons.                                                                                           que pudesse produzi-la. Os resultados                                                                                       das diferenças de magnitude, e o cepes-


               Todavia, descobriu-se teoricamente                                                                                 foram positivos e se desenvolveram vo­                                                                                      tro  (termo  derivado da  palavra es­


         que um sinal analógico podia ser repro­                                                                                  coders (voice coders) baseado em diver­                                                                                     pectro).



         duzido por uma série de impulsos discre­                                                                                 sas técnicas tais como o  vocoder de for-                                                                                           Existem várias maneiras, como foi


         tos, desde que tomados em quantidade                                                                                     mantes e o de codificação com predição                                                                                      visto, de  identificar os parâmetros


          suficiente — tecnicamente diz-se que "a                                                                                 linear (LPC).                                                                                                               característicos do aparelho fonador, em


          taxa de amostragem deve ser o dobro da                                                                                                                                                                                                              dado momento. Um deles é o método dos


          faixa passante do sinal (teorema devido                                                                                                                Análise e síntese                                                                            formantes. Vejamos sua origem. Cap­



          a Nyquist)” . Tinha  nascido,  assim,  a                                                                                                                                                                                                            tada através de um microfone, passando


          idéia das técnicas digitais que passaram                                                                                         A análise e a síntese da voz são pro­                                                                              por circuitos apropriados, a voz humana


          a se vulgarizar com o fabuloso progresso                                                                                 cessos complementares.  A análise da                                                                                       é capaz de gerar configurações numa


          dos dispositivos de estado sólido (tran­                                                                                 voz determina se um som é surdo ou so­                                                                                     tela catódica que permitem analisá-la.



          sistores e chips). As vantagens da infor­                                                                                noro, qual o período fundamental T0 do                                                                                     Um diagrama muito popular entre os


          mação sob forma digital são inúmeras,                                                                                    sinal digitalizado (e que corresponde à                                                                                    analistas é o de freqüência-amplitude


          visto que a cada nível de impulso digital                                                                                excitação do aparelho vocal) e os parâ­                                                                                    que mostra a distribuição da energia do


          pode ser atribuído um número (chama-                                                                                     metros que caracterizam o aparelho fo­                                                                                     sinal de voz, ao longo do espectro de fre­


          se a isto codificar) e o sinal passa de uma                                                                              nador em dado momento (técnicas de vo­                                                                                      quências que o constitui.  Ao analisar


          sequência analógica para uma série de                                                                                    coder).  A posse destes três dados per­                                                                                     um destes diagramas — estudavam-se



          números (bits) mais facilmente armaze­                                                                                   mite sintetizar a onda, vale dizer, repro­                                                                                  vogais — verificou-se que apresenta­


          nados e sobretudo manipulados por um                                                                                     duzir a voz original.                                                                                                       vam três picos de ressonância típicas


          computador.                                                                                                                      Para saber se um som é surdo ou so­                                                                                 nas quais se concentrava a energia e



                 Do ponto de vista de técnicas de voz,                                                                             noro  existem  várias técnicas.  Uma                                                                                        que  correspondiam  à  geom etria do


          uma das primeiras aplicações da digi­                                                                                    delas é examinar o denominado "cruza­                                                                                       aparelho vocal para o som em apreço.


          talização foi a do sistema PCM, no qual                                                                                  mentos por zero” ou passagem das os­                                                                                        Tais freqüências de ressonância foram


          o sinal analógico é transformado  em                                                                                     cilações do sinal pela origem. Como in­                                                                                     denominadas de formantes.


           uma série de elementos discretos (bits)                                                                                 dicado por Abraham Alcaim, pesquisa­                                                                                                Assim, para o som A identificaram-



          que acompanham as variações do sinal                                                                                    dor da PUC/RJ, os sons surdos possuem                                                                                        se formantes em ^ = 730 khz, f2 = 1090


          original. Logo procuraram-se métodos,                                                                                   muito maior número de cruzamento por                                                                                         khz, f3 = 2440 khz; para o som de Í7, fj =


          com base em manipulações digitais, que                                                                                  zero do que os sons sonoros. Outra ma­                                                                                       300 khz, f2 = 870 khz, f3 =  2240 khz; e


          permitissem armazenar a mesma infor­                                                                                    neira é examinar a correlação do sinal                                                                                      assim por diante. Descobriu-se também



          mação numa quantidade menor de bits.                                                                                    considerado. Se a função não apresentar                                                                                     que, em geral, a energia (ou amplitude


                 Por outro lado, procuravam-se técni­                                                                             periodicidade é provável se tratar de um                                                                                    do sinal) era maior nas freqüências for­


          cas baseadas na reprodução do aparelho                                                                                  som surdo (ruído branco). Caso contrá­                                                                                      mantes mais baixas do que nas altas. E


          fonador humano. E qual a idéia? Se fos­                                                                                 rio, trata-se de um som sonoro.                                                                                             mais, ao tomar três geradores de sinais


          se possível estabelecer um  modelo  ma­                                                                                         Outra característica a ser determi­                                                                                 nas frequências fj, f2, f3 acionados atra­



          temático do aparelho vocal, reproduzi-lo                                                                                nada é o período fundamental T0 repre­                                                                                      vés de pulsos de excitação de período Tq,


          por meio de circuitos e excitá-lo com pul­                                                                              sentativo do sinal de voz e que pode ser                                                                                    com as respectivas amplitudes e interli­


          sos elétricos, tal como faz o ser humano                                                                                obtido  de várias  maneiras,  uma das                                                                                       gadas suas saídas a um auto-falante, ob-


          ao injetar ar para falar, ter-se-ia  uma                                                                                quais já mencionada — a função de cor­                                                                                      tinha-se um sinal parecido com o da vo­


          maneira muito mais econômica do que                                                                                     relação.  O professor Alcaim, da PUC/                                                                                       gal original. Estava assim efetuando-se


          as técnicas PCM para armazenar a voz.                                                                                  RJ,  indica outras: a filtragem com uso                                                                                      um vocoder de formantes.                                                                                  *
   42   43   44   45   46   47   48   49   50   51   52