Page 48 - Telebrasil - Maio/Junho 1988
P. 48

com a maior naturalidade. Mas no caso


                                                         V ocoders                                                                                                                                                                                                       do emprego  de máquinas,  as dificulda­



                                                                                                                                                                                                                                                                        des são muito grandes e a solução gera)


                         0  vocoder de formantes se destina a                                                                                                                                                                                                           —  compreensão de extenso vocabulário,


                 identificar as freqüências de ressonân­                                                                                                                                                                                                                expresso por um grande universo de lo­


                 cia fi, Í2 , f3  do sinal e suas respectivas                                                                                                                                                                                                           cutores,  m uitos  dos quais podem ser


                 amplitudes A i, A 2, A 3 caracterizadas                                                                                                                                                                                                                identificados —  ainda não foi encon­


                 por bits. O vocoder de formantes é bas-
                                                                                                                                                                                                                                                                        trada.

                 tante eficiente necessitando de apenas
                                                                                                                                                                                                                                                                                O reconhecimento do locutor envolve

                 27 bits para identificar os formantes,
                                                                                                                                                                                                                                                                       dois problemas distintos: a verificação
                 com taxas de 32 blocos para transmissão
                                                                                                                                                                                                                                                                       de uma identidade (senha) apresentada
                 de parâmetros, conduzindo a taxas de
                                                                                                                                                                                                                                                                       como tal e a identificação de uma identi­
                 864 e até menos bits para representar o
                                                                                                                                                                                                                                                                       dade desconhecida.  O primeiro proble­
                 aparelho fonador. Para achar os for­
                                                                                                                                                                                                                                                                       ma, muito comum em aplicações comer­

                 mantes empregam-se várias técnicas,
                                                                                                                                                                                                                                                                       ciais, resolve-se fazendo uma compara­
                explica Alcaim, tais como a das deriva­
                                                                                                                                                                                                                                                                      ção com o dado correspondente armaze­
                das da análise rápida de Fourier.
                                                                                                                                                                                                                                                                      nado  na máquina,  aceitando ou rejei­
                        Uma técnica bastante popular (vide
                                                                                                                                                                                                                                                                      tando a senha  (vocal) proposta. Já na
                figura), é a da codificação com predição
                                                                                                                                                                                                                                                                      instância da identificação (que recai na
                linear (LPC ) que tem como  hipótese
                                                                                                                                                                                                                                                                      esfera criminal) o locutor não se identi­
                principal o fato de que uma amostra da                                                                                   A fala  humana  é  um  fenôm eno  e x tre m a ­


                voz pode ser vaticinada com base na                                                                                      mente complexo que só agora  começa  a ser                                                                                   fica e  é necessário efetuar n compara-1

                                                                                                                                                                                                                                                                      ções com a base de dados, tantas quan­
                ponderação linear de um número finito                                                                                    dominado.


                de amostras precedentes. O método da                                                                                                                                                                                                                 tas forem necessárias para reconhecera



                predição linear leva em conta os parâ­                                                                                                                                                                                                               senha ou a fala proposta.


                metros do filtro inverso A, a amplitude                                                                                 compreendem a melhoria dos sinais dis­


                do sinal G, a decisão entre som surdo ou                                                                                torcidos por alguma razão (mergulha­                                                                                                            Reconhecimento da fala


                sonoro e o período fundamental To dos                                                                                   dores em ambiente hélio-oxigênio), am­


                pulsos de excitação. Matematicamente,                                                                                   bientes ruidosos (ênfase no 2.° formante,                                                                                             Segundo Alcaim ,  o reconhecimento


                existem técnicas para a  solução das                                                                                    em comunicações com helicópteros), lei­                                                                                      da fala é a parte mais complexa das téc­


                equações LPC, como a solução recursiva                                                                                  tora de textos para cegos,  informações                                                                                      nicas de voz e o problema geral precisa


                de Durbin, que permite determinar coe­                                                                                  de dados bancários comandadas a com­                                                                                         ser abordado  sob  diversas hipóteses,


                ficientes de reflexão kj  e de correlação                                                                              putador, treinamento para surdos (mos-                                                                                        tais como: reconhecer palavras isoladas


                parcial (parcor). Os chips da Texas Ins­                                                                               tra-se o espectrograma do som para re­                                                                                        (ou seja reconhecer uma palavra dentre


                trument, muito populares para a sín­                                                                                   ferencial da fonação).                                                                                                        um vocabulário  finito armazenado na


                tese de voz, são baseados nos princípios                                                                                        No caso  da  leitora  para  cegos,  in­                                                                              máquina) e reconhecer a fala contínua


                                                                                                                                       vento que data dos anos 70, o que se faz é                                                                                    (algo m uito m ais complicado de atin­
                do vocoder LPC.

                                                                                                                                       observar um texto e depois digitalizá-lo.                                                                                     gir).  Outro  aspecto a considerar é o de
                       Outra técnica é do processamento ce-

                                                                                                                                       A seguir, cada letra é isolada e compara­                                                                                     saber se o reconhecimento da fala irá de­
               pe8tral ou homomórfica, de Ben Blade,


               especialmente empregado para identifi­                                                                                  da com uma tabela que contém armaze­                                                                                          pender do  locutor —  o que pressupõe


               cação de locutores e que parte do princí­                                                                                nado o som correspondente e  faz-se  a                                                                                       treinam ento anterior da máquina com



               pio de que um sinal de voz é fruto da ex­                                                                               síntese da voz.                                                                                                               este locutor —  ou se independerá do lo­


               citação e do modelo do aparelho vocal.                                                                                           Um capítulo à  parte é o reconheci­                                                                                  cutor (a máquina tem capacidade de dis­

                                                                                                                                        mento da  voz envolvendo o  reconheci­                                                                                       tinguir uma fala,  levando em conta as
               Na técnica cepestral, aplica-se um cir­


               cuito logarítimico e transforma-se o do­                                                                                mento do locutor e o reconhecimento da                                                                                         variações de pronúncia que esta sofre de


               mínio das freqüências para o do tempo,                                                                                   fala, algo que um homem que aprendeu                                                                                          indivíduo para indivíduo). Finalmente,


               aplicando-se o método conhecido como                                                                                     a  falar uma  língua  desde criança  faz                                                                                      resta saber que tipo de aprendizado será»


               Fourier, rápidas para sinais discretos.



              Este tratamento permite obter o período


              fundamental (T0), a variação lenta do si­                                                                                                                                                                     SONS SONOROS E SURDOS


              nal e sua variação rápida.


                                                                                                                                                    H-  T


                                                    Aplicações                                                                                                                                                                                               0  sinal sonoro visto ao longo do tempo é caracterizado por dw


                                                                                                                                                                                                                                                             sos picos de energia e apresenta um período T0 representativo ói

                                                                                                                                                                                                                                                             excitação (jatos de ar) impressa ao aparelho fonador.
                      A  análise e síntese da voz apresen­


             tam inúmeras aplicações, as mais co­


             nhecidas são as técnicas de modulação



             por código de pulsos ou MCP (PC M ). To­                                                                                                                                                                                                         0  sinal surdo ao longo do tempo nào apresenta picos definidos i


             davia, o método de digitalização da voz                                                                                                                                                                                                          sua distribuição de energia segue uma lei uniforme.  Tais cano

                                                                                                                                                                                                                                                               terísticas se aproximam do chamado ruído branco.
             ou  PCM   é relativam ente  ineficiente


             (vide tabela) em termos de capacidade



             de memória necessária para armazenar


             a voz, pois o que faz é apenas acompa­


             nhar digitalmente o sinal no domínio do                                                                                                                                                                                                                              de um sinal sonoro distribuída ao longo das freqúèncM

                                                                                                                                                                                                                                                                                  vista como uma curva mais suave a que se superei# os-
             tempo.  Ainda que processos adicionais
                                                                                                                                                                                                                                                                                  ? ais rápidas (a excitação impressa ao aparelho fors

             como o PCM adaptativo, o PCM diferen­


             cial e os métodos de compansão (vem de



             comprimir, expandir) possam melhorar


             as taxas de transmissão do sinal digital


             PCM, residem nas técnicas da represen­
                                                                                                                                                                                                                                                                0  aparelho vocal se reflete na curva suave aqui aprese't:
             tação paramétrica da voz aqui descritos                                                                                                                                                                                                            caracterizada por picos de ressonância de energia em : rés



             os melhoramentos que tornarão a voz                                                                                                                                                                                                                qüências distintas — são os formantes


             digital universal.



                     Outras aplicações das técnicas de voz
   43   44   45   46   47   48   49   50   51   52   53