Page 49 - Telebrasil - Maio/Junho 1988
P. 49

necessário para formar a base de dados:                                                                                                                                                                                                                 sar dentre os fonemas mais prováveis


    armazenamento de  palavras vistas                                                                                                                                                                                                                       aqueles que se seguem até reconstituir


    como um todo acústico ou  armazena­                                                                                                                                                                                                                     toda a palavra.  No caso da síntese de



    mento apenas dos fonemas  básicos da                                                                                                                                                                                                                     voz, memorizam-se os diversos encadea­


     língua?                                                                                                                                                                                                                                                 mentos de dois fonemas — os difonemas.


           0 reconhecimento da  fala envolve                                                                                                                                                                                                                 São milhares de combinações mas,  na


     duas fases.  Na primeira,  monta-se o                                                                                                                                                                                                                   prática, cerca  de 400  difonemas  re­



     banco de informações vocais: é a fase do                                                                                                                                                                                                                velam-se suficientes. A síntese fonética


     aprendizado.  Na segunda, analisa-se o                                                                                                                                                                                                                  se obtém montando a palavra em apreço


     sinal proposto comparando-o com os da­                                                                                                                                                                                                                  com o emprego de difonemas, tal como


      dos previamente apreendidos e decide-                                                                                                                                                                                                                  se tratasse de um jogo de dominós.  As­



      se aceitá-lo (sinal reconhecido) ou rejei­                                                                                                                                                                                                             sim, a  própria  palavra  fonema  seria


      tá-lo (sinal desconhecido).  Alcaim  vê                                                                                                                                                                                                                montada a partir dos blocos: fon/e; e/em;


      quatro grandes blocos de investigação                                                                                                                                                                                                                  em/a = fonema.



      científico-tecnológicos ligados ao reco­


      nhecimento da fala. Um deles tem a ha­                                                                                                                                                                                                                                                        Conclusão


      ver com métodos de representação para­


       métrica do sinal — a cada palavra cor­                                                                                                                                                                                                                        A voz é um instrumento privilegiado



       respondem parâmetros extraídos de di­                                                                                    A análise da voz determina: se o som ô surdo ou sonoro, qual o                                                               de troca de  informação, dando intona-


       versos segmentos da voz (uso de técnicas                                                                                 período fundamental T0 do sinal (que corresponde à excitação                                                                 çóes de medo, alegria e outras emoções.


       LPC). Outro se preocupa com o início e                                                                                    do aparelho vocal) e os parâmetros que caracterizam o apare­                                                                Gerentes utilizam  quase 40% de seu

                                                                                                                                 lho fonador, neste momento. Estes trós dados permitem sinteti­
       fim das palavras.                                                                                                                                                                                                                                     tempo em comunicações vocais.  Gas-
                                                                                                                                 zar a onda, vale dizer, o som original.

              0 terceiro bloco de investigação é a                                                                                                                                                                                                           tam-se  12  minutos para datilografar


       organização da base de dados que arma­                                                                                                                                                                                                                 uma carta  em  formato  A4  e apenas



       zena as referências paramétricas. Cada                                                                                                                                                                                                                cerca de 3 para ditá-la. Nas técnicas de


        palavra, geralmente, tem mais de uma                                                                                                                                                                                                                  voz o importante é a inteligibilidade, se-


        referência. Por outro lado, sistemas de­                                                                                                                                                                                                             guindo-se a qualidade e a naturalidade,


        pendentes do locutor precisam ter uma                                                                                                                                                                                                                e  a  taxa  de  erros deve  ser  mantida



        base de dados para cada  locutor pre­                                                                                                                                                                                                                 baixa.


        visto. Também há que se prover a repre­                                                                                                                                                                                                                       Os chi ps que armazenam fonemas e


        sentações universais dos parâmetros                                                                                                                                                                                                                   podem, sob comando de um processador,


        para o caso da base de dados não ser de­                                                                                                                                                                                                              sintetizar palavras isoludas já estão há


        pendente do locutor.                                                                                                                                                                                                                                 algum tempo no mercado. A Texas Ins-



               0 quarto bloco de investigação trata                                                                                                                                                                                                          trument lançou o spvak and gpell que


         dos processos de comparação e decisão,                                                                                                                                                                                                              paru  fins didáticos emite as  palavras


         nos quais verifica-se o intervalo entre a                                                                                                                                                                                                           cqja ortografia é digitada num teclado.


         palavra a ser identificada e os compo­                                                                                                                                                                                                               A IBM possui uma máquina de escrever
                                                                                                                                  Na síntese devozs(n) decide se (D) e conecta se um gerxlor de

         nentes da base de referência, além dos                                                                                   ruído (GR), se for som surdo ou um gerador de impulsos (GD                                                                 paru cegos munida de representação so­


         métodos de busca inteligente para abre­                                                                                 acionado pelo penodo fundamental (T0) da excitação, no caso                                                                  nora de caracteres, palavras e frases. Já


         viar o tempo de resposta do sistema.                                                                                     do som sonoro. Após passar por um controle de amplitude                                                                    existem  máquinas de  reconhecimento
                                                                                                                                  (CA), os impulsos e<n) sio introduzidos num circuito paramétri­
               De tudo que foi visto percebe-se que                                                                               co H|z), que simula o aparelho vocal, em dado instante                                                                     de  voz,  multilocutores (Japão) para


          há muito que pesquisar até se obterem                                                                                                                                                                                                               palavras  isoladas e para  reconheci­



          sistemas com vocabulários gigantes da                                                                                                                                                                                                               mento de frases (monolocutor).


          ordem de  10 mil  palavras que  preci­                                                                                                                                                                                                                      No  Brasil, saldos bancários podem


          sarão ser independentes do  locutor.                                                                                                                                                                                                               ser obtidos, via telefone, e que empre­


          Uma das barreiras a vencer é o da capa­                                                                                                                                                                                                            gam chips sintetizadores de voz coman­



         cidade de armazenamento de informa­                                                                                                                                                                                                                 dados a computador. O Micro Far Voice


         ções. Como explica Alcaim:                                                                                                                                                                                                                           Command System, para ser acoplado a


               — A um vocabulário de 200 palavras,                                                                                                                                                                                                            microcomputadores Apple II e IBM PC,


         com 10 padrões por palavra, e uma codi­                                                                                                                                                                                                              permite que um  locutor comande seu


          ficação de 4500 bits por padrão, corres­                                                                                                                                                                                                            micro empregando um vocabulário fala­


          ponderia 9 milhões de bits. Imagine 10                                                                                                                                                                                                              do de até 256 palavras, com 5% de rejei­



          mil palavras!                                                                                                                                                                                                                                      ção a um custo de cerca de 600 dólares. O


               Outra barreira a vencer é o da se-                                                                                                                                                                                                            Texas Instrument Speech System, que


          qüència de palavras em que as proprie­                                                                                                                                                                                                              emprega técnica de codificação predi-


          dades acústicas de referência de uma                                                                                                                                                                                                                tiva linear (LPC), permite um locutor



          palavra se alteram de acordo com seu                                                                                                                                                                                                               definir, por aprendizado, cerca de 50


          posicionamento na frase. Um dos cami­                                                                                                    Tipos de sinal:                                                                                            palavras de vocabulário e custa de 2 a 3
                                                                                                                                                            1 -  energia acústica
          nhos que está sendo investigado nas téc­                                                                                                          2 -  tensão analógica                                                                             mil dólares.


          nicas de voz é o da base de referência fo­                                                                                                        3 -  sinal digital                                                                                        Quase todos os grandes fabricantes,


         nética. Nesta, define-se  uma  lista de                                                                                                            4 -  parâmetros digitais                                                                          americanos, japoneses e europeus ofere­

                                                                                                                                                            5  - codificação binária
         sons elementares acústicos (os fonemas)                                                                                                                                                                                                             cem circuitos e sistemas de reconheci­



         e das variações que sofrem em diferen­                                                                                                   Legenda.                                                                                                   mento e síntese de voz.  Enquanto isto,


         tes contextos. Cerca de 33 fonemas per­                                                                                                          D  -  microfone                                                                                    pesquisas se desenvolvem ao longo de


         mitem efetuar cerca de 1000 contextos e                                                                                                                  alto falante                                                                               três eixos distintos: a codificação acústi­
                                                                                                                                                       A/D -  conversor analógico/digital
         mais de 30 mil grupos de três fonemas.                                                                                                            A - analisador de parâmetros                                                                      co-fonética da fala; estudo das pronún­



               O reconhecimento da voz com base de                                                                                                         C - codificador binário                                                                           cias (prosódia); e melhor comunicação


         fonemas possui  armazenadas  as  di­                                                                                                              D -  decodificador binário                                                                        homem-máquina, incluindo programas

                                                                                                                                                           S -  sintetizador
         ferentes probabilidades de que determi­                                                                                                                                                                                                             especialistas e de inteligência artificial.
                                                                                                                                                          M - memória (tipo ROM)
         nado fonema venha antecedido ou se­                                                                                                           D/A - conversor digital/analógico                                                                     É aguardar e verificar os resultados,


         guidos de outros determinados fonemas.                                                                                                                                                                                                              participando, nossas forças tecnológi­


         Dessa maneira, após reconhecido  um                                                                                                                                                                                                                 cas,  na medida do possível, destes de­
                                                                                                                               Sistema de análise e síntese de voz por codificação predicativa

         primeiro fonema, a máquina irá pesqui-                                                                                linear                                                                                                                        senvolvimentos de ponta.
   44   45   46   47   48   49   50   51   52   53   54