Page 49 - Telebrasil - Maio/Junho 1988

P. 49

necessário para formar a base de dados: sar dentre os fonemas mais prováveis

armazenamento de palavras vistas aqueles que se seguem até reconstituir

como um todo acústico ou armazena toda a palavra. No caso da síntese de

mento apenas dos fonemas básicos da voz, memorizam-se os diversos encadea

língua? mentos de dois fonemas — os difonemas.

0 reconhecimento da fala envolve São milhares de combinações mas, na

duas fases. Na primeira, monta-se o prática, cerca de 400 difonemas re

banco de informações vocais: é a fase do velam-se suficientes. A síntese fonética

aprendizado. Na segunda, analisa-se o se obtém montando a palavra em apreço

sinal proposto comparando-o com os da com o emprego de difonemas, tal como

dos previamente apreendidos e decide- se tratasse de um jogo de dominós. As

se aceitá-lo (sinal reconhecido) ou rejei sim, a própria palavra fonema seria

tá-lo (sinal desconhecido). Alcaim vê montada a partir dos blocos: fon/e; e/em;

quatro grandes blocos de investigação em/a = fonema.

científico-tecnológicos ligados ao reco

nhecimento da fala. Um deles tem a ha Conclusão

ver com métodos de representação para

métrica do sinal — a cada palavra cor A voz é um instrumento privilegiado

respondem parâmetros extraídos de di A análise da voz determina: se o som ô surdo ou sonoro, qual o de troca de informação, dando intona-

versos segmentos da voz (uso de técnicas período fundamental T0 do sinal (que corresponde à excitação çóes de medo, alegria e outras emoções.

LPC). Outro se preocupa com o início e do aparelho vocal) e os parâmetros que caracterizam o apare Gerentes utilizam quase 40% de seu

lho fonador, neste momento. Estes trós dados permitem sinteti
fim das palavras. tempo em comunicações vocais. Gas-
zar a onda, vale dizer, o som original.

0 terceiro bloco de investigação é a tam-se 12 minutos para datilografar

organização da base de dados que arma uma carta em formato A4 e apenas

zena as referências paramétricas. Cada cerca de 3 para ditá-la. Nas técnicas de

palavra, geralmente, tem mais de uma voz o importante é a inteligibilidade, se-

referência. Por outro lado, sistemas de guindo-se a qualidade e a naturalidade,

pendentes do locutor precisam ter uma e a taxa de erros deve ser mantida

base de dados para cada locutor pre baixa.

visto. Também há que se prover a repre Os chi ps que armazenam fonemas e

sentações universais dos parâmetros podem, sob comando de um processador,

para o caso da base de dados não ser de sintetizar palavras isoludas já estão há

pendente do locutor. algum tempo no mercado. A Texas Ins-

0 quarto bloco de investigação trata trument lançou o spvak and gpell que

dos processos de comparação e decisão, paru fins didáticos emite as palavras

nos quais verifica-se o intervalo entre a cqja ortografia é digitada num teclado.

palavra a ser identificada e os compo A IBM possui uma máquina de escrever
Na síntese devozs(n) decide se (D) e conecta se um gerxlor de

nentes da base de referência, além dos ruído (GR), se for som surdo ou um gerador de impulsos (GD paru cegos munida de representação so

métodos de busca inteligente para abre acionado pelo penodo fundamental (T0) da excitação, no caso nora de caracteres, palavras e frases. Já

viar o tempo de resposta do sistema. do som sonoro. Após passar por um controle de amplitude existem máquinas de reconhecimento
(CA), os impulsos e<n) sio introduzidos num circuito paramétri
De tudo que foi visto percebe-se que co H|z), que simula o aparelho vocal, em dado instante de voz, multilocutores (Japão) para

há muito que pesquisar até se obterem palavras isoladas e para reconheci

sistemas com vocabulários gigantes da mento de frases (monolocutor).

ordem de 10 mil palavras que preci No Brasil, saldos bancários podem

sarão ser independentes do locutor. ser obtidos, via telefone, e que empre

Uma das barreiras a vencer é o da capa gam chips sintetizadores de voz coman

cidade de armazenamento de informa dados a computador. O Micro Far Voice

ções. Como explica Alcaim: Command System, para ser acoplado a

— A um vocabulário de 200 palavras, microcomputadores Apple II e IBM PC,

com 10 padrões por palavra, e uma codi permite que um locutor comande seu

ficação de 4500 bits por padrão, corres micro empregando um vocabulário fala

ponderia 9 milhões de bits. Imagine 10 do de até 256 palavras, com 5% de rejei

mil palavras! ção a um custo de cerca de 600 dólares. O

Outra barreira a vencer é o da se- Texas Instrument Speech System, que

qüència de palavras em que as proprie emprega técnica de codificação predi-

dades acústicas de referência de uma tiva linear (LPC), permite um locutor

palavra se alteram de acordo com seu definir, por aprendizado, cerca de 50

posicionamento na frase. Um dos cami Tipos de sinal: palavras de vocabulário e custa de 2 a 3
1 - energia acústica
nhos que está sendo investigado nas téc 2 - tensão analógica mil dólares.

nicas de voz é o da base de referência fo 3 - sinal digital Quase todos os grandes fabricantes,

nética. Nesta, define-se uma lista de 4 - parâmetros digitais americanos, japoneses e europeus ofere

5 - codificação binária
sons elementares acústicos (os fonemas) cem circuitos e sistemas de reconheci

e das variações que sofrem em diferen Legenda. mento e síntese de voz. Enquanto isto,

tes contextos. Cerca de 33 fonemas per D - microfone pesquisas se desenvolvem ao longo de

mitem efetuar cerca de 1000 contextos e alto falante três eixos distintos: a codificação acústi
A/D - conversor analógico/digital
mais de 30 mil grupos de três fonemas. A - analisador de parâmetros co-fonética da fala; estudo das pronún

O reconhecimento da voz com base de C - codificador binário cias (prosódia); e melhor comunicação

fonemas possui armazenadas as di D - decodificador binário homem-máquina, incluindo programas

S - sintetizador
ferentes probabilidades de que determi especialistas e de inteligência artificial.
M - memória (tipo ROM)
nado fonema venha antecedido ou se D/A - conversor digital/analógico É aguardar e verificar os resultados,

guidos de outros determinados fonemas. participando, nossas forças tecnológi

Dessa maneira, após reconhecido um cas, na medida do possível, destes de
Sistema de análise e síntese de voz por codificação predicativa

primeiro fonema, a máquina irá pesqui- linear senvolvimentos de ponta.

44 45 46 47 48 49 50 51 52 53 54