Page 49 - Telebrasil - Maio/Junho 1988
P. 49
necessário para formar a base de dados: sar dentre os fonemas mais prováveis
armazenamento de palavras vistas aqueles que se seguem até reconstituir
como um todo acústico ou armazena toda a palavra. No caso da síntese de
mento apenas dos fonemas básicos da voz, memorizam-se os diversos encadea
língua? mentos de dois fonemas — os difonemas.
0 reconhecimento da fala envolve São milhares de combinações mas, na
duas fases. Na primeira, monta-se o prática, cerca de 400 difonemas re
banco de informações vocais: é a fase do velam-se suficientes. A síntese fonética
aprendizado. Na segunda, analisa-se o se obtém montando a palavra em apreço
sinal proposto comparando-o com os da com o emprego de difonemas, tal como
dos previamente apreendidos e decide- se tratasse de um jogo de dominós. As
se aceitá-lo (sinal reconhecido) ou rejei sim, a própria palavra fonema seria
tá-lo (sinal desconhecido). Alcaim vê montada a partir dos blocos: fon/e; e/em;
quatro grandes blocos de investigação em/a = fonema.
científico-tecnológicos ligados ao reco
nhecimento da fala. Um deles tem a ha Conclusão
ver com métodos de representação para
métrica do sinal — a cada palavra cor A voz é um instrumento privilegiado
respondem parâmetros extraídos de di A análise da voz determina: se o som ô surdo ou sonoro, qual o de troca de informação, dando intona-
versos segmentos da voz (uso de técnicas período fundamental T0 do sinal (que corresponde à excitação çóes de medo, alegria e outras emoções.
LPC). Outro se preocupa com o início e do aparelho vocal) e os parâmetros que caracterizam o apare Gerentes utilizam quase 40% de seu
lho fonador, neste momento. Estes trós dados permitem sinteti
fim das palavras. tempo em comunicações vocais. Gas-
zar a onda, vale dizer, o som original.
0 terceiro bloco de investigação é a tam-se 12 minutos para datilografar
organização da base de dados que arma uma carta em formato A4 e apenas
zena as referências paramétricas. Cada cerca de 3 para ditá-la. Nas técnicas de
palavra, geralmente, tem mais de uma voz o importante é a inteligibilidade, se-
referência. Por outro lado, sistemas de guindo-se a qualidade e a naturalidade,
pendentes do locutor precisam ter uma e a taxa de erros deve ser mantida
base de dados para cada locutor pre baixa.
visto. Também há que se prover a repre Os chi ps que armazenam fonemas e
sentações universais dos parâmetros podem, sob comando de um processador,
para o caso da base de dados não ser de sintetizar palavras isoludas já estão há
pendente do locutor. algum tempo no mercado. A Texas Ins-
0 quarto bloco de investigação trata trument lançou o spvak and gpell que
dos processos de comparação e decisão, paru fins didáticos emite as palavras
nos quais verifica-se o intervalo entre a cqja ortografia é digitada num teclado.
palavra a ser identificada e os compo A IBM possui uma máquina de escrever
Na síntese devozs(n) decide se (D) e conecta se um gerxlor de
nentes da base de referência, além dos ruído (GR), se for som surdo ou um gerador de impulsos (GD paru cegos munida de representação so
métodos de busca inteligente para abre acionado pelo penodo fundamental (T0) da excitação, no caso nora de caracteres, palavras e frases. Já
viar o tempo de resposta do sistema. do som sonoro. Após passar por um controle de amplitude existem máquinas de reconhecimento
(CA), os impulsos e<n) sio introduzidos num circuito paramétri
De tudo que foi visto percebe-se que co H|z), que simula o aparelho vocal, em dado instante de voz, multilocutores (Japão) para
há muito que pesquisar até se obterem palavras isoladas e para reconheci
sistemas com vocabulários gigantes da mento de frases (monolocutor).
ordem de 10 mil palavras que preci No Brasil, saldos bancários podem
sarão ser independentes do locutor. ser obtidos, via telefone, e que empre
Uma das barreiras a vencer é o da capa gam chips sintetizadores de voz coman
cidade de armazenamento de informa dados a computador. O Micro Far Voice
ções. Como explica Alcaim: Command System, para ser acoplado a
— A um vocabulário de 200 palavras, microcomputadores Apple II e IBM PC,
com 10 padrões por palavra, e uma codi permite que um locutor comande seu
ficação de 4500 bits por padrão, corres micro empregando um vocabulário fala
ponderia 9 milhões de bits. Imagine 10 do de até 256 palavras, com 5% de rejei
mil palavras! ção a um custo de cerca de 600 dólares. O
Outra barreira a vencer é o da se- Texas Instrument Speech System, que
qüència de palavras em que as proprie emprega técnica de codificação predi-
dades acústicas de referência de uma tiva linear (LPC), permite um locutor
palavra se alteram de acordo com seu definir, por aprendizado, cerca de 50
posicionamento na frase. Um dos cami Tipos de sinal: palavras de vocabulário e custa de 2 a 3
1 - energia acústica
nhos que está sendo investigado nas téc 2 - tensão analógica mil dólares.
nicas de voz é o da base de referência fo 3 - sinal digital Quase todos os grandes fabricantes,
nética. Nesta, define-se uma lista de 4 - parâmetros digitais americanos, japoneses e europeus ofere
5 - codificação binária
sons elementares acústicos (os fonemas) cem circuitos e sistemas de reconheci
e das variações que sofrem em diferen Legenda. mento e síntese de voz. Enquanto isto,
tes contextos. Cerca de 33 fonemas per D - microfone pesquisas se desenvolvem ao longo de
mitem efetuar cerca de 1000 contextos e alto falante três eixos distintos: a codificação acústi
A/D - conversor analógico/digital
mais de 30 mil grupos de três fonemas. A - analisador de parâmetros co-fonética da fala; estudo das pronún
O reconhecimento da voz com base de C - codificador binário cias (prosódia); e melhor comunicação
fonemas possui armazenadas as di D - decodificador binário homem-máquina, incluindo programas
S - sintetizador
ferentes probabilidades de que determi especialistas e de inteligência artificial.
M - memória (tipo ROM)
nado fonema venha antecedido ou se D/A - conversor digital/analógico É aguardar e verificar os resultados,
guidos de outros determinados fonemas. participando, nossas forças tecnológi
Dessa maneira, após reconhecido um cas, na medida do possível, destes de
Sistema de análise e síntese de voz por codificação predicativa
primeiro fonema, a máquina irá pesqui- linear senvolvimentos de ponta.