Técnicas de Codificação de Voz Aplicadas em Sistemas

•

FADERGS

Andressa Pereira da Silva

21/06/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Comunicação de Dados

2.500 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

CARVALHO e DIAS: TÉCNICAS DE CODIFICAÇÃO DE VOZ EM SISTEMAS MÓVEIS
1
PAPER
Técnicas de Codificação de Voz Aplicadas em Sistemas
Móveis Celulares

João Luiz A. CARVALHO (97/07867) e Danilo DIAS (97/07760)

RESUMO Este trabalho aborda os conceitos básicos das
principais técnicas de codificação de voz utilizadas em
sistemas móveis celulares. Trata inicialmente das
características do sinal de voz e das diferenças entre
codificadores de forma de onda, paramétricos e híbridos. Na
seqüência, são apresentados os codificadores LPC e CELP e
os principais algoritmos efetivamente aplicados na telefonia
móvel: RPE-LTP, VSELP, ACELP e QCELP.
palavras-chave: codificação de sinais de voz, codificadores de forma de
onda, codificadores paramétricos, codificadores híbridos, LPC, RPE-
LTP, GSM, CELP, VSELP, IS-54, ACELP, IS-136, QCELP,
IS-95.

1. Introdução

O desenvolvimento de técnicas avançadas de
codificação de voz tornou possível e viável a introdução
dos sistemas digitais de telefonia móvel, diminuindo a
largura de banda requerida por usuário. Assim, foi
possível aumentar o número de usuários do sistema,
tornando a telefonia celular um sistema mais barato e
acessível à população.
No entanto, o processo de codificação deve ser
simples e rápido o suficiente para que o sistema
funcione em tempo real com processadores
relativamente baratos e de baixo consumo. Além disso,
a qualidade da voz codificada deve ser tal que permita
não só a inteligibilidade do que é ouvido, mas também
que se possa reconhecer o interlocutor e perceber
outras informações como a entonação e a emoção.
As técnicas de codificação abordadas neste
trabalho fornecem qualidade de voz suficiente para
estes fins, e devido à possibilidade de uso de
codificação de canal, além da própria robustez
intrínseca de cada algoritmo e do sistema digital em si,
conseguem qualidade de voz superior à dos sistemas
analógicos frente a ruído no canal.
Este trabalho aborda inicialmente os conceitos
básicos envolvidos na codificação de voz, tratando
sobre as características do sinal de voz e as diferenças
entre codificadores de forma de onda, paramétricos e
híbridos. A seguir, idéias básicas sobre amostragem,
quantização e codificação de linha são apresentadas, e
introduzem-se os codificadores LPC e CELP nos quais
são baseadas as demais técnicas abordadas. As
principais técnicas aplicadas nos sistemas móveis atuais
(Tabela 1) são então apresentadas e, em conclusão, faz-
se uma análise comparativa sobre as técnicas discutidas.

Tabela 1 Sistemas móveis e técnicas de codificação aplicadas
Padrão Técnica Taxa de bits
GSM RPE-LTP 13 kbit/s
IS-54B VSELP 7,95 kbit/s
IS-136 VSELP/ACELP 7,95 kbit/s
IS-95 QCELP 1,2/2,4/4,8/9,6 kbit/s

2. Características do Sinal de Voz

Para se desenvolver uma técnica de codificação
eficiente, é necessário antes conhecer as características
básicas do sinal de voz. O mecanismo de produção da
voz apresenta uma resposta limitada em freqüência,
com limite por volta de 10kHz. Como a maior parte da
energia do sinal de voz está concentrada na faixa de
freqüência entre 300 e 3400 Hz, pode se limitar o canal
a esta banda com uma perda tolerável em qualidade.
O sinal de voz se apresenta de forma sonora ou
surda, conforme haja vibração ou não das cordas
vocais. São classificados como sinais surdos na fala,
fonemas com características de ruído, como o 'S' e o
'CH'. Já os sinais sonoros são as vogais e consoantes
com características não ruidosas. Nestes sinais, a
vibração das cordas vocais se dá a partir de uma
freqüência fundamental, ou o pitch. As demais
harmônicas definem o timbre, que é o que modela a
forma de onda periódica, trazendo assim informações
importantes, já que é essa forma de onda que permite o
reconhecimento de um fonema e também do
interlocutor. Portanto, o timbre é uma característica
fundamental para que se possam distinguir vozes de
mesma freqüência que sejam emitidas por diferentes
pessoas. Uma outra característica importante do sinal
de voz é a amplitude, que determina a intensidade do
som, e é função da força ou potência com que a voz é
produzida.
Todas as características citadas acima podem ser
observadas nos segmentos de voz da Fig. 1, que estão
na mesma escala de tempo e amplitude. Nos segmentos
sonoros das Figs. 1(a) e 1(b) é fácil notar que as
amplitudes são altas e que há uma periodicidade,
ENE/FT/UNB JULHO DE 2000
2
determinada pelo pitch. Já no segmento surdo da Fig.
1(c) os níveis de amplitude são relativamente baixos e
não há periodicidade, fazendo com que o sinal lembre
um ruído. Comparando ainda os dois segmentos
sonoros, é possível perceber que além de terem formas
de onda bastante diferentes, permitindo assim distinção
dos diferentes fonemas, o segmento da Fig. 1(a) tem
um período de pitch menor que o da Fig. 1(b), o que
caracteriza uma voz mais aguda. As pequenas diferenças
percebidas no sinal a cada período de pitch é um dos
fatores que torna mais difícil a codificação.

(a) Segmento sonoro: fonema Ô

(b) Segmento sonoro: fonema A

Fig. 1 Comparação entre segmentos sonoros e surdos

Para codificação de sinais de voz, algumas
propriedades do sinal são exploradas com mais ênfase:

 a distribuição de probabilidade da amplitude do
sinal não é uniforme;
 a autocorrelação entre amostras sucessivas da voz
é diferente de zero;
 o espectro de freqüência do sinal não é uniforme;
 é possível distinguir no sinal de voz segmentos
sonoros e segmentos surdos;
 existe no sinal de voz uma quase periodicidade.

As propriedades citadas acima permitem uma
quantização com baixo ruído e técnicas de codificação
que tendem a diminuir a redundância do sinal de voz,
que, por ser limitado em banda, pode ser discretizado
no tempo a uma taxa finita por um processo de
amostragem, e ser reconstruído completamente de suas
amostras. A amostragem, a quantização e a codificação
desses sinais serão discutidas nos itens a seguir.

3. Codificadores de Forma de Onda

Os codificadores de forma de onda, ou de linha, são
esquemas que tentam aproximar o sinal gerado ao sinal
de voz original. A forma básica de codificação aplicada
no sinal de voz é a digitalização, uma vez que o sinal
obtido é analógico ou contínuo no tempo. Para isso,
são usados sistemas que amostram o sinal, quantizam as
amostras obtidas e as convertem para o sistema binário.
Por implicarem em sinais digitais com altas taxas
de bits, esses sistemas não são utilizados diretamente
nos sistemas de telefonia móvel, mas são necessários
para que formas de codificação mais eficientes sejam
aplicadas, uma vez que todas essas técnicas utilizam
processamento digital de sinais.
O sinal amostrado é definido com um sinal PAM
(Pulse Amplitude Modulation), e após a quantização e a
codificação, o sinal digital é definido como um sinal
PCM, ou Pulse Code Modulation. Cada um desses passos
da digitalização do sinal de voz é discutido a seguir.

3.1 Amostragem

Apesar de ser limitado em banda, nem toda a
informação inicial do sinal analógico é amostrada.
Como já mencionado, consegue-se uma boa qualidade
de voz considerando-se apenas componentes de
freqüência compreendidas na faixa entre 300 e 3400
Hz. Explorando essa característica, o sinal original - na
faixa de 10kHz - é filtrado, para limitá-lo dentro de
faixa de 4kHz, e a seguir amostrado, segundo o
Teorema de Nyquist, a uma taxa de 8kHz, ou seja, 8000
amostras por segundo.
Se for utilizada uma taxa de amostragem inferior a
8kHz, é provável que ocorra superposição espectral
(aliasing), resultando em distorções nas componentes
mais altas de freqüência. Utilizando-se taxas mais
elevadas, serão necessários amostradores mais caros,
sem ganho na qualidade, e resultando em uma maior
taxa de bits após a codificação.

3.2 Quantização

O sinal amostrado é discreto no tempo, mas tem
valores contínuos deamplitude. A quantização é o
processo que consiste em discretizar esses valores,
explorando características da distribuição de
probabilidade da amplitude do sinal, obtendo assim
uma perda menos sensível de informações devido ao
truncamento do sinal amostrado.
Essa perda de informação é chamada de ruído de
quantização e pode ser minimizada utilizando-se níveis
CARVALHO e DIAS: TÉCNICAS DE CODIFICAÇÃO DE VOZ EM SISTEMAS MÓVEIS
3
de quantização com distância variada de acordo com a
amplitude, uma vez que amostras de menor amplitude
são mais prováveis, trazendo assim a maior parte da
informação. Na Fig. 2 é possível observar como essa
técnica melhora a quantização de sinais de baixa
amplitude, uma vez que com a quantização uniforme a
informação amostrada praticamente não descreve a
original, enquanto que com a quantização não uniforme
o sinal quantizado se aproxima mais da onda que deve
ser codificada. Há, no entanto, uma maior distorção na
quantização de amostras de maior amplitude, que por
serem menos prováveis, influem menos na quantização
do sinal como um todo.

Fig. 2 Comparação: quantização uniforme e não uniforme[12]

As técnicas que exploram as características da
distribuição de probabilidade da amplitude do sinal são
chamadas de log-PCM, sendo que os esquemas mais
utilizados são as duas leis de compressão recomendadas
pelo antigo CCITT (atual ITU-T): a lei- e a lei-A.
Esses sinais são obtidos através de uma compressão do
sinal antes da quantização e uma expansão após a
decodificação. Esse processo é conhecido como
compansão e é utilizado no sistema de telefonia fixa.

3.3 Codificação

O sinal amostrado e quantizado, já com características
discretas tanto no tempo como na amplitude, deve ser
então convertido para um esquema que possa ser
facilmente processado por microcomputadores e outros
sistemas digitais e que possa permitir técnicas de
codificação que minimizem sua redundância e técnicas
de modulação que melhorem o desempenho na
transmissão. Obviamente esse esquema é o binário.
Cada amostra do sinal é codificada como uma
seqüência de bits que traz a informação do valor
quantizado da amplitude da amostra em questão. Um
maior número de bits permite um número maior de
níveis de quantização, segundo a equação L=2n, onde n
é o número de bits e L é o número de níveis de
quantização. Usando mais níveis de quantização,
diminui-se o intervalo entre níveis e assim o ruído de
quantização.
Utilizando o log-PCM, é possível conseguir uma
boa qualidade de voz com apenas 256 níveis, ou 8 bits.
Como a taxa de amostragem é de 8KHz, esse esquema
implica em uma taxa de bits de 64kbit/s, usado na
telefonia fixa. Essa taxa é considerada muito alta para
um sistema de telefonia móvel, onde a banda utilizada
por cada usuário deve ser a menor possível. Portanto,
são necessárias técnicas de codificação adicionais que
diminuam essa taxa de bits para valores mais adequados
a esse tipo de sistema.

3.4 PCM Adaptativo e Diferencial

Algumas técnicas adicionais podem ser utilizadas para
diminuir a taxa de bits nos codificadores de forma de
onda. Entre elas convêm destacar o PCM Adaptativo
(APCM), o PCM Diferencial (DPCM) e o PCM
Adaptativo e Diferencial (ADPCM).
No APCM, o passo de quantização varia com o
tempo, de modo a acompanhar as variações de
amplitude do sinal de voz, baseando-se nas amostras
passadas do mesmo. Assim reduz-se a faixa dinâmica
do sinal e conseqüentemente a taxa final de
transmissão.
Já o DPCM explora a significativa correlação entre
amostras sucessivas do sinal de voz, uma vez que este é
bastante redundante. Nesta técnica quantiza-se a
diferença de amplitude entre amostras adjacentes, que
por ser relativamente pequena, pode ser representada
com menos bits. O sinal de entrada no quantizador é a
diferença entre o sinal original e uma predição do
mesmo, baseada nas amostras passadas, resultando em
um sinal chamado de erro de predição, que por sua vez
é codificado a uma taxa de 32 kbit/s.
Os codificadores ADPCM empregam quantização
e/ou predição adaptativas. A predição adaptativa
consiste no ajuste dinâmico do preditor de acordo com
variações no sinal de voz. Assim codificadores ADPCM
apresentam boa qualidade de voz para taxas entre 24 e
48kbit/s.

4. Codificadores Paramétricos e Híbridos

Codificadores paramétricos operam utilizando um
modelo de como o sinal foi gerado, e tentam extrair do
sinal os parâmetros desse modelo. São esses parâmetros
que são enviados ao decodificador. Codificadores
paramétricos para sinais de voz são chamados de
vocoders, e como são baseados nas estatísticas do sinal
de voz, não funcionam para outro tipo de sinais. Além
disso, a qualidade é inferior a dos padrões telefônicos, e
a voz reproduzida tem um aspecto sintético ou não
ENE/FT/UNB JULHO DE 2000
4
natural, mas esses sistemas fornecem inteligibilidade da
voz com taxas abaixo de 4kbit/s.
Nos vocoders, o trato vocal é representado como
um filtro variante no tempo e é excitado ou com uma
fonte de ruído branco, para segmentos surdos do sinal
de voz, ou com um trem de pulsos separados pelo
período de pitch, para segmentos sonoros. Portanto, a
informação que deve ser enviada ao decodificador é a
especificação do filtro, um flag de segmento
sonoro/surdo, o ganho aplicado ao sinal de excitação
(G) e o período de pitch, para os segmentos sonoros.
Essas informações são atualizadas a cada 10-20ms para
seguir a natureza não-estacionária da fala.
Esses parâmetros do modelo podem ser
determinados pelo codificador por diferentes métodos,
usando técnicas no domínio do tempo ou no domínio
da freqüência. Porém, um tipo de vocoder muito
utilizado é o LPC, que extrai características
perceptivelmente importantes do sinal de voz
diretamente da forma de onda no tempo.
Com taxas de bits entre 4 e 16 kbit/s (um pouco
maior que as dos vocoders), os codificadores híbridos,
que exploram técnicas tanto dos codificadores
paramétricos como dos de forma de onda, conseguem
uma qualidade muito próxima à dos codificadores de
linha, que requerem taxas acima de 16kbit/s. Os
codificadores híbridos também são baseados nos
modelos de produção da voz e utilizam uma excitação
mais apurada para o sintetizador, que propicia uma
melhora na qualidade da voz sintetizada, tornando-a
mais inteligível que nos vocoders convencionais.
A qualidade da voz, em função da taxa de bits e do
tipo de codificador, é apresentada no gráfico da Fig. 3.

Fig. 3 Comparação entre classes de codificadores de voz [3]

As técnicas de codificação abordadas neste
trabalho distinguem-se basicamente por alterações no
processo de geração da excitação, já que a modelagem
do trato vocal basicamente não sofre modificações em
qualquer codificador de voz que utilize predição linear a
curto termo. Por este motivo o vocoder LPC é
apresentado a seguir.
5. Linear Prediction Coding: LPC

O LPC (Codificação Por Predição Linear) é um
codificador paramétrico de sinais de voz muito utilizado
e que, como já mencionado, extrai os parâmetros para o
modelo do trato vocal diretamente da forma de onda
no tempo, obtendo um resultado melhor que outros
tipos de vocoders que obtêm seus parâmetros a partir
do espectro de freqüência.
Fundamentalmente, um LPC analisa a forma de
onda para produzir um filtro de síntese variante no
tempo que modela o trato vocal, reproduzindo sua
função de transferência. No receptor, cujo diagrama de
blocos é apresentado na Fig. 4, um sintetizador recria o
sinal de voz pela passagem de uma excitação específica
pelo mesmo modelo matemático do trato vocal, que é
atualizado periodicamente.

Fig. 4 Diagrama de blocos do decodificador LPC [3]

A excitação ideal a ser aplicada no filtro de síntese
é o sinal residual obtido na saída do filtro inverso,
quando na sua entrada é aplicado o próprio sinal de
voz. Porém, no LPC essa excitação é modelada
parametricamente, sem que se busque reproduzirsua
forma de onda, mas somente as características mais
marcantes do seu espectro de amplitude. É a
modelagem “trem de impulsos/ruído”, onde a
excitação, que é amplificada com um ganho G relativo à
amplitude do sinal de voz, pode ser uma fonte de ruído
branco (para segmentos surdos) ou um trem de pulsos
separados pelo período de pitch (para segmentos
sonoros).
O modelo do trato vocal é conseguido por um
filtro digital só de pólos e variante no tempo, do tipo:
)(
1
)(
zA
zH  (5.1)
onde,



10
1
1)(
i
i
i zzA  (5.2)
e os parâmetros i são os coeficientes preditores.
O filtro de síntese H(z) tem a função de introduzir
no sinal sintetizado a correlação a curto termo
encontrada no sinal original. É a análise STP, ou short-
CARVALHO e DIAS: TÉCNICAS DE CODIFICAÇÃO DE VOZ EM SISTEMAS MÓVEIS
5
term prediction, na qual o cálculo dos coeficientes
preditores pode ser realizado da forma apresentada a
seguir.
1) Para estimar a amostra presente, o preditor usa uma
soma ponderada das últimas 10 amostras. Assim, pode-
se reescrever a amostra sn como:


 
10
1i
ninin ess  (5.3)
onde, sn: amostra atual
sn-i: amostras anteriores
en: erro de predição.
2) Os coeficientes são calculados de modo a minimizar
a energia média E do sinal en:
 
 









N
n i
ini
N
n
n seE
1
210
01
2  (5.4)
onde, por (5.2), 0 = -1 e N é o número de amostras
contidas na janela de tempo pela qual o erro de
predição é computado. Valores típicos são uma janela
de 10 ms, correspondendo a um valor de N = 80
amostras.
3) Para minimizar E a respeito de um coeficiente m, é
necessário fazer sua derivada parcial igual a zero:
02
1
10
0


  
 

N
n i
inimn
m
ss
E 

(5.5)
0
10
0 1

 

i
N
n
iinmn ss  (5.6)
onde m=1,2,...,10.
4) A soma mais interna pode ser vista como o
coeficiente de correlação Cim, reescrevendo:



10
1
0
i
miim CC  (5.7)
5) Após determinar os coeficientes de correlação Cim, a
equação (5.7) pode ser usada para determinar
matricialmente os coeficientes preditores, já que se trata
de um sistema linear de 10 equações e 10 variáveis.
Os coeficientes preditores são atualizados a cada
20ms aproximadamente, e são enviados junto com os
demais parâmetros do sistema:

 o flag de segmento sonoro/surdo;
 o período de pitch, no caso de segmento sonoro;
 o fator de ganho de excitação G, que determinará a
amplitude do sinal de saída do filtro de síntese.

Após serem codificados de forma binária, os
coeficientes do filtro e os parâmetros descritos acima
são enviados a uma taxa de 2,4 kbit/s. O resultado é
um sinal de voz de qualidade razoável, levando-se em
conta a relativamente baixa taxa de bits.
6. Regular-Pulse Excited LPC with a Long-
Term Predictor: RPE-LTP

O codificador utilizado no padrão GSM (Global System
for Mobile communications), sistema de telefonia móvel
digital largamente utilizado na Europa, é o RPE-LTP,
que é um esquema híbrido baseado no LPC, no qual a
excitação consiste em pulsos regularmente espaçados e
de amplitude variada e que possui um preditor a longo
termo.
Este codificador tem uma taxa de bits de 13 kbps e
combina vantagens do RELP (Residual Excited Linear
Predictive) de banda básica, proposto pela França, e o
MPE-LTP (Multi-Pulse Excited – Long-Term Prediction),
proposto pela Alemanha, que não serão abordados
neste trabalho. O que deve ser levado em consideração,
no entanto, é que o RPE-LTP modifica o codificador
RELP, incorporando algumas características do MPE-
LTP, e com isso reduz a taxa de bits de 14,77 kbit/s
para 13 kbit/s sem perda de qualidade. A principal
dessas modificações é a adição de um esquema de
predição a longo termo, a chamada análise LTP (long-
term prediction). Além disso, deve-se considerar que no
MPE-LTP, parte da informação transmitida é referente
a posição dos pulsos usados na excitação, enquanto no
RPE-LTP esses pulsos são regularmente espaçados
dado um intervalo fixado, cabendo ao codificador
determinar somente a posição do primeiro pulso e a
amplitude de cada um deles, o que explica o termo
Regular Pulse Excited.
O codificador do RPE-LTP, apresentado na Fig.
5(a), é composto de quatro blocos de processamento
principais:

 1ª Etapa: A seqüência de voz passa por uma
equalização do tipo pré-ênfase, é ordenada em
segmentos de 20 ms, e passa por um janelamento
de Hamming;
 2ª Etapa: Um filtro faz a análise STP do sinal,
encontrando os coeficientes preditores do filtro de
síntese. A seguir, esses parâmetros são utilizados
para construir o filtro LPC inverso, que
determinará o erro de predição en, que na verdade
é a excitação que deveria ser utilizada no
decodificador;
 3ª Etapa: Porém, uma análise LTP do erro de
predição encontra um período de pitch e um fator
de ganho tais que minimizam esse sinal,
maximizando a correlação cruzada de amostras
sucessivas do mesmo. O erro de predição
minimizado é chamado de LTP residual, ou rn.
Esse sinal é ponderado e a seguir decomposto em
três possíveis seqüências de excitação;
 4ª Etapa: A seqüência de maior energia é
selecionada para representar o LTP residual, sendo
ENE/FT/UNB JULHO DE 2000
6
normalizada em relação ao pulso de maior
amplitude, e transmitida a uma taxa de 9,6 kbit/s.

O receptor, mostrado na Fig. 5(b), realiza o
processo inverso. A seqüência de pulsos de excitação
Xn é decodificada e processada por um filtro de síntese
LTP, que usa o pitch e o ganho para sintetizar o sinal
long-term. Este passa por um filtro de síntese STP
construído a partir dos coeficientes preditores,
recriando assim o sinal original.

(a) Codificador

(b) Decodificador

Fig. 5 Diagrama de blocos do RPE-LTP [2]

Os blocos de 20 ms de voz contêm 260 bits, que
são ordenados, dependendo de sua importância, em
grupos de 50, 132 e 78 bits cada. Os do primeiro grupo
são os que mais afetam a qualidade da voz, por isso têm
um maior número de bits para correção e detecção de
erros. Os do segundo grupo são de média importância e
os do terceiro grupo, por serem menos significativos,
não têm correção ou detecção de erros.
O RPE-LTP fornece boa qualidade de voz, mas
consome bastante potência e requer uma alta taxa de
bits se comparado com outros codificadores mais
modernos. Sua maior vantagem é sua relativa
simplicidade, uma vez que ele pode rodar em tempo
real em um PC 486 de 66 MHz. Porém, com o
barateamento dos DSP’s (processadores de sinais
digitais) e a demanda cada vez maior por banda nos
sistemas móveis, o RPE-LTP já vem sendo substituído
por algoritmos de codificação mais eficientes, como o
ACELP.
7. Code Excited Linear Predictive: CELP

A codificação preditiva linear excitada por dicionário de
códigos, ou CELP, é um algoritmo híbrido, que
trabalha com um modelo matemático do trato vocal ao
mesmo tempo em que tenta aproximar o sinal gerado
ao sinal de voz original, conseguindo assim reproduções
de boa qualidade a taxas de até 4 kbit/s, consideradas
relativamente baixas.
A maioria das técnicas de codificação de voz
aplicadas na telefonia celular derivam do CELP, se
distinguindo deste basicamente por modificações nos
dicionários de código que dão origem à excitação. Por
isso, embora não seja utilizado diretamente nos
sistemas móveis, o CELP é abordado neste item.
A Fig. 6(a) mostra um diagrama de blocos genérico
do codificador CELP, que tem um modelo básico do
tipo “fonte de excitação/filtro sintetizador”, como nos
codificadores paramétricos.

(a) Codificador

(b) Decodificador

Fig. 6 Diagrama de blocos de um sistema CELP [9]

A diferença básica entre o CELP e os vocoders
está na fonte de excitação, que é não é do tipo trem de
pulsos/ruído como no LPC, mas sim constituído por
um esquema de quantização vetorial de dois estágios
em paralelo.
O primeiro estágio possuium dicionário adaptativo
que é constituído por K1 seqüências retiradas da
CARVALHO e DIAS: TÉCNICAS DE CODIFICAÇÃO DE VOZ EM SISTEMAS MÓVEIS
7
excitação passada e é responsável pela reprodução da
periodicidade dos segmentos sonoros do sinal de voz,
substituindo o filtro correlator a longo termo
empregado nos primeiros codificadores CELP. Valores
típicos para K1 são 128 e 256.
O segundo estágio possui um dicionário fixo
constituído por K2 seqüências estocásticas,
determinísticas, ou obtidas por meio de um
procedimento de treinamento. Valores usuais de K2 são
128, 256, 512 e 1024.
Para uma freqüência de amostragem de 8 kHz e
período de atualização do preditor de pitch de 5ms, estas
seqüências devem ter 40 amostras cada. Os parâmetros
do filtro síntese, que são em geral 10, são por sua vez
atualizados a cada 20ms.
A seqüência de excitação com a qual se deseja
reproduzir o segmento de voz é obtida como uma
combinação linear de duas seqüências obtidas uma de
cada dicionário, que são escolhidas por um
procedimento onde são testadas diversas excitações
possíveis para sintetizar o segmento de voz corrente,
escolhendo-se aquela que minimiza a medida de erro
ponderado na saída do filtro de ponderação. É a
chamada análise-por-síntese.
Portanto, o que é enviado ao decodificador,
apresentado na Fig. 6(b), não é a seqüência de excitação
em si, mas os ganhos e índices que identificam as duas
seqüências nos dicionários, que também existem no
decodificador, implicando assim em uma boa qualidade
de voz a uma baixa taxa de bits.

8. Vector Sum Excited Linear Predictive:
VSELP

A codificação linear preditiva excitada por soma e
vetores, ou VSELP, é o algoritmo de codificação de voz
utilizado nos sistemas TDMA IS-54B e IS-136, de
telefonia móvel celular. O IS-136 ainda pode usar
outros algoritmos, como o ACELP, descrito no item 9.
O codificador de voz VSELP é uma variação do
algoritmo CELP, e foi projetado para suprir suas
deficiências, ao atingir três objetivos: alta qualidade de
voz, complexidade computacional modesta e robustez a
erros de canal.
O VSELP conta com um dicionário adaptativo,
como o CELP, mas o dicionário fixo é substituído por
dois dicionários de código organizados com uma
estrutura pré-definida, evitando a procura por “força-
bruta”. Isso reduz significativamente o tempo
necessário para busca da palavra-código ótima, além de
trazer alta qualidade de voz e uma maior robustez a
erros de canal, mantendo baixa complexidade, a uma
taxa de 7,95 kbit/s.
A Fig. 7(a) mostra o diagrama de blocos de um
codificador VSELP, que tem sua seqüência de excitação
formada pela combinação linear de 3 seqüências,
obtidas uma de cada dicionário.

(a) Codificador

(b) Decodificador

Fig. 7 Diagrama de blocos do VSELP [3]

Como no CELP, o dicionário adaptativo é
responsável pela predição a longo termo, introduzindo
a periodicidade encontrada no sinal de voz (pitch). Cada
um dos dois dicionários fixos do VSELP contém 128
vetores de 40 amostras, formados a partir de
combinações lineares de 7 vetores base.
A busca nestes dicionários é realizada logo após a
determinação do atraso ótimo do dicionário adaptativo
(L) e é feita de modo seqüencial. Primeiro determina-se
a melhor seqüência do primeiro dicionário estruturado,
levando-se em conta a seqüência já escolhida do
dicionário adaptativo. Em seguida, determina-se a
melhor seqüência do segundo dicionário estruturado,
considerando-se agora as duas seqüências previamente
escolhidas.
ENE/FT/UNB JULHO DE 2000
8
Envia-se ao decodificador, mostrado na Fig. 7(b), o
atraso do dicionário adaptativo (L), os índices dos
vetores dos dicionários fixos (I e H), os respectivos
ganhos (, 1 e 2), e os parâmetros LPC do filtro de
síntese. Assim o receptor gera a excitação fazendo uma
combinação linear das três seqüências de excitação
especificadas e a utiliza como sinal de entrada no filtro
LPC, que introduz a correlação a curto termo, gerando
a voz sintetizada.
Devido à estruturação dos dicionários utilizados no
VSELP, um procedimento de busca sub-ótimo é
conseguido, o que mantém a carga computacional baixa
o suficiente para implementação em tempo real com os
DSP’s disponíveis. Aliam-se a isso os ganhos obtidos na
qualidade de voz e na robustez a erros de canal, além da
ainda relativamente baixa taxa de bits, que justificam a
grande utilização deste codificador nos sistemas móveis
atuais.

9. Algebraic Code Excited Linear Predictive:
ACELP

Como já mencionado no item 8, o sistema TDMA
IS-136 pode utilizar vários tipos de codificação de voz,
visando manter compatibilidade com sistemas
anteriores, enquanto oferece maior qualidade de voz
aos consumidores. Com o desenvolvimento das
tecnologias de compressão de voz, melhores
codificadores se tornaram disponíveis. Por isso, além
do VSELP, original do IS-54B, o IS-136 pode usar o
codificador de voz do IS-641, que é um algoritmo EFR
(Enhanced Full Rate) de codificação linear preditiva
excitada por código algébrico, o ACELP [14].
Padronizado pelo ITU-T SG15 na recomendação
G.723, o ACELP tem qualidade de voz igual, se não
melhor que o ADPCM a 32 kbit/s, e transmite voz de
com melhor qualidade e de forma menos sensível a
ruído que o VSELP, à mesma taxa de 7,95 kbit/s.
A diferença básica entre o ACELP, cujo diagrama
de blocos é apresentado na Fig. 8, e o CELP está no
dicionário fixo, que é baseado em uma estrutura
algébrica. Assim como no CELP, a seqüência de
excitação é obtida como uma combinação linear de
duas seqüências, uma obtida do dicionário fixo e outra
do dicionário adaptativo. Porém, a análise-por-síntese é
mais eficiente que no CELP.
A busca no dicionário adaptativo é realizada
somente ao redor de uma região limitada por um
período de pitch, estimado a cada 10ms por duas análises
diferentes: open-loop e closed-loop (esses dois processos
serão discutidos no item 10). Com esse parâmetro,
seleciona-se a melhor seqüência com uma resolução de
1/3 para o atraso de pitch.

Fig. 8 Diagrama de blocos do codificador ACELP [6]

Como já mencionado, o dicionário fixo é baseado
em uma estrutura algébrica. Neste dicionário, cada
vetor de palavra código contém quatro pulsos
diferentes de zero. Cada pulso pode ter uma amplitude
de +1 ou –1 e assumir as posições dadas na Tabela 2.
Como o dicionário é estruturado, é possível se realizar
uma busca mais eficiente. No caso ela é realizada por
quatro laços em série, e uma tática de pesquisa
focalizada é utilizada para tornar mais simples o
procedimento de busca.

Tabela 2 Estrutura do dicionário fixo [6]
Pulso Sinal Posição
i0 s0: 1 m0: 0, 5, 10, 15, 20, 25, 30, 35
i1 s1: 1 m1: 1, 6, 11, 16, 21, 26, 31, 36
i2 s2: 1 m2: 2, 7, 12, 17, 22, 27, 32, 37
i3 s3: 1 m3: 3, 8, 13, 18, 23, 28, 33, 38
4, 9, 14, 19, 24, 29, 34, 39

A estrutura algébrica do dicionário fixo também
garante ao ACELP sensibilidade reduzida a erros no
canal e voz codificada de melhor qualidade. A ref. [11]
apresenta uma comparação da qualidade de sinais de
voz codificados com ACELP e VSELP e também no
AMPS (modulação analógica FM), a diferentes
condições de relação sinal/ruído. Os exemplos
fornecidos evidenciam a robustez do codificador
ACELP, uma vez que este mantém sua inteligibilidade e
apresenta qualidade de voz relativamente boa mesmo
aos mais baixos níveis de C/N.
A ref. [6] apresenta ainda uma proposta de um
algoritmo de taxa variável para o ACELP, conseguindo
diminuir a taxa média de bits para 4,4 kbit/s, sem
degradação da qualidade de voz, ao levar em
consideração a atividade de voz.
CARVALHO e DIAS: TÉCNICAS DE CODIFICAÇÃO DE VOZ EM SISTEMAS MÓVEIS
9
10. Qualcomm Code Excited Linear
Predictive: QCELP

O sistema IS-95 de telefonia móvel CDMA utiliza o
codificador de voz QCELP, que é um padrão em
sistemas de espectro espalhado, podendo utilizar quatro
taxas de bit diferentes - 9,6 / 4,8 / 2,4 / 1,2 kbit/s – deacordo com o segmento de sinal que está sendo
codificado. A Qualcomm, empresa que desenvolveu o
algoritmo QCELP, também produz equipamentos com
os quais pode-se fixar a taxa de bits em 9,6 ou 4,8
kbit/s, o que pode ser desejado em função do tráfego
no sistema CDMA.
Além da taxa variável, a diferença básica do
QCELP para outros algoritmos baseados no CELP,
está na forma como a correlação a longo termo é
codificada. Já a predição a curto termo é realizada com
um filtro LPC, como nos sistemas já abordados.
O primeiro passo para a codificação, cujo diagrama
de blocos simplificado é apresentado na Fig. 9(a), é um
pré-processamento, que consiste basicamente em um
filtro passa-altas que retira a componente DC do sinal,
seguido de um janelamento de Hamming que reduz o
efeito da divisão do sinal em blocos.

(a) Codificador

(b) Decodificador

Fig. 9 Diagrama de blocos simplificado do QCELP

Segue-se a isso a análise LPC, que determina os
parâmetros do filtro de síntese, e, em paralelo, um
procedimento para determinação da taxa de dados, que
analisa as características do quadro para decidir se este
pode ser codificado a uma taxa reduzida sem afetar a
qualidade de voz. Para sons surdos, utiliza-se ¼ da taxa
(2,4 kbit/s) e para pausas ou ruído de fundo utiliza-se
1/8 da taxa (1,2 kbit/s). Para segmentos sonoros, a taxa
máxima (9,6 kbit/s) é usada em quadros transitórios,
com periodicidade reduzida, ou que não são bem
modelados, os quais requerem taxa máxima para que se
consiga boa qualidade de voz. Para segmentos sonoros
bem modelados, estacionários e periódicos é usada ½
da taxa (4,8 kbit/s).
A busca do período de pitch, que modela a
correlação a longo termo, pode ser realizada através de
dois modelos: open-loop e closed-loop. Em um modelo open-
loop, como ilustrado na Fig. 10(a), retira-se a correlação
a curto termo do sinal de voz ao passá-lo pelo filtro
LPC inverso. A seguir, o sinal residual r[n] entra no
filtro preditor de pitch P(z), que tenta retirar a correlação
a longo termo, produzindo o pitch residual e[n]. O filtro
P(z) tem dois parâmetros, ganho de pitch b e atraso de
pitch L, que devem ser otimizados para que a energia
média de e[n] seja minimizada, resultando em um sinal
cujas características lembram as de um ruído branco.

(a) Processo open-loop

(b) Processo reverso

Fig. 10 Modelo básico de reconstrução da voz usado no
algoritmo QCELP

O modelo básico de reconstrução da voz usado no
QCELP é o closed-loop, que se baseia no processo
reverso, mostrado na Fig. 10(b). Usando-se ruído
branco como fonte de excitação, passando-a por um
filtro de síntese de pitch 1/P(z) e na seqüência por um
filtro de síntese de formante H(z), que introduzem
respectivamente a correlação a longo e a curto termos,
resultando em o que se espera ser, voz sintetizada. A
busca pelos parâmetros b e L é feita de forma a
minimizar a diferença entre o sinal original e o sinal
ENE/FT/UNB JULHO DE 2000
10
sintetizado obtido a partir de uma excitação que se
aproxima de ruído branco.
Essa excitação é obtida a partir de um dicionário
pseudo-aleatório ou de um dicionário gaussiano, para
taxas de ¼ e 1/8 ou 1 e ½ respectivamente. O dicionário
gaussiano tem 128 vetores de 128 amostras e dois
parâmetros, índice I e ganho G. O dicionário pseudo-
aleatório usado é chamado de dicionário circular com
deslocamento unitário, onde o vetor de uma linha é o
vetor da linha anterior descolado de uma amostra. O
parâmetro que identifica o deslocamento é o RSeed, e
não há parâmetro de ganho.
O decodificador, que é apresentado na Fig. 9(b),
recebe então os coeficientes do filtro LPC, os
parâmetros do filtro de síntese de pitch (b e L), e os
parâmetros da excitação (RSeed ou G e I). Com essa
informação ele monta os filtros de síntese e utiliza a
excitação especificada para sintetizar o sinal de voz.
Portanto, o QCELP consegue sintetizar o sinal de
voz com taxas médias de bits menores que os demais
codificadores, sem requerer um dicionário adaptativo
para modelar a correlação a longo termo. No entanto, a
qualidade obtida é inferior à dos demais codificadores
aqui abordados, mesmo à taxa máxima.

11. Conclusão

As técnicas abordadas neste trabalho são todas
derivadas do codificador paramétrico LPC, tendo o
modelo do trato vocal baseado em um filtro que
introduz a correlação a curto termo presente no sinal de
voz. A diferença básica está na forma como é gerada a
excitação, responsável por introduzir a correlação a
longo termo e descrever as pequenas diferenças
percebidas entre períodos tonais sucessivos do sinal a
ser codificado.
No RPE-LTP a informação da correlação a longo
termo é obtida por um filtro LTP e as diferenças
percebidas entre períodos tonais são descritas pela
seqüência de excitação residual enviada ao
decodificador. Nos codificadores VSELP e ACELP o
filtro LTP é substituído por um dicionário adaptativo e
a seqüência residual é obtida a partir de dicionários de
código estruturados. No QCELP não há dicionário
adaptativo, mas um filtro de síntese de pitch. A
seqüência residual, no entanto, é obtida a partir de
dicionários fixos como nos demais codificadores
derivados do CELP.
Essas diferentes soluções para descrever a
excitação a ser usada no decodificador implicam em
diferentes taxas de bits e diferentes qualidades de voz,
como mostra a Tabela 3. O índice MOS (mean opinion
score) apresentado é obtido a partir de testes subjetivos
onde várias pessoas ouvem determinadas seqüências de
diálogo ou duplas de palavras rimadas, com os quais
obtém-se uma avaliação em uma escala de 1 a 5 pontos
para a inteligibilidade das amostras, onde 1 é muito
ruim e 5 é excelente. Nota-se, portanto, que o RPE-
LTP e o VSELP já não são as melhores soluções em
termo de taxa de bits nem de qualidade de voz, e vêm
sendo substituídos nos novos sistemas TDMA pelo
codificador ACELP, que ainda é mais robusto a erros
devido à estrutura algébrica do seu dicionário fixo. Nos
sistemas de espectro espalhado se usa o QCELP, que
apesar de ter uma qualidade de voz inferior ao ACELP,
oferece uma taxa de bits, em média, menor.

Tabela 3 Comparação entre as técnicas abordadas
Técnica Padrão Taxa de bits Excitação Modelo do Trato Vocal Qualidade (MOS rating)
RPE-LTP GSM 13 kbit/s pulsos regulares e análise LTP filtro LPC (análise STP) 3,54
VSELP IS-54B e IS-136 7,95 kbit/s
1 dicionário adaptativo
2 dicionários fixos estruturados filtro LPC (análise STP) 3,8
ACELP IS-136 7,95 kbit/s 1 dicionário adaptativo
1 dicionário com estrutura algébrica
filtro LPC (análise STP) 3,9
1,2/2,4 kbit/s 1 dicionário pseudo-aleatório QCELP IS-95
4,8/9,6 kbit/s 1 dicionário gaussiano
filtro LPC (análise STP) 3,45 (taxa máxima)

Reconhecimento

Este trabalho foi orientado pelo Prof. Paulo H. P. de
Carvalho como projeto final para a disciplina Tópicos
Especiais em Telecomunicações - Sistemas de
Comunicações Móveis, ministrada no período 1o/00.
Além do Prof. Paulo, colaboraram também o Prof.
Lúcio M. Silva e o Prof. Sebastião Nascimento,
indicando e fornecendo referências bibliográficas e
compartilhando um pouco do seu vasto conhecimento
sobre o assunto em questão.

Referências

[1] ALENCAR, Marcelo S., "Telefonia Digital", 2ª Edição,
Editora Érica Ltda., São Paulo-SP, 1999.
[2] RAPPAPORT, Theodore S.,"Wireless Communications:
Principles & Practice", Prentice Hall, New Jersey, 1996.
[3] FIACADOR, Altair R., "Estudo e Simulação do
Codificador de Voz VSELP do Padrão IS-136",
Relatório de Projeto Final, Universidade de Brasília,
Dezembro de 1999.
[4] UNIVERSITY OF SOUTHAMPTON, UK,
"Commonly Used Speech Codecs". ..............................…..
CARVALHO e DIAS: TÉCNICAS DE CODIFICAÇÃO DE VOZ EM SISTEMAS MÓVEIS
11
http://www-mobile.ecs.soton.ac.uk/speech_codecs/
common_classes.html
[5] MOTOROLA INC., "Vector Sum Excited Linear
Prediction (VSELP) 13000 Bit Per Second Voice CodingAlgorithm Including Error Control for Digital Cellular -
Technical Description". Motorola Inc, 18 de outubro de
1989.
[6] CHUNG, Woosung e Sangwon KANG, "Design of a
Variable Rate Algorithm for the CS-ACELP Coder",
IEIC Trans. Inf. & Syst., Vol. E82-D, no.10, Outubro de
1999, pp. 1364-1371.
[7] WANG, Derek Q., "QCELP Vocoders in CDMA
Systems Design". .....................................................................
http://www.csdmag.com/main/1999/04/
9904feat3.htm
[8] LINCOM CORPORATION, "RPE-LTP (13 Kbps) -
Regular-Pulse Excited LPC with a Long-Term
Predictor", 1998. ……………………………………….
http://www.lincom-asg.com/ssadto/rpe-ltp.html
[9] SILVA, Lúcio M., "Contribuições para a Melhoria da
Codificação CELP a Baixas Taxas de Bits", Tese de
Doutorado, Pontifícea Universidade Católica do Rio de
Janeiro, 1996.
[10] RABINER, L. R., "Applications of Voice Processing to
Telecommunications", Proc IEEE vol. 82, 1994, pp.
197-228.
[11] UNIVERSAL WIRELESS COMMUNICATIONS
CONSORTIUM, "Comparison of ACELP, VSELP and
AMPS Voice Quality Under Low Carrier-to-Noise RF
Conditions".
http://www.uwcc.org/edge/papers/acelp.html
[12] SKLAR, Bernard, "Digital Communications:
Fundamentals and Applications", 1a Edição, Prentice
Hall, New Jersey, 1988.
[13] CARNEGIE MELLON UNIVERSITY, "Speech at
CMU Web Page". ....................................................................
http://fife.speech.cs.cmu.edu/speech/
[14] HARTE, Lawrence J., Adrian D. SMITH e Charles A.
JACOBS, "IS-136 TDMA Technology, Economics and
Services", Artech House, Boston - London, 1998.
[15] HUGHES NETWORK SYSTEMS, "News Releases:
HNS Offers Enhanced Quality Voice Via Commercially
Available IS-136 TDMA". .................................................,...
http://www.hns.com/news/pressrel/snd_pres/
p030397.htm