03_Compressao_da_Voz

•

IFMG

Diego Santos Seabra

20.11.2013

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 59 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 59 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 59 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Telefonia

250 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Telefonia
Compressão da Voz
Prof. Marcos Tomio Kakitani
marcos.kakitani@ufsj.edu.br
Sala 107.2
Outubro - 2013
Digitalização da Voz
• A figura abaixo ilustra um modelo genérico 
para a codificação de um sinal com fonte 
analógica. Note que o sinal de entrada do 
sistema a(t) é analógico, enquanto a saída b(t)
é digital.
Digitalização da Voz
Digitalização da Voz
• A codificação do sinal de voz permite a 
transmissão digital de forma mais eficiente, 
podendo requerer uma largura de banda 
menor do que a demandada por uma 
transmissão digital menos eficiente.
• Os codificadores de voz devem objetivar o 
equilíbrio entre a taxa de bits utilizada no 
processo de codificação e sua dificuldade de 
implementação.
Digitalização da Voz
• A complexidade de seus algoritmos é de 
forma geral, diretamente relacionada à 
eficiência de sua taxa de bits.
• As taxas de bits mais baixas (que permitem 
que mais canais de voz comprimidos sejam 
transmitidos dentro de uma largura de banda) 
exigem algoritmos complexos, que trazem 
como consequência um maior atraso de 
processamento.
Digitalização da Voz
• O sinal analógico de voz apresenta uma série 
de características que permitem o projeto de 
codificadores de voz eficientes.
• Uma de suas propriedades mais básicas é a 
largura de banda limitada, com frequências no 
intervalo aproximado de 300 Hz a 3400 Hz. 
• Tal característica permite que o sinal seja 
amostrado no processo de transmissão e 
recuperado no processo de recepção.
Amostragem 
do sinal de voz
• A figura seguinte ilustra o processo de 
amostragem e geração de sinal modulado por 
amplitude de pulso PAM (do inglês, Pulse 
Amplitude Modulation). 
Amostragem 
do sinal de voz
Amostragem 
do sinal de voz
• Sinal limitado em faixa (no domínio do tempo 
e da frequência).
Amostragem 
do sinal de voz
• Trem de impulsos utilizado na amostragem.
• Por possuir largura de banda limitada, 
segundo o Teorema de Nyquist, o sinal de voz 
pode ser completamente reconstruído se ele 
for amostrado a uma frequência de 
amostragem fa mínima igual ao dobro da 
maior frequência (fm) do espectro do sinal 
original. Assim:
ma ff  2
Amostragem 
do sinal de voz
• As figuras seguintes ilustram a modulação 
PAM e o espectro de um sinal PAM.
Amostragem 
do sinal de voz
Amostragem 
do sinal de voz
fm-fm
0 fa 2fa-fa-2fa
-2fa -fa 0
fa 2fa
fa - fm
• O que ocorre quando um sinal é amostrado a 
uma taxa superior, inferior ou igual à taxa de 
Nyquist?
Amostragem 
do sinal de voz
• A técnica de multiplexação por divisão de 
tempo TDM (do inglês, Time Division
Multiplex) consiste na divisão do tempo em 
intervalos apropriados (time slots), permitindo 
a transmissão de vários sinais de voz por um 
único meio compartilhado. O TDM toma 
proveito dos intervalos de tempo em que o 
sinal amostrado é nulo para transmitir outros 
sinais.
Amostragem 
do sinal de voz
• A figura a seguir ilustra o princípio básico de 
um sistema TDM. As várias entradas xi(t)
(todas com frequências limitadas em fm) são 
amostradas sequencialmente por um 
dispositivo que completa um ciclo de 
revolução no tempo Ta.
• Tem-se na saída do sistema um sinal PAM que 
contém amostras das mensagens individuais 
periodicamente entrelaçadas no tempo.
Amostragem e 
Multiplexação
• No lado receptor há um dispositivo 
sincronizado com o sistema de amostragem 
que separa as amostras, que são 
posteriormente recuperadas.
Amostragem e
Multiplexação
• A figura a seguir ilustra o sinal PAM (antes da 
recepção) resultante do sistema ilustrado 
anteriormente. 
• Note que com n amostras, o espaçamento 
entre cada amostra é Ta/n e o espaçamento 
entre as amostras provenientes de uma 
mesma entrada possuem o espaçamento Ta.
Amostragem e 
Multiplexação
Amostragem e
Multiplexação
• O processo de quantização pode ser visto 
como o mapeamento de sinal a partir do 
domínio contínuo para um número limitado 
de possíveis níveis (bits) de saída.
• Contudo, devido a tal processo, em quase 
todos os sistemas de processamento digital de 
sinais o ruído de quantização está presente, e 
é intrínseco ao processo de conversão 
analógico-digital. 
Quantização
do sinal de voz
• A figura a seguir ilustra o processo de 
quantização de um sinal analógico. Note as 
diferenças entre o sinal de entrada e o sinal 
quantizado.
Quantização
do sinal de voz
• A figura seguinte destaca os erros ou ruídos de 
quantização em função da amplitude do sinal 
de entrada.
Quantização
do sinal de voz
• O erro ou ruído de quantização consiste na 
diferença entre o sinal na entrada do 
quantizador e o sinal discreto na saída, assim:
n(t) = y(t) – x(t),
onde x(t) é o sinal de entrada e y(t) = q(x(t)) e 
q( ) representa a função de quantização.
Quantização
do sinal de voz
• De modo geral, os processos computacionais 
envolvem algum erro de quantização, visto 
que computadores não operam com o 
conjunto de números reais.
• Considerando esquemas de quantização 
uniforme com passo de quantização d como o 
exemplificado na figura a seguir (note também 
que o passo de quantização d é constante):
Quantização
do sinal de voz
Quantização
do sinal de voz
• É possível obter a relação sinal ruído de 
quantização SQNR (do inglês, Signal to 
Quantization Noise Ratio) como:
onde v é valor rms da amplitude do sinal de 
entrada.
Quantização
do sinal de voz











12
log10
2
2
10
d
v
SQNR
[dB],
• Para uma entrada senoidal e com quantização 
uniforme, o valor de SQNR é dado por:
onde A é o valor de pico do sinal senoidal. 
Quantização
do sinal de voz


















d
A
d
A
SQNR 102
2
10 log2078,7
12
2log10
[dB],
• Exercício:
1. Demonstre matematicamente que a igualdade 
anteriormente exposta é verdadeira.
2. Considere que um sinal senoidal com valor de 
pico de 1 V deve ser digitalizado com uma SQNR 
de 30 dB. Quantos passos ou intervalos de 
quantização uniformemente espaçados são 
necessários e quantos bits são necessários para 
codificar cada amostra?
Quantização
do sinal de voz
• Em um sistema de modulação por codificação 
de pulsos PCM (do inglês, Pulse Code
Modulation) as amostras quantizadas são 
codificadas para a transmissão.
• Na figura a seguir, as amostras quantizadas 
Xsq(t) resultam em discretas tanto no tempo 
(pela amostragem) quanto na amplitude (pela 
quantização).
Modulação PCM
Modulação PCM
• Se houver amostras em número finito (q), cada 
nível poderá ser representado por um código 
digital de extensão finita. A função do codificador 
é gerar um código digital que representa 
univocamente a amostra quantizada.
Modulação PCM
• Exercício:
1. Seja ν o número de pulsos em um certo código 
e μ o número de valores discretos que cada pulso 
pode assumir. Qual o número de combinações 
diferentes de ν pulsos com μ amplitudes 
possíveis? Note que tal combinação deve ser 
maior ou igual ao número de níveis de 
quantização q.
2. Considerando μ = 2, escreva q em função de ν. 
Note que tal equação indica o número de níveis 
de quantização que podem ser definidos com ν
pulsos que podem assumir dois valores possíveis 
de amplitude.
Modulação PCM
• A figura a seguir ilustra com sistema PCM de 3 
bits. Quantos níveis de quantização podem ser 
empregados neste sistema?
Modulação PCM
• Em um sistema PCM padrão, o sinal de voz é 
amostrado a uma taxa de 8000 vezes por 
segundo (2 x 4k Hz) e codificado utilizando 8 
bits. Obtém-se portanto uma taxa de 64 kbps. 
Note que o valor de 4k Hz é aproximadocomo 
o valor máximo de frequência do sinal de voz.
Modulação PCM
• A equação seguinte relaciona a SQNR à 
amplitude (Aent) do valor de entrada do sinal 
senoidal no quantizador:
𝑆𝑄𝑁𝑅 = 1,76 + 6,02𝑛 + 20log10
𝐴𝑒𝑛𝑡
𝐴𝑚𝑎𝑥
,
onde Amax corresponde à amplitude máxima 
que o sinal senoidal de entrada pode assumir. 
Modulação PCM
• A figura seguinte ilustra a SQNR de um 
sistema PCM linear. Note que a SQNR é menor 
para valores menores da amplitude do sinal.
Aent/Amax
Modulação PCM
• Assim, nota-se que pode ser interessante a 
utilização de quantizadores não uniformes, ou 
seja, em que o passo de quantização não é 
igual para todos os intervalos em que o sinal é 
amostrado. 
• A figura a seguir ilustra um exemplo de 
quantizador não uniforme em que para níveis 
mais baixos do sinal de entrada o passo de 
quantização é menor.
Modulação PCM
Modulação PCM
• Com a quantização não uniforme, o passo de 
quantização pode assumir tamanhos 
diretamente proporcionais à amplitude do 
sinal de entrada.
• Com isso é possível obter valores de SQNR 
constantes para todos os níveis do sinal 
amostrado.
Modulação PCM
• Leis de compansão: o grau de não-
uniformidade no processo de quantização é 
conhecido como lei de compansão. 
• O processo que ocorre na transmissão é 
chamado de compressão, no qual os níveis de 
menor amplitude do sinal são elevados, o que 
torna o codificador mais robusto.
• Na recepção do sinal ocorre o processo 
inverso, que é chamado de expansão.
Modulação PCM
• A figura a seguir exemplifica as curvas de 
processos de compressão e expansão.
Modulação PCM
• As duas leis de compansão recomendadas 
pela ITU-T (International Telecommunication
Union) são as Lei A e Lei µ.
• A Lei µ tem como representantes principais de 
uso os EUA e o Japão e tem equação de 
compressão:
𝑉𝑜 =
log(1+µ𝑉𝑖)
log(1+µ)
,
onde Vi é o sinal de entrada e Vo é o sinal 
resultante, 0 ≤ Vi e Vo ≤ 1.
Modulação PCM
• O grau de compressão pode variar conforme o 
valor do parâmetro µ, que usualmente 
assume o valor µ = 255. Além disso, para µ = 0 
não há compressão, logo a curva permanece 
linear. 
• A figura a seguir ilustra curvas de compressão 
para a Lei µ.
Modulação PCM
Modulação PCM
• A Lei A tem como principais representantes de 
uso a Europa, América do Sul e África. A 
compressão é linear para sinais de menor 
amplitude e revertida em logarítmica para 
sinais grandes. Assim:
𝑉𝑜 =
𝐴𝑉𝑖
1 + ln(𝐴)
para 0 ≤ 𝑉𝑖 ≤
1
𝐴
𝑉0 =
1+ln(𝐴𝑉𝑖)
1+ln(𝐴)
para
1
𝐴
≤ 𝑉𝑖 ≤ 1,
onde 0 ≤ Vi e Vo ≤ 1.
Modulação PCM
• De maneira similar à Lei µ, na Lei A, o 
parâmetro A define o grau de compressão. O 
valor usualmente utilizado é A = 87,6. 
• Para A = 1 não há compressão e a curva 
equivalente permanece linear. 
• A figura a seguir ilustra curvas de compressão 
para a Lei A.
Modulação PCM
Modulação
• A figura a seguir ilustra o processo completo 
de amostragem, quantização e codificação.
• Note que trata-se de um processo de 
quantização não uniforme, no qual o passo de 
quantização é menor para amplitudes 
menores do sinal e maior para amplitudes 
maiores do sinal. Além disso, cada intervalo 
ou passo de quantização recebeu um código, 
que representa a palavra código a ser 
transmitida.
Modulação
Modulação
• A modulação PCM codifica cada amostra do sinal 
de entrada independentemente de outras 
amostras.
• No entanto, análises da forma de onda do sinal 
de voz indicam que há uma considerável 
redundância de informações entre duas amostras 
seguidas. 
• Para uma taxa de amostragem de 8 kHz, o 
coeficiente de correlação entre duas amostras 
adjacentes do sinal de voz pode assumir valores 
iguais ou superiores a 0,85.
Modulação
• Nota-se então a possibilidade de melhorias no 
processo de modulação.
• O PCM Diferencial (DPCM, do inglês Differential
Pulse Code Modulation) foi projetado visando 
especificamente tomar vantagem das 
redundâncias entre amostras presentes no sinal 
de voz.
• O DPCM realiza a quantização da diferença de 
amplitude entre amostras adjacentes, reduzindo 
assim a redundância do sinal de voz.
Modulação
• Visto que em média o intervalo de diferenças 
de amplitudes entre duas amostras seguidas é 
menor do que o valor da amplitude da 
amostra individual do sinal, menos bits são 
necessários para o DPCM codificar tais 
diferenças com relação ao PCM (que codifica a 
amplitude da amostra do sinal).
• Há no entanto um aumento de complexidade, 
dado que há necessidade de armazenar 
informações anteriores do sinal amostrado 
para o cálculo da diferença entre eles.
Modulação
• Outra técnica que explora a redundância entre 
duas amostras do sinal de voz é a Modulação 
Delta (DM, do inglês Delta Modulation).
• O DM pode ser considerado um caso especial 
do DPCM no qual a variação de amplitude 
entre duas amostras adjacentes é quantizada 
utilizando apenas um bit, ou seja, com apenas 
dois níveis de quantização. 
Modulação
• A figura a seguir ilustra um exemplo do uso de 
DM em um sinal.
• Uma implementação básica do DM consiste 
de em sistema que tem como saída o valor 1 
para diferenças positivas de sinal e o valor 0
para diferenças negativas.
Modulação
• Devido à relativa baixa quantidade de 
informações por amostra (1 bit) do sinal, 
sistemas que empregam DM requerem taxas 
de amostragem maiores que o PCM e DPCM 
que empregam múltiplos bits.
• Portanto, a taxa de amostragem é 
necessariamente maior que a taxa de Nyquist. 
Vocoders
• As técnicas discutidas anteriormente têm como 
objetivo primário a reprodução do sinal de 
entrada com a maior fidelidade possível.
• Além disso tais técnicas assumem que há 
pequeno ou nenhum conhecimento do sinal de 
voz a ser manipulado.
• Os sistemas diferenciais DPCM e DM apresentam 
algumas características específicas que se 
baseiam em propriedades estocásticas do sinal 
de voz.
Vocoders
• No entanto, há algoritmos de 
codificação/decodificação especializados para 
os sinais de voz, denominados de vocoders
(voice coders). 
• Tais algoritmos são projetados 
especificamente para trabalhar com sinais de 
voz, portanto, não são utilizados para 
manipular outros sinais analógicos, como os 
de modem.
Vocoders
• O objetivo básico dos vocoders é codificar 
apenas os aspectos perceptivamente 
importantes do sinal de voz utilizando um 
número menor de bits do que outras técnicas 
mais generalistas.
• Portanto, os vocoders podem ser empregados 
em aplicações com limitação de largura de 
banda disponível.
Vocoders
• Os vocoders apresentam maior complexidade 
e exigem um conhecimento a priori do sinal a 
ser codificado.
• Basicamente, os vocoders realizam a análise 
do sinal a ser transmitido, extraem e 
transmitem parâmetros resultantes desse 
processo e finalmente, utilizam esses 
parâmetros no decodificador do receptor para 
realizar a sintetização do sinal de voz.
Referências Bibliográficas
• BELLAMY, J. C.; “Digital Telephony”; Wiley 
series in Telecommunications and Signal 
Processing
• JESZENSKY, P. J. E.; “Sistemas Telefônicos”; 
Editora Manole
• ALENCAR, M. S.; “Telefonia Digital”; Editora 
Érica