parte5 - Redes Convergentes

•

ESTÁCIO

Israel Franca

08/06/2013

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 22 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 22 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 22 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Redes Convergentes

949 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
Áudio
Profa. Débora Christina Muchaluat Saade
debora@midiacom.uff.br
ÁÁudioudio
Profa. Débora Christina Muchaluat Saade
debora@midiacom.uff.br
Departamento de Engenharia de TelecomunicaDepartamento de Engenharia de Telecomunicaçções ões -- UFFUFF
2
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
ÁÁudioudio
� Sinal de Voz
• 50Hz a 10KHz
�Música
• 15Hz a 20KHz
• Estéreo: 2 canais
� Codificadores de Sinal de Voz
� Codificadores de Áudio Genérico
3
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
ÁÁudioudio
� Sinal de Voz
• PCM e variações
– ITU-T G.711, G.721, G.722, G.726
• LPC (Linear Predictive Coding)
• CELP (Code-excited LPC)
– ITU-T G.728, G.729, G.729(A), G.723.1
� Codificação Perceptual – Modelo Psicoacústico
• Mascaramento de freqüências
• Mascaramento temporal
� MPEG Layer 1, Layer 2, Layer 3 (MP3)
� Dolby Digital AC-3
� DTS (Digital Theater Systems)
� AAC (MPEG2-AAC e MPEG4-AAC) 5
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
CodificaCodificaçção de Vozão de Voz
� Os codificadores de voz podem ser classificados
da seguinte forma:
• Baseados na forma do sinal (waveform codecs)
• Baseados na fonte do sinal (source or voice codecs)
• Híbridos (hybrid codecs)
6
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
ÁÁudioudio
� Codificadores baseados na forma do sinal – waveform
codecs
• Recuperam o sinal de entrada sem modelar o 
processo que gerou o sinal
• Podem replicar o som gerado por qualquer tipo de 
fonte
• Não estão otimizados para baixas taxas de bit nem 
para determinados tipos de fonte sonora.
� Digitalização do sinal analógico
• PCM (Pulse Code Modulation)
• Freqüência de amostragem
– Nyquist: 2fmax
7
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
PCMPCM
Codificando cada
nível com 4 bits:
1100 1110 1110 1110 1010 0011 0001 1001 1010 ...
Na recepção...
15
14 
13
12 
11 
10
9
8
7
6
5
4
3
2
1
0 
15
14 
13
12 
11 
10
9
8
7
6
5
4
3
2
1
0 
8
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
Voz PCMVoz PCM
� Padrão G.711 
• redes telefônicas (PSTN – public switched
telephone network)
� Banda passante limitada
• 200Hz a 3.4KHz
� Taxa de amostragem mínima de 6.8KHz
� Taxa de 8KHz é usada
� PCM com 8 bits por amostra
• taxa de 64Kbps
9
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
DPCMDPCM
� Differential Pulse Code Modulation
� Codificação Preditiva (Diferencial)
• Amplitude de uma amostra é grande, mas a 
diferença de amplitude entre amostras sucessivas é
relativamente pequena
• Ao invés de codificar o valor de cada amostra, 
codifica a diferença entre seu valor e o anterior
• Economia típica de 1 bit
– Voz: taxa cai para 56Kbps
10
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
DPCMDPCM
11
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
DPCMDPCM
12
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
DPCMDPCM
� Conversão Analógica-Digital
• Erro de quantização
� Sinal diferença (sinal residual)
• Erro tem efeito acumulativo 
� Técnica melhorada usando média das amostras 
anteriores
• Ex.: DPCM preditivo de 3a. ordem
• Coeficientes preditores (C1=0,5; C2=0,25; C3=0,25)
� Desempenho similar ao PCM tradicional com economia 
de 2 bits
• 6 bits por amostra
13
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
DPCM de 3a. ordemDPCM de 3a. ordem
14
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
ADPCMADPCM
� Adaptive Diferential PCM
� Varia o número de bits usado para o sinal 
diferença dependendo da amplitude
� Padrão ITU-T G.721
• Mesmo princípio do DPCM usando preditor de 8a. 
ordem
• Taxas de 32 ou 16Kbps
15
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
G.722G.722
� Melhor qualidade de som que G.721
� Utiliza Codificação por Sub-Bandas
• Divisão da banda passante do sinal em várias sub-bandas codificadas de 
forma distinta
• Trata com maior precisão as sub-bandas mais importantes do sinal 
(usando mais bits por amostra)
� Considera banda passante de [50Hz, 7Khz]
• Sinal de voz mais fiel comparada a 3.4KHz do PCM padrão
� 2 Sub-Bandas independentes codificadas com ADPCM
• [50Hz, 3.5KHz] – sub-banda baixa (48Kbps)
– Maior importância para a percepção do sinal
• [3.5KHz, 7KHz] – sub-banda alta (16Kbps)
� Taxas de 64, 56 ou 48 Kbps
16
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
CodificaCodificaçção ADPCM com ão ADPCM com SubSub--bandasbandas
17
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
G.726G.726
� Também utiliza Codificação por Sub-Bandas e ADPCM
� Considera banda passante limitada
• [50Hz, 3.4Khz]
• Taxas menores de 40, 32, 24 ou 16Kbps
18
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
CodificaCodificaçção ão PreditivaPreditiva AdaptativaAdaptativa
� APC - Adaptive Predictive Coding
� Coeficientes preditores são modificados 
dinamicamente
� Conjunto ótimo de coeficientes preditores varia 
continuamente, já que é função das 
características do sinal de áudio
� Taxa de 8kbps com qualidade aceitável
19
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
CodificaCodificaçção de Vozão de Voz
� Codificadores baseados na fonte do sinal - source
codecs, voice codecs, vocoders
• O sinal é assumido como sendo unicamente voz e 
não qualquer forma de onda possível
• Codificam apenas o suficiente para inteligibilidade
e identificação do interlocutor
• Codificadores de fonte para voz tentam replicar o 
processo físico da criação do som vocálico
20
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
Codificadores Baseados na FonteCodificadores Baseados na Fonte
� Baseados no modelo do trato vocal humano
21
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
LPCLPC
� Linear Predictive Coding => usado para sinal de voz
� Características do sinal são identificadas na codificação e usadas na 
decodificação, junto a um sintetizador de voz, para gerar o áudio 
final
� Principais características do sinal de voz:
• Parâmetros perceptuais:
– Pitch (relacionada a freqüência de vibração das cordas vocais)
– Período: duração do sinal
– Loudness: altura da voz (quantidade de ar dos pulmões)
• Parâmetros de excitação do trato vocal (modelo do trato vocal):
– Usados para identificar a origem do som
• Voiced sounds: sons gerados através das cordas vocais, relacionados às 
letras m, v e l
• Unvoiced sounds: as cordas vocais ficam abertas com esses sons, 
relacionados às f e s
22
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
LPCLPC
23
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
LPCLPC
� Som gerado é de voz metálica
� Taxas de 2.4 e 1.2 Kbps
� Codificadores LPC são usados em aplicações 
militares
• Banda limitada
� Tecnologia desenvolvida durante a 2a. guerra 
mundial
24
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
CodificaCodificaçção de Vozão de Voz
� Codificadores híbridos (hybrid codecs)
• Utilizam uma combinação de análise da forma do sinal e 
modelagem da fonte
� Utilizam um modelo do trato vocal e também codificam o 
sinal de erro do processo de síntese em relação ao sinal
original
� Três estratégias principais:
• Multi-Pulse Excitation (MPE)
• Regular Pulse Excitation (RPE)
• Code-Excited Linear Prediction (CELP)
� Diferem na forma como o sinal de erro é codificado
25
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
CELPCELP
� Code-excited Linear Prediction
� Gera os mesmos parâmetros LPC e ainda 
computa os erros entre a fala original e a fala 
gerada pelo modelo sintético
� Tanto os parâmetros LPC do modelo do trato 
vocal quanto uma representação comprimida dos 
erros são codificados
• Templatecodebook
� O resultado do CELP tem qualidade boa a taxas 
baixas
26
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
CELPCELP
27
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
Padrões baseados em CELPPadrões baseados em CELP
Videotelefonia e 
telefonia na 
Internet
67.5 ms5.3/6.3 KbpsG.723.1
Voz e dados 
digitais simultâneos
25 ms8 KbpsG.729(A)
Telefonia em redes 
celulares
25 ms8 KbpsG.729
Telefonia a taxa 
baixa
0.625 ms16 KbpsG.728
Exemplo de 
aplicação
Retardo na 
codificação
Taxa de bitsPadrão
Obs.: Retardo na codificação PCM padrão (taxa de amostragem a 8 KHz) => 0.125 ms
28
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
CodificaCodificaçção Perceptualão Perceptual
� Áudio de propósito geral (voz ou música)
� Utiliza um Modelo Psicoacústico
• Explora limitações do ouvido humano
� Áudio de origem é analisado e somente 
características perceptíveis pelo ouvido humano 
são codificadas/transmitidas
� Compressão perceptualmente sem perdas
29
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
CodificaCodificaçção Perceptualão Perceptual
� Ouvido humano é sensível a freqüências na faixa de 
[15Hz, 20kHZ]
� Nível de sensibilidade é não-linear
• Ouvido é mais sensível a algumas sub-faixas que outras
� Quando vários sinais estão presentes:
• um sinal mais forte pode reduzir a sensibilidade do ouvido a 
outros sinais próximos na freqüência
– Mascaramento de freqüências
• Quando o ouvido escuta um som alto, ele leva um tempo 
curto para conseguir escutar um som mais baixo
– Mascaramento temporal
30
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
Sensibilidade do OuvidoSensibilidade do Ouvido
� Domínio dinâmico de um sinal (dynamic range)
• Razão entre a amplitude máxima e a mínima 
medida em decibéis (dB)
– D = 20 log10 (Vmax/Vmin) dB
� Domínio dinâmico do ouvido (som mais alto e 
mais baixo) = 96 dB
� Sensibilidade do ouvido varia com a freqüência 
do sinal
• Faixa de maior sensibilidade => [2, 5] KHz
31
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
Sensibilidade do OuvidoSensibilidade do Ouvido
� Sinal A seria ouvido, sinal B não seria
32
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MascaramentoMascaramento de Freqde Freqüüênciasências
� Para um sinal de áudio que consiste de sinais com 
múltiplas freqüências, a sensibilidade do ouvido 
humano varia com a amplitude relativa dos 
sinais
� Exemplo:
• Sinal B tem amplitude maior que A, o que causa 
uma distorção na curva de sensibilidade
• Sinal A seria ouvido sozinho, mas próximo do sinal 
B, não é ouvido
33
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MascaramentoMascaramento de Freqde Freqüüênciasências
Sinal A seria ouvido sozinho, 
mas próximo do sinal B, não é ouvido
34
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MascaramentoMascaramento de Freqde Freqüüênciasências
� Efeito do mascaramento de freqüências variando 
com a feqüência (sinais de 1, 4 e 8 KHz)
� O intervalo de freqüências afetadas (largura da 
curva) é proporcional à freqüência
35
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MascaramentoMascaramento de Freqde Freqüüênciasências
� A largura da curva é chamada de banda passante crítica 
daquela freqüência
• F < 500Hz
– Banda passante crítica é constante ~100Hz
• F > 500Hz
– Banda passante crítica aumenta aproximadamente linearmente em 
múltiplos de 100Hz
• sinal de 1KHz (2x500 Hz) => banda crítica de 200Hz (2x100Hz)
• sinal de 5KHz (10x500 Hz) => banda crítica de 1000Hz 
(10x100Hz)
� Conclusão
• Se a magnitude dos componentes de freqüências que 
compõem o sinal forem determinadas, é possível determinar 
que freqüências serão mascaradas e não precisam ser 
codificadas/transmitidas
36
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MascaramentoMascaramento TemporalTemporal
� Quando o ouvido escuta um som alto, ele leva um tempo 
curto (dezenas de ms) para conseguir escutar um som 
mais baixo
• Mascaramento temporal
� Para identificar amostras mascaradas, é necessário 
processar o sinal de áudio durante um período 
comparável ao do mascaramento
39
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEG MPEG ÁÁudioudio
�Motion Pictures Expert Group – MPEG
� Padrão ISO para vídeo com som
� Três níveis de qualidade (camadas – layers)
• Camada 1 - MP1
• Camada 2 - MP2
• Camada 3 - MP3
� Implementação de camada mais alta deve ser 
capaz de decodificar camadas mais baixas
40
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEG MPEG ÁÁudioudio
� Codificação por Transformadas
• Fast Fourier Transform – FFT (camadas 1 e 2)
• Modified Discrete Cosine Transform – MDCT (camada 3)
� Codificação por Sub-bandas
• Espectro de freqüências dividido em 32 sub-bandas (1 e 2)
• Espectro de freqüências dividido em até 576 sub-bandas (3)
� Codificação Perceptual – Modelo Psicoacústico
• Mascaramento de freqüências (todas as camadas)
• Mascaramento temporal (camadas 2 e 3)
� Codificação por Entropia (Huffman)
• camada 3 - MP3
41
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEG MPEG ÁÁudioudio
Sinal de áudio PCM
não-comprimido
Modelo 
Psicoacústico
Divisão em 
sub-bandas
de freqüência
Quantização
Codificação 
por Entropia
dados do áudio 
comprimido
32 sub-bandas
controla
Codificação MPEG Áudio
42
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEG MPEG ÁÁudioudio
� Amostragem e Quantização usa PCM
• Taxa de amostragem e número de bits por amostra 
dependem da aplicação
– MPEG–1 permite taxas de 32, 44.1 e 48 KHz
• Exemplo: áudio qualidade CD
– 44.1KHz
– 16 bits por amostra
43
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEG MPEG ÁÁudioudio
� Divisão em Sub-bandas
• 32 sub-bandas de mesma largura (MP1, MP2)
• Até 576 sub-bandas de largura variável (MP3)
� Cada grupo de 32 amostras PCM relacionadas no tempo 
são transformadas em 32 amostras na freqüência (FFT) 
• 1 por sub-banda
44
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEG MPEG ÁÁudioudio
� Cada segmento de áudio amostrado tem duração 
igual ao tempo para acumular 12 conjuntos 
sucessivos de 32 amostras PCM
• Tempo de 384 (12 x 32) amostras PCM
� 32 amostras PCM são transformadas em 32 
amostras na freqüência (1 por sub-banda)
• 12 amostras na freqüência em cada sub-banda
• Amostra de maior amplitude é determinada
– Fator de escala (scaling factor) da sub-banda
45
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEG MPEG ÁÁudioudio
� Grupo de amostras em Sub-bandas MPEG
• MPEG layers II e III agrupam 3 grupos de 12 
amostras em cada sub-banda (3 x 384 – 1152 
amostras PCM)
– máscara temporal
46
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEG MPEG ÁÁudioudio
�Modelo Psicoacústico
47
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEG MPEG ÁÁudioudio
�Mascaramento de 
Freqüências
• Layers I, II e III
�Mascaramento
Temporal
• Layers II e III
48
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEG MPEG ÁÁudioudio
� Cada quadro MPEG-Áudio agrupa
• MPEG layer I - 384 amostras PCM comprimidas
• MPEG layers II e III - 1152 amostras PCM comprimidas
� Número de bits por conjunto de amostras é fixo
• Taxa constante - CBR
� fatores de escala são utilizados para fazer a alocação de 
bits
• Componentes de freqüências de maior sensibilidade usam 
mais bits (menor ruído de quantização)
� Fator de escala de cada sub-banda é quantizado 
� Outras amostras na freqüência são quantizadas de forma 
relativa ao fator de escala
• Ruído de quantização varia por sub-banda
49
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEG MPEG ÁÁudioudio
� Decodificador não precisa conhecer o 
modelo psicoacústico� Menos complexo que o codificador
� Mais barato
� Diferentes modelos psicoacústicos
podem ser utilizados
� Interessante para aplicações de 
transmissão por difusão (broadcast)
Sinal de áudio PCM
decodificado
desempacotamento
Transformada inversa
Freqüência/Tempo
Reconstrução das 
amostras na freqüência
Fluxo de bits codificado
50
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEG MPEG ÁÁudioudio
51
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEG MPEG ÁÁudioudio
� Comparação entre camadas
• Exemplo MP3: 
– qualidade CD a 128 Kbps (comparado a 1.411Mbps)
– rádio FM a 64 kbps
12:132 a 320 kbpsMP3
6:132 a 384 kbpsMP2
4:132 a 448 kbpsMP1
CompressãoTaxa de bitsCamada
52
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEG MPEG ÁÁudioudio
� 4 alternativas de áudio MPEG-1:
• Monofônico – único canal de áudio
• Dual-monofônico – dois canais 
independentes (ex.: inglês e francês)
• Stereo em 2 canais
• Single-channel joint-stereo – explora 
redundâncias entre os canais estéreo
53
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEGMPEG--2 2 ÁÁudioudio
�MPEG-2 BC:
• Backward Compatible
• Compatível com MPEG-1 (layers I, II e III)
• Extensão multicanal – até 6 (5.1) canais (esquerda, 
direita, centro, 2 canais surround, subwoofer)
• Taxas de amostragem menores 
– 16, 22 e 24 KHz
• Taxas de bits menores
– 32 a 256 Kbps – layer I
– 8 a 160 Kbps – layers II e III
54
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
ÁÁudio udio multicanalmulticanal
55
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEGMPEG--2 BC2 BC
� Permite down-mixing
• Conversão de 5 
canais em 2
56
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEGMPEG--2 2 ÁÁudioudio
�MPEG-2 AAC
• Advanced Audio Coding
• Não é compatível com MPEG-1
• Bem mais complexo
• Amostragem em até 96 KHz
• Áudio de altíssima qualidade a 64 Kbps
• Adotado como núcleo do codificador geral de áudio 
do MPEG-4
57
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
DolbyDolby DigitalDigital
� www.dolby.com
� Dolby AC-3
� ATSC A/52 – Advanced Television Systems Committee
� Formato usado em DVD e no padrão HDTV norte-
americano
• MPEG áudio é opcional em DVD
� Taxas de amostragem de 48, 44.1, 32 KHz
� Taxas de bits de 32 a 640 Kbps
� Até 6 canais (esquerdo, direito, centro, 2 canais surround
e subwoofer)
58
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
DolbyDolby ACAC--33
� Codificação por sub-bandas
� Codificação perceptual
� MPEG áudio X Dolby AC-3:
• MPEG 
– decide a alocação de bits por sub-bandas de acordo com o modelo 
psicoacústico utilizado (forward adaptive bit allocation mode)
• Vantagem: decodificador não precisa conhecer o modelo psicoacústico
– Informação de alocação de bits deve ser inserida no quadro MPEG-
áudio
• Desvantagem: desperdiça banda passante com informação de alocação 
de bits
• Dolby AC-3
– Não passa informação de alocação de bits no quadro AC-3, mas sim 
alguns parâmetros que permitem ao decodificador inferir o modelo de 
mascaramento utilizado e a alocação de bits no quadro
– utiliza notação de ponto flutuante (expoente e mantissa) para 
representar os coeficientes de freqüência
59
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
Codificador Codificador DolbyDolby ACAC--33
60
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
DolbyDolby ACAC--33
� Quadro AC-3
� Cada bloco de áudio contém dados comprimidos 
relativos a 256 novas amostras PCM 
• Taxa típica - áudio multicanal a 384 Kbps
61
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
ÁÁudio DTSudio DTS
� Digital Theater Systems (DTS) – www.dtstech.com
� Concorrente do Dolby
� Usado em filmes de cinema
• Jurrassic Park foi o primeiro
� Também permite 6 canais de áudio
� amostragem PCM de até 192KHz com 24 bits por 
amostra
� 256, 512, 1024, 2048 ou 4096 amostras PCM por quadro
� Taxa de 754 Kbps ou 1.5 Mbps
� Outra opção para DVD áudio
62
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
ÁÁudio DTSudio DTS
� Codificador DTS
• Codificação por Transformadas e Sub-bandas
• Codificação Perceptual 
• Codificação ADPCM
• Codificação por Entropia (VBR)
63
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
CodificaCodificaçção de ão de ÁÁudio AACudio AAC
� MPEG-2 AAC
� MPEG-4 HE-AAC
� Referências:
• MPEG-4 High-Efficiency AAC Coding, Jürgen Herre e 
Martin Dietz, IEEE Signal Processing Magazine (137), 
Maio 2008.
• The MPEG-4 Book, Fernando Pereira e Touradj Ebrahimi, 
IMSC Press, Prentice-Hall, 2003.
• Audio Signal Processing and Coding, Andreas Spanias, Ted 
Painter e Venkatraman Atti, John Wiley & Sons, 2007.
64
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEGMPEG--2 AAC2 AAC
� MPEG-2 NBC (non-backward compatible)
� AAC - Advanced Audio Coding
� Publicado em 1997
� MPEG-2 BC codificava áudio multicanal a taxas maiores que 640 
Kbps
� Surgiu da necessidade de codificar audio multicanal a taxas menores
que 384 Kbps
• Multicanal – 320 Kbps
• Estéreo – 128 Kbps
� Taxas de amostragem variam de 8 a 96 KHz
• 8, 11, 12, 16, 22, 24, 32, 44, 48, 64, 88, 96 KHz
� Permite até 48 canais de áudio
� Adotado como núcleo do codificador de áudio MPEG-4
65
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEGMPEG--2 AAC2 AAC
� Perfis:
• LC – Low complexity
– Não utiliza predição inter-quadros
• Main 
• SSR – Scalable Sampling Rate
– Codificação escalável
– Adiciona ferramenta gain control
66
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEGMPEG--2 AAC2 AAC
67
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
TransformadaTransformada
�MDCT – Modified Discrete Cosine Transform
� Aplicada a janelas de 2048 amostras com 1024 
novas amostras (ou 8 conjuntos de 256)
• Produzem 1024 coeficientes na freqüência
• 1024 sub-bandas com resolução de 23,4Hz (para
taxa de amostragem de 48KHz)
68
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
TransformadaTransformada
69
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
TNSTNS
� TNS – Temporal Noise Shaping
� Novo conceito em codificação perceptual de 
áudio
� Técnicas de LPC (Linear predictive coding) são
aplicadas no domínio da freqüência
� Coeficientes espectrais são analisados e o ruído é
modelado e representado por parâmetros LPC
� Técnica usada em todos os perfis
70
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
TNSTNS
� TNS – Temporal Noise Shaping
codificador
decodificador
71
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
PredictionPrediction
� Predição dos coeficientes espectrais do quadro
atual é feita com base nos coeficientes do quadro
anterior
• Backward prediction
• Somente para coeficientes de freqüência menores
que 16KHz
� Economia de bits é conseguida codificando
apenas o resíduo (sinal diferença ou sinal de erro)
� Só o perfil Main utiliza esta técnica
72
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
QuantizaQuantizaççãoão e e AlocaAlocaççãoão de bitsde bits
� Processo iterativo até atingir taxa de bits 
desejada
�Modifica o quantum do fator de escala de cada
sub-banda em incrementos de 1.5 dB e obtém
códigos de Huffman para fator de escala e 
coeficientes quantizados até a taxa de bits ser 
atingida
73
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
PadrãoPadrão MPEGMPEG--44
� Objetos de mídia podem ser de origem natural ou 
sintética
• Áudio (voz ou música), vídeo, objetos 2D e 3D
� Composições de objetos formam cenas 
audiovisuais
� Interatividade com o usuário
� Transmissão sobre qualquer tipo de rede
74
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
CodificaCodificaççãoão de de ááudioudioMPEGMPEG--44
General Audio
Coding
[Gril99]
Scalable Audio
Coding
[Bran94b] [Gril97]
Parametric Audio
Coding
[Edle96q] [Purn99a]
Speech 
Coding
[Edle99] [Nish99]
Structured Audio
Coding
[Sche98a] [Sche01]
Low Delay Audio
Coding
[Alla99] [Hilp00]
Error Resilient
Feature
[Sper00] [Mein01]
75
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEGMPEG--4 GAC4 GAC
�MPEG-4 GAC – generic audio coder
76
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
Novas Novas ferramentasferramentas
� PNS (Perceptual Noise Substitution)
• Perceptual coding + substitute parametric form of 
noise-like signals
• Componentes similares a ruído são identificados e 
excluídos do sinal
• Um flag de substituição de ruído é adicionado
juntamente com a potência total desses coeficientes
para cada sub-banda
• Decodificador regenera o ruído com base na
potência informada
77
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
PNSPNS
78
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
Novas Novas ferramentasferramentas
� LTP (Long-Term Prediction)
• Predição no domínio da frequência com base nos quadros
anteriores (backward prediction)
– Os valores espectrais quantizados são mapeados para o domínio 
do tempo e reconstruídos
• Comparando o sinal reconstruído com o original, os 
parâmetros ótimos para atraso (pitch lag) e amplitude (gain) 
são determinados para formar o sinal predito
• O sinal original e o predito são subtraídos formando o sinal 
residual (diferença)
• Um dos dois (original ou residual) é codificado de forma a 
minimizar a taxa de bits (frequency selective switch)
– Esses parâmetros LTP são transmitidos ao decodificador 
(forward adaptation)
79
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
LTPLTP
80
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
Novas Novas ferramentasferramentas
� TwinVQ
• Transformed Weighted 
Interleave Vector 
Quantization
• Controla a distorção da
quantização através de um 
modelo perceptual
• Intercalamento permite
alocação de bits constante
para todos os subvetores
• Utiliza codificação vetorial
para representar os
coeficientes
81
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEGMPEG--4 AAC4 AAC
�MPEG-4 AAC publicado em 1999
� HE-AAC v.1 publicada em 2003 (AAC + SBR)
� HE-AAC v.2 publicada em 2004 (v.1 + PS)
� Em 2005, é publicada a 3a. Versão do MPEG-4 
audio com todas as ferramentas incluídas
• ISO/IEC 14496-3:2005 - Part 3: Audio
� Decodificador v.2 também decodifica v.1 e AAC
82
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEGMPEG--4 HE4 HE--AACAAC
� SBR (spectral band replication) e PS (parametric 
stereo) são ferramentas de pré-processamento no 
codificador e pós-processamento no 
decodificador
83
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
SBRSBR
� Spectral Band Replication
� Percepção auditiva humana é mais sensível a baixas
frequências
� SBR não transmite a parte alta do espectro de 
frequências, ela é regenerada pelo decodificador com 
base na transposição das frequências baixas e um 
conjunto de parâmetros que estimam o envelope 
espectral
84
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
PSPS
� Parametric Stereo
� Usada somente em áudio estéreo
� Extensão de joint-stereo coding (MPEG-1)
� converte o sinal estéreo em:
• sinal mono e 
• um conjunto de parâmetros que definem a composição
espacial do sinal
– (inter-channel intensity difference, inter-channel phase 
difference, inter-channel coherence, overall phase difference)
85
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEGMPEG--4 AAC4 AAC
86
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
MPEGMPEG--44
� Níveis e Perfis
Principais níveis: 
Nível 2 (dispositivos estéreo) e 
Nível 4 (sistemas multicanal – TV Digital)
87
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
SBTVDSBTVD
� Taxas de amostragem do sinal de entrada
• 32KHz, 44.1KHz, 48KHz
� Quantização
• 16 ou 20 bits por amostra
�Mínimo de 1 canal e máximo de 5.1 canais
• Pode ser transmitido simultaneamente em mais 
de um modo
• Receptores full-seg devem ser capazes de 
converter áudio multicanal em estéreo
88
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
SBTVDSBTVD
� Perfis e níveis:
• LC (Low Complexity) 
– Perfil básico do AAC
– Níveis L2 e L4
• HE (high efficiency)
– Perfil avançado combinando perfil LC com 
ferramenta SBR (spectral band replication)
– Níveis L2 e L4
• HE + ferramenta PS (parametric stereo)
– Nível L2
89
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
SBTVDSBTVD
� Serviço full-seg
90
Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia
SBTVDSBTVD
� Serviço one-seg