Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia Áudio Profa. Débora Christina Muchaluat Saade debora@midiacom.uff.br ÁÁudioudio Profa. Débora Christina Muchaluat Saade debora@midiacom.uff.br Departamento de Engenharia de TelecomunicaDepartamento de Engenharia de Telecomunicaçções ões -- UFFUFF 2 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia ÁÁudioudio � Sinal de Voz • 50Hz a 10KHz �Música • 15Hz a 20KHz • Estéreo: 2 canais � Codificadores de Sinal de Voz � Codificadores de Áudio Genérico 3 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia ÁÁudioudio � Sinal de Voz • PCM e variações – ITU-T G.711, G.721, G.722, G.726 • LPC (Linear Predictive Coding) • CELP (Code-excited LPC) – ITU-T G.728, G.729, G.729(A), G.723.1 � Codificação Perceptual – Modelo Psicoacústico • Mascaramento de freqüências • Mascaramento temporal � MPEG Layer 1, Layer 2, Layer 3 (MP3) � Dolby Digital AC-3 � DTS (Digital Theater Systems) � AAC (MPEG2-AAC e MPEG4-AAC) 5 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia CodificaCodificaçção de Vozão de Voz � Os codificadores de voz podem ser classificados da seguinte forma: • Baseados na forma do sinal (waveform codecs) • Baseados na fonte do sinal (source or voice codecs) • Híbridos (hybrid codecs) 6 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia ÁÁudioudio � Codificadores baseados na forma do sinal – waveform codecs • Recuperam o sinal de entrada sem modelar o processo que gerou o sinal • Podem replicar o som gerado por qualquer tipo de fonte • Não estão otimizados para baixas taxas de bit nem para determinados tipos de fonte sonora. � Digitalização do sinal analógico • PCM (Pulse Code Modulation) • Freqüência de amostragem – Nyquist: 2fmax 7 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia PCMPCM Codificando cada nível com 4 bits: 1100 1110 1110 1110 1010 0011 0001 1001 1010 ... Na recepção... 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 8 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia Voz PCMVoz PCM � Padrão G.711 • redes telefônicas (PSTN – public switched telephone network) � Banda passante limitada • 200Hz a 3.4KHz � Taxa de amostragem mínima de 6.8KHz � Taxa de 8KHz é usada � PCM com 8 bits por amostra • taxa de 64Kbps 9 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia DPCMDPCM � Differential Pulse Code Modulation � Codificação Preditiva (Diferencial) • Amplitude de uma amostra é grande, mas a diferença de amplitude entre amostras sucessivas é relativamente pequena • Ao invés de codificar o valor de cada amostra, codifica a diferença entre seu valor e o anterior • Economia típica de 1 bit – Voz: taxa cai para 56Kbps 10 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia DPCMDPCM 11 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia DPCMDPCM 12 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia DPCMDPCM � Conversão Analógica-Digital • Erro de quantização � Sinal diferença (sinal residual) • Erro tem efeito acumulativo � Técnica melhorada usando média das amostras anteriores • Ex.: DPCM preditivo de 3a. ordem • Coeficientes preditores (C1=0,5; C2=0,25; C3=0,25) � Desempenho similar ao PCM tradicional com economia de 2 bits • 6 bits por amostra 13 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia DPCM de 3a. ordemDPCM de 3a. ordem 14 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia ADPCMADPCM � Adaptive Diferential PCM � Varia o número de bits usado para o sinal diferença dependendo da amplitude � Padrão ITU-T G.721 • Mesmo princípio do DPCM usando preditor de 8a. ordem • Taxas de 32 ou 16Kbps 15 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia G.722G.722 � Melhor qualidade de som que G.721 � Utiliza Codificação por Sub-Bandas • Divisão da banda passante do sinal em várias sub-bandas codificadas de forma distinta • Trata com maior precisão as sub-bandas mais importantes do sinal (usando mais bits por amostra) � Considera banda passante de [50Hz, 7Khz] • Sinal de voz mais fiel comparada a 3.4KHz do PCM padrão � 2 Sub-Bandas independentes codificadas com ADPCM • [50Hz, 3.5KHz] – sub-banda baixa (48Kbps) – Maior importância para a percepção do sinal • [3.5KHz, 7KHz] – sub-banda alta (16Kbps) � Taxas de 64, 56 ou 48 Kbps 16 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia CodificaCodificaçção ADPCM com ão ADPCM com SubSub--bandasbandas 17 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia G.726G.726 � Também utiliza Codificação por Sub-Bandas e ADPCM � Considera banda passante limitada • [50Hz, 3.4Khz] • Taxas menores de 40, 32, 24 ou 16Kbps 18 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia CodificaCodificaçção ão PreditivaPreditiva AdaptativaAdaptativa � APC - Adaptive Predictive Coding � Coeficientes preditores são modificados dinamicamente � Conjunto ótimo de coeficientes preditores varia continuamente, já que é função das características do sinal de áudio � Taxa de 8kbps com qualidade aceitável 19 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia CodificaCodificaçção de Vozão de Voz � Codificadores baseados na fonte do sinal - source codecs, voice codecs, vocoders • O sinal é assumido como sendo unicamente voz e não qualquer forma de onda possível • Codificam apenas o suficiente para inteligibilidade e identificação do interlocutor • Codificadores de fonte para voz tentam replicar o processo físico da criação do som vocálico 20 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia Codificadores Baseados na FonteCodificadores Baseados na Fonte � Baseados no modelo do trato vocal humano 21 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia LPCLPC � Linear Predictive Coding => usado para sinal de voz � Características do sinal são identificadas na codificação e usadas na decodificação, junto a um sintetizador de voz, para gerar o áudio final � Principais características do sinal de voz: • Parâmetros perceptuais: – Pitch (relacionada a freqüência de vibração das cordas vocais) – Período: duração do sinal – Loudness: altura da voz (quantidade de ar dos pulmões) • Parâmetros de excitação do trato vocal (modelo do trato vocal): – Usados para identificar a origem do som • Voiced sounds: sons gerados através das cordas vocais, relacionados às letras m, v e l • Unvoiced sounds: as cordas vocais ficam abertas com esses sons, relacionados às f e s 22 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia LPCLPC 23 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia LPCLPC � Som gerado é de voz metálica � Taxas de 2.4 e 1.2 Kbps � Codificadores LPC são usados em aplicações militares • Banda limitada � Tecnologia desenvolvida durante a 2a. guerra mundial 24 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia CodificaCodificaçção de Vozão de Voz � Codificadores híbridos (hybrid codecs) • Utilizam uma combinação de análise da forma do sinal e modelagem da fonte � Utilizam um modelo do trato vocal e também codificam o sinal de erro do processo de síntese em relação ao sinal original � Três estratégias principais: • Multi-Pulse Excitation (MPE) • Regular Pulse Excitation (RPE) • Code-Excited Linear Prediction (CELP) � Diferem na forma como o sinal de erro é codificado 25 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia CELPCELP � Code-excited Linear Prediction � Gera os mesmos parâmetros LPC e ainda computa os erros entre a fala original e a fala gerada pelo modelo sintético � Tanto os parâmetros LPC do modelo do trato vocal quanto uma representação comprimida dos erros são codificados • Templatecodebook � O resultado do CELP tem qualidade boa a taxas baixas 26 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia CELPCELP 27 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia Padrões baseados em CELPPadrões baseados em CELP Videotelefonia e telefonia na Internet 67.5 ms5.3/6.3 KbpsG.723.1 Voz e dados digitais simultâneos 25 ms8 KbpsG.729(A) Telefonia em redes celulares 25 ms8 KbpsG.729 Telefonia a taxa baixa 0.625 ms16 KbpsG.728 Exemplo de aplicação Retardo na codificação Taxa de bitsPadrão Obs.: Retardo na codificação PCM padrão (taxa de amostragem a 8 KHz) => 0.125 ms 28 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia CodificaCodificaçção Perceptualão Perceptual � Áudio de propósito geral (voz ou música) � Utiliza um Modelo Psicoacústico • Explora limitações do ouvido humano � Áudio de origem é analisado e somente características perceptíveis pelo ouvido humano são codificadas/transmitidas � Compressão perceptualmente sem perdas 29 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia CodificaCodificaçção Perceptualão Perceptual � Ouvido humano é sensível a freqüências na faixa de [15Hz, 20kHZ] � Nível de sensibilidade é não-linear • Ouvido é mais sensível a algumas sub-faixas que outras � Quando vários sinais estão presentes: • um sinal mais forte pode reduzir a sensibilidade do ouvido a outros sinais próximos na freqüência – Mascaramento de freqüências • Quando o ouvido escuta um som alto, ele leva um tempo curto para conseguir escutar um som mais baixo – Mascaramento temporal 30 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia Sensibilidade do OuvidoSensibilidade do Ouvido � Domínio dinâmico de um sinal (dynamic range) • Razão entre a amplitude máxima e a mínima medida em decibéis (dB) – D = 20 log10 (Vmax/Vmin) dB � Domínio dinâmico do ouvido (som mais alto e mais baixo) = 96 dB � Sensibilidade do ouvido varia com a freqüência do sinal • Faixa de maior sensibilidade => [2, 5] KHz 31 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia Sensibilidade do OuvidoSensibilidade do Ouvido � Sinal A seria ouvido, sinal B não seria 32 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MascaramentoMascaramento de Freqde Freqüüênciasências � Para um sinal de áudio que consiste de sinais com múltiplas freqüências, a sensibilidade do ouvido humano varia com a amplitude relativa dos sinais � Exemplo: • Sinal B tem amplitude maior que A, o que causa uma distorção na curva de sensibilidade • Sinal A seria ouvido sozinho, mas próximo do sinal B, não é ouvido 33 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MascaramentoMascaramento de Freqde Freqüüênciasências Sinal A seria ouvido sozinho, mas próximo do sinal B, não é ouvido 34 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MascaramentoMascaramento de Freqde Freqüüênciasências � Efeito do mascaramento de freqüências variando com a feqüência (sinais de 1, 4 e 8 KHz) � O intervalo de freqüências afetadas (largura da curva) é proporcional à freqüência 35 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MascaramentoMascaramento de Freqde Freqüüênciasências � A largura da curva é chamada de banda passante crítica daquela freqüência • F < 500Hz – Banda passante crítica é constante ~100Hz • F > 500Hz – Banda passante crítica aumenta aproximadamente linearmente em múltiplos de 100Hz • sinal de 1KHz (2x500 Hz) => banda crítica de 200Hz (2x100Hz) • sinal de 5KHz (10x500 Hz) => banda crítica de 1000Hz (10x100Hz) � Conclusão • Se a magnitude dos componentes de freqüências que compõem o sinal forem determinadas, é possível determinar que freqüências serão mascaradas e não precisam ser codificadas/transmitidas 36 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MascaramentoMascaramento TemporalTemporal � Quando o ouvido escuta um som alto, ele leva um tempo curto (dezenas de ms) para conseguir escutar um som mais baixo • Mascaramento temporal � Para identificar amostras mascaradas, é necessário processar o sinal de áudio durante um período comparável ao do mascaramento 39 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEG MPEG ÁÁudioudio �Motion Pictures Expert Group – MPEG � Padrão ISO para vídeo com som � Três níveis de qualidade (camadas – layers) • Camada 1 - MP1 • Camada 2 - MP2 • Camada 3 - MP3 � Implementação de camada mais alta deve ser capaz de decodificar camadas mais baixas 40 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEG MPEG ÁÁudioudio � Codificação por Transformadas • Fast Fourier Transform – FFT (camadas 1 e 2) • Modified Discrete Cosine Transform – MDCT (camada 3) � Codificação por Sub-bandas • Espectro de freqüências dividido em 32 sub-bandas (1 e 2) • Espectro de freqüências dividido em até 576 sub-bandas (3) � Codificação Perceptual – Modelo Psicoacústico • Mascaramento de freqüências (todas as camadas) • Mascaramento temporal (camadas 2 e 3) � Codificação por Entropia (Huffman) • camada 3 - MP3 41 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEG MPEG ÁÁudioudio Sinal de áudio PCM não-comprimido Modelo Psicoacústico Divisão em sub-bandas de freqüência Quantização Codificação por Entropia dados do áudio comprimido 32 sub-bandas controla Codificação MPEG Áudio 42 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEG MPEG ÁÁudioudio � Amostragem e Quantização usa PCM • Taxa de amostragem e número de bits por amostra dependem da aplicação – MPEG–1 permite taxas de 32, 44.1 e 48 KHz • Exemplo: áudio qualidade CD – 44.1KHz – 16 bits por amostra 43 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEG MPEG ÁÁudioudio � Divisão em Sub-bandas • 32 sub-bandas de mesma largura (MP1, MP2) • Até 576 sub-bandas de largura variável (MP3) � Cada grupo de 32 amostras PCM relacionadas no tempo são transformadas em 32 amostras na freqüência (FFT) • 1 por sub-banda 44 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEG MPEG ÁÁudioudio � Cada segmento de áudio amostrado tem duração igual ao tempo para acumular 12 conjuntos sucessivos de 32 amostras PCM • Tempo de 384 (12 x 32) amostras PCM � 32 amostras PCM são transformadas em 32 amostras na freqüência (1 por sub-banda) • 12 amostras na freqüência em cada sub-banda • Amostra de maior amplitude é determinada – Fator de escala (scaling factor) da sub-banda 45 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEG MPEG ÁÁudioudio � Grupo de amostras em Sub-bandas MPEG • MPEG layers II e III agrupam 3 grupos de 12 amostras em cada sub-banda (3 x 384 – 1152 amostras PCM) – máscara temporal 46 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEG MPEG ÁÁudioudio �Modelo Psicoacústico 47 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEG MPEG ÁÁudioudio �Mascaramento de Freqüências • Layers I, II e III �Mascaramento Temporal • Layers II e III 48 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEG MPEG ÁÁudioudio � Cada quadro MPEG-Áudio agrupa • MPEG layer I - 384 amostras PCM comprimidas • MPEG layers II e III - 1152 amostras PCM comprimidas � Número de bits por conjunto de amostras é fixo • Taxa constante - CBR � fatores de escala são utilizados para fazer a alocação de bits • Componentes de freqüências de maior sensibilidade usam mais bits (menor ruído de quantização) � Fator de escala de cada sub-banda é quantizado � Outras amostras na freqüência são quantizadas de forma relativa ao fator de escala • Ruído de quantização varia por sub-banda 49 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEG MPEG ÁÁudioudio � Decodificador não precisa conhecer o modelo psicoacústico� Menos complexo que o codificador � Mais barato � Diferentes modelos psicoacústicos podem ser utilizados � Interessante para aplicações de transmissão por difusão (broadcast) Sinal de áudio PCM decodificado desempacotamento Transformada inversa Freqüência/Tempo Reconstrução das amostras na freqüência Fluxo de bits codificado 50 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEG MPEG ÁÁudioudio 51 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEG MPEG ÁÁudioudio � Comparação entre camadas • Exemplo MP3: – qualidade CD a 128 Kbps (comparado a 1.411Mbps) – rádio FM a 64 kbps 12:132 a 320 kbpsMP3 6:132 a 384 kbpsMP2 4:132 a 448 kbpsMP1 CompressãoTaxa de bitsCamada 52 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEG MPEG ÁÁudioudio � 4 alternativas de áudio MPEG-1: • Monofônico – único canal de áudio • Dual-monofônico – dois canais independentes (ex.: inglês e francês) • Stereo em 2 canais • Single-channel joint-stereo – explora redundâncias entre os canais estéreo 53 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEGMPEG--2 2 ÁÁudioudio �MPEG-2 BC: • Backward Compatible • Compatível com MPEG-1 (layers I, II e III) • Extensão multicanal – até 6 (5.1) canais (esquerda, direita, centro, 2 canais surround, subwoofer) • Taxas de amostragem menores – 16, 22 e 24 KHz • Taxas de bits menores – 32 a 256 Kbps – layer I – 8 a 160 Kbps – layers II e III 54 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia ÁÁudio udio multicanalmulticanal 55 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEGMPEG--2 BC2 BC � Permite down-mixing • Conversão de 5 canais em 2 56 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEGMPEG--2 2 ÁÁudioudio �MPEG-2 AAC • Advanced Audio Coding • Não é compatível com MPEG-1 • Bem mais complexo • Amostragem em até 96 KHz • Áudio de altíssima qualidade a 64 Kbps • Adotado como núcleo do codificador geral de áudio do MPEG-4 57 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia DolbyDolby DigitalDigital � www.dolby.com � Dolby AC-3 � ATSC A/52 – Advanced Television Systems Committee � Formato usado em DVD e no padrão HDTV norte- americano • MPEG áudio é opcional em DVD � Taxas de amostragem de 48, 44.1, 32 KHz � Taxas de bits de 32 a 640 Kbps � Até 6 canais (esquerdo, direito, centro, 2 canais surround e subwoofer) 58 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia DolbyDolby ACAC--33 � Codificação por sub-bandas � Codificação perceptual � MPEG áudio X Dolby AC-3: • MPEG – decide a alocação de bits por sub-bandas de acordo com o modelo psicoacústico utilizado (forward adaptive bit allocation mode) • Vantagem: decodificador não precisa conhecer o modelo psicoacústico – Informação de alocação de bits deve ser inserida no quadro MPEG- áudio • Desvantagem: desperdiça banda passante com informação de alocação de bits • Dolby AC-3 – Não passa informação de alocação de bits no quadro AC-3, mas sim alguns parâmetros que permitem ao decodificador inferir o modelo de mascaramento utilizado e a alocação de bits no quadro – utiliza notação de ponto flutuante (expoente e mantissa) para representar os coeficientes de freqüência 59 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia Codificador Codificador DolbyDolby ACAC--33 60 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia DolbyDolby ACAC--33 � Quadro AC-3 � Cada bloco de áudio contém dados comprimidos relativos a 256 novas amostras PCM • Taxa típica - áudio multicanal a 384 Kbps 61 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia ÁÁudio DTSudio DTS � Digital Theater Systems (DTS) – www.dtstech.com � Concorrente do Dolby � Usado em filmes de cinema • Jurrassic Park foi o primeiro � Também permite 6 canais de áudio � amostragem PCM de até 192KHz com 24 bits por amostra � 256, 512, 1024, 2048 ou 4096 amostras PCM por quadro � Taxa de 754 Kbps ou 1.5 Mbps � Outra opção para DVD áudio 62 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia ÁÁudio DTSudio DTS � Codificador DTS • Codificação por Transformadas e Sub-bandas • Codificação Perceptual • Codificação ADPCM • Codificação por Entropia (VBR) 63 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia CodificaCodificaçção de ão de ÁÁudio AACudio AAC � MPEG-2 AAC � MPEG-4 HE-AAC � Referências: • MPEG-4 High-Efficiency AAC Coding, Jürgen Herre e Martin Dietz, IEEE Signal Processing Magazine (137), Maio 2008. • The MPEG-4 Book, Fernando Pereira e Touradj Ebrahimi, IMSC Press, Prentice-Hall, 2003. • Audio Signal Processing and Coding, Andreas Spanias, Ted Painter e Venkatraman Atti, John Wiley & Sons, 2007. 64 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEGMPEG--2 AAC2 AAC � MPEG-2 NBC (non-backward compatible) � AAC - Advanced Audio Coding � Publicado em 1997 � MPEG-2 BC codificava áudio multicanal a taxas maiores que 640 Kbps � Surgiu da necessidade de codificar audio multicanal a taxas menores que 384 Kbps • Multicanal – 320 Kbps • Estéreo – 128 Kbps � Taxas de amostragem variam de 8 a 96 KHz • 8, 11, 12, 16, 22, 24, 32, 44, 48, 64, 88, 96 KHz � Permite até 48 canais de áudio � Adotado como núcleo do codificador de áudio MPEG-4 65 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEGMPEG--2 AAC2 AAC � Perfis: • LC – Low complexity – Não utiliza predição inter-quadros • Main • SSR – Scalable Sampling Rate – Codificação escalável – Adiciona ferramenta gain control 66 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEGMPEG--2 AAC2 AAC 67 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia TransformadaTransformada �MDCT – Modified Discrete Cosine Transform � Aplicada a janelas de 2048 amostras com 1024 novas amostras (ou 8 conjuntos de 256) • Produzem 1024 coeficientes na freqüência • 1024 sub-bandas com resolução de 23,4Hz (para taxa de amostragem de 48KHz) 68 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia TransformadaTransformada 69 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia TNSTNS � TNS – Temporal Noise Shaping � Novo conceito em codificação perceptual de áudio � Técnicas de LPC (Linear predictive coding) são aplicadas no domínio da freqüência � Coeficientes espectrais são analisados e o ruído é modelado e representado por parâmetros LPC � Técnica usada em todos os perfis 70 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia TNSTNS � TNS – Temporal Noise Shaping codificador decodificador 71 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia PredictionPrediction � Predição dos coeficientes espectrais do quadro atual é feita com base nos coeficientes do quadro anterior • Backward prediction • Somente para coeficientes de freqüência menores que 16KHz � Economia de bits é conseguida codificando apenas o resíduo (sinal diferença ou sinal de erro) � Só o perfil Main utiliza esta técnica 72 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia QuantizaQuantizaççãoão e e AlocaAlocaççãoão de bitsde bits � Processo iterativo até atingir taxa de bits desejada �Modifica o quantum do fator de escala de cada sub-banda em incrementos de 1.5 dB e obtém códigos de Huffman para fator de escala e coeficientes quantizados até a taxa de bits ser atingida 73 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia PadrãoPadrão MPEGMPEG--44 � Objetos de mídia podem ser de origem natural ou sintética • Áudio (voz ou música), vídeo, objetos 2D e 3D � Composições de objetos formam cenas audiovisuais � Interatividade com o usuário � Transmissão sobre qualquer tipo de rede 74 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia CodificaCodificaççãoão de de ááudioudioMPEGMPEG--44 General Audio Coding [Gril99] Scalable Audio Coding [Bran94b] [Gril97] Parametric Audio Coding [Edle96q] [Purn99a] Speech Coding [Edle99] [Nish99] Structured Audio Coding [Sche98a] [Sche01] Low Delay Audio Coding [Alla99] [Hilp00] Error Resilient Feature [Sper00] [Mein01] 75 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEGMPEG--4 GAC4 GAC �MPEG-4 GAC – generic audio coder 76 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia Novas Novas ferramentasferramentas � PNS (Perceptual Noise Substitution) • Perceptual coding + substitute parametric form of noise-like signals • Componentes similares a ruído são identificados e excluídos do sinal • Um flag de substituição de ruído é adicionado juntamente com a potência total desses coeficientes para cada sub-banda • Decodificador regenera o ruído com base na potência informada 77 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia PNSPNS 78 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia Novas Novas ferramentasferramentas � LTP (Long-Term Prediction) • Predição no domínio da frequência com base nos quadros anteriores (backward prediction) – Os valores espectrais quantizados são mapeados para o domínio do tempo e reconstruídos • Comparando o sinal reconstruído com o original, os parâmetros ótimos para atraso (pitch lag) e amplitude (gain) são determinados para formar o sinal predito • O sinal original e o predito são subtraídos formando o sinal residual (diferença) • Um dos dois (original ou residual) é codificado de forma a minimizar a taxa de bits (frequency selective switch) – Esses parâmetros LTP são transmitidos ao decodificador (forward adaptation) 79 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia LTPLTP 80 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia Novas Novas ferramentasferramentas � TwinVQ • Transformed Weighted Interleave Vector Quantization • Controla a distorção da quantização através de um modelo perceptual • Intercalamento permite alocação de bits constante para todos os subvetores • Utiliza codificação vetorial para representar os coeficientes 81 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEGMPEG--4 AAC4 AAC �MPEG-4 AAC publicado em 1999 � HE-AAC v.1 publicada em 2003 (AAC + SBR) � HE-AAC v.2 publicada em 2004 (v.1 + PS) � Em 2005, é publicada a 3a. Versão do MPEG-4 audio com todas as ferramentas incluídas • ISO/IEC 14496-3:2005 - Part 3: Audio � Decodificador v.2 também decodifica v.1 e AAC 82 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEGMPEG--4 HE4 HE--AACAAC � SBR (spectral band replication) e PS (parametric stereo) são ferramentas de pré-processamento no codificador e pós-processamento no decodificador 83 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia SBRSBR � Spectral Band Replication � Percepção auditiva humana é mais sensível a baixas frequências � SBR não transmite a parte alta do espectro de frequências, ela é regenerada pelo decodificador com base na transposição das frequências baixas e um conjunto de parâmetros que estimam o envelope espectral 84 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia PSPS � Parametric Stereo � Usada somente em áudio estéreo � Extensão de joint-stereo coding (MPEG-1) � converte o sinal estéreo em: • sinal mono e • um conjunto de parâmetros que definem a composição espacial do sinal – (inter-channel intensity difference, inter-channel phase difference, inter-channel coherence, overall phase difference) 85 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEGMPEG--4 AAC4 AAC 86 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia MPEGMPEG--44 � Níveis e Perfis Principais níveis: Nível 2 (dispositivos estéreo) e Nível 4 (sistemas multicanal – TV Digital) 87 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia SBTVDSBTVD � Taxas de amostragem do sinal de entrada • 32KHz, 44.1KHz, 48KHz � Quantização • 16 ou 20 bits por amostra �Mínimo de 1 canal e máximo de 5.1 canais • Pode ser transmitido simultaneamente em mais de um modo • Receptores full-seg devem ser capazes de converter áudio multicanal em estéreo 88 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia SBTVDSBTVD � Perfis e níveis: • LC (Low Complexity) – Perfil básico do AAC – Níveis L2 e L4 • HE (high efficiency) – Perfil avançado combinando perfil LC com ferramenta SBR (spectral band replication) – Níveis L2 e L4 • HE + ferramenta PS (parametric stereo) – Nível L2 89 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia SBTVDSBTVD � Serviço full-seg 90 Fundamentos de Sistemas MultimFundamentos de Sistemas Multimíídiadia SBTVDSBTVD � Serviço one-seg
Compartilhar