Buscar

Anais-SPS-2010

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 125 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 125 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 125 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Anais do 
I Simpósio de Processamento de Sinais da UNICAMP 
 
 
 
18 – 20 de outubro de 2010 
Faculdade de Engenharia Elétrica e de Computação 
UNICAMP 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
COMISSÃO ORGANIZADORA 
André Kazuo Takahata (FEEC - DECOM) 
Cristiano Agulhari (FEEC - DT) 
Everton Zaccaria Nadalin (FEEC - DCA) 
Leonardo Tomazeli Duarte (FEEC - DMO) 
Marcos Ricardo Covre (FEEC - DECOM) 
Rafael Ferrari (FEEC - DMO) 
Rafael Krummenauer (FEEC - DECOM) 
Vanessa Testoni (FEEC - DECOM) 
 
COORDENADOR GERAL CONVIDADO 
João Marcos T. Romano (FEEC - DMO) 
 
COORDENADOR TÉCNICO 
Renato da Rocha Lopes (FEEC - DECOM) 
 
COLABORADORES 
Gustavo Fraidenraich (FEEC - DECOM) 
José Candido Silveira Santos Filho (FEEC - DECOM) 
Max Henrique Machado Costa (FEEC - DECOM) 
Ricardo Suyama (UFABC) 
Romis Ribeiro de Faissol Attux (FEEC - DCA) 
 
APOIO 
Faculdade de Engenharia Elétrica e de Computação 
 
Sessão 1 – Processamento de Sinais de Voz 
Chair: Prof. Fábio Violaro 
Sistema de Reconhecimento de Locutor Baseado em Mistura de Gaussianas ....................................... 1 
Diana C. Gonzalez, Lee Luan Ling, Fábio Violaro 
Estimação de parciais em sinais acústicos harmônicos ............................................................................ 4 
Tiago Fernandes Tavares, Jayme Garcia Arnal Barbedo, Romis Attux, Amauri Lopes 
Processamento e manipulação de efeitos sonoros através de Transformada Wavelet Packet .............. 7 
Bruno Novaes Silva, Rafael Santos Mendes 
 
Sessão 2 - Inteligência Computacional 
Chair: Leonardo Tomazeli Duarte 
Support Vector Machine em Aplicações de Processamento de Sinais ..................................................... 8 
Gilson Ronchi, Munemasa Machida 
BSS para grande quantidade de fontes ......................................................................................................... 9 
Everton Z. Nadalin, Ricardo Suyama, Romis Attux 
Aprendizado Baseado em Teoria da Informação: Fundamentos e Perspectivas ..................................... 12 
Daniel G. Silva, Romis Attux 
Separação Cega de Misturas com Não-Linearidade Posterior Utilizando Estruturas 
Monotônicas e Computação Natural ............................................................................................................. 15 
Filipe O. Pereira, Leonardo T. Duarte, Ricardo Suyama, Romis Attux, João Marcos Travassos Romano 
 
Sessão 3 - Codificação de Áudio 
Chair: Prof. Max Costa 
Codificador de áudio HE-AAC v2 ................................................................................................................... 18 
José M. L. Filho, Vinícius J. A. Braga, Júlia J. D. Chanquini, Luís G. P. Meloni 
Áudio Multicanal e o Codificador MPEG-4 AAC ........................................................................................... 22 
Júlia J. D. Chanquini, José M. L. Filho, Vinícius J. A. Braga, Luís G. P. Meloni 
 
Sessão 4: Busca e Classificação de Imagens 
Chair: Prof. Ricardo da Silva Torres 
Classificação de Imagens usando Programação Genética ......................................................................... 26 
Fabio Augusto Faria, Anderson Rocha, Ricardo da Silva Torres 
Anotação Automática de Imagens Usando Dicionários Visuais e Regras de Associação ...................... 29 
Guilherme Moraes Armigliatto, Eduardo Valle, Ricardo Torres 
Realimentação de Relevância para Recuperação Visual e Textual de Imagens ....................................... 32 
Rodrigo Tripodi Calumby, Ricardo da Silva Torres 
Explorando Dicionários Visuais em Buscas de Imagens na Web .............................................................. 35 
Otávio Augusto Bizetto Penatti, Ricardo da Silva Torres 
Análise e processamento de imagens em um sistema de animação facial 2D ......................................... 38 
Paula Dornhofer Paro Costa, José Mario De Martino 
Classificação Semi-automática de Regiões em Imagens de Sensoriamento Remoto 
Utilizando Realimentação de Relevância ...................................................................................................... 41 
Jefersson A. dos Santos, Ricardo da S. Torres, Alexandre X. Falcão 
Exploiting Shape Matching and Re-Ranking Strategies for Content-Based Image Retrieval Tasks ...... 44 
Daniel Carlos Guimarães Pedronette, Ricardo da S. Torres 
Estudo Comparativo de Descritores Locais de Imagens Aplicado a Grandes Bases de Dados ............ 47 
Lucas Moutinho Bueno, Eduardo Valle, Ricardo da Silva Torres 
Visualização para Sistemas de Recuperação de Imagens por Conteúdo ................................................. 49 
Sheila Maricela Pinto Cáceres, Ricardo da Silva Torres 
 
Sessão 5: Implementação em DSP/FPGA 
Chair: Prof. Luís G. P. Meloni 
Implementação de filtros digitais IIR usando o DSP TMS320C6711 ........................................................... 52 
Johannes Dantas de Medeiros Júnior, Bruno Barbosa Albert 
Técnicas de Otimização para DSPs (Blackfin).............................................................................................. 55 
Vinícius J. A. Braga, José M. L. Filho, Júlia J. D. Chanquini, Luís G. P. Meloni 
Exploração de Paralelismo Computacional em Sistemas Embarcados para 
Compressão de Imagens Digitais .................................................................................................................. 60 
Éricles Rodrigues Sousa, Luís Geraldo Pedroso Meloni 
 
Sessão 6: Arranjo de Sensores e Estimação de Parâmetros 
Chair: Prof. Renato Lopes 
Modelagem de Fila para Fluxos de Tráfego Multifractal de Rede ............................................................... 63 
Jeferson Wilian de Godoy Stênico, Lee Luan Ling 
Mitigação de Interferentes com Arranjos de Antenas e Processamento Largamente Linear ................. 66 
Adilson Chinatto, Cynthia Junqueira, João Marcos T. Romano 
Uma Proposta de Uso de Filtragem em Estimação DOA ............................................................................. 69 
Levy Boccato, Amauri Lopes, Romis Attux 
Estimação de direção de chegada de sinais digitalmente modulados ...................................................... 72 
Rafael Krummenauer, Amauri Lopes 
 
Sessão 7: Processamento, Rastreamento e Codificação de Vídeo 
Chair: Prof. Anderson Rocha 
Recuperação de Vídeos Digitais: Métodos, Propostas e Desafios ............................................................ 75 
Jurandy Almeida, Neucimar J. Leite, Ricardo da S. Torres 
Rastreamento de jogadores de futsal usando Visão Computacional ........................................................ 78 
Erikson Freitas de Morais, Anderson Rocha, Siome Goldenstein 
Block-based 3-D Fast Transforms applied to an Embedded Color Video Codec ..................................... 81 
Vanessa Testoni, Max H. M. Costa 
Combinação de Descritores Locais e Globais para Reconhecimento de Objetos em Vídeo .................. 84 
Felipe Andrade, Ricardo Torres, Hélio Pedrini 
 
 
 
Sessão 8: Processamento, Reconhecimento e Codificação de Imagens 
Chair: Léo Pini Magalhães 
Processando Sinais e Evidências: Desafios em Computação Forense Digital ........................................ 87 
Ewerton Almeida Silva, Anderson Rocha 
Melhoria da Atratividade de Faces em Imagem ............................................................................................ 90 
Tatiane Silvia Leite, Lucas Carrilho Pessoa, José Mario De Martino 
Detecção de Bordas e Cantos em Imagens a partir de Módulos Máximos e Direções de 
Coeficientes da Transformada Shearlet ........................................................................................................ 94 
Ricardo Dutra da Silva, Hélio Pedrini 
Implementação de um algoritmo de watershed utilizando CUDA .............................................................. 97 
André Körbes, Giovani Bernardes Vitor, Roberto de Alencar LotufoProcessamento e análise de Imagens de Tensores de Difusão ................................................................. 100 
Leticia Rittner, Roberto A. Lotufo 
On The Adaptive Coefficient Scanning of JPEG XR / HD Photo ................................................................. 103 
Vanessa Testoni, Max H. M. Costa, Darko Kirovski, Henrique S. Malvar 
Desenvolvimento de uma interface virtual tátil para controle de acesso em áreas restritas .................. 106 
Frank C. Cabello, Yuzo Iano 
 
Sessão 9: Processamento de Sinais Biomédicos 
Chair: Prof. José W. M. Bassani 
Pré-processamento de imagens de difusão do cérebro no ambiente Adessowiki .................................. 109 
Luiz F. S. Wetzel, Leticia Rittner, Roberto Lotufo 
Compressão de sinais ECG com métodos de Compressed Sensing ........................................................ 112 
A. K. Takahata, C. M. Agulhari, L. T. Duarte, R. R. Lopes, P. L. D. Peres, J. M. T. Romano 
Identificação Automática de Lupus Eritematoso Discóide ......................................................................... 115 
Kesede, R Julio, Lee, Luan L., Bassani, J.W.M 
Pitfalls in the definition of the epileptogenic zone in ictal EEG and functional MRI ................................ 118 
Guilherme C. Beltramini, Ana C. Coan, Fernando Cendes, Roberto J. M. Covolan 
 
 
 
 
 
 
Sistema de Reconhecimento de Locutor Baseado em Mistura de Gaussianas 
Diana C. Gonzalez, Lee Luan Ling e Fábio Violaro 
DECOM - Departamento de Comunicações 
 Faculdade de Eng. Elétrica e de Computação 
Universidade Estadual de Campinas (Unicamp) 
 
dianigon@decom.fee.unicamp.br; lee@decom.fee.unicamp.br; fabio@decom.fee.unicamp.br 
 
RESUMO 
 
Este projeto de pesquisa propõe a implementação de um sistema básico de reconhecimento de locutor 
empregando coeficientes Mel-cepstrais e mistura de gaussianas (GMM). A partir do desempenho desse 
sistema básico, se passará em seguida a investigar novos parâmetros característicos do sinal de fala que 
exploram seu grau de singularidade, como é o caso do expoente Holder. 
Palavras-chave: Reconhecimento de locutor, GMM, Mel-cepstral, Holder. 
1. Introdução 
Nas últimas décadas, os sistemas biométricos baseados em reconhecimento de fala têm tido uma 
excelente aceitação, por serem métodos econômicos para resolver problemas de autorização/senha. Como 
sugere [1], a combinação da anatomia inerente ao trato vocal e dos hábitos usados pelos diferentes 
indivíduos, torna o sistema de reconhecimento de locutor um método bastante eficaz. Os sistemas de 
reconhecimento de locutor são classificados usualmente em duas categorias, identificação e verificação. 
No sistema de identificação de locutor, o usuário não fornece nenhuma informação sobre sua identidade, 
e assim o sistema fica responsável por determinar quem é o locutor, dentro de um grupo de N indivíduos. 
Por outro lado, no sistema de verificação, o locutor fornece sua identidade (senha específica) e o sistema 
decide aceitar ou recusar o usuário, dependendo da comparação com o seu padrão armazenado. Este 
trabalho está enfocado no desenvolvimento de um sistema de identificação de locutor independente do 
texto, onde os usuários são treinados e testados com frases diferentes. 
Basicamente um sistema de identificação de locutor é composto por 3 módulos: aquisição do sinal digital, 
extração de parâmetros e comparação com um modelo (pattern matching). 
2. Projeto do sistema 
O projeto do sistema básico é desenvolvido em duas etapas. A primeira é a extração dos coeficientes Mel-
cepstrais a partir de um banco de filtros na escala Mel, seguido do cálculo da DCT do logaritmo da 
energia na saída de cada filtro. Na segunda etapa o classificador será implementado como uma mistura de 
gaussianas multidimensionais (HMM) para modelar a distribuição estatística desses coeficientes gerados 
na fase de treinamento. A partir dos resultados (taxa de reconhecimento) obtidos com esse sistema básico, 
se passará para a experimentação de novos parâmetros, isoladamente ou combinados com os Mel-
cepstrais. Inclusive se pretende fazer alguns testes com o Expoente Holder. Essa idéia decorre da teoria 
apresentada em The Fractal Geometry of Nature [2], onde Mandelbrot mostra que alguns fenômenos 
naturais podem ser modelados por parâmetros como auto-similaridade, correlação e séries temporais. 
 
2.1 Implementação do sistema clássico 
Extração dos parâmetros 
O sinal de fala sofre inicialmente uma pré-ênfase, é janelado por uma janela de Hamming de 20 ms que é 
deslocada de 10 em 10 ms. A partir do sinal janelado são calculados os coeficientes Mel-cepstrais. 
Atualmente o sistema opera com 13 coeficientes Mel-cepstrais. Embora o coeficiente de ordem zero do 
Sessão 1 - Processamento de Sinais de Voz
Anais do I SPS UNICAMP Outubro de 2010 1
vetor não seja usado com parâmetro, ele contém uma informação sobre a energia do sinal, o que permite 
determinar e suprimir silêncios presentes no sinal. 
 
 Construção de modelo 
Para a geração do modelo de cada locutor foi usado um mistura de gaussianas λ, a qual é parametrizada 
por um vetor de médias u, uma matriz de covariância Σ e um vetor de pesos das gaussianas w [3], 
 (1) 
 
onde M é o número de componentes gaussianas e a mistura é formada pela soma ponderada de M 
densidades gaussianas dada pela equação (2), 
 
 (2) 
 
onde x é o vetor de parâmetros de entrada de dimensão D, bi(x) são as densidades gaussianas de cada 
componente da mistura (equação 3) e pi é o peso de cada mistura, com a somatória dos M coeficientes pi 
igual a 1. Em nosso modelo empregamos matriz de covariância Σ diagonal (componentes independentes 
entre si). 
 (3) 
Após a especificação de parâmetros iniciais do modelo empregando a técnica K-means, um algoritmo 
iterativo é empregado para reestimar os parâmetros visando uma maximização da verossimilhança 
(Maximum Likelihood – ML) frente aos dados de treinamento[4]. 
 
 Identificação do locutor 
No processo de treinamento o sistema gera um modelo (λ1, λ2, λ3... λN) para cada um dos N locutores. No 
processo de teste ou avaliação, o sistema recebe novas locuções pertencentes a qualquer um dos locutores 
treinados e, após submeter seus parâmetros a cada um dos modelos, procura o modelo que assegura a 
máxima verossimilhança. 
 
Base de dados 
Para a avaliação do sistema de reconhecimento de locutor foram usadas duas bases de fala criadas 
originalmente por Carlos Alberto Ynoguti no Laboratório de Processamento Digital de Fala do 
DECOM/FEEC/UINICAMP para aplicação em reconhecimento de fala. 
 
A primeira base é composta por sinais de fala de 71 locutores (50 homens e 21 mulheres) 
digitalizados a 22,05 kHz com 16 bits/amostra. O treinamento foi feito com 20 locuções de cada locutor, 
com aproximadamente 90 s de duração total. O sistema foi testado usando 10 locuções de cada locutor, 
cada uma com duração variável entre 2,5 s e 7 s. 
 
A segunda base foi implementada com uma freqüência de amostragem de 11,025 kHz e é constituída 
por 30 locutores, 15 homens e 15 mulheres. Cada locutor leu um total de 40 frases foneticamente 
balanceadas com uma duração total aproximada de 70 s. Dessas 40 frases, 30 foram usadas para o 
treinamento e as 10 restantes para teste do sistema. 
 
Análises de resultados 
Para a avaliação experimental tem-se projetado diferentes testes usando as bases de dados, nos quais os 
parâmetros envolvidos no sistema (número de gaussianas na mistura, deslocamento das janelas, etc.) são 
Sessão 1 - Processamento de Sinais de Voz
Anais do I SPS UNICAMP Outubro de 2010 2
modificados para determinar uma configuração adequada, que melhore o desempenho do sistema, tanto 
em esforço computacional como em eficiência. 
No modelamento de cada locutor foram empregadas misturas de 5 gaussianas de dimensão 12. O 
primeiro parâmetro testado foi o deslocamento de janela, que vai definir o número de vetores 
(coeficientes Mel-cepstrais) extraídosde cada locução. A Tabela 1 mostra a percentagem de identificação 
correta em função desse deslocamento. Note que o deslocamento de 10 ms assegurou um melhor 
desempenho. 
 
Deslocamento 
das janelas 
Ordem do 
modelo 
Base de dados 
5 ms 10 ms 
Primeira 90 seg 98,59 99,01 M=5 
Segunda 70 seg 98,7 98,7 
Tabela 1. Desempenho do sistema com diferentes 
deslocamentos das janelas. 
 
A Tabela 2 apresenta a percentagem de identificação correta, empregando-se misturas com 3, 5 e 8 
gaussianas (ordem do modelo). Observa-se que o desempenho do sistema incrementa ao se aumentar o 
número de gaussianas. Deve-se destacar, entretanto, que o número de gaussianas não pode aumentar 
indefinidamente, uma vez que uma quantidade maior de parâmetros demanda uma quantidade maior de 
fala para o seu correto treinamento. 
 
Ordem do modelo Base de dados 
M=3 M=5 M=8 
Primeira 90 seg 90,2 99,01 99,5 
Segunda 75 seg 94 98,7 99,7 
Tabela 2. Desempenho do sistema de reconhecimento com 
diferentes ordens do modelo. 
 
2.2 Trabalho futuro 
 
A partir dos resultados obtidos com o desenvolvimento deste sistema básico, se partirá para a inserção de 
parâmetros adicionais baseados no conceito de grau de singularidade do sinal de fala de cada locutor, 
como é o caso do expoente Holder. Para tal algumas tarefas serão realizadas, tais como: 
- Verificar a natureza do sinal de fala e determinar se ele pode ser caracterizado como um sinal 
multiescalar ou multifractal. 
- Determinar os parâmetros e os critérios de avaliação, para aplicar a função Expoente Holder. 
- Fazer um estudo aprofundado da função do Expoente Holder como índice de medição de 
singularidade nos sinais de fala. 
- Analisar um sistema de reconhecimento de locutor, combinando os parâmetros tradicionais 
(coeficientes Mel-cepstrais) com o expoente Holder. 
3. Referências 
[1] J. Campell, Speaker Recognition: A Tutorial, Proceeding of the IEEE, vol.85, no 9, 1998. 
[2] B.B. Mandelbrot, The Fractal Geometry of Nature, W. H. Freeman, 1982. 
[3] Douglas A. Reynolds and Richard C. Rose, Robust Text-Independent Speaker Identification Using 
Mixture Speaker Model, IEEE Trans. Speech Audio Processing, vol. 3, no 1, pp.72-82, Jan. 1995. 
[4] K. V. Mardia, J. T. Kent and J. M. Bibby, Multivariate Analysis. San Diego: Academic Press, Series 
of Monographs and Textbooks. 
Sessão 1 - Processamento de Sinais de Voz
Anais do I SPS UNICAMP Outubro de 2010 3
Estimação de parciais em sinais acústicos harmônicos
Tiago Fernandes Tavares1 , Jayme Garcia Arnal Barbedo2 , Romis Attux3 , Amauri Lopes4
Departamento de Computação e Automação Industrial1,3 e Departamento de Telecomunicações2,4
Faculdade de Engenharia Elétrica e Computação
Universidade Estadual de Campinas (Unicamp)
{tavares1,attux3}@dca.fee.unicamp.br, {jgab2,amauri4}@decom.fee.unicamp.br
Resumo – Estimar parciais em sinais acústicos significa encontrar quais componentes de freqüência formam
os sons harmônicos que foram misturados para gerar o sinal em questão. Neste trabalho, um conjunto de regras,
desenvolvidas de acordo com modelos físicos e auditivos conhecidos, é aplicado a quadros de áudio, buscando assim
encontrar as freqüências e amplitudes das parciais existentes. O conjunto de regras proposto é testado sobre uma
base de dados construída sobre amostras de gravações acústicas.
Palavras-chave: Áudio, estimação, freqüência, parcial, harmônica.
1. Introdução
Sinais acústicos estacionários são comumente descritos como uma somatória de sinais senoidais com
freqüências harmonicamente relacionadas, por modelos já bem conhecidos e estudados [1, 2]. A ampli-
tude e freqüência de cada uma das componentes harmônicas presentes em um sinal é informação valiosa
em diversos processos cognitivos relacionados a áudio, como a estimação da freqüência fundamental (F0)
de uma série harmônica [3] ou a estimação do número de fontes presentes em um sinal [4]. Apesar disso,
é sabido que, quando sons provenientes de diferentes fontes (ou seja, diferentes notas musicais) se mis-
turam, torna-se mais difícil estimar quais são as freqüências das parciais harmônicas existentes [5]. Por
esse motivo, métodos que confiam na estimação de parciais ou são limitados [3] ou dependem de esforços
computacionais intensos [4].
Neste trabalho, propõe-se a aplicação de um conjunto de regras para a identificação das parciais existen-
tes e estimação de suas freqüências em um dado sinal de áudio. Hipóteses contidas em uma etapa inicial de
estimação são confirmadas e eliminadas através da aplicação explícita de conhecimentos sobre a natureza
do sinal analisado.
O trabalho se organiza como descrito a seguir. A base de dados empregada e as medidas utilizadas
para avaliação dos resultados são descritas na Seção 2. As regras aplicadas, assim como seus fundamentos
físicos e os resultados de suas aplicações, são apresentadas na Seção 3. Por fim, a conclusão do trabalho e
as perspectivas futuras são descritas na Seção 4.
2. Métodos empregados
A base de dados utilizada para testes foi construída a partir de amostras disponibilizadas pela Universidade
de Iowa [6]. Um sistema automático escolhe aleatoriamente um quadro de 93 ms de qualquer uma das
amostras e então aplica dois métodos para detecção de sua freqüência fundamental [3, 7]. Se os dois méto-
dos indicam freqüências fundamentais com diferença inferior a 2.93% (equivalente à metade da diferença
de freqüências entre duas notas consecutivas na escala temperada), então o quadro é ajustado para que tenha
média zero e variância unitária e é adicionado à mistura, tomando-se o cuidado de não se adicionar sons
com freqüências fundamentais correspondentes à mesma nota. Utilizando esse processo, foram construídas
quatro mil misturas, igualmente distribuídas entre misturas de um, dois, quatro e seis tons.
O sistema de detecção de parciais construído deve fornecer uma lista de valores de freqüência corres-
pondentes às parciais harmônicas do sinal. Os resultados são avaliados em função do número de falsos
positivos e falsos negativos obtidos.
Um falso positivo é uma harmônica que, considerando um erro de 2.93%, não faz parte da série harmô-
nica de nenhuma freqüência fundamental presente no sinal. Para essa avaliação, considera-se um limite de
Sessão 1 - Processamento de Sinais de Voz
Anais do I SPS UNICAMP Outubro de 2010 4
7 harmônicas na série, uma vez que, a partir desse número, a diferença de freqüências passa a ser inferior
ao erro de 2.93% considerado.
Falsos negativos são registrados em um vetor de 7 posições, no qual o valor em cada posição m é
a fração de freqüências fundamentais para as quais quais foram detectados menos que m parciais de
alguma série harmônica (em relação ao total de F0s no conjunto de testes, 13000). Assim, um vetor
fn = [10%, 0, 0, 0, 0, 0, 0] significa que em 10% das F0s presentes no conjunto de testes nenhuma par-
cial foi encontrada.
Novas regras foram desenvolvidas buscando reduzir o número de falsos positivos, sem que isso leve a
um aumento significativo no número de falsos negativos, como será visto a seguir.
3. Conjuntos de regras
Cada uma das regras utilizada no sistema foi desenvolvida com o objetivo de aplicar, explicitamente, co-
nhecimento prévio sobre o comportamento esperado do sinal. Após a aplicação de cada regras, avalia-se o
vetor de falsos negativos fn e o número total de falsos positivos fp considerando as quatro bases de dado
em conjunto.
3.1. Regra dos máximos locais com restrição de freqüências
A presença de uma parcial pode ser indicada pela existência de um máximo local no espectro do sinal
analisado. Parciais abaixo de 55 Hz são ignoradas, uma vez que raramente são encontradas notas musicais
cuja freqüência fundamental seja abaixo desse valor [2]. Parciais acima de 10 kHz também são ignoradas
pois, acima dessa freqüência, a capacidade humana de distinguir tons é prejudicada [1]. Após obter todas
os máximos locais no alcance esperado, temos:
• fn = [0, 0, 0, 0, 0.56%, 1.81%],
• fp = 826451.
É importante perceberque, nesta etapa, ao menos três parciais de cada um dos sons existentes foram
encontradas, embora haja grande número de falsos positivos.
3.2. Regra da concentração de energia em freqüências esperadas
Supõe-se que o sinal contém misturas de notas musicais que estejam afinadas de acordo com uma certa
escala, o que significa que suas parciais também estarão em posições conhecidas. Assim, varrendo-se
cada tom da escala, apenas o maior valor (considerando um erro possível de meio semi-tom) é mantido e
os outros picos obtidos são considerados espúrios. Como resultado, observa-se grande redução de falsos
positivos, sem que o número de falsos negativos aumente significativamente:
• fn = [0, 0.01%, 0.01%, 0.06%, 1.41%, 6.06%],
• fp = 153336.
3.3. Regra da harmonicidade
De acordo com o modelo harmônico utilizado para análise, a existência de uma parcial implica na existência
de outras. Assim, cada parcial encontrada até o momento é considerada como a fundamental, segunda
harmônica, e assim por diante, até a sétima harmônica de uma série. Para cada uma dessas considerações,
verifica-se quantas parciais da série são hipoteticamente encontradas. Apenas candidatas que fazem parte
de pelo menos uma série com no mínimo quatro parciais encontradas, considerando um erro de meio semi-
tom, são consideradas. Ao fim dessa etapa, verifica-se diminuição no número de falsos positivos, embora
isso implique num aumento do número de falsos negativos:
• fn = [0, 0.02%, 0.06%, 0.63%, 3.51%, 12.41%],
• fp = 137737.
Sessão 1 - Processamento de Sinais de Voz
Anais do I SPS UNICAMP Outubro de 2010 5
3.4. Regra da intensidade mínima
A intensidade da série harmônica de freqüência fundamental f é medida através da soma das magnitudes
das parciais, ponderadas pelo inverso de sua posição na série harmônica, ou seja, I =
∑7
m=1
1
mQ(n), onde
Q(n) é a amplitude da n-ésima parcial estimada.
A intensidade relacionada a cada parcial é a intensidade máxima de uma série harmônica com mais de
quatro elementos da qual ela faça parte, seguindo os critérios da regra da harmonicidade. Séries harmônicas
com intensidade menor que três centésimos (valor obtido heuristicamente) da soma de todas as intensidades
calculadas são descartadas. Com a aplicação dessa regra, temos os seguintes resultados:
• fn = [26.74%, 40.95%, 50.99%, 58.56%, 62.90%, 68.48%],
• fp = 9067.
Verifica-se significativa redução no número de falsos positivos, embora isso tenha levado a um aumento,
também significativo, no número de falsos negativos.
3.5. Regra da média
Picos muito salientes, por hipótese, indicam parciais que fazem parte da mistura. Todos os picos de magni-
tude superior à media das magnitudes estimadas são incluídos novamente no conjunto de hipóteses, mesmo
que tenham sido eliminados anteriormente. Essa etapa dá os resultados:
• fn = [0, 2.51%, 9.46%, 18.88%, 30.55%, 45.80%],
• fp = 13619.
Verifica-se redução significativa do número de falsos negativos, ao mesmo tempo que há um pequeno
aumento no número de falsos positivos.
4. Discussões
Com o uso das regras propostas, foi possível reduzir o número de falsos negativos da faixa de 8× 105 para
a faixa de 13× 104, o que representa uma melhoria na faixa de 85%. Apesar disso, é importante melhorar
o algoritmo proposto, de forma que os sistemas construídos tomando-o como base possam ser, também,
melhorados.
Embora o uso de amplitudes de parciais seja uma abordagem importante, durante o desenvolvimento das
regras propostas não foi encontrada uma regra que pudesse filtrar componentes cuja amplitude fosse muito
baixa, sem que isso gerasse um número excessivo de falsos negativos. Também, não foi possível encontrar
uma regra que pudesse ser aplicada sobre o formato dos picos encontrados. Assim, o trabalho demanda a
busca por regras de classificação mais eficazes.
É possível que melhores soluções sejam encontradas combinando-se métodos heurísticos, que utilizam
explicitamente modelos físicos relacionados a instrumentos musicais, com métodos de inteligência compu-
tacional, que buscam obter classificadores ótimos para problemas genéricos.
Referências
[1] Helmholtz, H. On the Sensation of Tone. Dover Publications Inc., 4 edition, 1885.
[2] Olson, H. F. Music, Physics and Engineering. Dover Publications Inc., 2 edition, 1967.
[3] Mitre, A., Queiroz, M., and Faria, R. R. A. Accurate and Efficient Fundamental Frequency Determina-
tion from Precise Partial Estimates. In Proceedings of the 4th AES Brazil Conference, pages 113–118,
May 2006.
[4] Barbedo, J., Lopes, A., and Wolfe, P. J. Empirical methods to determine the number of sources in single-
channel musical signals. Audio, Speech, and Language Processing, IEEE Transactions on, 17(7):1435–
1444, 2009.
[5] Oppenheim, A. V., Schafer, R. W., and Buck, J. R. Discrete-time signal processing. Prentice Hall Inc.,
2 edition, 1999.
[6] University of Iowa. Musical Instrument Samples. "http://theremin.music.uiowa.edu/MIS.html", 2005.
[7] Cheveigné, A. and Kawahara, H. YIN, a fundamental frequency estimator for speech and music. J.
Accoust. Soc. Am., 111(4):1917–1930, April 2002.
Sessão 1 - Processamento de Sinais de Voz
Anais do I SPS UNICAMP Outubro de 2010 6
Processamento e manipulação de efeitos sonoros através de Transformada 
Wavelet Packet
Bruno Novaes Silva, Rafael Santos Mendes (Orientador)
DCA
Faculdade de Engenharia Elétrica e de Computação
Universidade Estadual de Campinas (Unicamp)
bruno.no.silva@gmail.com,rafael@dca.fee.unicamp.br
Resumo
No trabalho é proposto um novo método para efeitos sonoros menos repetitivos nos videogames. 
Preservando as características principais do som, o método o manipula baseado na Transformada 
Wavelet Packets do sinal digital. Os coeficientes da transformada formam uma matriz de 
coeficientes onde as linhas representam divisões na frequência e as colunas, divisões no tempo. É 
possível fazer manipulações nos espectros temporal e frequencial, derivando sons diferentes, ou 
embaralhados no tempo, gerando texturas sonoras contínuas. A matriz de coeficientes pode ser 
manipulada de três formas principais: alterando o valor dos coeficientes, alterando-se o tamanho da 
matriz ou a posição dos coeficientes. Para a primeira forma, podemos mudar o espectro da onda, 
como um equalizador. Alterando-se o tamanho da matriz e fazendo uma reamostragem dos 
coeficientes no tempo, podemos fazer o som mais longo ou mais curto. Alterando-se a posição dos 
coeficientes no tempo é possível inverter o som, embaralhá-lo ou mesmo sintetizar um textura 
sonora contínua a partir de um sample base desta textura.
Sessão 1 - Processamento de Sinais de Voz
Anais do I SPS UNICAMP Outubro de 2010 7
Support Vector Machine em Aplicações de Processamento de Sinais
Gilson Ronchi , Munemasa Machida (Orientador)
Departamento de Eletrônica Quântica
Instituto de Física “Gleb Wataghin”
Universidade Estadual de Campinas (Unicamp)
g061123@dac.unicamp.br,machida@ifi.unicamp.br
Resumo
O Support Vector Machine (SVM) é uma método de aprendizado de máquina supervisionado desenvolvida
por Vapnik e que, devido a sua habilidade de generalização, possui uma vasta gama de aplicações em pro-
blemas de classificação. Sua boa eficiência em problemas de alta dimensionalidade faz com que seja uma
técnica aplicável em problemas de visão computacional, como no reconhecimento de padrões e filtragem,
embora seja utilizada também em bioinformática, classificação textual e regressão não-linear. Neste tra-
balho introduzimos a teoria envolvida no SVM e realizamos um review de algumas aplicações recentes
desse método em processamento de sinais, particularmente em sinais biomédicos como eletrocardiogramas
(para diagnóstico de doenças cardíacas) e na fala humana.
Sessão 2 - Inteligência Computacional
Anais do I SPS UNICAMP Outubro de 2010 8
BSS para grande quantidade de fontes 
Everton Z. Nadalin1, Ricardo Suyama2, Romis Attux1 
1 – Departamento de Engenharia de Computação e Automação Industrial (DCA) 
Faculdade de Engenharia Elétrica e de Computação (FEEC)Universidade Estadual de Campinas (Unicamp) 
2 – Universidade Federal do ABC (UFABC) 
 
{nadalin,attux}@dca.fee.unicamp.br,ricardo.suyama@ufabc.edu.br 
 
Resumo – Neste trabalho, apresentamos uma breve revisão do problema de separação cega de fontes e de dois 
métodos para resolvê-lo: a clássica abordagem de análise de componentes independentes (ICA) e a mais recente 
metodologia de análise de componentes esparsos. Em seguida, são apresentadas algumas características de 
problemas de separação definidos no contexto de uma grande quantidade de fontes e das dificuldades associadas 
ao uso de técnicas de separação nesse contexto, com ênfase no uso da característica de esparsidade. 
 
Palavras-chave: separação cega de fontes, análise de componentes independentes (ICA), análise de 
componentes esparsos (SCA). 
1. Int rodução 
Na área de processamento de sinais, vêm merecendo significativo destaque os problemas relacionados 
ao tratamento cego ou não-supervisionado, entre os quais se encontra aquele que recebe o nome de 
Separação Cega de Fontes (BSS – Blind Source Separation) [1]. O um problema que ilustra muito 
bem a tarefa de BSS é o chamado cocktail part problem: numa sala com várias pessoas falando e 
vários microfones instalados em lugares aleatórios, o intuito é conseguir separar o sinal de voz de 
cada pessoa tendo acesso somente aos sinais dos microfones. 
 
2. Separação Cega de Fontes 
A priori, o conceito de separação de fontes de forma cega implicaria em nenhum conhecimento das 
fontes ou do sistema de mistura, o que tornaria a tarefa de processamento matematicamente 
impossível. Na prática, adotam-se suposições consideradas plausíveis e tão pouco restritivas quanto 
possível, como: as fontes foram geradas de forma independente; há menos fontes do que misturas; o 
sistema de mistura é invariante no tempo. Para cada suposição feita, existe um leque de técnicas que 
podem ser consideradas mais ou menos adequadas ao caso. 
2.1. Análise de Componentes Independentes (ICA) 
Dentre as técnicas utilizadas para abordar o problema de separação de fontes, a mais popular é a 
análise de componentes independentes (ICA – Independet Component Analysis) [2], que, tomando os 
sinais misturados, procura encontrar uma matriz que os torne tão mutuamente independentes quanto 
possível. Neste caso, se as fontes que geraram as misturas forem independentes e a matriz de mistura 
for inversível, o processo levará a uma efetiva separação. 
O problema pode ser descrito como mostra a Figura 1: são dadas N fontes s(t) desconhecidas e M 
medidas x(t) obtidas através dos sensores, a partir das fontes, por meio de um canal modelado como 
uma matriz A. O intuito é encontrar sinais y(t) que sejam estimativas de s(t) a partir da aplicação de 
uma matriz W ao vetor de misturas x(t). 
 
Sessão 2 - Inteligência Computacional
Anais do I SPS UNICAMP Outubro de 2010 9
 
Figura 1. Cenário clássico de separação de fontes 
 
2.2. Análise de Componentes Esparsos (SCA) 
Uma limitação fundamental da técnica de ICA é que seu funcionamento é garantido apenas se o 
número de fontes for menor ou igual ao número de sensores. Em boa parte dos casos práticos, o 
número de fontes é maior do que o número de sensores – e.g. pelo fato de a mistura conter ruído – e, 
ademais, pode-se não ter certeza do número de fontes presentes na mistura. 
Em casos como estes, se as fontes são esparsas, ou seja, com várias regiões de “silêncio”, 
podemos supor que nem todas as fontes estão ativas ao mesmo tempo. Desta forma, o sistema 
chamado subparametrizado passa a se tornar localmente determinado: decorre dessa idéia a noção de 
Análise de Componentes Esparsos (SCA – Sparse Component Analysis) [3]. 
A idéia principal de SCA é encontrar alguma transformada linear que gere uma representação 
suficientemente esparsa dos dados, ou seja, na qual a maior parte dos coeficientes possua valor nulo 
ou próximo de zero. Se, nesta representação, pudermos garantir que, em cada instante, o número de 
fontes ativas não seja maior do que um determinado valor, seremos capazes de realizar a identificação 
da matriz de mistura A, ou mesmo a separação das fontes em alguns casos especiais. O caso mais 
restritivo e também um dos mais utilizados se vincula à idéia de ortogonalidade disjunta, segundo a 
qual é garantido que não existam duas ou mais fontes ativas ao mesmo tempo [4]. 
3. Problema da Grande Quantidade de Fontes 
Em diversos problemas práticos, a quantidade de fontes na mistura é da ordem de centenas a milhares. 
Nestes casos, são utilizadas matrizes com muitos sensores, mas, mesmo assim a proporção de fontes 
por sensores continua muito grande, da ordem de centenas a milhares. Como exemplos, podemos citar 
aplicações envolvendo o eletroencefalograma / interface cérebro-computador (BCI – brain-computer 
interface), processamento geofísico e ruído acústico em veículos motorizados. 
Nesse contexto, há diversos problemas que causam dificuldades à maioria das técnicas existentes, 
como: 
− não é sempre possível determinar com clareza o número de fontes: devido à natureza do 
problema, pode requerer algum esforço definir o que será considerado fonte e o que será ruído; 
− as misturas normalmente não são instantâneas, ou seja, pode haver múltiplos percursos entre as 
fontes e sensores, o que dificulta o modelamento do canal de mistura; 
− as misturas podem não ser lineares, havendo mesmo, em muitos casos, saturação tanto no 
sistema de mistura quanto nos próprios sensores; 
− em diversos casos, as fontes não são estáticas: nesse caso, o sistema de mistura é variante no 
tempo; 
− as fontes não são necessariamente independentes. 
3.1. SCA aplicada à grande quantidade de fontes 
Como dito anteriormente, uma das restrições adotadas quando aplicamos técnicas de SCA em 
separação de fontes é a chamada ortogonalidade disjunta. Porém, se avaliarmos a probabilidade de 
termos ortogonalidade disjunta numa mistura, podemos verificar que ela depende de três fatores: 
número de fontes; proporção de valores não-nulos em relação aos valores nulos dos sinais; quantidade 
de amostras do sinal. Desta forma, este valor independe do número de sensores. 
Para conseguirmos aproveitar a diversidade de informação gerada pelos sensores, temos que fazer 
uma busca que considere a existência de mais de uma fonte ativa em cada instante: dessa forma, a 
A W
s1
s2
sN
x1
x2
xM yN
y1
y2
.
.
.
.
.
.
.
.
.
Sessão 2 - Inteligência Computacional
Anais do I SPS UNICAMP Outubro de 2010 10
procura é feita em mais dimensões, limitadas pelo tamanho da dimensão do espaço gerado pelos 
sensores, ou seja, M. Assim, deixamos de procurar por apenas um vetor da matriz de mistura por vez, 
como tradicionalmente é feito [5]. 
Para tanto, é preciso considerar o espaço gerado pelas misturas como sendo um subespaço das 
fontes. Sabemos que, se a mistura tem mais fontes do que sensores, o espaço das fontes é maior e o 
algoritmo visará somente procurar por projeções das fontes tendo por limite a dimensão gerada no 
espaço das misturas. Porém, sabemos que as fontes são esparsas e, desta forma, nem todas elas estão 
ativas ao mesmo tempo. Portanto, se considerarmos que, para cada instante, o espaço das fontes ativas 
não é maior do que o das misturas, é possível encontrar todas as direções destas fontes ativas. Desse 
modo, o espaço das fontes ativas será projetado no subespaço gerado pelas misturas, e o espaço das 
fontes inativas será projetado num espaço nulo. [6] 
4. Conclusões e sugestões de trabalhos futuros 
Atualmente, acredita-se que, para solucionar o problema de grandes quantidades de fontes, é 
necessário explorar a esparsidade dos sinais, e, para isto, parece ser necessário avançar nos estudos 
relacionados à procura por projeções das fontes nos subespaços gerados pelos sensores. Sem isto, a 
diversidade gerada pelos sensores acaba não sendo tão explorada e, conseqüentemente, o universo de 
problemas solucionáveis acaba sendo bem restringido. 
Como sugestão de trabalhosfuturos, pretendemos estudar melhor a questão da probabilidade de 
haver mais de uma fonte ativa em cada instante e sua relação com a procura por projeções das fontes. 
Além disto, pretendemos também relacionar os casos de separação de fontes usando esparsidade com 
Compressive Sensing [7], técnica que atualmente só é utilizada com uma fonte e um sensor. 
Referências 
 
[1] Hyvärinen, A., Karhunen, J., Oja, E.: Independent Component Analysis. John Wiley & Sons, 
New-York (2001) 
[2] Comon, P.: Independent component analysis, A new concept?: Signal Processing, vol. 36, pp. 
287-314, 1994 
[3] Bofill, P., Zibulevsky, M.: Underdetermined blind source separation using sparse representations. 
Signal Processing. 81, 2353--2363 (2001) 
[4] Rickard, S., “Sparse sources are separated sources”, em Proceedings of the 16th Annual European 
Signal Processing Conference, Florença, Italia, 2006 
[5] Nadalin, E.Z., Takahata, A.K., Duarte, L.T., Suyama, R. Attux, R.: Blind Extraction of the 
Sparsest Component. In: In Proceedings of the 9th international Conference on Independent 
Component Analysis and Signal Separation , Saint-Malo, França, 2010. 
[6] Kim, S.; Yoo, C.D., "Underdetermined Blind Source Separation Based on Subspace 
Representation," Signal Processing, IEEE Transactions on, vol.57, no.7, pp.2604-2614, Julho 
2009. 
[7] Candès, E. J., Wakin, M. B., “An Introdution to Compressive Sampling”, IEEE Signal Processing 
Magazine, vol. 25, pp. 21-30, Março 2008 
Sessão 2 - Inteligência Computacional
Anais do I SPS UNICAMP Outubro de 2010 11
Aprendizado Baseado em Teoria da Informação: Fundamentos e
Perspectivas
Daniel G. Silva , Romis Attux
Departamento de Engenharia de Computação e Automação Industrial
Faculdade de Engenharia Elétrica e de Computação
Universidade Estadual de Campinas (Unicamp)
danielgs@dca.fee.unicamp.br, attux@dca.fee.unicamp.br
Resumo – Este artigo apresenta brevemente a nova área de pesquisa denominada Aprendizado Baseado em
Teoria da Informação ouInformation Theoretic Learning, que se baseia no uso de estatísticas que sejam mais
informativas em comparação com aquelas subjacentes aos tradicionais algoritmos adaptativos com critérios de
segunda ordem. Além da motivação e definição desta nova área, alguns exemplos de aplicações e oportunidades de
estudo são apresentados.
Palavras-chave: aprendizado, teoria da informação, ITL, algoritmos adaptativos.
1. Introdução
Os algoritmos de aprendizado se caracterizam por realizarem o ajuste de parâmetros através da otimização
de um critério que indique o desempenho do modelo frente aos dados apresentados. Ao longo dos anos, um
critério que vem sendo largamente utilizado para essa tarefa baseia-se em estatísticas de segunda ordem,
como o erro quadrático médio entre o sinal de saída do mapeador e um sinal de referência.
Há diversas razões para o uso de um critério baseado no segundo momento dos dados. Entre elas,
podem-se destacar [3, 12]: (i) é simples de usar; (ii) possui o significado físico de ser uma medida de
energia do sinal em questão; (iii) é um critério com propriedades interessantes no contexto de otimização,
como diferenciabilidade e simetria; (iv) é muito bem sucedido na solução de problemas pertencentes ao
domínio linear-gaussiano e (v) origina uma enorme variedade de algoritmos adaptativos.
Por outro lado, sabendo que é ideal extrair o máximo de informação dos dados durante a adaptação dos
parâmetros, há evidências que indicam que o segundo momento é uma medida pobre para essa tarefa de
avaliar a equivalência de informação entre o sinal desejado e a saída do mapeador [6]. Além disso, o atual
avanço da capacidade computacional e o estudo de problemas mais complexos em processamento de sinais
levam-nos a cenários onde esta tradicional família de critérios pode não ser a mais satisfatória.
A Teoria da Informação (TI), desenvolvida a partir de 1948 por Claude E. Shannon [9], lida com a quan-
tificação da incerteza e da dependência estatística em processos aleatórios, ao mesmo tempo que vincula
tais medidas ao conceito de informação. Esta área do conhecimento contribuiu em parte com o enorme
desenvolvimento dos sistemas de comunicação daquela época até hoje.
Através do trabalho pioneiro de Principe et al., de 2000, que define o Aprendizado Baseado em Teoria da
Informação ouInformation Theoretic Learning (ITL) [6], surge então no estudo dos algoritmos adaptativos
o interesse pelo uso de critérios derivados a partir de TI e que permitiriam superar as limitações das estatís-
ticas de segunda ordem. Nas próximas seções, resumem-se brevemente os passos dados pela pesquisa em
ITL até a atualidade e busca-se apontar caminhos para novas contribuições, as quais serão alvo do trabalho
de doutorado do autor.
2. Entropia e Informação Mútua
Entropia é o conceito primordial no estudo de TI e indica o grau de incerteza médio associado a uma
determinada variável aleatória, contínua ou discreta. Para o caso contínuo, define-se a entropia diferencial
de uma variável aleatória contínuaX como
Hs(x) = −
∫
p(x)ln[p(x)]dx = E{−ln[p(x)]}, (1)
Sessão 2 - Inteligência Computacional
Anais do I SPS UNICAMP Outubro de 2010 12
ondep(x) é a função densidade de probabilidade de X. Outro conceito fundamental é o de Informação
Mútua entre duas variáveis aleatórias, X e Y, contínuas:
Is(x, y) =
∫ ∫
p(x, y)ln
[
p(x, y)
p(x)p(y)
]
dxdy, (2)
ondep(x, y) é função densidade de probabilidade conjunta ep(x), p(y) são as funções de densidade mar-
ginais. A entropia pode ser vista como uma generalização da variância para processos com distribuições
não-gaussianas, enquanto a informação mútua é uma medida de independência entre as variáveis, generali-
zando o conceito de correlação [3]. Dadas estas definições, ITL é a otimização não-paramétrica de sistemas
adaptativos através do uso de critérios de desempenho baseados em TI, como a Entropia, a Informação
Mútua e outros [1].
3. Aplicações de ITL
Há diversas formulações de critérios baseados em TI para solucionar problemas de aprendizado supervi-
sionado e não-supervisionado. Para o primeiro caso considere, por exemplo, uma máquina que realiza o
mapeamentof(x,w) = y de dados de um vetor entradax para uma saíday e que tem o conjunto de parâ-
metrosw ajustados de tal forma quey se “aproxime” ao máximo da saídad desejada, o que, no contexto de
TI, é tentar aproximar a distribuição conjuntapw(x, d) da distribuiçãop(x, d). É possível demonstrar que,
no contexto de identificação de sistemas, isto ocorre se for solucionado o problema de minimizar a entropia
do sinal de erroe = d− y [2]:
minw Hs(e) = −
∫
pw(e)ln[pw(e)]de. (3)
Já em um problema de aprendizado não-supervisionado, pode-se utilizar o princípio de máxima transfe-
rência de informação (InfoMax), que consiste em maximizar com respeito aw a informação mútua entre o
sinal de entrada do mapeador (x) e o sinal de saída (y) [3]. Outra abordagem, utilizada no contexto de aná-
lise de componentes independentes, é a de minimizar a informação mútua entre os componentes da saída
do modelo.
Identificação de sistemas não-lineares [2], separação cega de fontes [4], extração de características [10]
e clusterização [5] são exemplos de problemas com aplicação de algoritmos baseados nas formulações
apresentadas e em outras formulações de critérios baseados em TI.
4. Estimadores
Dado que, nos problemas de aprendizado de máquina, há uma amostra finita de dados para treinamento e
geralmente não se conhece sua distribuição, uma questão crucial para derivar o algoritmo de adaptação em
ITL é que se utilizem estimadores das distribuições e da entropia (ou outra medida associada a TI).
Os principais trabalhos nesse sentido utilizam o método de janela de Parzen para estimar a distribuição
dos dados, o qual consiste de aproximar a distribuição por uma soma de funçõesKernel centradas nas
amostras. Quanto ao cálculo do critério de otimização, os trabalhos de maior destaque na comunidade
utilizam a definição de entropia de Renyi [7] para propor um estimadoruniversal de entropia que permite
aplicar algoritmos de otimização dos parâmetros com busca pelo gradiente [1].
A entropia de Renyi pode ser vista como um caso geral da entropia de Shannon e até então mostra-se
mais simples, comα = 2, para derivação de um estimador eficiente computacionalmente. Todavia, além
da eficiência e dos bons resultados empíricos, ainda não há argumentos teóricos que justifiquem a escolha
da entropia de Renyi em detrimento da definição clássica de Shannon ou de outras definições alternativas.
Por isso também existem trabalhos que derivam estimadores baseados na entropia de Shannon e apre-
sentam aplicações práticas [8, 11], embora ainda representem uma menor parcela dentro dos resultados
práticos de ITL.
Sessão 2 - Inteligência Computacional
Anais do I SPS UNICAMP Outubro de 2010 13
5. Conclusões
O AprendizadoBaseado em Teoria da Informação é uma área de pesquisa bastante nova e que já apresenta
resultados promissores, extrapolando o paradigma da otimização pelo erro quadrático médio ou por outras
estatísticas de segunda ordem como a variância e correlação.
Problemas de natureza não-linear e com distribuição dos dados não obrigatoriamente gaussiana podem
atualmente ser abordados por ITL de uma forma mais robusta. Mas por ser um campo de estudo novo,
muitas questões ainda permanecem em aberto e assim fornecem oportunidades para contribuições:
• Não há um consenso sobre qual é a melhor abordagem para cálculo da entropia, se pela definição
de Shannon ou se pela generalização de Renyi, o que dá oportunidade para se estudar compara-
tivamente o desempenho de algoritmos adaptativos com os dois métodos. Além disso, precisa-se
investigar mais profundamente o motivo da escolha da definição de entropia de Renyi.
• Os algoritmos de treinamento com os estimadores de entropia até agora possuem complexidade
O(N2) em função do número de amostras, enquanto que os algoritmos clássicos de treinamento
(ex.: gradiente descendente) em batelada possuem complexidadeO(N). Logo há o desafio de apri-
morar os estimadores de entropia para ganhar eficiência computacional com garantia de precisão.
• A aplicação de ITL necessita ser ampliada para outros problemas a fim de que se saiba se o seu
uso é de fato superior frente a estatísticas de segunda ordem, seja em problemas já solucionados
ou seja em problemas de maior complexidade e que ainda não possuem soluções satisfatórias pelos
critérios tradicionais.
Este artigo apresenta de maneira bastante resumida esta nova área de pesquisa, sua definição e motiva-
ção. Para se aprofundar, são recomendadas as leituras dos trabalhos de Principe et al. [6] e Erdogmus [1, 3].
Referências
[1] D. Erdogmus. Information Theoretic Learning: Renyi’s Entropy And Its Applications To Adaptive
System Training. PhD thesis, University of Florida, 2002.
[2] D. Erdogmus and J.C. Principe. An error-entropy minimization algorithm for supervised training of
nonlinear adaptive systems.IEEE Transactions on Signal Processing, 50(7):1780 – 1786, 2002.
[3] D. Erdogmus and J.C. Principe. From linear adaptive filtering to nonlinear information processing.
IEEE Signal Processing Magazine, 23:14–33, 2006.
[4] S. Haykin, editor.Unsupervised Adaptive Filtering: Blind Source Separation. Wiley, 2000.
[5] T. Lehn-Schiøler, A. Hegde, D. Erdogmus, and J.C. Principe. Vector quantization using information
theoretic concepts.Natural Computing, 4(1):39–51, 2005.
[6] J.C. Principe, D. Xu, and J. Fisher.Information theoretic learning, chapter 7, pages 265–319. Wiley,
2000.
[7] A. Renyi. Probability Theory. North-Holland, 1970.
[8] N.N. Schraudolph. Gradient-based manipulation of nonparametric entropy estimates.IEEE Transac-
tions on Neural Networks, 15(4):828–837, 2004.
[9] C.E. Shannon. A mathematical theory of communication.Bell System Technical Journal, 27:379–423,
623–656, 1948.
[10] V. Sindhwani, S. Rakshit, D. Deodhare, D. Erdogmus, J.C. Principe, and P. Niyogi. Feature selection
in MLPs and SVMs based on maximum output information.IEEE Transactions on Neural Networks,
15(4):937–948, 2004.
[11] Paul Viola, Nicol N. Schraudolph, and Terrence J. Sejnowski. Empirical entropy manipulation for
real-world problems. InNeural Information Processing Systems 8, pages 851–857. MIT Press, 1996.
[12] Z. Wang and A.C. Bovik. Mean squared error: love it or leave it?-a new look at signal fidelity
measures.IEEE Signal Processing Magazine, 26(1):98–117, 2009.
Sessão 2 - Inteligência Computacional
Anais do I SPS UNICAMP Outubro de 2010 14
Separação Cega de Misturas com Não-Linearidade Posterior
Utilizando Estruturas Monotônicas e Computação Natural
Filipe O. Pereira1 , Leonardo T. Duarte2 , Ricardo Suyama3 , Romis Attux1 ,
João Marcos Travassos Romano2
1 - Departamento de Engenharia de Computação e Automação Industrial (DCA)
2 - Departamento de Microondas e Óptica (DMO)
3 - Universidade Federal do ABC (UFABC)
Faculdade de Engenharia Elétrica e de Computação (FEEC)
Universidade Estadual de Campinas (Unicamp)
{filipe, attux}@dca.fee.unicamp.br,{ltduarte, rsuyama, romano}@dmo.fee.unicamp.br
Resumo – Neste trabalho, investiga-se o problema de separação de fontes de misturas com não-linearidade pos-
terior (PNL) baseado na minimização da informação mútua, visto que, no modelo PNL ainda é possível recuperar
as fontes através da análise de componentes independentes (ICA). No entanto, há duas dificuldades maiores no em-
prego da ICA em modelos PNL. A primeira delas diz respeito a uma restrição sobre as funções não-lineares: a de
que elas devem ser monotônicas. O segundo problema se encontra no processo de otimização da informação mútua,
pois pode haver mínimos locais. Para lidar com o primeira problema, aplicamos três tipos distintos de estruturas
não-lineares monotônicas e, para contornar a presença de mínimos locais, empregamos um algoritmo bio-inspirado
com capacidade de busca global.
Palavras-chave: separação cega de fontes, misturas com não-linearidade posterior, estruturas monotônicas, com-
putação natural.
1. Introdução
De maneira geral, o problema de separação cega de fontes (blind source separation - BSS) consiste em re-
cuperar um conjunto de sinais denominados fontes, a partir de observações que são misturas desconhecidas
destas fontes. Primeiramente, o problema BSS foi tratado em sua versão linear, mas, em algumas situ-
ações práticas, o processo de mistura possui elementos não-lineares, o que motivou a extensão denominada
BSS não-linear [4]. Em BSS não-linear, merece destaque o modelo de mistura com não-linearidade poste-
rior (post-nonlinear - PNL) [9], pois este modelo permite o tratamento do problema de BSS via análise de
componentes independentes (Independent Component Analysis - ICA). Para efetuar a separação de misturas
PNL, adota-se tipicamente um sistema separador composto por um conjunto de não-linearidades monotôni-
cas e por uma matriz inversível. Além disso, é necessária uma função custo baseada numa métrica de in-
formação mútua, a qual pode ser dotada de múltiplos ótimos locais. Essas dificuldades evidenciam dois
problemas fundamentais de projeto: a escolha cautelosa de modelos não-lineares que sejam monotônicos e
a necessidade de técnicas capazes de realizar otimização em ambientes multimodais. Neste trabalho, é pro-
posta uma metodologia que busca lidar com ambos os problemas de uma forma tão ampla quanto possível.
Para tanto, investigamos três estruturas monotônicas: Polinômios com restrição de monotonicidade, Rede
neural monotônica de Sill [8] e Rede MLP Monotônica [5].
Para lidar com o problema de otimização da função custo, optamos pelo algoritmo CLONALG [2]. Em
todos os casos, a estimação da função custo adotada - a informação mútua - foi feita por meio de uma
metodologia baseada em estatísticas de ordem.
2. Separação de Misturas com Não-Linearidade Posterior Através de ICA
Seja s(t) = [s1(t), . . . , sN (t)]T o vetor de sinais das fontes e x(t) = [x1(t), . . . , xN (t)]T o vetor de
misturas (consideramos um número igual de misturas e fontes). Portanto,o problema de BSS é recuperar
as fontes a partir somente dos valores do vetor de misturas. No caso de misturas instantâneas e lineares - o
mais usual da literatura [4] -, matematicamente, as misturas são combinações lineares das fontes e podem
ser representadas na forma matricial:
x(t) = As(t), (1)
Sessão 2 - Inteligência Computacional
Anais do I SPS UNICAMP Outubro de 2010 15
onde A denota a matriz de misturas. Neste caso uma possibilidade natural é realizar a separação multipli-
cando o vetor por uma matriz de separação W:
y(t) = Wx(t). (2)
A aplicação de ICA ao problema de separação se liga à ideia de escolher W de modo que os elementos
de y(t) sejam estatisticamente independentes [4]. Quando é estruturalmente possível inverter a mistura,
isso leva à recuperação das fontes a menos de ambiguidades de permutação e fator de escala [1].
A extensão para o caso post-nonlinear, ilustrado na Fig.1, leva ao seguinte modelo de mistura [9]:
x(t) = f(As(t)), (3)
onde f(·) = [f1(·), . . . , fN (·)]T corresponde a um conjunto de não-linearidades inversíveis e sem memória.
A matriz A também deve ser inversível para que a separação seja viável. Um candidato natural a sistema
separador nesse caso é:
y(t) = Wg(x(t)), (4)
onde g(·) = [g1(·), . . . , gN (·)]T são funções não-lineares que devem ser corretamente ajustadas para "anu-
lar o efeito" de f(·), ou seja, a composição de funções gi(·) e fi(·), para i = 1, . . . , N , deve ser uma função
linear.
Diante desses modelos, o processo de separação passa depender de dois aspectos fundamentais: a es-
colha de um critério que permita quantificar o grau de independência entre as saídas do separador e de um
método de parametrização das funções não-lineares g(·).
Figura 1. Sistema com Não-Linearidade Posterior.
Neste trabalho, adotamos a informação mútua (estimada com a ajuda de estatísticas de ordem) como
critério de separação e uma parametrização de g(·) baseada em três estruturas monotônicas. Vejamos o
problema de otimização e as estruturas em mais detalhes.
3. Função Custo Baseada na Informação Mútua e Estruturas Monotônicas
Considerando a estrutura de separação mostrada na Fig.1, pode-se expressar a informação mútua das saídas
do separador, considerando que as funções gi(·) são inversíveis, da seguinte forma:
I(y) =
∑
i
H(yi)−H(x)− log(| det(W) |)− E
{
log(
∏
i
| g′i(xi) |)
}
, (5)
onde g
′
i denota a primeira derivada da i-ésima não-linearidade gi(·) do sistema separador. Analisando essa
expressão, vemos que a estimação de I(y) requer a estimação das entropias marginais H(yi), já que H(x)
é constante e os demais termos são determinados pelos parâmetros do separador. Em nosso trabalho, a
estimação das entropias marginais tem sido realizada por meio de uma metodologia baseada em estatísticas
de ordem [7].
O problema de minimizar a informação mútua das saídas do separador, gera uma tarefa de otimização
altamente multimodal e complicada no que se refere ao uso de informações como derivadas. Percebemos,
então, que se trata de um cenário propício ao uso de ferramentas de computação natural. Deste modo,
Sessão 2 - Inteligência Computacional
Anais do I SPS UNICAMP Outubro de 2010 16
empregamos um algoritmo inspirado no princípio da seleção clonal denominado CLONALG [2], pois,
como visto em [3], tem bom desempenho para o problema em questão.
A outra dificuldade de modelos PNL se encontra na parametrização das funções g(·). Neste trabalho,
utilizamos três estruturas monotônicas gerais, que são:
• Polinômios [6] com restrição de monotonicidade,
• Rede neural monotônica de Sill [8],
• Rede MLP Monotônica [5].
4. Resultados
Para avaliar o desempenho das três estruturas monotônicas, relizamos simulações em diversos cenários
distintos. No primeiro caso, os polinômios conseguiram inverter a ação das não-linearidades aplicadas em
f(·), o que resultou na recuperação das fontes de maneira satisfatória. No caso da rede monotônica de
Sill e da rede MLP monotônica, obtivemos resultados inferiores aos dos polinômios. Ambas estruturas são
capazes de inverter as não-linearidades aplicadas no sistema misturador, mas, para estes casos, o problema
em geral torna-se custoso no âmbito da multimodalidade da função custo. Deste modo, o principal problema
que encontramos no emprego destas duas estruturas, foi no processo de otimização. De modo a contornar
esse problema de otimização, reduzimos a dimensão do problema fixando a diagonal da matriz W em 1.
Desta forma os resultados foram melhores, mas abaixo do que esperávamos.
5. Conclusões
A proposta foi testada para três modelos não-lineares - um aproximador polinomial, a rede neural
monotônica de Sill e uma rede MLP monotônica. Os testes indicaram a consistência da proposta, especial-
mente quando se empregam polinômios com restrição de monotonicidade. As demais estruturas também
foram capazes de levar condições de separação, porém com menos eficiência.
6. Agradecimentos
Gostaríamos de agradecer à CAPES e à FAPESP pelo apoio financeiro.
Referências
[1] P. Comon. Independent Component Analysis, a New Concept? Signal Processing, 36(6):287–314,
1994.
[2] L. N. de Castro and F. J. Von Zuben. Learning and Optimization Using the Clonal Selection Prin-
ciple. IEEE Transactions on Evolutionary Computation, Special Issue on Artificial Immune Systems,
6(3):239–251, 2002.
[3] R. Suyama F. O. Pereira, E. Z. Nadalin and R. R. de F. Attux. Análise do emprego de ferramentas de
computação natural no problema de separação de misturas com não-linearidade posterior. Technical
report, XXVII Simpósio Brasileiro de Telecomunicações (SBrT 2009), Blumenau, Setembro 2009.
[4] A. Hyvärinen, J. Karhunen, and E. Oja. Independent Component Analysis. Wiley, 2001.
[5] Bernhard Lang. Monotonic Multi-layer Perceptron Networks as Universal Approximators. In Artificial
Neural Networks: Formal Models and Their Applications - ICANN 2005, pages 31–37, 2005.
[6] V. John Mathews and Giovanni L. Sicuranza. Polynomial Signal Processing. Wiley, 1 edition, 2000.
[7] D.-T. Pham. Blind Separation of Instantenaous Mixtures of Sources Based on Order Statistics. IEEE
Transactions on Signal Processing, 48(2):363–375, 2000.
[8] Joseph Sill. Monotonic networks. In in Advances in Neural Information Processing Systems (NIPS,
pages 661–667, 1998.
[9] A. Taleb and C. Jutten. Source separation in post-nonlinear mixtures. IEEE Transactions on Signal
Processing, 47(10):2807–2820, 1999.
Sessão 2 - Inteligência Computacional
Anais do I SPS UNICAMP Outubro de 2010 17
Codificador de áudio HE-AAC v2
José M. L. Filho , Vinícius J. A. Braga , Júlia J. D. Chanquini , Luís G. P. Meloni
Departamento de Comunicações - DECOM
Faculdade de Eng. Elétrica e de Computação - FEEC
Universidade Estadual de Campinas (Unicamp)
{matias,vinicius,juliajdc,meloni}@decom.fee.unicamp.br
Resumo – Este artigo tem como objetivo apresentar as principais evoluções da família dos codificadores de áudio
padronizada pela Moving Picture Experts Group (MPEG) existentes até a última versão do Advanced Audio Coding
(AAC). Projetado para ser o sucessor do formato MP3, o ACC é utilizado como codificador de áudio no padrão do
Sistema Brasileiro de TV Digital (SBTVD).
Palavras-chave: Codificadores, Áudio, Padrão.
1. Introdução
Em 1982, com o surgimento do CD, o áudio digital se tornou cada vez mais presente no dia-a-dia. Em um
único CD passou a ser possível o armazenamento de mais de 60 minutos de áudio de alta qualidade. No
contexto de seu surgimento, isto era excelente, mas com o surgimento do compartilhamento de arquivos
de áudio, através da internet, houve a necessidade de se criar mecanismos de compressão ainda maiores
diante das limitações de largura de banda. Para suprir esta necessidade de limitação de largura de banda, foi
necessário a criação de um formato que conseguiria reproduzir som com qualidade de CD com uma taxa
de compressão razoável. Foi assim, que em 1987, o Institut Integrierte Schaltungen (IIS) juntamente com
a Universidade de Erlangen, ambas localizadas na Alemanha, começarama pesquisar uma codificação per-
ceptual de áudio para transmissão digital de áudio. Todo o trabalho resultou num algoritmo de compressão
de áudio chamado MP3. No decorrer deste artigo, é apresentado a evolução dos principais codificadores
MPEG. Este trabalho teve sua origem em uma das meta físicas do projeto da Rede H.264 - SBTVD, coor-
denado pelo Professor Luís G. P. Meloni. O projeto permitiu o estudo de diversos codificares de áudio para
a transmissão digital, algumas técnicas de otimização em hardware [2] e áudio multicanal [3] do MPEG-4
AAC . Para embarcar os códigos foram empregados no kit de desenvolvimento da Analog Device.
2. Evolução dos Codificadores MPEGs
Com o intuito de estabelecer padrões para codificadores digitais visando um melhor aproveitamento das
novas tecnologias aliadas à alta qualidade alguns grupos se reuniram. Um dos primeiros e mais importantes
grupos se reuniram com a finalidade de estabelecer um padrão, foi assim que em 1988 o MPEG padronizou
a compressão/descompressão, o processamento e a representação codificada de áudio, vídeo e dados, e esta
versão foi chamada de MPEG-1(ISO/IEC 11172) [4]. Uma das partes deste padrão trata especificamente
da codificação de áudio (ISO/IEC 11172-3) e nela são descritas a sintaxe e a semântica para três classes
de métodos de compressão conhecidos como layers. O mais conhecido deles é o MPEG-1 Audio Layer
III, mais conhecido como MP3, que desde seu surgimento tornou-se o principal padrão e até hoje está
presente em diversos lugares. Algumas das características que fizeram do MP3 algo tão popular foi a
utilização de uma variante da Trasformada Discreta de Cosseno (MDCT), do inglês Modified Discrete
Cosine Transform, e, também, por introduzir a utilização de recursos da psico-acústica para a redução da
taxa de dados necessária para para um fluxo de áudio.
Alguns anos mais tarde o MPEG se reuniu novamente com a finalidade de melhorar este padrão. Em
1994, foi criado o MPEG-2 (ISO/IEC 13818) que trouxe uma versão do MP3 com algumas melhorias
principalmente a codificação multicanais, com até 5.1 canais, e a implementação do AAC (ISO/IEC 13818-
7). Em 1998, mais um encontro do mesmo grupo foi criado um novo padrão, o MPEG-4 (ISO/IEC 14496)
onde ao invés de aumentar a eficiência da compressão optou-se pela inclusão de novas funcionalidades,
como por exemplo o Temporal Noise Shaping (TNS), o Long Term Prediction (LTP) e o Transformation-
domain Weighted Interleave Vector Quantization (TWIN-VQ).
Sessão 3 - Codificação de Áudio
Anais do I SPS UNICAMP Outubro de 2010 18
Na década de 2000, o padrão AAC foi novamente melhorado com a introdução de duas novas tecnolo-
gias. Em 2003 foi introduzido o Spectral Band Replication (SBR) e com isso surgiu a primeira versão High
Efficiency AAC (HE-AAC), e, em 2006, foi introduzido o Parametric Stereo (PS) sendo então nomeado
como a segunda versão do HE-AAC. O SBR aumenta a largura de banda e permite ao codificador de áudio
entregar o mesmo resultado utilizando a metade da taxa de bits que o código do codificador necessitaria, se
utilizando seus próprios recursos. Já o PS aumenta a eficiência da codificação uma segunda vez explorando
uma representação paramétrica da imagem estéreo de um sinal. O MPEG não foi o único nesta busca de
um padrão de codificadores de áudio. Outras instituições também criaram seus padrões de acordo com suas
necessidades. Entre os demais padrões vale a pena citar o Dolby AC-2/3 desenvolvido pela Dolby Digital
e o Sony ATRAC desenvolvido pela Sony. Assim como os padrões MPEG seus objetivos eram fornecer
a melhor qualidade possível para uma determinada aplicação. A seguir, Tabela 1 [1], mostra um quadro
comparativo entre os principais padrões de codificação de áudio.
Tabela 1. Principais codificadores de áudio disponíveis no mercado.
Nome Taxa (kbps) Complexidade Principais Aplicações
MPEG-1 Layer I 192 por canal baixa para codificador Cassete compacto digital
de áudio estéreo e decodificador
MPEG-1 Layer II 128 por canal baixa para DAB,CD-1,DVD
de áudio estéreo decodificador
MPEG-1 Layer III 96 por canal baixa para ISDN, Sistemas de Rádio via
de áudio estéreo decodificador satélite, aúdio de internet
Dolby AC-2 128 por canal baixa para codificador Ponto a ponto, cabo
e decodificador
Dolby AC-3 384 para os 6 baixa para Ponto a multiponto, HDTV, cabo
canais de áudio decodificador DVD, Cinema, LaserDisc
Sony ATRAC 140 por canal baixa para codificador MiniDisc
e decodificador
MPEG-2 AAC 384 para os 6 baixa para HDTV, DVD, rádio na internet, etc.
canais de áudio decodificador DVD, Cinema, LaserDisc
3. O sistema de codificação MPEG-2/4 AAC
Tanto o MPEG-2 AAC quanto o MPEG-4 AAC tem uma estrutura semelhante que é mostrada na Figura
1. Sua estrutura básica é composta das seguintes partes: Psychoacoustic Model (PAM), Modified Discrete
Cosine Transform (MDCT), Spectrum Process (SPP) e Quantization Loop (Q-Loop).
Figura 1. Blocos básicos para o codificador MPEG2/4.
A MDCT transforma as amostras do sinal de entrada, que estão no domínio do tempo, em espectros,
que estão no domínio da frequência. Ao mesmo tempo o PAM calcula a relação sinal-máscara (SMR),
do inglês Signal-to-Masking Ratio, que é usada para determinar a precisão do Q-Loop. A saída do PAM
também inclui a informação do tipo de bloco que é usado para decidir o bloco que será utilizado pela
MDCT. Depois da MDCT converter os dados em espectros, os coeficientes da MDCT são transferidos para
o SPP que é usado para remover suas redundâncias e irrelevâncias através da codificação Joint Stereo (JS)
e do (Temporal Noise Shaping) (TNS). Finalmente, os espectros realizam a quantização não-uniforme e a
codificação sem ruído baseado no limiar de mascaramento e no número disponível de bits para minimizar
o erro de quantização audível no Q-Loop [5].
3.1. HE-AAC v1
Como foi dito anteriormente, a implantação da nova tecnologia SBR ao AAC deu origem ao que chamamos
de HE-AAC v11. O principal problema dos codificadores tradicionais de áudio que precisam operar com
1norma ISO/IEC 14496-3:2001/Amd 1
Sessão 3 - Codificação de Áudio
Anais do I SPS UNICAMP Outubro de 2010 19
taxas de compressão muito baixas é o fato que que necessitam de mais bits para representar o espectro do
que as taxas disponíveis. Para resolver esse problema utiliza-se o SBR.
A idéia por trás do SBR é a observação de que normalmente existe uma forte correlação entre as carac-
terísticas da faixa de alta frequência de um sinal e as características da faixa de baixa frequência do mesmo
sinal. Assim, uma boa aproximação para a representação das altas frequências do sinal de entrada pode ser
alcançada pela transposição das baixas frequências, Figura 2.
Figura 2. Por transposição criando altas frequências e ajustando o envelope [6].
Além da transposição, a reconstrução das altas frequências, como pode ser visto na Figura 2, é realizado
pelo envelope espectral do sinal de entrada original ou através de informações adicionais para compensar
uma potencial falta de componentes de alta frequência [6]. Além do SBR, o HE-AAC v1 adicionou algumas
ferramentas úteis ao núcleo do codificador AAC, Figura 3, como a análise Quadrature Mirror Filterbank
(QMF), Cálculo do Envelope de Dados e Down-Sampler.
Figura 3. Diagrama de blocos do MPEG-4 HE AAC v1.
Todas as taxas de amostragem do sinal são transferidos para o codificador SBR e para o Down-Sampler
diretamente. Os sinais PCM com a metade da taxa de amostragem que são a alimentação para o codificador
AAC serão produzidas a apartir do Down-Sampler. O codificador SBR fica a cargo de estimar os parâmetros
de controle para garantir que o resultado da reconstrução das altas frequências seja o mais semelhante
possível com o sinal original.
3.2. HE-AAC v2
A descoberta de uma nova tecnologia fez mais uma vez mudar o padrão de codificação de áudio. Con-
siderando que o SBR explora as possibilidades de uma representação parametrizada das altas frequências,
a idéia pro trás do PS é parametrizar os sinais estéreo.
O princípiodo PS é a transmissão de um sinal mono codificado em conformidade com o formato HE-
AAC em conjunto com a descrição de uma imagem estéreo. A Figura 4 mostra este princípio.
Sessão 3 - Codificação de Áudio
Anais do I SPS UNICAMP Outubro de 2010 20
Figura 4. Princípio básico do processo de codificação do PS [6].
A junção das tecnologias AAC, SBR e PS são os principais blocos do HE-AAC v2. O AAC é usado
para codificar as baixas frequências, o SBR codifica as altas frequências e o PS codifica a imagem estéreo
de uma forma parametrizada. O diagrama de blocos do codificador HE-AAC v2 é mostrado na Figura 5.
Figura 5. Diagrama de blocos do HE-AAC v2 [6].
Se a ferramenta PS for usada o codificador PS extrai informações baseadas nas amostras QMF. Do
contrário, o sinal de entrada é realimentado na proporção de 2:1 e, outra vez, realimenta o codificador
AAC.
4. Conclusões
Neste artigo apresentou a evolução dos codificadores de áudio criadas pela MPEG. A última versão, HE-
AAC v2, é utilizada no padrão do Sistema Brasileiro de TV Digital (SBTVD). O processo de codificação
de áudio é um caminho que sempre busca de algoritmos e métodos cuja adaptabilidade e inteligência sigam
os parâmetros da produção para satisfazer as necessidades humanas.
Referências
[1] BARBEDO, J. G. A. Avaliação objetiva de qualidade de sinais de Áudio e voz. Tese de Doutorado -
Unicamp, 2004.
[2] BRAGA, V. J. A. Técnicas de otimização aplicadas na decodificação de Áudio digital em sistemas
embarcados com processadores Blackfin. Dissertação de Mestrado - Unicamp, 2010.
[3] CHANQUINI, J. J. D. Áudio multicanal e o codificador mpeg-4 aac. Dissertação de Mestrado -
Unicamp, 2010.
[4] HARTE, L. Introduction to MPEG; MPEG-1, MPEG-2 and MPEG-4. Athos Publishing. 2006.
[5] LUO, J. H. Design and VLSI Implementation of Low Complexity MDCT-based Psychoacoustic-Model
Co-Processor for MPEG-2/4 AAC Encoder. National Central University, Taiwan, 2006.
[6] MELTZER, S., AND MOSER, G. MPEG-4 HE-AAC v2 Audio Coding for Today Digital media
World. EBU Technical Review, 2006.
Sessão 3 - Codificação de Áudio
Anais do I SPS UNICAMP Outubro de 2010 21
Áudio Multicanal e o Codificador MPEG-4 AAC 
Júlia J. D. Chanquini, José M. L. Filho, Vinícius J. A. Braga, Luís G. P. Meloni 
Departamento de Comunicações - DECOM 
Faculdade de Eng. Elétrica e de Computação - FEEC 
Universidade Estadual de Campinas (Unicamp) 
 
(juliajdc,matias,vinicius,meloni)@decom.fee.unicamp.br 
 
Resumo – Este artigo tem como objetivo apresentar um breve resumo sobre codificação de sinais de áudio 
multicanal apresentando o codificador do padrão MPEG-4 AAC, usado no Sistema Brasileiro de TV Digital - 
SBTVD. 
Palavras-chave: áudio, multicanal, codificador, AAC. 
1. Introdução 
O termo áudio multicanal se refere a áudio gerado e reproduzido em múltiplos canais para criar uma 
sensação envolvente do som no ouvinte. E é usado em cinemas e home theaters. 
A configuração mais comum é a 5.1, que são cinco canais discretos cobrindo toda a faixa de 
freqüências audíveis distribuídos em um par estéreo frontal, um canal central e outro par estéreo 
traseiro. E mais um canal para efeitos de baixa freqüência (até 120Hz), conhecido como canal Low 
Frequency Effect (LFE) a ser reproduzido por um subwoofer, que é limitado em freqüência e tem um 
décimo da largura de banda dos outros canais, por isso a denominação “.1”. 
Os padrões de televisão digital atuais já compreendem a transmissão de áudio em formato 
multicanal. A norma brasileira usa o formato padrão MPEG-4 AAC [2] para codificar o áudio a ser 
transmitido e prevê além do estéreo, a configuração de canais 5.1[1]. 
O AAC é um codificador perceptual de áudio que possui ferramentas para codificação de áudio 
incluindo vários canais. 
Neste artigo serão apresentados conceitos básicos de um codificador perceptual e uma breve 
apresentação do codificador MPEG-4 AAC e suas principais ferramentas. 
O estudo e implementação deste codificador faz parte do projeto Rede H.264 do qual o 
laboratório RT-DSP participa. 
2. Codificação Perceptual de Áudio 
A codificação perceptual de áudio visa reduzir o número de bits necessários para codificar um sinal de 
áudio eliminando partes do sinal que não são percebidas pela audição humana. Um sinal de áudio que 
é perceptualmente igual ao original é chamado de transparente. 
Para calcular onde alocar mais ou menos bits os codificadores usam os chamados modelos 
psicoacústicos, que são modelos matemáticos de como o sistema auditivo humano processa 
subjetivamente o som. 
A partir desse modelo é calculado um limiar de mascaramento, que é um limite de energia abaixo 
do qual um tom ou ruído não será percebido. Este limiar pode ser usado para definir limites de ruído 
de quantização e partes do áudio que não serão percebidas e podem ser descartadas ou codificadas 
com menos bits. 
2.1. O Modelo Psicoacústico 
O modelo psicoacústico envolve alguns conceitos baseados no estudo do sistema auditivo humano 
que serão apresentados brevemente a seguir. 
 
2.1.1 Percepção de volume 
A percepção do volume pelo ouvido humano não é linear. O ser humano é mais sensível a variações 
de pressão da onda sonora para as baixas pressões do que para as altas, por isso as ondas sonoras são 
normalmente caracterizadas em nível logarítmico. 
A unidade mais usada para a o nível de pressão sonora é a Sound Pressure Level (SPL), a qual 
expressa o nível de pressão sonora em escala logarítmica em relação a um nível de referência. 
Sessão 3 - Codificação de Áudio
Anais do I SPS UNICAMP Outubro de 2010 22
2.1.2 Limiar Absoluto de Audibilidade em Silêncio 
É a quantidade de energia necessária para que um ouvinte possa detectar um som com apenas um 
componente em freqüência (um tom) em um ambiente em silêncio absoluto. É tipicamente expressado 
em dB SPL. 
 
2.1.3 Bandas Críticas 
Uma banda crítica define uma faixa em torno de uma freqüência central, a qual está associada a um 
ponto da membrana basilar, que é responsável pela análise em freqüência do som, de modo que a cada 
ponto é possível definir uma banda crítica. Quando dois sinais se situam dentro de uma banda crítica, 
o de maior energia poderá dominar a percepção e mascarar o outro estímulo sonoro. 
Dependendo dos níveis, dois tons distintos só serão distinguidos um do outro quando estiverem 
em bandas críticas diferentes. Este é o fenômeno responsável pelo mascaramento simultâneo. 
Apesar das bandas críticas serem contínuas na freqüência, para aplicações práticas é comum ser 
utilizado um conjunto discreto. O conjunto discreto mais utilizado é denominado escala Bark. Uma 
distância de um Bark corresponde à largura de uma banda crítica. 
 
2.1.4 Mascaramento 
O mascaramento ocorre quando um som torna-se imperceptível para um ouvinte devido à presença de 
outro som. Quando isso ocorre, o sinal que se torna imperceptível é o mascarado e o que provoca o 
mascaramento é o mascarador. 
O nível de energia abaixo do qual um componente do sinal é mascarado por outros componentes é 
chamado de limiar de mascaramento. Além de depender da localização dos sinais mascarador e 
mascarado no plano tempo-freqüência, o limiar de mascaramento progressivo também depende da 
duração do mascarador. 
O mascaramento normalmente é classificado em duas categorias principais: simultâneo e não 
simultâneo (ou temporal). 
 
2.1.5 Espalhamento do Mascaramento 
Apesar dos efeitos do mascaramento serem muito maiores dentro da banda crítica, eles propagam-se 
pelas demais regiões do espectro. Esse efeito é conhecido como espalhamento do mascaramento. 
Tipicamente, o espalhamento do mascaramento é aproximado por uma função triangular na escala 
Bark, independentemente da freqüência e do nível do sinal mascarador. Essa função é conhecida 
como função de espalhamento. 
 
2.1.6 Entropia Perceptual 
A entropia perceptual é uma medida proposta por Johnston para representar a quantidade de 
informação relevante em um determinado sinal de áudio, em bits por amostra (ou bits/s),

Continue navegando

Outros materiais