Baixe o app para aproveitar ainda mais
Prévia do material em texto
Anais do I Simpósio de Processamento de Sinais da UNICAMP 18 – 20 de outubro de 2010 Faculdade de Engenharia Elétrica e de Computação UNICAMP COMISSÃO ORGANIZADORA André Kazuo Takahata (FEEC - DECOM) Cristiano Agulhari (FEEC - DT) Everton Zaccaria Nadalin (FEEC - DCA) Leonardo Tomazeli Duarte (FEEC - DMO) Marcos Ricardo Covre (FEEC - DECOM) Rafael Ferrari (FEEC - DMO) Rafael Krummenauer (FEEC - DECOM) Vanessa Testoni (FEEC - DECOM) COORDENADOR GERAL CONVIDADO João Marcos T. Romano (FEEC - DMO) COORDENADOR TÉCNICO Renato da Rocha Lopes (FEEC - DECOM) COLABORADORES Gustavo Fraidenraich (FEEC - DECOM) José Candido Silveira Santos Filho (FEEC - DECOM) Max Henrique Machado Costa (FEEC - DECOM) Ricardo Suyama (UFABC) Romis Ribeiro de Faissol Attux (FEEC - DCA) APOIO Faculdade de Engenharia Elétrica e de Computação Sessão 1 – Processamento de Sinais de Voz Chair: Prof. Fábio Violaro Sistema de Reconhecimento de Locutor Baseado em Mistura de Gaussianas ....................................... 1 Diana C. Gonzalez, Lee Luan Ling, Fábio Violaro Estimação de parciais em sinais acústicos harmônicos ............................................................................ 4 Tiago Fernandes Tavares, Jayme Garcia Arnal Barbedo, Romis Attux, Amauri Lopes Processamento e manipulação de efeitos sonoros através de Transformada Wavelet Packet .............. 7 Bruno Novaes Silva, Rafael Santos Mendes Sessão 2 - Inteligência Computacional Chair: Leonardo Tomazeli Duarte Support Vector Machine em Aplicações de Processamento de Sinais ..................................................... 8 Gilson Ronchi, Munemasa Machida BSS para grande quantidade de fontes ......................................................................................................... 9 Everton Z. Nadalin, Ricardo Suyama, Romis Attux Aprendizado Baseado em Teoria da Informação: Fundamentos e Perspectivas ..................................... 12 Daniel G. Silva, Romis Attux Separação Cega de Misturas com Não-Linearidade Posterior Utilizando Estruturas Monotônicas e Computação Natural ............................................................................................................. 15 Filipe O. Pereira, Leonardo T. Duarte, Ricardo Suyama, Romis Attux, João Marcos Travassos Romano Sessão 3 - Codificação de Áudio Chair: Prof. Max Costa Codificador de áudio HE-AAC v2 ................................................................................................................... 18 José M. L. Filho, Vinícius J. A. Braga, Júlia J. D. Chanquini, Luís G. P. Meloni Áudio Multicanal e o Codificador MPEG-4 AAC ........................................................................................... 22 Júlia J. D. Chanquini, José M. L. Filho, Vinícius J. A. Braga, Luís G. P. Meloni Sessão 4: Busca e Classificação de Imagens Chair: Prof. Ricardo da Silva Torres Classificação de Imagens usando Programação Genética ......................................................................... 26 Fabio Augusto Faria, Anderson Rocha, Ricardo da Silva Torres Anotação Automática de Imagens Usando Dicionários Visuais e Regras de Associação ...................... 29 Guilherme Moraes Armigliatto, Eduardo Valle, Ricardo Torres Realimentação de Relevância para Recuperação Visual e Textual de Imagens ....................................... 32 Rodrigo Tripodi Calumby, Ricardo da Silva Torres Explorando Dicionários Visuais em Buscas de Imagens na Web .............................................................. 35 Otávio Augusto Bizetto Penatti, Ricardo da Silva Torres Análise e processamento de imagens em um sistema de animação facial 2D ......................................... 38 Paula Dornhofer Paro Costa, José Mario De Martino Classificação Semi-automática de Regiões em Imagens de Sensoriamento Remoto Utilizando Realimentação de Relevância ...................................................................................................... 41 Jefersson A. dos Santos, Ricardo da S. Torres, Alexandre X. Falcão Exploiting Shape Matching and Re-Ranking Strategies for Content-Based Image Retrieval Tasks ...... 44 Daniel Carlos Guimarães Pedronette, Ricardo da S. Torres Estudo Comparativo de Descritores Locais de Imagens Aplicado a Grandes Bases de Dados ............ 47 Lucas Moutinho Bueno, Eduardo Valle, Ricardo da Silva Torres Visualização para Sistemas de Recuperação de Imagens por Conteúdo ................................................. 49 Sheila Maricela Pinto Cáceres, Ricardo da Silva Torres Sessão 5: Implementação em DSP/FPGA Chair: Prof. Luís G. P. Meloni Implementação de filtros digitais IIR usando o DSP TMS320C6711 ........................................................... 52 Johannes Dantas de Medeiros Júnior, Bruno Barbosa Albert Técnicas de Otimização para DSPs (Blackfin).............................................................................................. 55 Vinícius J. A. Braga, José M. L. Filho, Júlia J. D. Chanquini, Luís G. P. Meloni Exploração de Paralelismo Computacional em Sistemas Embarcados para Compressão de Imagens Digitais .................................................................................................................. 60 Éricles Rodrigues Sousa, Luís Geraldo Pedroso Meloni Sessão 6: Arranjo de Sensores e Estimação de Parâmetros Chair: Prof. Renato Lopes Modelagem de Fila para Fluxos de Tráfego Multifractal de Rede ............................................................... 63 Jeferson Wilian de Godoy Stênico, Lee Luan Ling Mitigação de Interferentes com Arranjos de Antenas e Processamento Largamente Linear ................. 66 Adilson Chinatto, Cynthia Junqueira, João Marcos T. Romano Uma Proposta de Uso de Filtragem em Estimação DOA ............................................................................. 69 Levy Boccato, Amauri Lopes, Romis Attux Estimação de direção de chegada de sinais digitalmente modulados ...................................................... 72 Rafael Krummenauer, Amauri Lopes Sessão 7: Processamento, Rastreamento e Codificação de Vídeo Chair: Prof. Anderson Rocha Recuperação de Vídeos Digitais: Métodos, Propostas e Desafios ............................................................ 75 Jurandy Almeida, Neucimar J. Leite, Ricardo da S. Torres Rastreamento de jogadores de futsal usando Visão Computacional ........................................................ 78 Erikson Freitas de Morais, Anderson Rocha, Siome Goldenstein Block-based 3-D Fast Transforms applied to an Embedded Color Video Codec ..................................... 81 Vanessa Testoni, Max H. M. Costa Combinação de Descritores Locais e Globais para Reconhecimento de Objetos em Vídeo .................. 84 Felipe Andrade, Ricardo Torres, Hélio Pedrini Sessão 8: Processamento, Reconhecimento e Codificação de Imagens Chair: Léo Pini Magalhães Processando Sinais e Evidências: Desafios em Computação Forense Digital ........................................ 87 Ewerton Almeida Silva, Anderson Rocha Melhoria da Atratividade de Faces em Imagem ............................................................................................ 90 Tatiane Silvia Leite, Lucas Carrilho Pessoa, José Mario De Martino Detecção de Bordas e Cantos em Imagens a partir de Módulos Máximos e Direções de Coeficientes da Transformada Shearlet ........................................................................................................ 94 Ricardo Dutra da Silva, Hélio Pedrini Implementação de um algoritmo de watershed utilizando CUDA .............................................................. 97 André Körbes, Giovani Bernardes Vitor, Roberto de Alencar LotufoProcessamento e análise de Imagens de Tensores de Difusão ................................................................. 100 Leticia Rittner, Roberto A. Lotufo On The Adaptive Coefficient Scanning of JPEG XR / HD Photo ................................................................. 103 Vanessa Testoni, Max H. M. Costa, Darko Kirovski, Henrique S. Malvar Desenvolvimento de uma interface virtual tátil para controle de acesso em áreas restritas .................. 106 Frank C. Cabello, Yuzo Iano Sessão 9: Processamento de Sinais Biomédicos Chair: Prof. José W. M. Bassani Pré-processamento de imagens de difusão do cérebro no ambiente Adessowiki .................................. 109 Luiz F. S. Wetzel, Leticia Rittner, Roberto Lotufo Compressão de sinais ECG com métodos de Compressed Sensing ........................................................ 112 A. K. Takahata, C. M. Agulhari, L. T. Duarte, R. R. Lopes, P. L. D. Peres, J. M. T. Romano Identificação Automática de Lupus Eritematoso Discóide ......................................................................... 115 Kesede, R Julio, Lee, Luan L., Bassani, J.W.M Pitfalls in the definition of the epileptogenic zone in ictal EEG and functional MRI ................................ 118 Guilherme C. Beltramini, Ana C. Coan, Fernando Cendes, Roberto J. M. Covolan Sistema de Reconhecimento de Locutor Baseado em Mistura de Gaussianas Diana C. Gonzalez, Lee Luan Ling e Fábio Violaro DECOM - Departamento de Comunicações Faculdade de Eng. Elétrica e de Computação Universidade Estadual de Campinas (Unicamp) dianigon@decom.fee.unicamp.br; lee@decom.fee.unicamp.br; fabio@decom.fee.unicamp.br RESUMO Este projeto de pesquisa propõe a implementação de um sistema básico de reconhecimento de locutor empregando coeficientes Mel-cepstrais e mistura de gaussianas (GMM). A partir do desempenho desse sistema básico, se passará em seguida a investigar novos parâmetros característicos do sinal de fala que exploram seu grau de singularidade, como é o caso do expoente Holder. Palavras-chave: Reconhecimento de locutor, GMM, Mel-cepstral, Holder. 1. Introdução Nas últimas décadas, os sistemas biométricos baseados em reconhecimento de fala têm tido uma excelente aceitação, por serem métodos econômicos para resolver problemas de autorização/senha. Como sugere [1], a combinação da anatomia inerente ao trato vocal e dos hábitos usados pelos diferentes indivíduos, torna o sistema de reconhecimento de locutor um método bastante eficaz. Os sistemas de reconhecimento de locutor são classificados usualmente em duas categorias, identificação e verificação. No sistema de identificação de locutor, o usuário não fornece nenhuma informação sobre sua identidade, e assim o sistema fica responsável por determinar quem é o locutor, dentro de um grupo de N indivíduos. Por outro lado, no sistema de verificação, o locutor fornece sua identidade (senha específica) e o sistema decide aceitar ou recusar o usuário, dependendo da comparação com o seu padrão armazenado. Este trabalho está enfocado no desenvolvimento de um sistema de identificação de locutor independente do texto, onde os usuários são treinados e testados com frases diferentes. Basicamente um sistema de identificação de locutor é composto por 3 módulos: aquisição do sinal digital, extração de parâmetros e comparação com um modelo (pattern matching). 2. Projeto do sistema O projeto do sistema básico é desenvolvido em duas etapas. A primeira é a extração dos coeficientes Mel- cepstrais a partir de um banco de filtros na escala Mel, seguido do cálculo da DCT do logaritmo da energia na saída de cada filtro. Na segunda etapa o classificador será implementado como uma mistura de gaussianas multidimensionais (HMM) para modelar a distribuição estatística desses coeficientes gerados na fase de treinamento. A partir dos resultados (taxa de reconhecimento) obtidos com esse sistema básico, se passará para a experimentação de novos parâmetros, isoladamente ou combinados com os Mel- cepstrais. Inclusive se pretende fazer alguns testes com o Expoente Holder. Essa idéia decorre da teoria apresentada em The Fractal Geometry of Nature [2], onde Mandelbrot mostra que alguns fenômenos naturais podem ser modelados por parâmetros como auto-similaridade, correlação e séries temporais. 2.1 Implementação do sistema clássico Extração dos parâmetros O sinal de fala sofre inicialmente uma pré-ênfase, é janelado por uma janela de Hamming de 20 ms que é deslocada de 10 em 10 ms. A partir do sinal janelado são calculados os coeficientes Mel-cepstrais. Atualmente o sistema opera com 13 coeficientes Mel-cepstrais. Embora o coeficiente de ordem zero do Sessão 1 - Processamento de Sinais de Voz Anais do I SPS UNICAMP Outubro de 2010 1 vetor não seja usado com parâmetro, ele contém uma informação sobre a energia do sinal, o que permite determinar e suprimir silêncios presentes no sinal. Construção de modelo Para a geração do modelo de cada locutor foi usado um mistura de gaussianas λ, a qual é parametrizada por um vetor de médias u, uma matriz de covariância Σ e um vetor de pesos das gaussianas w [3], (1) onde M é o número de componentes gaussianas e a mistura é formada pela soma ponderada de M densidades gaussianas dada pela equação (2), (2) onde x é o vetor de parâmetros de entrada de dimensão D, bi(x) são as densidades gaussianas de cada componente da mistura (equação 3) e pi é o peso de cada mistura, com a somatória dos M coeficientes pi igual a 1. Em nosso modelo empregamos matriz de covariância Σ diagonal (componentes independentes entre si). (3) Após a especificação de parâmetros iniciais do modelo empregando a técnica K-means, um algoritmo iterativo é empregado para reestimar os parâmetros visando uma maximização da verossimilhança (Maximum Likelihood – ML) frente aos dados de treinamento[4]. Identificação do locutor No processo de treinamento o sistema gera um modelo (λ1, λ2, λ3... λN) para cada um dos N locutores. No processo de teste ou avaliação, o sistema recebe novas locuções pertencentes a qualquer um dos locutores treinados e, após submeter seus parâmetros a cada um dos modelos, procura o modelo que assegura a máxima verossimilhança. Base de dados Para a avaliação do sistema de reconhecimento de locutor foram usadas duas bases de fala criadas originalmente por Carlos Alberto Ynoguti no Laboratório de Processamento Digital de Fala do DECOM/FEEC/UINICAMP para aplicação em reconhecimento de fala. A primeira base é composta por sinais de fala de 71 locutores (50 homens e 21 mulheres) digitalizados a 22,05 kHz com 16 bits/amostra. O treinamento foi feito com 20 locuções de cada locutor, com aproximadamente 90 s de duração total. O sistema foi testado usando 10 locuções de cada locutor, cada uma com duração variável entre 2,5 s e 7 s. A segunda base foi implementada com uma freqüência de amostragem de 11,025 kHz e é constituída por 30 locutores, 15 homens e 15 mulheres. Cada locutor leu um total de 40 frases foneticamente balanceadas com uma duração total aproximada de 70 s. Dessas 40 frases, 30 foram usadas para o treinamento e as 10 restantes para teste do sistema. Análises de resultados Para a avaliação experimental tem-se projetado diferentes testes usando as bases de dados, nos quais os parâmetros envolvidos no sistema (número de gaussianas na mistura, deslocamento das janelas, etc.) são Sessão 1 - Processamento de Sinais de Voz Anais do I SPS UNICAMP Outubro de 2010 2 modificados para determinar uma configuração adequada, que melhore o desempenho do sistema, tanto em esforço computacional como em eficiência. No modelamento de cada locutor foram empregadas misturas de 5 gaussianas de dimensão 12. O primeiro parâmetro testado foi o deslocamento de janela, que vai definir o número de vetores (coeficientes Mel-cepstrais) extraídosde cada locução. A Tabela 1 mostra a percentagem de identificação correta em função desse deslocamento. Note que o deslocamento de 10 ms assegurou um melhor desempenho. Deslocamento das janelas Ordem do modelo Base de dados 5 ms 10 ms Primeira 90 seg 98,59 99,01 M=5 Segunda 70 seg 98,7 98,7 Tabela 1. Desempenho do sistema com diferentes deslocamentos das janelas. A Tabela 2 apresenta a percentagem de identificação correta, empregando-se misturas com 3, 5 e 8 gaussianas (ordem do modelo). Observa-se que o desempenho do sistema incrementa ao se aumentar o número de gaussianas. Deve-se destacar, entretanto, que o número de gaussianas não pode aumentar indefinidamente, uma vez que uma quantidade maior de parâmetros demanda uma quantidade maior de fala para o seu correto treinamento. Ordem do modelo Base de dados M=3 M=5 M=8 Primeira 90 seg 90,2 99,01 99,5 Segunda 75 seg 94 98,7 99,7 Tabela 2. Desempenho do sistema de reconhecimento com diferentes ordens do modelo. 2.2 Trabalho futuro A partir dos resultados obtidos com o desenvolvimento deste sistema básico, se partirá para a inserção de parâmetros adicionais baseados no conceito de grau de singularidade do sinal de fala de cada locutor, como é o caso do expoente Holder. Para tal algumas tarefas serão realizadas, tais como: - Verificar a natureza do sinal de fala e determinar se ele pode ser caracterizado como um sinal multiescalar ou multifractal. - Determinar os parâmetros e os critérios de avaliação, para aplicar a função Expoente Holder. - Fazer um estudo aprofundado da função do Expoente Holder como índice de medição de singularidade nos sinais de fala. - Analisar um sistema de reconhecimento de locutor, combinando os parâmetros tradicionais (coeficientes Mel-cepstrais) com o expoente Holder. 3. Referências [1] J. Campell, Speaker Recognition: A Tutorial, Proceeding of the IEEE, vol.85, no 9, 1998. [2] B.B. Mandelbrot, The Fractal Geometry of Nature, W. H. Freeman, 1982. [3] Douglas A. Reynolds and Richard C. Rose, Robust Text-Independent Speaker Identification Using Mixture Speaker Model, IEEE Trans. Speech Audio Processing, vol. 3, no 1, pp.72-82, Jan. 1995. [4] K. V. Mardia, J. T. Kent and J. M. Bibby, Multivariate Analysis. San Diego: Academic Press, Series of Monographs and Textbooks. Sessão 1 - Processamento de Sinais de Voz Anais do I SPS UNICAMP Outubro de 2010 3 Estimação de parciais em sinais acústicos harmônicos Tiago Fernandes Tavares1 , Jayme Garcia Arnal Barbedo2 , Romis Attux3 , Amauri Lopes4 Departamento de Computação e Automação Industrial1,3 e Departamento de Telecomunicações2,4 Faculdade de Engenharia Elétrica e Computação Universidade Estadual de Campinas (Unicamp) {tavares1,attux3}@dca.fee.unicamp.br, {jgab2,amauri4}@decom.fee.unicamp.br Resumo – Estimar parciais em sinais acústicos significa encontrar quais componentes de freqüência formam os sons harmônicos que foram misturados para gerar o sinal em questão. Neste trabalho, um conjunto de regras, desenvolvidas de acordo com modelos físicos e auditivos conhecidos, é aplicado a quadros de áudio, buscando assim encontrar as freqüências e amplitudes das parciais existentes. O conjunto de regras proposto é testado sobre uma base de dados construída sobre amostras de gravações acústicas. Palavras-chave: Áudio, estimação, freqüência, parcial, harmônica. 1. Introdução Sinais acústicos estacionários são comumente descritos como uma somatória de sinais senoidais com freqüências harmonicamente relacionadas, por modelos já bem conhecidos e estudados [1, 2]. A ampli- tude e freqüência de cada uma das componentes harmônicas presentes em um sinal é informação valiosa em diversos processos cognitivos relacionados a áudio, como a estimação da freqüência fundamental (F0) de uma série harmônica [3] ou a estimação do número de fontes presentes em um sinal [4]. Apesar disso, é sabido que, quando sons provenientes de diferentes fontes (ou seja, diferentes notas musicais) se mis- turam, torna-se mais difícil estimar quais são as freqüências das parciais harmônicas existentes [5]. Por esse motivo, métodos que confiam na estimação de parciais ou são limitados [3] ou dependem de esforços computacionais intensos [4]. Neste trabalho, propõe-se a aplicação de um conjunto de regras para a identificação das parciais existen- tes e estimação de suas freqüências em um dado sinal de áudio. Hipóteses contidas em uma etapa inicial de estimação são confirmadas e eliminadas através da aplicação explícita de conhecimentos sobre a natureza do sinal analisado. O trabalho se organiza como descrito a seguir. A base de dados empregada e as medidas utilizadas para avaliação dos resultados são descritas na Seção 2. As regras aplicadas, assim como seus fundamentos físicos e os resultados de suas aplicações, são apresentadas na Seção 3. Por fim, a conclusão do trabalho e as perspectivas futuras são descritas na Seção 4. 2. Métodos empregados A base de dados utilizada para testes foi construída a partir de amostras disponibilizadas pela Universidade de Iowa [6]. Um sistema automático escolhe aleatoriamente um quadro de 93 ms de qualquer uma das amostras e então aplica dois métodos para detecção de sua freqüência fundamental [3, 7]. Se os dois méto- dos indicam freqüências fundamentais com diferença inferior a 2.93% (equivalente à metade da diferença de freqüências entre duas notas consecutivas na escala temperada), então o quadro é ajustado para que tenha média zero e variância unitária e é adicionado à mistura, tomando-se o cuidado de não se adicionar sons com freqüências fundamentais correspondentes à mesma nota. Utilizando esse processo, foram construídas quatro mil misturas, igualmente distribuídas entre misturas de um, dois, quatro e seis tons. O sistema de detecção de parciais construído deve fornecer uma lista de valores de freqüência corres- pondentes às parciais harmônicas do sinal. Os resultados são avaliados em função do número de falsos positivos e falsos negativos obtidos. Um falso positivo é uma harmônica que, considerando um erro de 2.93%, não faz parte da série harmô- nica de nenhuma freqüência fundamental presente no sinal. Para essa avaliação, considera-se um limite de Sessão 1 - Processamento de Sinais de Voz Anais do I SPS UNICAMP Outubro de 2010 4 7 harmônicas na série, uma vez que, a partir desse número, a diferença de freqüências passa a ser inferior ao erro de 2.93% considerado. Falsos negativos são registrados em um vetor de 7 posições, no qual o valor em cada posição m é a fração de freqüências fundamentais para as quais quais foram detectados menos que m parciais de alguma série harmônica (em relação ao total de F0s no conjunto de testes, 13000). Assim, um vetor fn = [10%, 0, 0, 0, 0, 0, 0] significa que em 10% das F0s presentes no conjunto de testes nenhuma par- cial foi encontrada. Novas regras foram desenvolvidas buscando reduzir o número de falsos positivos, sem que isso leve a um aumento significativo no número de falsos negativos, como será visto a seguir. 3. Conjuntos de regras Cada uma das regras utilizada no sistema foi desenvolvida com o objetivo de aplicar, explicitamente, co- nhecimento prévio sobre o comportamento esperado do sinal. Após a aplicação de cada regras, avalia-se o vetor de falsos negativos fn e o número total de falsos positivos fp considerando as quatro bases de dado em conjunto. 3.1. Regra dos máximos locais com restrição de freqüências A presença de uma parcial pode ser indicada pela existência de um máximo local no espectro do sinal analisado. Parciais abaixo de 55 Hz são ignoradas, uma vez que raramente são encontradas notas musicais cuja freqüência fundamental seja abaixo desse valor [2]. Parciais acima de 10 kHz também são ignoradas pois, acima dessa freqüência, a capacidade humana de distinguir tons é prejudicada [1]. Após obter todas os máximos locais no alcance esperado, temos: • fn = [0, 0, 0, 0, 0.56%, 1.81%], • fp = 826451. É importante perceberque, nesta etapa, ao menos três parciais de cada um dos sons existentes foram encontradas, embora haja grande número de falsos positivos. 3.2. Regra da concentração de energia em freqüências esperadas Supõe-se que o sinal contém misturas de notas musicais que estejam afinadas de acordo com uma certa escala, o que significa que suas parciais também estarão em posições conhecidas. Assim, varrendo-se cada tom da escala, apenas o maior valor (considerando um erro possível de meio semi-tom) é mantido e os outros picos obtidos são considerados espúrios. Como resultado, observa-se grande redução de falsos positivos, sem que o número de falsos negativos aumente significativamente: • fn = [0, 0.01%, 0.01%, 0.06%, 1.41%, 6.06%], • fp = 153336. 3.3. Regra da harmonicidade De acordo com o modelo harmônico utilizado para análise, a existência de uma parcial implica na existência de outras. Assim, cada parcial encontrada até o momento é considerada como a fundamental, segunda harmônica, e assim por diante, até a sétima harmônica de uma série. Para cada uma dessas considerações, verifica-se quantas parciais da série são hipoteticamente encontradas. Apenas candidatas que fazem parte de pelo menos uma série com no mínimo quatro parciais encontradas, considerando um erro de meio semi- tom, são consideradas. Ao fim dessa etapa, verifica-se diminuição no número de falsos positivos, embora isso implique num aumento do número de falsos negativos: • fn = [0, 0.02%, 0.06%, 0.63%, 3.51%, 12.41%], • fp = 137737. Sessão 1 - Processamento de Sinais de Voz Anais do I SPS UNICAMP Outubro de 2010 5 3.4. Regra da intensidade mínima A intensidade da série harmônica de freqüência fundamental f é medida através da soma das magnitudes das parciais, ponderadas pelo inverso de sua posição na série harmônica, ou seja, I = ∑7 m=1 1 mQ(n), onde Q(n) é a amplitude da n-ésima parcial estimada. A intensidade relacionada a cada parcial é a intensidade máxima de uma série harmônica com mais de quatro elementos da qual ela faça parte, seguindo os critérios da regra da harmonicidade. Séries harmônicas com intensidade menor que três centésimos (valor obtido heuristicamente) da soma de todas as intensidades calculadas são descartadas. Com a aplicação dessa regra, temos os seguintes resultados: • fn = [26.74%, 40.95%, 50.99%, 58.56%, 62.90%, 68.48%], • fp = 9067. Verifica-se significativa redução no número de falsos positivos, embora isso tenha levado a um aumento, também significativo, no número de falsos negativos. 3.5. Regra da média Picos muito salientes, por hipótese, indicam parciais que fazem parte da mistura. Todos os picos de magni- tude superior à media das magnitudes estimadas são incluídos novamente no conjunto de hipóteses, mesmo que tenham sido eliminados anteriormente. Essa etapa dá os resultados: • fn = [0, 2.51%, 9.46%, 18.88%, 30.55%, 45.80%], • fp = 13619. Verifica-se redução significativa do número de falsos negativos, ao mesmo tempo que há um pequeno aumento no número de falsos positivos. 4. Discussões Com o uso das regras propostas, foi possível reduzir o número de falsos negativos da faixa de 8× 105 para a faixa de 13× 104, o que representa uma melhoria na faixa de 85%. Apesar disso, é importante melhorar o algoritmo proposto, de forma que os sistemas construídos tomando-o como base possam ser, também, melhorados. Embora o uso de amplitudes de parciais seja uma abordagem importante, durante o desenvolvimento das regras propostas não foi encontrada uma regra que pudesse filtrar componentes cuja amplitude fosse muito baixa, sem que isso gerasse um número excessivo de falsos negativos. Também, não foi possível encontrar uma regra que pudesse ser aplicada sobre o formato dos picos encontrados. Assim, o trabalho demanda a busca por regras de classificação mais eficazes. É possível que melhores soluções sejam encontradas combinando-se métodos heurísticos, que utilizam explicitamente modelos físicos relacionados a instrumentos musicais, com métodos de inteligência compu- tacional, que buscam obter classificadores ótimos para problemas genéricos. Referências [1] Helmholtz, H. On the Sensation of Tone. Dover Publications Inc., 4 edition, 1885. [2] Olson, H. F. Music, Physics and Engineering. Dover Publications Inc., 2 edition, 1967. [3] Mitre, A., Queiroz, M., and Faria, R. R. A. Accurate and Efficient Fundamental Frequency Determina- tion from Precise Partial Estimates. In Proceedings of the 4th AES Brazil Conference, pages 113–118, May 2006. [4] Barbedo, J., Lopes, A., and Wolfe, P. J. Empirical methods to determine the number of sources in single- channel musical signals. Audio, Speech, and Language Processing, IEEE Transactions on, 17(7):1435– 1444, 2009. [5] Oppenheim, A. V., Schafer, R. W., and Buck, J. R. Discrete-time signal processing. Prentice Hall Inc., 2 edition, 1999. [6] University of Iowa. Musical Instrument Samples. "http://theremin.music.uiowa.edu/MIS.html", 2005. [7] Cheveigné, A. and Kawahara, H. YIN, a fundamental frequency estimator for speech and music. J. Accoust. Soc. Am., 111(4):1917–1930, April 2002. Sessão 1 - Processamento de Sinais de Voz Anais do I SPS UNICAMP Outubro de 2010 6 Processamento e manipulação de efeitos sonoros através de Transformada Wavelet Packet Bruno Novaes Silva, Rafael Santos Mendes (Orientador) DCA Faculdade de Engenharia Elétrica e de Computação Universidade Estadual de Campinas (Unicamp) bruno.no.silva@gmail.com,rafael@dca.fee.unicamp.br Resumo No trabalho é proposto um novo método para efeitos sonoros menos repetitivos nos videogames. Preservando as características principais do som, o método o manipula baseado na Transformada Wavelet Packets do sinal digital. Os coeficientes da transformada formam uma matriz de coeficientes onde as linhas representam divisões na frequência e as colunas, divisões no tempo. É possível fazer manipulações nos espectros temporal e frequencial, derivando sons diferentes, ou embaralhados no tempo, gerando texturas sonoras contínuas. A matriz de coeficientes pode ser manipulada de três formas principais: alterando o valor dos coeficientes, alterando-se o tamanho da matriz ou a posição dos coeficientes. Para a primeira forma, podemos mudar o espectro da onda, como um equalizador. Alterando-se o tamanho da matriz e fazendo uma reamostragem dos coeficientes no tempo, podemos fazer o som mais longo ou mais curto. Alterando-se a posição dos coeficientes no tempo é possível inverter o som, embaralhá-lo ou mesmo sintetizar um textura sonora contínua a partir de um sample base desta textura. Sessão 1 - Processamento de Sinais de Voz Anais do I SPS UNICAMP Outubro de 2010 7 Support Vector Machine em Aplicações de Processamento de Sinais Gilson Ronchi , Munemasa Machida (Orientador) Departamento de Eletrônica Quântica Instituto de Física “Gleb Wataghin” Universidade Estadual de Campinas (Unicamp) g061123@dac.unicamp.br,machida@ifi.unicamp.br Resumo O Support Vector Machine (SVM) é uma método de aprendizado de máquina supervisionado desenvolvida por Vapnik e que, devido a sua habilidade de generalização, possui uma vasta gama de aplicações em pro- blemas de classificação. Sua boa eficiência em problemas de alta dimensionalidade faz com que seja uma técnica aplicável em problemas de visão computacional, como no reconhecimento de padrões e filtragem, embora seja utilizada também em bioinformática, classificação textual e regressão não-linear. Neste tra- balho introduzimos a teoria envolvida no SVM e realizamos um review de algumas aplicações recentes desse método em processamento de sinais, particularmente em sinais biomédicos como eletrocardiogramas (para diagnóstico de doenças cardíacas) e na fala humana. Sessão 2 - Inteligência Computacional Anais do I SPS UNICAMP Outubro de 2010 8 BSS para grande quantidade de fontes Everton Z. Nadalin1, Ricardo Suyama2, Romis Attux1 1 – Departamento de Engenharia de Computação e Automação Industrial (DCA) Faculdade de Engenharia Elétrica e de Computação (FEEC)Universidade Estadual de Campinas (Unicamp) 2 – Universidade Federal do ABC (UFABC) {nadalin,attux}@dca.fee.unicamp.br,ricardo.suyama@ufabc.edu.br Resumo – Neste trabalho, apresentamos uma breve revisão do problema de separação cega de fontes e de dois métodos para resolvê-lo: a clássica abordagem de análise de componentes independentes (ICA) e a mais recente metodologia de análise de componentes esparsos. Em seguida, são apresentadas algumas características de problemas de separação definidos no contexto de uma grande quantidade de fontes e das dificuldades associadas ao uso de técnicas de separação nesse contexto, com ênfase no uso da característica de esparsidade. Palavras-chave: separação cega de fontes, análise de componentes independentes (ICA), análise de componentes esparsos (SCA). 1. Int rodução Na área de processamento de sinais, vêm merecendo significativo destaque os problemas relacionados ao tratamento cego ou não-supervisionado, entre os quais se encontra aquele que recebe o nome de Separação Cega de Fontes (BSS – Blind Source Separation) [1]. O um problema que ilustra muito bem a tarefa de BSS é o chamado cocktail part problem: numa sala com várias pessoas falando e vários microfones instalados em lugares aleatórios, o intuito é conseguir separar o sinal de voz de cada pessoa tendo acesso somente aos sinais dos microfones. 2. Separação Cega de Fontes A priori, o conceito de separação de fontes de forma cega implicaria em nenhum conhecimento das fontes ou do sistema de mistura, o que tornaria a tarefa de processamento matematicamente impossível. Na prática, adotam-se suposições consideradas plausíveis e tão pouco restritivas quanto possível, como: as fontes foram geradas de forma independente; há menos fontes do que misturas; o sistema de mistura é invariante no tempo. Para cada suposição feita, existe um leque de técnicas que podem ser consideradas mais ou menos adequadas ao caso. 2.1. Análise de Componentes Independentes (ICA) Dentre as técnicas utilizadas para abordar o problema de separação de fontes, a mais popular é a análise de componentes independentes (ICA – Independet Component Analysis) [2], que, tomando os sinais misturados, procura encontrar uma matriz que os torne tão mutuamente independentes quanto possível. Neste caso, se as fontes que geraram as misturas forem independentes e a matriz de mistura for inversível, o processo levará a uma efetiva separação. O problema pode ser descrito como mostra a Figura 1: são dadas N fontes s(t) desconhecidas e M medidas x(t) obtidas através dos sensores, a partir das fontes, por meio de um canal modelado como uma matriz A. O intuito é encontrar sinais y(t) que sejam estimativas de s(t) a partir da aplicação de uma matriz W ao vetor de misturas x(t). Sessão 2 - Inteligência Computacional Anais do I SPS UNICAMP Outubro de 2010 9 Figura 1. Cenário clássico de separação de fontes 2.2. Análise de Componentes Esparsos (SCA) Uma limitação fundamental da técnica de ICA é que seu funcionamento é garantido apenas se o número de fontes for menor ou igual ao número de sensores. Em boa parte dos casos práticos, o número de fontes é maior do que o número de sensores – e.g. pelo fato de a mistura conter ruído – e, ademais, pode-se não ter certeza do número de fontes presentes na mistura. Em casos como estes, se as fontes são esparsas, ou seja, com várias regiões de “silêncio”, podemos supor que nem todas as fontes estão ativas ao mesmo tempo. Desta forma, o sistema chamado subparametrizado passa a se tornar localmente determinado: decorre dessa idéia a noção de Análise de Componentes Esparsos (SCA – Sparse Component Analysis) [3]. A idéia principal de SCA é encontrar alguma transformada linear que gere uma representação suficientemente esparsa dos dados, ou seja, na qual a maior parte dos coeficientes possua valor nulo ou próximo de zero. Se, nesta representação, pudermos garantir que, em cada instante, o número de fontes ativas não seja maior do que um determinado valor, seremos capazes de realizar a identificação da matriz de mistura A, ou mesmo a separação das fontes em alguns casos especiais. O caso mais restritivo e também um dos mais utilizados se vincula à idéia de ortogonalidade disjunta, segundo a qual é garantido que não existam duas ou mais fontes ativas ao mesmo tempo [4]. 3. Problema da Grande Quantidade de Fontes Em diversos problemas práticos, a quantidade de fontes na mistura é da ordem de centenas a milhares. Nestes casos, são utilizadas matrizes com muitos sensores, mas, mesmo assim a proporção de fontes por sensores continua muito grande, da ordem de centenas a milhares. Como exemplos, podemos citar aplicações envolvendo o eletroencefalograma / interface cérebro-computador (BCI – brain-computer interface), processamento geofísico e ruído acústico em veículos motorizados. Nesse contexto, há diversos problemas que causam dificuldades à maioria das técnicas existentes, como: − não é sempre possível determinar com clareza o número de fontes: devido à natureza do problema, pode requerer algum esforço definir o que será considerado fonte e o que será ruído; − as misturas normalmente não são instantâneas, ou seja, pode haver múltiplos percursos entre as fontes e sensores, o que dificulta o modelamento do canal de mistura; − as misturas podem não ser lineares, havendo mesmo, em muitos casos, saturação tanto no sistema de mistura quanto nos próprios sensores; − em diversos casos, as fontes não são estáticas: nesse caso, o sistema de mistura é variante no tempo; − as fontes não são necessariamente independentes. 3.1. SCA aplicada à grande quantidade de fontes Como dito anteriormente, uma das restrições adotadas quando aplicamos técnicas de SCA em separação de fontes é a chamada ortogonalidade disjunta. Porém, se avaliarmos a probabilidade de termos ortogonalidade disjunta numa mistura, podemos verificar que ela depende de três fatores: número de fontes; proporção de valores não-nulos em relação aos valores nulos dos sinais; quantidade de amostras do sinal. Desta forma, este valor independe do número de sensores. Para conseguirmos aproveitar a diversidade de informação gerada pelos sensores, temos que fazer uma busca que considere a existência de mais de uma fonte ativa em cada instante: dessa forma, a A W s1 s2 sN x1 x2 xM yN y1 y2 . . . . . . . . . Sessão 2 - Inteligência Computacional Anais do I SPS UNICAMP Outubro de 2010 10 procura é feita em mais dimensões, limitadas pelo tamanho da dimensão do espaço gerado pelos sensores, ou seja, M. Assim, deixamos de procurar por apenas um vetor da matriz de mistura por vez, como tradicionalmente é feito [5]. Para tanto, é preciso considerar o espaço gerado pelas misturas como sendo um subespaço das fontes. Sabemos que, se a mistura tem mais fontes do que sensores, o espaço das fontes é maior e o algoritmo visará somente procurar por projeções das fontes tendo por limite a dimensão gerada no espaço das misturas. Porém, sabemos que as fontes são esparsas e, desta forma, nem todas elas estão ativas ao mesmo tempo. Portanto, se considerarmos que, para cada instante, o espaço das fontes ativas não é maior do que o das misturas, é possível encontrar todas as direções destas fontes ativas. Desse modo, o espaço das fontes ativas será projetado no subespaço gerado pelas misturas, e o espaço das fontes inativas será projetado num espaço nulo. [6] 4. Conclusões e sugestões de trabalhos futuros Atualmente, acredita-se que, para solucionar o problema de grandes quantidades de fontes, é necessário explorar a esparsidade dos sinais, e, para isto, parece ser necessário avançar nos estudos relacionados à procura por projeções das fontes nos subespaços gerados pelos sensores. Sem isto, a diversidade gerada pelos sensores acaba não sendo tão explorada e, conseqüentemente, o universo de problemas solucionáveis acaba sendo bem restringido. Como sugestão de trabalhosfuturos, pretendemos estudar melhor a questão da probabilidade de haver mais de uma fonte ativa em cada instante e sua relação com a procura por projeções das fontes. Além disto, pretendemos também relacionar os casos de separação de fontes usando esparsidade com Compressive Sensing [7], técnica que atualmente só é utilizada com uma fonte e um sensor. Referências [1] Hyvärinen, A., Karhunen, J., Oja, E.: Independent Component Analysis. John Wiley & Sons, New-York (2001) [2] Comon, P.: Independent component analysis, A new concept?: Signal Processing, vol. 36, pp. 287-314, 1994 [3] Bofill, P., Zibulevsky, M.: Underdetermined blind source separation using sparse representations. Signal Processing. 81, 2353--2363 (2001) [4] Rickard, S., “Sparse sources are separated sources”, em Proceedings of the 16th Annual European Signal Processing Conference, Florença, Italia, 2006 [5] Nadalin, E.Z., Takahata, A.K., Duarte, L.T., Suyama, R. Attux, R.: Blind Extraction of the Sparsest Component. In: In Proceedings of the 9th international Conference on Independent Component Analysis and Signal Separation , Saint-Malo, França, 2010. [6] Kim, S.; Yoo, C.D., "Underdetermined Blind Source Separation Based on Subspace Representation," Signal Processing, IEEE Transactions on, vol.57, no.7, pp.2604-2614, Julho 2009. [7] Candès, E. J., Wakin, M. B., “An Introdution to Compressive Sampling”, IEEE Signal Processing Magazine, vol. 25, pp. 21-30, Março 2008 Sessão 2 - Inteligência Computacional Anais do I SPS UNICAMP Outubro de 2010 11 Aprendizado Baseado em Teoria da Informação: Fundamentos e Perspectivas Daniel G. Silva , Romis Attux Departamento de Engenharia de Computação e Automação Industrial Faculdade de Engenharia Elétrica e de Computação Universidade Estadual de Campinas (Unicamp) danielgs@dca.fee.unicamp.br, attux@dca.fee.unicamp.br Resumo – Este artigo apresenta brevemente a nova área de pesquisa denominada Aprendizado Baseado em Teoria da Informação ouInformation Theoretic Learning, que se baseia no uso de estatísticas que sejam mais informativas em comparação com aquelas subjacentes aos tradicionais algoritmos adaptativos com critérios de segunda ordem. Além da motivação e definição desta nova área, alguns exemplos de aplicações e oportunidades de estudo são apresentados. Palavras-chave: aprendizado, teoria da informação, ITL, algoritmos adaptativos. 1. Introdução Os algoritmos de aprendizado se caracterizam por realizarem o ajuste de parâmetros através da otimização de um critério que indique o desempenho do modelo frente aos dados apresentados. Ao longo dos anos, um critério que vem sendo largamente utilizado para essa tarefa baseia-se em estatísticas de segunda ordem, como o erro quadrático médio entre o sinal de saída do mapeador e um sinal de referência. Há diversas razões para o uso de um critério baseado no segundo momento dos dados. Entre elas, podem-se destacar [3, 12]: (i) é simples de usar; (ii) possui o significado físico de ser uma medida de energia do sinal em questão; (iii) é um critério com propriedades interessantes no contexto de otimização, como diferenciabilidade e simetria; (iv) é muito bem sucedido na solução de problemas pertencentes ao domínio linear-gaussiano e (v) origina uma enorme variedade de algoritmos adaptativos. Por outro lado, sabendo que é ideal extrair o máximo de informação dos dados durante a adaptação dos parâmetros, há evidências que indicam que o segundo momento é uma medida pobre para essa tarefa de avaliar a equivalência de informação entre o sinal desejado e a saída do mapeador [6]. Além disso, o atual avanço da capacidade computacional e o estudo de problemas mais complexos em processamento de sinais levam-nos a cenários onde esta tradicional família de critérios pode não ser a mais satisfatória. A Teoria da Informação (TI), desenvolvida a partir de 1948 por Claude E. Shannon [9], lida com a quan- tificação da incerteza e da dependência estatística em processos aleatórios, ao mesmo tempo que vincula tais medidas ao conceito de informação. Esta área do conhecimento contribuiu em parte com o enorme desenvolvimento dos sistemas de comunicação daquela época até hoje. Através do trabalho pioneiro de Principe et al., de 2000, que define o Aprendizado Baseado em Teoria da Informação ouInformation Theoretic Learning (ITL) [6], surge então no estudo dos algoritmos adaptativos o interesse pelo uso de critérios derivados a partir de TI e que permitiriam superar as limitações das estatís- ticas de segunda ordem. Nas próximas seções, resumem-se brevemente os passos dados pela pesquisa em ITL até a atualidade e busca-se apontar caminhos para novas contribuições, as quais serão alvo do trabalho de doutorado do autor. 2. Entropia e Informação Mútua Entropia é o conceito primordial no estudo de TI e indica o grau de incerteza médio associado a uma determinada variável aleatória, contínua ou discreta. Para o caso contínuo, define-se a entropia diferencial de uma variável aleatória contínuaX como Hs(x) = − ∫ p(x)ln[p(x)]dx = E{−ln[p(x)]}, (1) Sessão 2 - Inteligência Computacional Anais do I SPS UNICAMP Outubro de 2010 12 ondep(x) é a função densidade de probabilidade de X. Outro conceito fundamental é o de Informação Mútua entre duas variáveis aleatórias, X e Y, contínuas: Is(x, y) = ∫ ∫ p(x, y)ln [ p(x, y) p(x)p(y) ] dxdy, (2) ondep(x, y) é função densidade de probabilidade conjunta ep(x), p(y) são as funções de densidade mar- ginais. A entropia pode ser vista como uma generalização da variância para processos com distribuições não-gaussianas, enquanto a informação mútua é uma medida de independência entre as variáveis, generali- zando o conceito de correlação [3]. Dadas estas definições, ITL é a otimização não-paramétrica de sistemas adaptativos através do uso de critérios de desempenho baseados em TI, como a Entropia, a Informação Mútua e outros [1]. 3. Aplicações de ITL Há diversas formulações de critérios baseados em TI para solucionar problemas de aprendizado supervi- sionado e não-supervisionado. Para o primeiro caso considere, por exemplo, uma máquina que realiza o mapeamentof(x,w) = y de dados de um vetor entradax para uma saíday e que tem o conjunto de parâ- metrosw ajustados de tal forma quey se “aproxime” ao máximo da saídad desejada, o que, no contexto de TI, é tentar aproximar a distribuição conjuntapw(x, d) da distribuiçãop(x, d). É possível demonstrar que, no contexto de identificação de sistemas, isto ocorre se for solucionado o problema de minimizar a entropia do sinal de erroe = d− y [2]: minw Hs(e) = − ∫ pw(e)ln[pw(e)]de. (3) Já em um problema de aprendizado não-supervisionado, pode-se utilizar o princípio de máxima transfe- rência de informação (InfoMax), que consiste em maximizar com respeito aw a informação mútua entre o sinal de entrada do mapeador (x) e o sinal de saída (y) [3]. Outra abordagem, utilizada no contexto de aná- lise de componentes independentes, é a de minimizar a informação mútua entre os componentes da saída do modelo. Identificação de sistemas não-lineares [2], separação cega de fontes [4], extração de características [10] e clusterização [5] são exemplos de problemas com aplicação de algoritmos baseados nas formulações apresentadas e em outras formulações de critérios baseados em TI. 4. Estimadores Dado que, nos problemas de aprendizado de máquina, há uma amostra finita de dados para treinamento e geralmente não se conhece sua distribuição, uma questão crucial para derivar o algoritmo de adaptação em ITL é que se utilizem estimadores das distribuições e da entropia (ou outra medida associada a TI). Os principais trabalhos nesse sentido utilizam o método de janela de Parzen para estimar a distribuição dos dados, o qual consiste de aproximar a distribuição por uma soma de funçõesKernel centradas nas amostras. Quanto ao cálculo do critério de otimização, os trabalhos de maior destaque na comunidade utilizam a definição de entropia de Renyi [7] para propor um estimadoruniversal de entropia que permite aplicar algoritmos de otimização dos parâmetros com busca pelo gradiente [1]. A entropia de Renyi pode ser vista como um caso geral da entropia de Shannon e até então mostra-se mais simples, comα = 2, para derivação de um estimador eficiente computacionalmente. Todavia, além da eficiência e dos bons resultados empíricos, ainda não há argumentos teóricos que justifiquem a escolha da entropia de Renyi em detrimento da definição clássica de Shannon ou de outras definições alternativas. Por isso também existem trabalhos que derivam estimadores baseados na entropia de Shannon e apre- sentam aplicações práticas [8, 11], embora ainda representem uma menor parcela dentro dos resultados práticos de ITL. Sessão 2 - Inteligência Computacional Anais do I SPS UNICAMP Outubro de 2010 13 5. Conclusões O AprendizadoBaseado em Teoria da Informação é uma área de pesquisa bastante nova e que já apresenta resultados promissores, extrapolando o paradigma da otimização pelo erro quadrático médio ou por outras estatísticas de segunda ordem como a variância e correlação. Problemas de natureza não-linear e com distribuição dos dados não obrigatoriamente gaussiana podem atualmente ser abordados por ITL de uma forma mais robusta. Mas por ser um campo de estudo novo, muitas questões ainda permanecem em aberto e assim fornecem oportunidades para contribuições: • Não há um consenso sobre qual é a melhor abordagem para cálculo da entropia, se pela definição de Shannon ou se pela generalização de Renyi, o que dá oportunidade para se estudar compara- tivamente o desempenho de algoritmos adaptativos com os dois métodos. Além disso, precisa-se investigar mais profundamente o motivo da escolha da definição de entropia de Renyi. • Os algoritmos de treinamento com os estimadores de entropia até agora possuem complexidade O(N2) em função do número de amostras, enquanto que os algoritmos clássicos de treinamento (ex.: gradiente descendente) em batelada possuem complexidadeO(N). Logo há o desafio de apri- morar os estimadores de entropia para ganhar eficiência computacional com garantia de precisão. • A aplicação de ITL necessita ser ampliada para outros problemas a fim de que se saiba se o seu uso é de fato superior frente a estatísticas de segunda ordem, seja em problemas já solucionados ou seja em problemas de maior complexidade e que ainda não possuem soluções satisfatórias pelos critérios tradicionais. Este artigo apresenta de maneira bastante resumida esta nova área de pesquisa, sua definição e motiva- ção. Para se aprofundar, são recomendadas as leituras dos trabalhos de Principe et al. [6] e Erdogmus [1, 3]. Referências [1] D. Erdogmus. Information Theoretic Learning: Renyi’s Entropy And Its Applications To Adaptive System Training. PhD thesis, University of Florida, 2002. [2] D. Erdogmus and J.C. Principe. An error-entropy minimization algorithm for supervised training of nonlinear adaptive systems.IEEE Transactions on Signal Processing, 50(7):1780 – 1786, 2002. [3] D. Erdogmus and J.C. Principe. From linear adaptive filtering to nonlinear information processing. IEEE Signal Processing Magazine, 23:14–33, 2006. [4] S. Haykin, editor.Unsupervised Adaptive Filtering: Blind Source Separation. Wiley, 2000. [5] T. Lehn-Schiøler, A. Hegde, D. Erdogmus, and J.C. Principe. Vector quantization using information theoretic concepts.Natural Computing, 4(1):39–51, 2005. [6] J.C. Principe, D. Xu, and J. Fisher.Information theoretic learning, chapter 7, pages 265–319. Wiley, 2000. [7] A. Renyi. Probability Theory. North-Holland, 1970. [8] N.N. Schraudolph. Gradient-based manipulation of nonparametric entropy estimates.IEEE Transac- tions on Neural Networks, 15(4):828–837, 2004. [9] C.E. Shannon. A mathematical theory of communication.Bell System Technical Journal, 27:379–423, 623–656, 1948. [10] V. Sindhwani, S. Rakshit, D. Deodhare, D. Erdogmus, J.C. Principe, and P. Niyogi. Feature selection in MLPs and SVMs based on maximum output information.IEEE Transactions on Neural Networks, 15(4):937–948, 2004. [11] Paul Viola, Nicol N. Schraudolph, and Terrence J. Sejnowski. Empirical entropy manipulation for real-world problems. InNeural Information Processing Systems 8, pages 851–857. MIT Press, 1996. [12] Z. Wang and A.C. Bovik. Mean squared error: love it or leave it?-a new look at signal fidelity measures.IEEE Signal Processing Magazine, 26(1):98–117, 2009. Sessão 2 - Inteligência Computacional Anais do I SPS UNICAMP Outubro de 2010 14 Separação Cega de Misturas com Não-Linearidade Posterior Utilizando Estruturas Monotônicas e Computação Natural Filipe O. Pereira1 , Leonardo T. Duarte2 , Ricardo Suyama3 , Romis Attux1 , João Marcos Travassos Romano2 1 - Departamento de Engenharia de Computação e Automação Industrial (DCA) 2 - Departamento de Microondas e Óptica (DMO) 3 - Universidade Federal do ABC (UFABC) Faculdade de Engenharia Elétrica e de Computação (FEEC) Universidade Estadual de Campinas (Unicamp) {filipe, attux}@dca.fee.unicamp.br,{ltduarte, rsuyama, romano}@dmo.fee.unicamp.br Resumo – Neste trabalho, investiga-se o problema de separação de fontes de misturas com não-linearidade pos- terior (PNL) baseado na minimização da informação mútua, visto que, no modelo PNL ainda é possível recuperar as fontes através da análise de componentes independentes (ICA). No entanto, há duas dificuldades maiores no em- prego da ICA em modelos PNL. A primeira delas diz respeito a uma restrição sobre as funções não-lineares: a de que elas devem ser monotônicas. O segundo problema se encontra no processo de otimização da informação mútua, pois pode haver mínimos locais. Para lidar com o primeira problema, aplicamos três tipos distintos de estruturas não-lineares monotônicas e, para contornar a presença de mínimos locais, empregamos um algoritmo bio-inspirado com capacidade de busca global. Palavras-chave: separação cega de fontes, misturas com não-linearidade posterior, estruturas monotônicas, com- putação natural. 1. Introdução De maneira geral, o problema de separação cega de fontes (blind source separation - BSS) consiste em re- cuperar um conjunto de sinais denominados fontes, a partir de observações que são misturas desconhecidas destas fontes. Primeiramente, o problema BSS foi tratado em sua versão linear, mas, em algumas situ- ações práticas, o processo de mistura possui elementos não-lineares, o que motivou a extensão denominada BSS não-linear [4]. Em BSS não-linear, merece destaque o modelo de mistura com não-linearidade poste- rior (post-nonlinear - PNL) [9], pois este modelo permite o tratamento do problema de BSS via análise de componentes independentes (Independent Component Analysis - ICA). Para efetuar a separação de misturas PNL, adota-se tipicamente um sistema separador composto por um conjunto de não-linearidades monotôni- cas e por uma matriz inversível. Além disso, é necessária uma função custo baseada numa métrica de in- formação mútua, a qual pode ser dotada de múltiplos ótimos locais. Essas dificuldades evidenciam dois problemas fundamentais de projeto: a escolha cautelosa de modelos não-lineares que sejam monotônicos e a necessidade de técnicas capazes de realizar otimização em ambientes multimodais. Neste trabalho, é pro- posta uma metodologia que busca lidar com ambos os problemas de uma forma tão ampla quanto possível. Para tanto, investigamos três estruturas monotônicas: Polinômios com restrição de monotonicidade, Rede neural monotônica de Sill [8] e Rede MLP Monotônica [5]. Para lidar com o problema de otimização da função custo, optamos pelo algoritmo CLONALG [2]. Em todos os casos, a estimação da função custo adotada - a informação mútua - foi feita por meio de uma metodologia baseada em estatísticas de ordem. 2. Separação de Misturas com Não-Linearidade Posterior Através de ICA Seja s(t) = [s1(t), . . . , sN (t)]T o vetor de sinais das fontes e x(t) = [x1(t), . . . , xN (t)]T o vetor de misturas (consideramos um número igual de misturas e fontes). Portanto,o problema de BSS é recuperar as fontes a partir somente dos valores do vetor de misturas. No caso de misturas instantâneas e lineares - o mais usual da literatura [4] -, matematicamente, as misturas são combinações lineares das fontes e podem ser representadas na forma matricial: x(t) = As(t), (1) Sessão 2 - Inteligência Computacional Anais do I SPS UNICAMP Outubro de 2010 15 onde A denota a matriz de misturas. Neste caso uma possibilidade natural é realizar a separação multipli- cando o vetor por uma matriz de separação W: y(t) = Wx(t). (2) A aplicação de ICA ao problema de separação se liga à ideia de escolher W de modo que os elementos de y(t) sejam estatisticamente independentes [4]. Quando é estruturalmente possível inverter a mistura, isso leva à recuperação das fontes a menos de ambiguidades de permutação e fator de escala [1]. A extensão para o caso post-nonlinear, ilustrado na Fig.1, leva ao seguinte modelo de mistura [9]: x(t) = f(As(t)), (3) onde f(·) = [f1(·), . . . , fN (·)]T corresponde a um conjunto de não-linearidades inversíveis e sem memória. A matriz A também deve ser inversível para que a separação seja viável. Um candidato natural a sistema separador nesse caso é: y(t) = Wg(x(t)), (4) onde g(·) = [g1(·), . . . , gN (·)]T são funções não-lineares que devem ser corretamente ajustadas para "anu- lar o efeito" de f(·), ou seja, a composição de funções gi(·) e fi(·), para i = 1, . . . , N , deve ser uma função linear. Diante desses modelos, o processo de separação passa depender de dois aspectos fundamentais: a es- colha de um critério que permita quantificar o grau de independência entre as saídas do separador e de um método de parametrização das funções não-lineares g(·). Figura 1. Sistema com Não-Linearidade Posterior. Neste trabalho, adotamos a informação mútua (estimada com a ajuda de estatísticas de ordem) como critério de separação e uma parametrização de g(·) baseada em três estruturas monotônicas. Vejamos o problema de otimização e as estruturas em mais detalhes. 3. Função Custo Baseada na Informação Mútua e Estruturas Monotônicas Considerando a estrutura de separação mostrada na Fig.1, pode-se expressar a informação mútua das saídas do separador, considerando que as funções gi(·) são inversíveis, da seguinte forma: I(y) = ∑ i H(yi)−H(x)− log(| det(W) |)− E { log( ∏ i | g′i(xi) |) } , (5) onde g ′ i denota a primeira derivada da i-ésima não-linearidade gi(·) do sistema separador. Analisando essa expressão, vemos que a estimação de I(y) requer a estimação das entropias marginais H(yi), já que H(x) é constante e os demais termos são determinados pelos parâmetros do separador. Em nosso trabalho, a estimação das entropias marginais tem sido realizada por meio de uma metodologia baseada em estatísticas de ordem [7]. O problema de minimizar a informação mútua das saídas do separador, gera uma tarefa de otimização altamente multimodal e complicada no que se refere ao uso de informações como derivadas. Percebemos, então, que se trata de um cenário propício ao uso de ferramentas de computação natural. Deste modo, Sessão 2 - Inteligência Computacional Anais do I SPS UNICAMP Outubro de 2010 16 empregamos um algoritmo inspirado no princípio da seleção clonal denominado CLONALG [2], pois, como visto em [3], tem bom desempenho para o problema em questão. A outra dificuldade de modelos PNL se encontra na parametrização das funções g(·). Neste trabalho, utilizamos três estruturas monotônicas gerais, que são: • Polinômios [6] com restrição de monotonicidade, • Rede neural monotônica de Sill [8], • Rede MLP Monotônica [5]. 4. Resultados Para avaliar o desempenho das três estruturas monotônicas, relizamos simulações em diversos cenários distintos. No primeiro caso, os polinômios conseguiram inverter a ação das não-linearidades aplicadas em f(·), o que resultou na recuperação das fontes de maneira satisfatória. No caso da rede monotônica de Sill e da rede MLP monotônica, obtivemos resultados inferiores aos dos polinômios. Ambas estruturas são capazes de inverter as não-linearidades aplicadas no sistema misturador, mas, para estes casos, o problema em geral torna-se custoso no âmbito da multimodalidade da função custo. Deste modo, o principal problema que encontramos no emprego destas duas estruturas, foi no processo de otimização. De modo a contornar esse problema de otimização, reduzimos a dimensão do problema fixando a diagonal da matriz W em 1. Desta forma os resultados foram melhores, mas abaixo do que esperávamos. 5. Conclusões A proposta foi testada para três modelos não-lineares - um aproximador polinomial, a rede neural monotônica de Sill e uma rede MLP monotônica. Os testes indicaram a consistência da proposta, especial- mente quando se empregam polinômios com restrição de monotonicidade. As demais estruturas também foram capazes de levar condições de separação, porém com menos eficiência. 6. Agradecimentos Gostaríamos de agradecer à CAPES e à FAPESP pelo apoio financeiro. Referências [1] P. Comon. Independent Component Analysis, a New Concept? Signal Processing, 36(6):287–314, 1994. [2] L. N. de Castro and F. J. Von Zuben. Learning and Optimization Using the Clonal Selection Prin- ciple. IEEE Transactions on Evolutionary Computation, Special Issue on Artificial Immune Systems, 6(3):239–251, 2002. [3] R. Suyama F. O. Pereira, E. Z. Nadalin and R. R. de F. Attux. Análise do emprego de ferramentas de computação natural no problema de separação de misturas com não-linearidade posterior. Technical report, XXVII Simpósio Brasileiro de Telecomunicações (SBrT 2009), Blumenau, Setembro 2009. [4] A. Hyvärinen, J. Karhunen, and E. Oja. Independent Component Analysis. Wiley, 2001. [5] Bernhard Lang. Monotonic Multi-layer Perceptron Networks as Universal Approximators. In Artificial Neural Networks: Formal Models and Their Applications - ICANN 2005, pages 31–37, 2005. [6] V. John Mathews and Giovanni L. Sicuranza. Polynomial Signal Processing. Wiley, 1 edition, 2000. [7] D.-T. Pham. Blind Separation of Instantenaous Mixtures of Sources Based on Order Statistics. IEEE Transactions on Signal Processing, 48(2):363–375, 2000. [8] Joseph Sill. Monotonic networks. In in Advances in Neural Information Processing Systems (NIPS, pages 661–667, 1998. [9] A. Taleb and C. Jutten. Source separation in post-nonlinear mixtures. IEEE Transactions on Signal Processing, 47(10):2807–2820, 1999. Sessão 2 - Inteligência Computacional Anais do I SPS UNICAMP Outubro de 2010 17 Codificador de áudio HE-AAC v2 José M. L. Filho , Vinícius J. A. Braga , Júlia J. D. Chanquini , Luís G. P. Meloni Departamento de Comunicações - DECOM Faculdade de Eng. Elétrica e de Computação - FEEC Universidade Estadual de Campinas (Unicamp) {matias,vinicius,juliajdc,meloni}@decom.fee.unicamp.br Resumo – Este artigo tem como objetivo apresentar as principais evoluções da família dos codificadores de áudio padronizada pela Moving Picture Experts Group (MPEG) existentes até a última versão do Advanced Audio Coding (AAC). Projetado para ser o sucessor do formato MP3, o ACC é utilizado como codificador de áudio no padrão do Sistema Brasileiro de TV Digital (SBTVD). Palavras-chave: Codificadores, Áudio, Padrão. 1. Introdução Em 1982, com o surgimento do CD, o áudio digital se tornou cada vez mais presente no dia-a-dia. Em um único CD passou a ser possível o armazenamento de mais de 60 minutos de áudio de alta qualidade. No contexto de seu surgimento, isto era excelente, mas com o surgimento do compartilhamento de arquivos de áudio, através da internet, houve a necessidade de se criar mecanismos de compressão ainda maiores diante das limitações de largura de banda. Para suprir esta necessidade de limitação de largura de banda, foi necessário a criação de um formato que conseguiria reproduzir som com qualidade de CD com uma taxa de compressão razoável. Foi assim, que em 1987, o Institut Integrierte Schaltungen (IIS) juntamente com a Universidade de Erlangen, ambas localizadas na Alemanha, começarama pesquisar uma codificação per- ceptual de áudio para transmissão digital de áudio. Todo o trabalho resultou num algoritmo de compressão de áudio chamado MP3. No decorrer deste artigo, é apresentado a evolução dos principais codificadores MPEG. Este trabalho teve sua origem em uma das meta físicas do projeto da Rede H.264 - SBTVD, coor- denado pelo Professor Luís G. P. Meloni. O projeto permitiu o estudo de diversos codificares de áudio para a transmissão digital, algumas técnicas de otimização em hardware [2] e áudio multicanal [3] do MPEG-4 AAC . Para embarcar os códigos foram empregados no kit de desenvolvimento da Analog Device. 2. Evolução dos Codificadores MPEGs Com o intuito de estabelecer padrões para codificadores digitais visando um melhor aproveitamento das novas tecnologias aliadas à alta qualidade alguns grupos se reuniram. Um dos primeiros e mais importantes grupos se reuniram com a finalidade de estabelecer um padrão, foi assim que em 1988 o MPEG padronizou a compressão/descompressão, o processamento e a representação codificada de áudio, vídeo e dados, e esta versão foi chamada de MPEG-1(ISO/IEC 11172) [4]. Uma das partes deste padrão trata especificamente da codificação de áudio (ISO/IEC 11172-3) e nela são descritas a sintaxe e a semântica para três classes de métodos de compressão conhecidos como layers. O mais conhecido deles é o MPEG-1 Audio Layer III, mais conhecido como MP3, que desde seu surgimento tornou-se o principal padrão e até hoje está presente em diversos lugares. Algumas das características que fizeram do MP3 algo tão popular foi a utilização de uma variante da Trasformada Discreta de Cosseno (MDCT), do inglês Modified Discrete Cosine Transform, e, também, por introduzir a utilização de recursos da psico-acústica para a redução da taxa de dados necessária para para um fluxo de áudio. Alguns anos mais tarde o MPEG se reuniu novamente com a finalidade de melhorar este padrão. Em 1994, foi criado o MPEG-2 (ISO/IEC 13818) que trouxe uma versão do MP3 com algumas melhorias principalmente a codificação multicanais, com até 5.1 canais, e a implementação do AAC (ISO/IEC 13818- 7). Em 1998, mais um encontro do mesmo grupo foi criado um novo padrão, o MPEG-4 (ISO/IEC 14496) onde ao invés de aumentar a eficiência da compressão optou-se pela inclusão de novas funcionalidades, como por exemplo o Temporal Noise Shaping (TNS), o Long Term Prediction (LTP) e o Transformation- domain Weighted Interleave Vector Quantization (TWIN-VQ). Sessão 3 - Codificação de Áudio Anais do I SPS UNICAMP Outubro de 2010 18 Na década de 2000, o padrão AAC foi novamente melhorado com a introdução de duas novas tecnolo- gias. Em 2003 foi introduzido o Spectral Band Replication (SBR) e com isso surgiu a primeira versão High Efficiency AAC (HE-AAC), e, em 2006, foi introduzido o Parametric Stereo (PS) sendo então nomeado como a segunda versão do HE-AAC. O SBR aumenta a largura de banda e permite ao codificador de áudio entregar o mesmo resultado utilizando a metade da taxa de bits que o código do codificador necessitaria, se utilizando seus próprios recursos. Já o PS aumenta a eficiência da codificação uma segunda vez explorando uma representação paramétrica da imagem estéreo de um sinal. O MPEG não foi o único nesta busca de um padrão de codificadores de áudio. Outras instituições também criaram seus padrões de acordo com suas necessidades. Entre os demais padrões vale a pena citar o Dolby AC-2/3 desenvolvido pela Dolby Digital e o Sony ATRAC desenvolvido pela Sony. Assim como os padrões MPEG seus objetivos eram fornecer a melhor qualidade possível para uma determinada aplicação. A seguir, Tabela 1 [1], mostra um quadro comparativo entre os principais padrões de codificação de áudio. Tabela 1. Principais codificadores de áudio disponíveis no mercado. Nome Taxa (kbps) Complexidade Principais Aplicações MPEG-1 Layer I 192 por canal baixa para codificador Cassete compacto digital de áudio estéreo e decodificador MPEG-1 Layer II 128 por canal baixa para DAB,CD-1,DVD de áudio estéreo decodificador MPEG-1 Layer III 96 por canal baixa para ISDN, Sistemas de Rádio via de áudio estéreo decodificador satélite, aúdio de internet Dolby AC-2 128 por canal baixa para codificador Ponto a ponto, cabo e decodificador Dolby AC-3 384 para os 6 baixa para Ponto a multiponto, HDTV, cabo canais de áudio decodificador DVD, Cinema, LaserDisc Sony ATRAC 140 por canal baixa para codificador MiniDisc e decodificador MPEG-2 AAC 384 para os 6 baixa para HDTV, DVD, rádio na internet, etc. canais de áudio decodificador DVD, Cinema, LaserDisc 3. O sistema de codificação MPEG-2/4 AAC Tanto o MPEG-2 AAC quanto o MPEG-4 AAC tem uma estrutura semelhante que é mostrada na Figura 1. Sua estrutura básica é composta das seguintes partes: Psychoacoustic Model (PAM), Modified Discrete Cosine Transform (MDCT), Spectrum Process (SPP) e Quantization Loop (Q-Loop). Figura 1. Blocos básicos para o codificador MPEG2/4. A MDCT transforma as amostras do sinal de entrada, que estão no domínio do tempo, em espectros, que estão no domínio da frequência. Ao mesmo tempo o PAM calcula a relação sinal-máscara (SMR), do inglês Signal-to-Masking Ratio, que é usada para determinar a precisão do Q-Loop. A saída do PAM também inclui a informação do tipo de bloco que é usado para decidir o bloco que será utilizado pela MDCT. Depois da MDCT converter os dados em espectros, os coeficientes da MDCT são transferidos para o SPP que é usado para remover suas redundâncias e irrelevâncias através da codificação Joint Stereo (JS) e do (Temporal Noise Shaping) (TNS). Finalmente, os espectros realizam a quantização não-uniforme e a codificação sem ruído baseado no limiar de mascaramento e no número disponível de bits para minimizar o erro de quantização audível no Q-Loop [5]. 3.1. HE-AAC v1 Como foi dito anteriormente, a implantação da nova tecnologia SBR ao AAC deu origem ao que chamamos de HE-AAC v11. O principal problema dos codificadores tradicionais de áudio que precisam operar com 1norma ISO/IEC 14496-3:2001/Amd 1 Sessão 3 - Codificação de Áudio Anais do I SPS UNICAMP Outubro de 2010 19 taxas de compressão muito baixas é o fato que que necessitam de mais bits para representar o espectro do que as taxas disponíveis. Para resolver esse problema utiliza-se o SBR. A idéia por trás do SBR é a observação de que normalmente existe uma forte correlação entre as carac- terísticas da faixa de alta frequência de um sinal e as características da faixa de baixa frequência do mesmo sinal. Assim, uma boa aproximação para a representação das altas frequências do sinal de entrada pode ser alcançada pela transposição das baixas frequências, Figura 2. Figura 2. Por transposição criando altas frequências e ajustando o envelope [6]. Além da transposição, a reconstrução das altas frequências, como pode ser visto na Figura 2, é realizado pelo envelope espectral do sinal de entrada original ou através de informações adicionais para compensar uma potencial falta de componentes de alta frequência [6]. Além do SBR, o HE-AAC v1 adicionou algumas ferramentas úteis ao núcleo do codificador AAC, Figura 3, como a análise Quadrature Mirror Filterbank (QMF), Cálculo do Envelope de Dados e Down-Sampler. Figura 3. Diagrama de blocos do MPEG-4 HE AAC v1. Todas as taxas de amostragem do sinal são transferidos para o codificador SBR e para o Down-Sampler diretamente. Os sinais PCM com a metade da taxa de amostragem que são a alimentação para o codificador AAC serão produzidas a apartir do Down-Sampler. O codificador SBR fica a cargo de estimar os parâmetros de controle para garantir que o resultado da reconstrução das altas frequências seja o mais semelhante possível com o sinal original. 3.2. HE-AAC v2 A descoberta de uma nova tecnologia fez mais uma vez mudar o padrão de codificação de áudio. Con- siderando que o SBR explora as possibilidades de uma representação parametrizada das altas frequências, a idéia pro trás do PS é parametrizar os sinais estéreo. O princípiodo PS é a transmissão de um sinal mono codificado em conformidade com o formato HE- AAC em conjunto com a descrição de uma imagem estéreo. A Figura 4 mostra este princípio. Sessão 3 - Codificação de Áudio Anais do I SPS UNICAMP Outubro de 2010 20 Figura 4. Princípio básico do processo de codificação do PS [6]. A junção das tecnologias AAC, SBR e PS são os principais blocos do HE-AAC v2. O AAC é usado para codificar as baixas frequências, o SBR codifica as altas frequências e o PS codifica a imagem estéreo de uma forma parametrizada. O diagrama de blocos do codificador HE-AAC v2 é mostrado na Figura 5. Figura 5. Diagrama de blocos do HE-AAC v2 [6]. Se a ferramenta PS for usada o codificador PS extrai informações baseadas nas amostras QMF. Do contrário, o sinal de entrada é realimentado na proporção de 2:1 e, outra vez, realimenta o codificador AAC. 4. Conclusões Neste artigo apresentou a evolução dos codificadores de áudio criadas pela MPEG. A última versão, HE- AAC v2, é utilizada no padrão do Sistema Brasileiro de TV Digital (SBTVD). O processo de codificação de áudio é um caminho que sempre busca de algoritmos e métodos cuja adaptabilidade e inteligência sigam os parâmetros da produção para satisfazer as necessidades humanas. Referências [1] BARBEDO, J. G. A. Avaliação objetiva de qualidade de sinais de Áudio e voz. Tese de Doutorado - Unicamp, 2004. [2] BRAGA, V. J. A. Técnicas de otimização aplicadas na decodificação de Áudio digital em sistemas embarcados com processadores Blackfin. Dissertação de Mestrado - Unicamp, 2010. [3] CHANQUINI, J. J. D. Áudio multicanal e o codificador mpeg-4 aac. Dissertação de Mestrado - Unicamp, 2010. [4] HARTE, L. Introduction to MPEG; MPEG-1, MPEG-2 and MPEG-4. Athos Publishing. 2006. [5] LUO, J. H. Design and VLSI Implementation of Low Complexity MDCT-based Psychoacoustic-Model Co-Processor for MPEG-2/4 AAC Encoder. National Central University, Taiwan, 2006. [6] MELTZER, S., AND MOSER, G. MPEG-4 HE-AAC v2 Audio Coding for Today Digital media World. EBU Technical Review, 2006. Sessão 3 - Codificação de Áudio Anais do I SPS UNICAMP Outubro de 2010 21 Áudio Multicanal e o Codificador MPEG-4 AAC Júlia J. D. Chanquini, José M. L. Filho, Vinícius J. A. Braga, Luís G. P. Meloni Departamento de Comunicações - DECOM Faculdade de Eng. Elétrica e de Computação - FEEC Universidade Estadual de Campinas (Unicamp) (juliajdc,matias,vinicius,meloni)@decom.fee.unicamp.br Resumo – Este artigo tem como objetivo apresentar um breve resumo sobre codificação de sinais de áudio multicanal apresentando o codificador do padrão MPEG-4 AAC, usado no Sistema Brasileiro de TV Digital - SBTVD. Palavras-chave: áudio, multicanal, codificador, AAC. 1. Introdução O termo áudio multicanal se refere a áudio gerado e reproduzido em múltiplos canais para criar uma sensação envolvente do som no ouvinte. E é usado em cinemas e home theaters. A configuração mais comum é a 5.1, que são cinco canais discretos cobrindo toda a faixa de freqüências audíveis distribuídos em um par estéreo frontal, um canal central e outro par estéreo traseiro. E mais um canal para efeitos de baixa freqüência (até 120Hz), conhecido como canal Low Frequency Effect (LFE) a ser reproduzido por um subwoofer, que é limitado em freqüência e tem um décimo da largura de banda dos outros canais, por isso a denominação “.1”. Os padrões de televisão digital atuais já compreendem a transmissão de áudio em formato multicanal. A norma brasileira usa o formato padrão MPEG-4 AAC [2] para codificar o áudio a ser transmitido e prevê além do estéreo, a configuração de canais 5.1[1]. O AAC é um codificador perceptual de áudio que possui ferramentas para codificação de áudio incluindo vários canais. Neste artigo serão apresentados conceitos básicos de um codificador perceptual e uma breve apresentação do codificador MPEG-4 AAC e suas principais ferramentas. O estudo e implementação deste codificador faz parte do projeto Rede H.264 do qual o laboratório RT-DSP participa. 2. Codificação Perceptual de Áudio A codificação perceptual de áudio visa reduzir o número de bits necessários para codificar um sinal de áudio eliminando partes do sinal que não são percebidas pela audição humana. Um sinal de áudio que é perceptualmente igual ao original é chamado de transparente. Para calcular onde alocar mais ou menos bits os codificadores usam os chamados modelos psicoacústicos, que são modelos matemáticos de como o sistema auditivo humano processa subjetivamente o som. A partir desse modelo é calculado um limiar de mascaramento, que é um limite de energia abaixo do qual um tom ou ruído não será percebido. Este limiar pode ser usado para definir limites de ruído de quantização e partes do áudio que não serão percebidas e podem ser descartadas ou codificadas com menos bits. 2.1. O Modelo Psicoacústico O modelo psicoacústico envolve alguns conceitos baseados no estudo do sistema auditivo humano que serão apresentados brevemente a seguir. 2.1.1 Percepção de volume A percepção do volume pelo ouvido humano não é linear. O ser humano é mais sensível a variações de pressão da onda sonora para as baixas pressões do que para as altas, por isso as ondas sonoras são normalmente caracterizadas em nível logarítmico. A unidade mais usada para a o nível de pressão sonora é a Sound Pressure Level (SPL), a qual expressa o nível de pressão sonora em escala logarítmica em relação a um nível de referência. Sessão 3 - Codificação de Áudio Anais do I SPS UNICAMP Outubro de 2010 22 2.1.2 Limiar Absoluto de Audibilidade em Silêncio É a quantidade de energia necessária para que um ouvinte possa detectar um som com apenas um componente em freqüência (um tom) em um ambiente em silêncio absoluto. É tipicamente expressado em dB SPL. 2.1.3 Bandas Críticas Uma banda crítica define uma faixa em torno de uma freqüência central, a qual está associada a um ponto da membrana basilar, que é responsável pela análise em freqüência do som, de modo que a cada ponto é possível definir uma banda crítica. Quando dois sinais se situam dentro de uma banda crítica, o de maior energia poderá dominar a percepção e mascarar o outro estímulo sonoro. Dependendo dos níveis, dois tons distintos só serão distinguidos um do outro quando estiverem em bandas críticas diferentes. Este é o fenômeno responsável pelo mascaramento simultâneo. Apesar das bandas críticas serem contínuas na freqüência, para aplicações práticas é comum ser utilizado um conjunto discreto. O conjunto discreto mais utilizado é denominado escala Bark. Uma distância de um Bark corresponde à largura de uma banda crítica. 2.1.4 Mascaramento O mascaramento ocorre quando um som torna-se imperceptível para um ouvinte devido à presença de outro som. Quando isso ocorre, o sinal que se torna imperceptível é o mascarado e o que provoca o mascaramento é o mascarador. O nível de energia abaixo do qual um componente do sinal é mascarado por outros componentes é chamado de limiar de mascaramento. Além de depender da localização dos sinais mascarador e mascarado no plano tempo-freqüência, o limiar de mascaramento progressivo também depende da duração do mascarador. O mascaramento normalmente é classificado em duas categorias principais: simultâneo e não simultâneo (ou temporal). 2.1.5 Espalhamento do Mascaramento Apesar dos efeitos do mascaramento serem muito maiores dentro da banda crítica, eles propagam-se pelas demais regiões do espectro. Esse efeito é conhecido como espalhamento do mascaramento. Tipicamente, o espalhamento do mascaramento é aproximado por uma função triangular na escala Bark, independentemente da freqüência e do nível do sinal mascarador. Essa função é conhecida como função de espalhamento. 2.1.6 Entropia Perceptual A entropia perceptual é uma medida proposta por Johnston para representar a quantidade de informação relevante em um determinado sinal de áudio, em bits por amostra (ou bits/s),
Compartilhar