ESTIMAC¸AO DAS DIREC¸ ˜ OES DE CHEGADA DE FONTES ˜ SONORAS VEICULARES USANDO ARRANJO DE MICROFONES

•
UNIP

Marcela Lima
25/04/2018
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 52 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 52 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 52 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Engenharia Elétrica e Engenharia Eletrônica

3.620 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
ESTIMAC¸A˜O DAS DIREC¸O˜ES DE CHEGADA DE FONTES
SONORAS VEICULARES USANDO ARRANJO DE
MICROFONES
Gabriela Dantas Rocha
Projeto de Graduac¸a˜o apresentado ao Curso
de Engenharia Eletroˆnica e de Computac¸a˜o
da Escola Polite´cnica, Universidade Federal
do Rio de Janeiro, como parte dos requisitos
necessa´rios a` obtenc¸a˜o do t´ıtulo de Enge-
nheira.
Orientadora: Mariane Rembold Petraglia
Rio de Janeiro
Marc¸o de 2018
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO
Escola Polite´cnica - Departamento de Eletroˆnica e de Computac¸a˜o
Centro de Tecnologia, bloco H, sala H-217, Cidade Universita´ria
Rio de Janeiro - RJ CEP 21949-900
Este exemplar e´ de propriedade da Universidade Federal do Rio de Janeiro, que
podera´ inclu´ı-lo em base de dados, armazenar em computador, microfilmar ou adotar
qualquer forma de arquivamento.
E´ permitida a menc¸a˜o, reproduc¸a˜o parcial ou integral e a transmissa˜o entre bibli-
otecas deste trabalho, sem modificac¸a˜o de seu texto, em qualquer meio que esteja
ou venha a ser fixado, para pesquisa acadeˆmica, comenta´rios e citac¸o˜es, desde que
sem finalidade comercial e que seja feita a refereˆncia bibliogra´fica completa.
Os conceitos expressos neste trabalho sa˜o de responsabilidade do(s) autor(es).
iv
AGRADECIMENTO
Agradec¸o a` minha orientadora, Mariane, pela confianc¸a em mim depositada e pela
ajuda no desenvolvimento deste trabalho. E ainda a` todos os professores que cruza-
ram o meu caminho ao longo deste curso, na˜o so´ por me passarem o conteu´do que
sera´ a base para a minha carreira profissional, mas principalmente por despertarem
em mim a paixa˜o pela Engenharia Eletroˆnica.
Agradec¸o aos meus colegas da faculdade, pelas lic¸o˜es de companheirismo e gene-
rosidade que me ensinaram, e pelos momentos de descontrac¸a˜o que tornaram essa
longa caminhada um pouco menos a´rdua. E tambe´m a` minha famı´lia e meus amigos,
que me ofereceram refu´gio durante os momentos mais conturbados e estressantes.
Por u´ltimo e mais importante, agradec¸o ao meu pai, pois suas contribuic¸o˜es para
a conclusa˜o desta etapa da minha vida sa˜o muito anteriores ao in´ıcio deste projeto
ou deste curso. Agradec¸o por sempre incentivar meus estudos e pelo investimento
financeiro realizado em prol da minha educac¸a˜o. Sou grata tambe´m pelo respeito a`s
minhas escolhas pessoais e profissionais e pela compreensa˜o e apoio concedidos nos
momentos dif´ıceis que passei ao longo do curso. E, por fim, agradec¸o por ser uma
das poucas pessoas que nunca perguntou: “quando voceˆ vai se formar?”. Amo voceˆ.
v
RESUMO
A poluic¸a˜o sonora e´ considerada um problema de sau´de pu´blica pela Organizac¸a˜o
Mundial da Sau´de (OMS). A utilizac¸a˜o de mapas de ru´ıdo mostra-se ineficiente
na avaliac¸a˜o das intervenc¸o˜es em a´reas urbanas. Uma alternativa para avaliar a
qualidade do ru´ıdo sonoro ocorre a partir da simulac¸a˜o do som tridimensional do
local de interesse. Devido a` diversidade de fontes sonoras urbanas, principalmente
veiculares, torna-se necessa´ria a criac¸a˜o de um banco de dados de sinais para serem
utilizados nos simuladores.
Este trabalho apresenta um sistema composto por um arranjo de microfones,
que registra os dados de a´udio e os fornece a uma etapa de processamento. Essa,
baseada na diferenc¸a entre o sinal de dois sensores, estima a direc¸a˜o de chegada
unidimensional do sinal. Quatro me´todos sa˜o testados para o processamento do
som. O primeiro se baseia na func¸a˜o correlac¸a˜o cruzada, o segundo se inspira nas
diferenc¸as de tempo interaurais e os dois u´ltimos utilizam filtros adaptativos. Uma
etapa adicional e´ introduzida para lidar com a multiplicidade das fontes de ru´ıdo,
representadas pelos automo´veis e seus diferentes elementos.
O sistema proposto consegue, de forma automa´tica, rastrear a posic¸a˜o do carro
ao longo do tempo, ale´m de distinguir e separar as componentes geradas pelas rodas
dianteiras e traseiras. Desse processo e´ poss´ıvel ainda extrair informac¸o˜es sobre a
velocidade do ve´ıculo. Conclui-se que algoritmos baseados na diferenc¸a de atraso
entre o sinal de dois sensores sa˜o capazes de estimar a direc¸a˜o de chegada de uma
fonte em movimento, dentro de um cena´rio urbano. A detecc¸a˜o de mu´ltiplas fontes,
no entanto, exige uma etapa adicional de processamento.
Palavras-Chave: AEVD, arranjo de sensores, direc¸a˜o de chegada, FLMS, GCC,
ITD, processamento de sinais, ru´ıdo urbano.
vi
ABSTRACT
Noise pollution is considered a public health issue by the World Health Orga-
nization (WHO). Noise map shows to be an inefficient way of evaluating urban
interventions. An alternative for rating environmental noise arises from the 3D
sound simulation of the concerned area. Diversity of urban noise sources, especially
from vehicles, results in the need of creating a signal data base to be used by the
simulator.
A system is introduced consisting of a microphone array, which registers audio
data and feed it to a processing stage that, based on the signal from two sensors,
estimates the unidimensional direction of arrival. Four DOA estimation methods are
tested. The first one is based on cross-correlation function, the second is inspired
by the interaural time difference, and the others use an adaptive filter strategy.
One additional step is introduced to handle the multiple noise sources found in this
environment, represented by cars and its elements.
The proposed system is able to automatically track vehicle position through time
and also distinguishes and isolates the front and rear wheel components. From the
process is still possible to obtain information concerning the vehicle speed. The-
refore, time delay difference based algorithms are able to estimate the direction of
arrival of a single moving source in an urban environment. For multiple source
tracking, though, an extra processing step is required.
Key-words: AEVD, array processing, direction of arrival, environmental noise,
FLMS, GCC, ITD, signal processing.
vii
SIGLAS
DOA - Direction of Arrival
GCC - Generalized Cross-Correlation
IDFT - Inverse Discrete Fourier Transform
LISA - Laborato´rio de Instrumentac¸a˜o e Simulac¸a˜o Acu´stica
LMS - Least Mean Square
PHAT - Phase Transform
TDD - Time Delay Difference
UFRJ - Universidade Federal do Rio de Janeiro
viii
Suma´rio
Lista de Figuras xi
Lista de Tabelas xiii
1 Introduc¸a˜o 1
1.1 Tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Motivac¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5 Descric¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Estimac¸a˜o da Direc¸a˜o de Chegada 4
2.1 Me´todo Baseado na Func¸a˜o GCC-PHAT . . . . . . . . . . . . . . . . 5
2.2 Me´todo Baseado na Diferenc¸a de Tempo Interaural . . . . . . . . . . 8
2.3 Me´todos Adaptativos . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1 Me´todo Baseado na Minimizac¸a˜o do Erro Quadra´tico Me´dio
(LMS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.2 Me´todo Baseado na Decomposic¸a˜o Espectral (AEVD) . . . . . 12
3 Aquisic¸a˜o e Estudo do Sinal 16
3.1 Medidas Experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2 Curva Teo´rica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.3 Ana´lise do Sinal Acu´stico . . . . . . . . . . . . . . . . . . . . . . . . . 20
4 Resultados 26
4.1 Separac¸a˜o de Fontes com Deslocamento Paralelo . . . . . . . . . . . . 32
ix
5 Conclusa˜o 36
6 TrabalhosFuturos 37
Bibliografia 38
x
Lista de Figuras
2.1 Esquema com dois microfones utilizado para a localizac¸a˜o de fontes
sonoras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Esquema utilizado para detectar a correspondeˆncia de fase entre os
sinais para a frequeˆncia k e janela de tempo m. . . . . . . . . . . . . 9
2.3 Sistema utilizado para a estimac¸a˜o do TDD composto por um filtro
adaptativo FIR de comprimento L. . . . . . . . . . . . . . . . . . . . 11
2.4 Modelo do sinal que chega aos microfones a` esquerda, em linha trace-
jada. Estimador das respostas ao impulso a` direita, em linha cont´ınua. 13
3.1 Vista superior do experimento com seus principais componentes. . . . 17
3.2 Vista frontal do arranjo de sensores. O microfone 5 apresentou falhas
durante as gravac¸o˜es e seus registros na˜o foram utilizados na etapa
de estimac¸a˜o da DOA. . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3 Esquema tridimensional do experimento. Altura h medida entre o
cha˜o e o centro do arranjo de microfones. Distaˆncia l entre a fonte e
um dos microfones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.4 Curva teo´rica do TDD para uma fonte a 60 km/h. . . . . . . . . . . . 20
3.5 Esquema utilizado para o ca´lculo do comprimento da janela de dados. 21
3.6 Espectrograma do sinal amostrado a 44,1 kHz. . . . . . . . . . . . . . 23
3.7 Estimativa do espectro do sinal amostrado a 44,1 kHz. . . . . . . . . . 23
3.8 Estimativas do espectro para o carro 1. Sinal reamostrado a 16 kHz. . 24
3.9 Estimativas do espectro para a velocidade de 60 km/h. Carros 1 e 2
com caˆmbio automa´tico (A), e carro 3 com caˆmbio manual (M). Sinal
reamostrado a 16 kHz. . . . . . . . . . . . . . . . . . . . . . . . . . . 25
xi
4.1 Comparac¸a˜o entre diferentes valores deN . Estimativa da DOA obtida
com o me´todo GCC-PHAT para vx = 40 km/h e Fs = 44 100 Hz. . . . 27
4.2 Func¸a˜oRx1x2 calculada com o me´todo GCC-PHAT para vx = 60 km/h,
Fs = 44 100 Hz e N = 256. . . . . . . . . . . . . . . . . . . . . . . . . 27
4.3 DOA estimada com o me´todo GCC-PHAT para vx = 60 km/h, Fs =
44 100 Hz e N = 256. . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.4 Me´dia na frequeˆncia dos histogramas obtidos com o me´todo ITD para
vx = 60 km/h, Fs = 44 100 Hz, N = 512 e α = 0, 9. . . . . . . . . . . . 29
4.5 DOA estimada com o me´todo ITD para vx = 60 km/h, Fs = 44 100 Hz,
N = 512 e α = 0, 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.6 Mapeamento dos coeficientes do filtro adaptativo (LMS) para vx =
60 km/h, Fs = 44 100 Hz, N = 256 e µ = 0, 25. . . . . . . . . . . . . . 30
4.7 DOA estimada com filtro adaptativo (LMS) para vx = 60 km/h, Fs =
44 100 Hz, N = 256 e µ = 0, 25. . . . . . . . . . . . . . . . . . . . . . 30
4.8 Mapeamento dos coeficientes do filtro adaptativo (EVD) para vx =
60 km/h, Fs = 44 100 Hz, N = 256 e µ = 0, 25. . . . . . . . . . . . . . 31
4.9 DOA estimada com filtro adaptativo (EVD) para vx = 60 km/h, Fs =
44 100 Hz, N = 256 e µ = 0, 25. . . . . . . . . . . . . . . . . . . . . . 31
4.10 Func¸a˜o Rx1x2 e TDD estimado com o me´todo GCC-PHAT para vx =
60 km/h, Fs = 44 100 Hz e N = 256. . . . . . . . . . . . . . . . . . . . 32
4.11 Etapas do ajuste de curvas, antes (a) e depois (b) da eliminac¸a˜o dos
pontos discrepantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.12 Func¸a˜o Rx1x2 e TDD estimado com o me´todo GCC-PHAT para vx =
60 km/h, Fs = 44 100 Hz e N = 256. . . . . . . . . . . . . . . . . . . . 34
4.13 Estimativa da direc¸a˜o de chegada obtida com o me´todo GCC-PHAT
para Fs = 44 100 Hz e N = 256, seguido da etapa de po´s-processamento. 35
xii
Lista de Tabelas
4.1 Coeficientes de ajuste obtidos ao estimar a direc¸a˜o de chegada. . . . . 34
xiii
Cap´ıtulo 1
Introduc¸a˜o
1.1 Tema
O trabalho aqui apresentado tem como tema a localizac¸a˜o de fontes sonoras base-
ada na estimac¸a˜o da direc¸a˜o de chegada, usualmente chamada de DOA (do ingleˆs,
direction of arrival). A partir do sinal recebido por um arranjo de microfones, do
qual se conhece a geometria, e´ poss´ıvel estimar o posicionamento da fonte atrave´s
de diferentes abordagens. Os me´todos testados baseiam-se na func¸a˜o correlac¸a˜o
cruzada generalizada com transformada de fase (GCC-PHAT, do ingleˆs Generalized
Cross-Correlation with Phase Transform) [1], nas diferenc¸as de tempo interaurais
(ITD, do ingleˆs Interaural Time Differences) [2] e em filtros adaptativos [3] para
chegar a uma estimativa robusta da DOA.
Os me´todos sa˜o aplicados em trechos de sinais sonoros, gravados com o aux´ılio de
um arranjo de microfones em um cena´rio urbano. Portanto, o a´udio captado reflete
as caracter´ısticas do ru´ıdo sonoro observado nas cidades, sendo formado principal-
mente pelo som dos ve´ıculos motorizados que compo˜em o traˆnsito do local.
1.2 Motivac¸a˜o
O ru´ıdo urbano representa um fator importante na avaliac¸a˜o do conforto e da
qualidade de vida em um cidade, ale´m de ser considerado pela Organizac¸a˜o Mundial
da Sau´de (OMS) um problema de sau´de pu´blica [4]. Para entender o efeito do
1
ru´ıdo nos indiv´ıduos de uma sociedade, e´ necessa´rio um estudo de aspectos te´cnicos
e psicoacu´sticos [5] que buscam quantificar esse fenoˆmeno, com a avaliac¸a˜o final
geralmente feita atrave´s da ana´lise de mapas acu´sticos [6]. Mas a caracterizac¸a˜o
fornecida por esses mapas na˜o e´ suficiente para expressar a real impressa˜o sonora do
ambiente, ale´m de ser de dif´ıcil compreensa˜o para a populac¸a˜o em geral, incluindo os
setores responsa´veis pela tomada de deciso˜es relacionadas a`s intervenc¸o˜es urbanas e
seus impactos.
E´ deseja´vel enta˜o o desenvolvimento de uma ferramenta de realidade virtual
acu´stica capaz de simular e reproduzir o som tridimensional que seria ouvido em
um determinado local da cidade. Assim, os o´rga˜os competentes e a sociedade em
geral podem ter acesso a um paraˆmetro realista para a avaliac¸a˜o do ru´ıdo.
Contudo, o desenvolvimento do sistema de audibilizac¸a˜o, termo usado para o
processo de gerac¸a˜o do som tridimensional, e´ desafiador. Para que o resultado
seja realista, os modelos de propagac¸a˜o do som utilizados devem incluir toda a
complexidade encontrada nos cena´rios urbanos e, ale´m disso, a caracterizac¸a˜o das
fontes sonoras e´ fundamental para gerar os sons utilizados na simulac¸a˜o.
O escopo desde trabalho e´ caracterizar as fontes de ru´ıdo urbano. Os ve´ıculos re-
presentam a principal fonte de ru´ıdo nas cidades e apresentam uma grande variedade
em suas formas de fabricac¸a˜o, uso e manutenc¸a˜o. Ale´m disso, o som emitido por
cada ve´ıculo possui uma contribuic¸a˜o dos seus va´rios componentes: o som do rola-
mento dos pneus, do ronco do motor, do escapamento, entre outros. O ru´ıdo gerado
por cada componente apresenta caracter´ısticas diferentes, que devem ser observadas
a fim de gerar, atrave´s da simulac¸a˜o, o som que seria realmente percebido.
1.3 Objetivo
Este trabalho tem como objetivo o estudo e a implementac¸a˜o de quatro me´todos
de localizac¸a˜o de fontes acu´sticas para estimar a direc¸a˜o de chegada de fontes sonoras
veiculares. Ale´m disso, deseja-se estudar as caracter´ısticas espectrais dos sinais de
a´udio registrados com o aux´ılio de um arranjo de microfones.
2
1.4 Metodologia
Para a utilizac¸a˜o dos me´todos de estimac¸a˜o da DOA na aplicac¸a˜o desejada, e´
necessa´rio um conjunto de dados que representem o ru´ıdo sonoro de uma cidade.
Com aux´ılio do equipamento cedido pelo Laborato´rio de Instrumentac¸a˜o e Simulac¸a˜o
Acu´stica (LISA) da UFRJ e tendo como cena´rio a Cidade Universita´ria, localizada
no Rio de Janeiro, os a´udios utilizados ao longo deste trabalho foram registrados.A partir desses a´udios, e´ encontrada uma estimativa para a diferenc¸a de atraso
∆t entre os sinais incidentes em dois microfones do arranjo. Em seguida, o aˆngulo
φ correspondente ao posicionamento da fonte pode ser encontrado.
A implementac¸a˜o dos me´todos segue os procedimentos descritos em [7], assim
como os algoritmos desenvolvidos no software MATLAB sa˜o baseados nos co´digos
disponibilizados por esse autor. As devidas modificac¸o˜es sa˜o realizadas para servir
a` aplicac¸a˜o deste trabalho.
Visando obter um paraˆmetro de avaliac¸a˜o para a estimativa da direc¸a˜o de che-
gada, foi derivada uma curva teo´rica para cada fonte sonora baseada na geometria
do problema. As medidas necessa´rias para o ca´lculo da curva foram efetuadas no
dia e local da gravac¸a˜o dos a´udios. Os resultados obtidos com a implementac¸a˜o dos
me´todos estudados sa˜o enta˜o exibidos em gra´ficos gerados no MATLAB e compara-
dos com os valores teo´ricos calculados.
1.5 Descric¸a˜o
No Cap´ıtulo 2 sa˜o apresentadas as te´cnicas utilizadas para a estimac¸a˜o da direc¸a˜o
de chegada. O Cap´ıtulo 3 apresenta um estudo acerca dos sinais de a´udio dis-
pon´ıveis e da forma como foram obtidos. No Cap´ıtulo 4 encontram-se os resultados
alcanc¸ados com a implementac¸a˜o dos algoritmos descritos no Cap´ıtulo 2. Por fim, o
Cap´ıtulo 5 apresenta as concluso˜es resultantes do trabalho, ale´m de propostas para
a sua continuidade e aperfeic¸oamento.
3
Cap´ıtulo 2
Estimac¸a˜o da Direc¸a˜o de Chegada
Neste cap´ıtulo sa˜o apresentadas as estrate´gias empregadas para a localizac¸a˜o uni-
dimensional de fontes sonoras, utilizando os sinais obtidos por um arranjo linear de
dois microfones e me´todos computacionais para o ca´lculo da diferenc¸a de atraso,
TDD (do ingleˆs, Time Delay Difference), entre eles. Dado o esquema ilustrado na
Figura 2.1 e sob a hipo´tese de um modelo ideal de propagac¸a˜o do som em ondas
planas, o aˆngulo φ, que indica a direc¸a˜o da fonte em relac¸a˜o a` linha definida pelos
microfones, pode ser obtido a partir da relac¸a˜o
φ = arccos
(vsτ0
d
)
, (2.1)
com vs sendo a velocidade de propagac¸a˜o do som, d a distaˆncia entre os microfones
e τ0 a diferenc¸a de atraso entre os sinais dos dois microfones.
0
Fonte
τ0
d
φ
Figura 2.1: Esquema com dois microfones utilizado para a localizac¸a˜o de fontes
sonoras.
4
Sa˜o apresentadas quatro abordagens para a estimativa do TDD. O primeiro me´todo,
GCC-PHAT (Generalized Cross-Correlation with Phase Transform), e´ um dos mais
explorados em aplicac¸o˜es de localizac¸a˜o de fontes, utilizando a func¸a˜o correlac¸a˜o
cruzada para tal. Em seguida e´ apresentado o me´todo ITD (Interaural Time Diffe-
rence), inspirado na habilidade humana de localizac¸a˜o sonora a partir da diferenc¸a de
tempo entre a chegada do som em cada ouvido. Por fim, sa˜o descritos dois me´todos
utilizando filtros adaptativos, implementados atrave´s dos algoritmos FLMS (Fast
Block Least Mean Squares) e AEVD (Adaptive Eigenvalue Decomposition).
2.1 Me´todo Baseado na Func¸a˜o GCC-PHAT
O me´todo da correlac¸a˜o cruzada apresentado aqui e´ capaz de estimar a diferenc¸a
de atraso entre os sinais de dois sensores baseado no valor ma´ximo da correlac¸a˜o
entre eles. Utilizando o esquema ilustrado na Figura 2.1, os sinais nos microfones
sa˜o modelados como
x1(t) = s(t) + v1(t)
x2(t) = s(t− τ0) + v2(t), (2.2)
onde s(t) e´ o sinal emitido pela fonte e v1(t) e v2(t) representam as componentes do
ru´ıdo.
A representac¸a˜o discreta dos sinais facilita o desenvolvimento do algoritmo, e e´
obtida atrave´s da amostragem do sinal analo´gico (Eq. (2.2)) em intervalos iguais a
T , resultando em
x1(nT ) = s(nT ) + v1(nT )
x2(nT ) = s(T (n− τ0/T )) + v2(nT ). (2.3)
Em seguida, aplicando a transforma de Fourier na Eq. (2.3)
X1(e
jΩ) = S(ejΩ) + V1(e
jΩ)
X2(e
jΩ) = S(ejΩ)e−jΩ
τ0
T + V2(e
jΩ). (2.4)
5
Supondo que os ru´ıdos v1(nT ) e v2(nT ) sa˜o processos descorrelacionados e de
me´dia zero, o espectro de poteˆncia cruzado e´ dado por
Sx1x2(Ω) = E
{
X1(e
jΩ)X∗2 (e
jΩ)
}
= Sss(Ω)e
jΩ
τ0
T , (2.5)
onde E {.} representa o operador me´dia estat´ıstica e Sss(Ω) e´ o espectro de poteˆncia
do sinal da fonte s(n).
A partir de Sx1x2(Ω) pode-se enta˜o calcular a func¸a˜o correlac¸a˜o cruzada generali-
zada, Rx1x2(n):
Rx1x2(n) =
1
2pi
pi∫
−pi
ψ12(e
jΩ)Sx1x2(Ω)e
jΩndΩ, (2.6)
onde a func¸a˜o peso ψ12(e
jΩ) e´ utilizada. Repare que se ψ12(e
jΩ) = 1 na Eq. (2.6), a
func¸a˜o obtida e´ a correlac¸a˜o cruzada cla´ssica entre o sinal dos microfones.
A func¸a˜o peso e´ utilizada com o objetivo de criar um pico dominante na func¸a˜o
GCC, facilitando a busca pelo seu ponto ma´ximo. Para que cumpra com o objetivo
de concentrar a energia de Rx1x2(n) em uma faixa estreita, a func¸a˜o peso deve
atuar como um filtro branqueador [8], gerando um espectro de poteˆncia plano. Na
implementac¸a˜o deste trabalho, a func¸a˜o utilizada
ψ12(e
jΩ) =
1
|Sx1x2(Ω)| , (2.7)
resulta no algoritmo denominado GCC-PHAT.
Para calcular o valor exato da func¸a˜o GCC, como na Eq. (2.6), seria necessa´rio
o conhecimento dos processos aleato´rios representados pelos sinais dos microfones
x1(n) e x2(n) para infinitas realizac¸o˜es, e ao longo de todo o tempo. Dadas as
limitac¸o˜es da posse de apenas uma realizac¸a˜o e da na˜o estacionariedade dos processos
como um todo, o operador valor esperado na Eq. (2.5) e´ substitu´ıdo pela me´dia
temporal, ao ser utilizada a hipo´tese de ergodicidade. Ale´m disso, a me´dia temporal
e´ realizada ao longo de intervalos curtos de tempo, nos quais o sinal e´ considerado
estaciona´rio. Na pra´tica, aplica-se um janelamento ao sinal no tempo atrave´s de uma
janela w(n) do tipo Hamming, de comprimentoN . Duas janelas subsequentes podem
ainda apresentar uma sobreposic¸a˜o de N −M amostras, onde M e´ a quantidade
6
de avanc¸o, em nu´mero de amostras, entre duas janelas. A DFT dos sinais apo´s a
aplicac¸a˜o de w(n) e´ dada por
Xi(m, k) =
N−1∑
n=0
xi(mM + n)w(n)e
−j 2pi
N
nk, (2.8)
onde i = 1, 2 indica os sinais dos microfones 1 e 2, m = 0, 1, 2, ... e´ o ı´ndice da janela
e k = 0, 1, ..., N−1 o ı´ndice da frequeˆncia. A partir do sinal janelado, a estimativa do
espectro de poteˆncia e´ calculada, utilizando uma ponderac¸a˜o exponencial de dados
passados,
Sˆx1x2(m, k) = αSˆx1x2(m− 1, k) + (1− α)X1(m, k)X∗2 (m, k), (2.9)
com α = 0.8 na implementac¸a˜o deste trabalho.
Aplicando a transformada inversa de Fourier (IDFT) na Eq. (2.9), chega-se a
uma estimativa para a func¸a˜o GCC-PHAT:
Rˆx1x2(m,n) =
1
N
N−1∑
k=0
Sˆx1x2(m, k)∣∣∣Sˆx1x2(m, k)∣∣∣ej
2pi
N
nk, n = 0, 1, ..., N − 1. (2.10)
Finalmente, a partir de Rˆx1x2(m,n) o atraso entre os sinais dos dois microfones
pode ser calculado para cada janela m
τ0m
T
≈ n0m = arg max
n
Rˆx1x2(m,n). (2.11)
A busca pelo ma´ximo na˜o precisa ser feita exaustivamente ao longo de todos os
poss´ıveis valores de n ∈ [0, N − 1], ja´ que o valor ma´ximo para o atraso e´ limitado
fisicamente pela distaˆncia entre os microfones (τ0max = d/vs). Ale´m disso, o valor
para n0 encontrado pela busca so´ representa com exatida˜o o atraso τ0 se este for
mu´ltiplo do per´ıodo de amostragem T . Para tratar dos casos em que o atraso e´
fraciona´rio, uma interpolac¸a˜o de Rˆx1x2(m,n) deve ser realizada antes da aplicac¸a˜o
da IDFT. Essa operac¸a˜o e´ implementada atrave´s da extensa˜o do sinal utilizando
a te´cnica zero padding, que consiste na inclusa˜o de zeros ao fim do sinal. Assim,
a transformada inversa e´ feita com mais pontos, resultando no sinal Rˆx1x2(m,n)
interpolado.
7
2.2 Me´todo Baseado na Diferenc¸a de Tempo In-
teraural
O sistema de audic¸a˜o humano, assim como emoutros animais, deve parte da sua
eficieˆncia na comunicac¸a˜o a` habilidade em processar o som que chega aos dois ouvi-
dos, conseguindo localizar o posicionamento de fontes mesmo em ambientes ruidosos
e reverberantes. Baseado enta˜o na utilizac¸a˜o da diferenc¸a de tempo interaural (entre
os dois ouvidos) nos seres vivos, o me´todo ITD utiliza a diferenc¸a de tempo entre
dois microfones para estimar o TDD.
O algoritmo se inicia com a gerac¸a˜o do conjunto de todos os poss´ıveis atrasos entre
os dois microfones, para uma dada resoluc¸a˜o, que sejam relevantes para a estimac¸a˜o
do aˆngulo azimutal φ. Dentro desse conjunto, e´ feita uma busca pelo atraso o´timo
no sentido de gerar a melhor correspondeˆncia entre os sinais dos dois microfones.
O aˆngulo φ ∈ [0, pi] e´ dividido em um nu´mero ı´mpar I de setores igualmente
espac¸ados, com cada setor correspondendo a um valor para o TDD. Usando como
refereˆncia o esquema da Figura 2.1, os atrasos gerados sa˜o
τi =
d
2vs
sin
(
i− 1
I − 1pi −
pi
2
)
, i = 1, 2, ..., I, (2.12)
onde d e´ a distaˆncia entre os microfones e vs e´ a velocidade de propagac¸a˜o do som.
No domı´nio da frequeˆncia, os atrasos correspondem aos desvios de fase
pk(i) = e
−j 2pi
N
kfsτi , k = 0, 1, ...,
N
2
, i = 1, 2, ..., I, (2.13)
com frequeˆncia de amostragem fs = 1/T e τi como definido na Eq. (2.12). Os
componentes de fase sa˜o enta˜o multiplicados pela DFT dos sinais dos microfones,
X1(m, k) e X2(m, k), calculada como na Eq. (2.8), para cada janela de ı´ndice m do
sinal. Por fim, o atraso e´ estimado a partir das comparac¸o˜es indicadas na Figura
2.2.
Como ilustrado, a comparac¸a˜o e´ feita para cada par alinhado verticalmente, co-
brindo todos os poss´ıveis atrasos entre os dois sinais. O bloco detector de coin-
8
Detector de Coincideˆncias
X1(m, k)
X2(m, k)
pk(1) pk(2) pk(
I+1
2
) pk(I − 1) pk(I)
pk(I) pk(I − 1) pk( I+12 ) pk(2) pk(1)
Figura 2.2: Esquema utilizado para detectar a correspondeˆncia de fase entre os sinais
para a frequeˆncia k e janela de tempo m.
cideˆncias da Figura 2.2 utiliza a regra de comparac¸a˜o
∆i(m, k) = |pk(i)X1(m, k)− pk(I − i− 1)X2(m, k)|2, i = 1, 2, ..., I (2.14)
iotm(m, k) = arg min
i
∆i(m, k), k = 0, 1, ...,
N
2
(2.15)
para encontrar, a cada janela m, o ı´ndice iotm(m, k) que, ao ser substitu´ıdo na Eq.
(2.12) no lugar do ı´ndice i, resulta no atraso o´timo τotm.
Para gerar melhores estimativas para o TDD entre os sinais dos microfones, e´
utilizada uma estrate´gia de avaliac¸a˜o da me´dia de histogramas. E´ constru´ıdo um
histograma Pk(τi,m) que conte´m a quantidade de detecc¸o˜es dos atrasos τi para
cada componente de frequeˆncia k. A me´dia do histograma e´ calculada utilizando
informac¸a˜o do trecho m atual e de trechos anteriores do sinal, ponderados pelo fator
de esquecimento α, como indicado:
Pk(τi,m) = αPk(τi,m− 1) + δ(i− iotm(m, k)),

i = 1, 2, ..., I
k = 0, 1, ...,
N
2
m = 0, 1, 2, ...
, (2.16)
onde δ(.) e´ a func¸a˜o impulso unita´rio1 e τi e´ o conjunto de atrasos definido na Eq.
(2.12). O fator de esquecimento α e´ escolhido entre 0, 85 e 0, 9.
1δ(.) vale 1 quando seu argumento e´ nulo e vale 0 para todos os outros valores do argumento.
9
Ale´m disso, os histogramas calculados como indicado na Eq. (2.16) sofrem com o
efeito do aliasing espacial, que gera uma ambiguidade na fase para frequeˆncias acima
de fmax = vs/d. Para contornar esse efeito, os valores Pk(τi,m) do histograma sa˜o
somados ao longo de todas as frequeˆncias, para cada τi. O valor o´timo para o atraso
e´ enta˜o encontrado atrave´s da relac¸a˜o
τopt(m) = arg max
τi
N
2∑
k=0
Pk(τi,m). (2.17)
O me´todo ITD apresenta a vantagem de na˜o demandar uma interpolac¸a˜o do sinal,
ja´ que a busca pelo atraso o´timo e´ realizada no domı´nio da frequeˆncia. Por outro
lado, muitas execuc¸o˜es de algoritmos de busca sa˜o necessa´rias ate´ chegar a uma
estimativa para o atraso de fase.
2.3 Me´todos Adaptativos
Os me´todos apresentados anteriormente sa˜o desenvolvidos assumindo-se um mo-
delo ideal para a propagac¸a˜o de ondas. Esta sec¸a˜o parte para uma abordagem
mais realista, recorrendo a` utilizac¸a˜o de filtros adaptativos de comprimento finito
(FIR) para modelar o canal entre a fonte e os microfones. Dentro dessa estrate´gia
adaptativa, dois algoritmos sa˜o propostos para chegar a uma estimativa da DOA.
2.3.1 Me´todo Baseado na Minimizac¸a˜o do Erro Quadra´tico
Me´dio (LMS)
O primeiro sistema, esquematizado na Figura 2.3, utiliza o algoritmo LMS (Least
Mean Square) para atualizar os coeficientes do filtro adaptativo. Ou seja, uma
estimativa para o TDD e´ encontrada atrave´s da minimizac¸a˜o do erro quadra´tico
me´dio, medido entre o sinal de um microfone, utilizado como refereˆncia, e a sa´ıda
do filtro adaptativo.
Seja L o comprimento do filtro, e os vetores que indicam sua entrada, x2(n), e
seus coeficientes, w(n), definidos como
x2(n) = [x2(n) x2(n− 1) · · · x2(n− L+ 1)]T (2.18)
10
Atraso
∆
Filtro
Adaptativo
Detector
de
Pico
x1(n)
x2(n)
x1(n−∆)
+
−
w(n)
e(n)
τˆ(n)
Figura 2.3: Sistema utilizado para a estimac¸a˜o do TDD composto por um filtro
adaptativo FIR de comprimento L.
w(n) = [w0(n) w1(n) · · ·wL−1(n)]T . (2.19)
Assim, o erro de estimac¸a˜o pode ser calculado atrave´s da relac¸a˜o
e(n) = x1(n−∆)−wT (n)x2(n), (2.20)
onde o atraso ∆ =
⌊
L−1
2
⌋
e´ inserido no sinal de refereˆncia para compensar o atraso
gerado pelo filtro.
A atualizac¸a˜o dos coeficientes e´ feita atrave´s do algoritmo LMS normalizado, ou
seja:
w(n+ 1) = w(n) +
µ
‖x2(n)‖2
e(n)x2(n), (2.21)
onde µ e´ o passo de adaptac¸a˜o. Para a implementac¸a˜o no domı´nio da frequeˆncia
utilizada neste trabalho, as amostras dos sinais sa˜o agrupadas em blocos de com-
primento N = 2L e os coeficientes do filtro sa˜o mantidos constantes enquanto um
mesmo bloco e´ processado. Enta˜o, para cada bloco indexado por m, os coeficientes
sa˜o atualizados segundo a implementac¸a˜o ra´pida do me´todo LMS, conhecida como
FLMS (do ingleˆs Fast Least Mean Square) [9], que pode ser resumida atrave´s das
equac¸o˜es:
X2(m, k) =
N−1∑
n=0
x2(mL+ n)e
−j 2pi
N
nk, k = 0, 1, ..., N − 1 (2.22)
11
y(m,n) =
1
N
N−1∑
k=0
W (m, k)X2(m, k)e
j 2pi
N
nk, n = 0, 1, ..., N − 1 (2.23)
e˜(m,n) =
0, n = 0, 1, ..., L− 1x1(mL+ n−∆)− y(m,n), n = L,L+ 1, ..., N − 1 (2.24)
E(m, k) =
N−1∑
n=0
e˜(m,n)e−j
2pi
N
nk, k = 0, 1, ..., N − 1 (2.25)
Sx2x2(m, k) = αSx2x2(m− 1, k) + (1− α)|X2(m, k)|2, k = 0, 1, ..., N − 1 (2.26)
W (m+ 1, k) = W (m, k) +
µ
Sx2x2(m, k) + �
X∗2 (m, k)E(m, k),
k = 0, 1, ..., N − 1. (2.27)
A filtragem do sinal x2(n) e´ implementada utilizando o me´todo overlap-save, com o
nu´mero de amostras sobrepostas em cada bloco igual ao comprimento L do filtro, e
com as transformadas DFT e IDFT de tamanho N .
Idealmente, o vetor de coeficientes o´timos w(n) encontrado pelo algoritmo seria
formado por zeros, exceto pela amostra correspondente ao atraso τ0 entre os sinais.
Na pra´tica, devido ao modelo de comprimento finito usado para a resposta ao im-
pulso do canal, e´ necessa´ria uma etapa de interpolac¸a˜o antes da busca realizada no
bloco Detector de Pico (ver Figura 2.3).
Apo´s a interpolac¸a˜o, chega-se finalmente a` estimativa τˆ(n) para o TDD, atrave´s da
busca pelo valor ma´ximo do vetor de coeficientes. Assim como no algoritmo GCC-
PHAT (Sec¸a˜o 2.1), essa busca na˜o precisa ser realizada exaustivamente, ficando
restrita apenas aos valores poss´ıveis para o atraso.
2.3.2 Me´todo Baseado na Decomposic¸a˜o Espectral (AEVD)
O segundo sistema adaptativo utilizado busca estimar a resposta ao impulso do
canal presenteentre a fonte e os microfones, atrave´s da decomposic¸a˜o espectral da
matriz correlac¸a˜o.
12
h1(n)
h2(n)
h2(n)
h1(n)
s(n)
x1(n)
x2(n)
e(n) ≡ 0+
−
Figura 2.4: Modelo do sinal que chega aos microfones a` esquerda, em linha tracejada.
Estimador das respostas ao impulso a` direita, em linha cont´ınua.
Assume-se que as respostas ao impulso do canal formado entre a fonte e os dois
microfones, denominadas h1(n) e h2(n), representam sistemas lineares e invariantes
no tempo. Assim, o sinal que chega aos microfones e´ modelado como indicado na
parte tracejada da Figura 2.4. A estimac¸a˜o das respostas ao impulso, representada
em linha cont´ınua na mesma figura, e´ feita baseada na seguinte relac¸a˜o:
x1(n) ∗ h2(n) = h1(n) ∗ s(n) ∗ h2(n) = h1(n) ∗ x2(n), (2.28)
onde as propriedades associativa e comutativa da convoluc¸a˜o linear foram utilizadas.
Assumindo ainda que as respostas ao impulso h1(n) e h2(n) podem ser aproxi-
madas por filtros FIR de comprimento L, os dados do problema sa˜o agrupados nos
vetores de dimensa˜o L× 1
xi =

xi(n)
xi(n− 1)
...
xi(n− L+ 1)
 e hi =

hi(0)
hi(1)
...
hi(L− 1)
 , (2.29)
i = 1, 2. Ale´m disso, definindo os vetores de dimensa˜o estendida 2L× 1
x(n) =
xT1 (n)
xT2 (n)
 , u =
 hT2
−hT1
 , (2.30)
e partindo da Eq. (2.28), percebe-se que
xT1 (n)h2(n)− xT2 (n)h1(n) = 0 (2.31)
13
e
xT (n)u = 0. (2.32)
Multiplicando a Eq. (2.32) pela esquerda por x(n) e aplicando o operador valor
esperado, a matriz das covariaˆncias Rxx(n) = E
{
x(n)xT (n)
}
pode ser identificada,
levando a` relac¸a˜o
Rxx(n)u = 0. (2.33)
A Eq. (2.33) indica que u e´ o autovetor da matriz Rxx(n) correspondente ao
autovalor 0. Portanto, a busca pelo vetor u, que permite encontrar h1(n) e h2(n),
passa a ser uma busca por um autovetor da matriz das covariaˆncias.
Como demonstrado em [3], o vetor u pode ser encontrando atrave´s de uma mini-
mizac¸a˜o da func¸a˜o uTRxxu sujeita a` restric¸a˜o u
Tu = 1. Dado o objetivo de estimar
o atraso entre os dois microfones, na˜o ha´ a necessidade de encontrar a forma real de
h1(n) e h2(n), bastando buscar o pico negativo de u(n), que corresponde ao valor
ma´ximo de h1(n).
A estrutura do algoritmo AEVD implementado no domı´nio da frequeˆncia e´ seme-
lhante a` estrutura apresentada para o FLMS (Eqs. (2.22) - (2.27)), como pode ser
observado atrave´s das equac¸o˜es correspondentes:
Xi(m, k) =
N−1∑
n=0
xi(mL+ n)e
−j 2pi
N
nk, i = 1, 2, k = 0, 1, ..., N − 1 (2.34)
e(m,n) =
1
N
N−1∑
k=0
[U1(m, k)X1(m, k) + U2(m, k)X2(m, k)] e
j 2pi
N
nk,
n = 0, 1, ..., N − 1 (2.35)
e˜(m,n) =
0, n = 0, 1, ..., L− 1e(m,n), n = L,L+ 1, ..., N − 1 (2.36)
E(m, k) =
N−1∑
n=0
e˜(m,n)e−j
2pi
N
nk, k = 0, 1, ..., N − 1 (2.37)
14
Sxixi(m, k) = αSxixi(m− 1, k) + (1− α)|Xi(m, k)|2,
i = 1, 2, k = 0, 1, ..., N − 1 (2.38)
Ui(m+ 1, k) = Ui(m, k)− µ
Sxixi(m, k) + �
X∗i (m, k)E(m, k),
i = 1, 2, k = 0, 1, ..., N − 1. (2.39)
Os filtros possuem resposta ao impulso de tamanho L e as transformadas DFT/IDFT
sa˜o implementadas com comprimento N = 2L. Assim como no algoritmo FLMS, a
interpolac¸a˜o dos coeficientes do filtro resultante (no domı´nio do tempo) e´ necessa´ria
para se obter estimativas precisas da diferenc¸a dos tempos de chegada do sinal aos
microfones.
15
Cap´ıtulo 3
Aquisic¸a˜o e Estudo do Sinal
Os me´todos apresentados no Cap´ıtulo 2 podem ser empregados para estimar a
direc¸a˜o de chegada de fontes acu´sticas em diferentes aplicac¸o˜es, desde que tomado o
devido cuidado na escolha dos paraˆmetros fornecidos aos algoritmos, como o tama-
nho das janelas de dados e a frequeˆncia de amostragem. O presente cap´ıtulo trata
das particularidades do cena´rio de interesse deste trabalho, descrevendo os dados de
a´udio dispon´ıveis e como eles foram obtidos.
3.1 Medidas Experimentais
As cidades e suas fontes de ru´ıdo sa˜o o foco deste estudo, por isso o cena´rio
das medic¸o˜es experimentais foi escolhido em uma a´rea urbana da cidade do Rio de
Janeiro. O experimento proposto, ilustrado na Figura 3.1, consiste em um conjunto
de microfones que, de uma posic¸a˜o fixa, registra o ru´ıdo gerado pela passagem de
ve´ıculos em uma via urbana. A velocidade dos automo´veis foi mantida constante
durante uma mesma realizac¸a˜o do experimento, sendo a trajeto´ria percorrida por eles
uma reta paralela ao plano dos microfones. Cabe ainda destacar que os experimentos
foram realizados em um dia de pouco movimento no traˆnsito, resultando em um n´ıvel
reduzido de ru´ıdo ambiente.
Dispondo de cinco microfones, escolheu-se a configurac¸a˜o em forma de cruz ilus-
trada na Figura 3.2. O arranjo foi ainda colocado sobre um suporte, erguendo seu
centro a um distaˆncia de 1,26 m do cha˜o. A estrutura dos sensores equivale a` uti-
16
Microfones
Figura 3.1: Vista superior do experimento com seus principais componentes.
lizac¸a˜o de dois arranjos lineares, perpendiculares entre si, sendo cada um capaz de
resolver a direc¸a˜o de chegada em uma dimensa˜o. Ou seja, a configurac¸a˜o na forma
de cruz foi escolhida com o intuito de estimar a DOA bidimensionalmente.
3 2 1
5
4
0,2 m 0,2 m
0,2 m
0,2 m
Figura 3.2: Vista frontal do arranjo de sensores. O microfone 5 apresentou falhas
durante as gravac¸o˜es e seus registros na˜o foram utilizados na etapa de estimac¸a˜o da
DOA.
O experimento foi realizado para treˆs diferentes modelos de automo´veis, que em
cada teste passavam pelo arranjo com velocidade constante de 30, 40, 50, 60 ou
70 km/h. O objetivo dessas variac¸o˜es e´ a gerac¸a˜o de uma base de dados mais repre-
sentativa das fontes de ru´ıdo presentes no ambiente de estudo, e que permita uma
ana´lise acerca da influeˆncia dos fatores que foram variados sobre o ru´ıdo gerado.
O som foi captado por meio de cinco microfones do modelo Behringer ECM8000
e com o aux´ılio da interface de a´udio Scarlett 18i20. O registro digital do a´udio
17
foi efetuado atrave´s da versa˜o de teste do software Mixcraft 8, com uma frequeˆncia
de amostragem de Fs = 44 100 Hz. O processamento dos sinais foi realizado com o
software MATLAB.
3.2 Curva Teo´rica
Dispondo dos dados registrados experimentalmente, e´ poss´ıvel prever o comporta-
mento da curva que descreve a direc¸a˜o de chegada do sinal ao conjunto de sensores.
Para isso, calcula-se a diferenc¸a entre o caminho percorrido pelo sinal da fonte ate´
dois microfones do arranjo e, a partir desse valor, o TDD e a DOA podem ser
determinados.
x
y
z
Sensores
O
h
s
l Fonte
v
sx
sy
φ
Figura 3.3: Esquema tridimensional do experimento. Altura h medida entre o cha˜o
e o centro do arranjo de microfones. Distaˆncia l entre a fonte e um dos microfones.
A Figura 3.3 apresenta um esquema tridimensional do problema, do qual e´ poss´ıvel
extrair a distaˆncia l entre a fonte e um dos microfones do arranjo. Assume-se que
a fonte se encontra no plano z = 0, que representa o n´ıvel do cha˜o, enquanto
o arranjo de sensores pertence ao plano y = 0. Apenas os microfones alinhados
horizontalmente foram representados na figura, ja´ que a curva teo´rica foi derivada
considerando a direc¸a˜o de chegada do sinal em relac¸a˜o ao arranjo linear horizontal
(uma derivac¸a˜o semelhante pode ser feita para outras configurac¸o˜es). A altura h,
medida entre o cha˜o e o centro do arranjo, a distaˆncia sy, entre o plano dos microfones
e a reta que conte´m a trajeto´ria do ve´ıculo, e a velocidade v com que ele se desloca,
18
sa˜o os dados conhecidos. A imagem ilustra o sistema para um instante espec´ıfico
de tempo, omitindo assim a dependeˆncia temporal que sera´ destacada ao longo dos
ca´lculos.A velocidade do automo´vel e´ mantida constante durante cada realizac¸a˜o do teste,
e sua direc¸a˜o e´ paralela ao eixo x, ou seja, v = vx. No desenvolvimento apresentado
a seguir, a velocidade e´ considerada no sentido positivo de x, como indicado na
figura, e por isso o mo´dulo da velocidade vx = |vx| e´ utilizado, o que na˜o implica
em perda de generalidade, bastando inverter o sinal de vx caso o carro se desloque
no sentido contra´rio. Assim, o componente horizontal do posicionamento da fonte,
sx(t), e´ dado pela relac¸a˜o
sx(t) = vx (t− t0) (3.1)
onde o instante t0 indica o momento em que a fonte cruza o eixo y. O problema da
Figura 3.3 pode enta˜o ser facilmente resolvido atrave´s das relac¸o˜es trigonome´tricas
s2(t) = s2y + s
2
x(t) (3.2)
l2(t) = h2 + s2(t) (3.3)
e substituindo a Eq. (3.2) em (3.3):
l2(t) = h2 + s2y + s
2
x(t). (3.4)
A Eq. (3.4) indica a distaˆncia ate´ um sensor qualquer do eixo horizontal do
arranjo. Seja agora li a distaˆncia entre a fonte e o microfone mi, i = 1, 2. Se a
distaˆncia entre m1 e m2 e´ igual a d, enta˜o
l21(t) = h
2 + s2y + s
2
x(t) (3.5)
l22(t) = h
2 + s2y + (sx(t) + d)
2. (3.6)
Finalmente, o TDD e a DOA sa˜o calculados, respectivamente, por
τ =
l2(t)− l1(t)
vx
(3.7)
φ = arccos
(
l2(t)− l1(t)
d
)
. (3.8)
19
Ainda considerando o caso vx > 0, nota-se que enquanto t < t0, o valor sx(t) e´
negativo (ver Eq. (3.1)), resultando em l1(t) > l2(t) segundo as Eqs. (3.5) e (3.6).
Ou seja, enquanto a fonte se aproxima dos sensores, observa-se que a diferenc¸a de
atraso e´ negativa, τ < 0, ao passo que essa diferenc¸a passa a ser positiva, τ > 0,
quando a fonte se afasta. Essa situac¸a˜o e´ ilustrada na Figura 3.4, onde a curva
teo´rica da diferenc¸a do atraso entre o sinal de dois microfones e´ apresentada para
vx = 60 km/h e t0 ≈ 1,5 s.
0 0.5 1 1.5 2 2.5 3
Tempo (s)
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
At
ra
so
 
 
(m
s)
TDD vs. Tempo
Figura 3.4: Curva teo´rica do TDD para uma fonte a 60 km/h.
3.3 Ana´lise do Sinal Acu´stico
O conhecimento acerca do sinal da fonte permite uma configurac¸a˜o adequada
dos paraˆmetros utilizados nos algoritmos de estimac¸a˜o da DOA, resultando em um
melhor desempenho destes. Posto isso, e´ efetuada uma ana´lise dos dados de a´udio
registrados experimentalmente, buscando extrair suas principais caracter´ısticas.
Nos testes realizados, a fonte de interesse se encontra em movimento com relac¸a˜o
aos sensores e por isso, o tamanho da janela de dados utilizada pelos algoritmos se
torna um fator de grande influeˆncia nos resultados obtidos. A fim de obter uma boa
20
estimativa para a DOA, o trecho de dados escolhido deve ter informac¸a˜o suficiente
sobre o sinal, mas na˜o pode abranger um grande deslocamento da fonte.
Deseja-se enta˜o obter um limite para o nu´mero de amostras em uma janela, sob
a condic¸a˜o de que a direc¸a˜o de chegada nesse intervalo na˜o varie acima de um valor
arbitrado. A tarefa de chegar a esse valor ma´ximo e´ dificultada pela relac¸a˜o na˜o
linear observada entre o aˆngulo de chegada e o deslocamento da fonte. Buscando
enta˜o uma simplificac¸a˜o, nota-se que a intensidade do som que chega aos microfones
e´ maior quando a direc¸a˜o de chegada da fonte se aproxima de 90◦, tornando o trecho
em torno do instante t0 o mais relevante para o estudo do sinal.
Dados dois instantes de tempo t1 e t2, onde t1 < t2, define-se a variac¸a˜o da direc¸a˜o
de chegada entre eles como
∆φ = |φ(t2)− φ(t1)| , (3.9)
onde φ(t1) e φ(t2) sa˜o calculados como em (2.1). Para enta˜o analisar o trecho do
sinal referente a` passagem da fonte em frente ao arranjo de microfones, escolhe-se
um intervalo de tempo sime´trico em relac¸a˜o a t0, ou seja, t0 =
t1+t2
2
. Essa simetria
resulta na simplificac¸a˜o ilustrada na Figura 3.5.
s
∆s = vx∆t
s
sy
Microfone
Fonte em t1 Fonte em t2
∆φ
θ θ
Figura 3.5: Esquema utilizado para o ca´lculo do comprimento da janela de dados.
21
O triaˆngulo formado pelo posicionamento da fonte em t1 e t2 e por um dos micro-
fones fornece a relac¸a˜o
sin(θ) =
sy
s
=
sy√
s2y +
(
∆s
2
)2 , (3.10)
e a soma dos seus aˆngulos internos leva a
∆φ+ 2θ = 180◦ (3.11)
∆φ+ 2 arcsin
 sy√
s2y +
(
∆s
2
)2
 = 180◦, (3.12)
onde a Eq. (3.10) foi utilizada para substituir o aˆngulo θ na Eq. (3.11). Agora,
isolando ∆s na Eq. (3.12) conclui-se que
∆s = 2sy
√
1
sin2
(
90◦ − φ
2
) − 1. (3.13)
Por fim, usando que sin (90◦ − α) = cos (α) e sin2 (α)+cos2 (α) = 1 na Eq. (3.13),
chega-se a` relac¸a˜o
∆s = 2sy
sin
(
∆φ
2
)
cos
(
∆φ
2
) , (3.14)
da qual e´ poss´ıvel, escolhendo uma variac¸a˜o ma´xima para o aˆngulo de chegada
∆φ = ∆φmax, obter o nu´mero ma´ximo de amostras Nmax que satisfaz essa restric¸a˜o,
ou seja,
Nmax = fs∆t = fs
2sy
vx
sin
(
∆φmax
2
)
cos
(
∆φmax
2
) , (3.15)
sendo fs a frequeˆncia de amostragem do sinal.
Ale´m do comprimento da janela, um estudo e´ feito acerca do espectro do sinal de
interesse, visando identificar as faixas de frequeˆncia onde ha´ maior concentrac¸a˜o de
energia. A Figura 3.6 apresenta o espectrograma do sinal de a´udio correspondente
a um ve´ıculo com velocidade igual a 50 km/h. Aproximadamente aos 1,5 s e´ poss´ıvel
observar um pico de energia, que representa a passagem do ve´ıculo em frente ao
arranjo de sensores e portanto a regia˜o onde espera-se uma raza˜o sinal-ru´ıdo mais
alta. Esse instante, chamado de t0, e´ obtido atrave´s da busca pelo ponto de ma´xima
energia do sinal.
22
0.5 1 1.5 2 2.5
Tempo (s)
0
5
10
15
20
Fr
eq
uê
nc
ia
 (k
Hz
)
-140
-120
-100
-80
-60
-40
Po
tê
nc
ia
 / 
Fr
eq
uê
nc
ia
 (d
B/H
z)
Figura 3.6: Espectrograma do sinal amostrado a 44,1 kHz.
Enta˜o, condicionado ao nu´mero ma´ximo de amostras dado pela Eq. (3.15),
escolhe-se um trecho do sinal centrado em t0 e obte´m-se uma nova estimativa do
espectro baseada no me´todo de Welch [10]. O resultado e´ apresentado na Figura
3.7.
0 5 10 15 20
Frequência (kHz)
-60
-50
-40
-30
-20
-10
0
M
ag
nit
ud
e 
(dB
)
Figura 3.7: Estimativa do espectro do sinal amostrado a 44,1 kHz.
23
A Figura 3.8 apresenta as estimativas obtidas com o sinal reamostrado a 16 kHz,
para as diferentes velocidades testadas. A reduc¸a˜o da taxa de amostragem e´ feita
com o u´nico objetivo de melhorar a visualizac¸a˜o do espectro do sinal, que concentra
sua energia nas frequeˆncias mais baixas. Para gerar as estimativas da direc¸a˜o de
chegada no Cap´ıtulo 4 e´ utilizado o sinal com frequeˆncia de amostragem de 44,1 kHz.
0 1 2 3 4 5 6 7 8
Frequência (kHz)
-55
-50
-45
-40
-35
-30
-25
-20
-15
-10
-5
0
M
ag
ni
tu
de
 (d
B)
30 km/h
40 km/h
50 km/h
60 km/h
70 km/h
Figura 3.8: Estimativas do espectro para o carro 1. Sinal reamostrado a 16 kHz.
A distribuic¸a˜o da energia ao longo do espectro e´ semelhante para as diferentes
velocidades, com uma predominaˆncia das frequeˆncias ate´ aproximadamente 1 kHz.
Na Figura 3.9 e´ feita uma comparac¸a˜o entre o espectro gerado pelos treˆs modelos
de ve´ıculos testados, onde dois carros teˆm caˆmbio de marchas automa´tico e um
um carro tem caˆmbio manual, para a velocidade de 60 km/h. Pode-se notar uma
diferenc¸a entre os espectros, sendo o carro 3 (caˆmbio manual) o que apresenta menos
energia em baixas frequeˆncias, enquanto o carro 1 (caˆmbio automa´tico) e´ o que tem
mais.
24
0 1 2 3 4 5 6 7 8
Frequência (kHz)
-60
-50
-40
-30
-20
-10
0
M
ag
ni
tu
de
 (d
B)
Carro 1 (A)
Carro 2 (A)
Carro 3 (M)
Figura 3.9: Estimativasdo espectro para a velocidade de 60 km/h. Carros 1 e 2
com caˆmbio automa´tico (A) e carro 3 com caˆmbio manual (M). Sinal reamostrado
a 16 kHz.
25
Cap´ıtulo 4
Resultados
A seguir sa˜o apresentados os resultados obtidos atrave´s da implementac¸a˜o dos
algoritmos descritos no Cap´ıtulo 2, para testes com os sinais adquiridos, que foram
descritos e analisados no Cap´ıtulo 3. O comprimento da janela de dados foi escolhido
como a maior poteˆncia de 2 abaixo do comprimento ma´ximo Nmax, ou seja,
N = 2blog2Nmaxc, (4.1)
onde Nmax foi calculado como na Eq. (3.15). Para a faixa de velocidades com-
preendida nos testes, de 30 km/h a 70 km/h, e para a frequeˆncia de amostragem
Fs = 44,1 kHz, Nmax encontra-se entre 285 e 665, considerando uma variac¸a˜o ma´xima
para o aˆngulo ∆φmax = 2
◦.
A Figura 4.1 ilustra a influeˆncia da escolha de N na estimativa obtida para a
direc¸a˜o de chegada. Sa˜o apresentadas duas imagens, onde todos os dados utilizados
para gera´-las foram os mesmos, exceto pelo comprimento da janela: N = 1024 na
Figura 4.1(a) e N = 256 na Figura 4.1(b). Observa-se que para um comprimento
maior do que Nmax, a direc¸a˜o de chegada se mante´m constante por longos per´ıodos,
durante os quais um trecho do sinal esta´ sendo processado. O resultado disso e´ uma
estimativa pouco confia´vel para a DOA.
A Figura 4.2 apresenta o mapeamento da func¸a˜o correlac¸a˜o cruzada entre o sinal
de dois microfones do arranjo, para uma fonte com velocidade vx = 60 km/h. Base-
ado nesse resultado, o algoritmo obteve a evoluc¸a˜o da direc¸a˜o de chegada ao longo
26
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Ân
gu
lo 
 
(º)
DOA - Método GCC-PHAT
(a) N = 1024
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Ân
gu
lo 
 
(º)
DOA - Método GCC-PHAT
(b) N = 256
Figura 4.1: Comparac¸a˜o entre diferentes valores de N . Estimativa da DOA obtida
com o me´todo GCC-PHAT para vx = 40 km/h e Fs = 44 100 Hz.
do tempo, indicada em linha cont´ınua na Figura 4.3, enquanto a curva prevista se
encontra em linha tracejada.
Função GCC-PHAT R
x
1
x
2
( ,t)
0 0.5 1 1.5 2 2.5
Tempo (s)
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
At
ra
so
 
 
(m
s)
-0.15
-0.1
-0.05
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
Figura 4.2: Func¸a˜o Rx1x2 calculada com o me´todo GCC-PHAT para vx = 60 km/h,
Fs = 44 100 Hz e N = 256.
Na Figura 4.2 nota-se que para os instantes pro´ximos a t0, quando na˜o existe
atraso entre os sinais x1 e x2, duas regio˜es de pico se destacam na func¸a˜o Rx1x2 ,
formando um padra˜o que se assemelha a duas curvas com um deslocamento temporal
de aproximadamente 0,3 s entre si. A uma velocidade constante de 60 km/h, esse
intervalo equivale a` distaˆncia de 2,5 m, que por sua vez e´ compat´ıvel com o espac¸o
presente entre as rodas dianteiras e traseiras dos carros. Essa ana´lise leva a` conclusa˜o
27
de que as curvas deslocadas representam as diferentes fontes de ru´ıdo presentes em
um mesmo ve´ıculo.
Para o mesmo sinal que resultou nas Figuras 4.2 e 4.3, o me´todo inspirado nas
diferenc¸as de tempo interaurais foi tambe´m testado, com o fator de esquecimento
α igual a 0, 9. O mapeamento da me´dia dos histogramas avaliada ao longo das
frequeˆncias e o respectivo resultado obtido para a DOA sa˜o apresentados nas Figuras
4.4 e 4.5, respectivamente.
Ainda para os mesmos dados de a´udio, os me´todos adaptativos sa˜o agora utilizados
para obter a estimativa da DOA. A implementac¸a˜o do filtro adaptativo atrave´s do
algoritmo LMS resulta no mapeamento dos coeficientes indicado na Figura 4.6. Os
pontos de ma´ximo desse mapa fornecem a estimativa para o atraso τ , que por sua vez
permitem o ca´lculo da estimativa da direc¸a˜o de chegada, apresentada na Figura 4.7.
Esses resultados foram obtidos com um filtro FIR de comprimento L = N
2
= 128,
cujos coeficientes foram atualizados a cada 512 amostras, utilizando um passo de
adaptac¸a˜o µ = 0.25.
O teste com o me´todo adaptativo baseado na decomposic¸a˜o espectral resultou
na resposta ao impulso cujos coeficientes sa˜o apresentados na Figura 4.8. Essa
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Ân
gu
lo 
 
(º)
DOA - Método GCC-PHAT
Estimado
Teórico
Figura 4.3: DOA estimada com o me´todo GCC-PHAT para vx = 60 km/h, Fs =
44 100 Hz e N = 256.
28
ITD - Média dos histogramas vs. Tempo
0 0.5 1 1.5 2 2.5 3
Tempo (s)
-0.4
-0.2
0
0.2
0.4
At
ra
so
 
 
(m
s)
0
20
40
60
80
100
120
140
160
180
200
Figura 4.4: Me´dia na frequeˆncia dos histogramas obtidos com o me´todo ITD para
vx = 60 km/h, Fs = 44 100 Hz, N = 512 e α = 0, 9.
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Ân
gu
lo 
 
(º)
DOA - Método ITD
Estimado
Teórico
Figura 4.5: DOA estimada com o me´todo ITD para vx = 60 km/h, Fs = 44 100 Hz,
N = 512 e α = 0, 9.
estimativa foi obtida com um filtro de comprimento L = 128, atualizado a cada
2048 amostras, e com passo de adaptac¸a˜o µ = 0.25. A direc¸a˜o de chegada obtida a
partir desse resultado encontra-se na Figura 4.9.
Ao comparar os resultados obtidos com os diferentes me´todos, o mesmo padra˜o e´
observado na detecc¸a˜o da direc¸a˜o de chegada. Na me´dia, as estimativas se aproxi-
mam do valor teo´rico previsto, mas todos os algoritmos demonstraram dificuldades
29
Coeficientes do Filtro Adaptativo
0 0.5 1 1.5 2 2.5 3
Tempo (s)
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
At
ra
so
 
 
(m
s)
-0.2
0
0.2
0.4
0.6
0.8
Figura 4.6: Mapeamento dos coeficientes do filtro adaptativo (LMS) para vx =
60 km/h, Fs = 44 100 Hz, N = 256 e µ = 0, 25.
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Ân
gu
lo 
 
(º)
DOA - Método Adaptativo (LMS)
Estimado
Teórico
Figura 4.7: DOA estimada com filtro adaptativo (LMS) para vx = 60 km/h, Fs =
44 100 Hz, N = 256 e µ = 0, 25.
em identificar aˆngulos fora da faixa entre 20◦ e 160◦, ale´m de apresentarem uma
oscilac¸a˜o nos instantes pro´ximos a t0, quando φ = 90
◦. Esse resultado oscilato´rio
pode ser compreendido observando-se, por exemplo, o comportamento da func¸a˜o
GCC na Figura 4.2. O algoritmo GCC-PHAT utiliza o valor ma´ximo dessa func¸a˜o
a cada instante de tempo para estimar o TDD, na˜o levando em considerac¸a˜o a pre-
senc¸a das duas curvas que representam fontes de ru´ıdo diferentes. Como resultado,
30
Coeficientes do Filtro Adaptativo
0 0.5 1 1.5 2 2.5 3
Tempo (s)
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
At
ra
so
 
 
(m
s)
-0.1
-0.05
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
Figura 4.8: Mapeamento dos coeficientes do filtro adaptativo (EVD) para vx =
60 km/h, Fs = 44 100 Hz, N = 256 e µ = 0, 25.
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Ân
gu
lo 
 
(º)
DOA - Método Adaptativo (EVD)
Estimado
Teórico
Figura 4.9: DOA estimada com filtro adaptativo (EVD) para vx = 60 km/h, Fs =
44 100 Hz, N = 256 e µ = 0, 25.
a estimativa obtida alterna entre as duas regio˜es de pico da func¸a˜o, o que pode ser
observado na Figura 4.10.
31
Função GCC-PHAT R
x
1
x
2
( ,t)
0 0.5 1 1.5 2 2.5
Tempo (s)
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
At
ra
so
 
(m
s)
TDD Estimado
Figura 4.10: Func¸a˜o Rx1x2 e TDD estimado com o me´todo GCC-PHAT para vx =
60 km/h, Fs = 44 100 Hz e N = 256.
4.1 Separac¸a˜o de Fontes comDeslocamento Pa-
ralelo
Deseja-se separar as contribuic¸o˜es das diferentes fontes de ru´ıdo e para isso uma
etapa de po´s-processamento e´ introduzida no algoritmo, onde a busca agora e´ feita
na˜o por um u´nico valor ma´ximo, mas pelos diversos valores de pico da func¸a˜o.
Essa estrate´gia e´ desenvolvida para tratar de fontes em movimento paralelo. A nova
etapa se inicia com a aplicac¸a˜o de um limiar aos valores da func¸a˜o a ser maximizada,
zerando os pontos que na˜o ultrapassam esse valor. Em seguida, uma busca pelos
picos e´ efetuada para cada instante de tempo e do resultado sa˜o extra´ıdos os pontos
referentes ao menor e maior atraso, separando-os em dois vetores de dados que
representam as duas fontes de ru´ıdo principais. Duas curvas sa˜o enta˜o ajustadas
aos pontos selecionados, uma para cada vetor, como e´ ilustrado na Figura 4.11a. A
partir desse resultado calcula-se o erro entre as curvas encontradas e os dados reais,
e os pontos para os quais o erro excede um valor tolerado sa˜o eliminados. Os novos
dados, sem os pontos discrepantes, sa˜o enfim utilizados para ajustar novas curvas,
apresentadas na Figura 4.11b.
32
0 0.5 1 1.5 2 2.5
Tempo t (s)
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
At
ra
so
 
 
(s)
Curva Fonte 1 Curva Fonte 2 Dados Fonte 1 Dados Fonte 2
(a)
0 0.5 1 1.5 2 2.5
Tempo t (s)
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
At
ra
so
 
 
(s)
Curva Fonte 1 Curva Fonte 2 Dados Fonte 1 Dados Fonte 2
(b)
Figura 4.11: Etapas do ajuste de curvas, antes (a) e depois (b) da eliminac¸a˜o dos
pontos discrepantes.
Os dados utilizados na Figura 4.11 foram obtidos a partir do algoritmo GCC-
PHAT e os ajustes foram encontrados utilizando-se a previsa˜o teo´rica para o TDD,
segundo o desenvolvimento da Sec¸a˜o 3.2. A velocidade da fonte, sua distaˆncia ate´
o microfone e o instante t0 foram utilizados como paraˆmetros a serem ajustados,
enquanto a altura dos microfones e a distaˆncia d entre eles foram mantidas constan-
tes. Para os testes representados nessa imagem, por exemplo, os coeficientes obtidos
indicaram uma velocidade de 49,75 km/h e uma distaˆncia entre fonte e sensor de
4,73 m nos instantes t0 = 1,36 s, para a fonte mais adiantada, e t0 = 1,43 s para a
atrasada. Sobrepondo o resultado do ajuste de curvas aos dados da func¸a˜o GCC da
Figura 4.10, observa-se que a nova estimativa para o TDD coincide com as regio˜es
de pico da correlac¸a˜o, como indicado na Figura 4.12.
Para se adequar ao novo cena´rio, a previsa˜o teo´rica das curvas da direc¸a˜o de
chegada tambe´m e´ modificada. Isso e´ feito baseado no conhecimento da distaˆncia
entre as rodas dos ve´ıculos, que e´ utilizado para deslocar a curva teo´rica original e
gerar duas novas curvas. Os resultados previsto e estimado para a DOA apo´s a etapa
de po´s-processamento sa˜o apresentados na Figura 4.13, para diversas velocidades.
Os coeficientes de ajuste obtidos a partir das estimativas da Figura 4.13 encontram-
se na Tabela 4.1. O instante t0 previsto foi obtido atrave´s da busca pelo pico de
energia do sinal, na˜o havendo distinc¸a˜o entre as mu´ltiplas fontes geradoras do ru´ıdo.
33
Função GCC-PHAT R
x
1
x
2
( ,t)
0 0.5 1 1.5 2 2.5
Tempo (s)
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
At
ra
so
 
 
(m
s)
-0.15
-0.1
-0.05
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
TDD Estimado
Figura 4.12: Func¸a˜o Rx1x2 e TDD estimado com o me´todo GCC-PHAT para vx =
60 km/h, Fs = 44 100 Hz e N = 256.
Esse valor e´ ainda utilizado na determinac¸a˜o da curva teo´rica para a DOA, e quando
mal calculado gera os desajustes observados nas imagens 4.13(a) e 4.13(d).
Tabela 4.1: Coeficientes de ajuste obtidos ao estimar a direc¸a˜o de chegada.
a b c d e
Velocidade (km/h) 35, 57 42, 47 54, 45 53, 30 68, 29
Valor previsto (30) (40) (50) (60) (70)
Distaˆncia Fonte-Sensor (m) 3, 74 3, 56 3, 24 4, 41 3, 74
Valor previsto (3,60) (3,60) (3,60) (3,60) (3,60)
Distaˆncia entre Fontes (m) 2, 83 2, 80 3, 18 2, 59 2, 61
Valor previsto (2,70) (2,70) (2,70) (2,45) (2,70)
Instante t0 (s)
Fonte 1 1, 43 1, 33 1, 40 1, 38 1, 45
Fonte 2 1, 50 1, 40 1, 53 1, 40 1, 48
Valor previsto (1,76) (1,52) (1,49) (1,51) (1,51)
34
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Ân
gu
lo 
 
(º)
DOA - Método GCC-PHAT
Estimado
Teórico
(a) 30 km/h
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Ân
gu
lo 
 
(º)
DOA - Método GCC-PHAT
Estimado
Teórico
(b) 40 km/h
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Ân
gu
lo 
 
(º)
DOA - Método GCC-PHAT
Estimado
Teórico
(c) 50 km/h
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Ân
gu
lo 
 
(º)
DOA - Método GCC-PHAT
Estimado
Teórico
(d) 60 km/h
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Ân
gu
lo 
 
(º)
DOA - Método GCC-PHAT
Estimado
Teórico
(e) 70 km/h
Figura 4.13: Estimativa da direc¸a˜o de chegada obtida com o me´todo GCC-PHAT
para Fs = 44 100 Hz e N = 256, seguido da etapa de po´s-processamento.
35
Cap´ıtulo 5
Conclusa˜o
Este trabalho buscou, atrave´s da implementac¸a˜o de quatro algoritmos diferentes,
encontrar um me´todo capaz de localizar fontes de ru´ıdo em um ambiente urbano.
A aplicac¸a˜o dos me´todos na qual este trabalho se baseou [7] tratava de sinais de
voz em um cena´rio onde era esperado apenas um falante por vez, podendo ele estar
em movimento. Assim, os algoritmos chegaram a resultados satisfato´rios para a
estimativa da direc¸a˜o de chegada. No entanto, os sinais de a´udio utilizados neste
trabalho exibiram um comportamento diferente, sendo poss´ıvel distinguir mais de
uma fonte para cada instante de tempo. Os me´todos foram enta˜o ajustados para
que a estimativa da DOA se tornasse condizente com a real.
Apo´s efetuar as modificac¸o˜es foi enta˜o poss´ıvel estimar a direc¸a˜o de chegada para
as duas fontes principais observadas. Apesar da etapa de po´s-processamento intro-
duzida poder utilizar o resultado de qualquer um dos me´todos, deu-se prefereˆncia
ao algoritmo baseado na func¸a˜o correlac¸a˜o cruzada por ter sido observado que as
duas regio˜es de pico, referentes a`s duas fontes, encontram-se mais evidentes nesse
me´todo, facilitando a etapa do ajuste das curvas.
Das curvas encontradas foi tambe´m poss´ıvel extrair os paraˆmetros inicialmente
estimados para a velocidade, para o instante da passagem do ve´ıculo em frente ao
arranjo e para a distaˆncia entre fonte e sensor medida nesse instante. Dado que
o objetivo e´ a utilizac¸a˜o do arranjo de sensores para captar o ru´ıdo de carros dos
quais na˜o se tem nenhuma informac¸a˜o, os coeficientes resultantes do ajuste tornam-
se importantes na categorizac¸a˜o dos sinais obtidos.
36
Cap´ıtulo 6
Trabalhos Futuros
Para a continuac¸a˜o deste trabalho, as curvas encontradas da direc¸a˜o de chegada
podem ser utilizadas para extrair, atrave´s da te´cnica de beamforming, a contribuic¸a˜o
individual de cada componente. A ideia e´ direcionar o lo´bulo principal do beamfor-
mer para uma das fontes de ru´ıdo, enquanto um nulo e´ imposto a` posic¸a˜o da outra,
assim separando-as. Ale´m disso, faixas de frequeˆncia do espectro podem ser filtra-
das a fim de se distinguir outras fontes ale´m das rodas, como o ru´ıdo emitido pelo
motor, por exemplo.
Outra tarefa sugerida e´ a avaliac¸a˜o da direc¸a˜o de chegada estimada a partir de
dois microfones posicionados no eixo vertical do arranjo. O aˆnguloresultante dessa
ana´lise indica a posic¸a˜o da fonte com relac¸a˜o ao eixo z e pode auxiliar na separac¸a˜o
de fontes que se encontram em alturas diferentes.
37
Refereˆncias Bibliogra´ficas
[1] KNAPP, C., CARTER, G., “The generalized correlation method for estimation
of time delay”, IEEE Transactions on Acoustics, Speech, and Signal Processing,
v. 24, n. 4, pp. 320–327, 1976.
[2] LIU, C., WHEELER, B. C., O?BRIEN JR, W. D., et al., “Localization of
multiple sound sources with two microphones”, The Journal of the Acoustical
Society of America, v. 108, n. 4, pp. 1888–1905, 2000.
[3] BENESTY, J., “Adaptive eigenvalue decomposition algorithm for passive
acoustic source localization”, The Journal of the Acoustical Society of Ame-
rica, v. 107, n. 1, pp. 384–391, 2000.
[4] ORGANIZATION, W. H., OTHERS, “Burden of disease from environmental
noise: Quantification of healthy life years lost in Europe”. In: Burden of disease
from environmental noise: quantification of healthy life years lost in Europe, pp.
126–126, 2011.
[5] BRAMBILLA, G., GALLO, V., ASDRUBALI, F., et al., “The perceived quality
of soundscape in three urban parks in Rome”, The Journal of the Acoustical
Society of America, v. 134, n. 1, pp. 832–839, 2013.
[6] PINTO, F. A. D. N. C., MARDONES, M. D. M., “Noise mapping of densely
populated neighborhoods: example of Copacabana, Rio de Janeiro, Brazil”,
Environmental monitoring and assessment, v. 155, n. 1-4, pp. 309–318, 2009.
[7] DOBLINGER, G., “Localization and tracking of acoustical sources”, Topics in
acoustic echo and noise control, pp. 91–122, 2006.
38
[8] HAYES, M. H., Statistical digital signal processing and modeling. John Wiley
& Sons, 2009.
[9] FERRARA, E., “Fast implementations of LMS adaptive filters”, IEEE Tran-
sactions on Acoustics, Speech, and Signal Processing, v. 28, n. 4, pp. 474–475,
1980.
[10] WELCH, P., “The use of fast Fourier transform for the estimation of power
spectra: a method based on time averaging over short, modified periodograms”,
IEEE Transactions on audio and electroacoustics, v. 15, n. 2, pp. 70–73, 1967.
39