Prévia do material em texto
Aparelho Fonador Humano e Acústica de Fonação ESTI019 – Codificação de Sinais Multimídia Profs. Celso S. Kurashima, Mário Minami e Kenji Nose Filho UFABC 1 Raio-X do Aparelho Fonador Humano (AFH) 2 Estruturas e Articuladores Trato Vocal e Nasal: A produção do sinal de voz 3 O sinal de voz começa a ser produzido nos pulmões, que se contraem de forma a expelir o ar que carrega as ondas acústicas Estruturas e Articuladores Trato Vocal e Nasal: A produção do sinal de voz 4 Essa coluna de ar passa pela laringe, onde estão localizados as cordas vocais, responsáveis pela caracterização do som (sonorous ou surdos). Estruturas e Articuladores Trato Vocal e Nasal: A produção do sinal de voz 5 A faringe é responsável pela amplificação do som. Dependendo da posição do palate mole, o som pode percorrer dois caminhos diferentes. Estruturas e Articuladores Trato Vocal e Nasal: A produção do sinal de voz 6 Pode percorrer a cavidade nasal, gerando os sons denominados nasais; Pode percorrer a cavidade oral, gerando os sons orais; Da classificação do sinal de voz:7 Os sinais de voz podem ser classificados: Com respeito a fonte de excitação (pulmões+traqueia+pregas vogais): Pregas vocais vibrando (sons sonoros, que possuem uma característica periódica). Ex: todas as vogais e algumas consoantes como /b/ em boi, /d/ em dar, etc. Pregas vocais não vibram (sons surdos, que possuem um comportamento aleatório do tipo ruído branco). Ex: algumas consoantes como /f/ em fava, /s/ como em circo, etc. Com respeito ao filtro acústico (trato vocal+cavidade nasal+articuladores): Som oral. Ex: /a/, /o/, /t/, etc. Som nasal; EX: /ã/, /m/, /n/, etc. Da Análise do sinal de Voz em Tempo e Frequência Segmentos Janelas: Processamento de Tempo Curto Energia de Tempo Curto Pitch, T0 Frequência Fundamental f0 8 Segmentos (Quadros) Divisão do sinal em trechos “quase-estacionários” freqüência de amostragem fa, segue o teorema de Nyquist (dobro da frequência máxima do sinal) duração do segmento, Ts , é fixa: Maior que uma transição da articulação Menor que a duração de uma vogal “rápida” Tamanho da Janela, ou número de amostras por segmento, NJ, é dado por: Pois, onde Ta é o período de amostragem. 9 a s saJ T T TfN a a T f 1 Janelas e Espectro das Janelas 1 0 Retangular 0 100 200 300 0 0.5 1 w[n] H A N N I N G n 0 0.5 p p -150 -100 -50 0 dB 0 100 200 300 0 0.5 1 w[n] H A M M I N G n 0 0.5 p p -150 -100 -50 0 dB Energia de Curto Prazo 11 Num l-ésimo Segmento, de tamanho NJ : 1 0 2 )( 1 )( JN m l J mx N lE Sendo Nt o número total de segmentos do sinal NJ o tamanho de cada segmento. 0 l Nt )(log10)( lElEdB Contorno de Energia (Envoltória) 1 2 ALO BOM DIA BOA TARDE TCHAU Sons Vocálicos e Consonantais Sons vocálicos, quando o fluxo de ar praticamente não sofre restrições à sua passagem pelo trato vocal. Sons Vocálicos possuem maior Energia. Sons consonantais, quando as restrições (constrições) são significativas, diminuindo assim significativamente sua amplitude, e assim possuem menor Energia. 13 Período Fundamental T0 , Pitch, Frequência Fundamental f0 0 0 1 T f 14 Palavra “ALÔ” /a/ /a/ /lo/ /o/ Sinais de Voz Sonoros e Surdos 15 Análise do Sinal 1000ms de amostra, fa = 8kHz, banda telefônica (300-3400Hz) Segmentos de 37.5ms, J = 8000*0.0375 = 300 Ruído de fundo 13dB, Fonema /s/ 25dB acima. Fonema consonantal, surdo constritivo: espectro quase branco (Fonema consonantal sonoro constritivo, p.ex. /v/ de NOVE). Vogais /e/ e /i/ possuem “picos” e “vales” no espectro. Nas frequências Formantes f1, f2, f3, f4 , ou de ressonância nas cavidades, o sinal atinge maiores potências (em f1, 50dB). Nas anti-ressonâncias a potência cai a 30 dB. 16 Triângulo das Vogais, português 17 /i/ /u/ /e/ /ɛ/ /a/ /ɔ/ /o/ Adaptado de Russo e Behlau, 1993 F1 (Hz) F2(Hz) Exemplo para um sinal sonoro, como uma vogal )().().()( RHUS Modelo da Glote Modelo do Trato Vocal Modelo da Radiação da Fala • Os três modelos lineares e separáveis, para simplicidade • Propagação desde os pulmões, na traquéia, glote e trato vocal, através de uma onda de pressão plana, propagando-se progressivamente até os lábios 18 Modelo da Fonte de Excitação Sonora: Cadeia quase-periódica de bolsões de ar Surda: tipo turbulento, como ruído Plosiva: Escape de ar após oclusão total Sussurro: Passagem através da glote semi-fechada Silêncio: regiões do sinal sem som 19 Excitação SONORA (“Voiced”) Características importantes: Frequência fundamental f0 Duração de cada fase (aberta e fechada) O instante da oclusão da Glote O formato de cada pulso (abertura, fechamento) Exemplo de Modelo, no domínio-Z: )()()()( )()()()( 0 0 zRzHzGzE zRzHzUzS 20 Comentários sobre o modelo: Os termos no domínio Z, correspondem exatamente aos análogos em w (contínuo) Coeficiente de ganho Θ0 E(z) é a transformada Z do trem de impulsos e(n), com período de pitch P G(z) é o filtro de trato vocal (glote), g(n) sua reposta impulsiva Logo, i iPngnu )()( 21 Excitação SURDA Um tipo de excitação surda são sons que friccionam com grandes constrições no trato vocal (fricativo) Outro tipo é um súbito escape de ar depois da abertura rapidíssima de uma oclusão (plosivo) O modelo para ambos é um ruído branco N(z): )()()()( 0 zRzHzNzS Ou, no domínio da frequência (DTFT): )()()()( 0 wRwHwNwS 22 Modelamento do Trato Vocal Comprimento de onda de uma onda plana acústica de 4kHz: Como o diâmetro do trato vocal é de ± 2 cm, a hipótese de uma onda plana se propagando dentro dele, é razoável. Leis importantes: da Continuidade e de Newton cm 5.8 ciclos/s 4000 m/s 340 4 f vsom kHz ),( ),,,( ),,,( ),(1 2 txp t tzyxv tzyxv t txp vsom • ),,,( tzyxv p(x,t) pressão sonora Vetor velocidade no ar de uma partícula Densidade do ar no tubo 23 Aproximação onda plana propagando na direção x (origem na glote para os lábios): ),(),(),( txvtxAtxv ),( txv A(x,t) seção transversal variável do trato vocal, na posição x e instante t velocidade de um volume de ar, na posição x e instante t: Substituindo nas expressões tridimensionais: t txAtxv x txp t txA t txAtxp vx txv som ),(/),(),( ),(),(),(1),( 2 24 Modelo de 1 Tubo sem Perdas 0 x 17,5 cm Glote Lábios Terminação ABERTA, lábios abertos, o desvio da pressão será nulo em x=l (l = 17,5cm), em relação à pressão ambiente: 0)(),( tptlp labios Para regime permanente, a fonte na glote pode ser modelada por exponencial complexa: tj gloteglote eUtutv )()(),0( 25 Modelo para lábios abertos: ti labios def tj som glote eUe vl U tlv )( /cos )( ),( Onde é o fasor para o sinal uglote(t).)(gloteU A função de transferência para o trato vocal é dada pela relação entre os fasores das velocidades nos lábios e na glote: )/cos( 1 )( )( )( )( )( somglote labios glote labios vltu tu U U H 26 Resultados para lábios abertos: As frequências de ressonância fi para este modelo são obtidas igualando o denominador a zero: Como i = 2pfi , as ressonâncias ocorrerão nas frequências: ,...4,3,2,1 para 12 2 ii v l som i p ,...4,3,2,1 para 2 4 ili l v f somi 27 Resposta em Frequência, modelo 1 Tubo vsom = c = 353.027 m/s, Θ = 37 oC, l = 17.5 cm fonte: http://www.sengpielaudio.com/calculator-speedsound.htm 28 http://www.sengpielaudio.com/calculator-speedsound.htm Script Matlab modelo de 1 tubo % modelamento acustico do trato vocal % Minami - 29 agosto 2013 maxgain = 50; % ganho maximo= 50dB l = 17.5e-2; % comprimento do trato vocal em m v = 350; % velocidade do som, m/s, no ar na temperatura de 37 celsius fat = l/v; omega = 0:6000; w = 2*pi*omega*fat; den = cos(w); ntot = prod(size(den)); for i=1:ntot H(i) = 20*log10(abs(1/den(i))); if H(i)>maxgain H(i) = maxgain; end end clf plot(omega,H); xtitle( 'Resposta em Frequência de um Tubo Acústico Uniforme', 'frequência, f(kHz)', '20log(|H(f)|)'); 29 Modelo 2 Tubos30 Frequências de Ressonância do Modelo 2 tubos 31 Multi-Tubos32 Aproximação para qualquer conformação 33 Condições de Contorno 34 Ondas Progressivas e Regressivas 𝑢𝑘+1 + (𝑡) = 𝑢𝑘 +(𝑡 − 𝜏𝑘) 2𝐴𝑘+1 𝐴𝑘+1 + 𝐴𝑘 + 𝑢𝑘+1 − (𝑡) 𝐴𝑘+1 − 𝐴𝑘 𝐴𝑘+1 + 𝐴𝑘 𝑢𝑘 − 𝑡 + 𝜏𝑘 = 𝑢𝑘+1 − 𝑡 2𝐴𝑘+1 𝐴𝑘+1 + 𝐴𝑘 − 𝑢𝑘 +(𝑡 − 𝜏𝑘) 𝐴𝑘+1 − 𝐴𝑘 𝐴𝑘+1 + 𝐴𝑘 35 Coeficientes de Transmissão e Reflexão Transmissão: 𝑟𝑘 + = 2𝐴𝑘+1 𝐴𝑘+1+𝐴𝑘 Reflexão: 𝑟𝑘 − = 𝐴𝑘+1−𝐴𝑘 𝐴𝑘+1+𝐴𝑘 𝑟𝑘 ≝ 𝑟𝑘 − −1 ≤ 𝑟𝑘 ≤ 1. 36 Modelo do Trato Vocal 37 e(t) Modelo da Glote Modelo do Trato Vocal Radiacao Labial s(t) Modelo de Tempo Discreto 38 X Gerador de Amostras Unitárias Gerador de Números Aleatórios Filtro Digital Variante no Tempo Coeficientes do Filtro Digital (Parâmetros do Trato Vocal) PERÍODO DE PITCH GANHO AMOSTRAS DO SINAL DE VOZ 𝐻 𝑧 = σ 𝐿𝑃𝐶 1 𝐴(𝑧) Picos Cruzamento de Zero Abertura da Glote Pulso Glotal 39 Pitch Diferentes Definições Determinar o Pitch pela Autocorrelação 𝑟 𝑑, 𝑞 = 1 𝐾 𝑛=𝑞 𝑞+𝐾+𝑑 𝑠 𝑛 𝑠(𝑛 + 𝑑) Janela K, ponto q RABINER, L. R. (1977, February). On the Use of Autocorrelation Analysis for Pitch Detection. IEEE Transactions On Acoustics, Speech, And Signal Processing, pp. 24-33. 40