Buscar

Atividade Estruturada I

Prévia do material em texto

CURSO: Redes de Computadores
DISCIPLINA: Redes Convergentes
PROFESSOR(a) Gracieth Mendes
ACADEÊMICO; Claudionor Melo
Boa Vista-RR, 2015-2
Atividade Estruturada I
Pesquisa 2 (Fazer uma pesquisa sobre a facilidade de VAD (Voice Activity Detection) que pode ser usada na compressão de voz. Indicar qual o percentual de banda ocupada que pode ser reduzido com o uso dessa facilidade.)
A função dos codificadores de voz é transformar a voz da forma analógica para a forma digital. A codificação da voz consiste basicamente na amostragem e na quantização do sinal. A amostragem transforma o sinal contínuo em um sinal discreto enquanto a quantização converte o sinal discreto analógico em uma sequência de bits.
O codificador mais básico definido pela ITU-T é o G.711, que utiliza a modulação Pulse Code Modulation (PCM). A faixa de freqüência da voz humana utilizada para telefonia é de 4 kHz, e segundo a taxa de Nyquist, a voz deve ser amostrada pelo menos no dobro da freqüência. Assim, têm-se 8 mil amostras por segundo. Cada amostra é representada por um octeto, portanto, a taxa de transmissão da voz PCM é de 64 kbps. Na quantização é utilizada uma escala logarítmica de modo a aumentar a resolução de sinais de menor volume. Na verdade, a escala não é logarítmica, mas são utilizados vários segmentos lineares, a fim de realizar uma aproximação da curva desejada. Existem codificadores de voz que utilizam a técnica de supressão de silêncio. Esta técnica se baseia no fato de que durante uma conversação o interlocutor fala em média 35% do tempo. Para suprimir o silêncio, é necessária a existência de um detector de voz(Voice Activity Detector - VAD), responsável por detectar se o interlocutor está falando ou está em silêncio. O VAD pode ser implementado com ou sem histerese, isto é, ao invés de utilizar apenas um limiar de tensão na detecção de atividade e de silêncio, pode-se utilizar dois limiares, de maneira a evitar que o final das palavras sejam cortados. É necessário também um dispositivo (Discontinuous Transmission - DTX) que interromperá a transmissão toda vez que receber a informação de que o interlocutor está em silêncio. Por fim, é necessário um dispositivo (Confort Noise Generator - CNG) para simular o ruído de fundo enquanto o interlocutor estiver em silêncio, pois o silêncio absoluto causa desconforto aos ouvidos humanos.
Existem ainda diversos outros codificadores de voz que possuem taxas de transmissão inferiores. A grande maioria destes codificadores faz a compressão do sinal de voz em quadros, onde cada quadro contém diversas amostras de voz. Estas técnicas de compressão utilizam informações dos quadros anteriores para a geração dos quadros atuais. O codificador G.723.1 foi selecionado pela International Multimedia Telecommunications Consortium (MTC) VoIP Forum para o padrão H.323 banda estreita. Este codificador possui uma taxa de transmissão de 5,3 ou 6,3 kbps, que pode ser ajustada dinamicamente. O tamanho do quadro é de 30 ms mais 7,5 ms de informações do quadro anterior. O G.723.1 utiliza o Multi-Pulse-Maximum Likelyhood Quantization (MP-MLQ) para excitaçãoda taxa mais alta, enquanto que para a taxa mais baixa é utilizado o Algebraic-Code-Excited Linear Prediction (ACELP). O codificador G.729A utiliza a técnica de codificação Conjugate Structure Algebraic-Code-Excited Linear Prediction (CS-ACELP). Ele possui uma taxa de 8 kbps com tamanho de quadro de 10 ms mais 5 ms de informações do quadro anterior. Tanto o G.723.1 quanto o G.729A são capazes de realizar a supressão de silêncio. A Tabela abaixo resume as principais características dos codificadores anteriormente mencionados.(VAD – Voice Activity Detection) A fim de otimizar a densidade de informação presente em cada pacote, é comum que sejam utilizadas alternativas como a compressão do que se deseja transmitir ou a supressão dos momentos de silêncio (ou VAD, de Voice Activity Detection) para economia de banda. Esta última é responsável por uma redução de consumo de banda de, aproximadamente, 25%  quando utilizada em associação aos codificadores CS-ACELP (Conjugate-Structure Algebraic Code Excited Linear Prediction). Contudo, no caso do VoIP, a atividade de compressão influi diretamente na qualidade dos serviços prestada, isto é, quanto maior a compressão, pior será sua QoS, dado que haverá maior degradação do sinal codificado além de maiores atrasos devido ao processamento nos pontos de acesso. Comumente são utilizados nas telecomunicações codificadores CS-ACELP normalizados como G.729 e PCM com lei µ ou lei A (G.726) que reduz as taxas de transmissão aaté 25%, além daqueles denominados G.711, utilizados na telefonia PSTN, e G.723.1, codificadores a duas taxas (5.3 e 6.3 kbps). Esses codificadores são padronizados pelo ITU-T, conforme apresentado abaixo. Por utilizarem diferentes técnicas, as codificações implicam em necessidades de banda e qualidade do sinal decodificado distinto. A fim de detectar a qualidade perceptual, frequentemente recorre-se à escala de pontuação MOS (Mean Opinion Score), obtida a partir da média de pontuação conferida pela quantificação subjetiva (numa escala de 1 a 5) da qualidade percebida por um grupo de usuários.Por outro lado, estudos têm procurado realizar essa quantificação por métodos mais formais, avaliando fatores como banda, supressão de silêncio, compressão de cabeçalhos, atraso, jitter e taxa de perdas e erros. Assim, alguns deles indicam que os codificadores G.711 apresentam maiores atrasos na comunicação entre duas estações quando comparados aos demais aqui citados, ao passo que o G.723 possui a melhor performance principalmente quando combinado com a técnica de supressão de silêncio. Além disso, a eficiência da transmissão da rede também está atrelada a quantidade de informação contida em cada pacote: à medida que seu tamanho aumenta, seu atraso também é acrescido e seu overhead diminui. A despeito disso, muitos sistemas de voz acabam por utilizar pacotes de 20 ms, cuja eficiência é reduzida, acima de tudo, quando os codificadores atuam a baixas taxas.Nesse contexto, atelefonia VoIP faz uso dos protocolos IP, UDP (User Datagram Protocol) e o RTP (Real Time Transport Protocol), sendo estes dois últimos pertinentes a camada de transporte e aplicação, respectivamente. Estes protocolos representam um cabeçalho de 40 bytes por pacote de voz transmitido (20 devido ao protocolo IP, 8 ao UDP e 12 ao RTP). Em implementações comerciais (como o G.729 ou o G.723.1), o uso destes cabeçalhos permitiria a transmissão de apenas 20 bytes de informação por datagrama, sem permitir, ainda, a utilização de bytes de controle.Por fim, a taxa de perdas e erros também se constitui de um fator relevante na transmissão de voz através de pacotes em rede. Esse aspecto torna-se ainda mais crítico se observada a queda de qualidade pelo requerimento de retransmissões de pacotes, por acarretar no aumento do jitter. Para implementações como o G.711, G.726 e G.728, cujos atrasos de codificação são reduzidos, utilizam-se técnicas FEC (Forward Error Correction), pela introdução de redundâncias a cada pacote transmitido, sob pena de aumento da banda requerida. É comum, ainda, que o uso dos buffers influencie nas perdas detectadas na telefonia via rede. Todavia, sua capacidade deve manter uma boa relação com os atrasos suportados, a fim de não prejudicar a qualidade almejada.

Continue navegando