Buscar

Aplicações em Redes e Qos - Aula 1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 73 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 73 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 73 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

DESCRIÇÃO
Apresentação das redes multimídia, seus principais serviços e técnicas de digitalização de áudio e de
vídeo
PROPÓSITO
Apresentar as principais características dos serviços de redes multimídia e as propriedades do áudio
digital e do vídeo digital.
OBJETIVOS
MÓDULO 1
Descrever redes multimídia e suas principais aplicações
MÓDULO 2
Descrever o processo de digitalização de áudio
MÓDULO 3
Descrever o processo de digitalização de vídeo
INTRODUÇÃO
Pessoas de todo o mundo utilizam a internet para assistir a shows ao vivo, aulas por videoconferência,
vídeos online, filmes, programas de televisão, para trocar mensagens em tempo real e outros tipos de
atividades.
O desenvolvimento das redes de computadores ocasionou uma convergência de várias tecnologias,
levando à criação das redes multimídia atuais. Entendemos como uma aplicação de rede multimídia
aquela que empregue dados, áudio ou vídeo.
Neste tema, iremos abordar como ocorreu a convergência dos diversos tipos de redes até chegarmos às
modernas redes multimídia. Também identificaremos as principais aplicações deste tipo de rede e as
principais características do processamento de áudio e vídeo digital.
MÓDULO 1
 Objetivo: Descrever redes multimídia e suas principais aplicações
REDES MULTIMÍDIA
A comunicação confiável, independentemente da localização ou do destinatário, tem se tornado cada vez
mais de suma importância para os usuários das redes de comunicação interligadas.
Essas redes de dados ou informações variam em tamanho e capacidade, mas todas possuem quatro
elementos básicos em comum:
Regras ou acordos para determinar como as mensagens são enviadas, direcionadas, recebidas e
interpretadas.
Mensagens ou unidades de informação que navegam de um dispositivo para outro.
Um meio de interligar esses dispositivos de modo que seja possível transportar as mensagens de um
dispositivo para outro.
Dispositivos na rede que trocam mensagens entre si.
Observe como esses quatro elementos estão dispostos em uma rede:
Imagem: Adaptado de Cisco CCNA.
Elementos de uma rede.
 VOCÊ SABIA?
Telefones, rádios, televisões e redes de computadores possuem suas próprias versões dos quatro
elementos básicos de uma rede.
Para permitir a interoperabilidade dos equipamentos de diversos fabricantes, é fundamental a existência
de padrões largamente acatados, que definem o modo de interligação das redes.
Antigamente, cada um desses serviços utilizava tecnologias diferentes na transmissão de seu sinal de
comunicação, bem como um conjunto específico de protocolos de funcionamento, gerando redes distintas
para cada um deles.
Repare na imagem abaixo o uso de diferentes tecnologias na transmissão do sinal de comunicação:
Imagem: Adaptado de Cisco CCNA.
Redes Tradicionais.
Com o avanço da tecnologia de redes baseada na pilha de protocolos TCP/IP (Transport Control
Protocol/Internet Protocol) ocorreu a consolidação de uma rede convergida. O fluxo de voz, vídeo e
dados viaja por uma mesma rede, eliminando a necessidade de criar e manter redes separadas. Em uma
rede convergida existem muitos pontos de contato e muitos dispositivos especializados, como
computadores pessoais, telefones, televisão, assistentes pessoais e registros de venda a varejo, mas
somente uma infraestrutura de rede comum.
REDE CONVERGIDA
Rede que permite que voz, vídeo e dados utilizem a mesma rede IP.
A imagem a seguir retrata um exemplo de redes convergidas:
javascript:void(0)
Imagem: Adaptado de Cisco CCNA.
Redes convergidas.
As redes evoluíram e continuam a evoluir. De simples meio para troca de dados e acesso a aplicações
clássicas, como correio eletrônico e download de arquivo, tornaram-se redes multimídia, com acesso a
vídeos, transmissões de rádio e televisão, troca de mensagens instantâneas, divulgação de conteúdo,
cursos e aulas online, comercio eletrônico etc.
 ATENÇÃO
O ritmo de desenvolvimento de novas aplicações para a internet utilizando multimídia continua alto. Cada
vez mais surgem novas aplicações e funcionalidades que aumentam a gama de serviços ofertados na
grande rede, consolidando o público que os utiliza e aumentando a base de consumo dos serviços
agregados.
Os mecanismos e processos subjacentes que dirigem esse crescimento explosivo resultaram em uma
arquitetura de rede que é, ao mesmo tempo, resistente e escalável. Assim como a plataforma tecnológica
que apoia a vida, o ensino, o trabalho e o entretenimento nas relações humanas, a arquitetura de rede da
Internet deve se adaptar aos requisitos em constante mudança para uma alta qualidade dos serviços e
segurança.
REDES NGN (NEXT GENERATION NETWORKS)
As atuais redes multimídia se originaram das redes convergidas que foram denominadas como NGN, ou
Redes de Próxima Geração.
A ideia por detrás dessas redes era transportar toda a informação que corre pela rede em pacotes digitais
utilizando o protocolo IP (Internet Protocol) .
Tais pacotes seriam capazes de transportar conversas telefônicas, vídeo, arquivos, e-mails, dentre outros.
A NGN integra infraestruturas de redes tais como WAN (Wide Area Network) , LAN (Local Area
Network) , MAN (Metropolitan Area Network) e redes sem fio.
 ATENÇÃO
A integração de recursos e a convergência de tráfico reduzem os custos totais da rede, permitindo o
compartilhamento da operação, a administração da rede, a manutenção e o aprovisionamento de
equipamentos, além de criar um ambiente propício para aplicações multimídia.
ARQUITETURA NGN
A arquitetura NGN é normalmente dividida em três camadas:
INFRAESTRUTURA (TRANSPORTE) E ACESSO
Nessa camada, encontram-se as unidades de acesso de assinante, como os telefones IP e Access
Gateways (fazem a interface entre a rede IP e os diversos tipos de conexão dos usuários), além de
comutadores, roteadores e Media Gateways (que transformam a voz em pacotes).
CONTROLE DE CHAMADAS
Responsável pelo encaminhamento, pela supervisão e pela liberação das ligações que trafegam pela
rede IP. É uma parte estratégica da rede onde fica o equipamento chamado Media Gateway Controller ou
Softswitch, que é a inteligência da rede.
CAMADA DE SERVIÇOS
Permitir a oferta de novos e múltiplos serviços aos usuários.
Imagem Adaptado de Wilkinson, Neil. Next Generation Network Services: Technologies & Strategies.
2002. P. 169.
Arquitetura NGN.
Os principais equipamentos de uma rede NGN são:
MEDIA GATEWAYS
Faz a interconexão entre a rede comutada e a rede de pacotes, possibilitando a conversão da mídia de
voz da rede telefônica para a rede de dados e vice-versa. Além dessa conversão e manipulação de
mídias, realiza outras atividades como compressão, cancelamento de eco, envio e detecção de tons.
Como “gateway”, esse elemento de rede apenas manipula a mídia, não possuindo nenhuma inteligência
agregada e necessitando de um controle de um elemento de rede hierarquicamente superior – o
Softswitch – via um protocolo de controle (como o MCGP ou Megaco/H.248), com assinantes IP ou
softphones (PCs com software apropriado), ou mesmo outros assinantes convencionais por meio de um
trecho da rede IP.
SOFTSWITCH
Também chamado de Call Feature Server ou Media Gateway Controller, é o elemento central da rede
NGN que contém sua inteligência e controla os demais elementos da rede. Realiza o controle da
chamada, bem como implementa as facilidades e serviços suplementares ofertados.
Um dos pontos principais da rede NGN, conforme podemos ver na figura a seguir, é a separação na
arquitetura entre manipulação da mídia (pelos Gateways) e a manipulação da sinalização e do controle
envolvidos na chamada (pelo Softswitch). Funções de controle de chamada e manipulação de mídias
separadas em dois planos distintos provêm a máxima flexibilidade para a evolução da rede.
A centralização da inteligência dos serviços e do controle da chamada permite uma gerência da rede
simplificada e eficiente, e é a base para reações rápidas às demandas do mercado por novos serviços e
oportunidades de negócios. Tambémpermite a integração de serviços providos por aplicações de
terceiros, que se interligam a Softswitch, via interface aberta.
Imagem: Adaptado de Wilkinson, Neil. Next Generation Network Services: Technologies & Strategies.
2002. P. 152.
Equipamento de redes NGN.
Mesmo que o foco atual esteja nas aplicações e nos serviços competitivos, é praticamente impossível
introduzir uma NGN sem considerar as seguintes tecnologias de rede:
PROCESSAMENTO DIGITAL DE SINAIS
ROTEAMENTO DOS PACOTES
REDES ÓPTICAS
PROTOCOLOS AVANÇADOS
O processamento dos sinais digitais é a tecnologia-chave para a integração do tráfego de voz e dados. A
vantagem dessa área é a facilidade de compressão de voz e a sua conversão para pacotes de dados.
Os recentes protocolos de roteamento permitem priorizar as filas e os pacotes das aplicações que exijam
qualidade de serviço (QoS).
As redes ópticas aumentam, dramaticamente, a banda de transmissão que está disponível pelos
provedores de telecomunicações e dos usuários. As vantagens da multiplexação por onda de luz e o
roteamento por comprimento de onda deverão consolidar o roteamento nas redes ópticas.
Desde que o TCP/IP se tornou um protocolo estratégico, muitos esforços estão sendo feitos para
conceber novas funções e aumentar seu desempenho. As redes baseadas em IP em breve deverão ser
capazes de prover a mesma qualidade de serviço encontrada nas redes ATM.
TIPOS DE APLICAÇÃO DAS REDES MULTIMÍDIA
Os tipos de aplicações de redes multimídia podem ser divididos em: streaming de áudio/vídeo
armazenado, streaming de áudio/vídeo em tempo real e áudio/vídeo interativo, conforme mostrado no
esquema a seguir:
STREAMING
Streaming significa fluxo contínuo, ou seja, ocorre quando um usuário poder ouvir (ou assistir a) um
arquivo logo após ter iniciado seu download.
Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.901.
Tipos de aplicação multimídia.
STREAMING DE ÁUDIO/VÍDEO ARMAZENADO
Refere-se a solicitações sob demanda de arquivos de áudio/vídeo comprimidos que estão armazenados
em um servidor. Por meio da internet, o cliente realiza o download dos arquivos, também chamado de
áudio/vídeo sob demanda. Alguns exemplos de aplicação são o YouTube, NetFlix, Amazon Prime,
Disney+, entre outros.
STREAMING DE ÁUDIO/VÍDEO EM TEMPO REAL OU AO VIVO
Refere-se à transmissão de conteúdo ao vivo pela Internet, como programas de televisão ao vivo ou
programa de rádio.
ÁUDIO/VÍDEO INTERATIVO
Refere-se ao uso da Internet para aplicações interativas de áudio/vídeo, como telefonia,
videoconferências etc. A principal diferença para a aplicação ao vivo é a existência de interação entre as
javascript:void(0)
duas partes envolvidas, ou seja, todos os componentes podem receber e enviar imagens e som.
SERVIÇOS OFERECIDOS POR REDES
MULTIMÍDIA
Destacam-se como aplicações das redes multimídia à telefonia IP (VOIP), às mensagens instantâneas e
ao vídeo sob demanda, entre outros.
VIDEO ON DEMAND (VOD)
Segundo Massarolo e Mesquita (2016), atualmente, a distribuição de conteúdo online é realizada por
meio da tecnologia de streaming, mais conhecido como serviço de vídeo sob demanda (video on demand
– VOD).
O MODELO DE NEGÓCIO QUE TEM COMO BASE O
STREAMING DE VÍDEO APROXIMOU AS EMPRESAS DE
TECNOLOGIA DA TELEVISÃO, OCASIONANDO UMA SÉRIE
DE MUDANÇAS NO MERCADO DA INDÚSTRIA
AUDIOVISUAL. EM MEIO A ESSAS MUDANÇAS, PODEMOS
DESTACAR AS NOVAS PRÁTICAS DE VISUALIZAÇÃO DO
CONTEÚDO QUE SE DESENVOLVEM EM TORNO DAS NOVAS
PLATAFORMAS DE DISTRIBUIÇÃO
(MASSAROLO; MESQUITA, 2016).
ENTRE OS SERVIÇOS DE VÍDEO SOB DEMANDA, HÁ UMA
VARIEDADE QUE ATENDE A DIFERENTES PERFIS DE
USUÁRIOS E CONTEÚDO. ALGUNS UTILIZAM A
INFRAESTRUTURA DA INTERNET DE BANDA LARGA PARA
PROPAGAR CONTEÚDOS POR DIFERENTES TELAS
(TELEVISÃO, SMARTPHONE, COMPUTADOR ETC.) E
OUTROS USAM APARELHOS DE RECEPÇÃO DE SINAL TV
POR ASSINATURA. AS MODALIDADES DISTINTAS DE
ACESSO AOS SERVIÇOS DE VÍDEO SOB DEMANDA PODEM
SER CLASSIFICADAS COMO OTT (OVER THE TOP),
QUANDO SE USA A INTERNET COMO PRINCIPAL CANAL DE
CONTEÚDO, OU CABLE VOD, QUANDO O ACESSO OCORRE
POR INTERMÉDIO DO SET-UP BOX DAS OPERADORAS A
CABO. ESSAS FORMAS DE ACESSO AO CONTEÚDO PODEM
SEGUIR DISTINTOS MODELOS DE NEGÓCIO (ASSINATURA,
ACESSO GRATUITO, ALUGUEL ETC.), CARACTERIZANDO O
MERCADO DE VÍDEO SOB DEMANDA COMO UM AMBIENTE
EM CONSTANTE TRANSFORMAÇÃO E EXPERIMENTAÇÕES,
O QUE VIABILIZA NOVAS POSSIBILIDADES DE NEGÓCIOS.
(MASSAROLO; MESQUITA, 2016)
AINDA DE ACORDO COM MASSAROLO E MESQUITA, ENTRE
OS SERVIÇOS DE VÍDEO SOB DEMANDA OTT QUE SE
DESTACAM PELA EXPERIMENTAÇÃO, PODEMOS
DESTACAR O YOUTUBE, COMPREENDIDO COMO UM FVOD
(FREE VOD). A MAIOR MARCA DESSA PLATAFORMA É O
CONTEÚDO GRATUITO GERADO PELOS PRÓPRIOS
USUÁRIOS, EM UMA CURADORIA LIVRE E ORGANIZADA
POR MEIO DE CANAIS. NO MESMO ESPAÇO, PODEMOS
ENCONTRAR DESDE PRODUÇÕES AMADORAS A
PROFISSIONAIS, DE TEMAS GERAIS A ESPECÍFICOS,
FICCIONAIS OU NÃO FICCIONAIS, PESSOAIS OU DE
INTERESSE PÚBLICO, FILANTRÓPICOS OU EMPRESARIAIS.
TAMBÉM PODEMOS CITAR A NETFLIX, EMPRESA DE MÍDIA
DIGITAL QUE POSSUI UM MODELO DE NEGÓCIO DEFINIDO
DE ASSINATURAS, CARACTERIZANDO-SE COMO UM
SERVIÇO SVOD (SUBSCRIPTION VOD), O QUE DÁ ACESSO
AOS USUÁRIOS A UMA BIBLIOTECA DE FILMES E SÉRIES
QUE PODEM SER ASSISTIDOS DE MANEIRA ILIMITADA POR
MEIO DE COMPUTADOR, DISPOSITIVOS MÓVEIS E
SMARTTVS
(MASSAROLO; MESQUITA, 2016).
VOZ SOBRE IP
É uma tecnologia que permite a transmissão de voz por IP (Protocolos de Internet), ou seja, transforma
sinais de áudio analógicos, como em uma chamada, em dados digitais que podem ser transferidos
através da Internet. O método está cada vez mais presente em softwares que possuem a tecnologia,
como Skype, Viber e WhatsApp.
 VOCÊ SABIA?
Apesar de ter ganhado destaque no mercado recentemente, a tecnologia surgiu no início da década de
1990 e chegou a ser considerada um fracasso por causa da baixa velocidade de transmissão de dados
da época.
Para que a transmissão de voz seja possível, o VoIP captura a voz, que até então é transmitida de
maneira analógica, e a transforma em pacotes de dados, que podem ser enviados por qualquer rede
TCP/IP. Assim, é perfeitamente possível trabalhar com esses pacotes pela internet. Quando o destino
recebe os pacotes, estes são transformados em sinais analógicos e transmitidos a um meio no qual seja
possível ouvir o som.
Imagem: Shutterstock.com
Para que o VoIP se torne uma tecnologia viável, é necessário investir em qualidade de serviço (QoS)
(Quality of Service) ou aumentar a largura de banda, ou seja, a velocidade de transmissão e recepção
de dados. Como o acesso à internet em banda larga é cada vez mais comum, principalmente em
empresas, o VoIP passou a se beneficiar disso. No entanto, apenas velocidade não é suficiente.
LARGURA DE BANDA
A largura de banda ou bandwidth (termo original em inglês) representa a capacidade de transmissão
de um determinado canal de uma rede específica, medida em bits por segundo, sendo função das
características técnicas de uma determinada arquitetura de redes.
Cientes disso, várias empresas do ramo passaram a pesquisar soluções que garantissem a melhor
qualidade possível na comunicação por VoIP. É natural que isso fosse acontecer, afinal, se uma empresa
(ou um conjunto de empresas) obtivesse os melhores resultados, certamente sairia na frente na disputa
por clientes. Essa situação fez com que surgissem uma série de soluções para VoIP.
Apesar dos vários padrões de VoIP, praticamente todas as empresas adotaram o protocolo RTP (Real
Time Protocol), que, basicamente, tenta fazer com que os pacotes sejam recebidos conforme a ordem de
envio.
javascript:void(0)
O RTP “ordena” os pacotes de dados, de modo que seja possível a transmissão destes em tempo real.
Caso algum pacote chegue atrasado, o RTP causa uma interpolação entre o “intervalo” deixado pelo
pacote, não o entregando.
MENSAGENS INSTANTÂNEAS
As mensagens instantâneas funcionam com base em uma lista de pessoas com as quais você deseja
interagir. Você pode enviarmensagens para qualquer pessoa da lista, geralmente chamada de lista de
contatos, desde que ela esteja online.
Quando você envia uma mensagem, uma janela é aberta e ali você e seu amigo podem digitar
mensagens que ambos podem ver.
A maioria dos programas de mensagens instantâneas oferece várias ferramentas:
Imagem: Isaac Barbosa
Mensagens instantâneas - envia mensagens e traz respostas de uma conversa com um amigo que
esteja online
Imagem: Isaac Barbosa
Criação de grupo - você pode criar seus grupos com amigos ou colegas de trabalho.
Imagem: Isaac Barbosa
Links de Internet - compartilhe os links dos seus sites favoritos.
Imagem: Isaac Barbosa
Imagens - você pode ver uma imagem armazenada no computador do seu amigo.
Imagem: Isaac Barbosa
Sons - você pode usar sons durante a conversa.
Imagem: Isaac Barbosa
Arquivos - compartilhe arquivos, enviando-os direto para seus amigos.
Imagem: Isaac Barbosa
Voz - use a Internet ao invés do telefone para falar de verdade com seus amigos.
REDES MULTIMÍDIA
No vídeo a seguir, você saberá mais sobre a evolução das redes e a importância da Qualidade de Serviço
(QoS) para as transmissões multimídia.
VERIFICANDO O APRENDIZADO
1) AS REDES MULTIMÍDIA SURGIRAM A PARTIR DA CONVERGÊNCIA DOS
DIVERSOS TIPOS DE REDES, COMO TELEVISÃO, TELEFONIA E DADOS. ESSAS
CONVERGÊNCIAS PERMITIRAM O DESENVOLVIMENTO DE NOVOS SERVIÇOS
ALÉM DOS TRADICIONAIS CORREIOS ELETRÔNICO, DOWNLOAD DE ARQUIVO
ETC. UM EXEMPLO DESSE NOVO TIPO DE SERVIÇO É A NETFLIX, QUE SE
CARACTERIZA COMO:
A) Voip
B) Vod
C) Streaming de áudio
D) TV online
E) Videoconferência
2) A CONVERGÊNCIA DAS DIVERSAS REDES PARA UMA ÚNICA UTILIZANDO A
TECNOLOGIA TCP/IP CARACTERIZA AS CHAMADAS REDES DE NOVA GERAÇÃO
(NGN). EM SUA ARQUITETURA, AS NGN POSSUEM UM EQUIPAMENTO QUE FAZ
A INTERCONEXÃO ENTRE A REDE COMUTADA E A REDE DE PACOTES, SENDO
CONHECIDO COMO:
A) Media Gateway Controller
B) Call Feature Server
C) Media Gateways
D) Softswitch
E) Softphone
GABARITO
1) As redes multimídia surgiram a partir da convergência dos diversos tipos de redes, como
televisão, telefonia e dados. Essas convergências permitiram o desenvolvimento de novos
serviços além dos tradicionais correios eletrônico, download de arquivo etc. Um exemplo desse
novo tipo de serviço é a Netflix, que se caracteriza como:
A alternativa "B " está correta.
A Netflix é um exemplo típico de vídeo on demand que se caracteriza como streaming de vídeo, ou seja,
assistir via internet a filmes e séries.
2) A convergência das diversas redes para uma única utilizando a tecnologia TCP/IP caracteriza as
chamadas redes de nova geração (NGN). Em sua arquitetura, as NGN possuem um equipamento
que faz a interconexão entre a rede comutada e a rede de pacotes, sendo conhecido como:
A alternativa "C " está correta.
Existem dois tipos básicos de equipamentos nas redes NGN: os Media Gateway, que são a interconexão
entre a rede de pacotes e a rede comutada, fazendo a conversão da mídia para rede de dados; e o
Softswitch, também conhecido como Call Feature Server ou Media Gateway Controler, que é o elemento
central de rede NGN responsável pelo controle de seu funcionamento.
MÓDULO 2
 Objetivo: descrever o processo de digitalização de áudio
CONHECENDO O ÁUDIO ANALÓGICO
imagem: Shutterstock.com
O som (sinal de áudio) é uma onda acústica que, ao entrar no ouvido, faz o tímpano e os ossos do ouvido
vibrarem, gerando impulso nervosos para o nosso cérebro e a nossa percepção do som.
imagem: Shutterstock.com.
De modo similar, a mesma onda, ao chegar ao microfone, produz um sinal elétrico analógico,
representando a amplitude do som como uma função do tempo, denominada áudio analógico.
O sinal de áudio analógico é digitalizado para gerar um áudio digital que pode ser transmitido por uma
rede multimídia.
Devemos atentar, inicialmente, para o fato de que o áudio exige uma largura de banda proporcional à
sua qualidade de digitalização. Sendo assim, quanto mais fiel ao sinal original maior será a largura de
banda exigida.
Desse modo, a qualidade do áudio digital gerado é função de sua taxa de amostragem e quantização,
conforme veremos mais à frente quando estudarmos as técnicas de digitalização do áudio analógico.
TRANSFORMAÇÃO DE ÁUDIO ANALÓGICO
PARA DIGITAL
O ouvido humano é capaz de captar frequências sonoras entre 20 e 20000Hz. A percepção do som pelo
ser humano ocorre em uma escala logarítmica, cuja unidade convencional de medida é o dB, sendo
calculada pela fórmula:
10 LOG10 (A/B)
Onde A e B são a potência de dois sons.
Se definirmos como 0dB o limite da audibilidade, uma conversa normal terá 50dB e o limite máximo
tolerável será de 120dB.
A audição humana é extremamente sensível a variações do som, mesmo que estas durem milissegundos,
ao contrário da visão que é incapaz de perceber mudanças tão rápidas. Isso acarreta que, durante a
transmissão de multimídia pela rede, flutuações afetam mais a qualidade do áudio que a do vídeo. Logo,
os métodos de transformação de áudio devem levar esse fator em conta.
LIMITE DE AUDIBILIDADE
Corresponde a uma pressão sonora de 20 mpascal para uma onda senoidal de 1 kHz
javascript:void(0)
O ÁUDIO DIGITAL É UMA REPRESENTAÇÃO DIGITAL DE
UMA ONDA DE ÁUDIO QUE PODE SER USADA PARA
RECRIÁ-LO. AS ONDAS DE ÁUDIO PODEM SER
CONVERTIDAS PARA A FORMA DIGITAL POR UM
CONVERSOR ANALÓGICO-DIGITAL, OU ADC (ANALOG-TO-
DIGITAL CONVERTER). UM ADC RECEBE UMA TENSÃO
ELÉTRICA COMO ENTRADA E GERA UM NÚMERO BINÁRIO
COMO SAÍDA.
(TANENBAUM, 2011, p.440)
Para recuperar o sinal analógico e permitir que nosso ouvido capte os sinais digitais, estes são
convertidos por um DAC (Digital-to-Analog Converter) em tensão elétrica analógica. Assim, um alto-
falante pode convertê-las em ondas acústicas.
Desse modo, a transformação do áudio analógico para áudio digital segue basicamente os passos da
figura a seguir.
Imagem: Sidney Nicolau Venturi Filho.
Transformação de áudio analógico para digital.
Vamos agora detalhar cada passo. Para isso, vamos considerar o sinal analógico exibido na próxima
imagem como o sinal analógico inicial.
Imagem: Tanenbaum, Andrew. Redes de Computadores, 2011. P. 440.
Uma onda senoidal.
AMOSTRAGEM
A amostragem consiste em realizar fotografias do sinal analógico, ou seja, a cada instante t é realizada
uma medição do sinal para que depois ele possa ser medido ou quantizado.
Segundo Nyquist, se, em um áudio analógico, a frequência mais alta for f, é suficiente que sejam obtidas
amostras a uma frequência de 2f.
NYQUIST
Harry Theodor Nyqvist (1889 — 1976) foi um engenheiro eletrônico nascido na Suécia, que
desenvolveu estudos na área da computação. Definiu o teorema que determina que um sinal
analógico de banda limitada pode ser recuperado após a digitalização a partir de uma amostragem
que obedeça a determinados critérios.
 SAIBA MAIS
javascript:void(0)
No caso da voz, particularmente na telefonia convencional, cujo canal suporta frequências de até 4000Hz,
é necessário que sejam feitas, no mínimo, 8000 amostras por segundo.
Imagem: Tanenbaum, Andrew. Redes de Computadores, 2011. P. 440.
Amostragem da onda senoidal.
QUANTIZAÇÃO
Após obter a amostragem, os valores devem ser medidos e arredondados para valores que possam ser
expressos na quantidade de bits escolhida para a quantização.
Observe a figura (c) a seguir que possui uma representação que permite apenas nove valores (de -1,00
até 1,00 em intervalos de 0,25). Obviamente, essa escolha faz com que o sinal quantizado seja
sensivelmente diferente do amostrado (compare a figura (b) com a (c)), introduzindo o chamado ruído de
quantização, o qual, se for muito grande, poderá ser detectado pelo ouvido humano.
Imagem: Tanenbaum, Andrew. Redes de Computadores, 2011. P. 440.
Amostragem e quantização.
Para minimizar esse ruído, podemos aumentar a quantidade de níveis da quantização, por exemplo
utilizando 8 bits que permitiriam 256 valores distintos, já 16 bits permitem 65.536 valores distintos. Umaobservação importante é que, conforme aumentam os níveis de quantização, aumenta a necessidade de
largura de banda.
A figura a seguir ilustra as etapas de amostragem e quantização no processo de transformação de áudio
analógico para digital.
CODIFICAÇÃO BINÁRIA
Após a quantização dos números binários gerados, representando cada um dos níveis da amostra, esses
são concatenados em uma sequência de zeros; e alguns dão origem ao nosso sinal digital, que pode ser
transmitido em uma rede multimídia.
 EXEMPLO
Um exemplo conhecido de amostragem é o CD de áudio que possui uma taxa de 44100 amostras por
segundo. Isso permite capturar frequências de até 22050Hz, ou seja, acima da nossa capacidade de
audição, utilizando 16 bits de quantização, provendo assim 65.536 valores distintos.
Levando-se em conta que o ouvido humano consegue distinguir aproximadamente 1 milhão de níveis
diferentes de som, ocorre uma perda de qualidade em relação ao som original. Podemos concluir que,
assim como afirmam algumas pessoas, de fato os discos de vinil possuem um som mais denso e
profundo.
CODECS
Os CODECS em geral são dispositivos de hardware ou software que executam os algoritmos que
codificam (enCODer) e decodificam (DECoder) os dados analógicos para serem transportados sobre
redes digitais.
Existem dois tipos de CODECS:
SEM PERDAS (LOSSLESS, EM INGLÊS)
Os CODECS sem perdas codificam som ou imagem para atingir certa medida de compressão, garantindo
que o processo de descompressão reproduza som ou imagem originais. Quando os dados são
decodificados, o arquivo reconstruído é uma cópia idêntica do original. Esse tipo de CODEC normalmente
gera arquivos codificados com baixas taxas de compressão, reduzindo-os pela metade ou um terço, em
relação aos formatos com perdas. São muito utilizados pelas produtoras de conteúdo, nomeadamente a
indústria do cinema, pois mantêm som ou imagem originais.
imagem: Shutterstock.com, Adaptado por Isaac Barbosa
COM PERDAS (LOSSY, EM INGLÊS)
Os CODECS com perdas codificam som ou imagem, gerando uma certa perda de qualidade com a
finalidade de alcançar maiores taxas de compressão e menor necessidade de largura de banda. Essa
perda de qualidade é balanceada com a taxa de compressão para que não sejam criados artefatos
perceptíveis.
Por exemplo, se um instrumento muito baixo toca ao mesmo tempo que outro instrumento mais alto, o
primeiro é suprimido, já que dificilmente será ouvido. Nesse caso, somente um ouvido bem treinado pode
identificar que o instrumento foi suprimido.
Os CODECS com perdas foram criados para comprimir os arquivos de som ou imagem a taxas de
compressão muito altas. Por exemplo, o Vorbis e o MP3 são CODECS que facilmente comprimem o
arquivo de som em 10 a 12 vezes o tamanho original, sem gerar artefatos significativos.
imagem: Shutterstock.com, Adaptado por Isaac Barbosa
MEDIDA SUBJETIVA DA QUALIDADE DA VOZ
A medida subjetiva da qualidade da voz é a abordagem mais confiável e respeitada para medir a
qualidade da voz. Empiricamente, determina a qualidade da voz por meio do uso de ouvintes ou testes
conversacionais.
As respostas de muitas pessoas a diferentes amostras de áudio de cenários de testes para os vários
CODECs são avaliadas estatisticamente para determinar uma resposta média do grupo. Essa resposta
média reflete o desempenho do sistema sob teste e os efeitos dos vários fatores (tais como ruído de
fundo, múltiplos falantes, níveis baixos de sinal etc.) podem ser quantificados.
Dos métodos mais usados, destacamos o MOS, o qual resulta de testes de ranking de categoria absoluta
(ACR (Absolute Category Ranking) ).
No teste ACR, pessoas ouvem grupos de amostras de voz e indicam o nível de qualidade de voz que eles
perceberam de cada amostra, conforme a Escala de Qualidade de Audição ou Escala de Esforço de
Audição.
A maioria dos testes usa a Escala de Qualidade de Audição, que é a abordagem geralmente
recomendada pelo ITU (International Telecommunication Union) .
Se você encontrar um CODEC avaliado por um score MOS, poderá supor que se refira à Escala de
Qualidade de Audição.
Imagem: Sidney Nicolau Venturi Filho.
Escala subjetiva de qualidade de voz.
TAXA DE BITS
A taxa de bits ou bitrate, em inglês, é uma das medidas da qualidade de um arquivo comprimido. A taxa
de bits representa o tamanho final desejado para o arquivo e, normalmente, é apresentada como Kbit/s.
1Kbit/s significa que, a cada segundo, o CODEC tem 1000 bits do arquivo final para utilizar. Em outras
palavras, se um arquivo de som tem 8 segundos e é comprimido a uma taxa de 1Kbit/s, o arquivo final
terá 8Kbits ou 1Kbyte. Conclui-se, então, que quanto maior for a taxa de bits, melhor será a qualidade do
arquivo final, já que o CODEC terá mais espaço para comprimir o arquivo original, necessitando descartar
menos informações do arquivo.
 VOCÊ SABIA?
Com a popularização do MP3, a taxa de bits de 128Kbits/s (128000 bits/s = 16Kbytes/s) foi muito
utilizada. Isso ocorreu porque, no começo, essa era a menor taxa de bits que o MP3 poderia utilizar para
gerar um arquivo final com boa qualidade. Hoje em dia, com os CODECS mais avançados, pode-se gerar
arquivos com 64Kbits/s de qualidade semelhante aos primeiros MP3.
As taxas de bits podem ser divididas em três categorias principais:
CBR (CONSTANT BITRATE)
O codec utiliza uma taxa de bits constante em toda a duração do arquivo. Isso significa que em
momentos de silêncio provavelmente haverá desperdício de espaço, enquanto em momentos de muita
javascript:void(0)
intensidade sonora haverá perda maior de informação acústica.
VBR (VARIABLE BITRATE)
O CODEC utiliza uma taxa de bits variável, otimizando a utilização do espaço ao permitir maior uso deste
para os momentos mais necessários e reduzindo a taxa de bits ao mínimo nos momentos de silêncio. A
maioria dos CODECS sem perdas utiliza esse formato.
ABR (AVERAGE BITRATE)
Tipo específico de VBR. Garante que, ao final do processo de compressão, o arquivo terá uma taxa de
bits média pré-definida.
Imagem: Sidney Nicolau Venturi Filho.
Categorias de Bit Rate.
CODEC DE ÁUDIO
Existem três classes de codificadores:
CODIFICADOR DE FORMA DE ONDA
Tem como saída uma representação do próprio sinal de voz. Exemplo: PCM, DPCM, ADPCM etc.
javascript:void(0)
javascript:void(0)
CODIFICADOR DE FONTE DO SINAL
Utiliza parâmetros do modelo para sintetizar a voz, modelos esses baseados na análise da voz. Exemplo:
LPC-10.
CODIFICADOR HÍBRIDO
Como o próprio nome nos remete, combina característica dos codificadores anteriores. Ex: CELP.
Imagem: Sidney Nicolau Venturi Filho.
Tipos de codificadores.
COMPARAÇÃO ENTRE OS TIPOS DE
CODIFICADORES
CODIFICADORES EM FORMA DE ONDA (WAVEFORM
CODEC)
Têm um resultado de muito boa qualidade e oferecem baixo retardo de codificação, porém fazem a
codificação em taxas de bits relativamente elevadas. Objetivam representar, como resultado, a própria
forma de onda do sinal antes da codificação. Podemos citar como exemplo de codificadores em forma de
onda o PCM (Pulse Code Modulation) e o ADPCM (Adaptive Differential PCM). O ITU-T padroniza esses
codificadores como G.711 (PCM) e G.726 (ADPCM).
CODIFICADORES PARAMÉTRICOS (VOCODERS)
Têm como vantagem fazer a codificação em taxas de bits mais baixas. Em contrapartida, têm qualidade
relativamente pior e oferecem um maior retardo de codificação. Buscam representar, na codificação,
parâmetros do sinal original. São específicos para o tipo de sinal a ser codificado. O LPC (Linear
Predictive Coding) é o codificador mais utilizado. O padrão FS-1015 do Departamento de Defesa dos
Estados Unidos específica estes codificadores.
CODIFICADORES HÍBRIDOS (HYBRID CODEC)
Apresentam uma combinação dos dois tipos anteriores, ou seja, possuem uma boa qualidade subjetiva,
taxas de codificação média e médio retardo de codificação. Mantêm a parametrização dos codificadores
paramétricos e geram excitação por forma de onda. Fazem uso de dicionários que determinam a melhor
excitação.São geradas baixas taxas de codificação com qualidade superior aos paramétricos e em
valores compatíveis com as taxas dos codificadores em forma de onda.
Imagem: Sidney Nicolau Venturi Filho
Comparação da qualidade do sinal x a taxa de bits dos diversos tipos de codificadores.
PULSE CODE MODULATION (PCM)
O padrão G.711 conhecido como PCM (Pulse Code Modulation) , ou modulação por código de pulso, é a
técnica mais comum para fazer a digitalização.
Utilizando valores pré-definidos, o codificador PCM realiza as três etapas apresentadas anteriormente:
Amostragem, Quantização e Codificação.
javascript:void(0)
DIGITALIZAÇÃO
Conversão de sinais analógicos em dados digitais.
Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.121.
Componentes de um codificador PCM.
AMOSTRAGEM
Inicialmente, o codificador PCM realiza a amostragem do sinal analógico de entrada a cada Ts segundos,
onde Ts é o período (intervalo) da amostragem, gerando o Sinal PAM, visto na imagem anterior.
Já a frequência da amostragem (fs), também denominada taxa de amostragem, é o inverso do período,
sendo obtida pela formula fs = 1/Ts
Segundo Forouzan (2008), existem três métodos de amostragem:
SINAL PAM
javascript:void(0)
O processo de amostragem é, algumas vezes, conhecido como PAM (modulação por amplitude de
pulso — Pulse Amplitude Modulation). Precisamos, porém, nos lembrar que o resultado da
amostragem ainda é um sinal analógico com valores não inteiros.
Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.122.
Amostragem ideal.
IDEAL
Os pulsos do sinal analógico são amostrados em intervalos de Ts segundos. Trata-se de um método de
amostragem ideal que não é de fácil implementação.
Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.122.
Amostragem natural.
NATURAL
Uma chave de alta velocidade é ativada somente no pequeno período da amostragem. O resultado é uma
sequência de amostras que retenha o formato do sinal analógico.
Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.122.
Amostragem natural.
TOPO PLANO
Método de amostragem mais comum, chamado de amostragem e retenção temporária, cria amostras do
tipo topo plano usando um circuito eletrônico.
Um parâmetro importante para o funcionamento correto do PCM é a definição da frequência da
amostragem.
Segundo o Teorema de Nyquist, para digitalizar corretamente um sinal analógico:
O sinal precisa ter largura de banda limitada.

A taxa de amostragem deve ser duas vezes a frequência mais alta presente no sinal original.
A taxa de amostragem é função da maior frequência presente no sinal e não mantém nenhuma relação
com a largura de banda.
Observando a figura a seguir, podemos ver que tanto para o sinal passa-baixa quanto para o sinal passa-
faixa a taxa é de duas vezes a maior frequência, mesmo que o sinal passa-faixa tenha uma largura de
banda menor. Na realidade, se fmax fosse igual para os dois sinais, a taxa seria a mesma.
Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.122.
Taxa de amostragem para sinais passa-baixa e passa-faixa.
Quando temos um sinal passa-baixa, a largura de banda corresponde ao espaço entre o zero e a maior
frequência. Portanto, em uma largura de 10 kHz, a maior frequência permitida será 10 kHz.
Já no passa-faixa, a largura de banda varia de uma frequência mínima até uma frequência máxima.
Desse modo, se for informada uma largura de banda de 10 kHz, não teremos como saber a maior
frequência do sinal. Para isso, teria de ser informada pelo menos a frequência mínima, por exemplo 5kHz,
o que permitiria que determinássemos fmax como 15 kHz.
Vejamos a seguir um pequeno exemplo de aplicação do teorema.
Considere as imagens a seguir, em que temos à esquerda um sinal senoidal e à direita o sinal amostrado:
Fonte: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.123.
Utilizamos a taxa de Nyquist (2*fmax) – note que a amostra nos permite recuperar a onda original.
Fonte: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.123.
Utilizamos o dobro da taxa de Nyquist (4*fmax) – note que a amostra nos permite recuperar a onda
original, mas todos os pontos que tocam o eixo horizontal poderiam ser ignorados sem prejuízo da
amostra.
Fonte: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.123.
Utilizamos metade da taxa de Nyquist (fmax) – note que a amostra produzida não representa de maneira
alguma o sinal original.
QUANTIZAÇÃO
O produto da amostragem é uma série de pulsos com valores de amplitude limitados ao máximo e
mínimo do sinal original. Esse conjunto pode possuir valores não inteiros dentro da faixa permitida.
A codificação não consegue trabalhar com valores reais, ocorre então a quantização.
Considere um sinal de áudio analógico com amplitudes entre Vmin e Vmax. Para realizar a quantização, é
preciso:
Dividir o intervalo em uma quantidade do zonas L, onde cada zona correspondera a um intervalo Δ
obtido pela fórmula:
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Atribuir valores quantizados de 0 a (L – 1) ao ponto médio de cada zona.
Aproximar o valor da amplitude amostrada com os valores quantizados.
Para facilitar nosso entendimento, vamos analisar o seguinte exemplo:
A figura a seguir exibe a quantização da amostragem de um sinal que varia entre -20 a +20.
Δ  =  
Vmáx − Vmin
L
Imagem: Adaptado de FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.125.
Amostra a sofrer quantização.
Vamos considerar agora que se decidiu por oito níveis (L = 8), ou seja, 3 bits (0 a 7), o que determina que
Δ = 5 V.
A seguir, devemos definir os códigos de quantização que, nesse caso, irão de 0 a 7, correspondendo
cada um deles ao ponto central de um dos intervalos. Por exemplo, o ponto 5 corresponde a 7,5, pois é o
meio entre Δ (5) e 2 Δ (10). A tabela resume os valores obtidos, bem como o ponto medido em relação ao
valor de Δ, que é obtido dividindo o ponto central por Δ. Por exemplo, para o ponto -12,5, vamos dividi-lo
por 5, obtendo -2,5.
Valor Ponto Central Ponto em Δ
0 -17,5 -3,5
1 -12,5 -2,5
2 -7,5 -1,5
3 -2,5 -0,5
4 2,5 0,5
5 7,5 1,5
6 12,5 2,5
Valor Ponto Central Ponto em Δ
7 17,5 3,5
 Atenção! Para visualização completa da tabela utilize a rolagem horizontal
TÍTULO 1
Uma vez realizada essa operação, podemos começar a fazer a quantização:
1
Iniciamos normalizando os valores de PAM pela fórmula fr/L, onde fr é a frequência real da amostra. Isso
nos geraria os seguintes dados de PAM normalizado:
Real -6,1 7,5 16,2 19,7 11 -5,5 -11,3 -9,4 -6,0
Normalizado -1,22 1,5 3,24 3,94 2,2 -1,10 -2,26 -1,88 -1,20
 Atenção! Para visualização completa da tabela utilize a rolagem horizontal
TÍTULO 1
Em seguida, devemos arredondar os valores da amostra para o ponto central de cada intervalo medido
em Δ. Por exemplo, o valor 2,2: ele está depois de 2 Δ e antes de 3 Δ, portanto o arredondamos para 2,5.
Normalizado -1,22 1,5 3,24 3,94 2,2 -1,10 -2,26 -1,88 -1,20
Arredondado -1,5 1,5 3,50 3,50 2,5 -1,50 -2,5 -1,5 -1,5
 Atenção! Para visualização completa da tabela utilize a rolagem horizontal
TÍTULO 1
2
Agora, vamos definir o código de quantização a ser utilizado. Para isso, comparamos o valor arredondado
com o valor associado aos códigos e obtemos a seguinte tabela:
Arredondado -1,5 1,5 3,50 3,50 2,5 -1,50 -2,5 -1,5 -1,5
Código 2 5 7 7 6 2 1 2 2
 Atenção! Para visualização completa da tabela utilize a rolagem horizontal
TÍTULO 1
3
ERRO DE QUANTIZAÇÃO
Conforme podemos observar, durante o processo, ocorreu um arredondamento das amplitudes reais que
geram erros.
Normalizado Arredondado Erro
-1,22 -1,5 -0,38
1,5 1,5 0
3,24 3,50 +0,26
3,94 3,50 -0,44
2,2 2,5 +0,30
-1,10 -1,50 -0,40
-2,26 -2,5 -0,24
-1,88 -1,5 +0,38
-1,20 -1,5 -0,30
 Atenção! Para visualização completa da tabela utilize a rolagem horizontal
TÍTULO 1
Essas diferenças devalores são chamadas de erros de quantização e afetam diretamente a relação
sinal-ruido do sinal (SNR) (Signal-to-noise ratio) que, por sua vez, reduz a capacidade do limite superior
segundo Shannon.
SHANNON
javascript:void(0)
Claude Elwood Shannon (1916 — 2001) foi um matemático e engenheiro eletrônico. Estabeleceu o
conceito de “quantidade de comunicação” e demonstrou que a capacidade de transmissão de
informações de um canal de comunicação é limitada por fatores que nada têm a ver com a natureza
do canal, mas, sim, com o logaritmo da relação sinal/ruído somado à unidade, multiplicado pela
frequência da transmissão, segundo a fórmula:
CODIFICAÇÃO
Nessa última etapa, após a amostra ter sido quantizada e o número de bit por amostra determinado, são
definidas as palavras codificadas que irão representar cada uma das amostras.
Cada palavra irá corresponder ao código de quantização que foi associado a uma determinada amostra.
Portanto, se a quantidade de níveis de quantização for L, o número de bits será nb = log2 L.
Em nosso exemplo, como L é 8, a quantidade de bits será 3. Portanto, para o código de quantização 2, a
codificação é 010; para 5, 101, e assim por diante.
Em seguida, essas palavras podem ser encadeadas e transmitidas pelo meio físico.
Retomando nosso exemplo para a tabela a seguir, vemos que ela demonstra a palavra codificada para
cada uma das amostras:
Arredondado Código Palavra
-1,5 2 010
1,5 5 101
3,50 7 111
3,50 7 111
Cmax = B. log2  (1 + )SN
Arredondado Código Palavra
2,5 6 110
-1,50 2 010
-2,5 1 001
-1,5 2 010
-1,5 2 010
 Atenção! Para visualização completa da tabela utilize a rolagem horizontal
TÍTULO 1
A partir das características da codificação, podemos calcular a taxa de bits gerada pela digitalização a
partir da fórmula:
TAXA DE BITS = TAXA DE AMOSTRAGEM X NÚMERO DE
BITS POR AMOSTRA = FX × NB
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
 EXEMPLO
Por exemplo, para um canal de voz com frequência máxima de 4000Hz, a taxa de amostragem será de
2f, o que daria 8000 amostras por segundo.
Como os canais de voz normalmente utilizam 256 níveis (L), são necessários 8 bits. Portanto, a taxa de
bits será 8000 * 8, resultando em 64000b/s ou 64kb/s, o que corresponde ao padrão da telefonia
utilizando PCM.
RECUPERAÇÃO DO SINAL ORIGINAL
Para recuperarmos o sinal original, utilizamos um decodificador PCM, cujos circuitos convertem as
palavras codificadas em um pulso que retém a amplitude até o próximo pulso. Observe a onda quadrada
na figura a seguir.
Após completar o sinal em degraus, este é submetido a um filtro passa-baixa que suaviza os degraus e
recupera o sinal original.
Imagem: FOROUZAN, B. <strong>Comunicação de dados e redes de computadores</strong>, 2008.
P.128.
Recuperação do sinal original.
COMPRESSÃO DE ÁUDIO
A compressão de áudio, ou compressão sonora, visa diminuir as exigências intrínsecas à transmissão
(largura de banda) do som.
Até o surgimento da compressão de áudio, a informação (dados) digital de áudio de alta qualidade
consumia uma absurda quantidade de largura de banda.
Vamos considerar o seguinte exemplo:
Você deseja copiar sua canção favorita para o computador com a qualidade semelhante à qualidade de
um CD. Para isso, você deverá salvar a música em um formato a 44.1kHz, estéreo (2 canais), com 16 bits
por amostra.
44.100Hz significa que você terá 44.100 valores (amostras) por segundo chegando à sua placa de som
(ou ao seu dispositivo de entrada). Multiplique isso por 2, pois o som será estéreo (2 canais). Multiplique
novamente por 2 (bytes), considerando que você terá 2 bytes por amostra (que significa 16 bits).
Então, a música terá a seguinte fórmula:
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Isso equivale a cerca de 10 MBytes a serem transmitidos por minuto de áudio.
Agora, imagine que você deseja baixar essa mesma música pela internet. Se você não possuir uma
conexão de alta velocidade, isso pode implicar em um tempo considerável de download.
A codificação digital de áudio, nesse contexto sendo sinônimo para “compressão digital de áudio”, é a
fórmula para reduzir a utilização da banda da conexão de internet exigida para dados de áudio.
imagem: Shutterstock.com
Podem ser utilizadas, basicamente, três estratégias para reduzir a quantidade de dados gerados pela
digitalização do áudio:
Tirar menos amostras por segundo.
Usar menos bits para codificar cada amostra.
Usar um esquema de compactação digital para reduzir o tamanho da saída resultante.
44. 100     ×  2 canais  ×  2    ×  60 amostras
s
bytes
amostra
s
min
 COMENTÁRIO
A principal desvantagem das duas primeiras estratégias é diminuir a qualidade do áudio, pois o sistema
não poderá reproduzir uma gama muito grande de sons.
A terceira estratégia irá gerar um retardo grande, pois implica em manter a saída durante a compactação
e na necessidade de uma CPU mais rápida devido ao grande processamento realizado durante o
processo. Estas características tornam esta estratégia mais adequada quando o retardo não impacta a
execução, como, por exemplo, armazenar a saída de um codec em um arquivo de áudio.
Observação importante:
A compressão do áudio exige um trabalho em duas etapas:
1. CODIFICAÇÃO:
transforma os dados do áudio digital, por exemplo, armazenados em um arquivo WAVE, para dentro de
uma estrutura altamente comprimida denominada 'bitstream'.

2. DECODIFICAÇÃO:
lê o 'bitstream' e o expande novamente como um arquivo WAVE (não exatamente igual ao original).
 COMENTÁRIO
O resultado obtido após uma codificação e uma decodificação nunca é exatamente igual ao arquivo
original, pois toda a informação supérflua foi retirada. Apesar de não ser semelhante ao arquivo original, o
resultado toca e tem, mais ou menos, o mesmo som, dependendo de quanto foi usado de compressão
sobre o arquivo original.
Quanto mais baixa é a relação da compressão conseguida, melhor qualidade terá na extremidade – e
vice-versa.
Os algoritmos de compressão possuem duas assimetrias que impactam o seu funcionamento:
PRIMEIRA ASSIMETRIA
A primeira assimetria acontece nas seguintes situações:
Normalmente, quando baixamos um arquivo multimídia da internet, estamos em um cenário onde o
documento somente será codificado uma vez (quando for armazenado no servidor de multimídia),
mas será decodificado milhares de vezes (quando for reproduzido pelos clientes). Desse modo, é
aceitável que a codificação seja lenta e, eventualmente, necessite de um hardware poderoso, que
seria bancado pelo provedor de conteúdo, desde que a decodificação seja rápida e não exija
hardware especial.
Aplicações, como uma rádio ou TV online, impossibilitam uma codificação lenta, já que esse
processo precisa acontecer em tempo real. Portanto, os algoritmos nesse ambiente usam soluções
diferentes daqueles utilizados no cenário anterior, trabalhando normalmente com bem menos
compressão.
SEGUNDA ASSIMETRIA
A segunda assimetria decorre do fato de que o processo de codificação/decodificação não precisa ser
reversível.
Na multimídia, apesar de o usuário esperar receber na decodificação uma sequência de bit igual ao
original codificado, esse não é necessário.
Quando a saída da decodificação gera para os ouvidos humanos um som igual ao original, mesmo
que ao analisarmos os bits entre o áudio original e o decodificado notemos diferença, o processo é
aceitável para usos práticos.
Esse tipo de sistema é denominado com perdas e tem como grande vantagem o aumento da taxa
de compressão e, portanto, a diminuição do tamanho do arquivo.
TIPOS DE CODIFICAÇÃO
Segundo Forouzan (2008), existem dois tipos básicos de codificação de áudio:
CODIFICAÇÃO PREDITIVA
Nessa técnica, as diferenças entre as amostras são codificadas em vez de codificar todos os valores
amostrados. Esse tipo de compressão é normalmente usado para a voz humana. Vários padrões foram
javascript:void(0)
definidos para suportar essatécnica, tais como o GSM (13 kbps), G.729 (8 kbps) e o G.723.3 (6.4 ou 5.3
kbps).
CODIFICAÇÃO PERCEPTIVA
É baseada na psicoacústica, que é o estudo de como as pessoas percebem o som. A ideia se baseia em
aproveitar as imperfeições de nosso sistema auditivo: alguns sons podem mascarar outros, sendo a
técnica de compressão mais comum e utilizada para criar áudio de alta qualidade como os arquivos MP3
e AAC.
PSICOACÚSTICA
Conforme vimos, a codificação perceptiva busca identificar as frequências “inúteis” do arquivo original,
eliminando-as do arquivo codificado a partir dos princípios da psicoacústica.
Mas o que significa isso exatamente?
O primeiro aspecto a ser levado em conta são os limites da audição humana. Sons que estejam abaixo ou
acima de nossa capacidade de audição podem ser eliminados do arquivo.
Observando a figura a seguir, podemos identificar que o som de qualquer potência acima de 20 kHz pode
ser eliminado, uma vez que não é percebido pelo ouvido humano. Além disso, o som de baixa potência,
como 100Hz a 20dB, também pode ser eliminado.
Imagem: Adaptado de Tanenbaum, Andrew. Redes de Computadores. 2011. P. 442.
O limiar e o limite de audibilidade como função da frequência.
Outro aspecto observado para eliminação de amostras é o mascaramento, o qual pode ocorrer em duas
maneiras: mascaramento de frequência e temporal.
javascript:void(0)
MASCARAMENTO DE FREQUÊNCIA
Na figura a seguir, podemos observar dois sinais sonoros: um a 150Hz com 60dB e outro a 125Hz com
40dB. Podemos notar ainda que o limiar da audibilidade agora está acima do sinal de 125Hz, esse é o
efeito do mascaramento de frequência. Somente o sinal de 150Hz pode ser percebido pelo nosso
ouvido, enquanto o outro fica mascarado, podendo ser eliminado do arquivo codificado.
Imagem: Adaptado de Tanenbaum, ANDREW. Redes de Computadores. 2011. P.442.
O efeito de máscara por frequência.
MASCARAMENTO TEMPORAL
Nesse tipo de mascaramento, determinadas frequências ficam inaudíveis após o término de um som mais
potente.
 EXEMPLO
MASCARAMENTO POR FREQUÊNCIA
Imagine você ouvindo música em baixo volume na sua casa e uma equipe de manutenção começa a furar
a rua com britadeiras. Você simplesmente não consegue mais ouvir a música. Esse é o mascaramento
por frequência.
MASCARAMENTO TEMPORAL
Após o final do uso da britadeira, demorará um pequeno tempo para você voltar a ouvir os sons mais
fracos. O nosso ouvido diminui o ganho quando percebe um som muito alto e demora para reativá-lo
quando o som mais alto termina, caracterizando o mascaramento temporal.
O conhecimento das propriedades de máscara temporal de um som nos permite continuar a omitir as
frequências mascaradas por algum intervalo de tempo, enquanto o ouvido se recupera.
MP3
MP3 é um formato eletrônico que permite ouvir músicas em computadores com ótima qualidade.
O principal objetivo da criação desse formato era conseguir reproduzir som com qualidade de CD com
uma taxa de compressão razoável.
Para gravar um CD, a taxa de gravação (bit rate) é de cerca de 1,4 Megabit por segundo, enquanto em
MPEG Audio Layer 32 (MP3) as taxas são de 128 e 112 KB/s mantendo a qualidade sonora perceptível
para os seres humanos.
O MP3 usa codificação perceptiva utilizando apenas as frequências sonoras que são captadas pelo
ouvido humano e que não estão mascaradas.
1
A codificação do MP3 realiza a amostragem da forma de onda de 8 a 96KHz para AAC, normalmente a
44,1KHz, para imitar o som do CD. Para áudio estéreo, a amostragem é realizada em dois canais (um
para mono).
Em seguida, pode ser escolhida a taxa de bits a ser utilizada. Dependendo da taxa, o MP3 pode codificar
uma CD de música até 96 kbps com perda de qualidade desprezível.
2
3
Logo após, as amostras são agrupadas, e cada grupo é submetido a um banco de filtros digitais para
gerar as bandas de frequência.
As bandas de frequência são submetidas a um modelo psicoacústico que determina as frequências
mascaradas e as elimina do arquivo codificado.
4
5
A quantidade de bits disponível é dividida entre as bandas com mais bits alocados a bandas não
mascaradas com maior potência e menos bits a bandas não mascaradas de menor potência espectral.
Finalmente, os bits são codificados na forma da codificação de Huffman.
6
CODIFICAÇÃO DE HUFFMAN
A codificação de Huffman é um método de compressão que usa as probabilidades de ocorrência
dos símbolos no conjunto de dados a ser comprimido para determinar códigos de tamanho variável
para cada símbolo.
A figura a seguir mostra o algoritmo utilizado pelo MP3.
javascript:void(0)
Imagem: Brandenburg, Karlheinz. MP3 and AAC explained. Audio Engineering Society Conference: 17th
International Conference: High-Quality Audio Coding. Audio Engineering Society, 1999. P. 4.
O efeito de máscara por frequência.
PROPRIEDADES DE ÁUDIO
No vídeo a seguir, acompanhe o processo de digitalização do áudio analógico, envolvendo as etapas de
amostragem, quantização e codificação.
VERIFICANDO O APRENDIZADO
1) PARA A DIGITALIZAÇÃO DE ÁUDIO, PODEMOS UTILIZAR O PULSE CODE
MODULATION (PCM), QUE É UMA DAS TÉCNICAS UTILIZADAS PARA
CONVERSÃO ANALÓGICO-DIGITAL. ESSA TÉCNICA É DIVIDIDA EM VÁRIAS
FASES. QUAL DAS SEGUINTES OPÇÕES PERTENCE À FASE DE AMOSTRAGEM?
A) Codificação de linha
B) Codificação binário
C) Quantização
D) Pulse Amplitude Modulation - PAM
E) Filtragem
2) A CODIFICAÇÃO PERCEPTIVA BUSCA IDENTIFICAR AS FREQUÊNCIAS
“INÚTEIS” DO ARQUIVO ORIGINAL, ELIMINANDO-AS DO ARQUIVO CODIFICADO
A PARTIR DOS PRINCÍPIOS DA PSICOACÚSTICA. ESSE TIPO DE CODIFICAÇÃO
FOI DESENVOLVIDO PORQUE O OUVIDO HUMANO É CAPAZ DE IDENTIFICAR
APENAS UMA DETERMINADA FAIXA DE FREQUÊNCIA, E MESMOS SONS NESTA
FAIXA DE NECESSITAM TER UMA DETERMINADA POTÊNCIA PARA SEREM
PERCEBIDOS. O LIMITE QUE A POTÊNCIA DO SOM TRAÇA PARA NOSSA
AUDIÇÃO DENOMINA-SE:
A) Limite de audibilidade
B) Audibilidade inferior
C) Limiar de audibilidade
D) Sinal audível
E) Limite de Nyquist
GABARITO
1) Para a digitalização de áudio, podemos utilizar o Pulse Code Modulation (PCM), que é uma das
técnicas utilizadas para conversão analógico-digital. Essa técnica é dividida em várias fases. Qual
das seguintes opções pertence à fase de amostragem?
A alternativa "D " está correta.
Quantização é quantificar os valores já amostrados. Pulse Amplitude Modulation (PAM) ocorre na fase de
amostragem. Codificação de linha é a fase de enviar os binários codificados no meio de transmissão.
Codificação binário ocorre após a quantização e os ajustes, pois existem os erros de quantização.
2) A codificação perceptiva busca identificar as frequências “inúteis” do arquivo original,
eliminando-as do arquivo codificado a partir dos princípios da psicoacústica. Esse tipo de
codificação foi desenvolvido porque o ouvido humano é capaz de identificar apenas uma
determinada faixa de frequência, e mesmos sons nesta faixa de necessitam ter uma determinada
potência para serem percebidos. O limite que a potência do som traça para nossa audição
denomina-se:
A alternativa "C " está correta.
O ouvido humano consegue discriminar sons compreendidos entre 20Hz (a frequência mais grave) e 20
000Hz (frequência mais aguda). Qualquer som acima de 20kHz pode ser eliminado independentemente
da potência, o que caracteriza a limite de audibilidade. Já o limiar da audibilidade se refere a sons dentro
do limite de audibilidade que possuam potência suficiente para serem percebidos pelo nosso ouvido.
MÓDULO 3
 Objetivo: descrever o processo de digitalização de vídeo
COMPARANDO O CONSUMO DE BANDA
A característica mais notável do vídeo que trafega em redes multimídias é a sua necessidade de uma
grande largura de banda, devido à sua alta taxa de bits. Dependendo de sua resolução, ele pode precisar
de centenas de kbits/s para uso em videoconferências a vários Mbits/s para streaming de vídeo em alta
definição.
Para fins de comparação, considere que três usuários estão usando diferentes aplicações de internet:
imagem: Shutterstock.com.Frank acessa o Facebook e, a cada 10 segundos, vê fotos com tamanho médio de 200kb.
imagem: Shutterstock.com
Marta baixa da internet um grande conjunto de arquivos de música no formato MP3 codificados a
128kbits/s.
imagem: Shutterstock.com
Vitor assiste a um vídeo codificado a 2Mbits/s.
Vamos considerar que todos os usuários citados realizaram as suas atividades por 67 minutos
(aproximadamente 4000 segundos). O consumo de banda de cada um deles está expresso na tabela a
seguir, onde podemos observar como o vídeo exige muito mais largura de banda para ser assistido, o que
impacta diretamente na forma de codificação e compressão.
Taxa de bits Bytes transferidos em 67 min
Facebook de Frank 160kbits/s 80Mbytes
Música de Marta 128kbits/s 64Mbytes
Vídeo de Vitor 2Mbits/s 1Gbyte
 Atenção! Para visualização completa da tabela utilize a rolagem horizontal
TÍTULO 1
VÍDEO DIGITAL
O vídeo é formado por uma sequência de quadros ou frames que representam uma imagem estática.
Foto: Eadweard Muybridge/Wikimedia commons/Domínio Público.
Frames de um vídeo.
Se esses quadros forem exibidos para uma pessoa a uma taxa suficientemente grande, será gerada a
impressão de movimento. Isso ocorre porque nossos olhos não conseguem distinguir quadros individuais
que se sucedem rapidamente.
Foto: Eadweard Muybridge/Wikimedia commons/Domínio Público.
Ilusão de movimento.
A taxa de exibição dos quadros de um vídeo, conhecida por fps, varia muito em função da tecnologia
utilizada. A partir de 25 a 30 fps, ocorre a percepção do movimento, porém taxas baixas provocam
tremulação na imagem. Para evitar isso, foi padronizado pelas televisões que os frames devem ser
redesenhados ao dobro dessas taxas, ou seja, de 50 a 60fps.
 VOCÊ SABIA?
Televisões top de linha atualmente usam 120fps ou mesmo 240fps, o que melhora a qualidade e torna a
transição dos frames mais suave.
Para que possa ocorrer a digitalização do sinal de vídeo digital (conjunto de frames), cada quadro deve
ser amostrado individualmente, conforme ilustrado a seguir, e tratado como uma imagem estática.
Imagem: Sidney Nicolau Venturi Filho.
Processo de amostragem.
PROCESSO DE AMOSTRAGEM
Cada frame é dividido em elementos de imagem (picture elements ou pixels). Para imagens em preto e
branco, cada pixel é representado em 8 bits, o que fornece 256 tons de cinza. Já para imagens coloridas,
o pixel é formado por 24 bits, onde cada um dos bytes representa uma cor primária, o que permite
representar mais de 16 milhões de cores diferentes.
PRETO E BRANCO
Se você raciocinar com preto e branco, um pixel poderia ser representado por apenas um bit
associando 0 a branco e 1 a preto, por exemplo. Porém, para efeitos práticos, isso é inviável, pois
javascript:void(0)
javascript:void(0)
todos os tons de preto seriam igualados, o mesmo processo ocorrendo com o branco. Por conta
disso, na realidade, o “preto e branco”, há a representação de uma escala de cinza de 256 tons.
COR PRIMÁRIA
Para o vídeo colorido, muitos sistemas usam 8 bits para cada um dos componentes de cor primária
— vermelho, verde e azul (RGB). Essa representação é possível porque qualquer cor pode ser
construída com base em uma sobreposição linear de vermelho, verde e azul com as intensidades
apropriadas. Com 24 bits por pixel, há mais de 16 milhões de cores possíveis, o que é mais do que
o olho humano consegue distinguir.
Imagem: Unsplash.com
Colorido
Imagem: Unsplash.com
Tons de Cinza
Imagem: Unsplash.com
Preto e Branco
DIGITALIZAÇÃO DE VÍDEO
Como vimos, a digitalização de vídeo corresponde a associar a cada pixel de cada frame os bits que
representam a sua cor (ou tom de cinza), como se fosse uma imagem estática.
Imagine agora a seguinte situação:
Imagine que você deseja transmitir um vídeo com resolução de 1024 X 768 pixels colorido RGB.
De quantos bits precisará para um vídeo de um segundo?
 RESPOSTA
Vamos lá:
Como a resolução é de 1024 X 768, temos 768432 pixels no frame.
Como estamos trabalhando com RGB, cada pixel utiliza 24 bits, o que nos dá 768432 X 24 =
18.874.368 bits para um frame.
Como a taxa de transferência deve ser de 60 fps (30 X 2), teremos 18.874.368 X 60 =
1.132.462.080, o que equivale a 1,13 Gbps.
Note que seria totalmente inviável transmitir o vídeo real pela internet sem compactação. Para
compactarmos um vídeo, podemos inicialmente comprimir cada um de seus frames. Para isso, vejamos
como funciona o padrão Jpeg de compressão de imagens.
JPEG (JOINT PHOTOGRAPHIC EXPERTS GROUP)
O JPEG foi desenvolvido por especialistas em fotografia em grupos de trabalho conjunto da ITU, ISO e
IEC. Ele é um dos padrões mais utilizados em fotografia (observe a quantidade de arquivo com a
extensão JPG) e normalmente oferece razões de compressão de 10:1 ou superiores.
 RELEMBRANDO
Conforme já vimos, se uma imagem for em tons de cinza, cada pixel pode ser representado por um
número inteiro de 8 bits, já uma imagem colorida (RGB) tem cada pixel representado por 24 bits (8 bits
para cada cor).
O processo de codificação do JPEG é composto de um pré-processamento da imagem, gerando blocos e
de 3 fases: DCT, quantização e compressão de dados.
Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores. 2008. P. 905.
Processo JPEG.
Vamos analisar um exemplo de compactação JPEG considerando uma imagem composta de tons de
cinza.
Neste caso, o pré-processamento divide a imagem em bloco de 8 X 8 pixels, que visa reduzir a
complexidade dos cálculos do processo, pois o número de operações é o quadrado do número de
entradas.
Imagem: FOROUZAN, B.Comunicação de dados e redes de computadores. 2008. P. 904.
Divisão dos blocos de uma imagem tons de cinza.
A ideia básica do JPEG é transformar uma imagem em um vetor que facilite identificar as redundâncias
(ausência de alterações) que permitiram as eliminar.
DCT
Após o pré-processamento, a primeira fase é a transformada discreta de cossenos (DCT). Nessa etapa,
cada bloco passa por uma transformação, que modifica a matriz de 64 valores de modo a permitir
identificar as redundâncias.
Vejamos alguns exemplos desta transformação:
EXEMPLO 1
Vamos considerar a figura a seguir, onde há um bloco da imagem composto por apenas um tom de cinza
de valor 20 em cada pixel, apresentado na imagem P(x,y). Ao realizarmos a transformação, será gerada a
tabela T(m,n), onde o campo superior esquerdo (T0,0) recebe a média de todos os valores P(x,y), que, no
nosso caso, é 20 multiplicado por uma constante, 8. Ele fica com o valor 160 sendo denominado valor
CC.
Os demais valores de T(m,n) são denominados valores AC (corrente alternada) e representam as
alterações em relação ao valor médio. Como, no nosso exemplo, todos os pixels são 20, não existe
alteração, todos os valores AC são zero, o que permite identificar que todos são redundantes.
Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores. 2008. P. 905.
Exemplo da transformada DCT em uma imagem de tom único.
EXEMPLO 2
Vamos considerar agora a figura a seguir, onde há um bloco dividido por duas escalas de cinza (20 e 50).
Podemos observar que, em um determinado ponto da imagem, ocorre uma mudança brusca de valores e,
ao aplicarmos a transformada DCT, vamos obter um valor CC e alguns valores AC em torno do valor CC e
continuamos tendo muitos valores zero.
Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores. 2008. P. 906.
Exemplo da transformada DCT em uma imagem com dois tons.
EXEMPLO 3
Por último, vamos considerar a Figura 30, onde há um bloco cujos valores de cinza mudam
gradualmente. Portanto, não ocorre uma mudança bruta. Ao aplicarmos a transformada DCT, obtemos um
javascript:void(0)
valor CC e vários outros valores AC diferentes de zero.
Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores. 2008. P. 906.
Exemplo da transformada DCT em uma imagem com vários tons de cinza.
CC
Corrente contínua termo oriundo da engenharia elétrica.
Dos três exemplos vistos, podemos chegarà seguinte conclusão:
A transformada DCT cria uma tabela T a partir de uma tabela P.
O valor CC é o valor médio dos pixels (multiplicado por uma constante).
Os valores AC representam as variações.
A ausência de variações nos pixels vizinhos cria como resultado 0s.
QUANTIZAÇÃO
Após a criação da tabela T, os valores são quantizados para reduzir o número de bits necessários para a
codificação.

A quantização implica em normalizar os números de T, truncando-os. Para isso, dividimos o valor original
por uma constante e pegamos apenas a parte inteira.

Depois desse processo, os números são divididos novamente por valores pré-definidos para cada
posição da tabela.
 ATENÇÃO
Cabe observar que essa é única etapa do processo que não é reversível. Logo, o JPEG é um codec com
perdas.
COMPRESSÃO
Após a quantização, os valores são lidos a partir da tabela, e os zeros redundantes são eliminados.
Entretanto, para agrupar melhor os 0s, a tabela é lida diagonalmente, em zigue-zague, e não linha a linha
ou coluna a coluna. A razão disso é que se a imagem tiver suaves variações, o canto inferior direito da
tabela T será todo composto de 0s. A figura a seguir ilustra o processo:
Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores. 2008. P. 907.
Leitura da Tabela.
MPEG (MOVING PICTURE EXPERTS GROUP)
O MPEG é um dos padrões de vídeo mais utilizados para codificação e tem como meta gerar uma taxa
de dados codificada de 1,5 Mbps ou menos (incluindo áudio e vídeo).
A entrada do codificador MPEG consiste em uma série de quadros de vídeo, onde cada um é uma
imagem estática contendo uma matriz bidimensional de elementos de quadro (pixels).
O algoritmo de compressão procura reduzir a taxa de dados, focando na redundância espacial e temporal
existente em vídeos. Desse modo, comprimir um vídeo significa comprimir espacialmente cada quadro e
comprimir temporalmente um conjunto de quadros.
COMPRESSÃO DE VÍDEO
COMPRESSÃO ESPACIAL
A compressão espacial de cada quadro é realizada pelo JPEG (ou uma variante dele).
Cada quadro é uma imagem que pode ser compactada de maneira independente aproveitando a
existência da redundância espacial; é a similaridade entre pixels que ocorrem em uma mesma vizinhança,
como se pode ver no destaque da figura a seguir.
Imagem: Shutterstock.com, adaptado por Isaac Barbosa
Redundância espacial. O destaque mostra um grupo de pixels similares na imagem.
COMPRESSÃO TEMPORAL
Na compressão temporal, quadros redundantes são eliminados, ou seja, é aproveitada a existência da
redundância temporal para realizar a compressão do arquivo.
REDUNDÂNCIA TEMPORAL
A redundância temporal é a similaridade entre quadros sucessivos de um vídeo. Imagine, por
exemplo, uma cena parada de telejornal, onde somente o apresentador fala. De um quadro para
outro, praticamente só os movimentos faciais do apresentador mudarão, permanecendo constantes
os demais elementos da cena, como o fundo.
Imagem: Shutterstock.com
javascript:void(0)
Imagem: Shutterstock.com
Imagem: Shutterstock.com
Segundo Forouzan (2008), para poder realizar a compactação temporal, o MPEG divide os quadros em
três categorias:
I-FRAME (INTRACODED FRAME)
É um quadro independente e completo que não tem relação com outros (ao menos, com quadros
enviados anteriormente ou com aqueles a serem enviados posteriormente) a qualquer momento. Se
existir apenas um I-frame no início da transmissão, o telespectador que sintonizar mais tarde não
receberá uma imagem completa. Os quadros I-frames são independentes dos demais quadros e não
podem ser construídos a partir de outros quadros.
P-FRAME (PREDICTED FRAME)
Está relacionado com um I-frame ou um P-frame precedente. Em outras palavras, cada P-frame contém
apenas as mudanças em relação ao quadro anterior. As mudanças, entretanto, não irão cobrir grande
parte do segmento completo de bits. Por exemplo, para um objeto que se movimenta rapidamente, as
novas mudanças talvez não sejam registradas corretamente em um P-frame. Os P-frames podem ser
construídos apenas a partir de P-frames ou I-frames anteriores. Os P-frames transportam menos
informação que os outros tipos de quadros e menos bits após a compressão.
B-FRAME (BIDIRECTIONAL FRAME)
Está relacionada com um I-frame ou um P-frame precedente ou seguinte. Em outras palavras, cada B-
frame é relativo ao passado ou ao futuro. Note que um B-frame jamais está relacionado a outro B-frame.
Veja a seguir uma ilustração que exemplifica uma sequência de quadros.
Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores. 2008. P. 908.
Quadros MPEG.
Observando essa imagem, podemos notar que:
Um I-frame deve ser enviado periodicamente.
O P-frame armazena apenas as mudanças em relação ao quadro anterior.
O B-frame possui relação com o I-frame ou P-frame anterior e posterior.
A figura a seguir ilustra o relacionamento entre os três tipos durante a codificação:
Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores. 2008. P. 908.
Construção de quadros MPEG.
PROPRIEDADES DE VÍDEO
No vídeo a seguir, acompanhe o processo de digitalização do vídeo, envolvendo todas as etapas
necessárias. Veja também a importância da compactação para que seja viável transmitir vídeos em uma
rede de dados
VERIFICANDO O APRENDIZADO
1) DURANTE O PROCESSAMENTO DO JPEG DE UMA IMAGEM EM TONS DE
CINZA, FOI GERADA A TABELA P A SEGUIR. CONSIDERANDO QUE A CONSTATE
DE MULTIPLICAÇÃO UTILIZADA SERÁ 10, QUAL É O VALOR DO CC?
FONTE: FOROUZAN, B. COMUNICAÇÃO DE DADOS E REDES DE
COMPUTADORES. 2008. P. 906.
A) 20
B) 90
C) 400
D) 550
E) 400
2) O MPEG UTILIZA VÁRIOS TIPOS DE TÉCNICAS PARA REALIZAR A
COMPRESSÃO DE VÍDEO. A FIGURA ABAIXO MOSTRA TRES FRAMES
SUCESSIVOS DE UM VÍDEO.
FONTE: TANENBAUM, ANDREW. REDES DE COMPUTADORES. 2011. P. 447.
A) Compressão temporal
B) Compressão por P-frame e B-frame
C) Compressão espacial
D) Compressão pelo uso de I-frame
E) Compressão por P-frame, B-frame e I-frame
GABARITO
1) Durante o processamento do JPEG de uma imagem em tons de cinza, foi gerada a tabela P a
seguir. Considerando que a constate de multiplicação utilizada será 10, qual é o valor do CC?
Fonte: FOROUZAN, B. Comunicação de dados e redes de computadores. 2008. P. 906.
A alternativa "D " está correta.
O CC é obtido a partir da multiplicação da média dos valores de P, no caso 55 pela constante
determinada no caso 10, portanto o valor CC será 550.
2) O MPEG utiliza vários tipos de técnicas para realizar a compressão de vídeo. A figura abaixo
mostra tres frames sucessivos de um vídeo.
Fonte: TANENBAUM, Andrew. Redes de Computadores. 2011. P. 447.
A alternativa "C " está correta.
Como a chaminé da casa não sofre alteração de quadro para outro, ela caracteriza a redundância
espacial que pode ser aproveitada pelo MPEG para realizar a compressão espacial.
CONCLUSÃO
CONSIDERAÇÕES FINAIS
Ao longo deste tema, fizemos uma viagem pelos conceitos relacionados a redes multimídia.
Iniciamos nosso estudo vendo como as redes evoluíram de arquiteturas segregadas para cada tipo de
serviço (telefonia, televisão, dados) para redes convergidas, utilizando a tecnologia TCP/IP. Assim foram
originadas as redes multimídia e seus serviços.
Nossa próxima parada foi o processamento de áudio, em que pudemos ver como o som, um sinal
tipicamente analógico, é digitalizado e comprimido para envio pela internet.
Em nossa parada final, estudamos como é realizado o processamento do vídeo digital e a sua
compressão.
PODCAST
Agora, o especialista Sidney Venturi encerra o tema explorando a importância das redes multimídias no
cenário atual e como as redes devem evoluir para dar suporte ao tráfego multimídia.
AVALIAÇÃO DO TEMA:
REFERÊNCIAS
BRANDENBURG, K.; Stoll, G.ISO-MPEG-1 Audio: a generic standard for coding of high quality digital
audio. In N. Gilchrist and Ch. Grewin, editors, Col-lected Papers on Digial Audio Bit-Rate Reduction. AES,
1996. Consultado em meio eletrônico em: 15 fev. 2021.
BRANDENBURG,K.MP3 and AAC explained. Audio Engineering Society Conference: 17th International
Conference: High-Quality Audio Coding. Audio Engineering Society, 1999. Consultado em meio eletrônico
em: 15 fev. 2021.
DOUGLAS, E. C.Interligação Redes com TCP/IP. Rio de Janeiro: Elsevier, 2015.
FOROUZAN, B.Comunicação de dados e redes de computadores. 4. ed. São Paulo: McGraw-Hill,
2008.
KUROSE, J. F.; ROSS, K. W. Redes de computadores e a Internet:uma abordagem top-down.:
Campinas: Pearson Education, 2014.
LAMMLE, T. CCNA: Cisco Certified Network Associate Study Guide: Exam 640 - 801, Deluxe, 2005.
Consultado em meio eletrônico em: 15 fev. 2021.
MASSAROLO, J. C.; MESQUITA, D. Vídeo sob demanda uma nova plataforma televisiva, 2016. In :
Compos. Consultado em meio eletrônico em: 03 fev. 2021.
TANENBAUM, A. Redes de Computadores. Rio de Janeiro; Campus, 2011.
WILKINSON, N. Next Generation Network Services: Technologies & Strategies. West Sussex.: John
Wiley & Sons, 2002.
EXPLORE+
Para que você possa compreender melhor o processo de compactação utilizado em áudio e vídeo,
pesquise por Código de Huffman.
Pesquise sobre o teorema da amostragem proposto por Shannon, que permite o início do processo de
digitalização do áudio e vídeo.
CONTEUDISTA
SIDNEY NICOLAU VENTURI FILHO
 CURRÍCULO LATTES
javascript:void(0);

Continue navegando