Baixe o app para aproveitar ainda mais
Prévia do material em texto
DESCRIÇÃO Apresentação das redes multimídia, seus principais serviços e técnicas de digitalização de áudio e de vídeo PROPÓSITO Apresentar as principais características dos serviços de redes multimídia e as propriedades do áudio digital e do vídeo digital. OBJETIVOS MÓDULO 1 Descrever redes multimídia e suas principais aplicações MÓDULO 2 Descrever o processo de digitalização de áudio MÓDULO 3 Descrever o processo de digitalização de vídeo INTRODUÇÃO Pessoas de todo o mundo utilizam a internet para assistir a shows ao vivo, aulas por videoconferência, vídeos online, filmes, programas de televisão, para trocar mensagens em tempo real e outros tipos de atividades. O desenvolvimento das redes de computadores ocasionou uma convergência de várias tecnologias, levando à criação das redes multimídia atuais. Entendemos como uma aplicação de rede multimídia aquela que empregue dados, áudio ou vídeo. Neste tema, iremos abordar como ocorreu a convergência dos diversos tipos de redes até chegarmos às modernas redes multimídia. Também identificaremos as principais aplicações deste tipo de rede e as principais características do processamento de áudio e vídeo digital. MÓDULO 1 Objetivo: Descrever redes multimídia e suas principais aplicações REDES MULTIMÍDIA A comunicação confiável, independentemente da localização ou do destinatário, tem se tornado cada vez mais de suma importância para os usuários das redes de comunicação interligadas. Essas redes de dados ou informações variam em tamanho e capacidade, mas todas possuem quatro elementos básicos em comum: Regras ou acordos para determinar como as mensagens são enviadas, direcionadas, recebidas e interpretadas. Mensagens ou unidades de informação que navegam de um dispositivo para outro. Um meio de interligar esses dispositivos de modo que seja possível transportar as mensagens de um dispositivo para outro. Dispositivos na rede que trocam mensagens entre si. Observe como esses quatro elementos estão dispostos em uma rede: Imagem: Adaptado de Cisco CCNA. Elementos de uma rede. VOCÊ SABIA? Telefones, rádios, televisões e redes de computadores possuem suas próprias versões dos quatro elementos básicos de uma rede. Para permitir a interoperabilidade dos equipamentos de diversos fabricantes, é fundamental a existência de padrões largamente acatados, que definem o modo de interligação das redes. Antigamente, cada um desses serviços utilizava tecnologias diferentes na transmissão de seu sinal de comunicação, bem como um conjunto específico de protocolos de funcionamento, gerando redes distintas para cada um deles. Repare na imagem abaixo o uso de diferentes tecnologias na transmissão do sinal de comunicação: Imagem: Adaptado de Cisco CCNA. Redes Tradicionais. Com o avanço da tecnologia de redes baseada na pilha de protocolos TCP/IP (Transport Control Protocol/Internet Protocol) ocorreu a consolidação de uma rede convergida. O fluxo de voz, vídeo e dados viaja por uma mesma rede, eliminando a necessidade de criar e manter redes separadas. Em uma rede convergida existem muitos pontos de contato e muitos dispositivos especializados, como computadores pessoais, telefones, televisão, assistentes pessoais e registros de venda a varejo, mas somente uma infraestrutura de rede comum. REDE CONVERGIDA Rede que permite que voz, vídeo e dados utilizem a mesma rede IP. A imagem a seguir retrata um exemplo de redes convergidas: javascript:void(0) Imagem: Adaptado de Cisco CCNA. Redes convergidas. As redes evoluíram e continuam a evoluir. De simples meio para troca de dados e acesso a aplicações clássicas, como correio eletrônico e download de arquivo, tornaram-se redes multimídia, com acesso a vídeos, transmissões de rádio e televisão, troca de mensagens instantâneas, divulgação de conteúdo, cursos e aulas online, comercio eletrônico etc. ATENÇÃO O ritmo de desenvolvimento de novas aplicações para a internet utilizando multimídia continua alto. Cada vez mais surgem novas aplicações e funcionalidades que aumentam a gama de serviços ofertados na grande rede, consolidando o público que os utiliza e aumentando a base de consumo dos serviços agregados. Os mecanismos e processos subjacentes que dirigem esse crescimento explosivo resultaram em uma arquitetura de rede que é, ao mesmo tempo, resistente e escalável. Assim como a plataforma tecnológica que apoia a vida, o ensino, o trabalho e o entretenimento nas relações humanas, a arquitetura de rede da Internet deve se adaptar aos requisitos em constante mudança para uma alta qualidade dos serviços e segurança. REDES NGN (NEXT GENERATION NETWORKS) As atuais redes multimídia se originaram das redes convergidas que foram denominadas como NGN, ou Redes de Próxima Geração. A ideia por detrás dessas redes era transportar toda a informação que corre pela rede em pacotes digitais utilizando o protocolo IP (Internet Protocol) . Tais pacotes seriam capazes de transportar conversas telefônicas, vídeo, arquivos, e-mails, dentre outros. A NGN integra infraestruturas de redes tais como WAN (Wide Area Network) , LAN (Local Area Network) , MAN (Metropolitan Area Network) e redes sem fio. ATENÇÃO A integração de recursos e a convergência de tráfico reduzem os custos totais da rede, permitindo o compartilhamento da operação, a administração da rede, a manutenção e o aprovisionamento de equipamentos, além de criar um ambiente propício para aplicações multimídia. ARQUITETURA NGN A arquitetura NGN é normalmente dividida em três camadas: INFRAESTRUTURA (TRANSPORTE) E ACESSO Nessa camada, encontram-se as unidades de acesso de assinante, como os telefones IP e Access Gateways (fazem a interface entre a rede IP e os diversos tipos de conexão dos usuários), além de comutadores, roteadores e Media Gateways (que transformam a voz em pacotes). CONTROLE DE CHAMADAS Responsável pelo encaminhamento, pela supervisão e pela liberação das ligações que trafegam pela rede IP. É uma parte estratégica da rede onde fica o equipamento chamado Media Gateway Controller ou Softswitch, que é a inteligência da rede. CAMADA DE SERVIÇOS Permitir a oferta de novos e múltiplos serviços aos usuários. Imagem Adaptado de Wilkinson, Neil. Next Generation Network Services: Technologies & Strategies. 2002. P. 169. Arquitetura NGN. Os principais equipamentos de uma rede NGN são: MEDIA GATEWAYS Faz a interconexão entre a rede comutada e a rede de pacotes, possibilitando a conversão da mídia de voz da rede telefônica para a rede de dados e vice-versa. Além dessa conversão e manipulação de mídias, realiza outras atividades como compressão, cancelamento de eco, envio e detecção de tons. Como “gateway”, esse elemento de rede apenas manipula a mídia, não possuindo nenhuma inteligência agregada e necessitando de um controle de um elemento de rede hierarquicamente superior – o Softswitch – via um protocolo de controle (como o MCGP ou Megaco/H.248), com assinantes IP ou softphones (PCs com software apropriado), ou mesmo outros assinantes convencionais por meio de um trecho da rede IP. SOFTSWITCH Também chamado de Call Feature Server ou Media Gateway Controller, é o elemento central da rede NGN que contém sua inteligência e controla os demais elementos da rede. Realiza o controle da chamada, bem como implementa as facilidades e serviços suplementares ofertados. Um dos pontos principais da rede NGN, conforme podemos ver na figura a seguir, é a separação na arquitetura entre manipulação da mídia (pelos Gateways) e a manipulação da sinalização e do controle envolvidos na chamada (pelo Softswitch). Funções de controle de chamada e manipulação de mídias separadas em dois planos distintos provêm a máxima flexibilidade para a evolução da rede. A centralização da inteligência dos serviços e do controle da chamada permite uma gerência da rede simplificada e eficiente, e é a base para reações rápidas às demandas do mercado por novos serviços e oportunidades de negócios. Tambémpermite a integração de serviços providos por aplicações de terceiros, que se interligam a Softswitch, via interface aberta. Imagem: Adaptado de Wilkinson, Neil. Next Generation Network Services: Technologies & Strategies. 2002. P. 152. Equipamento de redes NGN. Mesmo que o foco atual esteja nas aplicações e nos serviços competitivos, é praticamente impossível introduzir uma NGN sem considerar as seguintes tecnologias de rede: PROCESSAMENTO DIGITAL DE SINAIS ROTEAMENTO DOS PACOTES REDES ÓPTICAS PROTOCOLOS AVANÇADOS O processamento dos sinais digitais é a tecnologia-chave para a integração do tráfego de voz e dados. A vantagem dessa área é a facilidade de compressão de voz e a sua conversão para pacotes de dados. Os recentes protocolos de roteamento permitem priorizar as filas e os pacotes das aplicações que exijam qualidade de serviço (QoS). As redes ópticas aumentam, dramaticamente, a banda de transmissão que está disponível pelos provedores de telecomunicações e dos usuários. As vantagens da multiplexação por onda de luz e o roteamento por comprimento de onda deverão consolidar o roteamento nas redes ópticas. Desde que o TCP/IP se tornou um protocolo estratégico, muitos esforços estão sendo feitos para conceber novas funções e aumentar seu desempenho. As redes baseadas em IP em breve deverão ser capazes de prover a mesma qualidade de serviço encontrada nas redes ATM. TIPOS DE APLICAÇÃO DAS REDES MULTIMÍDIA Os tipos de aplicações de redes multimídia podem ser divididos em: streaming de áudio/vídeo armazenado, streaming de áudio/vídeo em tempo real e áudio/vídeo interativo, conforme mostrado no esquema a seguir: STREAMING Streaming significa fluxo contínuo, ou seja, ocorre quando um usuário poder ouvir (ou assistir a) um arquivo logo após ter iniciado seu download. Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.901. Tipos de aplicação multimídia. STREAMING DE ÁUDIO/VÍDEO ARMAZENADO Refere-se a solicitações sob demanda de arquivos de áudio/vídeo comprimidos que estão armazenados em um servidor. Por meio da internet, o cliente realiza o download dos arquivos, também chamado de áudio/vídeo sob demanda. Alguns exemplos de aplicação são o YouTube, NetFlix, Amazon Prime, Disney+, entre outros. STREAMING DE ÁUDIO/VÍDEO EM TEMPO REAL OU AO VIVO Refere-se à transmissão de conteúdo ao vivo pela Internet, como programas de televisão ao vivo ou programa de rádio. ÁUDIO/VÍDEO INTERATIVO Refere-se ao uso da Internet para aplicações interativas de áudio/vídeo, como telefonia, videoconferências etc. A principal diferença para a aplicação ao vivo é a existência de interação entre as javascript:void(0) duas partes envolvidas, ou seja, todos os componentes podem receber e enviar imagens e som. SERVIÇOS OFERECIDOS POR REDES MULTIMÍDIA Destacam-se como aplicações das redes multimídia à telefonia IP (VOIP), às mensagens instantâneas e ao vídeo sob demanda, entre outros. VIDEO ON DEMAND (VOD) Segundo Massarolo e Mesquita (2016), atualmente, a distribuição de conteúdo online é realizada por meio da tecnologia de streaming, mais conhecido como serviço de vídeo sob demanda (video on demand – VOD). O MODELO DE NEGÓCIO QUE TEM COMO BASE O STREAMING DE VÍDEO APROXIMOU AS EMPRESAS DE TECNOLOGIA DA TELEVISÃO, OCASIONANDO UMA SÉRIE DE MUDANÇAS NO MERCADO DA INDÚSTRIA AUDIOVISUAL. EM MEIO A ESSAS MUDANÇAS, PODEMOS DESTACAR AS NOVAS PRÁTICAS DE VISUALIZAÇÃO DO CONTEÚDO QUE SE DESENVOLVEM EM TORNO DAS NOVAS PLATAFORMAS DE DISTRIBUIÇÃO (MASSAROLO; MESQUITA, 2016). ENTRE OS SERVIÇOS DE VÍDEO SOB DEMANDA, HÁ UMA VARIEDADE QUE ATENDE A DIFERENTES PERFIS DE USUÁRIOS E CONTEÚDO. ALGUNS UTILIZAM A INFRAESTRUTURA DA INTERNET DE BANDA LARGA PARA PROPAGAR CONTEÚDOS POR DIFERENTES TELAS (TELEVISÃO, SMARTPHONE, COMPUTADOR ETC.) E OUTROS USAM APARELHOS DE RECEPÇÃO DE SINAL TV POR ASSINATURA. AS MODALIDADES DISTINTAS DE ACESSO AOS SERVIÇOS DE VÍDEO SOB DEMANDA PODEM SER CLASSIFICADAS COMO OTT (OVER THE TOP), QUANDO SE USA A INTERNET COMO PRINCIPAL CANAL DE CONTEÚDO, OU CABLE VOD, QUANDO O ACESSO OCORRE POR INTERMÉDIO DO SET-UP BOX DAS OPERADORAS A CABO. ESSAS FORMAS DE ACESSO AO CONTEÚDO PODEM SEGUIR DISTINTOS MODELOS DE NEGÓCIO (ASSINATURA, ACESSO GRATUITO, ALUGUEL ETC.), CARACTERIZANDO O MERCADO DE VÍDEO SOB DEMANDA COMO UM AMBIENTE EM CONSTANTE TRANSFORMAÇÃO E EXPERIMENTAÇÕES, O QUE VIABILIZA NOVAS POSSIBILIDADES DE NEGÓCIOS. (MASSAROLO; MESQUITA, 2016) AINDA DE ACORDO COM MASSAROLO E MESQUITA, ENTRE OS SERVIÇOS DE VÍDEO SOB DEMANDA OTT QUE SE DESTACAM PELA EXPERIMENTAÇÃO, PODEMOS DESTACAR O YOUTUBE, COMPREENDIDO COMO UM FVOD (FREE VOD). A MAIOR MARCA DESSA PLATAFORMA É O CONTEÚDO GRATUITO GERADO PELOS PRÓPRIOS USUÁRIOS, EM UMA CURADORIA LIVRE E ORGANIZADA POR MEIO DE CANAIS. NO MESMO ESPAÇO, PODEMOS ENCONTRAR DESDE PRODUÇÕES AMADORAS A PROFISSIONAIS, DE TEMAS GERAIS A ESPECÍFICOS, FICCIONAIS OU NÃO FICCIONAIS, PESSOAIS OU DE INTERESSE PÚBLICO, FILANTRÓPICOS OU EMPRESARIAIS. TAMBÉM PODEMOS CITAR A NETFLIX, EMPRESA DE MÍDIA DIGITAL QUE POSSUI UM MODELO DE NEGÓCIO DEFINIDO DE ASSINATURAS, CARACTERIZANDO-SE COMO UM SERVIÇO SVOD (SUBSCRIPTION VOD), O QUE DÁ ACESSO AOS USUÁRIOS A UMA BIBLIOTECA DE FILMES E SÉRIES QUE PODEM SER ASSISTIDOS DE MANEIRA ILIMITADA POR MEIO DE COMPUTADOR, DISPOSITIVOS MÓVEIS E SMARTTVS (MASSAROLO; MESQUITA, 2016). VOZ SOBRE IP É uma tecnologia que permite a transmissão de voz por IP (Protocolos de Internet), ou seja, transforma sinais de áudio analógicos, como em uma chamada, em dados digitais que podem ser transferidos através da Internet. O método está cada vez mais presente em softwares que possuem a tecnologia, como Skype, Viber e WhatsApp. VOCÊ SABIA? Apesar de ter ganhado destaque no mercado recentemente, a tecnologia surgiu no início da década de 1990 e chegou a ser considerada um fracasso por causa da baixa velocidade de transmissão de dados da época. Para que a transmissão de voz seja possível, o VoIP captura a voz, que até então é transmitida de maneira analógica, e a transforma em pacotes de dados, que podem ser enviados por qualquer rede TCP/IP. Assim, é perfeitamente possível trabalhar com esses pacotes pela internet. Quando o destino recebe os pacotes, estes são transformados em sinais analógicos e transmitidos a um meio no qual seja possível ouvir o som. Imagem: Shutterstock.com Para que o VoIP se torne uma tecnologia viável, é necessário investir em qualidade de serviço (QoS) (Quality of Service) ou aumentar a largura de banda, ou seja, a velocidade de transmissão e recepção de dados. Como o acesso à internet em banda larga é cada vez mais comum, principalmente em empresas, o VoIP passou a se beneficiar disso. No entanto, apenas velocidade não é suficiente. LARGURA DE BANDA A largura de banda ou bandwidth (termo original em inglês) representa a capacidade de transmissão de um determinado canal de uma rede específica, medida em bits por segundo, sendo função das características técnicas de uma determinada arquitetura de redes. Cientes disso, várias empresas do ramo passaram a pesquisar soluções que garantissem a melhor qualidade possível na comunicação por VoIP. É natural que isso fosse acontecer, afinal, se uma empresa (ou um conjunto de empresas) obtivesse os melhores resultados, certamente sairia na frente na disputa por clientes. Essa situação fez com que surgissem uma série de soluções para VoIP. Apesar dos vários padrões de VoIP, praticamente todas as empresas adotaram o protocolo RTP (Real Time Protocol), que, basicamente, tenta fazer com que os pacotes sejam recebidos conforme a ordem de envio. javascript:void(0) O RTP “ordena” os pacotes de dados, de modo que seja possível a transmissão destes em tempo real. Caso algum pacote chegue atrasado, o RTP causa uma interpolação entre o “intervalo” deixado pelo pacote, não o entregando. MENSAGENS INSTANTÂNEAS As mensagens instantâneas funcionam com base em uma lista de pessoas com as quais você deseja interagir. Você pode enviarmensagens para qualquer pessoa da lista, geralmente chamada de lista de contatos, desde que ela esteja online. Quando você envia uma mensagem, uma janela é aberta e ali você e seu amigo podem digitar mensagens que ambos podem ver. A maioria dos programas de mensagens instantâneas oferece várias ferramentas: Imagem: Isaac Barbosa Mensagens instantâneas - envia mensagens e traz respostas de uma conversa com um amigo que esteja online Imagem: Isaac Barbosa Criação de grupo - você pode criar seus grupos com amigos ou colegas de trabalho. Imagem: Isaac Barbosa Links de Internet - compartilhe os links dos seus sites favoritos. Imagem: Isaac Barbosa Imagens - você pode ver uma imagem armazenada no computador do seu amigo. Imagem: Isaac Barbosa Sons - você pode usar sons durante a conversa. Imagem: Isaac Barbosa Arquivos - compartilhe arquivos, enviando-os direto para seus amigos. Imagem: Isaac Barbosa Voz - use a Internet ao invés do telefone para falar de verdade com seus amigos. REDES MULTIMÍDIA No vídeo a seguir, você saberá mais sobre a evolução das redes e a importância da Qualidade de Serviço (QoS) para as transmissões multimídia. VERIFICANDO O APRENDIZADO 1) AS REDES MULTIMÍDIA SURGIRAM A PARTIR DA CONVERGÊNCIA DOS DIVERSOS TIPOS DE REDES, COMO TELEVISÃO, TELEFONIA E DADOS. ESSAS CONVERGÊNCIAS PERMITIRAM O DESENVOLVIMENTO DE NOVOS SERVIÇOS ALÉM DOS TRADICIONAIS CORREIOS ELETRÔNICO, DOWNLOAD DE ARQUIVO ETC. UM EXEMPLO DESSE NOVO TIPO DE SERVIÇO É A NETFLIX, QUE SE CARACTERIZA COMO: A) Voip B) Vod C) Streaming de áudio D) TV online E) Videoconferência 2) A CONVERGÊNCIA DAS DIVERSAS REDES PARA UMA ÚNICA UTILIZANDO A TECNOLOGIA TCP/IP CARACTERIZA AS CHAMADAS REDES DE NOVA GERAÇÃO (NGN). EM SUA ARQUITETURA, AS NGN POSSUEM UM EQUIPAMENTO QUE FAZ A INTERCONEXÃO ENTRE A REDE COMUTADA E A REDE DE PACOTES, SENDO CONHECIDO COMO: A) Media Gateway Controller B) Call Feature Server C) Media Gateways D) Softswitch E) Softphone GABARITO 1) As redes multimídia surgiram a partir da convergência dos diversos tipos de redes, como televisão, telefonia e dados. Essas convergências permitiram o desenvolvimento de novos serviços além dos tradicionais correios eletrônico, download de arquivo etc. Um exemplo desse novo tipo de serviço é a Netflix, que se caracteriza como: A alternativa "B " está correta. A Netflix é um exemplo típico de vídeo on demand que se caracteriza como streaming de vídeo, ou seja, assistir via internet a filmes e séries. 2) A convergência das diversas redes para uma única utilizando a tecnologia TCP/IP caracteriza as chamadas redes de nova geração (NGN). Em sua arquitetura, as NGN possuem um equipamento que faz a interconexão entre a rede comutada e a rede de pacotes, sendo conhecido como: A alternativa "C " está correta. Existem dois tipos básicos de equipamentos nas redes NGN: os Media Gateway, que são a interconexão entre a rede de pacotes e a rede comutada, fazendo a conversão da mídia para rede de dados; e o Softswitch, também conhecido como Call Feature Server ou Media Gateway Controler, que é o elemento central de rede NGN responsável pelo controle de seu funcionamento. MÓDULO 2 Objetivo: descrever o processo de digitalização de áudio CONHECENDO O ÁUDIO ANALÓGICO imagem: Shutterstock.com O som (sinal de áudio) é uma onda acústica que, ao entrar no ouvido, faz o tímpano e os ossos do ouvido vibrarem, gerando impulso nervosos para o nosso cérebro e a nossa percepção do som. imagem: Shutterstock.com. De modo similar, a mesma onda, ao chegar ao microfone, produz um sinal elétrico analógico, representando a amplitude do som como uma função do tempo, denominada áudio analógico. O sinal de áudio analógico é digitalizado para gerar um áudio digital que pode ser transmitido por uma rede multimídia. Devemos atentar, inicialmente, para o fato de que o áudio exige uma largura de banda proporcional à sua qualidade de digitalização. Sendo assim, quanto mais fiel ao sinal original maior será a largura de banda exigida. Desse modo, a qualidade do áudio digital gerado é função de sua taxa de amostragem e quantização, conforme veremos mais à frente quando estudarmos as técnicas de digitalização do áudio analógico. TRANSFORMAÇÃO DE ÁUDIO ANALÓGICO PARA DIGITAL O ouvido humano é capaz de captar frequências sonoras entre 20 e 20000Hz. A percepção do som pelo ser humano ocorre em uma escala logarítmica, cuja unidade convencional de medida é o dB, sendo calculada pela fórmula: 10 LOG10 (A/B) Onde A e B são a potência de dois sons. Se definirmos como 0dB o limite da audibilidade, uma conversa normal terá 50dB e o limite máximo tolerável será de 120dB. A audição humana é extremamente sensível a variações do som, mesmo que estas durem milissegundos, ao contrário da visão que é incapaz de perceber mudanças tão rápidas. Isso acarreta que, durante a transmissão de multimídia pela rede, flutuações afetam mais a qualidade do áudio que a do vídeo. Logo, os métodos de transformação de áudio devem levar esse fator em conta. LIMITE DE AUDIBILIDADE Corresponde a uma pressão sonora de 20 mpascal para uma onda senoidal de 1 kHz javascript:void(0) O ÁUDIO DIGITAL É UMA REPRESENTAÇÃO DIGITAL DE UMA ONDA DE ÁUDIO QUE PODE SER USADA PARA RECRIÁ-LO. AS ONDAS DE ÁUDIO PODEM SER CONVERTIDAS PARA A FORMA DIGITAL POR UM CONVERSOR ANALÓGICO-DIGITAL, OU ADC (ANALOG-TO- DIGITAL CONVERTER). UM ADC RECEBE UMA TENSÃO ELÉTRICA COMO ENTRADA E GERA UM NÚMERO BINÁRIO COMO SAÍDA. (TANENBAUM, 2011, p.440) Para recuperar o sinal analógico e permitir que nosso ouvido capte os sinais digitais, estes são convertidos por um DAC (Digital-to-Analog Converter) em tensão elétrica analógica. Assim, um alto- falante pode convertê-las em ondas acústicas. Desse modo, a transformação do áudio analógico para áudio digital segue basicamente os passos da figura a seguir. Imagem: Sidney Nicolau Venturi Filho. Transformação de áudio analógico para digital. Vamos agora detalhar cada passo. Para isso, vamos considerar o sinal analógico exibido na próxima imagem como o sinal analógico inicial. Imagem: Tanenbaum, Andrew. Redes de Computadores, 2011. P. 440. Uma onda senoidal. AMOSTRAGEM A amostragem consiste em realizar fotografias do sinal analógico, ou seja, a cada instante t é realizada uma medição do sinal para que depois ele possa ser medido ou quantizado. Segundo Nyquist, se, em um áudio analógico, a frequência mais alta for f, é suficiente que sejam obtidas amostras a uma frequência de 2f. NYQUIST Harry Theodor Nyqvist (1889 — 1976) foi um engenheiro eletrônico nascido na Suécia, que desenvolveu estudos na área da computação. Definiu o teorema que determina que um sinal analógico de banda limitada pode ser recuperado após a digitalização a partir de uma amostragem que obedeça a determinados critérios. SAIBA MAIS javascript:void(0) No caso da voz, particularmente na telefonia convencional, cujo canal suporta frequências de até 4000Hz, é necessário que sejam feitas, no mínimo, 8000 amostras por segundo. Imagem: Tanenbaum, Andrew. Redes de Computadores, 2011. P. 440. Amostragem da onda senoidal. QUANTIZAÇÃO Após obter a amostragem, os valores devem ser medidos e arredondados para valores que possam ser expressos na quantidade de bits escolhida para a quantização. Observe a figura (c) a seguir que possui uma representação que permite apenas nove valores (de -1,00 até 1,00 em intervalos de 0,25). Obviamente, essa escolha faz com que o sinal quantizado seja sensivelmente diferente do amostrado (compare a figura (b) com a (c)), introduzindo o chamado ruído de quantização, o qual, se for muito grande, poderá ser detectado pelo ouvido humano. Imagem: Tanenbaum, Andrew. Redes de Computadores, 2011. P. 440. Amostragem e quantização. Para minimizar esse ruído, podemos aumentar a quantidade de níveis da quantização, por exemplo utilizando 8 bits que permitiriam 256 valores distintos, já 16 bits permitem 65.536 valores distintos. Umaobservação importante é que, conforme aumentam os níveis de quantização, aumenta a necessidade de largura de banda. A figura a seguir ilustra as etapas de amostragem e quantização no processo de transformação de áudio analógico para digital. CODIFICAÇÃO BINÁRIA Após a quantização dos números binários gerados, representando cada um dos níveis da amostra, esses são concatenados em uma sequência de zeros; e alguns dão origem ao nosso sinal digital, que pode ser transmitido em uma rede multimídia. EXEMPLO Um exemplo conhecido de amostragem é o CD de áudio que possui uma taxa de 44100 amostras por segundo. Isso permite capturar frequências de até 22050Hz, ou seja, acima da nossa capacidade de audição, utilizando 16 bits de quantização, provendo assim 65.536 valores distintos. Levando-se em conta que o ouvido humano consegue distinguir aproximadamente 1 milhão de níveis diferentes de som, ocorre uma perda de qualidade em relação ao som original. Podemos concluir que, assim como afirmam algumas pessoas, de fato os discos de vinil possuem um som mais denso e profundo. CODECS Os CODECS em geral são dispositivos de hardware ou software que executam os algoritmos que codificam (enCODer) e decodificam (DECoder) os dados analógicos para serem transportados sobre redes digitais. Existem dois tipos de CODECS: SEM PERDAS (LOSSLESS, EM INGLÊS) Os CODECS sem perdas codificam som ou imagem para atingir certa medida de compressão, garantindo que o processo de descompressão reproduza som ou imagem originais. Quando os dados são decodificados, o arquivo reconstruído é uma cópia idêntica do original. Esse tipo de CODEC normalmente gera arquivos codificados com baixas taxas de compressão, reduzindo-os pela metade ou um terço, em relação aos formatos com perdas. São muito utilizados pelas produtoras de conteúdo, nomeadamente a indústria do cinema, pois mantêm som ou imagem originais. imagem: Shutterstock.com, Adaptado por Isaac Barbosa COM PERDAS (LOSSY, EM INGLÊS) Os CODECS com perdas codificam som ou imagem, gerando uma certa perda de qualidade com a finalidade de alcançar maiores taxas de compressão e menor necessidade de largura de banda. Essa perda de qualidade é balanceada com a taxa de compressão para que não sejam criados artefatos perceptíveis. Por exemplo, se um instrumento muito baixo toca ao mesmo tempo que outro instrumento mais alto, o primeiro é suprimido, já que dificilmente será ouvido. Nesse caso, somente um ouvido bem treinado pode identificar que o instrumento foi suprimido. Os CODECS com perdas foram criados para comprimir os arquivos de som ou imagem a taxas de compressão muito altas. Por exemplo, o Vorbis e o MP3 são CODECS que facilmente comprimem o arquivo de som em 10 a 12 vezes o tamanho original, sem gerar artefatos significativos. imagem: Shutterstock.com, Adaptado por Isaac Barbosa MEDIDA SUBJETIVA DA QUALIDADE DA VOZ A medida subjetiva da qualidade da voz é a abordagem mais confiável e respeitada para medir a qualidade da voz. Empiricamente, determina a qualidade da voz por meio do uso de ouvintes ou testes conversacionais. As respostas de muitas pessoas a diferentes amostras de áudio de cenários de testes para os vários CODECs são avaliadas estatisticamente para determinar uma resposta média do grupo. Essa resposta média reflete o desempenho do sistema sob teste e os efeitos dos vários fatores (tais como ruído de fundo, múltiplos falantes, níveis baixos de sinal etc.) podem ser quantificados. Dos métodos mais usados, destacamos o MOS, o qual resulta de testes de ranking de categoria absoluta (ACR (Absolute Category Ranking) ). No teste ACR, pessoas ouvem grupos de amostras de voz e indicam o nível de qualidade de voz que eles perceberam de cada amostra, conforme a Escala de Qualidade de Audição ou Escala de Esforço de Audição. A maioria dos testes usa a Escala de Qualidade de Audição, que é a abordagem geralmente recomendada pelo ITU (International Telecommunication Union) . Se você encontrar um CODEC avaliado por um score MOS, poderá supor que se refira à Escala de Qualidade de Audição. Imagem: Sidney Nicolau Venturi Filho. Escala subjetiva de qualidade de voz. TAXA DE BITS A taxa de bits ou bitrate, em inglês, é uma das medidas da qualidade de um arquivo comprimido. A taxa de bits representa o tamanho final desejado para o arquivo e, normalmente, é apresentada como Kbit/s. 1Kbit/s significa que, a cada segundo, o CODEC tem 1000 bits do arquivo final para utilizar. Em outras palavras, se um arquivo de som tem 8 segundos e é comprimido a uma taxa de 1Kbit/s, o arquivo final terá 8Kbits ou 1Kbyte. Conclui-se, então, que quanto maior for a taxa de bits, melhor será a qualidade do arquivo final, já que o CODEC terá mais espaço para comprimir o arquivo original, necessitando descartar menos informações do arquivo. VOCÊ SABIA? Com a popularização do MP3, a taxa de bits de 128Kbits/s (128000 bits/s = 16Kbytes/s) foi muito utilizada. Isso ocorreu porque, no começo, essa era a menor taxa de bits que o MP3 poderia utilizar para gerar um arquivo final com boa qualidade. Hoje em dia, com os CODECS mais avançados, pode-se gerar arquivos com 64Kbits/s de qualidade semelhante aos primeiros MP3. As taxas de bits podem ser divididas em três categorias principais: CBR (CONSTANT BITRATE) O codec utiliza uma taxa de bits constante em toda a duração do arquivo. Isso significa que em momentos de silêncio provavelmente haverá desperdício de espaço, enquanto em momentos de muita javascript:void(0) intensidade sonora haverá perda maior de informação acústica. VBR (VARIABLE BITRATE) O CODEC utiliza uma taxa de bits variável, otimizando a utilização do espaço ao permitir maior uso deste para os momentos mais necessários e reduzindo a taxa de bits ao mínimo nos momentos de silêncio. A maioria dos CODECS sem perdas utiliza esse formato. ABR (AVERAGE BITRATE) Tipo específico de VBR. Garante que, ao final do processo de compressão, o arquivo terá uma taxa de bits média pré-definida. Imagem: Sidney Nicolau Venturi Filho. Categorias de Bit Rate. CODEC DE ÁUDIO Existem três classes de codificadores: CODIFICADOR DE FORMA DE ONDA Tem como saída uma representação do próprio sinal de voz. Exemplo: PCM, DPCM, ADPCM etc. javascript:void(0) javascript:void(0) CODIFICADOR DE FONTE DO SINAL Utiliza parâmetros do modelo para sintetizar a voz, modelos esses baseados na análise da voz. Exemplo: LPC-10. CODIFICADOR HÍBRIDO Como o próprio nome nos remete, combina característica dos codificadores anteriores. Ex: CELP. Imagem: Sidney Nicolau Venturi Filho. Tipos de codificadores. COMPARAÇÃO ENTRE OS TIPOS DE CODIFICADORES CODIFICADORES EM FORMA DE ONDA (WAVEFORM CODEC) Têm um resultado de muito boa qualidade e oferecem baixo retardo de codificação, porém fazem a codificação em taxas de bits relativamente elevadas. Objetivam representar, como resultado, a própria forma de onda do sinal antes da codificação. Podemos citar como exemplo de codificadores em forma de onda o PCM (Pulse Code Modulation) e o ADPCM (Adaptive Differential PCM). O ITU-T padroniza esses codificadores como G.711 (PCM) e G.726 (ADPCM). CODIFICADORES PARAMÉTRICOS (VOCODERS) Têm como vantagem fazer a codificação em taxas de bits mais baixas. Em contrapartida, têm qualidade relativamente pior e oferecem um maior retardo de codificação. Buscam representar, na codificação, parâmetros do sinal original. São específicos para o tipo de sinal a ser codificado. O LPC (Linear Predictive Coding) é o codificador mais utilizado. O padrão FS-1015 do Departamento de Defesa dos Estados Unidos específica estes codificadores. CODIFICADORES HÍBRIDOS (HYBRID CODEC) Apresentam uma combinação dos dois tipos anteriores, ou seja, possuem uma boa qualidade subjetiva, taxas de codificação média e médio retardo de codificação. Mantêm a parametrização dos codificadores paramétricos e geram excitação por forma de onda. Fazem uso de dicionários que determinam a melhor excitação.São geradas baixas taxas de codificação com qualidade superior aos paramétricos e em valores compatíveis com as taxas dos codificadores em forma de onda. Imagem: Sidney Nicolau Venturi Filho Comparação da qualidade do sinal x a taxa de bits dos diversos tipos de codificadores. PULSE CODE MODULATION (PCM) O padrão G.711 conhecido como PCM (Pulse Code Modulation) , ou modulação por código de pulso, é a técnica mais comum para fazer a digitalização. Utilizando valores pré-definidos, o codificador PCM realiza as três etapas apresentadas anteriormente: Amostragem, Quantização e Codificação. javascript:void(0) DIGITALIZAÇÃO Conversão de sinais analógicos em dados digitais. Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.121. Componentes de um codificador PCM. AMOSTRAGEM Inicialmente, o codificador PCM realiza a amostragem do sinal analógico de entrada a cada Ts segundos, onde Ts é o período (intervalo) da amostragem, gerando o Sinal PAM, visto na imagem anterior. Já a frequência da amostragem (fs), também denominada taxa de amostragem, é o inverso do período, sendo obtida pela formula fs = 1/Ts Segundo Forouzan (2008), existem três métodos de amostragem: SINAL PAM javascript:void(0) O processo de amostragem é, algumas vezes, conhecido como PAM (modulação por amplitude de pulso — Pulse Amplitude Modulation). Precisamos, porém, nos lembrar que o resultado da amostragem ainda é um sinal analógico com valores não inteiros. Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.122. Amostragem ideal. IDEAL Os pulsos do sinal analógico são amostrados em intervalos de Ts segundos. Trata-se de um método de amostragem ideal que não é de fácil implementação. Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.122. Amostragem natural. NATURAL Uma chave de alta velocidade é ativada somente no pequeno período da amostragem. O resultado é uma sequência de amostras que retenha o formato do sinal analógico. Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.122. Amostragem natural. TOPO PLANO Método de amostragem mais comum, chamado de amostragem e retenção temporária, cria amostras do tipo topo plano usando um circuito eletrônico. Um parâmetro importante para o funcionamento correto do PCM é a definição da frequência da amostragem. Segundo o Teorema de Nyquist, para digitalizar corretamente um sinal analógico: O sinal precisa ter largura de banda limitada. A taxa de amostragem deve ser duas vezes a frequência mais alta presente no sinal original. A taxa de amostragem é função da maior frequência presente no sinal e não mantém nenhuma relação com a largura de banda. Observando a figura a seguir, podemos ver que tanto para o sinal passa-baixa quanto para o sinal passa- faixa a taxa é de duas vezes a maior frequência, mesmo que o sinal passa-faixa tenha uma largura de banda menor. Na realidade, se fmax fosse igual para os dois sinais, a taxa seria a mesma. Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.122. Taxa de amostragem para sinais passa-baixa e passa-faixa. Quando temos um sinal passa-baixa, a largura de banda corresponde ao espaço entre o zero e a maior frequência. Portanto, em uma largura de 10 kHz, a maior frequência permitida será 10 kHz. Já no passa-faixa, a largura de banda varia de uma frequência mínima até uma frequência máxima. Desse modo, se for informada uma largura de banda de 10 kHz, não teremos como saber a maior frequência do sinal. Para isso, teria de ser informada pelo menos a frequência mínima, por exemplo 5kHz, o que permitiria que determinássemos fmax como 15 kHz. Vejamos a seguir um pequeno exemplo de aplicação do teorema. Considere as imagens a seguir, em que temos à esquerda um sinal senoidal e à direita o sinal amostrado: Fonte: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.123. Utilizamos a taxa de Nyquist (2*fmax) – note que a amostra nos permite recuperar a onda original. Fonte: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.123. Utilizamos o dobro da taxa de Nyquist (4*fmax) – note que a amostra nos permite recuperar a onda original, mas todos os pontos que tocam o eixo horizontal poderiam ser ignorados sem prejuízo da amostra. Fonte: FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.123. Utilizamos metade da taxa de Nyquist (fmax) – note que a amostra produzida não representa de maneira alguma o sinal original. QUANTIZAÇÃO O produto da amostragem é uma série de pulsos com valores de amplitude limitados ao máximo e mínimo do sinal original. Esse conjunto pode possuir valores não inteiros dentro da faixa permitida. A codificação não consegue trabalhar com valores reais, ocorre então a quantização. Considere um sinal de áudio analógico com amplitudes entre Vmin e Vmax. Para realizar a quantização, é preciso: Dividir o intervalo em uma quantidade do zonas L, onde cada zona correspondera a um intervalo Δ obtido pela fórmula: Atenção! Para visualização completa da equação utilize a rolagem horizontal Atribuir valores quantizados de 0 a (L – 1) ao ponto médio de cada zona. Aproximar o valor da amplitude amostrada com os valores quantizados. Para facilitar nosso entendimento, vamos analisar o seguinte exemplo: A figura a seguir exibe a quantização da amostragem de um sinal que varia entre -20 a +20. Δ = Vmáx − Vmin L Imagem: Adaptado de FOROUZAN, B. Comunicação de dados e redes de computadores, 2008. P.125. Amostra a sofrer quantização. Vamos considerar agora que se decidiu por oito níveis (L = 8), ou seja, 3 bits (0 a 7), o que determina que Δ = 5 V. A seguir, devemos definir os códigos de quantização que, nesse caso, irão de 0 a 7, correspondendo cada um deles ao ponto central de um dos intervalos. Por exemplo, o ponto 5 corresponde a 7,5, pois é o meio entre Δ (5) e 2 Δ (10). A tabela resume os valores obtidos, bem como o ponto medido em relação ao valor de Δ, que é obtido dividindo o ponto central por Δ. Por exemplo, para o ponto -12,5, vamos dividi-lo por 5, obtendo -2,5. Valor Ponto Central Ponto em Δ 0 -17,5 -3,5 1 -12,5 -2,5 2 -7,5 -1,5 3 -2,5 -0,5 4 2,5 0,5 5 7,5 1,5 6 12,5 2,5 Valor Ponto Central Ponto em Δ 7 17,5 3,5 Atenção! Para visualização completa da tabela utilize a rolagem horizontal TÍTULO 1 Uma vez realizada essa operação, podemos começar a fazer a quantização: 1 Iniciamos normalizando os valores de PAM pela fórmula fr/L, onde fr é a frequência real da amostra. Isso nos geraria os seguintes dados de PAM normalizado: Real -6,1 7,5 16,2 19,7 11 -5,5 -11,3 -9,4 -6,0 Normalizado -1,22 1,5 3,24 3,94 2,2 -1,10 -2,26 -1,88 -1,20 Atenção! Para visualização completa da tabela utilize a rolagem horizontal TÍTULO 1 Em seguida, devemos arredondar os valores da amostra para o ponto central de cada intervalo medido em Δ. Por exemplo, o valor 2,2: ele está depois de 2 Δ e antes de 3 Δ, portanto o arredondamos para 2,5. Normalizado -1,22 1,5 3,24 3,94 2,2 -1,10 -2,26 -1,88 -1,20 Arredondado -1,5 1,5 3,50 3,50 2,5 -1,50 -2,5 -1,5 -1,5 Atenção! Para visualização completa da tabela utilize a rolagem horizontal TÍTULO 1 2 Agora, vamos definir o código de quantização a ser utilizado. Para isso, comparamos o valor arredondado com o valor associado aos códigos e obtemos a seguinte tabela: Arredondado -1,5 1,5 3,50 3,50 2,5 -1,50 -2,5 -1,5 -1,5 Código 2 5 7 7 6 2 1 2 2 Atenção! Para visualização completa da tabela utilize a rolagem horizontal TÍTULO 1 3 ERRO DE QUANTIZAÇÃO Conforme podemos observar, durante o processo, ocorreu um arredondamento das amplitudes reais que geram erros. Normalizado Arredondado Erro -1,22 -1,5 -0,38 1,5 1,5 0 3,24 3,50 +0,26 3,94 3,50 -0,44 2,2 2,5 +0,30 -1,10 -1,50 -0,40 -2,26 -2,5 -0,24 -1,88 -1,5 +0,38 -1,20 -1,5 -0,30 Atenção! Para visualização completa da tabela utilize a rolagem horizontal TÍTULO 1 Essas diferenças devalores são chamadas de erros de quantização e afetam diretamente a relação sinal-ruido do sinal (SNR) (Signal-to-noise ratio) que, por sua vez, reduz a capacidade do limite superior segundo Shannon. SHANNON javascript:void(0) Claude Elwood Shannon (1916 — 2001) foi um matemático e engenheiro eletrônico. Estabeleceu o conceito de “quantidade de comunicação” e demonstrou que a capacidade de transmissão de informações de um canal de comunicação é limitada por fatores que nada têm a ver com a natureza do canal, mas, sim, com o logaritmo da relação sinal/ruído somado à unidade, multiplicado pela frequência da transmissão, segundo a fórmula: CODIFICAÇÃO Nessa última etapa, após a amostra ter sido quantizada e o número de bit por amostra determinado, são definidas as palavras codificadas que irão representar cada uma das amostras. Cada palavra irá corresponder ao código de quantização que foi associado a uma determinada amostra. Portanto, se a quantidade de níveis de quantização for L, o número de bits será nb = log2 L. Em nosso exemplo, como L é 8, a quantidade de bits será 3. Portanto, para o código de quantização 2, a codificação é 010; para 5, 101, e assim por diante. Em seguida, essas palavras podem ser encadeadas e transmitidas pelo meio físico. Retomando nosso exemplo para a tabela a seguir, vemos que ela demonstra a palavra codificada para cada uma das amostras: Arredondado Código Palavra -1,5 2 010 1,5 5 101 3,50 7 111 3,50 7 111 Cmax = B. log2 (1 + )SN Arredondado Código Palavra 2,5 6 110 -1,50 2 010 -2,5 1 001 -1,5 2 010 -1,5 2 010 Atenção! Para visualização completa da tabela utilize a rolagem horizontal TÍTULO 1 A partir das características da codificação, podemos calcular a taxa de bits gerada pela digitalização a partir da fórmula: TAXA DE BITS = TAXA DE AMOSTRAGEM X NÚMERO DE BITS POR AMOSTRA = FX × NB Atenção! Para visualização completa da equação utilize a rolagem horizontal EXEMPLO Por exemplo, para um canal de voz com frequência máxima de 4000Hz, a taxa de amostragem será de 2f, o que daria 8000 amostras por segundo. Como os canais de voz normalmente utilizam 256 níveis (L), são necessários 8 bits. Portanto, a taxa de bits será 8000 * 8, resultando em 64000b/s ou 64kb/s, o que corresponde ao padrão da telefonia utilizando PCM. RECUPERAÇÃO DO SINAL ORIGINAL Para recuperarmos o sinal original, utilizamos um decodificador PCM, cujos circuitos convertem as palavras codificadas em um pulso que retém a amplitude até o próximo pulso. Observe a onda quadrada na figura a seguir. Após completar o sinal em degraus, este é submetido a um filtro passa-baixa que suaviza os degraus e recupera o sinal original. Imagem: FOROUZAN, B. <strong>Comunicação de dados e redes de computadores</strong>, 2008. P.128. Recuperação do sinal original. COMPRESSÃO DE ÁUDIO A compressão de áudio, ou compressão sonora, visa diminuir as exigências intrínsecas à transmissão (largura de banda) do som. Até o surgimento da compressão de áudio, a informação (dados) digital de áudio de alta qualidade consumia uma absurda quantidade de largura de banda. Vamos considerar o seguinte exemplo: Você deseja copiar sua canção favorita para o computador com a qualidade semelhante à qualidade de um CD. Para isso, você deverá salvar a música em um formato a 44.1kHz, estéreo (2 canais), com 16 bits por amostra. 44.100Hz significa que você terá 44.100 valores (amostras) por segundo chegando à sua placa de som (ou ao seu dispositivo de entrada). Multiplique isso por 2, pois o som será estéreo (2 canais). Multiplique novamente por 2 (bytes), considerando que você terá 2 bytes por amostra (que significa 16 bits). Então, a música terá a seguinte fórmula: Atenção! Para visualização completa da equação utilize a rolagem horizontal Isso equivale a cerca de 10 MBytes a serem transmitidos por minuto de áudio. Agora, imagine que você deseja baixar essa mesma música pela internet. Se você não possuir uma conexão de alta velocidade, isso pode implicar em um tempo considerável de download. A codificação digital de áudio, nesse contexto sendo sinônimo para “compressão digital de áudio”, é a fórmula para reduzir a utilização da banda da conexão de internet exigida para dados de áudio. imagem: Shutterstock.com Podem ser utilizadas, basicamente, três estratégias para reduzir a quantidade de dados gerados pela digitalização do áudio: Tirar menos amostras por segundo. Usar menos bits para codificar cada amostra. Usar um esquema de compactação digital para reduzir o tamanho da saída resultante. 44. 100 × 2 canais × 2 × 60 amostras s bytes amostra s min COMENTÁRIO A principal desvantagem das duas primeiras estratégias é diminuir a qualidade do áudio, pois o sistema não poderá reproduzir uma gama muito grande de sons. A terceira estratégia irá gerar um retardo grande, pois implica em manter a saída durante a compactação e na necessidade de uma CPU mais rápida devido ao grande processamento realizado durante o processo. Estas características tornam esta estratégia mais adequada quando o retardo não impacta a execução, como, por exemplo, armazenar a saída de um codec em um arquivo de áudio. Observação importante: A compressão do áudio exige um trabalho em duas etapas: 1. CODIFICAÇÃO: transforma os dados do áudio digital, por exemplo, armazenados em um arquivo WAVE, para dentro de uma estrutura altamente comprimida denominada 'bitstream'. 2. DECODIFICAÇÃO: lê o 'bitstream' e o expande novamente como um arquivo WAVE (não exatamente igual ao original). COMENTÁRIO O resultado obtido após uma codificação e uma decodificação nunca é exatamente igual ao arquivo original, pois toda a informação supérflua foi retirada. Apesar de não ser semelhante ao arquivo original, o resultado toca e tem, mais ou menos, o mesmo som, dependendo de quanto foi usado de compressão sobre o arquivo original. Quanto mais baixa é a relação da compressão conseguida, melhor qualidade terá na extremidade – e vice-versa. Os algoritmos de compressão possuem duas assimetrias que impactam o seu funcionamento: PRIMEIRA ASSIMETRIA A primeira assimetria acontece nas seguintes situações: Normalmente, quando baixamos um arquivo multimídia da internet, estamos em um cenário onde o documento somente será codificado uma vez (quando for armazenado no servidor de multimídia), mas será decodificado milhares de vezes (quando for reproduzido pelos clientes). Desse modo, é aceitável que a codificação seja lenta e, eventualmente, necessite de um hardware poderoso, que seria bancado pelo provedor de conteúdo, desde que a decodificação seja rápida e não exija hardware especial. Aplicações, como uma rádio ou TV online, impossibilitam uma codificação lenta, já que esse processo precisa acontecer em tempo real. Portanto, os algoritmos nesse ambiente usam soluções diferentes daqueles utilizados no cenário anterior, trabalhando normalmente com bem menos compressão. SEGUNDA ASSIMETRIA A segunda assimetria decorre do fato de que o processo de codificação/decodificação não precisa ser reversível. Na multimídia, apesar de o usuário esperar receber na decodificação uma sequência de bit igual ao original codificado, esse não é necessário. Quando a saída da decodificação gera para os ouvidos humanos um som igual ao original, mesmo que ao analisarmos os bits entre o áudio original e o decodificado notemos diferença, o processo é aceitável para usos práticos. Esse tipo de sistema é denominado com perdas e tem como grande vantagem o aumento da taxa de compressão e, portanto, a diminuição do tamanho do arquivo. TIPOS DE CODIFICAÇÃO Segundo Forouzan (2008), existem dois tipos básicos de codificação de áudio: CODIFICAÇÃO PREDITIVA Nessa técnica, as diferenças entre as amostras são codificadas em vez de codificar todos os valores amostrados. Esse tipo de compressão é normalmente usado para a voz humana. Vários padrões foram javascript:void(0) definidos para suportar essatécnica, tais como o GSM (13 kbps), G.729 (8 kbps) e o G.723.3 (6.4 ou 5.3 kbps). CODIFICAÇÃO PERCEPTIVA É baseada na psicoacústica, que é o estudo de como as pessoas percebem o som. A ideia se baseia em aproveitar as imperfeições de nosso sistema auditivo: alguns sons podem mascarar outros, sendo a técnica de compressão mais comum e utilizada para criar áudio de alta qualidade como os arquivos MP3 e AAC. PSICOACÚSTICA Conforme vimos, a codificação perceptiva busca identificar as frequências “inúteis” do arquivo original, eliminando-as do arquivo codificado a partir dos princípios da psicoacústica. Mas o que significa isso exatamente? O primeiro aspecto a ser levado em conta são os limites da audição humana. Sons que estejam abaixo ou acima de nossa capacidade de audição podem ser eliminados do arquivo. Observando a figura a seguir, podemos identificar que o som de qualquer potência acima de 20 kHz pode ser eliminado, uma vez que não é percebido pelo ouvido humano. Além disso, o som de baixa potência, como 100Hz a 20dB, também pode ser eliminado. Imagem: Adaptado de Tanenbaum, Andrew. Redes de Computadores. 2011. P. 442. O limiar e o limite de audibilidade como função da frequência. Outro aspecto observado para eliminação de amostras é o mascaramento, o qual pode ocorrer em duas maneiras: mascaramento de frequência e temporal. javascript:void(0) MASCARAMENTO DE FREQUÊNCIA Na figura a seguir, podemos observar dois sinais sonoros: um a 150Hz com 60dB e outro a 125Hz com 40dB. Podemos notar ainda que o limiar da audibilidade agora está acima do sinal de 125Hz, esse é o efeito do mascaramento de frequência. Somente o sinal de 150Hz pode ser percebido pelo nosso ouvido, enquanto o outro fica mascarado, podendo ser eliminado do arquivo codificado. Imagem: Adaptado de Tanenbaum, ANDREW. Redes de Computadores. 2011. P.442. O efeito de máscara por frequência. MASCARAMENTO TEMPORAL Nesse tipo de mascaramento, determinadas frequências ficam inaudíveis após o término de um som mais potente. EXEMPLO MASCARAMENTO POR FREQUÊNCIA Imagine você ouvindo música em baixo volume na sua casa e uma equipe de manutenção começa a furar a rua com britadeiras. Você simplesmente não consegue mais ouvir a música. Esse é o mascaramento por frequência. MASCARAMENTO TEMPORAL Após o final do uso da britadeira, demorará um pequeno tempo para você voltar a ouvir os sons mais fracos. O nosso ouvido diminui o ganho quando percebe um som muito alto e demora para reativá-lo quando o som mais alto termina, caracterizando o mascaramento temporal. O conhecimento das propriedades de máscara temporal de um som nos permite continuar a omitir as frequências mascaradas por algum intervalo de tempo, enquanto o ouvido se recupera. MP3 MP3 é um formato eletrônico que permite ouvir músicas em computadores com ótima qualidade. O principal objetivo da criação desse formato era conseguir reproduzir som com qualidade de CD com uma taxa de compressão razoável. Para gravar um CD, a taxa de gravação (bit rate) é de cerca de 1,4 Megabit por segundo, enquanto em MPEG Audio Layer 32 (MP3) as taxas são de 128 e 112 KB/s mantendo a qualidade sonora perceptível para os seres humanos. O MP3 usa codificação perceptiva utilizando apenas as frequências sonoras que são captadas pelo ouvido humano e que não estão mascaradas. 1 A codificação do MP3 realiza a amostragem da forma de onda de 8 a 96KHz para AAC, normalmente a 44,1KHz, para imitar o som do CD. Para áudio estéreo, a amostragem é realizada em dois canais (um para mono). Em seguida, pode ser escolhida a taxa de bits a ser utilizada. Dependendo da taxa, o MP3 pode codificar uma CD de música até 96 kbps com perda de qualidade desprezível. 2 3 Logo após, as amostras são agrupadas, e cada grupo é submetido a um banco de filtros digitais para gerar as bandas de frequência. As bandas de frequência são submetidas a um modelo psicoacústico que determina as frequências mascaradas e as elimina do arquivo codificado. 4 5 A quantidade de bits disponível é dividida entre as bandas com mais bits alocados a bandas não mascaradas com maior potência e menos bits a bandas não mascaradas de menor potência espectral. Finalmente, os bits são codificados na forma da codificação de Huffman. 6 CODIFICAÇÃO DE HUFFMAN A codificação de Huffman é um método de compressão que usa as probabilidades de ocorrência dos símbolos no conjunto de dados a ser comprimido para determinar códigos de tamanho variável para cada símbolo. A figura a seguir mostra o algoritmo utilizado pelo MP3. javascript:void(0) Imagem: Brandenburg, Karlheinz. MP3 and AAC explained. Audio Engineering Society Conference: 17th International Conference: High-Quality Audio Coding. Audio Engineering Society, 1999. P. 4. O efeito de máscara por frequência. PROPRIEDADES DE ÁUDIO No vídeo a seguir, acompanhe o processo de digitalização do áudio analógico, envolvendo as etapas de amostragem, quantização e codificação. VERIFICANDO O APRENDIZADO 1) PARA A DIGITALIZAÇÃO DE ÁUDIO, PODEMOS UTILIZAR O PULSE CODE MODULATION (PCM), QUE É UMA DAS TÉCNICAS UTILIZADAS PARA CONVERSÃO ANALÓGICO-DIGITAL. ESSA TÉCNICA É DIVIDIDA EM VÁRIAS FASES. QUAL DAS SEGUINTES OPÇÕES PERTENCE À FASE DE AMOSTRAGEM? A) Codificação de linha B) Codificação binário C) Quantização D) Pulse Amplitude Modulation - PAM E) Filtragem 2) A CODIFICAÇÃO PERCEPTIVA BUSCA IDENTIFICAR AS FREQUÊNCIAS “INÚTEIS” DO ARQUIVO ORIGINAL, ELIMINANDO-AS DO ARQUIVO CODIFICADO A PARTIR DOS PRINCÍPIOS DA PSICOACÚSTICA. ESSE TIPO DE CODIFICAÇÃO FOI DESENVOLVIDO PORQUE O OUVIDO HUMANO É CAPAZ DE IDENTIFICAR APENAS UMA DETERMINADA FAIXA DE FREQUÊNCIA, E MESMOS SONS NESTA FAIXA DE NECESSITAM TER UMA DETERMINADA POTÊNCIA PARA SEREM PERCEBIDOS. O LIMITE QUE A POTÊNCIA DO SOM TRAÇA PARA NOSSA AUDIÇÃO DENOMINA-SE: A) Limite de audibilidade B) Audibilidade inferior C) Limiar de audibilidade D) Sinal audível E) Limite de Nyquist GABARITO 1) Para a digitalização de áudio, podemos utilizar o Pulse Code Modulation (PCM), que é uma das técnicas utilizadas para conversão analógico-digital. Essa técnica é dividida em várias fases. Qual das seguintes opções pertence à fase de amostragem? A alternativa "D " está correta. Quantização é quantificar os valores já amostrados. Pulse Amplitude Modulation (PAM) ocorre na fase de amostragem. Codificação de linha é a fase de enviar os binários codificados no meio de transmissão. Codificação binário ocorre após a quantização e os ajustes, pois existem os erros de quantização. 2) A codificação perceptiva busca identificar as frequências “inúteis” do arquivo original, eliminando-as do arquivo codificado a partir dos princípios da psicoacústica. Esse tipo de codificação foi desenvolvido porque o ouvido humano é capaz de identificar apenas uma determinada faixa de frequência, e mesmos sons nesta faixa de necessitam ter uma determinada potência para serem percebidos. O limite que a potência do som traça para nossa audição denomina-se: A alternativa "C " está correta. O ouvido humano consegue discriminar sons compreendidos entre 20Hz (a frequência mais grave) e 20 000Hz (frequência mais aguda). Qualquer som acima de 20kHz pode ser eliminado independentemente da potência, o que caracteriza a limite de audibilidade. Já o limiar da audibilidade se refere a sons dentro do limite de audibilidade que possuam potência suficiente para serem percebidos pelo nosso ouvido. MÓDULO 3 Objetivo: descrever o processo de digitalização de vídeo COMPARANDO O CONSUMO DE BANDA A característica mais notável do vídeo que trafega em redes multimídias é a sua necessidade de uma grande largura de banda, devido à sua alta taxa de bits. Dependendo de sua resolução, ele pode precisar de centenas de kbits/s para uso em videoconferências a vários Mbits/s para streaming de vídeo em alta definição. Para fins de comparação, considere que três usuários estão usando diferentes aplicações de internet: imagem: Shutterstock.com.Frank acessa o Facebook e, a cada 10 segundos, vê fotos com tamanho médio de 200kb. imagem: Shutterstock.com Marta baixa da internet um grande conjunto de arquivos de música no formato MP3 codificados a 128kbits/s. imagem: Shutterstock.com Vitor assiste a um vídeo codificado a 2Mbits/s. Vamos considerar que todos os usuários citados realizaram as suas atividades por 67 minutos (aproximadamente 4000 segundos). O consumo de banda de cada um deles está expresso na tabela a seguir, onde podemos observar como o vídeo exige muito mais largura de banda para ser assistido, o que impacta diretamente na forma de codificação e compressão. Taxa de bits Bytes transferidos em 67 min Facebook de Frank 160kbits/s 80Mbytes Música de Marta 128kbits/s 64Mbytes Vídeo de Vitor 2Mbits/s 1Gbyte Atenção! Para visualização completa da tabela utilize a rolagem horizontal TÍTULO 1 VÍDEO DIGITAL O vídeo é formado por uma sequência de quadros ou frames que representam uma imagem estática. Foto: Eadweard Muybridge/Wikimedia commons/Domínio Público. Frames de um vídeo. Se esses quadros forem exibidos para uma pessoa a uma taxa suficientemente grande, será gerada a impressão de movimento. Isso ocorre porque nossos olhos não conseguem distinguir quadros individuais que se sucedem rapidamente. Foto: Eadweard Muybridge/Wikimedia commons/Domínio Público. Ilusão de movimento. A taxa de exibição dos quadros de um vídeo, conhecida por fps, varia muito em função da tecnologia utilizada. A partir de 25 a 30 fps, ocorre a percepção do movimento, porém taxas baixas provocam tremulação na imagem. Para evitar isso, foi padronizado pelas televisões que os frames devem ser redesenhados ao dobro dessas taxas, ou seja, de 50 a 60fps. VOCÊ SABIA? Televisões top de linha atualmente usam 120fps ou mesmo 240fps, o que melhora a qualidade e torna a transição dos frames mais suave. Para que possa ocorrer a digitalização do sinal de vídeo digital (conjunto de frames), cada quadro deve ser amostrado individualmente, conforme ilustrado a seguir, e tratado como uma imagem estática. Imagem: Sidney Nicolau Venturi Filho. Processo de amostragem. PROCESSO DE AMOSTRAGEM Cada frame é dividido em elementos de imagem (picture elements ou pixels). Para imagens em preto e branco, cada pixel é representado em 8 bits, o que fornece 256 tons de cinza. Já para imagens coloridas, o pixel é formado por 24 bits, onde cada um dos bytes representa uma cor primária, o que permite representar mais de 16 milhões de cores diferentes. PRETO E BRANCO Se você raciocinar com preto e branco, um pixel poderia ser representado por apenas um bit associando 0 a branco e 1 a preto, por exemplo. Porém, para efeitos práticos, isso é inviável, pois javascript:void(0) javascript:void(0) todos os tons de preto seriam igualados, o mesmo processo ocorrendo com o branco. Por conta disso, na realidade, o “preto e branco”, há a representação de uma escala de cinza de 256 tons. COR PRIMÁRIA Para o vídeo colorido, muitos sistemas usam 8 bits para cada um dos componentes de cor primária — vermelho, verde e azul (RGB). Essa representação é possível porque qualquer cor pode ser construída com base em uma sobreposição linear de vermelho, verde e azul com as intensidades apropriadas. Com 24 bits por pixel, há mais de 16 milhões de cores possíveis, o que é mais do que o olho humano consegue distinguir. Imagem: Unsplash.com Colorido Imagem: Unsplash.com Tons de Cinza Imagem: Unsplash.com Preto e Branco DIGITALIZAÇÃO DE VÍDEO Como vimos, a digitalização de vídeo corresponde a associar a cada pixel de cada frame os bits que representam a sua cor (ou tom de cinza), como se fosse uma imagem estática. Imagine agora a seguinte situação: Imagine que você deseja transmitir um vídeo com resolução de 1024 X 768 pixels colorido RGB. De quantos bits precisará para um vídeo de um segundo? RESPOSTA Vamos lá: Como a resolução é de 1024 X 768, temos 768432 pixels no frame. Como estamos trabalhando com RGB, cada pixel utiliza 24 bits, o que nos dá 768432 X 24 = 18.874.368 bits para um frame. Como a taxa de transferência deve ser de 60 fps (30 X 2), teremos 18.874.368 X 60 = 1.132.462.080, o que equivale a 1,13 Gbps. Note que seria totalmente inviável transmitir o vídeo real pela internet sem compactação. Para compactarmos um vídeo, podemos inicialmente comprimir cada um de seus frames. Para isso, vejamos como funciona o padrão Jpeg de compressão de imagens. JPEG (JOINT PHOTOGRAPHIC EXPERTS GROUP) O JPEG foi desenvolvido por especialistas em fotografia em grupos de trabalho conjunto da ITU, ISO e IEC. Ele é um dos padrões mais utilizados em fotografia (observe a quantidade de arquivo com a extensão JPG) e normalmente oferece razões de compressão de 10:1 ou superiores. RELEMBRANDO Conforme já vimos, se uma imagem for em tons de cinza, cada pixel pode ser representado por um número inteiro de 8 bits, já uma imagem colorida (RGB) tem cada pixel representado por 24 bits (8 bits para cada cor). O processo de codificação do JPEG é composto de um pré-processamento da imagem, gerando blocos e de 3 fases: DCT, quantização e compressão de dados. Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores. 2008. P. 905. Processo JPEG. Vamos analisar um exemplo de compactação JPEG considerando uma imagem composta de tons de cinza. Neste caso, o pré-processamento divide a imagem em bloco de 8 X 8 pixels, que visa reduzir a complexidade dos cálculos do processo, pois o número de operações é o quadrado do número de entradas. Imagem: FOROUZAN, B.Comunicação de dados e redes de computadores. 2008. P. 904. Divisão dos blocos de uma imagem tons de cinza. A ideia básica do JPEG é transformar uma imagem em um vetor que facilite identificar as redundâncias (ausência de alterações) que permitiram as eliminar. DCT Após o pré-processamento, a primeira fase é a transformada discreta de cossenos (DCT). Nessa etapa, cada bloco passa por uma transformação, que modifica a matriz de 64 valores de modo a permitir identificar as redundâncias. Vejamos alguns exemplos desta transformação: EXEMPLO 1 Vamos considerar a figura a seguir, onde há um bloco da imagem composto por apenas um tom de cinza de valor 20 em cada pixel, apresentado na imagem P(x,y). Ao realizarmos a transformação, será gerada a tabela T(m,n), onde o campo superior esquerdo (T0,0) recebe a média de todos os valores P(x,y), que, no nosso caso, é 20 multiplicado por uma constante, 8. Ele fica com o valor 160 sendo denominado valor CC. Os demais valores de T(m,n) são denominados valores AC (corrente alternada) e representam as alterações em relação ao valor médio. Como, no nosso exemplo, todos os pixels são 20, não existe alteração, todos os valores AC são zero, o que permite identificar que todos são redundantes. Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores. 2008. P. 905. Exemplo da transformada DCT em uma imagem de tom único. EXEMPLO 2 Vamos considerar agora a figura a seguir, onde há um bloco dividido por duas escalas de cinza (20 e 50). Podemos observar que, em um determinado ponto da imagem, ocorre uma mudança brusca de valores e, ao aplicarmos a transformada DCT, vamos obter um valor CC e alguns valores AC em torno do valor CC e continuamos tendo muitos valores zero. Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores. 2008. P. 906. Exemplo da transformada DCT em uma imagem com dois tons. EXEMPLO 3 Por último, vamos considerar a Figura 30, onde há um bloco cujos valores de cinza mudam gradualmente. Portanto, não ocorre uma mudança bruta. Ao aplicarmos a transformada DCT, obtemos um javascript:void(0) valor CC e vários outros valores AC diferentes de zero. Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores. 2008. P. 906. Exemplo da transformada DCT em uma imagem com vários tons de cinza. CC Corrente contínua termo oriundo da engenharia elétrica. Dos três exemplos vistos, podemos chegarà seguinte conclusão: A transformada DCT cria uma tabela T a partir de uma tabela P. O valor CC é o valor médio dos pixels (multiplicado por uma constante). Os valores AC representam as variações. A ausência de variações nos pixels vizinhos cria como resultado 0s. QUANTIZAÇÃO Após a criação da tabela T, os valores são quantizados para reduzir o número de bits necessários para a codificação. A quantização implica em normalizar os números de T, truncando-os. Para isso, dividimos o valor original por uma constante e pegamos apenas a parte inteira. Depois desse processo, os números são divididos novamente por valores pré-definidos para cada posição da tabela. ATENÇÃO Cabe observar que essa é única etapa do processo que não é reversível. Logo, o JPEG é um codec com perdas. COMPRESSÃO Após a quantização, os valores são lidos a partir da tabela, e os zeros redundantes são eliminados. Entretanto, para agrupar melhor os 0s, a tabela é lida diagonalmente, em zigue-zague, e não linha a linha ou coluna a coluna. A razão disso é que se a imagem tiver suaves variações, o canto inferior direito da tabela T será todo composto de 0s. A figura a seguir ilustra o processo: Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores. 2008. P. 907. Leitura da Tabela. MPEG (MOVING PICTURE EXPERTS GROUP) O MPEG é um dos padrões de vídeo mais utilizados para codificação e tem como meta gerar uma taxa de dados codificada de 1,5 Mbps ou menos (incluindo áudio e vídeo). A entrada do codificador MPEG consiste em uma série de quadros de vídeo, onde cada um é uma imagem estática contendo uma matriz bidimensional de elementos de quadro (pixels). O algoritmo de compressão procura reduzir a taxa de dados, focando na redundância espacial e temporal existente em vídeos. Desse modo, comprimir um vídeo significa comprimir espacialmente cada quadro e comprimir temporalmente um conjunto de quadros. COMPRESSÃO DE VÍDEO COMPRESSÃO ESPACIAL A compressão espacial de cada quadro é realizada pelo JPEG (ou uma variante dele). Cada quadro é uma imagem que pode ser compactada de maneira independente aproveitando a existência da redundância espacial; é a similaridade entre pixels que ocorrem em uma mesma vizinhança, como se pode ver no destaque da figura a seguir. Imagem: Shutterstock.com, adaptado por Isaac Barbosa Redundância espacial. O destaque mostra um grupo de pixels similares na imagem. COMPRESSÃO TEMPORAL Na compressão temporal, quadros redundantes são eliminados, ou seja, é aproveitada a existência da redundância temporal para realizar a compressão do arquivo. REDUNDÂNCIA TEMPORAL A redundância temporal é a similaridade entre quadros sucessivos de um vídeo. Imagine, por exemplo, uma cena parada de telejornal, onde somente o apresentador fala. De um quadro para outro, praticamente só os movimentos faciais do apresentador mudarão, permanecendo constantes os demais elementos da cena, como o fundo. Imagem: Shutterstock.com javascript:void(0) Imagem: Shutterstock.com Imagem: Shutterstock.com Segundo Forouzan (2008), para poder realizar a compactação temporal, o MPEG divide os quadros em três categorias: I-FRAME (INTRACODED FRAME) É um quadro independente e completo que não tem relação com outros (ao menos, com quadros enviados anteriormente ou com aqueles a serem enviados posteriormente) a qualquer momento. Se existir apenas um I-frame no início da transmissão, o telespectador que sintonizar mais tarde não receberá uma imagem completa. Os quadros I-frames são independentes dos demais quadros e não podem ser construídos a partir de outros quadros. P-FRAME (PREDICTED FRAME) Está relacionado com um I-frame ou um P-frame precedente. Em outras palavras, cada P-frame contém apenas as mudanças em relação ao quadro anterior. As mudanças, entretanto, não irão cobrir grande parte do segmento completo de bits. Por exemplo, para um objeto que se movimenta rapidamente, as novas mudanças talvez não sejam registradas corretamente em um P-frame. Os P-frames podem ser construídos apenas a partir de P-frames ou I-frames anteriores. Os P-frames transportam menos informação que os outros tipos de quadros e menos bits após a compressão. B-FRAME (BIDIRECTIONAL FRAME) Está relacionada com um I-frame ou um P-frame precedente ou seguinte. Em outras palavras, cada B- frame é relativo ao passado ou ao futuro. Note que um B-frame jamais está relacionado a outro B-frame. Veja a seguir uma ilustração que exemplifica uma sequência de quadros. Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores. 2008. P. 908. Quadros MPEG. Observando essa imagem, podemos notar que: Um I-frame deve ser enviado periodicamente. O P-frame armazena apenas as mudanças em relação ao quadro anterior. O B-frame possui relação com o I-frame ou P-frame anterior e posterior. A figura a seguir ilustra o relacionamento entre os três tipos durante a codificação: Imagem: FOROUZAN, B. Comunicação de dados e redes de computadores. 2008. P. 908. Construção de quadros MPEG. PROPRIEDADES DE VÍDEO No vídeo a seguir, acompanhe o processo de digitalização do vídeo, envolvendo todas as etapas necessárias. Veja também a importância da compactação para que seja viável transmitir vídeos em uma rede de dados VERIFICANDO O APRENDIZADO 1) DURANTE O PROCESSAMENTO DO JPEG DE UMA IMAGEM EM TONS DE CINZA, FOI GERADA A TABELA P A SEGUIR. CONSIDERANDO QUE A CONSTATE DE MULTIPLICAÇÃO UTILIZADA SERÁ 10, QUAL É O VALOR DO CC? FONTE: FOROUZAN, B. COMUNICAÇÃO DE DADOS E REDES DE COMPUTADORES. 2008. P. 906. A) 20 B) 90 C) 400 D) 550 E) 400 2) O MPEG UTILIZA VÁRIOS TIPOS DE TÉCNICAS PARA REALIZAR A COMPRESSÃO DE VÍDEO. A FIGURA ABAIXO MOSTRA TRES FRAMES SUCESSIVOS DE UM VÍDEO. FONTE: TANENBAUM, ANDREW. REDES DE COMPUTADORES. 2011. P. 447. A) Compressão temporal B) Compressão por P-frame e B-frame C) Compressão espacial D) Compressão pelo uso de I-frame E) Compressão por P-frame, B-frame e I-frame GABARITO 1) Durante o processamento do JPEG de uma imagem em tons de cinza, foi gerada a tabela P a seguir. Considerando que a constate de multiplicação utilizada será 10, qual é o valor do CC? Fonte: FOROUZAN, B. Comunicação de dados e redes de computadores. 2008. P. 906. A alternativa "D " está correta. O CC é obtido a partir da multiplicação da média dos valores de P, no caso 55 pela constante determinada no caso 10, portanto o valor CC será 550. 2) O MPEG utiliza vários tipos de técnicas para realizar a compressão de vídeo. A figura abaixo mostra tres frames sucessivos de um vídeo. Fonte: TANENBAUM, Andrew. Redes de Computadores. 2011. P. 447. A alternativa "C " está correta. Como a chaminé da casa não sofre alteração de quadro para outro, ela caracteriza a redundância espacial que pode ser aproveitada pelo MPEG para realizar a compressão espacial. CONCLUSÃO CONSIDERAÇÕES FINAIS Ao longo deste tema, fizemos uma viagem pelos conceitos relacionados a redes multimídia. Iniciamos nosso estudo vendo como as redes evoluíram de arquiteturas segregadas para cada tipo de serviço (telefonia, televisão, dados) para redes convergidas, utilizando a tecnologia TCP/IP. Assim foram originadas as redes multimídia e seus serviços. Nossa próxima parada foi o processamento de áudio, em que pudemos ver como o som, um sinal tipicamente analógico, é digitalizado e comprimido para envio pela internet. Em nossa parada final, estudamos como é realizado o processamento do vídeo digital e a sua compressão. PODCAST Agora, o especialista Sidney Venturi encerra o tema explorando a importância das redes multimídias no cenário atual e como as redes devem evoluir para dar suporte ao tráfego multimídia. AVALIAÇÃO DO TEMA: REFERÊNCIAS BRANDENBURG, K.; Stoll, G.ISO-MPEG-1 Audio: a generic standard for coding of high quality digital audio. In N. Gilchrist and Ch. Grewin, editors, Col-lected Papers on Digial Audio Bit-Rate Reduction. AES, 1996. Consultado em meio eletrônico em: 15 fev. 2021. BRANDENBURG,K.MP3 and AAC explained. Audio Engineering Society Conference: 17th International Conference: High-Quality Audio Coding. Audio Engineering Society, 1999. Consultado em meio eletrônico em: 15 fev. 2021. DOUGLAS, E. C.Interligação Redes com TCP/IP. Rio de Janeiro: Elsevier, 2015. FOROUZAN, B.Comunicação de dados e redes de computadores. 4. ed. São Paulo: McGraw-Hill, 2008. KUROSE, J. F.; ROSS, K. W. Redes de computadores e a Internet:uma abordagem top-down.: Campinas: Pearson Education, 2014. LAMMLE, T. CCNA: Cisco Certified Network Associate Study Guide: Exam 640 - 801, Deluxe, 2005. Consultado em meio eletrônico em: 15 fev. 2021. MASSAROLO, J. C.; MESQUITA, D. Vídeo sob demanda uma nova plataforma televisiva, 2016. In : Compos. Consultado em meio eletrônico em: 03 fev. 2021. TANENBAUM, A. Redes de Computadores. Rio de Janeiro; Campus, 2011. WILKINSON, N. Next Generation Network Services: Technologies & Strategies. West Sussex.: John Wiley & Sons, 2002. EXPLORE+ Para que você possa compreender melhor o processo de compactação utilizado em áudio e vídeo, pesquise por Código de Huffman. Pesquise sobre o teorema da amostragem proposto por Shannon, que permite o início do processo de digitalização do áudio e vídeo. CONTEUDISTA SIDNEY NICOLAU VENTURI FILHO CURRÍCULO LATTES javascript:void(0);
Compartilhar