Buscar

1 SISTEMAS TÉCNICOS DE VÍDEO 2017

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 33 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 33 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 33 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Ronaldo Morant 
 0 
 
 
 
Sistemas Técnicos para Audiovisual 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Ronaldo Morant 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Rio de Janeiro, 2017 
 
Ronaldo Morant 
 1 
SINAIS DE VÍDEO 
 
FORMAÇÃO DA IMAGEM DE VÍDEO 
 
Linhas de Varredura 
A imagem de vídeo é formada através de uma sequência de linhas horizontais. Estas 
linhas são geradas por um dispositivo sensível à luz colocado dentro das câmeras. 
Antigamente este dispositivo era um tubo de imagem denominado vidicon; hoje é um chip 
sensor denominado CCD ou CMOS. O resultado da leitura do sensor CCD é um sinal 
analógico que pode, ou não, 
ser digitalizado logo em 
seguida, resultando os 
formatos Betacam (analógicos) 
e DVCam ou HDV/HD (digitais). 
Já o CMOS gera direto um sinal 
digital. 
As figuras abaixo 
mostram o sinal de vídeo para 
o padrão NTSC, como é 
desenhado na tela de um tubo 
de imagens (CRT): 
 
A figura de cima à 
direita, mostra a formação das 
linhas ímpares e a de baixo a 
formação das linhas pares. O 
sinal de vídeo trabalha com o 
processo de alternância tanto 
na leitura como na 
apresentação das linhas 
porque, quando foi 
patenteado pela RCA, em 
1929, a camada de fósforo que recobria internamente o CRT possuía tempo de resposta 
muito lento (tempo para um determinado ponto da tela ficar luminoso e em seguida apagar-
se) para trabalhar com um novo desenho de linha a intervalos muito curtos; este fato, 
associado a outras limitações técnicas época, como restrição na largura de banda 
(bandwidth) disponível para efetuar a transmissão do sinal até as residências levou à criação 
desse sistema, onde o desenho das linhas é dividido em duas etapas (os campos), linhas 
ímpares e linhas pares. 
O sinal de vídeo possui, embutido dentro do mesmo, indicações para o canhão de 
que uma linha horizontal chegou ao fim ou de que um campo teve seu desenho completado. 
Estas informações, denominadas pulsos de sincronismo, permitem que os retraces sejam 
efetuados quando necessário. O processo todo também leva 1/60 seg. para ocorrer. 
A soma dos dois campos recebe o nome de quadro, sendo portanto desenhado em 
1/30 seg. (1/60 + 1/60). Em outras palavras, a cadência de apresentação das imagens (frame 
rate) é de 30 quadros por segundo (30qps). Ao término deste tempo todas as linhas foram 
desenhadas na tela e o processo reinicia-se novamente. Neste momento, as linhas do 
Ronaldo Morant 
 2 
primeiro campo já estão-se tornando quase que totalmente apagadas (o fósforo vai 
perdendo luminosidade gradativamente). Com a criação do processo de alternância no 
desenho das linhas foi possível atender as limitações de banda da época e ao mesmo tempo 
obter-se uma boa resolução na imagem. Daí originou-se o nome interlaced para este tipo de 
sinal: o desenho das linhas é entrelaçado, ou seja, ímpares / pares / ímpares e assim por 
diante. 
Nem todas as 525 linhas disponíveis no sistema NTSC no entanto são visíveis na tela. 
Das 262 linhas e meia de cada campo, as últimas 21 linhas são sempre reservadas para 
armazenar diversas informações de controle do próprio sinal e outras mais. Assim, tem-se 
um total de 483 linhas visíveis, 241 linhas e meia em cada campo (241,5 + 21 = 262,5 para 
cada campo): 
 
As 9 primeiras linhas do conjunto de 21 armazenam, entre outras informações, os 
pulsos de sincronismo vertical (V-Sync) e sinais de equalização. As 12 demais linhas podem 
ser utilizadas para o armazenamento de diversas informações, como por exemplo close 
caption e Timecode do tipo VITC (Vertical Interval Timecode). São essas linhas não visíveis, 
sem imagem, que formam a faixa preta que pode ser vista quando o ajuste vertical do 
monitor está fora da posição correta, como mostra a figura abaixo: 
Em monitores de vídeo é possível visualizar estas 12 últimas linhas através do 
acionamento de um botão denominado underscan. Em aparelhos de TVs comuns, não só as 
21 linhas como algumas a mais são escondidas pela máscara que forma a estrutura do 
aparelho. Devido à persistência de imagens na retina, o olho humano não percebe somente 
241 linhas e meia na imagem (quando um campo está sendo desenhado o anterior já está-se 
apagando) mas sim as 483. Com isso é possível manter-se uma resolução vertical aparente 
de 483 linhas que na realidade é de somente 241 linhas. 
Os sinais analógicos de vídeo podem ser digitalizados e convertidos para um formato 
digital de vídeo, como o DV. No formato NTSC DV são desconsideradas 1 linha e meia de 
cada campo do formato NTSC analógico, resultando em um total de 480 linhas ao invés de 
483. As diversas informações de controle existentes nas 21 linhas não mostradas são 
mantidas, sendo codificadas e digitalizadas de 
modo que os equipamentos que tratam este 
tipo de sinal digital as entendam. O inverso 
também pode ocorrer, quando um sinal digital é 
 
Aqui ficam armazenadas outras informações para o 
sinal de vídeo. Elas não são visíveis. 
Ronaldo Morant 
 3 
convertido para analógico: neste caso as informações de controle são reconstruídas para 
entendimento dos equipamentos que tratam sinais analógicos. Os sistemas PAL e SECAM 
funcionam de forma semelhante, porém com número diferente de linhas em cada quadro. 
Para facilidade de comunicação, a frequência de apresentação dos quadros no 
sistema NTSC é considerada como sendo de 30 quadros por segundo. No entanto o frame 
rate preciso é 29,97 e não 30. 
 
Sinal Analógico: 
O sinal de vídeo é gerado a partir da 
leitura sequencial, da esquerda para a 
direita e de cima para baixo, da intensidade 
da voltagem de cada ponto do chip sensor 
(CCD) onde a imagem é projetada através 
das lentes da câmera. Quanto maior a 
intensidade de luz em determinado ponto, 
maior a voltagem produzida pelo mesmo, ou 
seja, existe uma analogia direta entre o 
brilho da imagem e a voltagem produzida, 
por isso o sinal é dito analógico. 
 
Sinal Digital: 
No sinal digital esta 
analogia também existe, porém 
não é direta: o sinal é dividido em 
trechos 
com 
mesmo 
tamanho 
e para cada trecho é calculada a 
média da intensidade da 
voltagem, sendo posteriormente o 
número obtido codificado no formato de número binário (sistema de numeração que só 
possui 2 algarismos - o '0' e o '1' ) e assim gravado por exemplo em uma fita do tipo DV. O 
sinal analógico por outro lado é gravado em uma fita do tipo VHS por exemplo, com todas as 
milhares de variações de voltagem obtidas. 
 
Luminância: 
BRILHO, medida da luminosidade 
total da imagem. 
 
 
 
Crominância: 
 
COR, medida da parte de cor da 
imagem. 
 
Ronaldo Morant 
 4 
 
 
 
 
 
S/N (vídeo) (Signal-To-Noise Ratio ou SNR)(Sinal Ruído): 
Indicação do quanto de “ruído” 
(imagem granulada) uma imagem de 
vídeo possui, expressa em decibéis 
(dB). Esta indicação é calculada 
através do valor da voltagem máxima 
atingida pelo sinal dividido pelo valor 
residual da voltagem que permanece 
quando o sinal é removido - ou seja, a 
quantidade de ruído no mesmo. 
Geralmente os valores produzidos 
situam-se em torno de 38dB a 42dB. 
De maneira geral, quanto maior esse 
valor, melhor a imagem. Sinais 
considerados como de excelente 
qualidade geralmente situam-se 
acima de 54dB. Este tipo de indicação é utilizado para medir e comparar a qualidade do sinal 
produzido pelas câmeras de vídeo. 
 
Sinal Composto: 
Ao contrário do Y/C, neste tipo de sinal as informações de cor e luminosidade são 
combinadas gerando um único sinal. Posteriormente (no momento da exibição por exemplo) 
estes sinais são novamente 
separados. A transformação 
acaba acarretando perda de 
qualidade devido a interferências e 
distorções geradas no processo, onde ossinais 
recuperados na separação não são exatamente idênticos ao que 
eram na fase de codificação em sinal único. Este tipo de sinal é 
utilizado no formato VHS, por exemplo, e na transmissão de TV a 
cabo. 
 
Sinal RF (rádio-freqüência): 
Ao contrário do sinal do tipo composto, neste tipo de sinal 
as informações de imagem, já reunidas em um único sinal, são 
combinadas com o sinal de som, gerando um novo único sinal. 
Posteriormente (no momento da exibição) estes sinais são 
380 linhas de resolução. 240 linhas de resolução. 
450 linhas de resolução. 
Ronaldo Morant 
 5 
novamente separados. A transformação acaba acarretando bastante perda de qualidade 
devido a interferências e distorções geradas no processo, onde os sinais recuperados na 
separação não são exatamente idênticos ao que eram na fase de codificação em sinal único. 
Este tipo de sinal é enviado às torres transmissoras de TV e captado por antenas comuns nas 
residências. Opcionalmente, além de ser enviado à torres transmissoras terrestres é também 
enviado a satélites retransmissores, podendo então ser captado por antenas parabólicas. 
 
RGB (Red, Green, Blue): 
Tipo de sinal em que as informações de 
cor são transmitidas de modo separado, em 3 
componentes, vermelho, verde e azul (o cabo 
que carrega este sinal possui um fio exclusivo 
para cada uma destas cores básicas). Estas cores são as cores básicas do modelo de cor RGB. 
 
Sinal Componentes (YUV): 
Vídeo componentes; neste tipo de sinal as informações da imagem são separadas em 
3 partes: luminância (a parte que controla o brilho - quantidade de luminosidade - na 
imagem) , cromitância-1 e cromitância-2 (partes que controlam as informações de cor na 
imagem). Esses 3 componentes referem-se ao sistema de codificação de cor YUV. 
Formatos de vídeo profissionais analógicos gravam o sinal componentes YUV 
diretamente nas fitas magnéticas, como por exemplo Betacam SP. Formatos digitais o 
digitalizam e a seguir o comprimem, como por exemplo DV. 
Este tipo de sinal, por manter as informações de cor separadas, possui uma melhor definição 
de cores do que a de outros sinais, como o Y/C, o composto e o RF (nessa ordem, ordenados 
da maior para a menor qualidade). 
 
Sinal Y/C: 
Ao contrário do componentes, neste tipo de sinal as informações de cor são 
combinadas gerando um único sinal, ao passo que as informações 
de luminosidade constituem um sinal independente. Posteriormente 
(no momento da exibição) os sinais de cor são novamente 
separados. A transformação acaba acarretando pequena perda de 
qualidade devido a interferências e distorções geradas no processo, 
onde os sinais de cor recuperados na separação não são exatamente 
idênticos ao que eram na fase de codificação em sinal único. Este 
tipo de sinal é 
utilizado no formato 
SVHS. 
 
Sinal Componente Digital IEEE-1394 
Nome dado ao sistema de gravação de sinais de vídeo que digitaliza sinais no formato 
vídeo componentes, comprimindos-os para em seguida gravar em fita. Este sinal é também 
chamado i.Link, FireWire ou DTVLink, composto de um protocolo padrão para transmissão 
digital de áudio, vídeo e dados a curta distância. Desenvolvido originalmente pela Apple 
Computer, foi proposto à organização IEEE - Institute of Electrical and Electronics Engineers 
(EUA) e por ela tornado padrão em 1995. 
400 linhas de resolução. 
Luminância 
Crominância 
Ronaldo Morant 
 6 
FireWire é o nome utilizado pela Apple para sua versão do IEEE-1394 e por diversas 
empresas que o empregam em seus produtos, i.Link é o nome criado pela Sony para a 
mesma interface e DTVLink o nome padronizado pelo CEA (Consumer Electronics 
Association) também para a mesma interface. 
O formato DV foi a primeira aplicação a utilizar esta tecnologia, sendo parte opcional 
do mesmo - pode ou não ser implementada, conforme o fabricante. Deverá no futuro ser o 
substituto de protocolos como IDE, SCSI, etc... 
O IEEE-1394 é um sistema de comunicação serial, bi-direcional de alta velocidade, 
proposto para simplificar as conexões entre produtos digitais, como câmeras, 
computadores, drives de DVD, etc. Algumas características: sinais de áudio & vídeo & outros 
trafegam por um único cabo/conector, sinais simultâneos podem trafegar nas duas direções, 
pode conectar até 63 periféricos em uma única cadeia, os periféricos podem ser conectados 
/desconectados ligados à cadeia (hot pluggable). Sinais digitais de vídeo quando copiados de 
um equipamento para outro através deste tipo de conexão não sofrem degradação da 
imagem. 
Existem dois tipos de conectores usados: com 4 e com 6 pinos (unpowered e 
powered). 
 
Sinal de Color Bar 
 Conjunto de barras 
coloridas utilizadas como 
referência no ajuste de 
equipamentos de vídeo. Existem 
modelos diferentes para cada tipo 
de sinal de vídeo (abaixo, modelo 
para o sinal NTSC, denominado 
SMPTE color bars). Permite 
efetuar ajustes nos controles de 
cor de monitores, câmeras, etc... 
As câmeras profissionais podem 
gerar este sinal (ou parte dele, 
sem as camadas inferiores). As 
câmeras industriais e algumas 
domésticas eventualmente também geram este sinal. 
 
Interlaced Image (modo entrelaçado de imagem) e o Progressive Scan (modo 
escaneamento progressivo) 
 
Interlaced Image - É quando as linhas exibidas na tela são desenhadas de maneira 
alternada, primeiro as pares, depois as ímpares e assim por diante. O sistema de TV 
tradicional mostra as linhas neste modo. Já os sistemas de computadores utilizam a forma 
non-interlace, onde as linhas são desenhadas na sequência, uma a uma, sem alternância. 
 
Progressive Scan - É o escaneamento progressivo da imagem. Este processo 
alternativo de leitura (scan) das linhas no CCD da câmera, onde o mesmo é lido linha a linha, 
de alto a baixo, ao invés de serem lidas somente as linhas pares ou somente as linhas 
ímpares alternadamente. 
Ronaldo Morant 
 7 
No modo 
tradicional de leitura do 
CCD, interlaced, no 
tempo de 1/60 seg. são 
formadas as linhas 
pares. Após este tempo, 
a leitura e o processo de 
formação de linhas se 
reinicia a partir do topo 
do CCD, agora para as 
linhas ímpares, também 
durante 1/60 seg. Em 
ambas as fases sempre 
duas linhas são lidas 
(Dual-Row Readout) e 
somadas, resultando na 
formação de uma única linha (Row-Pair Summation). 
No modo progressive scan, as linhas pares são lidas juntamente com as ímpares (sem 
ser utilizado Dual-Row Readout) o que significa que o CCD é lido uniformemente de alto a 
baixo e que todas as linhas individualmente são consideradas para a formação da imagem 
(não existe soma de linhas). No modo tradicional, o tempo gasto para montar somente um 
dos tipos de linhas (só pares ou só ímpares, utilizando Row-Pair Summation) é de 1/60 seg.. 
No progressive (onde não existe Row-Pair Summation) o tempo gasto para montar 1 linha 
qualquer (par ou ímpar) é o mesmo gasto no modo tradicional para montar também uma 
linha qualquer (par ou ímpar), só que neste último 2 linhas subsequentes são lidas e 
somadas ao mesmo tempo. A diferença é que enquanto o modo tradicional gasta 1/60 seg. 
montando só linhas pares e depois mais 1/60 seg. montando só ímpares, o progressive 
monta todas as linhas uma após a outra, ou seja, em 1/60 monta só metade do quadro. E os 
dois modos terão montado um quadro completo em 1/30 seg. 
Como todos os pixels do CCD são aproveitados na montagem das linhas (não há Dual-
Row Readout), a resolução vertical da imagem é maior do que a correspondente no modo 
interlaced. Por outro lado a sensibilidade deixa de ser ampliada, pois não existe Row-Pair 
Summation (que soma a luminosidade dos pixels da linha de cima com a dos pixels da linha 
de baixo) - em certas câmeras é possível perceber um escurecimento da imagem quando as 
Progressive Ecan 
Interlaced image 
RonaldoMorant 
 8 
condições do ambiente são de pouca luz e muda-se o modo de gravação de interlace para 
progressive. 
Além do tempo padrão de 1/30seg.(30 qps - quadros por segundo), existem câmeras 
com modo progressive funcionando em 1/24seg (24 qps, descrito mais adiante) e também 
em 1/60 seg (60 qps, utilizado em HDTV). A figura abaixo mostra o processo interlace em 
comparação com o progressive (modo 1/30seg.), para uma câmera com 3 CCDs: 
A imagem capturada desta forma no CCD, por não conter campos par / ímpar não é 
conforme com padrão de sinal NTSC. Para gravá-la na fita, algumas técnicas são utilizadas. 
Em uma delas, utilizada em formatos HDTV, são utilizados CCDs com 720 linhas (ao invés de 
480) e o tempo de captura é 1/60seg (ao invés de 1/30 seg.). A cada 1/60 seg. todas as linhas 
são descarregadas diretamente na fita, gerando 60 qps de 720 linhas. Existem formatos 
HDTV que geram quadros de 1080 linhas (utlilizando CCDs de 1080 linhas). 
Em formatos tradicionais (não HDTV) no entanto, um truque precisa ser utilizado 
para gravar estas imagens progressive na fita no modo interlaced NTSC. O quadro com todas 
as linhas (que foi montado em 1/30 seg., ou seja, 1/60seg - pares + 1/60seg. - ímpares) é 
armazenado em um buffer de memória. A seguir este buffer é descarregado da seguinte 
forma: em 1/60 seg. são descarregadas uma a uma as linhas pares e nos próximos 1/60 seg. 
as ímpares. Com isto, o sinal armazenado na fita na câmera continua sendo interlaced 
(alternância de campos pares e ímpares), porque este é o padrão NTSC, assim a câmera deve 
gerar um sinal que seja compliance com o mesmo. A vantagem é que a imagem final, 
interlaced, fica livre dos artefatos do tipo combing. A figura abaixo mostra como o sinal 
gerado (interlaced) carrega as imagens gravadas em progressive: 
 
Em algumas câmeras a captura no modo progressive é feita a 15fps: neste caso, em 
1/30 seg. é capturada uma imagem completa (como descrito acima) e nos próximos 1/30 
seg. nenhuma imagem nova é capturada e assim por diante. Na saída, o buffer é 
descarregado 2 vezes repetidas. Este processo foi implementado pela Sony em suas câmeras 
do segmento semi-profissional com função progressive: o vídeo gravado desta maneira, ao 
ser reproduzido, mostra um acentuado efeito strobe para imagens em movimento. Nestas 
câmeras a função progressive é voltada para captura de imagens estáticas (JPEG) a partir do 
vídeo gravado na fita. 
A vantagem do progressive scan sobre o interlaced está na diferença de tempo na 
captura das linhas da imagem: no modo interlace, entre uma linha a a seguinte existe uma 
Ronaldo Morant 
 9 
diferença de 1/60 seg. no momento em que ocorre a captura. No modo progressive, este 
tempo é praticamente desprezível (tempo que apenas uma linha leva para ser lida). 
Isto é percebido em imagens que contenham movimento: aqui está o segundo ganho 
do proscan, além do aumento de resolução vertical acima citado. Quando o vídeo gravado 
na fita é reproduzido (lembrar que na fita o sinal é interlaced) e uma determinada imagem é 
"congelada" na tela do monitor (tecla pause), situação de onde também são extraídos os 
stills para geração de fotos digitais, são mostrados ao mesmo tempo os 2 campos, par e 
ímpar, constantemente repetidos enquanto durar o "congelamento". 
Para imagens estáticas (câmera em um tripé focalizando um quadro na parede por 
exemplo) não há diferença se o modo utilizado na gravação foi interlaced ou progressive 
scan. No entanto, para imagens em movimento (um bonde atravessando a rua por exemplo) 
ocorrerá aumento visível de qualidade na imagem obtida se o modo utilizado na gravação foi 
progressive scan. A figura abaixo ilustra um trecho ampliado de imagem interlaced (direita) e 
progressive (esquerda), permitindo observar o efeito do movimento no contorno do bonde 
em movimento - as linhas foram propositadamente ampliadas na imagem da direita 
(formando faixas) para melhor facilidade de visualização. Este efeito, denominado combing, 
é um dos tipos de scanning artifacts que afeta imagens deste tipo. 
A diferença de tempo no registro dos campos é significativa: enquanto que no modo 
interlace um ponto qualquer da imagem em movimento horizontal que ocupe duas linhas 
adjacentes no CCD é 
captado com uma 
diferença de 1/30 seg. 
entre uma linha e 
outra, no progressive 
essa diferença é da 
ordem de 1/15.000 seg 
(tempo de 1/30 seg. 
para serem lidas as 525 
linhas que compõem o quadro, logo cada linha leva 1/15.750 seg. para ser lida, que é o 
tempo entre a leitura de uma das partes do ponto na linha superior e a leitura da segunda 
parte do ponto na linha inferior). 
Por este motivo, a função progressive scan é bastante útil em câmeras de vídeo que 
possuem opção de gerar imagens estáticas (fotos, geralmente no formato JPEG) a partir do 
conteúdo gravado na fita. 
Em algumas câmeras é possível capturar imagens não-interlaced de qualidade 
razoável sem o uso do modo progressive nem do modo frame mode. Isto ocorre com 
velocidades mais baixas de obturador do que a normal (1/60seg), onde, após a leitura dos 
CCDs (interlaced, com Row-Pair Summation), é utilizado um processo chamado field-
doubling, que duplica (repete) as mesmas linhas de um campo para formar o outro. Com 
este processo, diminui bastante a resolução vertical da imagem, porém este fato é 
geralmente pouco perceptível para imagens captadas à distância que contenham poucos 
detalhes verticais observáveis. 
Em outras câmeras existe o modo progressive, porém utilizado somente na captura 
de fotos (stills), não vídeo: neste caso, ao ser acionada esta função (normalmente através de 
um botão análogo ao disparador de câmera fotográfica) apenas uma leitura do CCD (1 
quadro) é efetuada no modo progressive sendo este quadro gravado na fita (imagem 
Ronaldo Morant 
 10 
congelada) durante alguns segundos, utilizando o processo progressive / NTSC acima 
descrito. Este modo pode ser chamado progressive still. 
O uso da função progressive scan (vídeo, não still) acarreta uma consequência: um 
ligeiro aspecto strobe, percebido em pessoas/objetos em movimento na imagem. Se, por um 
lado, os contornos da pessoa/objeto são mais definidos (a diferença de tempo no registro 
das linhas adjacentes é muito mais baixa, conforme citado acima) por outro lado cada trecho 
da imagem é novamente registrado somente após 1/30 seg. (no modo interlace, pedaços 
alternados - linhas pares/ímpares - da imagem são registrados a cada 1/60 seg. , o que 
confere um melhor aspecto de continuidade e fluidez ao movimento). Esse aspecto strobe 
também é verificado no cinema (daí também ser chamado de film ou cinematic look), onde a 
velocidade utilizada, 1/24 seg. é próxima de 1/30 seg., claramente visível por exemplo em 
panorâmicas efetuadas com a câmera. 
O uso de câmeras de vídeo no formato PAL com captação em progressive scan faz 
com que o estilo das imagens gravadas no vídeo aproxime-se ainda mais do estilo obtido em 
cinema, isto porque neste formato os tempos são 1/50 seg. e 1/25 seg. (ao invés de 1/60 
seg. e 1/30 seg.). Por isso esta opção tem sido utilizada por alguns cineastas. Existem no 
entanto atualmente câmeras de vídeo que fazem opcionalmente a captação a 24 quadros 
por segundo, no modo progressivo (1/24 seg. para cada quadro completo). São as câmeras 
digitais voltadas para cinema. 
Estas câmeras geram diferentes tipos de sinais. No segmento semi-profissional, 
câmeras desenvolvidas pela Panasonic com esta função efetuam a transferência do sinal 
captado nos CCDs para uma fita Mini-DV (o que acarreta compressão do sinal na fase de 
digitalização), no formato NTSC interlaced, utilizando o mesmo processo usado em telecine 
(transfer film to tape), onde 24 quadros/seg são transformados em 30 quadros/seg. com a 
repetição de determinados quadros em intervalos pré-estabelecidos. Na fasede edição, os 
quadros completos gravados pela câmera em progressive (agora transformados em 
interlaced na fita) podem ser recuperados (descartando-se os quadros repetidos inseridos) e 
opcionalmente transferidos para película cinematográfica (blow-up). 
No segmento profissional, câmeras também topo de linha gravam os sinais 
digitalizados a partir dos CCDs, sem compressão, diretamente em HDs de servidores de alta 
capacidade ou em fitas no formato D6 (portanto estas câmeras não são do tipo camcorder) 
para posterior 
transferência para 
película 
cinematográfica. Ao 
contrário do 
processo em Mini-
DV, aqui a 
qualidade é 
equiparável à da 
película 
cinematográfica. 
Câmeras deste tipo 
geram sinal sem 
compressão (4:4:4) 
e sem qualquer tipo 
de filtragem, Progressive Scan Interlaced Image Frame Movie 
Ronaldo Morant 
 11 
correção de gama, matiz, etc..., exatamente como ocorre em uma câmera cinematográfica 
de 35 mm. Neste caso, o diretor de fotografia preocupa-se só com os enquadramentos: os 
demais ajustes são efetuados na pós-produção. 
Existe um modo de captação de imagens intermediário entre o interlaced e o 
progressive: Frame Movie mode. 
 
Frame Movie Mode 
Este processo, desenvolvido pela Panasonic e posteriormente utilizado também pela 
Canon, intermediário entre o interlace e o progressive scan , é às vezes chamado pseudo- 
progressive e utiliza a leitura padrão no modo interlaced do CCD e um 'truque' posterior 
para imitar o modo progressive, denominado vertical pixel shift. Câmeras com esta função 
conseguem gravar um sinal interlaced sem porém apresentar os problemas decorrentes da 
diferença no tempo de captura entre um campo e outro. A qualidade da imagem final é 
intermediária entre a do processo tradicional interlaced e a do processo progressive. Do 
mesmo modo que a função progressive scan, a função Frame Movie também é útil na 
geração de imagens estáticas (fotos, geralmente no formato JPEG) a partir do conteúdo 
gravado na fita. 
 
I.R.E. (Institute of Radio Engineers) 
É a unidade utilizada para medir o brilho da imagem na tela. A escuridão total recebe 
o valor 0 IRE e o branco total, 100 IRE. Um sinal ideal de vídeo não deve nunca ter 
intensidade de brilho inferior a 7,5 IRE e nunca superior a 100 IRE - fora destes limites, 
haverá distorção na reprodução da imagem no monitor. A faixa ideal de um sinal de vídeo 
compreende entre 60 e 80 I.R.E. 
 
Monitor de Forma de Onda (Waveform Monitor) 
É utilizando como fonte geralmente uma imagem do tipo color bars permite 
identificar e corrigir problemas referentes 
ao brilho, cores e estabilidade da mesma. 
Analisa a variação de voltagem no sinal de 
vídeo (1V de um extremo a outro) 
exibindo-a graficamente. Aparelhos deste 
tipo geralmente são capazes de exibir 
diversos tipos diferentes de gráficos, 
propiciando a visualização e análise de 
vários aspectos do sinal. 
No exemplo acima, um monitor de 
forma de onda exibe o sinal gerado pela 
imagem color bars. O tipo de gráfico selecionado exibe metade das linhas do sinal à 
esquerda e metade à direita (desenho repetido). No eixo vertical, a intensidade do sinal é 
medida em unidades I.R.E.. O pico máximo do branco (o gráfico mostra um sinal 
corretamente ajustado) situa-se em 100 I.R.E.. A menor intensidade do sinal (cor preta) é 
ajustada em 7,5 I.R.E.. O eixo horizontal mostra informações de timing do sinal. As faixas 
cinza claro verticais (7 em cada lado) representam a intensidade total do sinal ao longo do 
eixo horizontal da imagem do color bars. 
Diversos usos são possíveis com o aparelho: setup e sincronização de equipamentos 
em estúdio, ajustes e verificação de problemas, etc. 
Ronaldo Morant 
 12 
O ajuste pode ser efetuado diretamente no equipamento a ser calibrado - 
conectando-se sua saída ao monitor de forma de onda - ou ser utilizada a comparação - 
comparar o sinal gerado pela fonte com o obtido após a gravação / reprodução em 
determinado equipamento. Nesta comparação, também pode ser observado que quanto 
melhor o formato de vídeo, mais os dois resultados se aproximarão. Alguns problemas 
apontados na análise podem ser corrigidos pelo TBC. 
 
 
 
 
 
 
 
 
 
 
 
 
Vetorscópio (vetorscope) 
Ë utilizando como fonte uma imagem do tipo 
color bars permite identificar e corrigir problemas 
com a mesma, relacionados a cores. Cada cor 
presente na imagem do color bars (amarelo, ciano, 
verde, magenta, vermelho e azul) é mostrada através 
de um ponto luminoso distribuído ao longo de uma 
circunferência, como o apontado por 'A' na figura 
abaixo. Quando as cores da imagem do vídeo estão 
corretamente ajustadas, estes pontos devem-se 
situar dentro dos quadrados distribuídos ao longo da 
circunferência. Na figura abaixo, 'B' mostra um destes quadrados, com seus cantos 
delimitados. 
Quanto maior a intensidade de determinado componente de cor, mais distante do 
centro da imagem estará o ponto luminoso, até atingir o ponto correto, dentro da área do 
quadrado correspondente. A variação na forma do desenho permite medir e calibrar a 
reprodução de cores e efetuar diversas aferições e testes sobre o sinal de vídeo, assim como 
efetuar comparações (o sinal obtido diretamente da fonte e o obtido após ter sido gravado / 
Ronaldo Morant 
 13 
reproduzido por determinado equipamento). Nesta comparação, também pode ser 
observado que quanto melhor o formato de vídeo, mais os dois resultados se aproximarão. 
Alguns problemas apontados na análise podem ser corrigidos pelo TBC e pelo 
corretor de cores. 
 
TBC (Time Base Corrector) 
Este equipamento restaura os pulsos de 
sincronismo da imagem eventualmente danificados, 
permitindo também ajustar o brilho da imagem 
(aumentar ou diminuir). Alguns TBCs possuem 
corretor de cores embutido. 
Menos preciso, o Image Enhancer é outro 
equipamento que também permite restaurar o 
sincronismo e melhorar a qualidade da imagem. 
 
Histograma 
Histograma é um gráfico que representa a 
distribuição dos tons claros e escuros da imagem, ajudando 
o fotógrafo a avaliar se as mesmas estão sub-expostas 
(claras), super-expostas (escuras) ou adequadamente 
expostas. 
Em vídeo produção pode ser utilizado para sinalizar 
diversas informações, mas seu uso mais comum é na 
indicação da distribuição geral 
de luminosidade em uma imagem digital. 
Quanto mais distribuída for a 
luminosidade na imagem, mais rica em 
tons e meio-tons ela será. Cabe então ao 
fotógrafo ou cinegrafista interpretar esse 
gráfico e avaliar se está em acordo com o 
que ele quer obter da imagem, efetuando 
se for o caso, ajustes diversos que se 
reflitam na exposição, como no controle 
de íris ou obturador 
 
 
 
Formato RAW 
É o estado "bruto“ de uma imagem digital, sem compressão (ele ocupa grande 
volume de dados ao ser armazenado). Este tipo de imagem não sofre nenhuma alteração 
após ter sido captado pelos sensores da câmera. Pode ser aplicado tanto para fotos quanto 
vídeo. É também chamado pelo termo "negativo digital" onde todas as informações 
originalmente captadas estão presentes, mas a verdadeira imagem só surgirá após o 
tratamento digital. 
 
Downscaling 
Processo em que a resolução das imagens de um vídeo é reduzida copiando-se o 
original em um formato de maior resolução para um de menor resolução sem acarretar a 
Ronaldo Morant 
 14 
diminuição da qualidade visual da imagem, (converter de filme para vídeo DVD). O processo 
inverso é denominado Upscaling (converter de VHS para DVD). 
 
SDI (Serial Digital Interface) 
Conexão para áudio e vídeo utilizada no segmento profissional, conectando câmeras 
e VCRs entre si ou com sistemas de edição-não-linear. Também utilizada em alguns modelos 
de switchers de vídeo. Utiliza sinal digital SD sem compressão que trafega através de caboscom conectores BNC. Cabos com este tipo de sinal não sofrem interferências (devido ao sinal 
ser digital). Podem ter confeccionados com grande extensão (100 metros). Cabos SDI podem 
transportar também, juntamente com o áudio e o vídeo, informações de Timecode, o que 
permite sincronizar vários equipamentos conectados. 
 
HD-SDI (High Definition Serial Digital Interface) 
O mesmo que o SDI, mas trabalha com sinal digital de alta definição (HD) sem 
compressão. Existe em duas versões, as mesmas utilizadas pelos formatos HDV HD1 e HD2. 
 
HDMI (High-Definition Multimedia Interface) 
Conexão para áudio e vídeo em alta definição (HD), do tipo digital sem compressão, 
utilizada no segmento consumidor de equipamentos HD, DVD players, dispositivos com 
sinais HDTV e outros. Além de trabalhar com sinais HD, a conexão HDMI também suporta 
conteúdo de áudio e vídeo tradicional (SD), além de diversos padrões de áudio, como 
o SURROUND. Cabos HDMI não sofrem interferências (devido ao seu sinal ser digital) e 
podem ser confeccionados com extensão de até 15m. 
 
Transcodificação 
Processo de conversão do vídeo de um formato e/ou padrão para outro. Ex sistema 
NTSC para SECAM 
 
Telecinagem 
Processo de conversão de filme para video. 
 
 Telecinagem on line - Neste processo as cores podem ser ajustadas, os contrastes 
nivelados, o brilho regulado, como também outros recursos podem ser realizados. 
 
 Telecinagem off line - É a telecinagem para edição, sem qualquer tipo de correção no 
material. 
 
Blow-Up 
Processo de ampliação de película. ex. ampliar material filmado em 16mm para 
35mm. 
 
Transfer 
Processo de conversão de material em video para filme: ex. material gravado em HD 
para película 35mm 
 
Transcrição 
Processo de conversão de um formato de video para outro. ex. converter material 
gravado em Betacam para DVCAM. 
 
 
 
Ronaldo Morant 
 15 
Pull Down (2:3) 
Técnica utilizada por determinadas câmeras de vídeo que fazem a captação da 
imagem com frame rate igual a 24 q/s, no modo progressive scan, para poderem gravar o 
conteúdo em uma fita no padrão interlaced com 30 q/s. 
Exemplo: padrão NTSC). 
 
HDV (High Definition Digital Video) 
Formato digital utilizado nos segmentos consumidor e semi-profissional. Proposto 
pela JVC em 2003, recebeu a adesão da Canon, Sharp e Sony para o estabelecimento de suas 
especificações, com o objetivo de criar um formato HD voltado para esses segmentos. 
 
AVCHD (Advanced Video Codec High Definition) 
Formato digital voltado para o segmento consumidor de HD, podendo competir em 
qualidade de imagem com o formato HDV e suas câmeras do mesmo segmento. 
 
HDCAM 
Formato HD digital profissional criado pela Sony em 1997, como versão do 
formato Digital Betacam voltada para uso em HDTV e aplicações de alta definição (utiliza 
sinal gravado em fita de 1/2 pol (+/- 13mm) com bit rate de 140 Mbps e sampling de 3:1:1), 
como a linha de produtos CineAlta da Sony para cinema digital. 
 
 
A TELEVISÃO EM HIGHT DEFINITION 
 
A TV Digital 
 Atualmente existem diferentes modelos, sistemas e padrões de TV Digital no mundo. 
No Brasil, a definição final do padrão adotado dependeu da harmonização de um modelo e 
de diferentes sistemas (tecnologias de software e hardware). 
 
A TV digital para o Brasil 
Impactos sociais, culturais, políticos, econômicos e tecnológicos é importante 
diferenciar alguns pontos: 
 
 O modelo de televisão digital incorpora a visão de longo prazo e o conjunto de 
políticas públicas. O modelo deve articular todas as iniciativas, atividades e ações 
relacionadas à questão. O modelo define as condições de contorno para o 
estabelecimento do sistema e respectiva definição do padrão. 
 O sistema de televisão digital é o conjunto de toda a infraestrutura e atores 
(concessionárias, redes, produtoras, empresas de serviços, ONGs, indústrias de 
conteúdo e de eletroeletrônicos). 
 O padrão de televisão digital é o conjunto de definições e especificações técnicas 
necessárias para a correta implementação e implantação do sistema a partir do 
modelo definido. 
tualmente existem diferentes modelos, sistemas e padrões de TV Digital no mundo. 
No Brasil, a definição final do padrão adotado dependeu da harmonização de um modelo 
(arcabouço legal e institucional) e de diferentes sistemas (tecnologias de software e 
hardware). A legislação brasileira foi bastante flexível com relação a portabilidade da 
televisão digital no Brasil, permitindo a sua utilização nos mais variados dispositivos. 
Ronaldo Morant 
 16 
O Padrão ISDB-TB 
O padrão de televisão digital adotado no Brasil é o ISDB-TB, uma adaptação do ISDB-
T (Integrated Services Digital Broadcasting Terrestrial), padrão japonês acrescida de 
tecnologias desenvolvidas nas pesquisas das universidades brasileiras. 
O padrão japonês foi escolhido, conforme dito anteriormente, por atender melhor as 
necessidades de energia nos receptores, mobilidade e portabilidade sem custo para o 
consumidor, diferente do padrão europeu (DVB-T), onde esta operação é tarifada pelas 
empresas telefônicas. A principal diferença constatada inicialmente após a decisão de se 
adotar o padrão japonês para ser utilizado na televisão digital brasileira, em junho de 2006, 
foi a substituição do formato de compressão MPEG-2 para o MPEG-4. 
O formato ISDB-TB também permite, além da transmissão em alta definição, a 
transmissão em multiprogramação, onde é possível transmitir, no lugar de um único 
programa em alta definição, oito programas diferentes simultaneamente em definição 
padrão (720 × 480 pixels, a mesma do DVD). Para comparar, a televisão analógica, por ter 
perdas na transmissão pelo ar, chega a no máximo 333 × 480. Com o codec H.264 do 
formato MPEG-4, será possível transmitir até 2 canais HD (1080i), 4 Canais HD (720p) e/ou 
8 SD (480p) pela mesma transmissora. 
 
 
UHD (Ultra High Definition) - formato de vídeo com 
resolução de 7680 x 4320 pixels (7K), ou cerca de 33 
millhões de pixels (33 Mp). Possui 16 vezes mais pixels, 
4 vezes a largura e 4 vezes a altura das imagens da 
HDTV atual, que tem resolução de, no máximo, 1920 × 
1080 pixels. 
 
 
Digitais de Alta Definição HD (1080i) no Mundo: 
 
ATSC (EUA, Canadá, México = Advanced Television Systems Committee) 
 
DVB-T (Europa, África, Oceania = Digital Video Broadcasting - Terrestrial) 
 
ISDB-T (Japão = Integrated Services Digital Broadcasting - Terrestrial) 
 
ISDB-TB (Brasil = Integrated Services Digital Broadcasting - Terrestrial Built-in) 
 
DTMB (China, Hong Kong, Macau = Digital Terrestrial Multimedia Broadcast) 
 
 
 
 
 
 
 
 
 
 
 
 
 
PADRÃO RESOLUÇÃO 
SD 720 X 480 
HDV 1280 X 720 
HD 1440 X 1080 
FULL HD 1920 X 1080 
UHD 7680 X 4320 
Ronaldo Morant 
 17 
TV Digital: O projeto 
 Na TV Digital a transmissão do áudio e do vídeo passa a ser feita através de sinais digitais. 
 É possível desta forma transmitir som e imagem de melhor qualidade. A resolução da 
imagem na TV analógica que é de 720 x 480 pixels, na TV digital passa a ser de 1920 linhas 
x 1080 pixels. 
 Mais canais (até 4) na mesma faixa de frequência utilizada por um canal analógico. 
 Permitir interatividade entre o telespectador e a emissora possibilitando acesso à 
informações adicionais como por exemplo o menu de programação. 
 Interação do usuário com a emissora, através de um canal de retorno, via linha telefônica 
por exemplo, possibilitando a este votar ou fazer compras. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
HDTV 
TV Digital: O que muda? 
 Som e imagem de melhor qualidade 
 Resolução de 1920 x 1080 pixels. 
 Áudio 5.1 
 O acesso à informações adicionais como por exemplo o menu de programação. 
 A interação do usuário com a emissora, através de um canal de retornovia linha 
telefônica por exemplo, possibilitando a este votar ou fazer compras. 
 Mobilidade - É a transmissão digital para televisores portáteis, como por exemplo os 
utilizados em veículos. 
 Portabilidade – É a transmissão digital para dispositivos pessoais, como smartphones e 
tablets. 
 Interatividade - Com o controle remoto, por exemplo, os usuários poderão votar, 
responder a testes, acessar mais informações sobre os programas e, até comprar 
produtos anunciados na televisão. Tudo será feito por meio de um sistema desenvolvido 
no Brasil, o 
 
GINGA 
Multiprogramação - É a possibilidade de as emissoras transmitirem mais de um 
programa simultaneamente - ou até mesmo ângulos de câmera diferentes em um jogo de 
futebol. 
Ronaldo Morant 
 18 
HDTV 
O padrão SBTVD foi desenvolvido por um grupo de estudo coordenado pelo Ministério das 
Comunicações brasileiro, liderado pela ANATEL com suporte técnico do CPqD (Centro de 
Pesquisas e Desenvolvimento em Telecomunicações), e composto por membros de outros 
10 ministérios, pelo Instituto Nacional de Tecnologia da Informação, universidades e 
institutos de pesquisa brasileiros, associações e organizações de profissionais de 
radiodifusão e fabricantes de produtos eletroeletrônicos. O SBTVD tem suas raízes no 
padrão japonês ISDB-T e as características de transmissão, foram originadas no ISDB-T. A 
diferença entre eles se deve, principalmente, pelo emprego da compressão de vídeo MPEG-
4 AVC, exibição da imagem para dispositivos portáteis em 30 quadros por segundo (no ISDB-
T são 15 quadros por segundo) e suporte à interatividade usando o "middleware" chamado 
"Ginga“. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Ronaldo Morant 
 19 
COMPRESSÃO DE VÍDEO 
Por que comprimir o vídeo? 
Um segundo de vídeo possui 30 frames x 720 x 486 pontos x 3 bytes de cor, ou seja, 
aproximadamente 32Mb para cada segundo. Não há como armazenar em disco tamanha 
quantidade de informações: 
Ex.: 
 Sem compressão: 12Gb para 30 minutos de vídeo. 
 
 Com compressão: 13Gb para 1 hora de vídeo. 
 
4:4:4 
É a compressão na resolução do vídeo nos canais de canais de Luminância e Cores. É 
usada na captação de câmeras, transmissão de vídeo, no processamento interno dos 
programas e em algumas compressões. 
 
 
 
 
 
 
 
 
 
 
 
 
As tecnologias de compressão de vídeo servem para reduzir e eliminar dados 
redundantes de vídeo para que um arquivo de vídeo digital possa ser enviado de maneira 
eficaz através de uma rede e armazenado em discos de computador. Com técnicas eficientes 
de compressão, é possível conseguir uma redução considerável no tamanho dos arquivos, 
com pouco ou nenhum efeito negativo sobre a qualidade visual. A qualidade de vídeo, 
entretanto, pode ser afetada se o tamanho do arquivo for reduzido ainda mais através do 
aumento do nível de compressão de uma determinada técnica. 
Formatos com pouca amostragem de cor, como os do sinal DV, apresentam maior 
dificuldade para cromakey do que os com melhor amostragem, como por exemplo o Digital 
Betacam. No desenho abaixo, 
a linha central corresponde à 
imagem original. A linha de 
cima, corresponde à imagem 
obtida por um formato de 
vídeo com amostragem 4:1:1 
e a linha de baixo, a um 
formato de vídeo com 
amostragem 4:2:2: 
Diferentes tecnologias 
de compressão, tanto 
reservadas como padrão de 
mercado, estão à disposição. 
- O primeiro número seria: Y (Luminância + canal verde) 
- O segundo número seria: U (canal vermelho) 
- O terceiro seria: V (canal azul) 
 V (canal azul) Y (Luminância + canal verde) 
 
U (canal vermelho) 
 
4 : 4 : 4 
 
 
 
 
 
 
 
 
IMAGEM 
ORIGINAL 
4:4:4 
Ronaldo Morant 
 20 
Hoje em dia, a maioria dos fornecedores de vídeo em rede utiliza técnicas padronizadas de 
compressão. Os padrões são importantes para garantir a compatibilidade e a 
interoperabilidade. Eles são especialmente relevantes para a compressão de vídeo, pois o 
vídeo pode ser usado para finalidades diferentes e, em algumas aplicações de vigilância por 
vídeo, precisa poder ser visto muitos anos depois da data de gravação. Implementando 
padrões, os usuários finais podem selecionar entre diferentes fornecedores, em vez de 
ficarem presos a um único fornecedor ao projetar um sistema de vigilância por vídeo. 
 
Taxas de Compressão 
Cada retângulo azul corresponde a um pixel, em uma dada linha do vídeo Digital. Os 
pequenos círculos brancos representam a amostragem de luminosidade e verde, efetuada 
para todos os pixels. Os pequenos círculos vermelhos e azuis representam os sinais U / V, ou 
seja, a amostragem (sampling) de cor. 
 
 
 
 
 
 
 
 
 
 
 
 
 
A Axis utiliza três padrões diferentes de compressão de vídeo. São eles Motion JPEG, 
MPEG-4 Part 2 (ou simplesmente MPEG-4) e H.264. O H.264 é o padrão mais recente e mais 
eficiente de compressão de vídeo. Este capítulo aborda os fundamentos da compressão e 
descreve cada um dos três padrões já mencionados. 
 
Codec de vídeo 
O processo de compressão envolver a aplicação de um algoritmo ao vídeo de origem 
para criar um arquivo compactado pronto para transmissão ou armazenamento. Para 
reproduzir o arquivo compactado, um algoritmo inverso é aplicado para produzir um vídeo 
que apresenta praticamente o mesmo conteúdo do vídeo original. O tempo necessário para 
compactar, enviar, descompactar e exibir um arquivo é denominado latência. Quanto mais 
avançado o algoritmo de compressão, maior será a latência. 
O par de algoritmos que funcionam juntos é chamado codec 
(codificador/decodificador) de vídeo. Codecs de vídeo de diferentes padrões normalmente 
não são compatíveis entre si, ou seja, o conteúdo de vídeo compactado em um padrão não 
pode ser descompactado em um padrão diferente. Por exemplo, um decodificador MPEG-4 
não funciona com um codificador H.264. Isso ocorre simplesmente porque um algoritmo não 
pode decodificar corretamente a saída gerada por outro algoritmo, mas é possível 
imple¬mentar muitos algoritmos diferentes no mesmo software ou hardware, permitindo a 
coexistência de vários formatos. 
 
Ronaldo Morant 
 21 
Compressão de imagem x compressão de vídeo 
Padrões de compressão utiliza a tecnologia de codificação intra-quadro. Os dados são 
reduzidos dentro de um quadro de imagem pela simples retirada de informações 
desnecessárias que não são perceptíveis ao olho humano. O Motion JPEG é um exemplo 
desse padrão de compressão. As imagens em uma seqüência Motion JPEG são codificadas 
ou compactadas como imagens JPEG individuais. 
Algoritmos de compressão de vídeo como o MPEG-4 e o H.264 usam a previsão entre 
quadros (interframe prediction) para reduzir os dados de vídeo entre uma série de quadros. 
Isso envolve técnicas tais como codificação de diferenças, onde um quadro é comparado 
com um quadro de referência, e apenas os pixels que se modificaram em relação ao quadro 
de referência são codificados. Dessa forma, reduz-se o número codificado e enviado de 
valores de pixels. Quando essa seqüência codificada é exibida, as imagens aparecem 
exatamente como na seqüência de vídeo original. 
 
Outras técnicas tais como compensação de movimento por blocos podem ser 
aplicadas para reduzir ainda mais os dados. A compensação de movimento por blocos leva 
em conta que grande parte do que compõe um novo quadro de uma seqüência de vídeo 
pode ser encontrada em um quadro anterior, mas talvez em um lugar diferente. Essa técnica 
divide um quadro em uma série de macroblocos (blocos de pixels). Bloco a bloco, um novo 
quadro pode ser composto ou “previsto” procurando-se um bloco idêntico em um quadro 
de referência. Se for encontrada uma coincidência, o codificador codifica a posição onde o 
bloco idêntico deve ser encontrado no quadrode referência. Codificar o vetor de 
movimento, como ele é chamado, consome menos bits do que se o conteúdo real de um 
bloco fosse codificado. 
 
FORMATOS DE COMPACTAÇÃO 
 
Motion JPEG 
O Motion JPEG ou M-JPEG é uma seqüência de vídeo digital que consiste em uma 
série de imagens JPEG individuais. (JPEG significa Joint Photographic Experts Group [Grupo 
Conjunto de Especialistas em Fotografia].) Quando são exibidos 16 ou mais quadros de 
Com o formato Motion JPEG, as três imagens na seqüência acima são codificadas e enviadas como imagens 
separadas (quadros I) independentes entre si. 
 
TRANSMITIDO NÃO TRANSMITIDO NÃO TRANSMITIDO 
TRANSMITIDO TRANSMITIDO TRANSMITIDO 
Ronaldo Morant 
 22 
imagem por segundo, o visualizador perceberá o vídeo em movimento. O vídeo em 
movimento completo é ser percebido a 30 (NTSC) ou 25 (PAL) quadros por segundo. 
Uma das vantagens do Motion JPEG é que cada imagem de uma seqüência de vídeo 
pode ter a mesma qualidade garantida determinada pelo nível de compactação escolhido 
para a câmera de rede ou o codificador de vídeo. Quanto maior o nível de compactação, 
menor será o tamanho do arquivo e a qualidade da imagem. Em algumas situações, como 
em ambientes com baixa luminosidade ou quando uma cena se torna complexa, o tamanho 
do arquivo de imagem pode ficar bastante grande e consumir mais largura de banda e 
espaço de armazenamento. Para evitar o aumento do consumo da largura de banda e do 
espaço de armazenamento, os produtos de vídeo em rede da Axis permitem que o usuário 
estabeleça um tamanho máximo de arquivo para um quadro de imagem. 
Como não há nenhuma dependência entre os quadros do Motion JPEG, um vídeo em 
Motion JPEG é robusto, ou seja, se um quadro for perdido durante a transmissão, o restante 
do vídeo não será afetado. 
O Motion JPEG é um padrão não-licenciado. Ele é amplamente compatível e muito 
usado em aplicações que exigem quadros individuais em uma seqüência de vídeo — por 
exemplo, par análise — e quando forem usadas baixas velocidades de captura, normalmente 
5 quadros por segundo ou menos. O Motion JPEG também pode ser necessário em 
aplicações que exigem integração com sistemas que operam apenas com esse padrão. 
A principal desvantagem do Motion JPEG é que ele não usa nenhuma técnica de 
compactação de vídeo par reduzir os dados, pois se trata de uma série de imagens estáticas 
completas. O resultado é que esse padrão apresenta uma velocidade de transmissão 
relativamente alta ou uma baixa proporção de compactação para a qualidade gerada, em 
comparação com os padrões de compressão de vídeo como o MPEG-4 e o H.264. 
 
MPEG-4 
Quando mencionamos o MPEG-4 em aplicações de vigilância por vídeo, normalmente 
nos referimos ao MPEG-4 Part 2, também conhecido como MPEG-4 Visual. Como todos os 
padrões MPEG (Moving Picture Experts Group, Grupo de Especialistas em Imagens em 
Movimento), ele é um padrão licenciado, exigindo que os usuários paguem uma taxa de 
licença por estação de monitoramento. O MPEG-4 opera com aplicações de baixa largura de 
banda e aplicações que exigem imagens de alta qualidade, velocidade de captura ilimitada e 
largura de banda praticamente ilimitada. 
 
H.264 ou MPEG-4 Part 10/AVC 
O H.264, também conhecido como MPEG-4 Part 10/AVC (Advanced Video Coding, ou 
Codificação Avançada de Vídeo), é o padrão MPEG mais recente para codificação de vídeo. 
Espera-se que o H.264 se torne o padrão de vídeo preferencial nos próximos anos. Isso 
ocorre porque um codificador H.264 pode, sem comprometer a qualidade de imagem, 
reduzir o tamanho de um arquivo de vídeo digital em mais de 80%, comparado com o 
formato Motion JPEG, e até 50% mais do que o padrão MPEG-4. Isso significa que serão 
necessários muito menos largura de banda de rede e espaço de armazenamento para um 
arquivo de vídeo. Em outras palavras, é possível obter uma qualidade de vídeo muito mais 
alta em uma determinada velocidade de transmissão. 
O H.264 foi definido em conjunto por organizações de normas dos setores de 
telecomunicações (Grupo de Especialistas em Codificação de Vídeo da ITU-T) e TI (Grupo de 
Especialistas em Imagens em Movimento do ISO/IEC), e espera-se que ele seja adotado mais 
Ronaldo Morant 
 23 
amplamente que os padrões anteriores. No setor de vigilância por vídeo, é muito provável 
que o H.264 encontre a adesão mais rápida em aplicações que exijam altas velocidades de 
captura e uma alta resolução, como na vigilância de rodovias, aeroportos e cassinos, onde o 
uso de 30/25 (NTSC/PAL) quadros por segundo é a norma. Isso ocorre quando a economia 
da redução da largura de banda e quando as necessidades de espaço de armazenamento 
geram a maior economia. 
Também se espera que o H.264 acelere a adoção de câmeras megapixel, pois a 
tecnologia de compactação altamente eficiente pode reduzir o tamanho dos arquivos e as 
velocidades de transmissão geradas, sem comprometer a qualidade das imagens. 
Entretanto, existem prós e contras. Embora o padrão H.264 proporcione economia de 
largura de banda de rede e custos de armazenamento, ele exige câmeras de rede e estações 
de monitoramento mais velozes. 
Os codificadores H.264 da Axis usam o perfil básico, ou seja, são usados apenas os 
quadros I e P. Esse perfil é ideal para câmeras de rede e codificadores de vídeo, pois a baixa 
latência se deve ao fato de que não são usados quadros B. A baixa latência é essencial em 
aplicações de vigilância por vídeo quando ocorre monitoramento ao vivo, especialmente 
quando forem usadas câmeras PTZ ou câmeras PTZ com cúpula. 
 
GOP (Group of Pictures) 
 Técnica de agrupamento de imagens 
empregada na compressão do tipo multi-frame, 
como no formato MPEG2. Os quadros que 
compõem a imagem de vídeo são trabalhados 
em conjuntos, dentro dos quais ocorre o 
processo de compressão. 
 O primeiro quadro dentro de cada 
conjunto chama-se "I-frame" (abreviação 
de intra-frame) e é comprimido isoladamente, 
utilizando não o modo multi-frame e sim 
o intra-frame - daí seu nome. A partir deste quadro inicial, dois tipos de quadros são 
gerados: os quadros "B" e os quadros "P". Quadros "P" ("P-frame", de predicted-frame) são 
quadros que carregam as diferenças entre o primeiro quadro ("I-frame") do conjunto e os 
demais. 
Assim, o conjunto de quadros que compõem a cena de um avião cruzando o céu azul 
é 
 
 
 
 
 
 
 
 
 
 
 
 
Ronaldo Morant 
 24 
dividida em diversos sub-conjuntos. Para cada um desses subconjuntos, o primeiro 
quadro é comprimido no modo intra-frame e a seguir armazenado: é o "I-frame". A seguir, 
os quadros subsequentes ("P-frames") irão armazenar somente as diferenças em relação ao 
"I-frame", ou seja, as diferentes posições ocupadas pelos pixels correspondentes à imagem 
do avião em relação à suas posições no "I-frame". 
 
Chroma Key 
É um efeito especial onde um sinal de vídeo e inserido no lugar de determinada cor 
de outro sinal de vídeo. O azul e o verde são as cores mais frequentemente usadas. A 
Inserção de imagens em áreas com essas cores, permitem qualquer tipo de fundos, obtendo-
se um efeito similar ao da retro-projeção. O azul e o verde são escolhidos por serem as 
cores que menos participam da composição cromática da pele humana. 
 
 
 
 
 
 
 
 
O SINAL DA TV AO VIVO 
 
O sinal da televisão é 
transmitido por ondas 
eletromagnéticas através de cabos 
coaxiais (via terrestre) ou por 
enlaces de microondas. De uma 
forma ou de outra, as emissoras se 
interligam aos Centros de TVs da 
Embratel, que no Brasil é a 
responsável pelo tráfego de sinais 
de telecomunicações. Toda grande 
cidade possui um CTV. 
 
Microonda em Visibilidade 
Um dos meios usados é a microonda em visibilidade. As antenas retransmissoras ficam 
instaladas em pontos elevados a uma distância de 50 quilômetros em média. Elas recebem e 
retransmitem o sinalaté as estações terminais localizadas nas cidades. 
 
 
 
 
 
 
 
 
 
+ = 
Ronaldo Morant 
 25 
Sinal Via Satélite 
O satélite de comunicação permite o acesso múltiplo, ou seja, várias estações 
terrestres podem manter comunicação simultânea com o satélite, transmitindo ou 
recebendo informações. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
As ondas eletromagnéticas do sinal da 
televisão trafegam também pelos satélites. A 
geração nacional de uma emissora, por 
exemplo, usa o canal permanente de um 
satélite durante 24 horas por dia. 
O satélite de comunicação permite o 
acesso múltiplo, ou seja, várias estações 
terrestres podem manter comunicação 
simultânea com o satélite, transmitindo ou 
recebendo informações. 
O sistema nacional de telecomunicações 
foi bastante simplificado para facilitar a compreensão. Na verdade, as operações são 
extremamente técnicas e complexas, envolvendo satélites e várias estações da Embratel. No 
Brasil, o sinal da emissora geradora (1) é enviado a uma estação da Embratel (2) que 
transmite o sinal ao satélite (3), de onde ele é retransmitido a vários pontos de recepção ou 
regiões do país. 
 
A 
emissão/recepção 
de sinal pode ser 
feita em VHF (very 
high trequency), 
limitada no Brasil 
aos canais de 2 a 13, 
e em UHF (ultra high 
frequency), que 
dispõe dos canais de 
14 a 59. A diferença 
entre VHF e UHF 
Frequências de operação: 
Os satélites de comunicação usam as 
faixas: 
• Banda C (4 a 8GHz) é a mais 
utilizada nas transmissões 
telefônicas interurbanas e 
internacionais, bem como na 
transmissão de TV; 
• Banda X (12,5 a 18GHz) é de 
uso militar; 
• Banda Ku (12,5 a 18GHz) e 
Ka (18 a 40 GHz) permite a 
TV por assinatura via satélite. 
 
Ronaldo Morant 
 26 
está na forma de propagação das ondas eletromagnéticas. No VHF a freqüência é mais baixa 
e as ondas têm alcance menor. No UHF, a freqüência é mais alta e o raio de ação, melhor. As 
antenas retransmissoras espalhadas pelo país amplificam o sinal recebido de forma a manter 
a qualidade da imagem. 
Até há pouco tempo usado para melhorar a recepção dos sinais no interior, os canais 
UHF agora estão sendo utilizados na implantação de TVs por assinatura. Para que o 
telespectador receba em casa a programação da TVA, precisa, além de fazer uma assinatura, 
ter um aparelho que decodifique o sinal. 
 
Transmissão por Microondas 
Em uma operação ao vivo, exige 
veículos com antenas de microondas 
(Unidade Móvel) geradoras e receptoras 
de ondas eletromagnéticas, que no caso 
do Rio de Janeiro - havendo “VISUAL” - o 
sinal é transmitido da U.M. para a antena 
da emissora no Sumaré, e de lá é 
retransmitido para a antena na emissora, 
como na figura 1. 
Mas a topografia do lugar deve 
ser adequada para que o enlace (link) seja feito. Se a região tiver muitos obstáculos, como 
montanhas e edifícios - caso típico do Rio de Janeiro - é preciso “Rebater” o sinal para 
antenas de microondas distribuídas em pontos estratégicos da cidade como na figura 2. 
 
 
 
 
 
 
 
 
 
 
 
Up Link 
 Outro sistema para 
transmissão de sinal ao vivo via 
satélite, é o usado por antenas de 
microondas portáteis (mini-
parabólicas) chamadas de “Up-
Link” (mesmo nome do sinal que 
sobe para o satélite), que 
transmite em banda larga, 
podendo enviar o sinal de video de 
qualquer lugar do planeta. 
 
 
 
Sumaré 
TV 
TV 
Fig. 1 
U.M. ou Geradora 
TV 
U.M. ou Geradora 
Fig. 2 
Ronaldo Morant 
 27 
LiveU 
Sistema desenvolvido pela empresa LiveU que proporciona tecnologia para emissoras 
de televisão permitindo links de vídeo ao vivo através de redes celulares sem fio. O LiveU 
oferece uma gama de dispositivos para cobertura de vídeo ao vivo, incluindo mochilas, 
software e aplicativos móveis. As soluções da LiveU incluem múltiplos links celulares 4G LTE/ 
3G, HSPA+, WiMAX e Wi-Fi, otimizados para a máxima qualidade de vídeo com base nas 
condições de rede disponíveis. 
 
CUIDADOS COM AS FITAS 
Cabeça de gravação (cabeçote) Suja: 
 
 
 
 
 
 
 
 
Cabeça fechada: Drop Frame: 
 
 
 
 
 
 
 
 
DICA: Uma maneira eficiente de se limpar o cabeçote do gravador numa emergência é 
utilizar uma fita “virgem” e ficar rebobinando várias vezes em modo “search” 
(forward/rewind). Se o cabeçote fechar, o tempo desse processo terá que ser triplicado ou 
mais. 
 
Fitas Amassadas (analógicas): 
 
 
 
 
 
 
 
Digital Digital Analógica 
Fita Amassada 
Fita Amassada no Ponto. Fita Amassada na Borda. 
Digital Analógica Drop Frame 
Ronaldo Morant 
 28 
ÁUDIO DIGITAL 
 
Audição Humana 
A audição ocorre através de processos físicos no ouvido e no sistema nervoso que se 
combinam para nos dar as sensações sonoras. 
A sensação que temos não é exatamente a mesma que corresponde à forma de onda 
presente no canal auditivo porque alguma entropia é perdida. 
A faixa de frequências de ressonância da membrana basilar determina a faixa auditiva 
humana, normalmente indo de 20 Hz a 15 Hz. Essa faixa muda conforme a idade e de pessoa 
para pessoa. 
Frequências diferentes na entrada fazem com que diferentes áreas da membrana 
vibrem. 
Cada área tem terminações nervosas diferentes para permitir a determinação da 
nota correspondente. 
A membrana basilar também possui músculos delicados controlados pelos nervos 
que, agindo em conjunto, funcionam como um sistema de feedback positivo capaz de 
aumentar o fator Q na ressonância. 
Esse limiar ressonante da membrana basilar é exatamente igual ao limiar de um 
analisador de transformada. 
De acordo com a teoria da incerteza das transformadas, mais preciso é o domínio de 
frequências de um sinal, menos precisamente o domínio dos tempos é conhecido. 
Consequentemente, quanto maior for a capacidade de uma transformada de discriminar 
duas frequências, menos ela será capaz de discriminar o tempo entre dois eventos. 
O ouvido humano tem um certo compromisso que equilibra a discriminação pela 
incerteza no tempo com a discriminação pela incerteza da frequência. 
Nesse equilíbrio nenhuma das duas capacidades é perfeita. 
O resultado de uma discriminação imperfeita de frequência é a incapacidade que 
temos de separar frequências que estejam muito próximas. 
Essa inabilidade é conhecida como mascaramento auditivo e é definida como a sensibilidade 
reduzida a um som em presença de outro. 
 
Psicoacústica 
A psicoacústica é essencialmente o estudo da percepção do som. Isso inclui como 
ouvimos, nossas respostas psicológicas e o impacto fisiológico da música e do som no 
sistema nervoso humano. No âmbito da psicoacústica, os termos música, som, frequência e 
vibração são intercambiáveis. O estudo da psicoacústica disseca a experiência auditiva. 
 
A compressão do áudio 
A compressão de áudio consiste em eliminar informações redundantes (utilizando-se 
os resultados obtidos pela psicoacústica), gerando arquivos de áudio menores. Numa 
música, um longo período com amostras de som com o mesmo valor, poderia ser substituído 
por um pequeno código dizendo que a mesma frequência deve ser repetida X vezes por 
exemplo. Podemos também eliminar informações que exercem pouca influência sobre a 
qualidade do som, eliminando pequenas variações. 
Até certo ponto, é possível compactar o som sem nenhuma perda de qualidade 
(substituindo sequências de sons iguais por códigos que dizem que o som deve ser repetido, 
por exemplo). Mas chega uma hora que é preciso abrir mão de um pouco da qualidade, para 
Ronaldo Morant 
 29 
gerar arquivos menores, assim como sacrificamos um pouco da qualidade de uma imagem 
gravada em BMP quando a convertemos para o formato JPG, passando a ter, porém, um 
arquivo muitomenor. 
Exemplos de algoritmos de compactação de áudio são o ADPCM, o True Speech e o 
MPEG3, mais popularmente conhecido como MP3, o formato de compressão mais popular. 
O MP3 permite uma compactação de arquivos WAV de 9 ou 10 para 1, ou seja, uma música 
de 4 minutos que corresponderia a um arquivo WAV de 42 MB, poderia ser convertida em 
um MP3 com cerca de 4 MB, sem qualquer perda significativa na qualidade do som. 
O MP3 consegue esta façanha através da eliminação de frequências sonoras que não 
são captadas pelo ouvido humano, mas que servem para engordar os arquivos sonoros. O 
ruído de uma folha caindo durante um tiroteio, sem dúvida não faria falta alguma, assim 
como o som gerado por um apito de cachorro, que também não é audível para nós. 
Convertendo um arquivo WAV para MP3, a degradação do som é muito pequena, apenas 
uma pequena distorção nos sons graves, mas que não é percebida pela maioria das pessoas. 
Outro formato que vem ganhando bastante popularidade é o VQF, que usa um 
algoritmo de compactação mais eficiente que o usado pelo MP3, gerando arquivos até 30% 
menores. O problema do VQF é que, devido à complexidade do algoritmo, a 
descompactação dos arquivos é extremamente trabalhosa, exigindo um processador 
poderoso. Enquanto num mero Pentium 133, ouvir uma música em MP3 usando o Winamp 
consome apenas 30% dos recursos do processador, é preciso pelo menos um Pentium 200 
para ouvir uma música em VQF com qualidade, o que está dificultando a popularização deste 
novo formato. 
Mais um formato relativamente novo é o WDM da Microsoft. Além de remover as 
frequências que não são audíveis, este formato destaca os sons que são mais perceptíveis, 
recurso chamado de "ringing". O objetivo principal deste formato é concorrer com o Real 
Audio no ramo de transmissões de áudio via Internet, onde, devido à banda estreita, o som 
precisa ser altamente compactado. Para você ter uma ideia, um modem de 33.6k é capaz de 
receber cerca de 3,5 KB de dados por segundo, quando a comunicação está boa claro, o que 
daria um total de 210 KB por minuto, menos de 1/5 do necessário para um MP3 com 
qualidade de CD. Como em geral, dificilmente conseguimos manter uma taxa de download 
tão alta, é preciso gerar áudio ainda mais compactado. 
Usando taxas de compactação tão altas, não é possível manter uma qualidade muito 
boa, mas segundo a Microsoft os recursos do WDN permitem áudio com uma qualidade 
superior à do Real Áudio e outros formatos semelhantes. 
O WDM permite vários níveis de compressão e por isso também pode ser usado para 
gerar arquivos com qualidade semelhante à do CD, concorrendo neste caso com o MP3. 
Porém, numa comparação direta, apesar dos arquivos em WDM serem cerca de 35% 
menores que os equivalentes em MP3, temos uma qualidade bastante inferior, pois na 
verdade é utilizado um Bit-rate menor e aplicado o recurso de ringing, resultando num nível 
de distorção muito alto. 
Atualmente, o único formato de áudio capaz de gerar arquivos menores que o MP3 
mantendo a mesma qualidade ainda é o VQF 
 
Técnicas de Compressão 
Existem uma infinidade de técnicas e algoritmos que implementam a redução de bit 
rate do áudio e a cada Convenção da AES (Áudio Engineering Society) novas filosofias são 
apresentadas. Conceituou-se duas filosofias de compressão, aquelas com perdas e as sem 
Ronaldo Morant 
 30 
perdas. Entretanto, este conceito não é tão óbvio e, dependendo de diversas condições, 
uma técnica convencionada como Lossy (com perdas) pode não possuir perdas, como 
veremos mais a frente. Atualmente existem uma infinidade de técnicas e algoritmos no 
mercado, mas, na grande maioria dos casos, são combinações de algumas das filosofias 
abaixo, as quais comentaremos: 
 
Formatos com compressão e perda de qualidade 
A maioria dos formatos de arquivo de áudio apresenta uma compressão considerável 
para diminuir seu tamanho e ser mais fácil de armazená-lo e transferi-lo. É o que acontece, 
por exemplo, com o MP3 e outros tipos similares. Isso, porém, faz com que muito da 
qualidade desapareça, em alguns casos até prejudicando a reprodução. No entanto, caso 
você queira apenas ouvir um pouco de música sem muita exigência, é o tipo perfeito de 
arquivo de áudio. 
 
AAC (Advanced Audio Coding) 
O AAC surgiu em meados de 1997 com uma missão ambiciosa: tomar o trono do MP3 
como formato mais popular. Como é de se imaginar, a tentativa foi em vão, apesar de o 
formato ser superior em alguns quesitos, como no algoritmo de compressão, que o deixa 
com uma qualidade um pouco superior à do MP3. Ainda é bastante usado em plataformas 
como o iTunes, o Android, o iOS e o YouTube. 
 
MP3 (MPEG-1 Audio Layer 3) 
Talvez o formato mais popular quando tratamos de músicas, o MP3 foi espalhado 
pelo mundo com o advento das plataformas de compartilhamento musical, como o Napster, 
o eMule, o Audiogalaxy e o KaZaa. Apesar da perda de qualidade desse tipo de arquivo, ele é 
bastante leve e se tornou muito popular por ser fácil de ser transferido através das conexões 
lentas dos anos 1990. É reconhecido por praticamente qualquer player de áudio 
no mercado. 
 
OGG (Derivado de “ogging”, um jargão tirado do jogo “Netrek”) 
O OGG, na verdade, é uma espécie de “formato contêiner” feito com o objetivo de 
facilitar a manipulação e o streaming de material multimídia digital de alta qualidade. Ele 
engloba uma série de formatos menos conhecidos, como OGV, OGA, OGX, OGM, SPX e 
OPUS, para facilitar sua reprodução sem a necessidade da instalação de outros plugins. 
Geralmente, é mais utilizada por quem trabalha com formatos abertos. 
 
WMA (Windows Media Audio) 
Seguindo também no mesmo caminho do MP3, o WMA teve a pretensão de corrigir 
algumas falhas do popular formato. Apesar de tecnicamente superior, o WMA não 
conseguiu destronar o MP3 mesmo tendo como criadora ninguém menos que a Microsoft. 
Um dos principais problemas para emplacar o WMA foi a limitação de programas capazes de 
reproduzi-lo, todos sempre ligados à empresa fundada por Bill Gates, enquanto o MP3 
funcionava com qualquer outro player. 
 
Formatos com compressão sem perda de qualidade 
Alguns arquivos conseguem comprimir os dados de áudio sem perder qualidade e, 
por isso, são os preferidos pelos aficionados por música mais exigentes. Apesar de 
Ronaldo Morant 
 31 
compactados, esses arquivos ainda ocupam uma quantidade consideravelmente maior de 
espaço de armazenamento, o que pode ser um ponto negativo caso seu disco rígido seja 
limitado ou você queira transferir grandes quantidades pela internet. 
 
ALAC (Apple Lossless Audio Codec) 
O ALAC é um formato de arquivo de áudio criado pela Apple para rivalizar com o 
FLAC (que veremos a seguir). Apesar da tentativa, esse tipo de arquivo é mais pesado que o 
FLAC, mas, assim como o concorrente, também possui código aberto. Plataformas da Apple, 
como o iTunes e o iOS, bloqueiam a reprodução do FLAC em favorecimento ao seu próprio 
tipo de arquivo, que apresenta uma qualidade bastante alta. 
 
FLAC (Free Lossless Audio Codec) 
O FLAC talvez seja o formato de arquivo de áudio compactado sem perda de 
qualidade mais popular atualmente. Lançado em 2001, o FLAC é um formato de código 
aberto e capaz de ser cerca de 60% menor do que o arquivo original sem nenhuma perda de 
qualidade. Ele é reconhecido por uma boa quantidade de players, o que tem feito o formato 
ser um grande concorrente do MP3 para quem exige uma maior qualidade musical e não 
tem limitações de armazenamento de dados. 
WMA (Windows Media Audio) 
Se você acha que o redator confundiu tudo e colocou o WMA duas vezes na lista, 
você está enganado. O WMA, além de possuir sua versão comprimida com perda de 
qualidade, também tem um formato lossless. Porém, ele acaba gerando arquivos maiores do 
que seus concorrentes e ainda conta com o mesmo problema da variante com redução deatributos: apenas plataformas da Microsoft reproduzem a extensão. 
 
Formatos sem compressão 
Os áudios com esses formatos reproduzem digitalmente com precisão todo o espectro 
sonoro (audível ou inaudível) sem comprimir nada ou perder bits de informação. 
Geralmente, são arquivos enormes, que ocupam algo em torno de 34 MB de espaço de 
armazenamento para cada minuto de áudio. Assim, uma música de 4 minutos vai ocupar 136 
MB, o que em MP3 seria o equivalente, mais ou menos, a dois álbuns de tamanho médio. 
 
AIFF (Audio Interchange File Format) 
O AIFF foi criado pela Apple em 1988 tendo como base o IFF, formato utilizado nos 
antigos sistemas Amiga. Ele também é um contêiner para outros tipos de áudio 
reconhecidos pelo Mac OS e é geralmente reproduzido apenas por sistemas desenvolvidos 
pela Apple. 
 
PCM (Pulse-Code Modulation) 
O PCM é um método usado para representar digitalmente sinais analógicos de áudio. 
É o formato-padrão usado em CDs, DVDs, nos sistemas de telefonia, na indústria fonográfica 
e cinematográfica. Nesse tipo de arquivo, a amplitude do sinal analógico é amostrada 
regularmente em intervalos uniformes (pulsos), e cada amostra é quantizada no valor mais 
próximo dentro de uma gama de passos digitais. Esse formato é, talvez, o que mais se 
aproxima do som analógico. 
Ronaldo Morant 
 32 
 
WAV (Waveform Audio File Format) 
O mais popular entre os formatos de áudio sem compressão foi criado em 1991 pela 
Microsoft e pela IBM e durante os anos 1990 foi o principal tipo de arquivo de som digital, 
especialmente por ser padrão no Windows. Funcionando também como um contêiner de 
formatos, alguns arquivos desse tipo podem ser compactados, mas geralmente o WAV 
contém áudio descomprimido de alta qualidade e pode ser reproduzido pela maioria dos 
players. 
 
Resumo 
No fim das contas, o mais importante é saber diferenciar entre os três tipos principais 
de arquivo de áudio: comprimidos com perda de qualidade, comprimidos sem perda de 
qualidade e sem compressão, e entre eles, utilizar os formatos mais populares, que podem 
ser reproduzidos com maior facilidade em plataformas mais conhecidas. Resumindo: 
 Formatos com compressão e perda de qualidade: para quem quer armazenar 
muitos arquivos em pouco espaço e não tem grande exigência de qualidade. Bom 
para curtir músicas que não demandam atributos muito detalhados, como o som de 
uma festa, por exemplo, ou aquele som que você curte nos fones de ouvido para 
passar o tempo no ônibus indo para o trabalho. Formato favorito: MP3. 
 Formatos com compressão sem perda de qualidade: para quem gosta de apreciar 
música com mais detalhes, mas ainda assim não faz disso algo totalmente sério ou 
profissional. Como os arquivos ocupam mais espaço, vão exigir um armazenamento 
maior, mas nada que seja impossível de obter. Os formatos lossless são fáceis de 
encontrar, e você pode rodá-los em diversos dispositivos. Formato favorito: FLAC. 
 Formatos sem compressão: ideal para quem trabalha com captação de áudio ou 
utiliza arquivos sonoros profissionalmente. Como esses formatos apresentam a 
melhor qualidade possível, isso garante uma produção impecável quando se trata de 
som. Após o trabalho realizado, como a edição da trilha sonora de um vídeo, por 
exemplo, você ainda tem a opção de exportar o resultado final para arquivos 
comprimidos a fim de que ele ocupe menos espaço. Formato favorito: WAV.

Outros materiais