Baixe o app para aproveitar ainda mais
Prévia do material em texto
Ronaldo Morant 0 Sistemas Técnicos para Audiovisual Ronaldo Morant Rio de Janeiro, 2017 Ronaldo Morant 1 SINAIS DE VÍDEO FORMAÇÃO DA IMAGEM DE VÍDEO Linhas de Varredura A imagem de vídeo é formada através de uma sequência de linhas horizontais. Estas linhas são geradas por um dispositivo sensível à luz colocado dentro das câmeras. Antigamente este dispositivo era um tubo de imagem denominado vidicon; hoje é um chip sensor denominado CCD ou CMOS. O resultado da leitura do sensor CCD é um sinal analógico que pode, ou não, ser digitalizado logo em seguida, resultando os formatos Betacam (analógicos) e DVCam ou HDV/HD (digitais). Já o CMOS gera direto um sinal digital. As figuras abaixo mostram o sinal de vídeo para o padrão NTSC, como é desenhado na tela de um tubo de imagens (CRT): A figura de cima à direita, mostra a formação das linhas ímpares e a de baixo a formação das linhas pares. O sinal de vídeo trabalha com o processo de alternância tanto na leitura como na apresentação das linhas porque, quando foi patenteado pela RCA, em 1929, a camada de fósforo que recobria internamente o CRT possuía tempo de resposta muito lento (tempo para um determinado ponto da tela ficar luminoso e em seguida apagar- se) para trabalhar com um novo desenho de linha a intervalos muito curtos; este fato, associado a outras limitações técnicas época, como restrição na largura de banda (bandwidth) disponível para efetuar a transmissão do sinal até as residências levou à criação desse sistema, onde o desenho das linhas é dividido em duas etapas (os campos), linhas ímpares e linhas pares. O sinal de vídeo possui, embutido dentro do mesmo, indicações para o canhão de que uma linha horizontal chegou ao fim ou de que um campo teve seu desenho completado. Estas informações, denominadas pulsos de sincronismo, permitem que os retraces sejam efetuados quando necessário. O processo todo também leva 1/60 seg. para ocorrer. A soma dos dois campos recebe o nome de quadro, sendo portanto desenhado em 1/30 seg. (1/60 + 1/60). Em outras palavras, a cadência de apresentação das imagens (frame rate) é de 30 quadros por segundo (30qps). Ao término deste tempo todas as linhas foram desenhadas na tela e o processo reinicia-se novamente. Neste momento, as linhas do Ronaldo Morant 2 primeiro campo já estão-se tornando quase que totalmente apagadas (o fósforo vai perdendo luminosidade gradativamente). Com a criação do processo de alternância no desenho das linhas foi possível atender as limitações de banda da época e ao mesmo tempo obter-se uma boa resolução na imagem. Daí originou-se o nome interlaced para este tipo de sinal: o desenho das linhas é entrelaçado, ou seja, ímpares / pares / ímpares e assim por diante. Nem todas as 525 linhas disponíveis no sistema NTSC no entanto são visíveis na tela. Das 262 linhas e meia de cada campo, as últimas 21 linhas são sempre reservadas para armazenar diversas informações de controle do próprio sinal e outras mais. Assim, tem-se um total de 483 linhas visíveis, 241 linhas e meia em cada campo (241,5 + 21 = 262,5 para cada campo): As 9 primeiras linhas do conjunto de 21 armazenam, entre outras informações, os pulsos de sincronismo vertical (V-Sync) e sinais de equalização. As 12 demais linhas podem ser utilizadas para o armazenamento de diversas informações, como por exemplo close caption e Timecode do tipo VITC (Vertical Interval Timecode). São essas linhas não visíveis, sem imagem, que formam a faixa preta que pode ser vista quando o ajuste vertical do monitor está fora da posição correta, como mostra a figura abaixo: Em monitores de vídeo é possível visualizar estas 12 últimas linhas através do acionamento de um botão denominado underscan. Em aparelhos de TVs comuns, não só as 21 linhas como algumas a mais são escondidas pela máscara que forma a estrutura do aparelho. Devido à persistência de imagens na retina, o olho humano não percebe somente 241 linhas e meia na imagem (quando um campo está sendo desenhado o anterior já está-se apagando) mas sim as 483. Com isso é possível manter-se uma resolução vertical aparente de 483 linhas que na realidade é de somente 241 linhas. Os sinais analógicos de vídeo podem ser digitalizados e convertidos para um formato digital de vídeo, como o DV. No formato NTSC DV são desconsideradas 1 linha e meia de cada campo do formato NTSC analógico, resultando em um total de 480 linhas ao invés de 483. As diversas informações de controle existentes nas 21 linhas não mostradas são mantidas, sendo codificadas e digitalizadas de modo que os equipamentos que tratam este tipo de sinal digital as entendam. O inverso também pode ocorrer, quando um sinal digital é Aqui ficam armazenadas outras informações para o sinal de vídeo. Elas não são visíveis. Ronaldo Morant 3 convertido para analógico: neste caso as informações de controle são reconstruídas para entendimento dos equipamentos que tratam sinais analógicos. Os sistemas PAL e SECAM funcionam de forma semelhante, porém com número diferente de linhas em cada quadro. Para facilidade de comunicação, a frequência de apresentação dos quadros no sistema NTSC é considerada como sendo de 30 quadros por segundo. No entanto o frame rate preciso é 29,97 e não 30. Sinal Analógico: O sinal de vídeo é gerado a partir da leitura sequencial, da esquerda para a direita e de cima para baixo, da intensidade da voltagem de cada ponto do chip sensor (CCD) onde a imagem é projetada através das lentes da câmera. Quanto maior a intensidade de luz em determinado ponto, maior a voltagem produzida pelo mesmo, ou seja, existe uma analogia direta entre o brilho da imagem e a voltagem produzida, por isso o sinal é dito analógico. Sinal Digital: No sinal digital esta analogia também existe, porém não é direta: o sinal é dividido em trechos com mesmo tamanho e para cada trecho é calculada a média da intensidade da voltagem, sendo posteriormente o número obtido codificado no formato de número binário (sistema de numeração que só possui 2 algarismos - o '0' e o '1' ) e assim gravado por exemplo em uma fita do tipo DV. O sinal analógico por outro lado é gravado em uma fita do tipo VHS por exemplo, com todas as milhares de variações de voltagem obtidas. Luminância: BRILHO, medida da luminosidade total da imagem. Crominância: COR, medida da parte de cor da imagem. Ronaldo Morant 4 S/N (vídeo) (Signal-To-Noise Ratio ou SNR)(Sinal Ruído): Indicação do quanto de “ruído” (imagem granulada) uma imagem de vídeo possui, expressa em decibéis (dB). Esta indicação é calculada através do valor da voltagem máxima atingida pelo sinal dividido pelo valor residual da voltagem que permanece quando o sinal é removido - ou seja, a quantidade de ruído no mesmo. Geralmente os valores produzidos situam-se em torno de 38dB a 42dB. De maneira geral, quanto maior esse valor, melhor a imagem. Sinais considerados como de excelente qualidade geralmente situam-se acima de 54dB. Este tipo de indicação é utilizado para medir e comparar a qualidade do sinal produzido pelas câmeras de vídeo. Sinal Composto: Ao contrário do Y/C, neste tipo de sinal as informações de cor e luminosidade são combinadas gerando um único sinal. Posteriormente (no momento da exibição por exemplo) estes sinais são novamente separados. A transformação acaba acarretando perda de qualidade devido a interferências e distorções geradas no processo, onde ossinais recuperados na separação não são exatamente idênticos ao que eram na fase de codificação em sinal único. Este tipo de sinal é utilizado no formato VHS, por exemplo, e na transmissão de TV a cabo. Sinal RF (rádio-freqüência): Ao contrário do sinal do tipo composto, neste tipo de sinal as informações de imagem, já reunidas em um único sinal, são combinadas com o sinal de som, gerando um novo único sinal. Posteriormente (no momento da exibição) estes sinais são 380 linhas de resolução. 240 linhas de resolução. 450 linhas de resolução. Ronaldo Morant 5 novamente separados. A transformação acaba acarretando bastante perda de qualidade devido a interferências e distorções geradas no processo, onde os sinais recuperados na separação não são exatamente idênticos ao que eram na fase de codificação em sinal único. Este tipo de sinal é enviado às torres transmissoras de TV e captado por antenas comuns nas residências. Opcionalmente, além de ser enviado à torres transmissoras terrestres é também enviado a satélites retransmissores, podendo então ser captado por antenas parabólicas. RGB (Red, Green, Blue): Tipo de sinal em que as informações de cor são transmitidas de modo separado, em 3 componentes, vermelho, verde e azul (o cabo que carrega este sinal possui um fio exclusivo para cada uma destas cores básicas). Estas cores são as cores básicas do modelo de cor RGB. Sinal Componentes (YUV): Vídeo componentes; neste tipo de sinal as informações da imagem são separadas em 3 partes: luminância (a parte que controla o brilho - quantidade de luminosidade - na imagem) , cromitância-1 e cromitância-2 (partes que controlam as informações de cor na imagem). Esses 3 componentes referem-se ao sistema de codificação de cor YUV. Formatos de vídeo profissionais analógicos gravam o sinal componentes YUV diretamente nas fitas magnéticas, como por exemplo Betacam SP. Formatos digitais o digitalizam e a seguir o comprimem, como por exemplo DV. Este tipo de sinal, por manter as informações de cor separadas, possui uma melhor definição de cores do que a de outros sinais, como o Y/C, o composto e o RF (nessa ordem, ordenados da maior para a menor qualidade). Sinal Y/C: Ao contrário do componentes, neste tipo de sinal as informações de cor são combinadas gerando um único sinal, ao passo que as informações de luminosidade constituem um sinal independente. Posteriormente (no momento da exibição) os sinais de cor são novamente separados. A transformação acaba acarretando pequena perda de qualidade devido a interferências e distorções geradas no processo, onde os sinais de cor recuperados na separação não são exatamente idênticos ao que eram na fase de codificação em sinal único. Este tipo de sinal é utilizado no formato SVHS. Sinal Componente Digital IEEE-1394 Nome dado ao sistema de gravação de sinais de vídeo que digitaliza sinais no formato vídeo componentes, comprimindos-os para em seguida gravar em fita. Este sinal é também chamado i.Link, FireWire ou DTVLink, composto de um protocolo padrão para transmissão digital de áudio, vídeo e dados a curta distância. Desenvolvido originalmente pela Apple Computer, foi proposto à organização IEEE - Institute of Electrical and Electronics Engineers (EUA) e por ela tornado padrão em 1995. 400 linhas de resolução. Luminância Crominância Ronaldo Morant 6 FireWire é o nome utilizado pela Apple para sua versão do IEEE-1394 e por diversas empresas que o empregam em seus produtos, i.Link é o nome criado pela Sony para a mesma interface e DTVLink o nome padronizado pelo CEA (Consumer Electronics Association) também para a mesma interface. O formato DV foi a primeira aplicação a utilizar esta tecnologia, sendo parte opcional do mesmo - pode ou não ser implementada, conforme o fabricante. Deverá no futuro ser o substituto de protocolos como IDE, SCSI, etc... O IEEE-1394 é um sistema de comunicação serial, bi-direcional de alta velocidade, proposto para simplificar as conexões entre produtos digitais, como câmeras, computadores, drives de DVD, etc. Algumas características: sinais de áudio & vídeo & outros trafegam por um único cabo/conector, sinais simultâneos podem trafegar nas duas direções, pode conectar até 63 periféricos em uma única cadeia, os periféricos podem ser conectados /desconectados ligados à cadeia (hot pluggable). Sinais digitais de vídeo quando copiados de um equipamento para outro através deste tipo de conexão não sofrem degradação da imagem. Existem dois tipos de conectores usados: com 4 e com 6 pinos (unpowered e powered). Sinal de Color Bar Conjunto de barras coloridas utilizadas como referência no ajuste de equipamentos de vídeo. Existem modelos diferentes para cada tipo de sinal de vídeo (abaixo, modelo para o sinal NTSC, denominado SMPTE color bars). Permite efetuar ajustes nos controles de cor de monitores, câmeras, etc... As câmeras profissionais podem gerar este sinal (ou parte dele, sem as camadas inferiores). As câmeras industriais e algumas domésticas eventualmente também geram este sinal. Interlaced Image (modo entrelaçado de imagem) e o Progressive Scan (modo escaneamento progressivo) Interlaced Image - É quando as linhas exibidas na tela são desenhadas de maneira alternada, primeiro as pares, depois as ímpares e assim por diante. O sistema de TV tradicional mostra as linhas neste modo. Já os sistemas de computadores utilizam a forma non-interlace, onde as linhas são desenhadas na sequência, uma a uma, sem alternância. Progressive Scan - É o escaneamento progressivo da imagem. Este processo alternativo de leitura (scan) das linhas no CCD da câmera, onde o mesmo é lido linha a linha, de alto a baixo, ao invés de serem lidas somente as linhas pares ou somente as linhas ímpares alternadamente. Ronaldo Morant 7 No modo tradicional de leitura do CCD, interlaced, no tempo de 1/60 seg. são formadas as linhas pares. Após este tempo, a leitura e o processo de formação de linhas se reinicia a partir do topo do CCD, agora para as linhas ímpares, também durante 1/60 seg. Em ambas as fases sempre duas linhas são lidas (Dual-Row Readout) e somadas, resultando na formação de uma única linha (Row-Pair Summation). No modo progressive scan, as linhas pares são lidas juntamente com as ímpares (sem ser utilizado Dual-Row Readout) o que significa que o CCD é lido uniformemente de alto a baixo e que todas as linhas individualmente são consideradas para a formação da imagem (não existe soma de linhas). No modo tradicional, o tempo gasto para montar somente um dos tipos de linhas (só pares ou só ímpares, utilizando Row-Pair Summation) é de 1/60 seg.. No progressive (onde não existe Row-Pair Summation) o tempo gasto para montar 1 linha qualquer (par ou ímpar) é o mesmo gasto no modo tradicional para montar também uma linha qualquer (par ou ímpar), só que neste último 2 linhas subsequentes são lidas e somadas ao mesmo tempo. A diferença é que enquanto o modo tradicional gasta 1/60 seg. montando só linhas pares e depois mais 1/60 seg. montando só ímpares, o progressive monta todas as linhas uma após a outra, ou seja, em 1/60 monta só metade do quadro. E os dois modos terão montado um quadro completo em 1/30 seg. Como todos os pixels do CCD são aproveitados na montagem das linhas (não há Dual- Row Readout), a resolução vertical da imagem é maior do que a correspondente no modo interlaced. Por outro lado a sensibilidade deixa de ser ampliada, pois não existe Row-Pair Summation (que soma a luminosidade dos pixels da linha de cima com a dos pixels da linha de baixo) - em certas câmeras é possível perceber um escurecimento da imagem quando as Progressive Ecan Interlaced image RonaldoMorant 8 condições do ambiente são de pouca luz e muda-se o modo de gravação de interlace para progressive. Além do tempo padrão de 1/30seg.(30 qps - quadros por segundo), existem câmeras com modo progressive funcionando em 1/24seg (24 qps, descrito mais adiante) e também em 1/60 seg (60 qps, utilizado em HDTV). A figura abaixo mostra o processo interlace em comparação com o progressive (modo 1/30seg.), para uma câmera com 3 CCDs: A imagem capturada desta forma no CCD, por não conter campos par / ímpar não é conforme com padrão de sinal NTSC. Para gravá-la na fita, algumas técnicas são utilizadas. Em uma delas, utilizada em formatos HDTV, são utilizados CCDs com 720 linhas (ao invés de 480) e o tempo de captura é 1/60seg (ao invés de 1/30 seg.). A cada 1/60 seg. todas as linhas são descarregadas diretamente na fita, gerando 60 qps de 720 linhas. Existem formatos HDTV que geram quadros de 1080 linhas (utlilizando CCDs de 1080 linhas). Em formatos tradicionais (não HDTV) no entanto, um truque precisa ser utilizado para gravar estas imagens progressive na fita no modo interlaced NTSC. O quadro com todas as linhas (que foi montado em 1/30 seg., ou seja, 1/60seg - pares + 1/60seg. - ímpares) é armazenado em um buffer de memória. A seguir este buffer é descarregado da seguinte forma: em 1/60 seg. são descarregadas uma a uma as linhas pares e nos próximos 1/60 seg. as ímpares. Com isto, o sinal armazenado na fita na câmera continua sendo interlaced (alternância de campos pares e ímpares), porque este é o padrão NTSC, assim a câmera deve gerar um sinal que seja compliance com o mesmo. A vantagem é que a imagem final, interlaced, fica livre dos artefatos do tipo combing. A figura abaixo mostra como o sinal gerado (interlaced) carrega as imagens gravadas em progressive: Em algumas câmeras a captura no modo progressive é feita a 15fps: neste caso, em 1/30 seg. é capturada uma imagem completa (como descrito acima) e nos próximos 1/30 seg. nenhuma imagem nova é capturada e assim por diante. Na saída, o buffer é descarregado 2 vezes repetidas. Este processo foi implementado pela Sony em suas câmeras do segmento semi-profissional com função progressive: o vídeo gravado desta maneira, ao ser reproduzido, mostra um acentuado efeito strobe para imagens em movimento. Nestas câmeras a função progressive é voltada para captura de imagens estáticas (JPEG) a partir do vídeo gravado na fita. A vantagem do progressive scan sobre o interlaced está na diferença de tempo na captura das linhas da imagem: no modo interlace, entre uma linha a a seguinte existe uma Ronaldo Morant 9 diferença de 1/60 seg. no momento em que ocorre a captura. No modo progressive, este tempo é praticamente desprezível (tempo que apenas uma linha leva para ser lida). Isto é percebido em imagens que contenham movimento: aqui está o segundo ganho do proscan, além do aumento de resolução vertical acima citado. Quando o vídeo gravado na fita é reproduzido (lembrar que na fita o sinal é interlaced) e uma determinada imagem é "congelada" na tela do monitor (tecla pause), situação de onde também são extraídos os stills para geração de fotos digitais, são mostrados ao mesmo tempo os 2 campos, par e ímpar, constantemente repetidos enquanto durar o "congelamento". Para imagens estáticas (câmera em um tripé focalizando um quadro na parede por exemplo) não há diferença se o modo utilizado na gravação foi interlaced ou progressive scan. No entanto, para imagens em movimento (um bonde atravessando a rua por exemplo) ocorrerá aumento visível de qualidade na imagem obtida se o modo utilizado na gravação foi progressive scan. A figura abaixo ilustra um trecho ampliado de imagem interlaced (direita) e progressive (esquerda), permitindo observar o efeito do movimento no contorno do bonde em movimento - as linhas foram propositadamente ampliadas na imagem da direita (formando faixas) para melhor facilidade de visualização. Este efeito, denominado combing, é um dos tipos de scanning artifacts que afeta imagens deste tipo. A diferença de tempo no registro dos campos é significativa: enquanto que no modo interlace um ponto qualquer da imagem em movimento horizontal que ocupe duas linhas adjacentes no CCD é captado com uma diferença de 1/30 seg. entre uma linha e outra, no progressive essa diferença é da ordem de 1/15.000 seg (tempo de 1/30 seg. para serem lidas as 525 linhas que compõem o quadro, logo cada linha leva 1/15.750 seg. para ser lida, que é o tempo entre a leitura de uma das partes do ponto na linha superior e a leitura da segunda parte do ponto na linha inferior). Por este motivo, a função progressive scan é bastante útil em câmeras de vídeo que possuem opção de gerar imagens estáticas (fotos, geralmente no formato JPEG) a partir do conteúdo gravado na fita. Em algumas câmeras é possível capturar imagens não-interlaced de qualidade razoável sem o uso do modo progressive nem do modo frame mode. Isto ocorre com velocidades mais baixas de obturador do que a normal (1/60seg), onde, após a leitura dos CCDs (interlaced, com Row-Pair Summation), é utilizado um processo chamado field- doubling, que duplica (repete) as mesmas linhas de um campo para formar o outro. Com este processo, diminui bastante a resolução vertical da imagem, porém este fato é geralmente pouco perceptível para imagens captadas à distância que contenham poucos detalhes verticais observáveis. Em outras câmeras existe o modo progressive, porém utilizado somente na captura de fotos (stills), não vídeo: neste caso, ao ser acionada esta função (normalmente através de um botão análogo ao disparador de câmera fotográfica) apenas uma leitura do CCD (1 quadro) é efetuada no modo progressive sendo este quadro gravado na fita (imagem Ronaldo Morant 10 congelada) durante alguns segundos, utilizando o processo progressive / NTSC acima descrito. Este modo pode ser chamado progressive still. O uso da função progressive scan (vídeo, não still) acarreta uma consequência: um ligeiro aspecto strobe, percebido em pessoas/objetos em movimento na imagem. Se, por um lado, os contornos da pessoa/objeto são mais definidos (a diferença de tempo no registro das linhas adjacentes é muito mais baixa, conforme citado acima) por outro lado cada trecho da imagem é novamente registrado somente após 1/30 seg. (no modo interlace, pedaços alternados - linhas pares/ímpares - da imagem são registrados a cada 1/60 seg. , o que confere um melhor aspecto de continuidade e fluidez ao movimento). Esse aspecto strobe também é verificado no cinema (daí também ser chamado de film ou cinematic look), onde a velocidade utilizada, 1/24 seg. é próxima de 1/30 seg., claramente visível por exemplo em panorâmicas efetuadas com a câmera. O uso de câmeras de vídeo no formato PAL com captação em progressive scan faz com que o estilo das imagens gravadas no vídeo aproxime-se ainda mais do estilo obtido em cinema, isto porque neste formato os tempos são 1/50 seg. e 1/25 seg. (ao invés de 1/60 seg. e 1/30 seg.). Por isso esta opção tem sido utilizada por alguns cineastas. Existem no entanto atualmente câmeras de vídeo que fazem opcionalmente a captação a 24 quadros por segundo, no modo progressivo (1/24 seg. para cada quadro completo). São as câmeras digitais voltadas para cinema. Estas câmeras geram diferentes tipos de sinais. No segmento semi-profissional, câmeras desenvolvidas pela Panasonic com esta função efetuam a transferência do sinal captado nos CCDs para uma fita Mini-DV (o que acarreta compressão do sinal na fase de digitalização), no formato NTSC interlaced, utilizando o mesmo processo usado em telecine (transfer film to tape), onde 24 quadros/seg são transformados em 30 quadros/seg. com a repetição de determinados quadros em intervalos pré-estabelecidos. Na fasede edição, os quadros completos gravados pela câmera em progressive (agora transformados em interlaced na fita) podem ser recuperados (descartando-se os quadros repetidos inseridos) e opcionalmente transferidos para película cinematográfica (blow-up). No segmento profissional, câmeras também topo de linha gravam os sinais digitalizados a partir dos CCDs, sem compressão, diretamente em HDs de servidores de alta capacidade ou em fitas no formato D6 (portanto estas câmeras não são do tipo camcorder) para posterior transferência para película cinematográfica. Ao contrário do processo em Mini- DV, aqui a qualidade é equiparável à da película cinematográfica. Câmeras deste tipo geram sinal sem compressão (4:4:4) e sem qualquer tipo de filtragem, Progressive Scan Interlaced Image Frame Movie Ronaldo Morant 11 correção de gama, matiz, etc..., exatamente como ocorre em uma câmera cinematográfica de 35 mm. Neste caso, o diretor de fotografia preocupa-se só com os enquadramentos: os demais ajustes são efetuados na pós-produção. Existe um modo de captação de imagens intermediário entre o interlaced e o progressive: Frame Movie mode. Frame Movie Mode Este processo, desenvolvido pela Panasonic e posteriormente utilizado também pela Canon, intermediário entre o interlace e o progressive scan , é às vezes chamado pseudo- progressive e utiliza a leitura padrão no modo interlaced do CCD e um 'truque' posterior para imitar o modo progressive, denominado vertical pixel shift. Câmeras com esta função conseguem gravar um sinal interlaced sem porém apresentar os problemas decorrentes da diferença no tempo de captura entre um campo e outro. A qualidade da imagem final é intermediária entre a do processo tradicional interlaced e a do processo progressive. Do mesmo modo que a função progressive scan, a função Frame Movie também é útil na geração de imagens estáticas (fotos, geralmente no formato JPEG) a partir do conteúdo gravado na fita. I.R.E. (Institute of Radio Engineers) É a unidade utilizada para medir o brilho da imagem na tela. A escuridão total recebe o valor 0 IRE e o branco total, 100 IRE. Um sinal ideal de vídeo não deve nunca ter intensidade de brilho inferior a 7,5 IRE e nunca superior a 100 IRE - fora destes limites, haverá distorção na reprodução da imagem no monitor. A faixa ideal de um sinal de vídeo compreende entre 60 e 80 I.R.E. Monitor de Forma de Onda (Waveform Monitor) É utilizando como fonte geralmente uma imagem do tipo color bars permite identificar e corrigir problemas referentes ao brilho, cores e estabilidade da mesma. Analisa a variação de voltagem no sinal de vídeo (1V de um extremo a outro) exibindo-a graficamente. Aparelhos deste tipo geralmente são capazes de exibir diversos tipos diferentes de gráficos, propiciando a visualização e análise de vários aspectos do sinal. No exemplo acima, um monitor de forma de onda exibe o sinal gerado pela imagem color bars. O tipo de gráfico selecionado exibe metade das linhas do sinal à esquerda e metade à direita (desenho repetido). No eixo vertical, a intensidade do sinal é medida em unidades I.R.E.. O pico máximo do branco (o gráfico mostra um sinal corretamente ajustado) situa-se em 100 I.R.E.. A menor intensidade do sinal (cor preta) é ajustada em 7,5 I.R.E.. O eixo horizontal mostra informações de timing do sinal. As faixas cinza claro verticais (7 em cada lado) representam a intensidade total do sinal ao longo do eixo horizontal da imagem do color bars. Diversos usos são possíveis com o aparelho: setup e sincronização de equipamentos em estúdio, ajustes e verificação de problemas, etc. Ronaldo Morant 12 O ajuste pode ser efetuado diretamente no equipamento a ser calibrado - conectando-se sua saída ao monitor de forma de onda - ou ser utilizada a comparação - comparar o sinal gerado pela fonte com o obtido após a gravação / reprodução em determinado equipamento. Nesta comparação, também pode ser observado que quanto melhor o formato de vídeo, mais os dois resultados se aproximarão. Alguns problemas apontados na análise podem ser corrigidos pelo TBC. Vetorscópio (vetorscope) Ë utilizando como fonte uma imagem do tipo color bars permite identificar e corrigir problemas com a mesma, relacionados a cores. Cada cor presente na imagem do color bars (amarelo, ciano, verde, magenta, vermelho e azul) é mostrada através de um ponto luminoso distribuído ao longo de uma circunferência, como o apontado por 'A' na figura abaixo. Quando as cores da imagem do vídeo estão corretamente ajustadas, estes pontos devem-se situar dentro dos quadrados distribuídos ao longo da circunferência. Na figura abaixo, 'B' mostra um destes quadrados, com seus cantos delimitados. Quanto maior a intensidade de determinado componente de cor, mais distante do centro da imagem estará o ponto luminoso, até atingir o ponto correto, dentro da área do quadrado correspondente. A variação na forma do desenho permite medir e calibrar a reprodução de cores e efetuar diversas aferições e testes sobre o sinal de vídeo, assim como efetuar comparações (o sinal obtido diretamente da fonte e o obtido após ter sido gravado / Ronaldo Morant 13 reproduzido por determinado equipamento). Nesta comparação, também pode ser observado que quanto melhor o formato de vídeo, mais os dois resultados se aproximarão. Alguns problemas apontados na análise podem ser corrigidos pelo TBC e pelo corretor de cores. TBC (Time Base Corrector) Este equipamento restaura os pulsos de sincronismo da imagem eventualmente danificados, permitindo também ajustar o brilho da imagem (aumentar ou diminuir). Alguns TBCs possuem corretor de cores embutido. Menos preciso, o Image Enhancer é outro equipamento que também permite restaurar o sincronismo e melhorar a qualidade da imagem. Histograma Histograma é um gráfico que representa a distribuição dos tons claros e escuros da imagem, ajudando o fotógrafo a avaliar se as mesmas estão sub-expostas (claras), super-expostas (escuras) ou adequadamente expostas. Em vídeo produção pode ser utilizado para sinalizar diversas informações, mas seu uso mais comum é na indicação da distribuição geral de luminosidade em uma imagem digital. Quanto mais distribuída for a luminosidade na imagem, mais rica em tons e meio-tons ela será. Cabe então ao fotógrafo ou cinegrafista interpretar esse gráfico e avaliar se está em acordo com o que ele quer obter da imagem, efetuando se for o caso, ajustes diversos que se reflitam na exposição, como no controle de íris ou obturador Formato RAW É o estado "bruto“ de uma imagem digital, sem compressão (ele ocupa grande volume de dados ao ser armazenado). Este tipo de imagem não sofre nenhuma alteração após ter sido captado pelos sensores da câmera. Pode ser aplicado tanto para fotos quanto vídeo. É também chamado pelo termo "negativo digital" onde todas as informações originalmente captadas estão presentes, mas a verdadeira imagem só surgirá após o tratamento digital. Downscaling Processo em que a resolução das imagens de um vídeo é reduzida copiando-se o original em um formato de maior resolução para um de menor resolução sem acarretar a Ronaldo Morant 14 diminuição da qualidade visual da imagem, (converter de filme para vídeo DVD). O processo inverso é denominado Upscaling (converter de VHS para DVD). SDI (Serial Digital Interface) Conexão para áudio e vídeo utilizada no segmento profissional, conectando câmeras e VCRs entre si ou com sistemas de edição-não-linear. Também utilizada em alguns modelos de switchers de vídeo. Utiliza sinal digital SD sem compressão que trafega através de caboscom conectores BNC. Cabos com este tipo de sinal não sofrem interferências (devido ao sinal ser digital). Podem ter confeccionados com grande extensão (100 metros). Cabos SDI podem transportar também, juntamente com o áudio e o vídeo, informações de Timecode, o que permite sincronizar vários equipamentos conectados. HD-SDI (High Definition Serial Digital Interface) O mesmo que o SDI, mas trabalha com sinal digital de alta definição (HD) sem compressão. Existe em duas versões, as mesmas utilizadas pelos formatos HDV HD1 e HD2. HDMI (High-Definition Multimedia Interface) Conexão para áudio e vídeo em alta definição (HD), do tipo digital sem compressão, utilizada no segmento consumidor de equipamentos HD, DVD players, dispositivos com sinais HDTV e outros. Além de trabalhar com sinais HD, a conexão HDMI também suporta conteúdo de áudio e vídeo tradicional (SD), além de diversos padrões de áudio, como o SURROUND. Cabos HDMI não sofrem interferências (devido ao seu sinal ser digital) e podem ser confeccionados com extensão de até 15m. Transcodificação Processo de conversão do vídeo de um formato e/ou padrão para outro. Ex sistema NTSC para SECAM Telecinagem Processo de conversão de filme para video. Telecinagem on line - Neste processo as cores podem ser ajustadas, os contrastes nivelados, o brilho regulado, como também outros recursos podem ser realizados. Telecinagem off line - É a telecinagem para edição, sem qualquer tipo de correção no material. Blow-Up Processo de ampliação de película. ex. ampliar material filmado em 16mm para 35mm. Transfer Processo de conversão de material em video para filme: ex. material gravado em HD para película 35mm Transcrição Processo de conversão de um formato de video para outro. ex. converter material gravado em Betacam para DVCAM. Ronaldo Morant 15 Pull Down (2:3) Técnica utilizada por determinadas câmeras de vídeo que fazem a captação da imagem com frame rate igual a 24 q/s, no modo progressive scan, para poderem gravar o conteúdo em uma fita no padrão interlaced com 30 q/s. Exemplo: padrão NTSC). HDV (High Definition Digital Video) Formato digital utilizado nos segmentos consumidor e semi-profissional. Proposto pela JVC em 2003, recebeu a adesão da Canon, Sharp e Sony para o estabelecimento de suas especificações, com o objetivo de criar um formato HD voltado para esses segmentos. AVCHD (Advanced Video Codec High Definition) Formato digital voltado para o segmento consumidor de HD, podendo competir em qualidade de imagem com o formato HDV e suas câmeras do mesmo segmento. HDCAM Formato HD digital profissional criado pela Sony em 1997, como versão do formato Digital Betacam voltada para uso em HDTV e aplicações de alta definição (utiliza sinal gravado em fita de 1/2 pol (+/- 13mm) com bit rate de 140 Mbps e sampling de 3:1:1), como a linha de produtos CineAlta da Sony para cinema digital. A TELEVISÃO EM HIGHT DEFINITION A TV Digital Atualmente existem diferentes modelos, sistemas e padrões de TV Digital no mundo. No Brasil, a definição final do padrão adotado dependeu da harmonização de um modelo e de diferentes sistemas (tecnologias de software e hardware). A TV digital para o Brasil Impactos sociais, culturais, políticos, econômicos e tecnológicos é importante diferenciar alguns pontos: O modelo de televisão digital incorpora a visão de longo prazo e o conjunto de políticas públicas. O modelo deve articular todas as iniciativas, atividades e ações relacionadas à questão. O modelo define as condições de contorno para o estabelecimento do sistema e respectiva definição do padrão. O sistema de televisão digital é o conjunto de toda a infraestrutura e atores (concessionárias, redes, produtoras, empresas de serviços, ONGs, indústrias de conteúdo e de eletroeletrônicos). O padrão de televisão digital é o conjunto de definições e especificações técnicas necessárias para a correta implementação e implantação do sistema a partir do modelo definido. tualmente existem diferentes modelos, sistemas e padrões de TV Digital no mundo. No Brasil, a definição final do padrão adotado dependeu da harmonização de um modelo (arcabouço legal e institucional) e de diferentes sistemas (tecnologias de software e hardware). A legislação brasileira foi bastante flexível com relação a portabilidade da televisão digital no Brasil, permitindo a sua utilização nos mais variados dispositivos. Ronaldo Morant 16 O Padrão ISDB-TB O padrão de televisão digital adotado no Brasil é o ISDB-TB, uma adaptação do ISDB- T (Integrated Services Digital Broadcasting Terrestrial), padrão japonês acrescida de tecnologias desenvolvidas nas pesquisas das universidades brasileiras. O padrão japonês foi escolhido, conforme dito anteriormente, por atender melhor as necessidades de energia nos receptores, mobilidade e portabilidade sem custo para o consumidor, diferente do padrão europeu (DVB-T), onde esta operação é tarifada pelas empresas telefônicas. A principal diferença constatada inicialmente após a decisão de se adotar o padrão japonês para ser utilizado na televisão digital brasileira, em junho de 2006, foi a substituição do formato de compressão MPEG-2 para o MPEG-4. O formato ISDB-TB também permite, além da transmissão em alta definição, a transmissão em multiprogramação, onde é possível transmitir, no lugar de um único programa em alta definição, oito programas diferentes simultaneamente em definição padrão (720 × 480 pixels, a mesma do DVD). Para comparar, a televisão analógica, por ter perdas na transmissão pelo ar, chega a no máximo 333 × 480. Com o codec H.264 do formato MPEG-4, será possível transmitir até 2 canais HD (1080i), 4 Canais HD (720p) e/ou 8 SD (480p) pela mesma transmissora. UHD (Ultra High Definition) - formato de vídeo com resolução de 7680 x 4320 pixels (7K), ou cerca de 33 millhões de pixels (33 Mp). Possui 16 vezes mais pixels, 4 vezes a largura e 4 vezes a altura das imagens da HDTV atual, que tem resolução de, no máximo, 1920 × 1080 pixels. Digitais de Alta Definição HD (1080i) no Mundo: ATSC (EUA, Canadá, México = Advanced Television Systems Committee) DVB-T (Europa, África, Oceania = Digital Video Broadcasting - Terrestrial) ISDB-T (Japão = Integrated Services Digital Broadcasting - Terrestrial) ISDB-TB (Brasil = Integrated Services Digital Broadcasting - Terrestrial Built-in) DTMB (China, Hong Kong, Macau = Digital Terrestrial Multimedia Broadcast) PADRÃO RESOLUÇÃO SD 720 X 480 HDV 1280 X 720 HD 1440 X 1080 FULL HD 1920 X 1080 UHD 7680 X 4320 Ronaldo Morant 17 TV Digital: O projeto Na TV Digital a transmissão do áudio e do vídeo passa a ser feita através de sinais digitais. É possível desta forma transmitir som e imagem de melhor qualidade. A resolução da imagem na TV analógica que é de 720 x 480 pixels, na TV digital passa a ser de 1920 linhas x 1080 pixels. Mais canais (até 4) na mesma faixa de frequência utilizada por um canal analógico. Permitir interatividade entre o telespectador e a emissora possibilitando acesso à informações adicionais como por exemplo o menu de programação. Interação do usuário com a emissora, através de um canal de retorno, via linha telefônica por exemplo, possibilitando a este votar ou fazer compras. HDTV TV Digital: O que muda? Som e imagem de melhor qualidade Resolução de 1920 x 1080 pixels. Áudio 5.1 O acesso à informações adicionais como por exemplo o menu de programação. A interação do usuário com a emissora, através de um canal de retornovia linha telefônica por exemplo, possibilitando a este votar ou fazer compras. Mobilidade - É a transmissão digital para televisores portáteis, como por exemplo os utilizados em veículos. Portabilidade – É a transmissão digital para dispositivos pessoais, como smartphones e tablets. Interatividade - Com o controle remoto, por exemplo, os usuários poderão votar, responder a testes, acessar mais informações sobre os programas e, até comprar produtos anunciados na televisão. Tudo será feito por meio de um sistema desenvolvido no Brasil, o GINGA Multiprogramação - É a possibilidade de as emissoras transmitirem mais de um programa simultaneamente - ou até mesmo ângulos de câmera diferentes em um jogo de futebol. Ronaldo Morant 18 HDTV O padrão SBTVD foi desenvolvido por um grupo de estudo coordenado pelo Ministério das Comunicações brasileiro, liderado pela ANATEL com suporte técnico do CPqD (Centro de Pesquisas e Desenvolvimento em Telecomunicações), e composto por membros de outros 10 ministérios, pelo Instituto Nacional de Tecnologia da Informação, universidades e institutos de pesquisa brasileiros, associações e organizações de profissionais de radiodifusão e fabricantes de produtos eletroeletrônicos. O SBTVD tem suas raízes no padrão japonês ISDB-T e as características de transmissão, foram originadas no ISDB-T. A diferença entre eles se deve, principalmente, pelo emprego da compressão de vídeo MPEG- 4 AVC, exibição da imagem para dispositivos portáteis em 30 quadros por segundo (no ISDB- T são 15 quadros por segundo) e suporte à interatividade usando o "middleware" chamado "Ginga“. Ronaldo Morant 19 COMPRESSÃO DE VÍDEO Por que comprimir o vídeo? Um segundo de vídeo possui 30 frames x 720 x 486 pontos x 3 bytes de cor, ou seja, aproximadamente 32Mb para cada segundo. Não há como armazenar em disco tamanha quantidade de informações: Ex.: Sem compressão: 12Gb para 30 minutos de vídeo. Com compressão: 13Gb para 1 hora de vídeo. 4:4:4 É a compressão na resolução do vídeo nos canais de canais de Luminância e Cores. É usada na captação de câmeras, transmissão de vídeo, no processamento interno dos programas e em algumas compressões. As tecnologias de compressão de vídeo servem para reduzir e eliminar dados redundantes de vídeo para que um arquivo de vídeo digital possa ser enviado de maneira eficaz através de uma rede e armazenado em discos de computador. Com técnicas eficientes de compressão, é possível conseguir uma redução considerável no tamanho dos arquivos, com pouco ou nenhum efeito negativo sobre a qualidade visual. A qualidade de vídeo, entretanto, pode ser afetada se o tamanho do arquivo for reduzido ainda mais através do aumento do nível de compressão de uma determinada técnica. Formatos com pouca amostragem de cor, como os do sinal DV, apresentam maior dificuldade para cromakey do que os com melhor amostragem, como por exemplo o Digital Betacam. No desenho abaixo, a linha central corresponde à imagem original. A linha de cima, corresponde à imagem obtida por um formato de vídeo com amostragem 4:1:1 e a linha de baixo, a um formato de vídeo com amostragem 4:2:2: Diferentes tecnologias de compressão, tanto reservadas como padrão de mercado, estão à disposição. - O primeiro número seria: Y (Luminância + canal verde) - O segundo número seria: U (canal vermelho) - O terceiro seria: V (canal azul) V (canal azul) Y (Luminância + canal verde) U (canal vermelho) 4 : 4 : 4 IMAGEM ORIGINAL 4:4:4 Ronaldo Morant 20 Hoje em dia, a maioria dos fornecedores de vídeo em rede utiliza técnicas padronizadas de compressão. Os padrões são importantes para garantir a compatibilidade e a interoperabilidade. Eles são especialmente relevantes para a compressão de vídeo, pois o vídeo pode ser usado para finalidades diferentes e, em algumas aplicações de vigilância por vídeo, precisa poder ser visto muitos anos depois da data de gravação. Implementando padrões, os usuários finais podem selecionar entre diferentes fornecedores, em vez de ficarem presos a um único fornecedor ao projetar um sistema de vigilância por vídeo. Taxas de Compressão Cada retângulo azul corresponde a um pixel, em uma dada linha do vídeo Digital. Os pequenos círculos brancos representam a amostragem de luminosidade e verde, efetuada para todos os pixels. Os pequenos círculos vermelhos e azuis representam os sinais U / V, ou seja, a amostragem (sampling) de cor. A Axis utiliza três padrões diferentes de compressão de vídeo. São eles Motion JPEG, MPEG-4 Part 2 (ou simplesmente MPEG-4) e H.264. O H.264 é o padrão mais recente e mais eficiente de compressão de vídeo. Este capítulo aborda os fundamentos da compressão e descreve cada um dos três padrões já mencionados. Codec de vídeo O processo de compressão envolver a aplicação de um algoritmo ao vídeo de origem para criar um arquivo compactado pronto para transmissão ou armazenamento. Para reproduzir o arquivo compactado, um algoritmo inverso é aplicado para produzir um vídeo que apresenta praticamente o mesmo conteúdo do vídeo original. O tempo necessário para compactar, enviar, descompactar e exibir um arquivo é denominado latência. Quanto mais avançado o algoritmo de compressão, maior será a latência. O par de algoritmos que funcionam juntos é chamado codec (codificador/decodificador) de vídeo. Codecs de vídeo de diferentes padrões normalmente não são compatíveis entre si, ou seja, o conteúdo de vídeo compactado em um padrão não pode ser descompactado em um padrão diferente. Por exemplo, um decodificador MPEG-4 não funciona com um codificador H.264. Isso ocorre simplesmente porque um algoritmo não pode decodificar corretamente a saída gerada por outro algoritmo, mas é possível imple¬mentar muitos algoritmos diferentes no mesmo software ou hardware, permitindo a coexistência de vários formatos. Ronaldo Morant 21 Compressão de imagem x compressão de vídeo Padrões de compressão utiliza a tecnologia de codificação intra-quadro. Os dados são reduzidos dentro de um quadro de imagem pela simples retirada de informações desnecessárias que não são perceptíveis ao olho humano. O Motion JPEG é um exemplo desse padrão de compressão. As imagens em uma seqüência Motion JPEG são codificadas ou compactadas como imagens JPEG individuais. Algoritmos de compressão de vídeo como o MPEG-4 e o H.264 usam a previsão entre quadros (interframe prediction) para reduzir os dados de vídeo entre uma série de quadros. Isso envolve técnicas tais como codificação de diferenças, onde um quadro é comparado com um quadro de referência, e apenas os pixels que se modificaram em relação ao quadro de referência são codificados. Dessa forma, reduz-se o número codificado e enviado de valores de pixels. Quando essa seqüência codificada é exibida, as imagens aparecem exatamente como na seqüência de vídeo original. Outras técnicas tais como compensação de movimento por blocos podem ser aplicadas para reduzir ainda mais os dados. A compensação de movimento por blocos leva em conta que grande parte do que compõe um novo quadro de uma seqüência de vídeo pode ser encontrada em um quadro anterior, mas talvez em um lugar diferente. Essa técnica divide um quadro em uma série de macroblocos (blocos de pixels). Bloco a bloco, um novo quadro pode ser composto ou “previsto” procurando-se um bloco idêntico em um quadro de referência. Se for encontrada uma coincidência, o codificador codifica a posição onde o bloco idêntico deve ser encontrado no quadrode referência. Codificar o vetor de movimento, como ele é chamado, consome menos bits do que se o conteúdo real de um bloco fosse codificado. FORMATOS DE COMPACTAÇÃO Motion JPEG O Motion JPEG ou M-JPEG é uma seqüência de vídeo digital que consiste em uma série de imagens JPEG individuais. (JPEG significa Joint Photographic Experts Group [Grupo Conjunto de Especialistas em Fotografia].) Quando são exibidos 16 ou mais quadros de Com o formato Motion JPEG, as três imagens na seqüência acima são codificadas e enviadas como imagens separadas (quadros I) independentes entre si. TRANSMITIDO NÃO TRANSMITIDO NÃO TRANSMITIDO TRANSMITIDO TRANSMITIDO TRANSMITIDO Ronaldo Morant 22 imagem por segundo, o visualizador perceberá o vídeo em movimento. O vídeo em movimento completo é ser percebido a 30 (NTSC) ou 25 (PAL) quadros por segundo. Uma das vantagens do Motion JPEG é que cada imagem de uma seqüência de vídeo pode ter a mesma qualidade garantida determinada pelo nível de compactação escolhido para a câmera de rede ou o codificador de vídeo. Quanto maior o nível de compactação, menor será o tamanho do arquivo e a qualidade da imagem. Em algumas situações, como em ambientes com baixa luminosidade ou quando uma cena se torna complexa, o tamanho do arquivo de imagem pode ficar bastante grande e consumir mais largura de banda e espaço de armazenamento. Para evitar o aumento do consumo da largura de banda e do espaço de armazenamento, os produtos de vídeo em rede da Axis permitem que o usuário estabeleça um tamanho máximo de arquivo para um quadro de imagem. Como não há nenhuma dependência entre os quadros do Motion JPEG, um vídeo em Motion JPEG é robusto, ou seja, se um quadro for perdido durante a transmissão, o restante do vídeo não será afetado. O Motion JPEG é um padrão não-licenciado. Ele é amplamente compatível e muito usado em aplicações que exigem quadros individuais em uma seqüência de vídeo — por exemplo, par análise — e quando forem usadas baixas velocidades de captura, normalmente 5 quadros por segundo ou menos. O Motion JPEG também pode ser necessário em aplicações que exigem integração com sistemas que operam apenas com esse padrão. A principal desvantagem do Motion JPEG é que ele não usa nenhuma técnica de compactação de vídeo par reduzir os dados, pois se trata de uma série de imagens estáticas completas. O resultado é que esse padrão apresenta uma velocidade de transmissão relativamente alta ou uma baixa proporção de compactação para a qualidade gerada, em comparação com os padrões de compressão de vídeo como o MPEG-4 e o H.264. MPEG-4 Quando mencionamos o MPEG-4 em aplicações de vigilância por vídeo, normalmente nos referimos ao MPEG-4 Part 2, também conhecido como MPEG-4 Visual. Como todos os padrões MPEG (Moving Picture Experts Group, Grupo de Especialistas em Imagens em Movimento), ele é um padrão licenciado, exigindo que os usuários paguem uma taxa de licença por estação de monitoramento. O MPEG-4 opera com aplicações de baixa largura de banda e aplicações que exigem imagens de alta qualidade, velocidade de captura ilimitada e largura de banda praticamente ilimitada. H.264 ou MPEG-4 Part 10/AVC O H.264, também conhecido como MPEG-4 Part 10/AVC (Advanced Video Coding, ou Codificação Avançada de Vídeo), é o padrão MPEG mais recente para codificação de vídeo. Espera-se que o H.264 se torne o padrão de vídeo preferencial nos próximos anos. Isso ocorre porque um codificador H.264 pode, sem comprometer a qualidade de imagem, reduzir o tamanho de um arquivo de vídeo digital em mais de 80%, comparado com o formato Motion JPEG, e até 50% mais do que o padrão MPEG-4. Isso significa que serão necessários muito menos largura de banda de rede e espaço de armazenamento para um arquivo de vídeo. Em outras palavras, é possível obter uma qualidade de vídeo muito mais alta em uma determinada velocidade de transmissão. O H.264 foi definido em conjunto por organizações de normas dos setores de telecomunicações (Grupo de Especialistas em Codificação de Vídeo da ITU-T) e TI (Grupo de Especialistas em Imagens em Movimento do ISO/IEC), e espera-se que ele seja adotado mais Ronaldo Morant 23 amplamente que os padrões anteriores. No setor de vigilância por vídeo, é muito provável que o H.264 encontre a adesão mais rápida em aplicações que exijam altas velocidades de captura e uma alta resolução, como na vigilância de rodovias, aeroportos e cassinos, onde o uso de 30/25 (NTSC/PAL) quadros por segundo é a norma. Isso ocorre quando a economia da redução da largura de banda e quando as necessidades de espaço de armazenamento geram a maior economia. Também se espera que o H.264 acelere a adoção de câmeras megapixel, pois a tecnologia de compactação altamente eficiente pode reduzir o tamanho dos arquivos e as velocidades de transmissão geradas, sem comprometer a qualidade das imagens. Entretanto, existem prós e contras. Embora o padrão H.264 proporcione economia de largura de banda de rede e custos de armazenamento, ele exige câmeras de rede e estações de monitoramento mais velozes. Os codificadores H.264 da Axis usam o perfil básico, ou seja, são usados apenas os quadros I e P. Esse perfil é ideal para câmeras de rede e codificadores de vídeo, pois a baixa latência se deve ao fato de que não são usados quadros B. A baixa latência é essencial em aplicações de vigilância por vídeo quando ocorre monitoramento ao vivo, especialmente quando forem usadas câmeras PTZ ou câmeras PTZ com cúpula. GOP (Group of Pictures) Técnica de agrupamento de imagens empregada na compressão do tipo multi-frame, como no formato MPEG2. Os quadros que compõem a imagem de vídeo são trabalhados em conjuntos, dentro dos quais ocorre o processo de compressão. O primeiro quadro dentro de cada conjunto chama-se "I-frame" (abreviação de intra-frame) e é comprimido isoladamente, utilizando não o modo multi-frame e sim o intra-frame - daí seu nome. A partir deste quadro inicial, dois tipos de quadros são gerados: os quadros "B" e os quadros "P". Quadros "P" ("P-frame", de predicted-frame) são quadros que carregam as diferenças entre o primeiro quadro ("I-frame") do conjunto e os demais. Assim, o conjunto de quadros que compõem a cena de um avião cruzando o céu azul é Ronaldo Morant 24 dividida em diversos sub-conjuntos. Para cada um desses subconjuntos, o primeiro quadro é comprimido no modo intra-frame e a seguir armazenado: é o "I-frame". A seguir, os quadros subsequentes ("P-frames") irão armazenar somente as diferenças em relação ao "I-frame", ou seja, as diferentes posições ocupadas pelos pixels correspondentes à imagem do avião em relação à suas posições no "I-frame". Chroma Key É um efeito especial onde um sinal de vídeo e inserido no lugar de determinada cor de outro sinal de vídeo. O azul e o verde são as cores mais frequentemente usadas. A Inserção de imagens em áreas com essas cores, permitem qualquer tipo de fundos, obtendo- se um efeito similar ao da retro-projeção. O azul e o verde são escolhidos por serem as cores que menos participam da composição cromática da pele humana. O SINAL DA TV AO VIVO O sinal da televisão é transmitido por ondas eletromagnéticas através de cabos coaxiais (via terrestre) ou por enlaces de microondas. De uma forma ou de outra, as emissoras se interligam aos Centros de TVs da Embratel, que no Brasil é a responsável pelo tráfego de sinais de telecomunicações. Toda grande cidade possui um CTV. Microonda em Visibilidade Um dos meios usados é a microonda em visibilidade. As antenas retransmissoras ficam instaladas em pontos elevados a uma distância de 50 quilômetros em média. Elas recebem e retransmitem o sinalaté as estações terminais localizadas nas cidades. + = Ronaldo Morant 25 Sinal Via Satélite O satélite de comunicação permite o acesso múltiplo, ou seja, várias estações terrestres podem manter comunicação simultânea com o satélite, transmitindo ou recebendo informações. As ondas eletromagnéticas do sinal da televisão trafegam também pelos satélites. A geração nacional de uma emissora, por exemplo, usa o canal permanente de um satélite durante 24 horas por dia. O satélite de comunicação permite o acesso múltiplo, ou seja, várias estações terrestres podem manter comunicação simultânea com o satélite, transmitindo ou recebendo informações. O sistema nacional de telecomunicações foi bastante simplificado para facilitar a compreensão. Na verdade, as operações são extremamente técnicas e complexas, envolvendo satélites e várias estações da Embratel. No Brasil, o sinal da emissora geradora (1) é enviado a uma estação da Embratel (2) que transmite o sinal ao satélite (3), de onde ele é retransmitido a vários pontos de recepção ou regiões do país. A emissão/recepção de sinal pode ser feita em VHF (very high trequency), limitada no Brasil aos canais de 2 a 13, e em UHF (ultra high frequency), que dispõe dos canais de 14 a 59. A diferença entre VHF e UHF Frequências de operação: Os satélites de comunicação usam as faixas: • Banda C (4 a 8GHz) é a mais utilizada nas transmissões telefônicas interurbanas e internacionais, bem como na transmissão de TV; • Banda X (12,5 a 18GHz) é de uso militar; • Banda Ku (12,5 a 18GHz) e Ka (18 a 40 GHz) permite a TV por assinatura via satélite. Ronaldo Morant 26 está na forma de propagação das ondas eletromagnéticas. No VHF a freqüência é mais baixa e as ondas têm alcance menor. No UHF, a freqüência é mais alta e o raio de ação, melhor. As antenas retransmissoras espalhadas pelo país amplificam o sinal recebido de forma a manter a qualidade da imagem. Até há pouco tempo usado para melhorar a recepção dos sinais no interior, os canais UHF agora estão sendo utilizados na implantação de TVs por assinatura. Para que o telespectador receba em casa a programação da TVA, precisa, além de fazer uma assinatura, ter um aparelho que decodifique o sinal. Transmissão por Microondas Em uma operação ao vivo, exige veículos com antenas de microondas (Unidade Móvel) geradoras e receptoras de ondas eletromagnéticas, que no caso do Rio de Janeiro - havendo “VISUAL” - o sinal é transmitido da U.M. para a antena da emissora no Sumaré, e de lá é retransmitido para a antena na emissora, como na figura 1. Mas a topografia do lugar deve ser adequada para que o enlace (link) seja feito. Se a região tiver muitos obstáculos, como montanhas e edifícios - caso típico do Rio de Janeiro - é preciso “Rebater” o sinal para antenas de microondas distribuídas em pontos estratégicos da cidade como na figura 2. Up Link Outro sistema para transmissão de sinal ao vivo via satélite, é o usado por antenas de microondas portáteis (mini- parabólicas) chamadas de “Up- Link” (mesmo nome do sinal que sobe para o satélite), que transmite em banda larga, podendo enviar o sinal de video de qualquer lugar do planeta. Sumaré TV TV Fig. 1 U.M. ou Geradora TV U.M. ou Geradora Fig. 2 Ronaldo Morant 27 LiveU Sistema desenvolvido pela empresa LiveU que proporciona tecnologia para emissoras de televisão permitindo links de vídeo ao vivo através de redes celulares sem fio. O LiveU oferece uma gama de dispositivos para cobertura de vídeo ao vivo, incluindo mochilas, software e aplicativos móveis. As soluções da LiveU incluem múltiplos links celulares 4G LTE/ 3G, HSPA+, WiMAX e Wi-Fi, otimizados para a máxima qualidade de vídeo com base nas condições de rede disponíveis. CUIDADOS COM AS FITAS Cabeça de gravação (cabeçote) Suja: Cabeça fechada: Drop Frame: DICA: Uma maneira eficiente de se limpar o cabeçote do gravador numa emergência é utilizar uma fita “virgem” e ficar rebobinando várias vezes em modo “search” (forward/rewind). Se o cabeçote fechar, o tempo desse processo terá que ser triplicado ou mais. Fitas Amassadas (analógicas): Digital Digital Analógica Fita Amassada Fita Amassada no Ponto. Fita Amassada na Borda. Digital Analógica Drop Frame Ronaldo Morant 28 ÁUDIO DIGITAL Audição Humana A audição ocorre através de processos físicos no ouvido e no sistema nervoso que se combinam para nos dar as sensações sonoras. A sensação que temos não é exatamente a mesma que corresponde à forma de onda presente no canal auditivo porque alguma entropia é perdida. A faixa de frequências de ressonância da membrana basilar determina a faixa auditiva humana, normalmente indo de 20 Hz a 15 Hz. Essa faixa muda conforme a idade e de pessoa para pessoa. Frequências diferentes na entrada fazem com que diferentes áreas da membrana vibrem. Cada área tem terminações nervosas diferentes para permitir a determinação da nota correspondente. A membrana basilar também possui músculos delicados controlados pelos nervos que, agindo em conjunto, funcionam como um sistema de feedback positivo capaz de aumentar o fator Q na ressonância. Esse limiar ressonante da membrana basilar é exatamente igual ao limiar de um analisador de transformada. De acordo com a teoria da incerteza das transformadas, mais preciso é o domínio de frequências de um sinal, menos precisamente o domínio dos tempos é conhecido. Consequentemente, quanto maior for a capacidade de uma transformada de discriminar duas frequências, menos ela será capaz de discriminar o tempo entre dois eventos. O ouvido humano tem um certo compromisso que equilibra a discriminação pela incerteza no tempo com a discriminação pela incerteza da frequência. Nesse equilíbrio nenhuma das duas capacidades é perfeita. O resultado de uma discriminação imperfeita de frequência é a incapacidade que temos de separar frequências que estejam muito próximas. Essa inabilidade é conhecida como mascaramento auditivo e é definida como a sensibilidade reduzida a um som em presença de outro. Psicoacústica A psicoacústica é essencialmente o estudo da percepção do som. Isso inclui como ouvimos, nossas respostas psicológicas e o impacto fisiológico da música e do som no sistema nervoso humano. No âmbito da psicoacústica, os termos música, som, frequência e vibração são intercambiáveis. O estudo da psicoacústica disseca a experiência auditiva. A compressão do áudio A compressão de áudio consiste em eliminar informações redundantes (utilizando-se os resultados obtidos pela psicoacústica), gerando arquivos de áudio menores. Numa música, um longo período com amostras de som com o mesmo valor, poderia ser substituído por um pequeno código dizendo que a mesma frequência deve ser repetida X vezes por exemplo. Podemos também eliminar informações que exercem pouca influência sobre a qualidade do som, eliminando pequenas variações. Até certo ponto, é possível compactar o som sem nenhuma perda de qualidade (substituindo sequências de sons iguais por códigos que dizem que o som deve ser repetido, por exemplo). Mas chega uma hora que é preciso abrir mão de um pouco da qualidade, para Ronaldo Morant 29 gerar arquivos menores, assim como sacrificamos um pouco da qualidade de uma imagem gravada em BMP quando a convertemos para o formato JPG, passando a ter, porém, um arquivo muitomenor. Exemplos de algoritmos de compactação de áudio são o ADPCM, o True Speech e o MPEG3, mais popularmente conhecido como MP3, o formato de compressão mais popular. O MP3 permite uma compactação de arquivos WAV de 9 ou 10 para 1, ou seja, uma música de 4 minutos que corresponderia a um arquivo WAV de 42 MB, poderia ser convertida em um MP3 com cerca de 4 MB, sem qualquer perda significativa na qualidade do som. O MP3 consegue esta façanha através da eliminação de frequências sonoras que não são captadas pelo ouvido humano, mas que servem para engordar os arquivos sonoros. O ruído de uma folha caindo durante um tiroteio, sem dúvida não faria falta alguma, assim como o som gerado por um apito de cachorro, que também não é audível para nós. Convertendo um arquivo WAV para MP3, a degradação do som é muito pequena, apenas uma pequena distorção nos sons graves, mas que não é percebida pela maioria das pessoas. Outro formato que vem ganhando bastante popularidade é o VQF, que usa um algoritmo de compactação mais eficiente que o usado pelo MP3, gerando arquivos até 30% menores. O problema do VQF é que, devido à complexidade do algoritmo, a descompactação dos arquivos é extremamente trabalhosa, exigindo um processador poderoso. Enquanto num mero Pentium 133, ouvir uma música em MP3 usando o Winamp consome apenas 30% dos recursos do processador, é preciso pelo menos um Pentium 200 para ouvir uma música em VQF com qualidade, o que está dificultando a popularização deste novo formato. Mais um formato relativamente novo é o WDM da Microsoft. Além de remover as frequências que não são audíveis, este formato destaca os sons que são mais perceptíveis, recurso chamado de "ringing". O objetivo principal deste formato é concorrer com o Real Audio no ramo de transmissões de áudio via Internet, onde, devido à banda estreita, o som precisa ser altamente compactado. Para você ter uma ideia, um modem de 33.6k é capaz de receber cerca de 3,5 KB de dados por segundo, quando a comunicação está boa claro, o que daria um total de 210 KB por minuto, menos de 1/5 do necessário para um MP3 com qualidade de CD. Como em geral, dificilmente conseguimos manter uma taxa de download tão alta, é preciso gerar áudio ainda mais compactado. Usando taxas de compactação tão altas, não é possível manter uma qualidade muito boa, mas segundo a Microsoft os recursos do WDN permitem áudio com uma qualidade superior à do Real Áudio e outros formatos semelhantes. O WDM permite vários níveis de compressão e por isso também pode ser usado para gerar arquivos com qualidade semelhante à do CD, concorrendo neste caso com o MP3. Porém, numa comparação direta, apesar dos arquivos em WDM serem cerca de 35% menores que os equivalentes em MP3, temos uma qualidade bastante inferior, pois na verdade é utilizado um Bit-rate menor e aplicado o recurso de ringing, resultando num nível de distorção muito alto. Atualmente, o único formato de áudio capaz de gerar arquivos menores que o MP3 mantendo a mesma qualidade ainda é o VQF Técnicas de Compressão Existem uma infinidade de técnicas e algoritmos que implementam a redução de bit rate do áudio e a cada Convenção da AES (Áudio Engineering Society) novas filosofias são apresentadas. Conceituou-se duas filosofias de compressão, aquelas com perdas e as sem Ronaldo Morant 30 perdas. Entretanto, este conceito não é tão óbvio e, dependendo de diversas condições, uma técnica convencionada como Lossy (com perdas) pode não possuir perdas, como veremos mais a frente. Atualmente existem uma infinidade de técnicas e algoritmos no mercado, mas, na grande maioria dos casos, são combinações de algumas das filosofias abaixo, as quais comentaremos: Formatos com compressão e perda de qualidade A maioria dos formatos de arquivo de áudio apresenta uma compressão considerável para diminuir seu tamanho e ser mais fácil de armazená-lo e transferi-lo. É o que acontece, por exemplo, com o MP3 e outros tipos similares. Isso, porém, faz com que muito da qualidade desapareça, em alguns casos até prejudicando a reprodução. No entanto, caso você queira apenas ouvir um pouco de música sem muita exigência, é o tipo perfeito de arquivo de áudio. AAC (Advanced Audio Coding) O AAC surgiu em meados de 1997 com uma missão ambiciosa: tomar o trono do MP3 como formato mais popular. Como é de se imaginar, a tentativa foi em vão, apesar de o formato ser superior em alguns quesitos, como no algoritmo de compressão, que o deixa com uma qualidade um pouco superior à do MP3. Ainda é bastante usado em plataformas como o iTunes, o Android, o iOS e o YouTube. MP3 (MPEG-1 Audio Layer 3) Talvez o formato mais popular quando tratamos de músicas, o MP3 foi espalhado pelo mundo com o advento das plataformas de compartilhamento musical, como o Napster, o eMule, o Audiogalaxy e o KaZaa. Apesar da perda de qualidade desse tipo de arquivo, ele é bastante leve e se tornou muito popular por ser fácil de ser transferido através das conexões lentas dos anos 1990. É reconhecido por praticamente qualquer player de áudio no mercado. OGG (Derivado de “ogging”, um jargão tirado do jogo “Netrek”) O OGG, na verdade, é uma espécie de “formato contêiner” feito com o objetivo de facilitar a manipulação e o streaming de material multimídia digital de alta qualidade. Ele engloba uma série de formatos menos conhecidos, como OGV, OGA, OGX, OGM, SPX e OPUS, para facilitar sua reprodução sem a necessidade da instalação de outros plugins. Geralmente, é mais utilizada por quem trabalha com formatos abertos. WMA (Windows Media Audio) Seguindo também no mesmo caminho do MP3, o WMA teve a pretensão de corrigir algumas falhas do popular formato. Apesar de tecnicamente superior, o WMA não conseguiu destronar o MP3 mesmo tendo como criadora ninguém menos que a Microsoft. Um dos principais problemas para emplacar o WMA foi a limitação de programas capazes de reproduzi-lo, todos sempre ligados à empresa fundada por Bill Gates, enquanto o MP3 funcionava com qualquer outro player. Formatos com compressão sem perda de qualidade Alguns arquivos conseguem comprimir os dados de áudio sem perder qualidade e, por isso, são os preferidos pelos aficionados por música mais exigentes. Apesar de Ronaldo Morant 31 compactados, esses arquivos ainda ocupam uma quantidade consideravelmente maior de espaço de armazenamento, o que pode ser um ponto negativo caso seu disco rígido seja limitado ou você queira transferir grandes quantidades pela internet. ALAC (Apple Lossless Audio Codec) O ALAC é um formato de arquivo de áudio criado pela Apple para rivalizar com o FLAC (que veremos a seguir). Apesar da tentativa, esse tipo de arquivo é mais pesado que o FLAC, mas, assim como o concorrente, também possui código aberto. Plataformas da Apple, como o iTunes e o iOS, bloqueiam a reprodução do FLAC em favorecimento ao seu próprio tipo de arquivo, que apresenta uma qualidade bastante alta. FLAC (Free Lossless Audio Codec) O FLAC talvez seja o formato de arquivo de áudio compactado sem perda de qualidade mais popular atualmente. Lançado em 2001, o FLAC é um formato de código aberto e capaz de ser cerca de 60% menor do que o arquivo original sem nenhuma perda de qualidade. Ele é reconhecido por uma boa quantidade de players, o que tem feito o formato ser um grande concorrente do MP3 para quem exige uma maior qualidade musical e não tem limitações de armazenamento de dados. WMA (Windows Media Audio) Se você acha que o redator confundiu tudo e colocou o WMA duas vezes na lista, você está enganado. O WMA, além de possuir sua versão comprimida com perda de qualidade, também tem um formato lossless. Porém, ele acaba gerando arquivos maiores do que seus concorrentes e ainda conta com o mesmo problema da variante com redução deatributos: apenas plataformas da Microsoft reproduzem a extensão. Formatos sem compressão Os áudios com esses formatos reproduzem digitalmente com precisão todo o espectro sonoro (audível ou inaudível) sem comprimir nada ou perder bits de informação. Geralmente, são arquivos enormes, que ocupam algo em torno de 34 MB de espaço de armazenamento para cada minuto de áudio. Assim, uma música de 4 minutos vai ocupar 136 MB, o que em MP3 seria o equivalente, mais ou menos, a dois álbuns de tamanho médio. AIFF (Audio Interchange File Format) O AIFF foi criado pela Apple em 1988 tendo como base o IFF, formato utilizado nos antigos sistemas Amiga. Ele também é um contêiner para outros tipos de áudio reconhecidos pelo Mac OS e é geralmente reproduzido apenas por sistemas desenvolvidos pela Apple. PCM (Pulse-Code Modulation) O PCM é um método usado para representar digitalmente sinais analógicos de áudio. É o formato-padrão usado em CDs, DVDs, nos sistemas de telefonia, na indústria fonográfica e cinematográfica. Nesse tipo de arquivo, a amplitude do sinal analógico é amostrada regularmente em intervalos uniformes (pulsos), e cada amostra é quantizada no valor mais próximo dentro de uma gama de passos digitais. Esse formato é, talvez, o que mais se aproxima do som analógico. Ronaldo Morant 32 WAV (Waveform Audio File Format) O mais popular entre os formatos de áudio sem compressão foi criado em 1991 pela Microsoft e pela IBM e durante os anos 1990 foi o principal tipo de arquivo de som digital, especialmente por ser padrão no Windows. Funcionando também como um contêiner de formatos, alguns arquivos desse tipo podem ser compactados, mas geralmente o WAV contém áudio descomprimido de alta qualidade e pode ser reproduzido pela maioria dos players. Resumo No fim das contas, o mais importante é saber diferenciar entre os três tipos principais de arquivo de áudio: comprimidos com perda de qualidade, comprimidos sem perda de qualidade e sem compressão, e entre eles, utilizar os formatos mais populares, que podem ser reproduzidos com maior facilidade em plataformas mais conhecidas. Resumindo: Formatos com compressão e perda de qualidade: para quem quer armazenar muitos arquivos em pouco espaço e não tem grande exigência de qualidade. Bom para curtir músicas que não demandam atributos muito detalhados, como o som de uma festa, por exemplo, ou aquele som que você curte nos fones de ouvido para passar o tempo no ônibus indo para o trabalho. Formato favorito: MP3. Formatos com compressão sem perda de qualidade: para quem gosta de apreciar música com mais detalhes, mas ainda assim não faz disso algo totalmente sério ou profissional. Como os arquivos ocupam mais espaço, vão exigir um armazenamento maior, mas nada que seja impossível de obter. Os formatos lossless são fáceis de encontrar, e você pode rodá-los em diversos dispositivos. Formato favorito: FLAC. Formatos sem compressão: ideal para quem trabalha com captação de áudio ou utiliza arquivos sonoros profissionalmente. Como esses formatos apresentam a melhor qualidade possível, isso garante uma produção impecável quando se trata de som. Após o trabalho realizado, como a edição da trilha sonora de um vídeo, por exemplo, você ainda tem a opção de exportar o resultado final para arquivos comprimidos a fim de que ele ocupe menos espaço. Formato favorito: WAV.
Compartilhar