Baixe o app para aproveitar ainda mais
Prévia do material em texto
PROCESSAMENTO DE IMAGENS IMAGEM DIGITAL – PARTE 2 PRÉ - PROCESSAMENTO Na aquisição da imagem, ela é capturada por um sensor. Os tipos de dispositivos utilizados são o charged coupled device (CCD) ou o complementary metal oxide semicondutor (CMOS). São dispositivos de estado sólido. Eles são circuitos integrados compostos de elementos que geram uma corrente elétrica quando a luz incide sobre eles. Existem diferenças na maneira como a energia luminosa é transformada em energia elétrica e em como o sinal é processado em cada um dos dispositivos. O CMOS tem a corrente elétrica amplificada em cada uma das células fotoelétricas, ao passo que o CCD realiza este processo cruzando os dados das linhas de células fotoelétricas. O sinal do CMOS é muito mais ruidoso que o do CCD, mas avanços tecnológicos recentes permitiram reduzir esse ruído e possibilitaram o surgimento de uma nova geração de câmeras e filmadoras. O CCD pode trabalhar em intensidade de luz muito mais baixa que a do CMOS. A descrição da imagem dependerá do tipo e do tamanho do dispositivo, da iluminação, do número de células fotoelétricas e do número de níveis de cinza ou de cores, dentre outros fatores. Os equipamentos de captura de imagem podem ter um ou três dispositivos do tipo CCD ou CMOS. Um conjunto de três prismas foi projetado para separar a luz em suas três componentes primárias e é chamado de prisma tricoico. Com ele, o verde, o vermelho ou o azul são enviados para direções diferentes. Toda a luz de cada uma das componentes de cor é capturada por cada um dos sensores. O sinal que sai de cada um dos CCD é analógico, pois se trata de uma corrente elétrica. Em seguida, a corrente é amplificada e filtrada, para reduzir o ruído. Somente depois disso o sinal analógico é convertido em sinal digital. Para um sensor apenas, a câmera utiliza um filtro na frente do dispositivo a fim de separar as cores. É uma malha de filtros verdes, azuis e vermelhos, em geral na proporção de 50%, 25% e 25%, respectivamente. Uma camada com lentes, na parte superior, associada à malha, completa o conjunto. Câmeras com apenas um dispositivo do tipo CMOS e filtro de Bayer têm sido utilizadas com sucesso. Oscars foram obtidos por produções que utilizaram esse tipo de captura de imagem como Avatar e As Aventuras de Pi. As câmeras de celular e as câmeras fotográficas digitais também utilizam essa estratégia, assim como os scanner. AMOSTRAGEM E QUANTIZAÇÃO Para ser representado digitalmente, o sinal da imagem gerado nos dispositivos é amostrado e quantizado. Na amostragem e na quantização, o sinal analógico tem de ser representado por bits. A amostragem é o processo de discretização do domínio de definição da imagem bidimensional, nas duas direções ortogonais, x e y, para gerar uma matriz de M x N amostras. Cada elemento dessa matriz é chamado de pixel. A quantização, por sua vez, é o número inteiro de níveis de cada componente de cor em uma imagem permitidos para cada pixel. Esse número inteiro de níveis é representado pelo número de bits. A aplicação de um conjunto ou outro de componentes depende do momento em que a imagem está sendo trabalhada e de sua finalização para exibição. A quantidade de combinações dessas componentes para gerar todas as cores possíveis é determinada pela quantidade de bits. Um bit permite a representação de duas cores; dois bits, quatro; três bits, oito; e, de forma geral, n bits permitem representar 2 cores. n A imagem representada por 8 bits por componente, que é a mais utilizada ainda hoje, conhecida como Truecolor, com 24 bits de valores de cor, ou 16,7 milhões, será inevitavelmente substituída por essas novas profundidades de cor, devido ao aumento da capacidade de processamento e à melhora da qualidade visual da imagem. Para a Truecolor, com 8 bits por componente de cor, temos 256 valores de cor para o vermelho, 256 para o verde e 256 para o azul. A imagem resultante tem 16,7 milhões valores diferentes de cor, ou 24 bits. Nos formatos de cinema digital mais utilizados, o número de cores possíveis para cada pixel tem 10 ou 12 bits por componente de cor. RESOLUÇÃO ESPACIAL, PROFUNDIDADE DE COR E ALCANCE DINÂMICO A qualidade da imagem digital depende da resolução espacial e da profundidade de cor. A resolução espacial está relacionada com a densidade de pixels da imagem, ou seja, com a amostragem. A profundidade de cor está associada ao número de níveis de quantização da imagem que é uma potência de 2, dependendo do número de bits. Para cada canal de cor, ela é igual a 8 para a televisão digital de definição padrão (SDTV) e 8 ou 10 para a televisão digital de alta definição (HDTV). O cinema digital tem oferecido a possibilidade de se trabalhar com 12 bits por canal de cor. Além do aumento da resolução e da profundidade de cor, a forma como os valores de luminosidade são distribuídos também afeta a experiência visual. A faixa ou alcance dinâmico consiste na diferença entre o valor mais alto e o valor mais baixo. A distribuição da percepção da luminosidade na visão humana não é linear; ela distingue mais nuances nas cores mais escuras do que em cores mais brilhantes. O comportamento é semelhante às películas, seguindo aproximadamente uma curva logarítmica. Os sensores de estado sólido utilizados para capturar a imagem digital tem um comportamento linear. A solução, em todos esses métodos de captura de imagem, é aumentar a profundidade de cor em bits e distribuir esses valores em uma curva logarítmica, com maior número de valores na região das sombras do que na região de alto brilho. A adoção dessa estratégia, com as cores sendo representadas com 10 bits ou mais e com resolução cada vez maior em sensores com área útil maior, tem permitido aproximar a experiência visual da imagem digital da qualidade visual da película. Além desses conceitos, existe a razão de aspecto, ou fator de forma, da imagem, que é a razão entre sua largura e sua altura. PROFUNDIDADE DE CAMPO E TAMANHO DOS SENSORES A profundidade de campo é a região em torno do plano focal que ainda apresenta nitidez da imagem. A visão deixa em foco uma área próxima à fóvea, que é o ponto da retina que cruza o eixo óptico. A profundidade de campo em uma câmera é determinada pela lente, a abertura da íris e o tamanho do dispositivo que captura a imagem. Quanto menor o dispositivo que captura a luz, seja o fotograma ou o sensor de estado sólido, maior será a profundidade de campo, devido ao tipo de lente que deverá ser usada para imprimir a imagem na área do dispositivo. Essa diferença pode ser percebida comparando-se a imagem capturada por câmeras de cinema de 35 mm e câmeras de vídeo com sensores de ¾ de polegada ou menos, como eram as câmeras de televisão antes da HDTV. A profundidade de campo nas imagens das câmeras de 35 mm se aproxima da profundidade de campo que enxergamos no mundo real. Sensores de estado sólido atingiram dimensões físicas equivalentes ao fotograma da película, permitindo a fabricação de câmeras de cinema com esses sensores. As câmeras digitais, então, utilizam o mesmo conjunto de lentes das câmeras com película. O aumento da área útil dos sensores, o aumento do número de fotocélulas, a diminuição do seu tamanho e a representação de um maior número de cores impulsionou o seu uso em câmeras de cinema. CADÊNCIA DAS IMAGENS A imagem em movimento possui uma cadência de exibição de quadros por segundo (FPS ou Frame Rate) O cinema trabalha com 24 quadrospor segundo; a televisão e o vídeo analógicos, com 25 ou 30, em dois tipos de quadro. No caso do vídeo entrelaçado, cada quadro (frame) pode ser dividido em dois campos (field). Cada campo faz a varredura das linhas horizontais pares ou ímpares, as quais são exibidas no formato entrelaçado (interlaced), para o vídeo analógico. Os dois campos formam o quadro, ou frame, da imagem. A imagem pode também ser exibida com o quadro sem divisão por campos, no caso do vídeo progressivo. É o que ocorre no cinema digital, na exibição nos monitores de computador e na HDTV. O vídeo digital pode utilizar quadros entrelaçados (i) ou progressivos (p), nas cadências 24p, 25p, 30p, 50i ou 60i. As imagens entrelaçadas exibem um “fantasma” quando são paradas, isto é, quando se exibe apenas um frame. Isso acontece porquê os dois fields estão sendo exibidos simultaneamente, mas, na verdade, eles são gravados em momentos diferentes. A inversão da ordem dos fields gera o efeito de serrilhamento das bordas da imagem. As câmeras e os equipamentos de pós-produção permitem configurar qual campo será gravado primeiro. Esse problema é muito comum nos comerciais de televisão ou nas vinhetas da programação de televisão. Esse defeito pode ser detectado visualmente. Se o problema está ocorrendo, os campos devem ser invertidos. O vídeo traz a informação da posição no tempo de cada quadro de imagem. Essa informação é chamada de timecode, ela é representada por uma sequência de números, com os dados de horas, minutos, segundos e frames. O timecode permite localizar precisamente qualquer quadro do vídeo. O vídeo na cadência de 30 quadros por segundo tem uma particularidade quanto a sua evolução tecnológica: Ele, na verdade, tem uma taxa de 29,97 frames por segundo, e não 30. Sendo assim ocorre uma discrepância entre o número de frames e o timecode. A solução encontrada para igualar as duas contagens é chamada de drop frame ou non drop frame.Na primeira, a cada um minuto, são tirados dois quadros do timecode, exceto no décimo minuto. No segundo caso, para cada quadro do vídeo existe um timecode sequencialmente. Essas diferenças podem gerar problemas de sincronização entre o áudio e o vídeo; deve-se entender precisamente com qual tipo de vídeo se está trabalhando. PULLDOWN A televisão sempre exibiu filmes na sua programação. No entanto, as cadências do cinema e da televisão são diferentes. No caso do Brasil, deve-se transformar os 24 fps do cinema em 30 fps da televisão. Para a televisão entrelaçada, o problema é ainda maior, pois são 60 campos de imagem. A solução para esse problema foi encontrada, após diversas outras propostas, por meio do telecine e o processo de pulldown. No pulldown, a velocidade do filme é reduzida de 1/1000, o que é imperceptível para o espectador. Dessa maneira, a razão entre a cadência do filme, que fica em 24,976 fps, e do vídeo, que está a 29,97 fps, é igual a 4/5. Assim, os frames do filme devem ser distribuídos pelos campos do vídeo. Para fazer isso utiliza-se um esquema: Nesse esquema, nota-se que existem quadros com frames “puros” do filme e quadros com frames misturados. Em um processo de montagem de cinema, o filme telecinado e editado offline em uma ilha não linea, gerando uma lista de corte com as marcações dos quadros originais do filme, apesar de ser cortado como vídeo. As filmadoras e câmeras de vídeo digitais também permitem gravar em diferentes cadências. Muitas vezes tem-se optado por gravar em 24 fps, para depois haver o processo para exibição na televisão. Isso gera uma série de artefatos quando o processo não é feito de forma cuidadosa e metódica. Nunca se viu tantos problemas com artefatos como atualmente na televisão brasileira, seja por problemas de sequenciamento dos fields, seja por problemas de pulldown ou de compressão de imagem. CODIFICAÇÃO E DECODIFICAÇÃO DA IMAGEM (CODEC) As técnicas de compressão de imagens foram criadas para se adequar, em cada época, ao espaço de armazenamentos em discos e fitas, à quantidade de processamento de dados e ao tempo de transmissão de imagens. Com isso, reduz-se a quantidade de pits para descrever a imagem e é possível transferir maior quantidade de informações relevantes com a mesma taxa de transferência de bits (bitrate). Os formatos de compressão e descompressão são chamados de codecs, conhecidos também como codificadores e decodificadores. Eles podem ser classificados em compressão com perda e sem perda. A compressão sem perdas baseia-se unicamente na redução de redundância estatística. A imagem resultante, após a descompressão, é exatamente igual a original. A compressão com perdas baseia-se na redução de redundância estatística e na eliminação de informações perceptivelmente pouco relevante. O sistema visual humano é mais sensível a variações de luminância que de cor (crominância). Dessa maneira, a luminância é representada de forma mais complexa que a crominância na compressão com perdas. Para manipular digitalmente uma imagem, deve- se conhecer como ela está representada e codificada, ou comprimida. Trabalhar com a imagem digital envolve o processo de rapidamente decodificar a imagem, manipulá-la e codifica-la novamente. Os hardwares e softwares que lidam com a imagem em movimento oferecem a possibilidade de trabalhar com diferentes níveis de qualidade de imagem, dependendo de seus recursos intrínsecos. A maneira como o vídeo é descrito digitalmente também determina o que se pode fazer com ele. A compressão dos dados gerados pela imagem em movimento pode ser obtida por métodos baseados em softwares ou em uma combinação de software e hardware. Os métodos mais poderosos de compressão são obtidos pela combinação de hardware e software. Diversos formatos de imagem em movimento foram criados para lidar com isso. Dois sistemas importantes de compressão são apoiados em hardware e software: O Joint Photographic Experts Group (JPEG) e o Motion Pictures Experts Group (MPEG) A proposta do MPEG, diferentemente do JPEG, é ser utilizado apenas para imagens em movimento e áudio, e foi criado por um comitê de indústrias em 1988. Ele começou a definir formatos em 1990, com base em largura de banda de transmissão. A proposta do MPEG, diferentemente do JPEG, é ser utilizado apenas para imagens em movimento e áudio, e foi criado por um comitê de indústrias em 1988. Ele começou a definir formatos em 1990, com base em largura de banda de transmissão. FORMATOS DE IMAGENS DIGITAIS EM MOVIMENTO A imagem digital em movimento possui uma ampla gama de formatos, seja para a televisão, o cinema ou as novas mídias. Novos formatos têm se somado aos existentes nos últimos anos, como o HDV de 2003, e outros estão por ser estabelecidos definitivamente, como o intervalo 2k a 4k e o 8k para o cinema. Eles são definidos a partir de acordos da indústria, para padronizar a produção de equipamentos de aquisição, processamento e exibição de imagens, gerando a melhor relação custo/benefício. Cada formato baseia-se em uma definição de taxa de compressão, resolução espacial, razão de aspecto, amostragem, profundidade de cor e bitrate. Em 2006, o Brasil adotou o sistema de televisão digital japonês, o Integrated Services Digital Broadcasting (ISDB), no mundo existem também o sistema norte-americano chamado de ATSC e o europeu DVB O SDTV, para o NTSC e o PAL-M, tem resolução de 640x480 pixels ou 720x480 pixels, com frames progressivos ou entrelaçados. Alguns formatos de vídeo SD são:O SDTV, para o NTSC e o PAL-M, tem resolução de 640x480 pixels ou 720x480 pixels, com frames progressivos ou entrelaçados. Alguns formatos de vídeo SD são: - XDCAM (Sony) - DVCAM (Sony) - DVCPRO (Panasonic) - DVCPRO50 (Panasonic) - D-9 OU Digital-S (JVC) - DV e mini-DV O formato HD tem resolução de 1280 por 720 pixels (720p) ou 1920x1080 (1080i ou 1080p) no HDTV full. Alguns formatos de vídeo HD são: O formato HD tem resolução de 1280 por 720 pixels (720p) ou 1920x1080 (1080i ou 1080p) no HDTV full. Alguns formatos de vídeo HD são: - HDCAM e HDCAM SR (Sony) - DVCPro-HD/ DV100/ D7-HD (Panasonic) EXERCÍCIO!!! Pesquise sobre a qualidade atual das câmeras digitais comparada com a qualidade dos filmes analógicos e elabore um texto com o resultado da pesquisa destacando vantagens e desvantagens de ambos equipamentos. PROCESSAMENTO DE IMAGEM IMAGEM DIGITAL – PARTE 2 Livro - Imagem Digital Aplicada Gomide, João Victor Boechat Paulo Lepletier-UNIP 2018
Compartilhar