Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

<p>W</p><p>BA</p><p>08</p><p>85</p><p>_V</p><p>1.</p><p>0</p><p>PRÁTICAS PERICIAIS EM</p><p>REGISTROS AUDIOVISUAIS</p><p>2</p><p>Juliane Adélia Soares</p><p>Yuri Vasconcelos de Almeida Sá</p><p>São Paulo</p><p>Platos Soluções Educacionais S.A</p><p>2021</p><p>PRÁTICAS PERICIAIS EM REGISTROS</p><p>AUDIOVISUAIS</p><p>1ª edição</p><p>3</p><p>2021</p><p>Platos Soluções Educacionais S.A</p><p>Alameda Santos, n° 960 – Cerqueira César</p><p>CEP: 01418-002— São Paulo — SP</p><p>Homepage: https://www.platosedu.com.br/</p><p>Diretor Presidente Platos Soluções Educacionais S.A</p><p>Paulo de Tarso Pires de Moraes</p><p>Conselho Acadêmico</p><p>Carlos Roberto Pagani Junior</p><p>Camila Braga de Oliveira Higa</p><p>Camila Turchetti Bacan Gabiatti</p><p>Giani Vendramel de Oliveira</p><p>Gislaine Denisale Ferreira</p><p>Henrique Salustiano Silva</p><p>Mariana Gerardi Mello</p><p>Nirse Ruscheinsky Breternitz</p><p>Priscila Pereira Silva</p><p>Tayra Carolina Nascimento Aleixo</p><p>Coordenador</p><p>Henrique Salustiano Silva</p><p>Revisor</p><p>Juliane Adélia Soares</p><p>Yuri Vasconcelos de Almeida Sá</p><p>Editorial</p><p>Alessandra Cristina Fahl</p><p>Beatriz Meloni Montefusco</p><p>Carolina Yaly</p><p>Mariana de Campos Barroso</p><p>Paola Andressa Machado Leal</p><p>Dados Internacionais de Catalogação na Publicação (CIP)_________________________________________________________________________________________</p><p>Sá, Yuri Vasconcelos de Almeida</p><p>S111p Práticas periciais em registros audiovisuais / Yuri</p><p>Vasconcelos de Almeida Sá, Juliane Adélia Soares. – São</p><p>Paulo: Platos Soluções Educacionais S.A., 2021.</p><p>44 p.</p><p>ISBN 978-65-89965-77-0</p><p>1. Perícia. 2. Áudio. 3. Imagem. I. Soares, Juliane Adélia.</p><p>II. Título.</p><p>CDD 354.05</p><p>____________________________________________________________________________________________</p><p>Evelyn Moraes – CRB-8 SP-010289/O</p><p>© 2021 por Platos Soluções Educacionais S.A.</p><p>Todos os direitos reservados. Nenhuma parte desta publicação poderá ser</p><p>reproduzida ou transmitida de qualquer modo ou por qualquer outro meio,</p><p>eletrônico ou mecânico, incluindo fotocópia, gravação ou qualquer outro tipo de</p><p>sistema de armazenamento e transmissão de informação, sem prévia autorização,</p><p>por escrito, da Platos Soluções Educacionais S.A.</p><p>4</p><p>SUMÁRIO</p><p>Introdução à análise de mídia audiovisual digital _____________ 05</p><p>Restauração e reconstituição de imagens ____________________ 21</p><p>Análise e qualidade de áudio _________________________________ 35</p><p>A fonética forense para identificação de falantes e transcrição de</p><p>diálogos ______________________________________________________ 51</p><p>PRÁTICAS PERICIAIS EM REGISTROS AUDIOVISUAIS</p><p>5</p><p>Introdução à análise de mídia</p><p>audiovisual digital</p><p>Autoria: Yuri Vasconcelos de Almeida Sá</p><p>Leitura crítica: Juliane Soares</p><p>Objetivos</p><p>• Apresentar os modelos computacionais de mídia</p><p>audiovisual.</p><p>• Descrever as principais características da</p><p>digitalização de mídias.</p><p>• Introduzir os conceitos das principais características</p><p>e análises básicas em mídias digitais.</p><p>6</p><p>1. Introdução</p><p>Olá! Seja bem-vindo à nossa aula! Aqui apresentaremos os conceitos</p><p>de representação digital de imagens, áudios e vídeos, além de suas</p><p>características e métodos de conversão e armazenamento.</p><p>Hoje em dia, praticamente toda mídia produzida é convertida e</p><p>armazenada de forma digital. O tempo das fitas e das impressões já</p><p>passou, e até mesmo o registro de documentos oficiais é digital (como</p><p>NFe e documento veicular).</p><p>Por simples dedução, podemos então inferir que as práticas passíveis de</p><p>perícia tendem a ser mais digitais, ao menos no âmbito documental.</p><p>Com essa expansão para o armazenamento digital, tecnologias tiveram</p><p>que ser criadas e adaptadas para sua análise e estudo, e esse campo</p><p>não para de evoluir. Estamos utilizando técnicas de inteligência artificial</p><p>e estatística avançada para análise, categorização, separação e estudo</p><p>de mídias em formato digital.</p><p>O mais interessante é que, com o grande volume de dados criados</p><p>a partir da chegada da mídia digital (facilitando a geração e o</p><p>armazenamento de mídia em comparação com o que antes era possível</p><p>em formato analógico/físico), a análise também se tornou escalável.</p><p>Portanto, é possível criar uma análise e replicá-la de forma simplificada a</p><p>milhares de mídias, inclusive os modelos mais modernos já contam com</p><p>esse tipo de volume em sua construção (exigem um grande volume de</p><p>dados para treino, no caso de uma rede neural, por exemplo).</p><p>Vamos explorar essa matéria começando pela digitalização de mídias.</p><p>7</p><p>2. Definição de mídia e objeto de estudo</p><p>De todas as experiências sensoriais humanas (audição, olfato, visão, tato</p><p>e paladar), somente a audição e a visão são passíveis de processamento</p><p>e armazenamento, seja analógico ou digital.</p><p>Embora seja algo muito próximo de nós, não temos como processar e</p><p>armazenar olfato e paladar sem interpretação (por palavras, descrições</p><p>e comparações).</p><p>Tato é um estímulo sensorial que podemos sim replicar e armazenar</p><p>digitalmente, porém somente nos últimos anos. Hoje é possível</p><p>digitalizar um modelo em três dimensões e replicá-lo, utilizando uma</p><p>impressora 3D ou até mesmo centros de usinagem CNC. Entretanto,</p><p>embora isso seja possível, não é algo popular. Ainda não temos uma</p><p>grande experiência nessa prática, e o volume de informações continua</p><p>dependente dos registros audiovisuais.</p><p>Ficamos então com os estímulos visuais e auditivos, ou seja, imagem e</p><p>som. Estes são os registros mais populares, pois a tecnologia para seu</p><p>suporte está disponível há mais tempo. Indústrias inteiras foram criadas</p><p>e hoje temos esses registros como base de tudo o que produzimos e</p><p>consumimos em termos de mídia de massa.</p><p>Até aqui nós entendemos como fazer uma representação não só de</p><p>imagens estáticas (fotos), mas também de registros em movimentos</p><p>(vídeos), sendo estes uma sequência de imagens em intervalos muito</p><p>rápidos que interpretamos como contínua, um fenômeno de ilusão ótica</p><p>chamado de persistência da visão.</p><p>Através desse artifício, é possível capturar e armazenar cenas inteiras</p><p>para posterior visualização, gerando uma reprodução fiel de uma</p><p>ocorrência.</p><p>8</p><p>A essa mídia em movimento pode ser adicionado o registro auditivo</p><p>(áudio), e então temos uma combinação de imagem em movimento e</p><p>som, o que convencionamos coloquialmente chamar de vídeo.</p><p>Em detalhes, há a geração de dois tipos de sinais, visuais e auditivos,</p><p>produzindo três tipos de mídia diferentes, imagem, áudio e vídeo, sendo</p><p>o último a combinação de imagens em movimento com áudio, a qual</p><p>forma imensa parte de todos os registros produzidos e armazenados.</p><p>3. Mídias analógicas e origens do</p><p>armazenamento</p><p>Antes mesmo de iniciar o estudo de mídias digitais versus mídias</p><p>analógicas, é preciso entender o que são sinais analógicos e o</p><p>armazenamento deles. Um sinal analógico é a representação de um ato</p><p>físico. Neste sentido, um velocímetro “antigo”, um relógio e uma balança</p><p>de molas são representações de um sinal analógico.</p><p>Existe um grande debate acadêmico sobre a correta nomenclatura a</p><p>ser utilizada, uma vez que “mídia” pode assumir vários significados,</p><p>dependendo do contexto.</p><p>Neste prisma, vamos utilizar o termo “mídias” como a transmissão, a</p><p>interpretação, a transformação e o armazenamento desses sinais.</p><p>Podemos armazenar fisicamente vários tipos de sinais. Porém, com a</p><p>evolução da tecnologia, principalmente ao longo do século XX, passamos</p><p>a utilizar a eletrônica para o processamento e armazenamento de mídia.</p><p>A própria eletrônica evoluiu do processamento de sinais analógicos para</p><p>o processamento de sinais digitais. Vale destacar que não entraremos na</p><p>seara da eletrônica, estudaremos apenas as mídias e seus formatos.</p><p>9</p><p>3.1 Registros de imagens</p><p>Imagens são somente emissão de luz (onda eletromagnética) absorvida</p><p>pelos olhos e interpretada pelo cérebro, para que o objeto seja formado</p><p>e assimilado cognitivamente.</p><p>O registro de imagens é o mais antigo dos métodos de armazenamento</p><p>de mídias. Há milênios que a humanidade registra pinturas de cenas,</p><p>utilizando pigmentos depositados em superfícies.</p><p>No entanto, esse método de registro é feito através de um agente</p><p>ouvinte, podendo causar baixa amplitude da fala,</p><p>devido ao som ambiente e demais variações de pressão</p><p>do ar. Outro tipo de limitação é a existência de sons altos,</p><p>que podem mascarar parte da fala, ou até obstáculos entre</p><p>locutor e ouvinte, de modo que são filtradas ressonâncias</p><p>fundamentais para o reconhecimento da voz.</p><p>62</p><p>As limitações do falante envolvem casos em que o criminoso</p><p>falou de maneira incomum ou por um curto período. O uso de</p><p>gritos também pode atrapalhar a identificação do falante.</p><p>Já as limitações em relação ao ouvinte se dão porque nem</p><p>todo mundo possui a capacidade de diferenciar e identificar</p><p>vozes, devido a problemas auditivos ou relativos à memória</p><p>vocal.</p><p>• Identificação de locutor desconhecido: em casos que</p><p>requerem esse tipo de identificação, é mais difícil conseguir</p><p>indicar o suspeito, pois além de não existir uma gravação,</p><p>a testemunha não conhece o criminoso. Em situações</p><p>assim, o procedimento aplicado deve ser semelhante ao</p><p>reconhecimento visual de suspeitos, porém utiliza-se o</p><p>reconhecimento auditivo, chamado formação de voz, o qual</p><p>deve ser realizado por especialistas fonéticos e linguistas.</p><p>Nesses casos, quanto mais tempo demorar para se obter</p><p>testemunhos, maiores serão as chances de o ouvinte esquecer</p><p>detalhes importantes sobre a voz do criminoso, que poderiam</p><p>auxiliar no seu reconhecimento. Por isso, o procedimento para</p><p>reconhecimento deve ser feito o mais rapidamente possível.</p><p>3. Transcrição de diálogos</p><p>Gravações realizadas sem o conhecimento do falante podem fornecer</p><p>grandes evidências forenses. Porém, em muitas das situações é difícil</p><p>controlar as condições da gravação, podendo haver trechos com falas</p><p>ininteligíveis para quem não possui conhecimento sobre o conteúdo.</p><p>Dessa forma, apresentar essas gravações como evidência no tribunal</p><p>para um juiz exige uma transcrição feita por especialistas responsáveis</p><p>pelo caso.</p><p>63</p><p>As transcrições têm o objetivo de auxiliar os ouvintes em casos de</p><p>gravações de baixa qualidade, a fim de que se possa entender as</p><p>palavras faladas nelas. A confiabilidade é fundamental em uma</p><p>transcrição; caso contrário, ela pode levar os ouvintes a entenderem</p><p>palavras incorretas, dando outro sentido à gravação em questão e</p><p>chegando a uma avaliação inadequada das evidências (FRASER, 2014).</p><p>Mas afinal, como o termo transcrição pode ser definido?</p><p>De acordo com Fraser (2014), ele foi utilizado pela primeira vez na Idade</p><p>Média, antes mesmo do desenvolvimento da imprensa, para representar</p><p>a cópia de textos escritos à mão. Após isso, foi utilizado como “cópia</p><p>justa” de informações anotadas durante reuniões e eventos, e isso se</p><p>aplica até os dias de hoje. Entretanto, com a evolução da tecnologia</p><p>de gravação de áudio, surgiu um novo uso para as transcrições: a</p><p>representação em forma escrita da fala capturada em uma gravação de</p><p>áudio.</p><p>Apesar de parecer uma tarefa simples e que pode ser realizada por</p><p>qualquer pessoa, a transcrição, na verdade, é bastante complexa,</p><p>principalmente para usos forenses. Para garantir a confiabilidade de</p><p>uma transcrição de fala, é fundamental que ela seja realizada com</p><p>extrema atenção e cuidado, envolvendo diferentes fatores, os quais são</p><p>definidos por Fraser (2014).</p><p>3.1 Gravações de fala</p><p>As gravações devem ser analisadas por seus objetivos e sua qualidade.</p><p>No momento em que a fala é proferida, ela desaparece. Com a captura</p><p>dos áudios, é possível que ela seja ouvida novamente, em diferentes</p><p>contextos e por diferentes ouvintes. Isso pode ser realizado para registro</p><p>de eventos, como entrevistas policiais ou processos judiciais. Nesses</p><p>64</p><p>casos, como é de conhecimento que as gravações serão transcritas, o</p><p>evento é monitorado para que tudo seja dito de forma clara.</p><p>Falas espontâneas, como em uma conversação, são difíceis de</p><p>transcrever, mesmo que a gravação possua boa qualidade, em razão da</p><p>dificuldade em identificar detalhadamente cada palavra dita, fazendo</p><p>com que o processo de transcrição seja demorado.</p><p>Comprovadamente, esses processos se tornam mais eficientes quando</p><p>realizados por pessoas que acompanharam a gravação e conhecem o</p><p>contexto real das conversas, pois envolvem a percepção do contexto</p><p>interno e externo da fala.</p><p>As gravações secretas podem ser usadas para uso investigativo ou</p><p>probatório. Usos investigativos ocorrem quando se tenta descobrir</p><p>fatos que cercam o suposto crime. Já para uso probatório, os áudios são</p><p>reproduzidos diretamente no tribunal, como evidência do próprio crime.</p><p>A qualidade do áudio é algo importante para uma transcrição</p><p>confiável. Gravações claras são aquelas em que grande parte da fala</p><p>é compreendida prontamente em uma sessão. Por sua vez, gravações</p><p>ruins são pouco claras, ou seja, são aquelas em que as falas são de difícil</p><p>compreensão, mas que com o uso de fones de ouvido ou softwares de</p><p>computadores podem ser entendidas. As gravações de baixa qualidade</p><p>podem ser classificadas como indistintas, quase nada compreensíveis,</p><p>mesmo com equipamentos especializados, o que faz com que possam</p><p>ser descritos diferentes conteúdos por diferentes transcritores.</p><p>3.2 Transcrições</p><p>Na fonética forense, as gravações são utilizadas como provas em</p><p>julgamentos criminais. Seu objetivo não é substituir o áudio em si, mas</p><p>sim trazer clareza aos ouvintes, decifrando palavras que seriam difíceis</p><p>ou até impossíveis de ouvir sem a transcrição, o que os deixa livres para</p><p>65</p><p>que se concentrem nas intenções dos falantes, sem influência alguma de</p><p>opiniões indevidas do transcritor.</p><p>A confiabilidade de uma transcrição se dá devido ao nível de habilidade</p><p>do transcritor. Especialistas em transcrição forense devem possuir</p><p>alto nível de qualificação em ramos da fonética, de forma que tenham</p><p>capacidade de avaliar a evidência acústica em uma transcrição.</p><p>É importante destacar que os transcritores não devem ter nenhum</p><p>tipo de relação com o material que está sendo transcrito, para evitar</p><p>efeitos de preconceito pessoal. Além disso, mesmo que não haja relação,</p><p>opiniões pessoais não devem existir. Quem transcreve deve ser neutro,</p><p>livre de opiniões e preconceitos, para garantir a confiabilidade do</p><p>material.</p><p>Enfim, o processamento dos dados de áudio começa com a digitalização,</p><p>para que ele possa ser transcrito com a ajuda de softwares (como Sound</p><p>Forge e Cool Edit). Esse processo requer muito tempo de trabalho,</p><p>principalmente quando a qualidade dos dados a serem transcritos é</p><p>baixa. Como parâmetro, o tempo médio necessário para a transcrição de</p><p>uma conversa de 1 hora é de cerca de 20 horas, incluindo a transcrição</p><p>propriamente dita, a revisão e a formatação de laudos periciais. Nesse</p><p>processo, é imprescindível que os peritos apenas transcrevam os dados</p><p>relativos aos fatos da investigação, cabendo à polícia ou às autoridades</p><p>judiciais notificar a aplicação dos dados necessários quando tal perícia</p><p>for forçosa, para que, assim, os peritos sejam direcionados e produtivos.</p><p>Foram citadas nesta Leitura Digital algumas técnicas, como comparação</p><p>e perfil de voz, e a identificação por testemunha. Além disso, as</p><p>características do locutor também são uma questão de fonética geral. A</p><p>fonética forense é de grande importância para a identificação de falantes</p><p>em áudios utilizados como evidências de um crime.</p><p>66</p><p>Referências</p><p>FRASER, H. Transcription of Indistinct Forensic Recordings: problems and solutions</p><p>from the perspective of phonetic science. Language and Law, v. 1, n. 2, p. 5-21,</p><p>2014.</p><p>GILLIER, R. O Disfarce da Voz em Fonética Forense. 2011. Tese (Mestrado) –</p><p>Universidade de Lisboa, Faculdade de Letras, Lisboa, 2011.</p><p>HOLLIEN, H. About Forensic Phonetics. Linguistica, v. 52, n. 1, p. 27-53, 2010.</p><p>JESSEN, M. Forensic Phonetics. Language and Linguistics Compass, v. 2, n. 4, p.</p><p>671-711, 2008.</p><p>MINUTO BIOMEDICINA. Fonética Forense. [s. d.]. Disponível em: http://www.</p><p>minutobiomedicina.com.br/postagens/2014/09/30/fonetica-forense/. Acesso em: 11</p><p>ago. 2021.</p><p>67</p><p>BONS ESTUDOS!</p><p>Sumário</p><p>Introdução à análise de mídia audiovisual</p><p>digital</p><p>Objetivos</p><p>1. Introdução</p><p>2. Definição de mídia e objeto de estudo</p><p>3. Mídias analógicas e origens do armazenamento</p><p>4. Digitalização de mídia</p><p>5. Exame de imagem e áudio</p><p>6. Componentes adicionais das mídias digitais</p><p>7. Análise de Fourier</p><p>8. Conclusão</p><p>Referências</p><p>Restauração e reconstituição de imagens</p><p>Objetivos</p><p>1. Introdução</p><p>2. Elementos fundamentais da imagem digital</p><p>3. Resolução e qualidade</p><p>4. Distorções de lente e foco</p><p>5. Conclusões</p><p>Referências</p><p>Análise e qualidade de áudio</p><p>Objetivos</p><p>1. Qualidade do áudio</p><p>2. Ruídos em áudio e suas classificações</p><p>3. Métodos de reprodução</p><p>Referências</p><p>A fonética forense para identificação de falantes e transcrição de diálogos</p><p>Objetivos</p><p>1. Fonética forense</p><p>2. Análise e identificação de falantes</p><p>3. Transcrição de diálogos</p><p>Referências</p><p>humano, sofrendo então uma interpretação pelo artista, por meio dos</p><p>processos cognitivos da percepção do indivíduo, não sendo um registro</p><p>literal.</p><p>Segundo Oliveira (2005), a captura com registro direto ocorreu somente</p><p>em 1826, na França, por Joseph Nicéphore Niépce, inventor que recobriu</p><p>uma placa com um tipo de betume que se endurecia quando atingido</p><p>pela luz. O processo demorava aproximadamente 8 horas em uma</p><p>câmara escura. No entanto, era um registro fiel, que não sofria uma</p><p>interpretação do agente.</p><p>Ao longo do tempo, esse processo evoluiu para filmes de nitrato de</p><p>prata extremamente finos e com uma qualidade muito alta, mas o</p><p>princípio de funcionamento continuava o mesmo.</p><p>Quando a tecnologia atingiu um nível de maturidade industrial, foi</p><p>possível criar vídeos percorrendo uma fita com várias imagens em uma</p><p>velocidade bastante alta, transformando uma imagem estática em</p><p>dinâmica (com movimento).</p><p>10</p><p>3.2 Registros de áudio</p><p>Já os registros de áudio foram realizados pela primeira vez em 1877,</p><p>quando inventados por Thomas Edison, e patenteados em 1878,</p><p>funcionando através de um cilindro com ranhuras. Isto ocorria de forma</p><p>totalmente mecânica, sem uso de eletricidade.</p><p>O som, diferentemente da luz, é uma onda mecânica que utiliza o ar</p><p>como meio. Vibrações ordenadas são propagadas e absorvidas pelo</p><p>ouvido, que as transforma em impulsos elétricos para o cérebro, que</p><p>por sua vez interpreta e reconhece os padrões.</p><p>O cilindro de Edison utilizava essa característica mecânica. Através</p><p>de um aparato redutor de movimento, eram feitas inscrições em um</p><p>cilindro com uma agulha, a partir do que era possível reproduzir o som</p><p>de forma fiel.</p><p>Esse mesmo método foi utilizado em discos de vinil, que foram o padrão</p><p>da indústria durante todo o século XX como forma de armazenamento</p><p>de registros de áudio.</p><p>3.3 Transmissão e armazenamento eletrônicos de mídia</p><p>Ao mesmo tempo que as tecnologias de armazenamento literal</p><p>evoluíam, como discos de vinil para áudio e filmes para imagens, a</p><p>eletrônica também evoluía de forma agressiva, com muitos métodos</p><p>eletrônicos (ainda que analógicos) para transmissão e armazenamento</p><p>de mídias imagéticas e sonoras.</p><p>Ao passo que esses registros começaram a ser utilizados em massa,</p><p>cada vez mais a necessidade de armazenamento e transmissão se</p><p>tornava premente. O processamento e a transmissão de áudio já</p><p>estavam sendo feitos através de rádio (ondas eletromagnéticas a longa</p><p>distância). Neste meio de transmissão, a onda mecânica era convertida</p><p>11</p><p>em onda eletromagnética através de um transdutor (comumente,</p><p>um microfone). Assim, era possível manipulá-la para ser amplificada,</p><p>transmitida e até mesmo melhorada com filtros e modificadores</p><p>eletrônicos.</p><p>Isso permitiu também a transmissão de imagem da mesma forma.</p><p>Embora a onda seja bem mais complexa, o método de transmissão é</p><p>o mesmo, convertendo a saída de um transdutor (uma válvula de raios</p><p>catódicos) em ondas eletromagnéticas, exatamente como ocorre com o</p><p>áudio.</p><p>O armazenamento de áudio de forma eletrônica se deu utilizando</p><p>eletromagnetismo. A onda elétrica era convertida em pulsos magnéticos,</p><p>os quais eram transferidos para algum composto ferromagnético em</p><p>que persistia esse magnetismo. A princípio, foram utilizados fios, mas a</p><p>qualidade do som era baixa devido à pouca superfície para uma grande</p><p>resolução. A tecnologia evoluiu para fitas de aço, mas ainda assim, em</p><p>razão de sua alta massa, era necessária uma grande potência elétrica</p><p>para transferir a onda para a mídia física. Eventualmente, essa fita se</p><p>tornou um revestimento de uma fita plástica e a tecnologia evoluiu para</p><p>formatos que eram famosos até a década de 1990.</p><p>Um fato curioso é que o armazenamento de áudio já era feito dessa</p><p>forma desde os anos de 1940, mas o mesmo tipo de armazenamento</p><p>de vídeo só se tornou factível nos anos de 1980. Isto se deu devido ao</p><p>volume de informação a ser gravado no meio físico, o que era impossível</p><p>de um ponto de vista prático, mas um método geométrico (inclinação</p><p>da cabeça de gravação) associado à precisão de manufatura conseguiu</p><p>armazenar vídeo de forma eletrônica.</p><p>12</p><p>4. Digitalização de mídia</p><p>Embora os registros estivessem sendo feitos de forma eletrônica, ainda</p><p>eram analógicos, ou seja, eram uma representação elétrica análoga</p><p>ao fenômeno físico em si. No caso, consistiam em uma representação</p><p>elétrica das ondas produzidas por áudio e vídeo.</p><p>4.1 Digitalização de sinais</p><p>A digitalização de sinais surge, nesse contexto, como a transformação</p><p>dos sinais analógicos (ondas eletromagnéticas) em números,</p><p>particularmente matrizes. Essa transformação é necessária para</p><p>aplicações de modelos estáticos e matemáticos na manipulação da</p><p>mídia.</p><p>As possibilidades que a digitalização oferece são vastas, como aplicação</p><p>de filtros, redução de imperfeições, compressão e muitas outras.</p><p>4.1.1 Digitalização de imagens</p><p>As imagens são, por sua natureza, elementos com duas dimensões</p><p>espaciais, X e Y (largura e altura), compostas em um plano cartesiano.</p><p>O termo imagem refere-se a uma função de intensidade luminosa</p><p>bidimensional, denotada por f (x, y), em que o valor ou amplitude f nas</p><p>coordenadas (x, y) dá a intensidade (brilho) da imagem naquele ponto.</p><p>(GONZALES; WOODS, 2000, p. 21)</p><p>É possível dizer então que toda imagem digital pode ser descrita como</p><p>uma tabela, uma matriz numérica, conforme representado pela Figura 1.</p><p>13</p><p>Figura 1 – Representação de uma imagem em uma matriz numérica</p><p>Fonte: elaborada pelo autor.</p><p>É possível descrever a Figura 1 como pares de valores discretos, uma</p><p>função que pode ser utilizada em outros modelos e funções, bem como</p><p>ser filtrada e manipulada numericamente. Essa imagem é efetivamente</p><p>digital.</p><p>Existem alguns aspectos que devem ser discutidos sobre a digitalização,</p><p>como a amostragem e a maneira de digitalizar uma imagem através da</p><p>quantização (atribuição de números). A amostragem é a digitalização das</p><p>coordenadas espaciais em intervalos regulares, ou seja, é o processo de</p><p>criar uma matriz capaz de armazenar os dados de amplitude.</p><p>A quantização é a digitalização da amplitude, feita somente em níveis de</p><p>cinza, e exprime um valor numérico para cada elemento da matriz.</p><p>Uma imagem colorida é a sobreposição de canais. Portanto, uma só</p><p>imagem é representada como três matrizes, uma para cada canal</p><p>(vermelho, verde e azul). A combinação destas três cores compõe</p><p>qualquer cor visível, como podemos verificar na Figura 2.</p><p>14</p><p>Figura 2 – Representação do armazenamento de uma imagem</p><p>colorida</p><p>Fonte: elaborada pelo autor.</p><p>4.1.2 Digitalização de áudio</p><p>Embora as origens dos dados sejam diferentes, a digitalização de áudio</p><p>segue a mesma lógica em seu nível mais básico. A onda mecânica é</p><p>convertida em eletromagnética, que por sua vez é convertida em uma</p><p>matriz bidimensional, uma função de valores alocados também em duas</p><p>dimensões (X e Y). Mas neste caso, em vez de serem largura e altura, são</p><p>amplitude e tempo, conforme mostra a Figura 3.</p><p>Figura 3 – Conversão de uma onda de áudio em uma função discreta</p><p>Fonte: elaborada pelo autor.</p><p>15</p><p>Obviamente, este exemplo está extremamente simplificado. É possível</p><p>ver que existem os mesmos elementos presentes na conversão digital</p><p>de imagens, porém com outros tipos de dimensões: amplitude e tempo.</p><p>Assim como acontece com a digitalização de imagens, mais de um canal</p><p>pode ser utilizado para compor um áudio. O exemplo mais clássico</p><p>disso é o áudio estéreo, que representa os lados direito e esquerdo da</p><p>audição, separando o áudio em dois canais diferentes.</p><p>4.1.3 Formatos e bases digitais</p><p>Uma vez digitalizados, os ativos audiovisuais devem ser acomodados</p><p>em formatos computacionais da indústria, para que possam ser</p><p>devidamente utilizados e manipulados. Padrões são usados para</p><p>a devida normatização e facilidade de uso entre os softwares de</p><p>manipulação e processamento.</p><p>A princípio, os formatos de acomodação de mídias digitais oferecem</p><p>diferentes funcionalidades e características que viabilizam sua utilização.</p><p>Essas características podem ser divididas em várias categorias, tais</p><p>como: compressão, ordenação, metainformação, criptografia, entre</p><p>outras.</p><p>Em geral, a característica mais importante para o custo de transmissão</p><p>de mídias digitais é a compressão. Ela pode ocorrer de duas formas, com</p><p>perda e sem perda.</p><p>Algoritmos de compressão com perda, geralmente, são muito</p><p>específicos para cada tipo de mídia. São divisados para que a</p><p>compressão seja atingida de forma satisfatória, sendo capaz de reduzir o</p><p>tamanho da mídia sem inviabilizar a correta interpretação do conteúdo.</p><p>Já algoritmos de compressão sem perda são capazes de reduzir</p><p>o tamanho de uma mídia sem interferir de forma alguma em seu</p><p>16</p><p>conteúdo, fazendo a compressão em um nível mais baixo, diretamente</p><p>no armazenamento e lógica do disco. Normalmente, neste tipo de</p><p>compressão, algoritmos de tokenização e contagem de frequência são</p><p>utilizados para a redução do tamanho do arquivo.</p><p>5. Exame de imagem e áudio</p><p>Segundo Brasil (2012), o exame de imagem e áudio é uma forma de</p><p>verificar a mídia para encontrar edições, identificar os agentes e saber se</p><p>todos os elementos da mídia são minimamente autênticos com algum</p><p>nível de confidência.</p><p>O documento separa o exame de imagem e áudio em sete elementos:</p><p>análise de conteúdo, verificação de edição, verificação de locutor,</p><p>reconhecimento facial, reconhecimento de indivíduo por imagens,</p><p>reconhecimento de padrões e verificação de fonte.</p><p>É importante lembrar que os conceitos apresentados aqui podem ser</p><p>utilizados em mídias analógicas ou digitais, mas a popularização das</p><p>mídias digitais inviabilizou qualquer tipo de produção de mídia analógica</p><p>na última década, ficando então o foco principal em mídias digitais.</p><p>Esses sete elementos são utilizados conjuntamente não só para</p><p>atestar a veracidade de uma mídia e sua qualidade, mas também</p><p>como condutores de uma investigação ou pesquisa. Em alguns desses</p><p>elementos é possível utilizar tecnologias de ponta (inteligência artificial,</p><p>por exemplo), como na verificação de locutor e reconhecimento</p><p>facial. Existem frameworks muito potentes capazes de executar esse</p><p>tipo de tarefa. Em outros elementos, como o reconhecimento de</p><p>padrão, por exemplo, é praticamente impossível um computador</p><p>atuar autonomamente, pois as variáveis seriam demasiadas para o</p><p>correto processamento. Então, precisamos da inteligência humana</p><p>17</p><p>intervindo e sendo assistida por métodos matemáticos, estatísticos e</p><p>computacionais.</p><p>6. Componentes adicionais das mídias digitais</p><p>As mídias digitais têm valores de face, como a própria mídia e elementos</p><p>ocultos. No domínio da informática, tratamos essas características</p><p>como informação e metainformação (informação sobre a informação).</p><p>A informação é a mídia em si; no caso de uma foto, seria a imagem</p><p>principal.</p><p>Porém, a metainformação também tem valor em perícias e análises</p><p>profundas, sendo que é preciso estudar e interpretar o que pode ser</p><p>visto. Um exemplo disso são os smartphones que têm acesso a redes</p><p>de posicionamento global (GPS) e expressam a localização precisa de</p><p>cada foto como uma metainformação. No geral, esse tipo de campo é</p><p>utilizado para caraterísticas inócuas a fim de facilitar a leitura e o manejo</p><p>das mídias, mas é possível efetivamente se comunicar de maneira</p><p>oculta e ainda assim fácil, para quem procurar o campo específico da</p><p>metainformação.</p><p>6.1 Esteganografia</p><p>Por definição, a esteganografia é o ato de esconder um arquivo</p><p>dentro de outro, sem que o primeiro perca sua funcionalidade. É uma</p><p>das técnicas mais usadas para a transmissão de mensagens ocultas</p><p>utilizando mídias digitais, como fotos e vídeos (HUSSAIN, 2018).</p><p>Usar os meios de metainformação com esse objetivo seria</p><p>extremamente perigoso para a mensagem, e hoje existem técnicas</p><p>muito mais elaboradas em nível de bits para realizar essa tarefa.</p><p>18</p><p>Mas, ainda assim, detectar que existe informação demais em uma</p><p>mensagem é relativamente simples. Por isso, é importante sua</p><p>criptografia.</p><p>6.2 Criptografia</p><p>A criptografia computacional por si só é tão antiga quanto a própria</p><p>computação, sendo uma parte importante da teoria da informação, pois</p><p>é uma técnica para transmissão de informação segura.</p><p>Como componente relevante da segurança online, a criptografia</p><p>é utilizada para manter os dados seguros e impedir que sejam</p><p>interceptados e manipulados.</p><p>Hoje existem métodos para a criptografia que são virtualmente</p><p>impossíveis de serem decodificados pela utilização de força bruta</p><p>(levaria milhares de anos, mesmo com todos os computadores do</p><p>mundo trabalhando em sua decodificação), e esses métodos geralmente</p><p>são bastante simples de serem implementados.</p><p>Em geral, a esteganografia é feita pelo uso de criptografia na mensagem,</p><p>tornando virtualmente impossível sua revelação (HUSSAIN, 2018).</p><p>7. Análise de Fourier</p><p>A análise de Fourier foi inicialmente criada para auxiliar no estudo da</p><p>transferência de calor ao longo de um corpo. No entanto, sua aplicação</p><p>se estendeu a praticamente qualquer tipo de análise oscilatória, até</p><p>mesmo em equipamentos médicos e perícia antropológica.</p><p>No caso do processamento de sinais digitais, a análise é utilizada para a</p><p>conversão de frequência em amplitude e descoberta de padrões.</p><p>19</p><p>Através da transformada de Fourier, é possível separar a combinação de</p><p>outras ondas e localizar ruídos de fundo em um arquivo de áudio, como</p><p>exemplificado pela Figura 4.</p><p>Figura 4 – Exemplo da transformada de Fourier decompondo três</p><p>ondas diferentes a partir de uma onda quadrada</p><p>Fonte: Petrroudny/iStock.com.</p><p>Diversos aplicativos para a perícia de mídias digitais utilizam a análise de</p><p>Fourier, e alguns até levam Fourier em seu nome, visando à descoberta</p><p>de padrões e de informação adicional em áudios e vídeos.</p><p>Os métodos de Fourier se destacam para encontrar descontinuidades,</p><p>evidenciando mudanças e alterações na mídia (ZAKARIAH, 2018).</p><p>Sua utilização também é vasta e faz parte de vários algoritmos de</p><p>compressão e modificação, como marcas d’água, por exemplo. Ainda</p><p>assim, é possível a descoberta de padrões, mesmo que de forma</p><p>ineficiente (FARES, 2020).</p><p>20</p><p>8. Conclusão</p><p>A digitalização de mídias e as técnicas envolvidas são um assunto</p><p>muito extenso e rico. É preciso estudá-lo a fundo para uma perfeita</p><p>compreensão e absorção, inclusive quando o objetivo é entender</p><p>como o tema pode contribuir para sua prática. Essa é a origem de todo</p><p>registro de mídia digital, portanto a origem de toda a manipulação.</p><p>Os aspectos matemáticos podem ser facilmente abstraídos por</p><p>softwares e práticas que simplesmente são utilizadas em seu</p><p>funcionamento, mas a base para todas as análises continua sendo essas</p><p>técnicas.</p><p>Referências</p><p>BRASIL. Ministério da Justiça. Manual de orientação de quesitos da perícia</p><p>criminal. Brasília: Diretoria Técnico-Científica, 2012.</p><p>FARES, K.; AMINE, K.; SALAH, E. A robust blind color image watermarking based on</p><p>Fourier transform domain. Optik, v. 208, p. 164562, 2020.</p><p>GONZALEZ, R. C.; WOODS, R. E. Processamento de imagens digitais. São Paulo:</p><p>Editora Blucher, 2000.</p><p>HUSSAIN, M. et al. Image steganography in spatial domain: a survey. Signal</p><p>Processing: Image Communication, v. 65, p. 46-66, 2018.</p><p>OLIVEIRA, E. M. de. Da fotografia analógica à ascensão da fotografia digital.</p><p>Communicare, São Paulo, v. 5, n. 1, p. 159-165, 2005.</p><p>ZAKARIAH, M.; KHAN, M. K.; MALIK, H. Digital multimedia audio forensics: past,</p><p>present and future. Multimedia tools and applications, v. 77, n. 1, p. 1009-1040,</p><p>2018.</p><p>21</p><p>Restauração e reconstituição de</p><p>imagens</p><p>Autoria: Yuri Vasconcelos de Almeida Sá</p><p>Leitura crítica: Juliane Soares</p><p>Objetivos</p><p>• Entender os mecanismos de remoção de ruídos em</p><p>imagens.</p><p>• Apresentar técnicas de aumento da qualidade e</p><p>resolução.</p><p>• Explanar propriedades de foco e correção de</p><p>distorções.</p><p>22</p><p>1. Introdução</p><p>Nesta aula, será abordado o tema das propriedades visuais da imagem:</p><p>qualidade, ruídos e distorções.</p><p>Embora as técnicas tratadas aqui tenham um cunho visual para melhor</p><p>interpretação</p><p>humana, os métodos utilizados para atingir essa melhoria</p><p>continuam sendo puramente matemáticos.</p><p>Durante a aula, determinaremos os conceitos que regem o aumento da</p><p>qualidade de imagens artificialmente. Para isso, vamos primeiramente</p><p>conhecer alguns conceitos básicos de imagens, como resolução e</p><p>quantização, entre outros.</p><p>2. Elementos fundamentais da imagem digital</p><p>As imagens digitais contêm elementos próprios para sua definição</p><p>e representação. Segundo Gonzalez e Woods (2000, p. 21), “para ser</p><p>adequada para processamento computacional, uma função f(x, y) precisa</p><p>ser digitalizada tanto espacialmente quanto em amplitude”.</p><p>2.1 Amostragem</p><p>A amostragem é a digitalização das coordenadas espaciais em intervalos</p><p>regulares. É o processo de criar uma matriz capaz de armazenar os</p><p>dados de amplitude.</p><p>2.2 Quantização</p><p>É a digitalização da amplitude, feita somente em níveis de cinza, e</p><p>exprime um valor numérico para cada elemento da matriz.</p><p>23</p><p>2.3 Níveis de intensidade</p><p>Para Gonzalez e Woods (2000), cada imagem precisa ser representada</p><p>com mais ou menos níveis de precisão e detalhamento. Para isso,</p><p>níveis de cinza (presença de mais ou menos luz) são utilizados. Como o</p><p>processamento é feito por computadores, esses níveis são expressos em</p><p>potências binárias (2n). Assim, temos a quantidade de bits por elemento</p><p>discreto da matriz. Uma imagem de 2 bits é capaz de produzir branco,</p><p>preto e mais dois tons de cinza intermediários (22 = 4).</p><p>O mais usual é armazenar imagens com 8 bits; portanto, 256 níveis de</p><p>cinza.</p><p>2.4 Pixel</p><p>É cada elemento da matriz formada, podendo ser descrito como a</p><p>menor divisão da imagem em um único valor. Cada pixel tem uma</p><p>coordenada fixa na matriz, descrita por seu valor em x e y.</p><p>2.5 Resolução</p><p>Determina em quantas partições a amostragem deve ser feita. É</p><p>descrita em valores por área – pixel por polegada (PPP) – ou em valores</p><p>absolutos, omitindo o componente dimensional – megapixel (1 milhão</p><p>de pixels). Pode ser entendida como a densidade de pixels (partições)</p><p>em determinada imagem. Sobre a imagem digital, podemos afirmar que:</p><p>Ao ser digitalizada a imagem assume um tamanho adimensional, em</p><p>pixels. Mas, pode-se conhecer uma medida de qualidade da amostragem,</p><p>conhecendo-se a razão entre o número de pixels obtido e o tamanho</p><p>da imagem real no filme ou equivalente. A isso chama-se de Resolução.</p><p>(SCURI, 1999, p. 15)</p><p>24</p><p>Como o modelo básico tem duas dimensões, pode-se definir dois valores</p><p>distintos de resolução: horizontal e vertical; caso o valor seja omitido,</p><p>assume-se que ele é igual.</p><p>3. Resolução e qualidade</p><p>A resolução de uma imagem guarda uma relação direta com sua</p><p>qualidade final. É a densidade de pixels que temos por área, e é esta</p><p>propriedade que determina a capacidade de uma imagem guardar</p><p>ou abrigar mais detalhes. Isso é decisivo quando vamos ampliar uma</p><p>imagem ou analisar uma seção limitada.</p><p>3.1 Interpolação</p><p>A interpolação é um método matemático que consiste em manipular a</p><p>continuidade entre conjuntos discretos.</p><p>Pensando que a resolução de imagens é intrinsicamente a magnitude</p><p>da continuidade (densidade de pixels por área da amostragem), a</p><p>interpolação pode (e deve) ser utilizada para operações de modificação</p><p>de tamanho, rotação e manipulação geométrica de imagens (GONZALEZ;</p><p>WOODS, 2000).</p><p>A interpolação é usada para preencher informação necessária (pixels)</p><p>quando aumentamos a dimensão de uma imagem ou para escolher</p><p>quais pixels remover durante uma redução de tamanho ou resolução.</p><p>No contexto de manipulação e processamento de imagens, a</p><p>interpolação pode ser chamada de método de reamostragem.</p><p>A Figura 1 demonstra o problema gerado por uma operação de aumento</p><p>de resolução de 6 x 6 para 11 x 11.</p><p>25</p><p>Figura 1 – Demonstração de uma imagem cuja resolução foi</p><p>aumentada</p><p>Fonte: elaborada pelo autor.</p><p>Ao aumentar a resolução de uma imagem (número de pixels por área),</p><p>surge o problema de termos que introduzir informações que não</p><p>compõem a imagem original. Portanto, terão que ser copiados valores</p><p>das informações que nós efetivamente temos. Isto pode ser realizado</p><p>com o uso da interpolação, e seu tipo será definido de acordo com o</p><p>valor que queremos copiar em cada um dos novos pixels introduzidos.</p><p>3.1.1 Interpolação de vizinho mais próximo</p><p>O método mais simples de interpolação, para não dizer o mais intuitivo,</p><p>é o de vizinho mais próximo, em uma técnica na qual copiamos o valor</p><p>do pixel mais próximo. Embora seja simples ao se descrever, na prática</p><p>essa técnica tende a produzir artefatos indesejados, como distorção de</p><p>linhas retas e efeitos de escala (GONZALEZ; WOODS, 2000).</p><p>3.1.2 Interpolação bilinear</p><p>Outra técnica muito empregada é a interpolação bilinear, em que quatro</p><p>vizinhos mais próximos são utilizados e colocados na seguinte equação:</p><p>26</p><p>v(x, y) = ax + by + cxy + b</p><p>Embora essa técnica seja bastante usada, ela aumenta o custo</p><p>computacional, uma vez que quatro valores devem ser encontrados para</p><p>serem posteriormente utilizados na fórmula descrita.</p><p>Essa técnica de interpolação produz imagens superiores em comparação</p><p>com o método de vizinho mais próximo, porém tende a causar um certo</p><p>borrão na imagem, espalhando os valores dos pixels pelos pixels novos.</p><p>3.1.3 Interpolação bicúbica</p><p>Esta técnica representa uma elevação na qualidade, mas também na</p><p>complexidade do aumento da resolução de uma imagem.</p><p>Ela utiliza 16 vizinhos mais próximos e sua fórmula é dada por:</p><p>Ao observarmos, notamos que esta fórmula pode ser reduzida à mesma</p><p>da interpolação bilinear, em quatro grupos distintos.</p><p>Embora tenha um desempenho visual superior à interpolação bilinear,</p><p>esse método aumenta significativamente o processamento, uma vez</p><p>que a fórmula deve ser executada para cada pixel introduzido na nova</p><p>imagem.</p><p>Esse é o método padrão utilizado nos aplicativos de edição de imagem</p><p>líderes do mercado, como Adobe Photoshop e Corel Photo-Paint</p><p>(GONZALEZ; WOODS, 2000).</p><p>27</p><p>3.1.4 Comparativo de utilização entre interpolações</p><p>Cada imagem pode utilizar um tipo diferente de interpolação,</p><p>dependendo da aplicação e dos resultados esperados.</p><p>A Figura 2 apresenta um comparativo entre as três técnicas, mostrando</p><p>o nível de detalhes utilizados em cada uma.</p><p>Figura 2 – Aplicação da interpolação a uma imagem com 72 PPP,</p><p>utilizando interpolação do vizinho mais próximo (esquerda),</p><p>bilinear (centro) e bicúbica (direita)</p><p>Fonte: Gonzalez e Woods (2000, p. 78).</p><p>3.2 Reconstrução e restauração de imagem</p><p>É possível utilizar uma imagem com características visuais inferiores,</p><p>com baixa resolução e níveis de detalhes insatisfatórios, e aplicar filtros</p><p>e técnicas para aumentar sua qualidade, preenchendo as falhas com</p><p>características visuais superiores.</p><p>É importante sempre ter em mente que é impossível adicionar</p><p>informações a uma imagem, visto que todas as técnicas utilizadas são</p><p>apenas manipulações das informações que já temos na imagem.</p><p>28</p><p>3.2.1 Ruído em imagens</p><p>Ruídos são variações indesejadas ao longo de uma imagem, geralmente</p><p>criados durante a sua aquisição, processamento ou transmissão.</p><p>O ruído já existia nas imagens analógicas. As imagens demasiadamente</p><p>escuras eram resultado dele, por exemplo. São pontos ou regiões que</p><p>destoam de seus vizinhos, apresentando uma distorção do campo real.</p><p>3.2.2 Ruído periódico</p><p>O ruído, em geral, se apresenta de forma caótica e espacialmente</p><p>aleatória, o que costuma tornar necessário para sua supressão e</p><p>remoção a utilização de métodos de média ou estatísticos. Porém,</p><p>existe uma categoria de ruídos que se apresentam metodicamente e</p><p>geralmente são gerados por características elétricas na captação. Estes</p><p>são os ruídos periódicos.</p><p>Normalmente, eles se apresentam como artefatos em forma de linhas</p><p>ou ondas gerados na imagem. Algo como os televisores faziam na</p><p>transmissão de TV analógica. Porém, o ruído periódico pode ser como</p><p>pontos visualmente aleatórios na imagem, conforme a Figura 3, em</p><p>que temos uma imagem simples com três tipos de ruído periódico</p><p>adicionados sinteticamente.</p><p>29</p><p>Figura 3 – Imagens com ruídos e seus respectivos histogramas,</p><p>espacialmente periódicos</p><p>Fonte: Gonzalez e Woods (2000 p. 325).</p><p>A simples contagem de frequência dos histogramas indica que existe</p><p>algum tipo de ruído que pode ser separado pelos seus valores que</p><p>destoam do resto da imagem, apresentando um pico de frequência</p><p>em presença do ruído, uma vez que ele tende a assumir valores</p><p>extremos dentro da escala de cinza. Se este for o caso, filtros de média,</p><p>gaussianos, passa-baixa ou passa-alta podem ser utilizados sem uma</p><p>análise mais profunda, aplicados de forma geral.</p><p>Porém, existem diferentes tipos de ruído periódico que não</p><p>necessariamente são extremos, como apresentado na Figura 4.</p><p>30</p><p>Figura 4 – Ruído senoide apresentando linhas diagonais na imagem,</p><p>produzido durante a transmissão da imagem</p><p>Fonte: Gonzalez e Woods (2000, p. 326).</p><p>No caso de ruídos periódicos, porém não extremos, como o apresentado</p><p>na Figura 4, é preciso avaliar sua frequência e intensidade.</p><p>Para isso, é necessária a análise de Fourier, a fim de determinar a</p><p>densidade de sua frequência (PDF, do inglês probability density function).</p><p>Assim, uma função é derivada da imagem em si, e os parâmetros para</p><p>essa função devem ser estimados a partir da própria amostra.</p><p>Depois dos parâmetros estabelecidos, é necessário aplicar a função na</p><p>imagem para obter uma imagem reconstruída.</p><p>Embora a técnica seja puramente matemática, cada imagem apresenta</p><p>uma assinatura diferente de ruído e deve ser tratada individualmente.</p><p>Em casos nos quais a geração e a transmissão de imagens provocam</p><p>sempre o mesmo ruído, devido a características de equipamentos que</p><p>as fazem, é possível aplicar um método geral, como é visto em satélites</p><p>de imagens (USGS, 2021).</p><p>31</p><p>4. Distorções de lente e foco</p><p>Em geral, as imagens, analógicas ou digitais, são geradas através de uma</p><p>lente colocada à frente de um sensor ou elemento de captura. A lente</p><p>concentra e organiza os raios de luz para que possam ser absorvidos</p><p>pelo sensor (no caso das imagens digitais).</p><p>Através da lente, a imagem é produzida antes mesmo de ser captada.</p><p>Existem características nas lentes que devem ser observadas.</p><p>4.1 Geometria da lente e campo de visão</p><p>Por definição, a lente é um objeto esférico (ainda que use somente uma</p><p>seção da esfera) para reflexão e ordenamento dos raios que passam por</p><p>ela. Em geral, uma composição de lentes com características diferentes é</p><p>associada para uma captação satisfatória.</p><p>Usualmente, uma imagem pode ser gerada sem distorções geométricas</p><p>com um campo de visão de até aproximadamente 60 graus (CŁAPA,</p><p>2014), muito inferior à capacidade de visão do olho humano. Embora</p><p>mesmo nesse campo de visão tenhamos distorções, elas podem ser</p><p>desprezadas.</p><p>Em diversas aplicações, como laparoscopia, câmeras de segurança,</p><p>câmeras veiculares, entre outras, é necessário um campo de visão</p><p>superior, e isso pode ser atingido através de lentes de amplo campo de</p><p>visão, sendo seu extremo as chamadas lentes olho de peixe.</p><p>Esses conjuntos de lentes são utilizados para captar um campo maior</p><p>de visão, através das capacidades esféricas das lentes. Porém, para</p><p>atingir esse resultado, existe uma distorção muito grande da imagem,</p><p>refletindo a distorção esférica da lente, como na Figura 5.</p><p>32</p><p>Figura 5 – Foto da Catedral da Sé, São Paulo, utilizando lente olho de</p><p>peixe</p><p>Fonte: Wsfurlan/iStock.com.</p><p>Embora crie-se um efeito até artístico com essa característica,</p><p>muitas vezes é necessário corrigi-la para se obter uma visualização</p><p>geometricamente plana e livre de distorções.</p><p>Tais correções não são triviais e dependem muito da característica de</p><p>captação da lente, uma vez que cada lente possui um fator de distorção.</p><p>As lentes mais utilizadas e documentadas geralmente possuem um</p><p>perfil conhecido de distorção, que pode ser aplicado até mesmo na</p><p>metainformação das imagens geradas, mas qualquer corte ou edição</p><p>dessas imagens torna impossível sua correção para uma imagem plana.</p><p>Existem algoritmos robustos, muitos deles utilizando machine learning</p><p>e inteligência artificial, para efetuar uma correção às cegas, tornando o</p><p>problema matematicamente complexo.</p><p>33</p><p>4.2 Foco na captação</p><p>O foco é uma característica ótica que alinha os raios para atingir uma</p><p>coerência que resulta em nitidez da imagem, em função da distância das</p><p>lentes até o objeto.</p><p>Antigamente, as câmeras não tinham qualquer mecanismo de autofoco,</p><p>portanto a regulagem do foco era feita manualmente em toda captação.</p><p>Com o tempo, as câmeras (mesmo analógicas) foram adquirindo</p><p>mecanismos para que o foco fosse automático, seja através de lentes</p><p>com motores que se ajustavam a distância do objeto ou por meio de</p><p>um conjunto de lentes com um amplo espectro focal, que passivamente</p><p>fazia a correção do foco.</p><p>Ainda é comum encontrar imagens fora de foco ou regiões de uma</p><p>imagem que estão com esse problema, resultado da distância fora dos</p><p>parâmetros do conjunto de lentes.</p><p>Quando isso acontece, somente o processamento de imagens pode</p><p>fazer a correção, utilizando-se de filtros de aguçamento de limites para</p><p>tentar replicar o resultado de uma imagem em foco.</p><p>Novamente, é importante observar que a perda do foco implica a perda</p><p>da informação (detalhe) que estava presente e causa o embaçamento</p><p>da região, sendo que o processamento para ajuste produzirá uma</p><p>representação da imagem, e não a imagem original.</p><p>5. Conclusões</p><p>Nesta aula, você viu como é possível captar e processar imagens mesmo</p><p>em condições adversas, corrigindo imperfeições e melhorando a</p><p>condição para interpretação da imagem.</p><p>34</p><p>É preciso ter em mente que qualquer tipo de processamento não</p><p>adiciona informação, mas lida somente com as informações que já estão</p><p>na imagem, apenas manipulando-as para atingir o resultado desejado.</p><p>Referências</p><p>CLAPA, J. et al. A fisheye distortion correction algorithm optimized for hardware</p><p>implementations. In: Proceedings of the 21st International Conference Mixed</p><p>Design of Integrated Circuits and Systems (MIXDES). Poland: IEEE, 2014. p. 415-</p><p>419.</p><p>GONZALEZ, R. C.; WOODS, R. E. Processamento de imagens digitais. São Paulo:</p><p>Editora Blucher, 2000.</p><p>SCURI, A. E. Fundamentos da imagem digital. Rio de Janeiro: Pontifícia</p><p>Universidade Católica do Rio de Janeiro, 1999.</p><p>USGS. Coherent Noise. 2021. Disponível em: https://www.usgs.gov/core-science-</p><p>systems/nli/landsat/coherent-noise?qt-science_support_page_related_con=0#qt-</p><p>science_support_page_related_con. Acesso em: 1 ago. 2021.</p><p>35</p><p>Análise e qualidade de áudio</p><p>Autoria: Juliane Soares</p><p>Leitura crítica: Yuri Vasconcelos de Almeida Sá</p><p>Objetivos</p><p>• Ajustar a qualidade do áudio.</p><p>• Analisar ruídos em áudios e suas classificações.</p><p>• Analisar meios e métodos de reprodução de áudio.</p><p>36</p><p>1. Qualidade do áudio</p><p>O avanço tecnológico trouxe inúmeros benefícios e facilidades para</p><p>o dia a dia da sociedade, tanto pessoal quanto profissionalmente. No</p><p>entanto, isso acaba beneficiando também os criminosos. Atualmente,</p><p>existem muitas tecnologias capazes de capturar áudios, imagens e</p><p>vídeos, tais como: câmeras de monitoramento, smartphones, redes</p><p>sociais, aplicativos de mensagens, interceptação telefônica e dispositivos</p><p>móveis. Esses dispositivos frequentemente registram crimes, podendo</p><p>ser, inclusive, utilizados como meio de articulação pelos criminosos.</p><p>Roubo, pedofilia, sequestro, corrupção, tráfico de drogas, homicídio</p><p>e outros tipos de crime acabam por possuir registros e evidências em</p><p>mídias eletrônicas. Dessa forma, a análise forense é responsável por</p><p>investigar todos os registros, em diferentes formatos, para que sejam</p><p>geradas provas concretas em um processo judicial.</p><p>A perícia forense de áudio é um campo da ciência forense que envolve</p><p>a aquisição, a análise e a avaliação de áudios, as quais podem ser</p><p>usadas como provas em tribunais. As provas de áudio podem vir</p><p>de investigações criminais para aplicação de leis ou ser parte de</p><p>investigações oficiais de acidentes, fraudes, difamação, entre outros</p><p>crimes.</p><p>Maher (2018) afirma que em</p><p>uma investigação forense de áudio</p><p>surgem três principais preocupações: autenticidade, aprimoramento e</p><p>interpretação. A autenticidade é fundamental, pois podem ser tiradas</p><p>conclusões significativas das gravações de áudio; entretanto, elas</p><p>dependem das circunstâncias em que a gravação foi feita. Caso seja</p><p>comprovado que a gravação foi alterada antes da investigação, todo</p><p>o exame acaba por ser questionado, bem como se houver um erro</p><p>deliberado ou inadvertido sobre o local e a hora em que foi realizada</p><p>a gravação. Sendo assim, é função dos examinadores forenses avaliar</p><p>a cadeia de custódia das evidências, tomar medidas para descobrir</p><p>37</p><p>adulterações deliberadas e proteger as evidências de possíveis</p><p>alterações.</p><p>Sobre aprimoramento, muitas gravações de áudio necessitam de</p><p>melhoria em sua qualidade, pois ocorrem em circunstâncias acústicas</p><p>não ideais, como má posição do microfone, forte ruído de fundo, falta</p><p>de clareza na pronúncia dos envolvidos, sinal fraco, entre outras. Assim,</p><p>o NFSTC (2012) declara que podem ser aplicados filtros para melhorar a</p><p>clareza, ou seja, para a remoção de ruídos indesejados ou o aumento de</p><p>inteligibilidade da fala.</p><p>Já as interpretações das evidências de áudio envolvem questões como</p><p>reconstrução de cronogramas, transcrição de diálogos e identificação</p><p>de sons desconhecidos. As perguntas que podem ser abordadas em</p><p>exames forenses de áudio têm como base a teoria formada pelo</p><p>investigador sobre as circunstâncias do crime ou o contexto de outras</p><p>evidências físicas e declaração de testemunhas (MAHER, 2018).</p><p>De acordo com Maher (2018), as gravações de áudio fornecem</p><p>vantagens e desvantagens em uma investigação. As vantagens se</p><p>referem ao fato de ser possível a coleta de informações em qualquer</p><p>direção, além de fornecer registros de tempo sequenciais de eventos.</p><p>Por sua vez, a dificuldade em determinar a direção e a orientação</p><p>da fonte de som é claramente algo desvantajoso. Além disso, a faixa</p><p>dinâmica limitada da gravação também é uma desvantagem, pois sons</p><p>sutis ou muito baixos podem não aparecer, ao mesmo tempo que sons</p><p>muito altos podem ser cortados por excederem o limite máximo do</p><p>sistema de gravação.</p><p>Presença de ruídos e interferência são os maiores problemas em</p><p>gravações de áudio, e é nesse contexto que começa o trabalho da</p><p>respectiva técnica forense para aprimoramento. Evidências sonoras</p><p>barulhentas raramente oferecem base para um áudio perfeito, porém</p><p>38</p><p>existem técnicas que podem proporcionar melhorias significativas para</p><p>fins forenses.</p><p>Geralmente, as gravações que devem ser utilizadas como evidências</p><p>em processos contêm ruído, recorte, distorção, interferências e outros</p><p>problemas que podem afetar a qualidade e inteligibilidade da fala,</p><p>impedindo a análise correta dos sons. Essa análise deve ser realizada</p><p>off-line, utilizando uma cópia digital certificada da gravação das</p><p>evidências, assim como nas demais áreas de análise da forense digital.</p><p>Maher (2018) define as técnicas de melhoramento, que serão</p><p>apresentadas a seguir.</p><p>1.1 Filtragem e equalização</p><p>Quando as gravações apresentam sons estrondosos, zumbidos ou</p><p>outros tipos de barulhos que não ultrapassem a faixa de frequência da</p><p>fala desejada ou outros sinais relevantes, é possível aplicar filtros de</p><p>frequência para reduzir os ruídos. Isso é feito através de ferramentas de</p><p>software de edição.</p><p>A filtragem é o processamento de sinais que enfatizam ou diminuem</p><p>determinadas faixas de frequência em uma gravação. Ela pode ser</p><p>executada com circuitos analógicos ou com computação digital. Essa é</p><p>uma operação linear, ou seja, que realiza suas ações passivamente, sem</p><p>a necessidade de conhecer previamente as características do sinal de</p><p>entrada. Os filtros podem ser especificados em diferentes parâmetros:</p><p>largura de banda, seletividade, ganho ou forma espectral.</p><p>Observe a Figura 1.</p><p>39</p><p>Figura 1 – Filtro highpass</p><p>Fonte: Maher (2018, p. 73).</p><p>O exemplo apresentado na Figura 1 é de um filtro highpass, o qual</p><p>atenua as baixas frequências enquanto deixa passar as frequências</p><p>altas. Ou seja, passa uma faixa de frequências que se estende de uma</p><p>frequência de corte (que é definida pelo investigador) até a extremidade</p><p>superior do espectro de frequência. Sendo assim, todas as frequências</p><p>acima da frequência de corte passarão pelo filtro, e todas as abaixo dela</p><p>serão atenuadas.</p><p>Agora, observe a Figura 2.</p><p>40</p><p>Figura 2 – Tipos de filtro</p><p>Fonte: Maher (2018, p. 73).</p><p>O filtro lowpass funciona de maneira contrária ao highpass. Nele é</p><p>definida uma frequência de corte onde passa a faixa de frequência, se</p><p>estendendo até a extremidade baixa do espectro de frequência. Todas</p><p>as frequências abaixo da frequência de corte definida passam pelo filtro,</p><p>sendo atenuadas as que estiverem acima.</p><p>O filtro bandpass é uma mistura dos dois filtros (highpass e lowpass),</p><p>pois ele permite que as faixas de frequência passem entre os pontos</p><p>de corte alto e baixo. O bandstop, também conhecido como notch,</p><p>atenua os sinais em uma faixa de frequência específica e passa todas</p><p>as frequências que se encontram acima ou abaixo dessa faixa de</p><p>frequência determinada.</p><p>As faixas de frequência atenuadas são chamadas de faixas de parada,</p><p>enquanto as que passam pelo filtro são chamadas de faixas de</p><p>41</p><p>passagem. Então, selecionar um filtro depende de quão abruptamente o</p><p>ganho deste muda em função da frequência entre a faixa de passagem e</p><p>a faixa de parada.</p><p>A equalização é uma filtragem, porém esse termo é utilizado para</p><p>se referir à variação deliberada do ganho do filtro ao longo da faixa</p><p>passante desejada. A equalização pode ser utilizada como controle do</p><p>tom em sistemas estéreos.</p><p>1.2 Compressão e expansão de ganho</p><p>Filtragem e equalização atuam sobre o conteúdo de frequência de uma</p><p>gravação. No entanto, são necessárias outras técnicas para ajustar</p><p>o nível de sinal no domínio do tempo. Isso é preciso em casos de</p><p>gravações que possuem passagens muito altas e outras muito suaves,</p><p>ou seja, apresentam variações no volume do locutor ou dos locutores.</p><p>Alguns sistemas de gravação incluem controle de ganho automático</p><p>(AGC – automatic gain control), que detecta o nível do som de menor</p><p>duração e ajusta de maneira automática o ganho do microfone para que</p><p>o volume permaneça constante durante toda a gravação. Esse processo</p><p>é chamado de compressão de faixa dinâmica, pois ele reduz o nível de</p><p>flutuação ao longo do tempo.</p><p>Observe a Figura 3.</p><p>42</p><p>Figura 3 – Controle de ganho automático (AGC)–compressão</p><p>Fonte: Maher (2018, p. 77).</p><p>A Figura 3 apresenta a ação de um AGC. Nesse exemplo, um AGC</p><p>compara o nível da intensidade do sinal com um valor de limite,</p><p>aumentando o nível das passagens mais baixas, de acordo com as</p><p>passagens mais altas.</p><p>Além disso, sistemas com AGC também podem expandir faixas</p><p>dinâmicas, o que é chamado de função de ruído ou silenciador.</p><p>Quando não houver nenhum sinal significativo presente, o ganho</p><p>de entrada diminui automaticamente, de modo a não gravar apenas</p><p>ruídos. Então, quando um sinal mais alto é detectado, a porta de ruído</p><p>automaticamente deixa o sinal passar, gravando os áudios em questão.</p><p>Observe um exemplo na Figura 4.</p><p>43</p><p>Figura 4 – Controle de ganho automático (AGC)–expansão</p><p>Fonte: Maher (2018, p. 79).</p><p>Apesar de essas funções serem úteis, também podem prejudicar</p><p>a aquisição de evidências, pois, por exemplo, o volume desigual</p><p>encontrado em diferentes sons de uma gravação pode indicar pistas</p><p>da localização de diversas fontes de som ou movimentos que ocorrem</p><p>durante a gravação, assim como a presença ou ausência de sons de</p><p>fundo que podem fornecer informações úteis para investigações.</p><p>Por isso, é recomendado o aprimoramento forense de áudio através</p><p>do uso de um efeito de processamento de faixa dinâmica ou plug-in</p><p>para edições de forma de onda de áudio. Com esse processamento, é</p><p>possível determinar o nível dos sinais de menor duração e aumentar ou</p><p>atenuar o final, de acordo com a necessidade. Dessa forma, sons mais</p><p>baixos podem ser</p><p>postos em evidência sem prejudicar sons mais altos.</p><p>Além disso, o efeito de processamento de faixa dinâmica de software</p><p>pode ser aplicado apenas conforme necessário, ou seja, permite usar</p><p>configurações variadas em diferentes trechos da gravação. As Figuras 5</p><p>e 6 mostram um exemplo desse processamento.</p><p>44</p><p>Figura 5 – Exemplo de gravação forense–original</p><p>Fonte: Maher (2018, p. 79).</p><p>O exemplo da Figura 5 apresenta uma gravação forense original, a qual</p><p>contém diferentes indivíduos falando a partir de diferentes locais da</p><p>sala onde foi realizada a gravação, com níveis perceptíveis de ruídos ao</p><p>fundo.</p><p>Figura 6 – Exemplo de gravação forense – compressão/expansão</p><p>Fonte: Maher (2018, p. 80).</p><p>45</p><p>Já na Figura 6 é apresentada a gravação aprimorada, com ajuste da</p><p>curva de compressão de ganho para elevar o nível dos sons mais baixos.</p><p>2. Ruídos em áudio e suas classificações</p><p>Um ruído pode vir de muitas formas, sendo um termo geral utilizado</p><p>para descrever sons indesejados em uma gravação. Pode ser apenas</p><p>algo do ambiente de fundo, uma interferência eletrônica que afeta o</p><p>áudio de maneira intermitente e imprevisível ou até mesmo ruídos do</p><p>próprio equipamento de gravação.</p><p>Dessa forma, é possível afirmar que é muito difícil que sinais sejam</p><p>observados de modo isolado, tanto os gravados, quanto os transmitidos,</p><p>pois sempre haverá algum ruído ou interferência. Vaseghi (2008)</p><p>sustenta que são inúmeros os tipos de fontes de ruídos, como: ruído</p><p>eletrônico (térmico e de disparo); ruído acústico vindo de fontes em</p><p>movimento (vibração ou colisão); ruído eletromagnético, podendo</p><p>interferir em transmissão e recepção de voz, dados e imagem; ruído</p><p>eletrostático; ruído de quantização e perda de pacotes de dados por</p><p>ocorrência de congestionamento da rede.</p><p>Os ruídos são um dos principais desafios nas telecomunicações,</p><p>pois limitam a capacidade de transmissão de dados e a precisão de</p><p>resultados ao medir sinais. Eles podem causar erros de transmissão</p><p>e interromper processos de comunicação. Silva (2011) afirma que</p><p>os ruídos podem ser classificados em: estacionários, que têm como</p><p>principal característica não sofrer variações em suas estatísticas com o</p><p>passar do tempo; e não estacionários, em que características de tempo</p><p>e espectro mudam de forma constante, de acordo com as variações dos</p><p>ruídos do ambiente.</p><p>46</p><p>Apesar da grande variedade de tipos de ruídos, os principais, quando</p><p>se trata de sinais de áudio, são o ruído branco e o colorido, que são</p><p>definidos a seguir por Santos (2015).</p><p>2.1 Ruído branco</p><p>O ruído branco pode ser considerado um ruído estacionário. Ou seja,</p><p>ele é um processo de ruído aleatório não correlacionado que possui a</p><p>mesma potência em todas as frequências. Veja a Figura 7.</p><p>Figura 7 – Ruído branco</p><p>Fonte: Vaseghi (2008, p. 37).</p><p>Em um ruído branco, mesmo partindo de seu registro histórico, não será</p><p>possível predeterminar qual valor ele terá no futuro. Porém, consegue-</p><p>se definir um valor aproximado. Para determinar essa aproximação,</p><p>pode ser gerado um processo aleatório gaussiano, com média zero e</p><p>desvio padrão igual a um. Em algoritmos que simulam sistemas para</p><p>melhoria de sinais de voz, a aproximação do ruído branco é feita por</p><p>função de densidade de probabilidade gaussiana.</p><p>Assumir esse tipo de ruído como aproximação gaussiana se dá pelo</p><p>fato de que o ruído branco é admitido na modelagem como um aditivo</p><p>47</p><p>do sinal de voz, podendo simular satisfatoriamente ruídos de fundo</p><p>presentes no sinal.</p><p>2.2 Ruído colorido</p><p>Esse tipo de ruído é não estacionário, o que significa que ele não</p><p>segue propriedades estatísticas, sendo uma tarefa difícil caracterizá-</p><p>lo. Ruído colorido refere-se a qualquer ruído não branco, como ruído</p><p>de frequência de áudio, de carros em movimento, de furadeira, entre</p><p>outros.</p><p>O ruído colorido pode ser dividido em marrom ou rosa, tons que são</p><p>apresentados nas Figuras 8 e 9.</p><p>Figura 8 – Ruído marrom</p><p>Fonte: Vaseghi (2008, p. 37).</p><p>O ruído marrom, apresentado na Figura 8, mostra que seu</p><p>comportamento é mais previsível em relação aos estados anteriores.</p><p>48</p><p>Figura 9 – Ruído rosa</p><p>Fonte: Vaseghi (2008, p. 37).</p><p>A Figura 9 mostra o ruído rosa, que demonstra maiores variações no</p><p>decorrer do tempo.</p><p>3. Métodos de reprodução</p><p>Maher (2018) afirma que sistemas de reprodução de áudio devem</p><p>possuir qualidade e flexibilidade, de modo que sejam suficientes e</p><p>ultrapassem o conteúdo de frequência e faixa dinâmica do material de</p><p>áudio forense. Qualquer tipo de limitação de qualidade encontrada não</p><p>será atribuído ao sistema de reprodução, e sim à gravação do áudio.</p><p>Áudio integrado do computador, placa de som ou conversor</p><p>conectado por USB devem suportar uma grande variedade de taxas de</p><p>amostragem e formatos. Da mesma forma, devem suportar diferentes</p><p>módulos de software de reconstrução e decodificação de formato de</p><p>áudio que sejam necessários para possibilitar o funcionamento com</p><p>formato de origem da evidência forense (MAHER, 2018).</p><p>A tendência dos fones de ouvido é reduzir efeitos de reverberação,</p><p>ruídos do ambiente e outros tipos de distrações que possam ser</p><p>escutadas no ambiente de reprodução. Maher (2018) declara que,</p><p>mesmo se houver tendência para o aumento do nível do som ao serem</p><p>49</p><p>ouvidos sons possivelmente relevantes em gravações forenses de áudio</p><p>de baixa qualidade, é necessário evitar um nível muito alto, a ponto de</p><p>fazer com que o ouvido se adapte ao reflexo reduzido. A gravação deve</p><p>ser ouvida em um volume que, caso surjam sons inesperados, estes não</p><p>machuquem os ouvidos.</p><p>Juntamente com os sistemas de reprodução de áudio, existem mais</p><p>duas ferramentas que são necessárias para exames forenses de áudios:</p><p>visualização de forma de onda e visualização espectrográfica. Essas</p><p>ferramentas serão definidas brevemente a seguir:</p><p>• Forma de onda: a visualização de forma de onda também é</p><p>importante para uma investigação forense de áudio. A gravação</p><p>dos áudios pode ser representada por um gráfico com tempo</p><p>no eixo horizontal e amplitude no eixo vertical. Programas desse</p><p>tipo são úteis em uma análise forense, porque permitem que um</p><p>intervalo de tempo específico, com opções de aumentar e diminuir</p><p>o zoom, seja visualizado através de gráficos (MAHER, 2018).</p><p>• Espectrográfica: um espectrograma também é muito útil para</p><p>a exibição visual de gravação de áudios forenses. Ele é um tipo</p><p>especial de gráfico, usado para calcular o tamanho do espectro</p><p>em pequenos intervalos de tempo sucessivos do sinal de entrada,</p><p>exibindo-os de maneira sequencial na tela (MAHER, 2018).</p><p>Enfim, em análises forenses de áudio, é fundamental que a gravação</p><p>que está sendo utilizada como evidência possua boa qualidade, de</p><p>modo que não invalide a prova em juízo. Sendo assim, usar técnicas</p><p>de filtragem, equalização, compressão e expansão é muito importante</p><p>para melhorar a qualidade das conversas, de modo a reduzir ruídos, que</p><p>estão presentes em todos os arquivos de áudio.</p><p>50</p><p>Referências</p><p>MAHER, R. C. Principles of Forensic Audio Analysis. Montana: Wiley, 2018.</p><p>NFSTC. National Forensic Science Technology Center. A Simplified Guide to</p><p>Forensic Audio and Video Analysis. Florida: BJA, 2012. Disponível em: http://www.</p><p>forensicsciencesimplified.org/av/AudioVideo.pdf. Acesso em: 2 ago. 2021.</p><p>SANTOS, J. C. M. dos. Redução de Ruído em Sinais de Voz Combinando Filtro de</p><p>Kalman e Transformada Walevet. 2015. Dissertação (Mestrado) – Universidade</p><p>Federal de Uberlândia, Uberlândia, 2015. Disponível em: https://repositorio.ufu.br/</p><p>bitstream/123456789/14611/1/ReducaoRuidoSinais.pdf. Acesso em: 3 ago. 2021.</p><p>SILVA, L. F. da. Redução de Ruído em Sinais de Voz Utilizando uma Função</p><p>de Ganhos Adaptativa para o filtro de Wiener. 2011. Dissertação (Mestrado)</p><p>– Universidade Federal de Santa Catarina, Florianópolis, 2011. Disponível em:</p><p>https://repositorio.ufsc.br/xmlui/bitstream/handle/123456789/95988/301279.</p><p>pdf?sequence=1&isAllowed=y. Acesso em: 2 ago. 2021.</p><p>VASEGHI, S. V. Advanced Digital Signal Processing and Noise Reduction. Wes</p><p>Sussex: Wiley, 2008.</p><p>51</p><p>A fonética forense para</p><p>identificação de falantes e</p><p>transcrição de diálogos</p><p>Autoria: Juliane Soares</p><p>Leitura crítica: Yuri Vasconcelos de Almeida Sá</p><p>Objetivos</p><p>• Definir fonética forense.</p><p>• Explicar a análise acústica e audiométrica e a</p><p>identificação de falantes.</p><p>• Explanar a transcrição de diálogos.</p><p>52</p><p>1. Fonética forense</p><p>Estudos relativos à linguagem ganham a cada dia maior importância,</p><p>principalmente porque atividades e relações humanas têm se tornado</p><p>muito complexas. Uma área da linguística que recebe destaque é a</p><p>fonética, que estuda os sons da fala e sua produção, transmissão e</p><p>recepção, bem como sua análise, classificação e transcrição. Assim, a</p><p>ciência forense vê na fonética uma forma de utilizar a tecnologia para</p><p>o reconhecimento de voz de indivíduos em áudios utilizados como</p><p>evidência em investigações criminais.</p><p>A Figura 1 é uma representação da fonética forense, em que é gravada</p><p>a fala de um locutor e, do outro lado, um perito em fonética ouve essa</p><p>gravação.</p><p>Figura 1 – Representação fonética forense</p><p>Fonte: http://www.minutobiomedicina.com.br/postagens/2014/09/30/fonetica-forense/.</p><p>Acesso em: 11 ago. 2021.</p><p>A fonética forense envolve conhecimentos, teorias e métodos da</p><p>fonética geral aplicados a tarefas práticas em contexto de trabalho</p><p>policial, à apresentação de provas em tribunal e ao desenvolvimento</p><p>de novos conhecimentos de teorias e métodos fonético-forenses. Sua</p><p>principal função é identificar o locutor das falas, bem como analisar o</p><p>53</p><p>conteúdo linguístico de determinadas partes em que a inteligibilidade</p><p>esteja comprometida, seja por razões técnicas ou comportamentais</p><p>(JESSEN, 2008).</p><p>A tarefa de reconhecimento de falantes é um processo de decisão</p><p>que utiliza características do sinal de fala para identificar falantes.</p><p>O reconhecimento de falantes possui duas tarefas – a verificação</p><p>e a identificação –, que são ligadas por problemas e pressupostos</p><p>específicos. A verificação pode ser considerada como a comparação</p><p>de amostras de fala com amostras de referência do mesmo indivíduo,</p><p>analisando se existe correspondência. A identificação é a atribuição da</p><p>fala de um sujeito desconhecido a um indivíduo que possui amostras</p><p>de referência. As duas tarefas possuem em comum a comparação de</p><p>duas amostras, com o objetivo de identificar se pertencem ou não a</p><p>determinado sujeito (GILLIER, 2011).</p><p>Gillier (2011) afirma que no âmbito do reconhecimento de falantes</p><p>existem três tipos de reconhecimento: perceptivo, semiautomático</p><p>(com utilização da tecnologia) e automático (com utilização de</p><p>sistemas computadorizados na ligação entre vozes e falantes). Nos</p><p>reconhecimentos semiautomático e automático são usadas técnicas</p><p>analíticas, humanas ou automáticas, enquanto o reconhecimento</p><p>perceptivo é desempenhado por indivíduos sem treinamento e</p><p>conhecimentos específicos.</p><p>A fonética acústica abrange recursos e métodos fonéticos tradicionais</p><p>na identificação de falantes. Vários parâmetros são analisados a fim</p><p>de recolher o máximo possível de informações individuais sobre as</p><p>vozes, podendo assim fazer a ligação com um indivíduo específico.</p><p>Cada caso tem suas especificações, então não existe um conjunto de</p><p>parâmetros definido, de modo que eles vão sendo escolhidos conforme</p><p>a necessidade do caso. A fonética acústica possibilita uma análise</p><p>quantitativa e precisa dos traços característicos de uma voz, o que</p><p>mostra a extrema importância da utilização de parâmetros acústicos na</p><p>54</p><p>fonética forense. Sendo assim, a análise forense contempla a avaliação</p><p>de parâmetros perceptivos e acústicos, possibilitando uma descrição</p><p>mais rigorosa da voz (GILLIER, 2011).</p><p>A principal tarefa da fonética forense é extrair as características mais</p><p>relevantes da fala e associá-las a indivíduos específicos. Esta não é uma</p><p>tarefa simples, pois existem vários fatores condicionais que dificultam a</p><p>análise e tornam o reconhecimento do locutor muito complicado. O sinal</p><p>da fala é determinado pelas informações do idioma e está indiretamente</p><p>ligado ao sinal sonoro produzido por cada pessoa. Esta é uma das</p><p>principais características que distinguem a identidade do locutor de</p><p>outras tecnologias (como impressões digitais ou análise de DNA) que</p><p>procuram identificar um indivíduo através dos atributos inerentes a cada</p><p>um. A natureza variável do som indica que ele não é um instrumento</p><p>musical com características fixas e imutáveis. A mudança intrafalante é</p><p>constante e dificulta a tarefa de comparar duas amostras de fala, mas,</p><p>apesar disso, não exclui o reconhecimento, pois se diz que a mudança</p><p>entre falantes é melhor do que a mudança intrafalantes. A variação</p><p>no locutor é uma limitação relacionada à geração da fala, mas ainda</p><p>existem outros problemas e limitações técnicas. Uma das restrições</p><p>que ocorrem de forma mais reiterada está relacionada à banda de</p><p>frequência telefônica. Gravação de baixa qualidade, eco ou ruído de</p><p>fundo também podem tornar o trabalho do especialista mais difícil. A</p><p>curta duração da amostra é outro fator agravante, aumentando o risco</p><p>de não incluir as características mais típicas do falante.</p><p>Hollien (2010) declara que muitas gravações utilizadas em fonética</p><p>forense são de má qualidade, degradadas devido a:</p><p>• Redução de largura de banda de frequência.</p><p>• Adição de ruído.</p><p>• Redução do nível de energia.</p><p>55</p><p>• Distorção do espectro ou harmônica.</p><p>• Transmissão inadequada.</p><p>• Transdutores de captação inadequados, como microfone e</p><p>telefone, entre outros motivos.</p><p>Além disso, as falas também podem ser degradadas por fatores do</p><p>ambiente, tais como:</p><p>• Zumbido.</p><p>• Vento.</p><p>• Movimento do veículo.</p><p>• Ventiladores.</p><p>• Fricção de roupas.</p><p>• Outros falantes.</p><p>• Música.</p><p>Independentemente das causas, todos os eventos são prejudiciais e</p><p>devem ser identificados, a fim de que ações sejam tomadas para sua</p><p>melhoria, como filtragem eletrônica, programas de computador de</p><p>eliminação de ruído e decodificação de voz (HOLLIEN, 2010).</p><p>Assim como nas demais áreas de forense digital, o primeiro passo que</p><p>deve ser dado é proteger a gravação original, fazendo uma cópia digital</p><p>dela, para não correr o risco de modificar ou destruir a evidência.</p><p>Após isso, um procedimento recomendado é a digitalização das áreas</p><p>detectadas como problemáticas da gravação e a aplicação de um</p><p>software que permita visualizar as relações dentro do sinal, como</p><p>56</p><p>espectros ou formas de onda, sendo possível obter um grande número</p><p>de informações quantitativas sobre o sinal, o que auxilia na identificação</p><p>de sons, palavras ou frases relevantes da fala (HOLLIEN, 2010).</p><p>2. Análise e identificação de falantes</p><p>Nas mais diversas situações da vida cotidiana, todas as pessoas podem</p><p>identificar indivíduos apenas pelo som. Os telefonemas ou discursos</p><p>de celebridades do rádio são bons exemplos, o que comprova esse</p><p>tipo de capacidade de reconhecimento de fala do ser humano. Ao ouvir</p><p>uma frase, percebe-se o conteúdo da língua; mesmo que haja ruído de</p><p>fundo ou outras pessoas estejam falando ao mesmo tempo, é possível</p><p>reconhecer imediatamente a identidade do falante. Esse recurso de</p><p>reconhecimento de voz significa que armazenar informações detalhadas</p><p>sobre as vozes de pessoas que conhecemos ao longo de nossa vida</p><p>é possível, da mesma forma que armazenam outras informações</p><p>detalhadas, como aparência, características faciais ou cor e estilo</p><p>de cabelo. Portanto, além da habilidade de fala do próprio ouvinte,</p><p>o tempo de contato e a familiaridade são muito importantes para o</p><p>reconhecimento de fala. Mesmo que o ouvinte não conheça o falante</p><p>da frase, pode-se atribuir aos humanos características como sexo, idade</p><p>ou estado emocional. Portanto, quando a pessoa não tem informações</p><p>sobre o falante, as características físicas ou emocionais podem ser</p><p>reconstruídas com base no que ela ouviu.</p><p>Reconhecer o gênero do falante é uma tarefa fácil, porque a diferença</p><p>de frequência básica entre homens e mulheres é óbvia, sendo a</p><p>das mulheres geralmente mais alta do que a dos homens. Vários</p><p>estudos têm mostrado que existem diversas pistas para identificar o</p><p>gênero do falante, como consoantes de fricção surdas e questões de</p><p>ritmo e tempo. Esses estudos apontam que o som é um instrumento</p><p>57</p><p>extremamente rico, que pode carregar pistas perceptuais e revelar</p><p>muitas informações sobre o falante (GILLIER, 2011).</p><p>Gillier (2011) e Jessen (2008) definem as análises acústicas e</p><p>audiométricas, bem como as formas de identificação de falantes.</p><p>2.1 Análise acústica e audiométrica</p><p>Uma abordagem acústico-fonética é baseada em categorização sonora</p><p>perceptivo-auditiva, investigando manifestações acústicas das categorias</p><p>perceptivas. As propriedades de som em que as análises acústicas e</p><p>perceptivas devem se concentrar são aquelas conhecidas por estarem</p><p>sujeitas a grandes diferenças entre os falantes, ou seja, variam de</p><p>um falante para outro. A seguir, são apresentados os parâmetros</p><p>perceptivos e fonéticos que são analisados em fonética forense.</p><p>• Parâmetros perceptivos</p><p>A capacidade dos seres humanos de associar vozes a indivíduos</p><p>revela que cada voz tem traços individuais que permitem o</p><p>reconhecimento dos falantes. Há informações linguísticas e</p><p>extralinguísticas relacionadas às características individuais que são</p><p>transmitidas simultaneamente nos sinais acústicos. A informação</p><p>linguística está ligada ao contexto linguístico do falante, e a</p><p>informação extralinguística está relacionada com as marcas</p><p>anatômicas dos traços vocais do falante. Sendo assim, o sinal de</p><p>fala pode ser visto como uma função complexa que envolve traços</p><p>anatômicos e fatores socioculturais.</p><p>As vozes dos falantes refletem suas marcas socioculturais, na</p><p>medida em que cada um se expressa de uma forma particular,</p><p>mostrando os traços dialetais e socioletais que lhe são</p><p>característicos. A localização geográfica, a educação e o contexto</p><p>social contribuem, portanto, para determinar e caracterizar</p><p>um falante. Mesmo em uma comunidade dialetal, cada pessoa</p><p>58</p><p>pode ter sua maneira única de pronunciar as palavras, e essas</p><p>combinações de alternativas de pronunciação originam um</p><p>idioleto, ou seja, uma forma particular de falar. Os traços dialetais</p><p>e socioletais podem não ser determinantes para a identificação de</p><p>uma voz, mas são relevantes para o modelo forense pelo fato de</p><p>contribuir para a descrição do perfil de voz de um falante.</p><p>Outra característica que pode fornecer pistas para o</p><p>reconhecimento do falante é a qualidade da voz. A ela são</p><p>atribuídas duas componentes: componente orgânica e</p><p>componente de setting articulatório. A distinção entre as duas</p><p>é que a primeira não pode ser controlada pelo falante, mas a</p><p>segunda é completamente controlada por cada indivíduo. A</p><p>componente orgânica é relacionada com a fisiologia e anatomia</p><p>dos traços vocais de cada falante. A componente de setting</p><p>articulatório está ligada a configurações articulatórias habituais</p><p>que cada indivíduo usa ao falar.</p><p>• Parâmetros acústicos</p><p>Os parâmetros para identificação e reconhecimento dos falantes</p><p>são obtidos geralmente por meio de análise perceptiva. Porém,</p><p>alguns casos são melhor captados acusticamente. Muitos autores</p><p>consideram a frequência fundamental um dos parâmetros de</p><p>maior importância em fonética forense, por ser robusto, podendo</p><p>ser extraído até de gravações com qualidade ruim. A produção de</p><p>sons vocálicos demonstra a vibração das cordas vocais que atuam</p><p>como fonte. Quanto maiores as cordas vocais, mais baixos são os</p><p>valores de frequência fundamental, e isto permite diferenciar, na</p><p>maioria dos casos, uma voz feminina de uma voz masculina, pois</p><p>geralmente as cordas vocais das mulheres são menores que as</p><p>cordas vocais dos homens. Vários fatores podem contribuir para</p><p>as mudanças da frequência fundamental. Alterações de estado</p><p>emocional, estresse psicológico, período do dia, ingestão de álcool</p><p>e substâncias psicotrópicas ou ainda estado de saúde (gripes ou</p><p>depressão) são fatores que podem ter efeitos consideráveis nas</p><p>59</p><p>medidas de frequência fundamental.</p><p>Outro parâmetro acústico que também é analisado no contexto</p><p>forense é o padrão formântico das vogais. Os formantes são</p><p>resultados de variadas áreas de ressonância do traço vocal.</p><p>Apesar de o número de formantes ser teoricamente infinito,</p><p>apenas os primeiros são levados em conta, devido às condições</p><p>da gravação no contexto forense (limitação da banda telefônica</p><p>ou má qualidade, por exemplo). Formantes F1 e F2 possuem</p><p>ligação direta com os movimentos da língua, sendo os principais</p><p>responsáveis pela qualidade vogal. A relação deles com a</p><p>identidade vogal interrompe, em parte, a variação interfalante,</p><p>pois as variações de F1 e F2 só existem dentro do que é imposto</p><p>pelo sistema vocálico de cada língua. Entretanto, as frequências</p><p>de F1 e F2 das vogais possuem informações importantes para</p><p>o reconhecimento dos falantes conforme os valores desses</p><p>formantes vão expondo as tendências articulatórias de cada</p><p>pessoa, como a retração da língua. Além de F1 e F2, existem outros</p><p>formantes superiores, como F3 e F4, que não possuem ação</p><p>direta na identidade vogal, mas estão ligados às características</p><p>anatômicas dos traços vocálicos de cada indivíduo. Os formantes</p><p>superiores refletem ressonâncias de cavidades como a laringe, que</p><p>são pouco afetadas pelas alterações de configuração dos traços</p><p>vocais na produção de sons variados. Esses formantes superiores</p><p>são considerados parâmetros robustos para o reconhecimento</p><p>dos falantes, apesar de as circunstâncias em que as gravações são</p><p>obtidas na maioria das vezes impossibilitarem sua utilização.</p><p>2.2 Identificação de falantes</p><p>A identificação do falante pode ser subdividida conforme expressa a</p><p>imagem a seguir.</p><p>60</p><p>Figura 2 – Identificação do falante</p><p>Fonte: elaborada pelo autor.</p><p>• Comparação de voz</p><p>A comparação de voz se refere à existência de uma gravação de</p><p>fala de um locutor desconhecido que pode estar ligado a um crime</p><p>(por exemplo, um sequestrador pedindo resgate via telefone).</p><p>Conversas telefônicas grampeadas ou gravações de entrevistas</p><p>policiais podem ser utilizadas como evidências caso o suspeito não</p><p>coopere ou seja necessário material extra.</p><p>Dessa forma, ao obter material do locutor desconhecido e do</p><p>suspeito, é possível realizar uma comparação de voz. Variados</p><p>recursos de fala podem ser utilizados para comparar as gravações.</p><p>Essa comparação pode ser solicitada em uma investigação policial</p><p>ou de modo particular, sem ir a juízo. Porém, geralmente resulta</p><p>em relatórios escritos, usados como prova em tribunal.</p><p>61</p><p>• Perfil de voz</p><p>Quando é feita uma gravação de um falante desconhecido e não</p><p>existe nenhum suspeito, é solicitado que o especialista em forense</p><p>de fala forneça um perfil de voz. Perfis de voz contêm informações</p><p>que auxiliam a restringir o número de suspeitos ou a encontrar</p><p>um suspeito. Informações sobre onde o locutor foi criado, idade,</p><p>sexo, nível educacional, origem social, idioma nativo e condições</p><p>médicas que afetam a fala podem ser adquiridas a partir da</p><p>gravação do locutor desconhecido, dependendo de quão longa,</p><p>qualitativamente avançada e informativa ela for. Há ainda outras</p><p>informações que a voz do locutor pode apresentar, como uma</p><p>voz muito aguda ou falar muito rapidamente. Com isso, é possível</p><p>traçar o perfil do falante.</p><p>• Identificação por testemunhas</p><p>Os dois cenários anteriores funcionam quando existem gravações</p><p>dos criminosos desconhecidos. No entanto, nem sempre será</p><p>possível obter uma gravação, sendo usada como prova apenas a</p><p>percepção da voz do agressor por uma testemunha. Nesse caso, a</p><p>análise de identificação do falante pode ser dividida em:</p><p>• Identificação de falante familiar: nesse tipo de identificação,</p><p>o infrator é conhecido da testemunha e, com base nessa</p><p>familiaridade, ela consegue identificar o autor. No entanto,</p><p>alguns fatores podem lançar dúvidas quanto à confiabilidade</p><p>das declarações das testemunhas, como o canal, o falante ou</p><p>o ouvinte.</p><p>Referente ao canal, uma limitação pode ser a distância entre</p><p>locutor e</p>

Mais conteúdos dessa disciplina