Baixe o app para aproveitar ainda mais
Prévia do material em texto
Brasília-DF. Controle estatístiCo de ProCessos e Quimiometria Elaboração Maria Rosiene Antunes Arcanjo Produção Equipe Técnica de Avaliação, Revisão Linguística e Editoração Sumário APRESENTAÇÃO ................................................................................................................................. 5 ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA .................................................................... 6 INTRODUÇÃO.................................................................................................................................... 8 UNIDADE I ESTATÍSTICA BÁSICA ............................................................................................................................. 11 CAPÍTULO 1 CONCEITOS FUNDAMENTAIS EM ESTATÍSTICA ........................................................................... 11 CAPÍTULO 2 ESTATÍSTICA DESCRITIVA, PROBABILIDADE E INFERÊNCIA ESTATÍSTICA ........................................ 18 CAPÍTULO 3 MÉDIA, MODA, MEDIANA, DESVIO PADRÃO, INTERVALO DE CONFIANÇA, TESTES T NÃO PAREADO E PAREADO, TESTE Q .......................................................................... 26 UNIDADE II TRABALHANDO COM DADOS MULTIVARIADOS ..................................................................................... 35 CAPÍTULO 1 ANÁLISE EXPLORATÓRIA DE DADOS ........................................................................................ 35 CAPÍTULO 2 CONSTRUÇÃO DE MODELOS DE CALIBRAÇÃO ....................................................................... 49 MODELOS DE CLASSIFICAÇÃO E RECONHECIMENTO DE PADRÕES ........................................ 59 UNIDADE III PLANEJAMENTO EXPERIMENTAL ........................................................................................................... 68 CAPÍTULO 1 PLANEJAMENTO FATORIAL COMPLETO .................................................................................... 72 CAPÍTULO 2 PLANEJAMENTO FATORIAL FRACIONÁRIO ............................................................................... 79 CAPÍTULO 3 MODELOS DE REGRESSÃO ..................................................................................................... 85 UNIDADE IV QUIMIOMETRIA .................................................................................................................................... 90 CAPÍTULO 1 PRINCÍPIOS BÁSICOS .............................................................................................................. 94 CAPÍTULO 2 ERRO EM ANÁLISES QUÍMICAS .............................................................................................. 100 CAPÍTULO 3 VALIDAÇÃO DOS MÉTODOS QUIMIOMÉTRICOS ................................................................... 118 CAPÍTULO 4 ESTUDO DE CASOS E ARTIGOS SOBRE PLANEJAMENTO EXPERIMENTAL E QUIMIOMETRIA ........ 129 PARA (NÃO) FINALIZAR ................................................................................................................... 135 REFERÊNCIAS ................................................................................................................................ 136 5 Apresentação Caro aluno A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se entendem necessários para o desenvolvimento do estudo com segurança e qualidade. Caracteriza-se pela atualidade, dinâmica e pertinência de seu conteúdo, bem como pela interatividade e modernidade de sua estrutura formal, adequadas à metodologia da Educação a Distância – EaD. Pretende-se, com este material, levá-lo à reflexão e à compreensão da pluralidade dos conhecimentos a serem oferecidos, possibilitando-lhe ampliar conceitos específicos da área e atuar de forma competente e conscienciosa, como convém ao profissional que busca a formação continuada para vencer os desafios que a evolução científico-tecnológica impõe ao mundo contemporâneo. Elaborou-se a presente publicação com a intenção de torná-la subsídio valioso, de modo a facilitar sua caminhada na trajetória a ser percorrida tanto na vida pessoal quanto na profissional. Utilize-a como instrumento para seu sucesso na carreira. Conselho Editorial 6 Organização do Caderno de Estudos e Pesquisa Para facilitar seu estudo, os conteúdos são organizados em unidades, subdivididas em capítulos, de forma didática, objetiva e coerente. Eles serão abordados por meio de textos básicos, com questões para reflexão, entre outros recursos editoriais que visam tornar sua leitura mais agradável. Ao final, serão indicadas, também, fontes de consulta para aprofundar seus estudos com leituras e pesquisas complementares. A seguir, apresentamos uma breve descrição dos ícones utilizados na organização dos Cadernos de Estudos e Pesquisa. Provocação Textos que buscam instigar o aluno a refletir sobre determinado assunto antes mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor conteudista. Para refletir Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio. É importante que ele verifique seus conhecimentos, suas experiências e seus sentimentos. As reflexões são o ponto de partida para a construção de suas conclusões. Sugestão de estudo complementar Sugestões de leituras adicionais, filmes e sites para aprofundamento do estudo, discussões em fóruns ou encontros presenciais quando for o caso. Atenção Chamadas para alertar detalhes/tópicos importantes que contribuam para a síntese/conclusão do assunto abordado. 7 Saiba mais Informações complementares para elucidar a construção das sínteses/conclusões sobre o assunto abordado. Sintetizando Trecho que busca resumir informações relevantes do conteúdo, facilitando o entendimento pelo aluno sobre trechos mais complexos. Para (não) finalizar Texto integrador, ao final do módulo, que motiva o aluno a continuar a aprendizagem ou estimula ponderações complementares sobre o módulo estudado. 8 Introdução A estatística é o ramo da ciência voltado ao estudo de ferramentas matemáticas para coleta, organização, análise e interpretação de dados numéricos para uma melhor compreensão e tomada de decisões frente a problemas, situações e fenômenos. Com ampla aplicação nas ciências exatas, naturais, econômicas e sociais, a estatística fornece uma base para a explicação da ocorrência e frequência de eventos, sua aleatoriedade, obtenção de incertezas e estimativa de previsibilidade em eventos futuros. Na área de Química, a disciplina que estuda o uso de métodos matemáticos e estatísticos para planejar experimentos de forma otimizada e fornecer o máximo de informação na análise de dados de natureza multivariada é chamada de Quimiometria. Nesse material será abordada inicialmente uma revisão que engloba os principais parâmetros estatísticos como média, moda, mediana, desvio padrão, intervalo de confiança, testes t pareado e não pareado e teste Q. Posteriormente, veremos as técnicas e metodologias para a manipulação e tratamento de dados multivariados voltados para a análise exploratória, desenvolvimento de métodos de calibração e construção de modelos de classificação para reconhecimento de padrões. Por fim, estudaremos o desenvolvimento e aplicação de planejamentos fatoriais e modelos de regressão. Veremos que a estatística não é somente construção de gráficos e o cálculo de médias, visto que as informações numéricas obtidas tem como finalidade a acumulação de informações para a tomada de decisões. Portanto, a estatística deve ser observada como um conjunto de técnicas para planejar experimentos, com consequente obtenção de dados, sua organização, análise e interpretação. Devido a estatística ser aplicada em diversas áreas do conhecimento, muitas vezes se torna difícil para os profissionais trabalharem com seus conceitos e elaborarem exemplos práticos, poishá a limitação de materiais didáticos que expressem, de modo simples e objetivo, os procedimentos aplicáveis de certas técnicas multivariadas, que só passaram a ser utilizadas, mais vezes, a partir da chegada dos computadores. É importante dizer que nos dias atuais com o auxílio de programas computacionais, consegue-se desenvolver e aplicar esse tipo de técnica mais rapidamente. O desenvolvimento tecnológico, oriundo das descobertas científicas, tem apoiado o próprio desenvolvimento científico, expandindo, a capacidade de obtenção de informações sobre acontecimentos e fenômenos analisados. Uma grande variedade de informações necessita ser processada antes de ser transformada em conhecimento. Deste modo, necessita-se cada vez mais de ferramentas estatísticas que proporcionem uma visão global do fenômeno, que aquela possível em uma abordagem univariada. 9 A denominação Análise Multivariada significa que muitos métodos e técnicas utilizam, simultaneamente, todas as variáveis na interpretação teórica do conjunto de dados obtidos (NETO, 2004). Mas, é preciso ter atenção ao se usar essas técnicas, pois não basta a observação de conjunto de variáveis e aplicação de técnicas multivariadas, somente objetivando apresentar e valorizar a técnica. É necessário que exista uma estrutura de correlação entre as variáveis, se isso não existir deve-se utilizar outro tipo de análise, a univariada, visto que está também pode fornecer um nível satisfatório de informação. Portanto, o princípio fundamental é primeiramente saber qual conhecimento se pretender gerar com as análises. Um grande avanço relacionado ao surgimento de programas computacionais para resolução de problemas que envolvem estatísticas têm sido observados nas últimas décadas. Essas técnicas são frequentemente utilizadas no tratamento de dados analíticos na área de química, e são denominadas de Quimiometria, a qual desenvolve ferramentas computacionais que permitem a exploração dos resultados obtidos por meio de análises químicas, objetivando verificar a existência de similaridades entre as amostras que, por sua vez, correspondem às semelhanças na composição química (CORREIA; FERREIRA, 2007). Nesse contexto, esse material didático, busca tornar mais simples o aprendizado a respeito de técnicas estatísticas, que, muitas vezes, é obscuro para os alunos, pesquisadores e profissionais que as utilizam, bem como os métodos de planejamento experimentais envolvidos nesses processos. Objetivos » Conhecer e revisar os conceitos estatísticos como média, moda, mediana, desvio padrão, intervalo de confiança, testes t pareado e não pareado e teste Q. » Compreender o que são as análises exploratória de dados e sua importância em diversos processos. » Conhecer e entender as técnicas e metodologias para a manipulação e tratamento de dados univariados e multivariados. » Estudar e compreender o desenvolvimento de planejamentos fatoriais e modelos de regressão, e sua importância em distintas aplicações. » Estudar e compreender sobre o uso da Quimiometria. 10 11 UNIDADE IESTATÍSTICA BÁSICA CAPÍTULO 1 Conceitos fundamentais em estatística A estatística tem sido utilizada pelo homem desde os princípios da existência, mesmo sob formas um pouco rudimentares. No início a estatística era utilizada apenas em problemas que envolviam contagens, como por exemplo, contagens de animais ou indivíduos das tribos, isso fez com que as primeiras ideias de estatística fossem criadas. O termo estatística deriva da palavra latina status (que quer dizer “coisas de estado”), contudo, a séculos que a estatística adquiriu status de ciência, com inúmeras aplicações na maioria das áreas do conhecimento humano. É correto afirmar que não se pode realizar uma pesquisa científica sem utilizar metodologia estatística. Algumas definições importantes e comumente usadas em estatísticas são apresentadas a seguir: » Fenômeno estatístico: qualquer evento analisado, cujo estudo seja possível a aplicação do método estatístico. » Dado estatístico: dado numérico que é considerado a matéria prima sobre a qual se aplica os métodos estatísticos. » População: conjunto total de elementos que possuam pelo menos, uma característica comum. » Amostra: é uma parcela representativa da população que é avaliada objetivando a obtenção de conclusões sobre a essa população. » Parâmetros: são valores singulares que existem na população e que servem para caracterizá-la. » Estimativa: um valor aproximado do parâmetro que é calculado com o uso da amostra. 12 UNIDADE I │ ESTATÍSTICA BÁSICA » Atributo: quando os dados estatísticos exibem um caráter qualitativo, o levantamento e os estudos imprescindíveis ao tratamento desses dados são designados de estatística de atributo. » Amostragem: é o processo de escolha da amostra, sendo a parte inicial do processo. › As regras de Amostragem podem ser classificadas em duas categorias gerais: · Probabilística, amostragem na qual a seleção é aleatória, de forma que cada elemento tem igual probabilidade de ser sorteado para a amostra. · Não probabilísticas, amostragem em que há uma escolha determinada dos elementos da amostra. › Os tipos de amostragem podem ser: · Amostragem aleatória simples, neste processo, todos os elementos da população têm igual probabilidade de serem escolhidos, desde o início até completo processo de coleta. · Amostragem sistemática, trata-se de uma variação da amostragem simples ao acaso, muito conveniente quando a população está naturalmente ordenada, como fichas em um fichário ou listas telefônicas. · Amostragem estratificada, quando se possui uma população com uma certa característica heterogênea, na qual pode-se diferenciar subpopulações mais ou menos homogêneas, chamadas de estratos. » Mensuração: atribuição de um número a qualidades de um objeto ou fenômeno segundo regras pré-determinadas. » Variável: o conjunto de resultados possíveis de um fenômeno. Há quatro níveis básicos, de mensuração (quatro tipos de variáveis): nominal, ordinal, intervalar e razão. 1. Escala nominal: o nível mais simplicista das escalas de medida, sendo empregada na classificação de objetos ou fenômenos em termos de igualdade dos seus atributos e numerá-los. O exemplo mais simples é 13 ESTATÍSTICA BÁSICA │ UNIDADE I formado pela divisão em duas classes que são identificadas com os números zero ou um, variável binária (0,1). 2. Escala ordinal: empregada quando os fenômenos ou observações podem ser arranjados segundo uma ordenação, por exemplo: grandeza, preferência, importância, distância, entre outros. 3. Escala intervalar: tem todas as características de uma escala ordinal, porém os intervalos entre os valores são conhecidos e assim cada observação pode receber um valor numérico preciso. A extensão de cada intervalo sucessivo é constante. O ponto zero de uma escala intervalar é arbitrário e não indica ausência da característica medida. Exemplo: numeração dos anos, e escalas de temperatura. 4. Escala de razão: semelhante as características de uma escala de intervalo, com a vantagem de que o ponto zero representa uma origem verdadeira (zero indica ausência de fenômeno). É considerada a mais precisa de todas. Exemplo: escala métrica, idades e distância entre outras. Segundo o nível introdutório, a estatística pode ser dividida em três grandes categorias: » Estatística Descritiva, que está relacionada a descrição tabular, gráfica e paramétrica dos dados obtidos experimentalmente, por meio de procedimentos de amostragem ou de experimentos realizados. » Probabilidade e Estatística matemática, que está relacionada a ocorrência dos eventos e das variáveis aleatórias que os descrevem, fornecendo os fundamentos da teoria estatística. » Inferência Estatística, que está relacionada a estimação por intervalo e por região, os testes de hipóteses sobre parâmetros populacionais. O emprego de grandes números de dados é uma práticacomum nesta ciência e para simplificar seu manuseio, faz-se uso de variáveis. Elas podem ser classificadas em variáveis quantitativas ou numéricas e variáveis qualitativas ou atributos: » Variáveis quantitativas ou numéricas são aquelas que descrevem quantidades, ou seja, seus valores são descritos por números. Elas podem ser ainda divididas em discretas (quando assumem um número determinado de valores no campo dos reais, por exemplo, contagens) e em contínuas (em outros casos, admitem valores fracionados). O conceito de 14 UNIDADE I │ ESTATÍSTICA BÁSICA variável discreta e contínua é considerado simples, contudo, pode causar alguma confusão em tratamentos estatísticos mais elaborados. » Variáveis qualitativas ou atributos são aquelas que descrevem qualidades, ou seja, não se utiliza números para descrevê-las. Elas podem ser divididas em ordinais (se os valores agregam a ideia de ordem) e nominais (não agregam a ideia de ordem). Independentemente da situação estudada, em áreas da medicina, engenharia ou qualquer outra atividade, as etapas dos processos estatísticos são semelhantes. Na figura 1 abaixo podemos observar de forma detalhada as etapas básicas de um processo estatístico. Figura 1. Fluxograma de um processo estatístico padrão. Coleta Tabulação Apresentação Análise Direta Indireta Crítica Apuração Resumo dos dados Conclusão e interpretação Descritiva Estatística inferencial e multivariada Fonte: Adaptada de https://goo.gl/38ATrT (ESTATÍSTICA, 2018). Onde: » Coleta de dados. › Refere-se a obtenção, reunião e registro sistemático de dados, com o objetivo já pré-definido. A escolha da fonte de obtenção dos dados está diretamente relacionada ao tipo do problema, objetivos do trabalho, escala de atuação e disponibilidade de tempo e recursos. Existem as fontes primárias (levantamento direto no campo por meio de mensurações diretas ou de entrevistas aplicadas a sujeitos de interesse para a pesquisa e as fontes secundárias (publicações ou registros por outra organização). A coleta de dados secundários é feita por 15 ESTATÍSTICA BÁSICA │ UNIDADE I documentos cartográficos. Estas fontes de informação são de extrema relevância. › A coleta dos dados pode ser realizada de forma direta (quando são obtidos diretamente da fonte primária, como por exemplo os levantamentos de campo por meio de questionários) ou indireta (quando é inferida a partir dos elementos conseguidos pela coleta direta, ou por conhecimento de outros fenômenos que estejam relacionados com o fenômeno em questão). » Tabulação (Crítica dos dados e Apuração). › A crítica dos dados deve ser realizada cuidadosamente por meio de um trabalho de revisão e correção, denominado de crítica, objetivando a não ocorrência de erros que possam influenciar de maneira significativa nos resultados. › As perguntas dos questionários não entendidas, os enganos evidentes, tais como somas erradas, trocas de respostas, entre outros, são de correção fácil. Contudo, faz-se necessário, que o crítico não faça a correção por simples suposição sua, mas sim, que tenha chegado a conclusão total do engano. › O processo de apuração consiste no resumo dos dados por meio de sua contagem ou agrupamento. Por meio da apuração, é possível a condensação dos dados, obtendo-se um conjunto compacto de números, o qual possibilita diferenciar o comportamento do fenômeno na sua maioria. » Apresentação. › Organização do conjunto de dados de modo prático e racional. Essa organização é denominada de Série Estatística. Sua apresentação pode ser por tabelas ou gráficos. A apresentação utilizando tabelas, consiste em preparar os dados em linhas e colunas distribuídos de modo ordenado, de acordo com algumas regras práticas seguidas pelo Conselho Nacional de Estatística. As tabelas têm a vantagem de conseguir expor, em um só local, os resultados sobre determinado assunto, de modo a se obter uma visão geral mais rápida daquilo que se pretende analisar. Já a apresentação através de gráficos, consiste em 16 UNIDADE I │ ESTATÍSTICA BÁSICA uma apresentação geométrica dos dados, isto é, ela permite ao analista obter uma visão rápida, fácil e clara do fenômeno e sua variação. » Análise. › Obtenção de conclusões que auxiliem o pesquisador a resolver seu problema. A análise dos dados estatísticos está ligada fundamentalmente ao cálculo de medidas, cujo objetivo principal é descrever o fenômeno. Assim sendo, o conjunto de dados a ser analisado pode ser expresso por número-resumo, que evidenciam características particulares desse conjunto. › Às vezes é necessário resumir certas características das distribuições de dados por determinadas quantidades, que são denominadas comumente de medidas. Existem medidas de posição e medidas de dispersão, consideradas mais importantes no campo da aplicabilidade prática do cotidiano. Tais medidas tem como objetivo: a localização de uma distribuição e a caracterização de sua variabilidade. › As medidas de posição também chamadas de Tendência Central, são utilizadas para localizar a distribuição dos dados brutos ou das frequências sobre o eixo de variação da variável em questão. Veremos posteriormente no Capítulo 3 desta unidade os três tipos principais de medidas de posição: · Média aritmética, é obtida somando todos os valores de um conjunto de dados e dividindo o valor encontrado pelo número de dados desse conjunto. · Mediana, é uma quantidade que, como a média, também caracteriza o centro de uma distribuição pertencente a um conjunto de dados. · Moda, é uma quantidade que, como a média, também caracteriza o centro de uma distribuição, indicando a região das máximas frequências. › As medidas de dispersão ou de variabilidade são consideradas complementos das informações fornecidas pelas medidas de posição. Essas medidas servem para indicar o “quanto os dados se apresentam dispersos em torno da região central”. Deste modo, caracterizam o grau de variação existente em um conjunto de valores. Os principais tipos de medidas de dispersão são: 17 ESTATÍSTICA BÁSICA │ UNIDADE I · Amplitude, é definida como a diferença entre o maior e o menor valores do conjunto de dados. · Variância, definida como a média dos quadrados das diferenças entre os valores em relação a sua própria média. · Desvio Padrão, é definido como a raiz quadrada positiva da variância. · Coeficiente de Variação, é definido como o quociente entre o desvio padrão e a média, sendo comumente expresso em porcentagem. Caro estudante, você estudou sobre os conceitos de estatística mais comumente utilizados em distintas áreas do conhecimento. Vale ressaltar que é muito importante que outras fontes sobre o assunto abordado sejam buscadas, deste modo, sugerimos a consulta do seguinte link: http://www.portalaction.com.br/ estatistica-basica (ESTATÍSTICA BÁSICA, 2018). 18 CAPÍTULO 2 Estatística descritiva, probabilidade e inferência estatística Como dito no capítulo anterior a Estatística pode ser divididas em três categorias: Descritiva, Probabilidade e Inferência. Estatística descritiva A estatística descritiva é a etapa inicial da análise empregada para descrever e resumir os dados, objetivando facilitar a compreensão e a utilização da informação ali contida, ou seja, na Estatística Descritiva faz-se necessário a utilização de tabelas, gráficos, diagramas, distribuições de frequência e medidas descritivas a fim avaliar o formato geral da distribuição dos dados, a verificação da ocorrência de valores não típicos, a identificação de valores típicos que informem sobre o centro da distribuição e a verificação do grau de variação presente nos dados. Um dos objetivos da Estatística é resumir os valores que uma ou mais variáveis podem assumir, para que se tenha uma visão global dessas variáveis. Isto é possível por Séries Estatísticas que apresentam valores em tabelas e gráficos, fornecendo de forma maisrápida e segura informações das variáveis estudadas, permitindo assim determinações mais coerentes: Tabelas Por definição, é um quadro que resume um conjunto de dados dispostos segundo linhas e colunas de maneira sistemática. Denomina-se Série Estatística toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do local, ou da espécie (fenômeno). Em uma série estatística observa-se a existência de três fatores: o tempo, o espaço e a espécie. Conforme a variação de um desses elementos, a série estatística classifica-se em: » Série temporal, histórica ou cronológica: é a série cujos dados estão variando com o tempo. » Série geográfica, territorial ou de localidade: é a série cujos dados estão em correspondência com a região geográfica, isto é, o elemento variável é o fator geográfico (a região). 19 ESTATÍSTICA BÁSICA │ UNIDADE I » Série específica ou categórica: é a série cujos dados estão em correspondência com a espécie, isto é, variam com o fenômeno. » Séries mistas: são as combinações entre as séries anteriores constituindo novas séries denominadas séries mistas e são apresentadas em tabelas de dupla entrada. Como exemplo pode se citar uma Série Temporal- Específica, os elementos variáveis são o tempo e a espécie e o elemento fixo é o local. » Série homógrada: é aquela em que a variável descrita apresenta variação discreta ou descontínua. São séries homógradas a série temporal, a geográfica e a específica. » Série heterógrada: é aquela na qual o fenômeno ou fato apresenta gradações ou subdivisões. Esse fenômeno varia em intensidade. Exemplos: a distribuição de frequências ou seriação. É de extrema relevância saber que uma tabela nem sempre representa uma série estatística, pois pode ser um aglomerado de informações úteis sobre um determinado assunto. Fique atento! Gráficos Vale ressaltar que a apresentação gráfica é um complemento importante da apresentação em tabelas. A vantagem de um gráfico em relação a tabela está na possibilidade de uma rápida impressão visual da distribuição dos valores ou das frequências ressaltadas. Os gráficos proporcionam uma ideia a princípio mais satisfatória da concentração e dispersão dos valores, já que por meio deles os dados estatísticos são visualmente interpretáveis. Podemos dizer que os requisitos fundamentais de um gráfico são: sua simplicidade (deve possibilitar a análise rápida do fenômeno observado), clareza (deve possibilitar interpretações corretas dos valores do fenômeno), e veracidade (deve expressar a verdade sobre o fenômeno notado). Os gráficos podem ser classificados quanto: a forma e ao objetivo. Os tipos de gráficos quanto à forma são: » Diagramas: gráficos geométricos dispostos em duas dimensões. São mais usados na representação de séries estatísticas (gráficos em barras horizontais, barras verticais - colunas, barras compostas, colunas superpostas, em linhas, e em setores). 20 UNIDADE I │ ESTATÍSTICA BÁSICA » Cartogramas: é a representação sobre uma carta geográfica. São mais empregados na Geografia, História e Demografia. » Estereogramas: representam volumes e são apresentados em três dimensões. São usados comumente em representações gráficas das tabelas de dupla entrada. » Pictogramas: a representação gráfica consta de figuras representativas do fenômeno. Este tipo de gráfico tem a vantagem de despertar a atenção de qualquer público, pois possui forma sugestiva. Contudo, apresentam uma visão geral do fenômeno, sendo isso uma desvantagem, já que não mostram detalhes mais específicos. Os tipos de gráficos quanto aos objetivos são: » Gráficos de informação: objetivam uma visualização rápida e clara da intensidade das categorias ou dos valores relativos ao fenômeno. São gráficos expositivos, e que procuram dispensar comentários explicativos, isto é, sendo o mais completo possível. » Gráficos de análise: objetivam fornecer informações importantes na fase de análise dos dados. Esses gráficos comumente vêm acompanhado de uma tabela e um texto onde é destacado os pontos principais revelados pelo gráfico ou pela tabela. Distribuição de frequências e gráficos Uma forma eficiente de sumarização se faz necessário para muitos dados. Uma das formas comumente utilizada para resumir e apresentar dados é por meio de tabelas de distribuição de frequências, podendo ser de dois tipos: » Classificação simples: representadas por tabelas de frequências relacionadas a uma variável. As características dessas tabelas variam de acordo com o tipo de variável em estudo, podendo do tipo categórica ou do tipo numérica contínua. » Classificação cruzada: existem algumas situações em que é realizado um estudo de duas ou mais variáveis ao mesmo tempo. Com isso, surgem as distribuições conjuntas de frequências, isto é, relacionadas a duas variáveis, numéricas ou categóricas. 21 ESTATÍSTICA BÁSICA │ UNIDADE I As distribuições de frequências podem ser também representadas graficamente de duas formas diferentes: » Histograma, consiste em um conjunto de retângulos contíguos cuja base é igual à amplitude do intervalo e a altura proporcional à frequência das respectivas classes). » Polígono de frequências, que é constituído por segmentos de retas que unem os pontos cujas coordenadas são o ponto médio e a frequência de cada classe. É importante mencionar também as medidas descritivas, que objetiva a redução de um conjunto de dados observados (numéricos) a um pequeno grupo de valores que deve fornecer toda a informação relevante relacionadas a esses dados. Estas medidas podem ser classificadas em quatro grupos distintos: » Medidas de localização: indicam um ponto central, está localizada a maioria das observações. As medidas mais utilizadas são a média aritmética, a mediana e a moda. » Medidas separatrizes: indicam limites para proporções de observações em um conjunto, podendo ser utilizadas para construir medidas de dispersão. » Medidas de variação ou de dispersão: informam sobre a variabilidade dos dados. As medidas mais utilizadas são: a amplitude total, a variância, o desvio padrão e o coeficiente de variação. » Medidas de formato: informam sobre o modo como os valores se distribuem. As medidas mais utilizadas e precisas são as medidas de assimetria, que indicam se a maior proporção de valores está no centro ou nas extremidades, e as medidas de curtose, que descrevem grau de achatamento da distribuição. É importante para o estudo da Estatística como ciência, o conhecimento detalhado sobre seus fundamentos, dessa forma indicamos uma leitura complementar sobre a Estatística Descritiva com exemplicações a seguir: https://fenix.tecnico. ulisboa.pt/downloadFile/3779573118035/Estatistica_Descritiva_2008_09.pdf (ESTATÍSTICA DESCRITIVA, 2018). 22 UNIDADE I │ ESTATÍSTICA BÁSICA Probabilidade A probabilidade tem por finalidade descrever os fenômenos aleatórios, isto é, aqueles em que está presente a incerteza. Há dois tipos de modelos matemáticos: » Modelos Determinísticos: é apresentado como um modelo que estipule que as condições sob as quais um experimento seja realizado, possam determinar o resultado do experimento. O modelo determinístico necessita do uso de parâmetros pré-definidos em equações que definem processos precisos. » Modelos Não Determinísticos ou Probabilísticos: trazem informações sobre a chance ou probabilidade de os acontecimentos ocorrerem. Os conceitos básicos em probabilidade são experimentos aleatórios, espaço amostral e eventos. » Experimento aleatório (W): qualquer processo aleatório, que produza observações, e os resultados surgem ao acaso, podendo haver repetições no futuro. » Espaço amostral (S): é o conjunto de resultados possíveis, de um experimento aleatório. O número de elementos pode ser: finito (número limitado de elementos) e infinito (número ilimitado de elementos). » Evento: um evento (E) é qualquer subconjunto de um espaço amostral(S). No conceito empírico de probabilidade temos que o principal problema da probabilidade consiste na atribuição de um número a cada evento (E), o qual avaliará quão possível será a ocorrência de “E”, quando o experimento for realizado. Uma maneira de resolver a questão seria a determinação da frequência relativa do evento E (fr(E)): ( ) r númerodeocorrências doeventof E númeroderepetições doexperimento = Sendo assim, a probabilidade pode ser definida como: ( ) aP E a b = + No conceito clássica (“A priori”) de probabilidade temos que se existe “a” resultados possíveis favoráveis a ocorrência de um evento “E” e “b” resultados possíveis não favoráveis, sendo os mesmos mutuamente excludentes, então teremos: 23 ESTATÍSTICA BÁSICA │ UNIDADE I No conceito axiomática de probabilidade, define-se como seja (W) um experimento, seja (S) um espaço amostral associado a (W). A cada evento (E) associa-se um número real representado por P(E) e denominaremos de probabilidade de E, satisfazendo algumas propriedades que são conhecidas como axiomas da teoria da probabilidade. Os axiomas, algumas vezes, se inspiram em resultados experimentais de forma que a probabilidade possa ser confirmada experimentalmente. Caro estudante, o que reportamos acima foi apenas um pouco do amplo conteúdo sobre probabilidade que você poderá encontrar em outras fontes de consulta. Sugerimos como uma dessas fontes, o site a seguir:< http://www.portalaction. com.br/probabilidades/introducao-probabilidade > (PROBABILIDADE, 2018). Esperamos que possa se aprofundar mais nesse assunto. Inferência estatística Por definição, é um processo de raciocínio indutivo, em que se procuram tirar conclusões indo do particular, para o geral. É um tipo de raciocínio contrário ao tipo de raciocínio matemático, essencialmente dedutivo. É empregado quando o objetivo é o estudo de uma população, avaliando apenas alguns elementos dessa população, isto é, uma amostra. Por exemplo, em uma pesquisa científica, geralmente, o processo ocorre da seguinte maneira: são feitos levantamentos amostrais e experimentos são realizados com amostras, porém o pesquisador não quer suas conclusões limitadas à amostra com a qual trabalhou, ao contrário, o objetivo é expandir os resultados que obteve para toda a população. Dessa forma, o pesquisador quer fazer inferência. A Figura 2 apresenta esquematicamente como é o processo de inferência. Figura 2. Processo de Inferência Estatística. População Amostra Amostragem Resultados Inferência Fonte: Adaptada de https://goo.gl/VPheQv. Observando a figura 2 podemos chegar a seguinte explicação: para poder generalizar as conclusões obtidas da amostra para a população, é necessário que a amostra seja representativa da população e não somente que os dados sejam descritos bem. 24 UNIDADE I │ ESTATÍSTICA BÁSICA Isto significa que a amostra deve possuir as mesmas características básicas da população relacionadas às variáveis que se deseja pesquisar. A partir disso surgiu o conceito de erro provável. A possibilidade de erro é inerente ao processo de inferência, isto é, toda vez que se estuda uma população a partir de uma amostra, existe a possibilidade de se cometer algum tipo de erro de conclusão final. A maior aplicação da Inferência Estatística é fornecer métodos que admitam quantificar esse erro provável. Alguns conceitos fundamentais da Inferência Estatística foram estudados no capítulo 1, como, população, amostra e amostragem. Existem dois tipos de Inferência: estimação de parâmetros e testes de hipóteses: A estimação de parâmetros é realizada com o auxílio de um estimador, isto é, de uma fórmula que descreve o modo de calcularmos o valor de determinado parâmetro populacional. A estimação pode ser dividida em duas partes, estimação por pontos e estimação por intervalos. » Na estimação por ponto o objetivo é usar a informação amostral e apriorística para se calcular um valor que seria, em certo sentido, nossa melhor avaliação quanto ao valor de fato do parâmetro em questão. Na estimativa por intervalo utiliza-se a mesma informação com a finalidade de se produzir um intervalo que contenha o valor verdadeiro do parâmetro com algum nível de probabilidade. Como um intervalo está plenamente caracterizado por seus limites, a estimação de um intervalo equivale à estimação de seus limites. » Enquanto o teste de hipótese é um procedimento estatístico em que se busca verificar uma hipótese a respeito da população, no sentido de aceitá-la ou rejeitá-la, partindo de dados amostrais, baseados na teoria das probabilidades. Existem as hipóteses subjacentes, são aquelas informações que não se almeja que sejam expostas a testes. E as hipóteses testáveis que consistem em suposições remanescentes que devem ser testadas. O teste de hipótese é composto de três passos fundamentais: definição das hipóteses, estabelecimento dos limites entre as regiões de aceitação e rejeição e a obtenção do valor amostral do teste estatístico. Para garantir a independência entre os elementos da amostra, as escolhas devem ser feitas com reposição. Como os valores que compõem a amostra são aleatórios, qualquer função (total, média, variância, entre outros) dos elementos da amostra será também uma variável aleatória. Como as estatísticas são funções de variáveis aleatórias, também são variáveis aleatórias e, consequentemente, terão alguma distribuição de 25 ESTATÍSTICA BÁSICA │ UNIDADE I probabilidade com média, variância. A distribuição de probabilidade de uma estatística é chamada de distribuição amostral. Dessa forma, a inferência estatística visa inferir para a população a partir da amostra. Assim, todas as informações que temos sobre a população são advindas da amostra, isto é, trabalhamos efetivamente com estatísticas, que são variáveis aleatórias. Deste modo, é extremamente necessário que conheçamos as distribuições amostrais dessas estatísticas. A média da amostra () é a estatística mais utilizada devido suas propriedades interessantes. A Inferência Estatística é baseada em estatísticas amostrais. A chave para resolver as questões de Inferência Estatística consiste na caracterização probabilística da estatística amostral utilizada, identificando a distribuição de probabilidades da estatística amostral em causa e apurando os parâmetros importantes dessa distribuição. O uso generalizado da distribuição normal na estatística deve-se ao Teorema Central do Limite. Esse teorema apresenta três propriedades básicas: » A média da distribuição amostral é igual à média da população, e igual à média de uma amostra quando o tamanho da amostra tende ao infinito (segundo Lei dos Grandes Números). » A forma da distribuição amostral tende a assumir a forma de sino à medida que se aumenta o tamanho da amostra, e aproximadamente normal, independente da forma da distribuição da população. » A forma da distribuição amostral cresce em altura e decresce em dispersão à medida que o tamanho da amostra cresce. Consideremos uma população com média µ e desvio padrão σ, e selecionamos várias amostras de tamanho n. Para cada uma dessas amostras pode-se calcular a respectiva média. Pelo Teorema Central do Limite, a distribuição das médias destas amostras tende para uma distribuição normal com média µ (igual à média da população) e com desvio padrão. O desvio padrão da distribuição das médias amostrais recebe o nome de erro padrão da média. A Inferência Estatística é uma das áreas da Estatísticas mais utilizadas, contudo, é necessário que exista um aprofundamento sobre esse assunto. Assim, sugerimos que você, estudante, busque mais sobre esse tema e para ajudá-lo indicamos a consulta do seguinte arquivo disponível em:< https://goo.gl/4fm5VW> (INFERÊNCIA, 2018). 26 CAPÍTULO 3 Média, moda, mediana, desvio padrão, intervalo de confiança, testes t não pareado e pareado, teste Q Suponhamos que um analista de controle de qualidade de uma indústriaalimentícia queira determinar a concentração de cálcio em um determinado lote de bebida láctea, e faça a coleta aleatória de 3 embalagens desse mesmo lote para análise. Os resultados das análises (feitas em 5 réplicas) são mostrados na Tabela 1. Tabela 1. Resultados de concentração de Ca (em mg/g) para análise de 5 amostras de bebidas lácteas (n=3). Amostra Réplica 1 Réplica 2 Réplica 3 Réplica 4 Réplica 5 A 1,56 1,62 1,58 1,62 1,54 B 1,52 1,53 1,54 1,55 1,58 C 1,56 1,56 1,58 1,53 1,57 Fonte: Adaptado de Miller e Miller (2010). A partir dos resultados obtidos, podemos comparar eles utilizando parâmetros estatísticos que os relacionam a uma tendência central. A média aritmética ( é o valor numérico significativo que mostra que se concentram os dados combinados de uma dada distribuição, e pode ser obtida pela razão entre o somatório dos valores individuais () referentes ao conjunto de dados desejado () e o número de medidas (n), segundo (MILLER; MILLER, 2010): ixx n ∑ = Considerando os dados da tabela 1, podemos obter a média para cada uma das amostras. Para a amostra A, temos que = 1,56 + 1,62 + 1,58 + 1,62 + 1,54 = 7,92 e n = 5 (réplicas), obtendo-se assim um valor de = 7,92 / 5 = 1,58. De maneira análoga podemos obter os valores médios para as amostras B ( = 1,54) e C ( = 1,56). Note ainda que também podemos obter o valor médio para todo o conjunto de dados, sendo nesse caso = 23,44, n = 15 (5 réplicas de 3 amostras) e = 1,56. Note que quanto maior o número de réplicas, maior a proximidade do valor tido como verdadeiro (valor real da amostra) e maior a confiabilidade do resultado. A moda é definida como o(s) valor(es) que ocorrem com maior frequência dentro de um conjunto de dados amostral. Como esse parâmetro não é obtido por meio de uma fórmula específica como a média, para calculá-lo basta observar o conjunto de dados e 27 ESTATÍSTICA BÁSICA │ UNIDADE I verificar o valor que mais aparece. Considerando as amostras A e C individualmente, os valores de moda são 1,62 (amostra A) e 1,56 (amostra C), visto que cada um deles aparece um maior número de vezes (duas em cada conjunto). Para a amostra B, não há valores repetidos e, portanto, não há moda. Considerando agora o conjunto que engloba todas as amostras (n=15), temos dois valores de moda, 1,56 e 1,58, sendo assim, podemos dizer que este conjunto é bimodal. A mediana é caracterizada como resultado da divisão do conjunto de dados em dois subconjuntos de mesmo tamanho (metade menor e maior), ou seja, divide o conjunto ao meio. Em termos práticos, a mediana é obtida rearranjando-se os dados de forma crescente. Considerando a amostra A, temos o conjunto rearranjado como: {1,54, 1,56, 1,58, 1,62, 1,62}. Como nesse caso o número de dados é ímpar, o resultado da divisão desse conjunto ao meio é 1,58 (valor 1, valor 2, mediana, valor 4, valor 5). Suponhamos agora que o conjunto de dados seja par e dado pelo descarte do último valor, ou seja, {1,54, 1,56, 1,58, 1,62}. Nesse caso os valores que dividem o conjunto ao meio são 1,56 e 1,58, sendo a mediana obtida pela média dos valores ((1,56 + 1,58)/2), ou seja, 1,57. Se considerarmos o conjunto completo de dados (com n=15) teremos: {1,52, 1,53, 1,53, 1,54, 1,54, 1,55, 1,56, 1,56, 1,56, 1,57, 1,58, 1,58, 1,58, 1,62, 1,62}, sendo a mediana o 8º valor, ou seja, 1,56. Na determinação do grau de dispersão entre os dados de um conjunto, utilizamos o cálculo do desvio padrão (s) em torno de uma média. O desvio padrão é um parâmetro que sugere o quanto um conjunto de dados é uniforme, e quanto mais próximo de 0, mais homogêneos são os dados. De maneira genérica, o desvio padrão é dado pela raiz quadrada da relação entre somatório das diferenças entre os valores individuais ( )ix e médio ( )x ( ao quadrado ( )( )2ii x x−∑ e o número de dados menos um (n-1), de acordo com a relação (MILLER; MILLER, 2010): ( )2 2 1 ii x x s n − = − ∑ Observando os dados contidos na Tabela 1, o desvio padrão obtido para a amostra A, como mostrado na Tabela 2 é: 28 UNIDADE I │ ESTATÍSTICA BÁSICA Tabela 2. Dados (n=5) para o cálculo do desvio padrão (s) para a amostra A. Réplicas da amostra A (x i ) Média ( )x )−i(x x 2−i(x x) ( ) 2−∑ ii x x Desvio padrão (s) 1,56 1,58 -0,02 0,0004 0,0052 ( )2 2 1 ii x x s n − = − ∑ 0,0052 5 1 s = − 0,036s = 1,62 0,04 0,0016 1,58 0 0 1,62 0,04 0,0016 1,54 -0,04 0,0016 Fonte: adaptado de Miller e Miller (2010). Semelhantemente podemos obter os valores de desvio padrão para as amostras B (s = 0,023), C (s = 0,019), assim como todos os dados da Tabela 1 (s = 0,030). Comparando- se os desvios padrão para as 3 amostras, podemos inferir que os resultados para a amostra C apresentam os menores valores e, portanto, são mais homogêneos. Quando analisamos uma série de resultados experimentais, podemos descrever se o comportamento de fenômenos segue um determinado padrão. Para isso, utilizamos distribuições de probabilidades, sendo a distribuição normal uma das mais utilizadas. A distribuição normal (ou gaussiana) considera a frequência de ocorrência de um determinado dado numérico e pode ser facilmente verificada por gráfico do tipo histograma. Como exemplo, consideremos que a determinação de Ca na bebida láctea tenha sido realizada em 100 réplicas (n=100) e que obtemos as seguintes frequências de resultados: 1,52 (4x), 1,53 (5x), 1,54 (15x), 1,56 (62x), 1,58 (10x), 1,62(3x) e 1,63 (1x). Colocando esses resultados na forma de histograma, temos o gráfico de barras representado na Figura 3. Podemos assumir que a média populacional ( )x ( nos dá uma estimativa do valor tido como verdadeiro para a análise (μ), ou seja, μ = x . De maneira análoga, o desvio padrão dessa população (σ) é dado por ( )22 /ix nσ µ= ∑ − , sendo importante considerar que nesse caso utilizamos n e não n-1 como descrito para o cálculo do desvio padrão de uma amostra (s). Note que o rearranjo dos dados na forma de um gráfico de dispersão gera uma curva com formato de sino (curva gaussiana) sendo o ápice do pico o valor médio de μ = 1,56 e o desvio padrão calculado de σ = 0,02. 29 ESTATÍSTICA BÁSICA │ UNIDADE I Figura 3. Histograma e gráfico de distribuição normal. 0 10 20 40 30 50 60 70 1,52 1,53 1,54 1,56 1,58 1,62 1,63 Fr eq uê nc ia Concentração de Ca (mg/g) 0 10 20 40 30 50 60 70 1,5 1,52 1,54 1,56 1,58 1,6 1,64 1,62 Concentração de Ca (mg/g) Fr eq uê nc ia Fonte: Adaptado de Miller; Miller (2010). Na distribuição normal, aproximadamente 68% dos valores populacionais estão situados entre a média (μ) ± 1 desvio padrão (σ), 95% dos valores entre a média (μ) ± 2 desvios padrão (σ) e 99,7% dos valores entre a média (μ) ± 3 desvios padrão (σ), como ilustrado na Figura 4. No nosso exemplo prático, isso significa dizer que 68% dos valores estão entre 1,54 -1,58 (1,56 ± 0,02), 95% dos valores entre estão entre 1,52 -1,60 (1,56 ± 0,04) e 99,7% dos valores entre 1,50 -1,62 (1,56 ± 0,06). Figura 4. Propriedades da distribuição normal. µ - 1σ µ + 1σ µ - 2σ µ + 2σ µ - 3σ µ + 3σ 68% 95% 99,7 % Fonte: Adaptado de Miller; Miller (2010). Uma vez definida a tendência central (média) e observando a dispersão dos pontos em torno dela, isto é, o desvio padrão, determina-se que uma faixa de confiabilidade em torno da média na qual há maior probabilidade de o valor verdadeiro estar incluso. Quando assumimos uma distribuição normal, essa faixa é denominada intervalo de confiança (IC) e os extremos dessa são denominados limites de confiança. A amplitude do intervalo de confiança irá depender do quão certos queremos estar sobre a inclusão do valor verdadeiro, além do tamanho da amostra utilizado no processo. O nível de confiança geralmente situa-se entre 90% e 99%, sendo que valores abaixo desse nível apresentam baixa confiabilidade e valores acima, embora sejam associados a elevada confiança, geram intervalos muito largos ou requerem grandes amostraspopulacionais, o que pode inviabilizar o processo e elevar o custo. O nível de confiança mais utilizado 30 UNIDADE I │ ESTATÍSTICA BÁSICA em cálculos é o de 95%. Em termos práticos, isso significa que se você coletar 100 amostras populacionais e calcular 95% de intervalos de confiança, você esperaria que 95 destes contivessem o parâmetro em estudo (geralmente a média) e em 5 deles não, o que gera um erro de inferência de 5%. Quando trabalhamos com uma larga quantidade de amostras, os limites do intervalo de confiança podem ser calculados segundo (MILLER; MILLER, 2010): zsx n ± onde ( é o valor médio, z o coeficiente de confiança, s o desvio padrão da média e n o tamanho da amostra. O valor de z depende do nível de confiança escolhido, sendo z95% = 1,96 e z99% = 2,58. Quando uma pequena quantidade de amostras é submetida à análise, os limites de confiança são modificados e baseados na estatística t, segundo: ( )1 n t s x n −± onde nesse caso o valor de t depende não apenas do nível de confiança como também do tamanho da amostra, sendo o grau de liberdade dado por n-1. Na Tabela 3 são apresentados alguns valores de t para distintos graus de liberdade e níveis de confiança. Na literatura ainda podem ser encontrados outros valores tabelados (MILLER; MILLER, 2010). Note que quanto maior a população amostral, mais os valores de t se aproximam dos valores de z (1,96 para 95% e 2,58 para 99% de confiança) Tabela 3. Valores de t para diferentes níveis de confiança e graus de liberdade. Graus de liberdade (n-1) Valores de t para níveis de confiança de 90% 95% 99% 1 6,31 12,7 63,66 2 2,92 4,30 9,93 3 2,35 3,18 5,84 4 2,13 2,78 4,60 5 2,02 2,57 4,03 10 1,81 2,23 3,17 50 1,68 2,09 2,68 100 1,66 1,98 2,63 Fonte: Adaptado de Miller; Miller (2010). Retomemos agora o exemplo do Ca em bebidas lácteas e utilizemos os dados da Tabela 1 para o cálculo dos limites e intervalos de confiança para as amostras A, B e C a níveis de 95 e 99%. A Tabela 4, resume um exemplo de cálculo para esses parâmetros. Note que a população amostral é pequena, sendo então adotada a abordagem com valores de 31 ESTATÍSTICA BÁSICA │ UNIDADE I t, e que também temos 5 réplicas, logo, o número de graus de liberdade (n-1) é igual a 4 e o valor de t95% = 2,78 e t99% = 4,60. É importante verificar que em cada caso, quanto menor o desvio padrão, menor o intervalo de confiança e que quanto maior o nível de confiança, mais amplo o intervalo. Tabela 4. Exemplo de cálculo de intervalo de confiança utilizando os dados da tabela 1. Amostra Média ( )x Desvio padrão (s) Limite inferior ( )1−− n t s x n Limite superior ( )1−+ n t s x n Intervalo de confiança (IC) 95 % de confiança A 1,58 0,036 1,54 1,62 1,54 < µ <1,62 B 1,54 0,023 1,51 1,57 1,51 < µ <1,57 C 1,56 0,019 1,54 1,58 1,54 < µ <1,58 99 % de confiança A 1,58 0,036 1,65 1,51 1,51 < µ <1,65 B 1,54 0,023 1,59 1,49 1,49 < µ <1,59 C 1,56 0,019 1,52 1,60 1,52 < µ <1,60 Fonte: Adaptado de Miller e Miller (2010). Considerando ainda o problema do analista de controle de qualidade da indústria alimentícia, muitas vezes precisamos comparar o resultado determinado via análise química com um valor de referência, tido como valor verdadeiro, a fim de verificar se os resultados são significativamente semelhantes ou diferentes estatisticamente. Esse procedimento pode auxiliar o analista em tomadas de decisão, como por exemplo rejeitar ou não um determinado lote de produto que não apresenta conformidade. Para a comparação de médias, lançamos mão de testes de significância, sendo um dos mais empregados o teste t de Student. Esse teste quando aplicado tem por finalidade a comparação de médias com um valor verdadeiro (teste t não pareado) ou de comparação de duas médias não independentes (teste t pareado). No teste t, assumimos uma distribuição normal, com variância desconhecida e formulamos as chamadas hipóteses, que são definidas como sendo suposições quanto ao valor de um parâmetro populacional ou afirmação a respeito de sua natureza. As hipóteses são caracterizadas como nula (H0) que é a hipótese a ser testada e alternativa (H1) que é a hipótese contrária a H0. Considerando nosso exemplo para o cálcio, suponhamos que o valor verdadeiro seja μ = 1,56 mg/g Ca e que um conjunto de 5 análises (n=5) nos forneceu uma média = 1,55 e um desvio padrão = 0,02. Podemos então formular como hipótese nula que a média de resultados de análise ( é estatisticamente semelhante ao valor verdadeiro, ou seja H0 = 1,56, e como hipóteses alternativas que o ele seja menor (H1 < 1,56), maior (H1 > 1,56) ou diferente (H1 ≠ 1,56). Quando consideramos os valores 32 UNIDADE I │ ESTATÍSTICA BÁSICA menores ou maiores individualmente, as hipóteses são denominadas unilaterais e para valores diferentes, consideramos ambos os lados (maior e menor que 1,56), sendo esse chamado de bilateral. Normalmente, a hipótese nula é rejeitada P = 0,05, isto é, se a probabilidade P de ocorrer diferenças significativas for de até 5%, desta forma, obtendo- se um nível de confiança de 95%. Aplicando-se o teste t não pareado, calculamos então o valor de t (em módulo), segundo: calculado xt s n µ− = Substituindo-se os valores informados, temos um valor de tcalculado igual a 1,118. O valor de t calculado pode ser comparado com o valor de tcrítico que é disposto em tabelas como exemplificado na Tabela 3. Nesse caso, o valor de tcrítico é de 2,78 para 4 graus de liberdade (n-1) e com nível de confiança = 95%. Se tcalculado < tcrítico então a hipótese nula é aceita, ou seja, o resultado da análise não apresenta diferença estatística em comparação ao valor verdadeiro, e se tcalculado > tcrítico, H0 é rejeitada e os resultados são diferentes estatisticamente a um nível de 95% de confiança. Consideremos agora que a amostra do exemplo anterior que foi analisada no laboratório da própria planta da indústria, que a média foi de 1x = 1,55 e o desvio padrão s1 = 0,02 (n=5), tenha sido enviada para um segundo laboratório credenciado, e que este obteve como resultados para um conjunto de 7 análises (n=7) uma média 2x = 1,53 e um desvio padrão s2=0,03. Nesse caso, podemos comparar as médias e desvios de cada laboratório e dizer se são semelhantes ou não estatisticamente utilizando o teste t pareado. Dessa forma, consideramos que a hipótese nula (H0) é de que os resultados interlaboratoriais são semelhantes 2 2( )x x= e como hipótese alternativa (H1) que são diferentes 2 2( )x x≠ . Devemos nos atentar também ao fato de que os tamanhos de amostra são diferentes (n1 = 5 e n2 = 7) e que os desvios são diferentes (s1 ≠ s2). Se os desvios não forem muito diferentes, podemos combiná-los de acordo com: ( ) ( )2 21 1 2 2 1 2 1 1 2 n s n s S n n − + − = + − No nosso exemplo, o valor calculado de desvio agrupado é S = {[(5-1) x (0,02)2 + (7-1) x (0,03)2]/(5+7-2)}, ou S = 0,07. Na determinação do valor de tcalculado, podemos aplicar a relação seguinte (em módulo): 1 2 2 1 2 1 1 calculado x xt S n n − = + 33 ESTATÍSTICA BÁSICA │ UNIDADE I Substituindo-se os valores informados, temos um valor de tcalculado igual a 0,488. O valor de t calculado pode ser comparado com o valor de tcrítico, sendo o número de graus liberdade igual a n1 + n2 – 2. No nosso exemplo, para 10 graus de liberdade temos o valor de tcrítico = de 2,23 a um nível de 95% de confiança. Como tcalculado < tcrítico então a hipótese nula é aceita, ou seja, o resultado da análise não apresenta diferença estatística entre as duas médias de resultados. Todos nós estamos familiarizados com o termo “um ponto fora da curva” quando descrevemos um comportamento considerado anormal frente a uma tendência. Nas ciências experimentais, podemos nos deparar muitas vezes com um dado discrepante e que pode gerar resultados subestimados ou superestimados com erros maiores. Para descobrir se um outlier (resultado inesperado) deve ser mantido no conjuntode dados ou descartado, podemos aplicar o teste Q. Esse teste é bastante popular devido a sua simplicidade e deve ser aplicado a dados provenientes de uma mesma população, assumindo também uma distribuição normal dos erros. O valor de Qcalculado pode ser obtido (em módulo) segundo: calculado valor suspeito valor mais próximoQ valor maior valor menor − = − O valor de Qcalculado é então comparado com o de Qcrítico, conforme apresentado na Tabela 5 para diferente tamanho de amostra e níveis de confiança. Tabela 5. Valores de Q para diferentes níveis de confiança e tamanho da amostra. Tamanho da amostra (n) Valores de Q para níveis de confiança de 90% 95% 99% 3 0,941 0,970 0,994 4 0,765 0,829 0,926 5 0,642 0,710 0,821 6 0,560 0,625 0,740 7 0,507 0,568 0,680 10 0,412 0,466 0,568 20 0,300 0,342 0,425 30 0,260 0,298 0,372 Fonte: Adaptado de Miller e Miller (2010). Consideremos como exemplo o seguinte conjunto de resultados {0,402, 0,410, 0,400, 0,360, 0,401, 0,412, 0,407}, temos uma média de 0,399 e um desvio padrão de 0,018. Nesse caso, o valor 0,360 é o suspeito de ser discrepante, 0,400 é o mais próximo do mesmo e os valores máximo e mínimo são de 0,412 e 0,360, respectivamente. Aplicando o teste Q, temos o valor calculado dado por Qcalculado = (0,360 – 0,400) / (0,412-0,360) = 0,769. Com um tamanho de amostra de 7 e para um nível de confiança = 95%, o valor 34 UNIDADE I │ ESTATÍSTICA BÁSICA de Qcrítico é igual a 0,568. Assim como ocorre para o teste t, como o valor crítico é maior que o valor calculado, o resultado suspeito deve ser rejeitado. Note que ao rejeitarmos o resultado, nossa nova média é de 0,405 e o desvio de 0,005, os quais traduzem de maneira mais fiel o comportamento do conjunto de dados. Caro estudante, você estudou nesta unidade sobre alguns conceitos de estatística básica, pois o planejamento experimental depende fortemente do entendimento destes princípios. Com isso, sugerimos que consulte o link a seguir para um aprofundamento detalhado deste assunto: https://www. measureevaluation.org/resources/training/capacity-building-resources/data- quality-portuguese/moduloII_capa.pdf (NOÇÕES DE ESTATÍSTICA, 2018). 35 UNIDADE II TRABALHANDO COM DADOS MULTIVARIADOS CAPÍTULO 1 Análise exploratória de dados A estatística descritiva pode ser dividida entre métodos univariados e multivariados. A análise univariada descreve as características e comportamentos de dados e resultados quando se analisa uma única variável separadamente. Porém, muitos são os casos em que temos múltiplas variáveis dependentes e independentes, o que consequentemente faz com que outros métodos multivariados para explorar a influência e a inter- relação entre cada uma delas sejam utilizados. Devido à complexidade da análise de dados multivariados, vários softwares como Mathlab, Unscrumbler, Pirouette, SIMCA, Statistica (pagos), Octave e Scilab (livres) podem ser utilizados para análises exploratórias, construção de modelos e planejamento experimental. Em virtude disso, os métodos a seguir descritos serão abordados apenas em termos de seus fundamentos básicos e alguns exemplos práticos. A análise exploratória de dados é uma abordagem estatística empregada no reconhecimento de regularidades e padrões de um conjunto de dados multivariado para retirar as informações mais importantes, encontrando tendências, agrupando conjuntos de acordo com similaridades e detectando comportamentos anômalos. Com o advento da microeletrônica e o desenvolvimento de computadores com capacidade de extrair e armazenar uma grande quantidade de dados em um intervalo de tempo breve, faz-se necessário o emprego de ferramentas matemáticas e estatísticas para o processamento desses dados e obtenção de informações valiosas sobre o problema em estudo, auxiliando assim em uma futura tomada de decisões (FERREIRA et al., 1999). Método da análise de componentes principais (PCA) A análise de componentes principais (PCA, do inglês Principal Component Analysis) é um método que utiliza a projeção de dados multivariados e visa a transformação 36 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS deles de modo a reduzir sua dimensão e deixar mais evidentes as informações mais relevantes. Essa metodologia é bastante útil na identificação de diferenças entre as variáveis e visualização de comportamentos atípicos em determinadas amostras, o que é especialmente útil em processos de controle de qualidade industriais. Um exemplo prático que melhor ilustra um método de projeção é a fotografia. Considerando uma paisagem, temos um espaço tridimensional (3 variáveis – altura, largura e profundidade) que é projetado num espaço bidimensional (papel) contendo menos variáveis que o conjunto de informações original. Nesse caso, dizemos que ocorre uma compressão controlada dos dados (perda de informações) mas que nos fornece uma melhor compreensão dos mesmos (FERREIRA, 2015). Suponhamos que o nosso analista da indústria de laticínios tenha determinado a concentração de cálcio em uma bebida utilizando um método instrumental de análise chamado espectrometria de emissão atômica, e que tenha avaliado os comprimentos de onda (λ) de 393,3 nm e 422,6 nm. para amostras com concentração crescente de Ca. A Tabela 6 ilustra os resultados obtidos, e é possível verificar que nesse caso temos duas variáveis (λ1 e λ2) e que essas são intrinsicamente dependentes apenas a concentração. Tabela 6. Resultados para determinação espectrométrica de Ca. Concentração de Ca (mg/L) Intensidade de sinal para λ1 (393 nm) Intensidade de sinal para λ2 (422 nm) 1 1005 2090 2 2030 3900 5 5003 9020 10 11070 20970 20 20100 39200 25 24200 50900 Fonte: Adaptado de Miller e Miller (2010). Um gráfico de relação entre as variáveis intensidade para λ1 vs. intensidade para λ2 poderia ser representado por uma série de pontos bidimensional (Figura 5). Note que o gráfico obtido utilizando os dados da Tabela 6, apresenta comportamento linear e uma boa correlação entre os pontos (R2 = 0,9986), indicando assim uma correlação entre as variáveis estudadas (λ1 e λ2). Tendo então, variáveis que se correlacionam, pode- se combiná-las e agrupá-las para comprimir os dados e reduzir a o número menor de novas variáveis que ainda podem trazer informações significativas. Essas novas variáveis combinadas são chamadas de componentes principais. 37 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II Figura 5. Gráfico de intensidades de sinal para Ca em 393 e 422 nm a partir de dados da Tabela 5. R² = 0,9986 0 10000 20000 30000 40000 50000 60000 0 5000 10000 15000 20000 25000 30000 In te ns id ad e (4 22 n m ) Intensidade (393 nm) Fonte: Adaptado de Miller e Miller (2010). As componentes principais apresentam como característica intrínseca o fato de serem ortogonais e não se correlacionarem entre si, visto que a informação presente em cada uma delas é única. Além disso, cada uma das componentes principais descreve uma quantidade de informação dos dados originais. A primeira (PC1) descreve a direção de máxima variância dos dados originais e a segunda (PC2), descreve a máxima variância dos dados na direção ortogonal a PC1. As componentes posteriores são ortogonais às anteriores, descrevendo assim a variância restante. O número de componentes principais que é adequado para descrever um determinado sistema é chamado de posto químico do conjunto de dados. Após definir o número de PCs e de determinar o posto químico, os dados podem ser projetados num novo sistema (FERREIRA, 2015). Para facilitar a visualização, procederemos um tratamento matemático chamado “centrar na média” (CM), significa dizer que a média de um conjunto de dados de uma variável é calculada e então subtraída de cada um dos elementos. Outro tratamento bastante empregado é o “autoescalamento” (AE), após centrado na média, o valor resultante é dividido pelo desvio padrão referente àquela coluna de dados, o queauxilia a tornar mais evidente a correlação entre as variáveis (FERREIRA et al., 1999). Quando trabalhamos com métodos multivariados, é interessante organizar os dados em uma forma mais fácil de realizar os cálculos. Quando coletados, os dados podem ser organizados em um arranjo de “I” linhas e “J” colunas, chamado de matriz X, em que cada linha corresponde a uma amostra e cada coluna uma variável estudada. Dessa forma, podemos dizer por exemplo que 1Ix é o valor para a I-ésima linha e primeira coluna, 4 jx o valor para a J-ésima coluna da quarta linha e o valor para a I-ésima linha e J-ésima coluna. 38 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS [ ] 11 12 11 21 22 22 31 32 33 1 2 3 4 41 42 44 1 2 T J T J T J JT J T I I IJI x x x x x x x x x x x x x x x × × × = = = × × × × … × × … … … … × X Cada amostra i (x1J, x2J ... xIJ) pode ser associada a um vetor-linha (), composto pelos J valores de medidas realizados para os parâmetros estudados para aquela amostra. Esse vetor pode ser associado a um ponto no espaço com dimensão igual a J. De maneira análoga, para cada variável j (xI1, xI2 ... xIJ) pode-se associar um vetor (xj) a um ponto no espaço com dimensão I (FERREIRA et al., 1999). Note que a representação de matriz é usualmente feita na forma de coluna e que a matriz-linha gerada é a transposta (T) da matriz para determinada coluna. [ ] 1 2 3 1 2 3 4 j j jT i i i i iJ j j Ij x x x x x x x x x × = × = Consideremos agora que nosso analista da indústria de laticínios tenha determinado a concentração de cálcio e de magnésio em matéria prima de leite por medidas de titulação em 6 amostras. Os resultados são descritos na Tabela 7. Tabela 7. Resultados para determinação de Ca e Mg em leite e tratamentos matemáticos de centragem na média (CM) e autoescalamento (AE). Amostra [Ca] (mg/L) [Mg] (mg/L) [Ca] CM [Mg] CM [Ca] AE [Mg] AE A 1,52 0,76 -2,375 -1,193 -1,35 -1,36 B 2,56 1,29 -1,335 -0,663 -0,76 -0,75 C 3,48 1,75 -0,415 -0,203 -0,24 -0,23 D 4,21 2,11 0,315 0,157 0,18 0,18 E 5,28 2,66 1,385 0,707 0,79 0,80 F 6,32 3,15 2,425 1,197 1,38 1,36 Média 3,90 1,95 - - - - Desv. Pad. - - 1,76 0,88 - - Fonte: Adaptado de Miller e Miller (2010). 39 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II No nosso exemplo, a matriz X é composta por 6 amostras (linhas) e 2 variáveis (colunas), ou seja, 6x2. Dessa forma, podemos reescrever os dados da Tabela 6 em termos de matrizes dos dados originais (X), centrados na média (Xcm) e autoescalados (Xae), como descrito abaixo: 1,52 0,76 2,375 1,193 1,35 1,36 2,56 1,29 1,335 0,663 0,76 0,75 3,48 1,75 0,415 0,203 0,24 0,23 4,21 2,11 0,315 0,157 0,18 0,18 5,28 2,66 1,385 0,707 6,32 3,15 2,425 1,197 − − − − − − − − − − − − = = = cm aeX X X 0,79 0,80 1,38 1,36 A Figura 6 mostra o gráfico de correlação entre os dados originais, centrados na média e autoescalados. Figura 6. Gráficos de correlação para os dados da Tabela 7. 2 3 4 5 6 7 1 1,5 2 2,5 3 3,5 C on ce nt ra çã o de C a Concentração de Mg Dados originais -3 -2 -1 0 1 2 3 -1,5 -1 -0,5 0 0,5 1 1,5 C on ce nt ra çã o de C a Concentração de Mg Centrado na média Autoescalado 2 3 4 5 6 7 1 1,5 2 2,5 3 3,5 C on ce nt ra çã o de C a Concentração de Mg Dados originais -3 -2 -1 0 1 2 3 -1,5 -1 -0,5 0 0,5 1 1,5 C on ce nt ra çã o de C a Concentração de Mg Centrado na média Autoescalado Fonte: Adaptado de Miller e Miller (2010). 40 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS A análise de componentes principais utilizando o software, nos fornece duas novas variáveis, a PC1 e PC2. A primeira tem como característica apresentar o maior espalhamento dos pontos ao longo do eixo e a segunda descreve a informação restante dos dados em termos de variância. A representação gráfica das componentes principais se encontra na Figura 7. Para melhorar a visualização das componentes, podemos rotacionar os dados de modo que a PC1 se torne o eixo x e a PC2 o eixo y. Figura 7. Gráficos de PCA para as 6 amostras de leite analisadas. C on ce nt ra çã o de M g -0,2 -0,15 -0,1 -0,05 0 0,05 0,1 0,15 0,2 -3 -2 -1 0 1 2 3 PC 2 PC1 Fonte: Ferreira, (2015). É importante notar que nesse caso, o gráfico de PCA com as variáveis combinadas linearmente e as coordenadas de seus pontos são distintas das dos gráficos de correlação entre as variáveis originais mostradas. No gráfico PC1 x PC2, as novas coordenadas são chamadas de “scores” e os coeficientes de combinação linear (ou seja, o quanto cada variável antiga contribui no gráfico), chamados de “loadings”. Na prática, os scores nos fornecem a composição das componentes principais em relação às amostras e os loadings a composição das componentes principais em relação às variáveis. Esse conjunto de parâmetros nos possibilita estimar a influência de cada variável em cada amostra 41 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II individual. O cálculo de scores e loadings pode ser realizado por diferentes métodos, sendo um dos mais usados o de decomposição por valores singulares (SVD). Como exemplo prático podemos destacar um trabalho de tese de doutorado sobre adulteração de leite (SANTOS, 2013). A autora avaliou a adulteração de leite com água, soro, leite sintético, urina sintética e peróxido de hidrogênio, além de misturas de adulterantes em vários níveis (presença de 5 a 50% de adulterante), constituindo ao todo mais de 1.000 amostras de leite. Foram avaliados como respostas 10 variáveis diferentes, todas relacionadas à análise de imagens digitais, e foi aplicada então uma PCA para avaliar sobreposições e/ou tendências de separação entre as amostras. A Figura 8 mostra um gráfico de scores para amostras de leite sem adulteração e adulterados em vários níveis. Verifica-se que há um agrupamento das amostras de acordo com o teor de adulteração: grupo 1 com 50% de adulteração (símbolos brancos), grupo 2 com 35% de adulteração (símbolos cinza escuro), grupo 3 com 5-25% de adulteração (símbolos cinza-claros) e amostras não adulteradas (preto). Verifica-se que não foi possível a distinção entre o tipo de adulterante empregado e que as classes de amostras com 5, 15 e 25% de alteração se sobrepuseram, indicando similaridade. Figura 8. Gráfico de scores para amostras de leite com e sem adulteração. Fonte: SANTOS, (2013). É importante verificar que a PC1 explica 77% das variâncias do conjunto de dados e a PC2 17%, sendo que juntas essas informações constituem cerca de 94% do conjunto de dados original. No gráfico de loadings (Figura 9), é possível observar quais variáveis são mais significativas para separação e/ou agrupamento das amostras. 42 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS Nota-se que as variáveis V, B, L, R, G, r e g (loadings positivos para PC1) apresentaram valores maiores para essas variáveis em leites não adulterados ou com 5-25% de adulteração do que em leites adulterados com 35 e 50%. Figura 9. Gráfico de loadings para amostras de leite com e sem adulteração. Fonte: SANTOS, (2013). Caro estudante, mantenha-se atento a leitura desse capítulo, são assuntos de extrema relevância para entendimentos futuros, sugerimos como leitura que consulte o seguinte link que fala um pouco mais sobre PCA: https://goo. gl/2PZwdt (PCA, 2018). Análise hierárquica de agrupamentos (HCA) A análise hierárquica de agrupamentos (HCA, do inglês Hierarchical Cluster Analysis) é um método hierárquico, ou seja, constituído por um arranjo de itens (objetos, valores, categorias etc.) que são representados como estando “acima”, “abaixo” ou “no mesmo nível” um do outro. A HCA é considerada um método aglomerativopois considera cada objeto como um grupo unitário que vai se unindo por similaridade a outros até chegar a um grupo mais amplo. A matriz inicial de dados é processada e dimensionalmente reduzida pelo agrupamento por pares semelhantes sucessivos, até que a reunião de todos os grupos chegue a um único grupo. A HCA é feita com a finalidade de traduzir os dados em um espaço bidimensional de maneira a destacar amostras com alguma similaridade (de uma mesma classe) e maximizar as diferenças entre amostras de grupos diferentes. https://goo.gl/2PZwdt https://goo.gl/2PZwdt 43 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II Os resultados são apresentados em uma árvore hierárquica denominada dendograma, um gráfico bidimensional que agrupo amostras ou variáveis de acordo com seu grau de similaridade. (CORREIA; FERREIRA, 2007). Para decidir quais objetos devem ser combinados ou onde um agrupamento deve ser dividido é necessária uma medida de similaridade entre os conjuntos. Isso é alcançado pelo uso de uma métrica (medida de distância entre pares de observações) apropriada e um critério de ligação que especifica a diferença dos conjuntos em função das distâncias. Como exemplo, podemos observar na Figura 10 um conjunto de dados e o agrupamento na forma de dendograma de acordo com as distâncias entre as amostras, onde é possível verificar que inicialmente temos 6 amostras (A, B, C, D, E e F) formando 6 grupos unitários. Figura 10. Dados organizados por distância e agrupamento na forma de dendograma. Fonte: Adaptado de Correia; Ferreira, (2007). Como os pares A-C e B-E apresentam menores distâncias entre si, são agrupados para formarem os grupos AC e BE. Já as amostras F e D ainda se mantém distantes do restante, dessa forma o número de grupos é igual a 4 (AC, BE, D e F). O grupo BE encontra-se agora mais próximo de F e pode ser agrupado no grupo BEF, reduzindo o número de grupos para 3 (AC, BEF e D). Posteriormente, o grupo BEF se localiza mais próximo de AC do que de D, portanto o novo grupo formado é o ABCEF, e completando o grupo dados, temos o grupo unitário D. Por fim, todos os grupos se unem totalizando o conjunto de dados ABCDEF. Considerando o conjunto de dados do exemplo, podemos inferir sobre algumas condições básicas para o cálculo da distância entre dois pontos (espaço métrico). Supondo os conjuntos A e C, podemos dizer que a distância entre A e C (dAC) é igual à distância entre C e A (dCA), ou seja dAC = dCA, e que elas devem ser maiores ou iguais a zero, não podendo ser negativas. Se a dAC = 0, significa que A=C. Considerando agora 44 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS as distâncias entre A, B e C, devemos utilizar um conceito em métrica chamado de “desigualdade triangular”, que diz que o comprimento de um dos lados do triângulo (por exemplo dAB), deve ser menor ou igual à soma dos outros dois lados (dAC e dBC), o que significa dizer que o caminho A-B é mais curto do que a soma dos caminhos AC e BC (FERREIRA, 2015). Dentre os vários métodos para atribuição métrica, abordaremos a seguir os mais utilizados como a distância Euclidiana e distância Manhattan. A distância Euclidiana é possivelmente a mais comum e empregada em métrica e é a distância entre dois pontos que pode ser expressa em termos do teorema de Pitágoras. A distância Euclidiana entre os pontos A = (a1, a2, a3,..., an) e E = (e1, e2, e3,..., en) do nosso exemplo da Figura 8 em um espaço n-dimensional, é dada por: ( ) ( ) ( )2 2 21 1 2 2AB n nd a e a e a e= − + − +…+ − Onde an e en são os valores da n-ésima coordenada para A e E. Considerando um espaço bidimensional, temos que a distância entre os pontos A = (ax, ay) e E = (ex, ey) é: ( ) ( )22AB x x y yd a e a e= − + − A grande limitação da distância Euclidiana está no fato de que ela varia com a mudança de escala dos dados. É importante considerar também que essa distância pode ser descrita em termos de vetores em um espaço dimensional. A distância de Manhattan utiliza a abordagem de que a distância entre dois pontos é igual à soma das diferenças absolutas de suas coordenadas. Essa medida é também conhecida como a métrica do taxi, por analogia com um táxi que deve contornar os quarteirões em seu caminho para chegar ao destino. Dessa maneira, a distância entre os pontos A e E (dAE) do nosso exemplo da Figura 10 é igual à soma das distâncias dAB + dBE ou dAC + dCE. A Figura 11 exemplifica a distância as métricas Euclidiana (em amarelo) e Manhattan (em laranja, roxo ou verde) para a distância entre P e Q. A distância Euclidiana calculada nesse caso é dPQ = 8,5, enquanto para a distância Manhattan dPQ = 12, independentemente do caminho adotado. 45 TRABALHANDO COM DADOS MULTIVARIADOS │ UNIDADE II Figura 11. Exemplos de distância Euclidiana (amarelo) e Manhattan (laranja, verde e rosa) entre os pontos P e Q. Fonte: Ferreira (2015). Podemos identificar e agrupar as amostras de acordo com suas similaridades, quando a distância entre os pares de amostras for definida. Após o primeiro agrupamento, calcula-se novamente a distância entre os grupos restantes para que o processo se repita. Cada repetição produz grupos já definidos e que permanecem unidos seguindo a hierarquia. O resultado final após o agrupamento das amostras, pode ser expresso na forma de um dendograma, os comprimentos das ramificações mostram as distâncias entre os grupos. Para facilitar o escalonamento, utilizamos a normalização por índice de similaridade de modo que as distâncias se situem entre 0 e 1. Isso significa que quanto mais próximo de 0 o índice for, menor a similaridade das amostras e o inverso acontece quanto mais próximo de 1, ou seja, maior será similaridade. Considerando os grupos P e Q, o índice de similaridade (S) pode ser obtido através de: 1 PQ max d S d = − Onde dPQ é a distância entre os pontos a serem considerados para agrupamento e dmax a distância entre os dois grupos mais afastados do conjunto. Dentre os diversos métodos para agrupamento hierárquico, estudaremos mais a fundo o do vizinho mais próximo, do vizinho mais distante e da média utilizando 3 grupos (A, B e C) sendo os grupos A e B constituídos por 1 amostra cada (a e b) e o grupo C por duas amostras (c1 e c2) como destacado na Figura 12 (FERREIRA, 2015). 46 UNIDADE II │ TRABALHANDO COM DADOS MULTIVARIADOS Figura 12. Exemplos de agrupamentos pelos métodos do vizinho mais próximo e vizinho mais distante. Conjunto de dados originais Agrupamento por vizinho mais próximo Agrupamento por vizinho mais distante Fonte: Adaptado de Ferreira (2015). O método do vizinho mais próximo é o método mais simples de agrupamento, sendo a distância entre dois grupos dada pela menor distância entre todos os constituintes de cada grupo. Nesse caso, como os grupos A e B são unitários, temos que a distância entre os grupos é igual à distância entre as próprias amostras constituintes (dAB = dab). Considerando os outros grupos com relação a C (A e C; B e C), a distância entre eles será a menor entre suas amostras pertencentes, ou seja, dAC = min (dac1, dac2) e dBC = min (dbc1, dbc2). Observando a Figura 10, verifica-se que dac1 < dac2 e dbc2 < dbc1, logo dAC = dac1 e dBC = dbc2. Uma vez obtidas as distâncias, observamos que dBC < dAC < dAB, logo o par mais próximo irá gerar um novo grupo, BC no caso. Em seguida, calcula-se a distância entre o grupo restante (A) e o recém-formado (BC), de modo que dA(BC) = min (dAB, dAC) = min (dab, dac1, dac2), sendo a distância mínima dac1. Esse método possui como característica o fato de as distâncias entre os grupos se relacionarem com as distâncias entre as amostras, gerando agrupamentos mais espalhados e com menores índices de similaridade. O método do vizinho mais distante é um método semelhante ao anterior com a diferença que as distâncias entre os grupos são calculada pela maior distância entre os constituintes. Utilizando o mesmo exemplo anterior, a relação de C com os outros grupos
Compartilhar