Prévia do material em texto
Melissa Gimenes Araújo 19/10/2022 I Prof. Fernando Chiba INTRODUÇÃO Coleta de dados -> apuração dos dados de acordo com os valores de uma ou mais variáveis -> distribuições de frequência -> análise descritiva da distribuição de dados (descrição de suas características mais importantes). Método usual de análise de uma distribuição de dados de uma variável quantitativa X consiste em definir: Medidas de tendencia central ou de reposição Medidas de variabilidade ou de dispersão Medidas de assimetria Medidas de achatamento ou “curtose” MEDIDAS DE TENDÊNCIA CENTRAL Visam determinar o centro da distribuição. Média aritmética: Medida de tendencia central mais empregada: mais comum simples fácil compreensão expressa com mais realidade o centro de distribuição Média aritmética simples e ponderada Média aritmética simples: 1. Ordenar a variável analisada em ordem crescente 2. Verificar a frequência de cada valor 3. Calcular o produto de cada valor da variável pela sua respectiva frequência 4. Calcular a frequência total 5. Calcular a soma dos produtos Dados agrupados em classe: Intervalos de valores: faixa etária, de peso etc. Previamente ao cálculo da média -> determinar os pontos médios das classes -> semissoma dos dois extremos das classes Ex.: 10-20 anos -> 10+20/2 = 15 Faz os mesmos passos, mas usa essa semissoma ao invés da faixa ou da idade Propriedades: Caso a todos os valores uma variável “X” for somada ou subtraída uma constante “C”, a média aritmética de “X” ficará acrescida ou diminuída desta constante “C” A média aritmética é o valor que todas as observações teriam se fossem todas iguais entre si A soma das diferenças entre todos os valores da variável “X” e a sua média aritmética é nula Mediana: Tal como a média, procura caracterizar o centro da distribuição Critério diferente: baseado na ordem dos valores que formam o conjunto de dados Indicação: quando desejamos obter o ponto que divide a distribuição em duas partes iguais Quando há valores extremos que afetam de maneira acentuada a média aritmética Dados não agrupados e “n” é ímpar: a mediana será o valor da variável que ocupa o posto de ordem: n+1/2 Dados não agrupados e “n” é par: não existe um único valor que ocupe o centro da distribuição; a mediana será a média aritmética dos valores que ocupam os postos de orem: n/2 e n+2/2 Dados agrupados em classes: independente se “n” é par ou ímpar Melissa Gimenes Araújo Identificar a classe mediana; aplicar a fórmula Mediana X média: Média: fortemente afetada por valores extremos e em distribuições assimétricas pode apresentar uma informação distorcida Mediana: é uma medida de posicionamento, representando o valor que ocupa a posição central na série, assim, não é afetada por valores extremos, daí ser preferida em distribuições assimétricas Moda: Dada uma distribuição de frequências, a moda é o valor da variável que corresponde à frequência máxima, isto é, o valor mais frequente em uma distribuição Distribuição amodal: não existe valor modal, isto é, nenhum valor aparece mais vezes que o outro Distribuição bimodal: possui duas modas Distribuição trimodal: possui três modal Características: pode ser usada como medida de tendencia central quando a variável analisada é de natureza qualitativa Dados agrupados em classes: a moda pertence à classe de maior frequência - classe modal 09/11/2022 I Prof. Fernando Chiba MEDIDAS DE VARIABILIDADE OU DISPERSÃO Complementar as informações fornecidos pelas medidas de tendencia central ou de posição Indicar o quanto os dados se apresentam dispersos em torno do centro de distribuição Caracterizar o grau de variação existente no conjunto de valores Amplitude, desvio médio, variância, desvio padrão, coeficiente de variação de Pearson Amplitude: É definida como a diferença entre o maior e o menor valor do conjunto de dados Deve-se organizar os dados em ordem crescente A = Xmax - Xmin Indicação: aplicação em processos de controle de qualidade Limitações: Pouco utilizada como medida de dispersão em estudos epidemiológicos Depende apenas de dois valores do conjunto de dados Contém pouca informação sobre a dispersão dos dados Melissa Gimenes Araújo Desvio médio: É definida como uma medida que representa a média das diferenças entre cada elemento do conjunto de dados e o centro da distribuição Calcular a média da distribuição dos dados Calcular a diferença entre cada elemento do conjunto de dados e a média Converter as diferenças em módulos Calcular a média dos módulos das diferenças Variância: Média dos quadrados das diferenças dos valores observados em relação à média da distribuição de dados Variância amostral Variância populacional Calcular a média da distribuição de dados Calcular o quadrado da diferença entre cada elemento do conjunto de dados e a média Calcular a soma dos produtos dos quadrados das diferenças pela respectiva frequência Características: Medida de variabilidade importante na teoria estatística Do ponto de vista pratica é inconveniente por se expressão numa unidade quadrática em relação à variável analisada Desvio padrão: Medida de variabilidade definida como a raiz quadrada positiva da variância Medida de variabilidade mais comumente usada O desvio padrão é da mesma natureza e magnitude da variável O desvio padrão só é nulo quando todos os valores da distribuição forem iguais (quanto mais próximo de zero, menor a variância) Coeficiente de variação de Pearson (CV) Medida de variabilidade relativa como o quociente entre o desvio padrão e a média de uma distribuição Caracterização da dispersão dos dados em relação ao seu valor médio Independente da natureza e magnitude da variável Frequentemente expresso em porcentagem Permite a comparação de duas distribuições quanto à variabilidade Alguns autores consideram a seguinte regra empírica para a interpretação do coeficiente de variação (depende do estudo): CV < 15% = baixa CV = 15%-30% = média CV > 30% = alta Melissa Gimenes Araújo 16/11/2022 I Prof. Fernando Chiba MEDIDAS DE DISTRIBUIÇÃO DE DADOS Medidas de assimetria: Medidas que procuram caracterizar como e quanto a distribuição de frequências se afastam da condição de simetria Simetria: correspondência, em medida, forma e posição relativa, entre as partes dispostas em cada lado de uma linha divisória, um plano médio, um centro ou um eixo Distribuição de frequências simétrica: é simétrica em torno de um valor A se os pontos simétricos em relação a tiverem a mesma frequência (não precisa ser perfeitamente simétrico) Em uma distribuição simétrica a média aritmética, a mediana e a moda coincidem Distribuição de frequências assimétricas: Curva de frequência com a “cauda” mais longa à direita -> distribuição assimétrica para a direita; assimetria positiva moda < mediana < média Curva de frequência com a “cauda” mais longa à esquerda -> distribuição assimétrica para esquerda; assimetria negativa moda > mediana > média Coeficiente de simetria de Pearson: Medida de assimetria definida como a diferença entre a média e a moda/mediana da distribuição de dados dividida pelo seu desvio padrão 1º coeficiente de assimetria de Pearson = 𝑚é𝑑𝑖𝑎 − 𝑚𝑜𝑑𝑎 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 Quanto mais próximo de zero, mais simétrico é Se der positivo, é para a direita e se der negativo é para a esquerda Quando a distribuição não apresentar uma moda ou apresentar mais de uma moda, não podemos escolher aleatoriamente uma para obter o coeficiente de assimetria Para evitar o uso da moda, pode-se adotar a seguinte fórmula com a utilização da mediana: 3. (𝑚é𝑑𝑖𝑎 − 𝑚𝑒𝑑𝑖𝑎𝑛𝑎) 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 Classificação:I coeficiente de assimetria I ≤ 0,15 = praticamente simétrica / assimétrica fraca 0,15 < I coeficiente de assimetria I < 1 = assimetria moderada I coeficiente de assimetria I ≥ 1 = assimetria forte Melissa Gimenes Araújo MEDIDAS DE CURTOSE 30/11/2022 I Prof. Fernando Chiba PROBABILIDADE Distribuição normal: Uma das mais importantes distribuições contínuas de probabilidade na área estatística Muitos fenômenos aleatórios comportam-se de forma próxima a essa distribuição Ex.: altura, peso, pressão sanguínea etc. Em variáveis que seguem uma distribuição normal, pode-se aplicar grande parte dos testes estatísticos conhecidos SLIDE DA CURVA Características: Tem forma de sino O campo de variação de X é de - a +, distribuição simétrica em torno da média A média, a mediana e a moda (unimodal) são coincidentes A curva é assintótica em relação ao eixo das abcissas - as causas nunca tocam o eixo x A distribuição é mesocúrtica A curva possui dois pontos de inflexão, um desvio padrão acima e abaixo da média A área total sob a curva normal é igual a 1, ou 100% da distribuição A área sob a curva da média mais ou menos o desvio padrão é igual a cerca de 2 3 da área total, isto é, vale aproximadamente 68% da distribuição Com o valor da média duas vezes o desvio padrão: 95% Com o valor da média três vezes o desvio padrão: 99,7% Áreas sob a curva: Aplicação da curva normal Admitindo-se que uma determinada variável em uma população tem distribuição normal Ver o resto SLIDE Podem ser entendidas como medidas de probabilidade Há 100% de probabilidade de um valor x da distribuição ser encontrada entre - e + Há, aproximadamente, 68% de probabilidade de um valor x da distribuição ser encontrado no intervalo entre média +/- desvio padrão (e assim sucessivamente) Tabelas de distribuição normal: Distribuição normal depende da média e do desvio padrão Cálculo de uma área na curva normal depende dos valores que a média e o desvio padrão assumem em cada caso/variável em particular Em teoria teríamos infinitas combinações Quando deseja-se utilizar tabelas de curva normal Melissa Gimenes Araújo Distribuição normal comum > distribuição normal reduzida ou padronizada Tabela da distribuição normal padronizada: Áreas de uma distribuição normal padrão Cada casa na tabela dá a proporção sob curva entre z=0 e um valor positivo de z As áreas para os valores de z negativos são obtidas