Prévia do material em texto
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS FACULDADE DE ESTATÍSTICA Disciplina: Análise Exploratória de Dados (EST1004) Profa. Adrilayne dos Reis Araújo, M.Sc. 2º. Período de 2024 Curso: Estatística Turma: 01 Carga Horária: 90 horas Período da disciplina: 18/03 a 11/07/2024 Horário: Segunda, Quarta e Sexta das 14:50 às 16:40 h Local: Sala 409 - Espaço Mirante do Rio Plano de Ensino Avaliações: No mínimo 3 (três) avaliações. As atividades valerão ponto. Conceito final: Conceito atribuído a partir da média aritmética simples das avaliações e atividades realizadas. Provas de 2ª. chamada: 10 de Julho de 2024. Frequência: Para aprovação na disciplina é necessário ter 75% de frequência às aulas. UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Objetivo: Apresentar ao aluno noções básicas de técnicas estatísticas descritivas. Conteúdo: Origens e tendências da Estatística. Séries estatísticas. Métodos e técnicas de pesquisa. Fases do trabalho estatístico. Síntese tabular e numérica de dados. Representação gráfica. Tabelas de Contingência. Re- expressão de variáveis (transformação, padronização, índice). Competências e Habilidades: Dominar o conhecimento estatístico desde o planejamento e coleta de dados, produção de sínteses numéricas e gráficas dos dados, teoria inferencial, até a utilização de técnicas de análise e modelagem estatística. Procedimentos Didáticos: Aulas expositivas com uso de quadro magnético, data show e outros recursos didáticos, além de aulas práticas no Computador e resolução de listas de exercícios. Bibliografia Básica: BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. 5. ed. Editora Saraiva, 2002. MURTEIRA, B. Análise Exploratória de Dados, Estatística Descritiva. McGraw-Hill, 1996. TUKEY, J. Exploratory Data Analysis. Massachusetts: Addison-Wesley, Reading, 1977. Bibliografia Complementar: ANDERSON, A. J. B. Interpreting Data: a First Course in Statistics. London: Chapman & Hall, 1989. CHAMBERS, J.; CLEVELAND, W.; KLEINER, B. ;TUKEY, P. Graphical Methods for Data Analysis, Wadsworth, 1983. FONSECA, J.; MARTINS, G. Curso de Estatística, Editora Atlas, 1996. LEVINE, D. M.; BERENSON, M. L.; STEPHAN, D. Estatística: Teoria e Aplicações usando Microsoft Excel em Português. Rio de Janeiro: LTC, 1998. SILVA, M. M. V. S. Noções de estatística descritiva. Coimbra: FEUC, 1998. UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 7. Medidas de Tendência Central Torna-se necessário, após a tabulação dos resultados e da representação gráfica de variáveis quantitativas, encontrar valores que possam representar a distribuição como um todo. São as chamadas medidas de tendência central ou medidas de posição. São medidas representativas das características avaliadas pelos seus valores centrais, em torno dos quais tendem a concentrarem-se os dados. Tais medidas possibilitam comparações de séries de dados pelo confronto de seus valores. As medidas de tendência centrais mais utilizadas são: média aritmética, moda e mediana. 7.1. Média Aritmética: X A média aritmética é obtida pela soma de todos os valores de uma variável X dividida pelo número total de observações (n): n X n XXX X n i i n 121 ... . Exemplo: Sabendo-se que o atendimento diário em uma empresa de arquitetura, durante uma semana foi de 10, 14, 13, 15, 16, 18 e 12 pessoas, temos para atendimento médio diário na semana de: 14 7 12181615131410 X pessoas. Se os dados estão agrupados em uma distribuição de frequência, devem ser consideradas duas possibilidades: a) Sem intervalos de classe: Consideremos a distribuição relativa a 34 famílias de quatro filhos, tomando para variável o número de filhos do gênero masculino. Calcularemos a quantidade média de meninos por família: Nº. de meninos (Xi) Nº. de famílias )( if 0 2 1 6 2 10 3 12 4 4 Total 34 Como as frequências são números indicadores da intensidade de cada valor da variável, elas funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada, dada pela fórmula: k i i k i ii k kk f Xf fff XfXfXf X 1 1 21 2211 )( ... ... em que nf k i i 1 Que na prática pode ser determinado como: UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Xi fi Xi×fi 0 2 0 1 6 6 2 10 20 3 12 36 4 4 16 Total 34 78 Logo k i i k i ii f fX X 1 1 78/34 = 2,2941 2 filhos do sexo masculino. b) Com intervalos de classe: Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, e determinamos a média aritmética ponderada por meio da fórmula com iX agora sendo o ponto médio da classe. Exemplo: Calcular a estatura média de bebês conforme a tabela abaixo. Estaturas (cm) Frequência )( if Ponto médio )( iX ii fX 50 |─ 54 4 52 208 54 |─ 58 9 56 504 58 |─ 62 11 60 660 62 |─ 66 8 64 512 66 |─ 70 5 68 340 70 |─ 74 3 72 216 Total 40 2.440 Aplicando a fórmula acima temos: 61 40 2440 1 1 f Xf X k i i k i ii . Logo: cm X 61 7.1.1 - Propriedades da Média i) A soma algébrica dos desvios de um conjunto de números em relação a média é sempre zero. 0 XX i ou 0 XXf ii ii) A soma dos quadrados dos desvios de um conjunto de números xj , em relação a qualquer número a, é um mínimo quando a = média e somente neste caso. mínimoXX i 2 ou , mínimoXXf ii 2 desde Xa . iii) Somando-se ou subtraindo uma constante K (arbitrária) a todos os valores de um conjunto de informações, a média ficará somada ou subtraída dessa constante. Xi -> xbar = 2 UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Xi + 1 = Yi -> ybar = 2+1 = 3 Xi - 3 = Yi -> ybar = 2-3 = -1 iv) Multiplicando-se ou dividindo-se todas as informações por uma constante K (arbitrária), a média aritmética ficará multiplicada ou dividida por essa constante. Xi -> xbar = 2 Xi*2 = Yi -> ybar = 2*2 = 4 Xi/2 = Yi -> ybar = 2/2 = 1 Observação: a média tem a desvantagem de ser sensível a valores aberrantes ou outliers. Tarefa de Casa – Demonstrar que 22 )( KXXX ii e apresentar um exemplo numérico. Exercício: Dada a tabela abaixo, relativa às Estaturas dos alunos da UFPA, ano 2000. Estaturas (cm) fi 150 ├─ 156 156 ├─ 162 162 ├─ 168 168 ├─ 174 174 ├─ 180 180 ├─ 186 186 ├─ 196 5 4 19 18 14 12 4 a) Determine a estatura média dos alunos; b) Determine as frequências simples, relativas e acumuladas; c) Qual o percentual de alunos com idades inferiores que 162 cm? d) Qual o percentual de alunos com idades superiores a 174 cm? e) Qual o percentual de alunos com idades superiores que 196 cm? f) Quantos alunos tem idade de 168 e 174 cm? g) Esboce o histograma desta distribuição. Soma 76 Fonte: Dados hipotéticos. 7.1.2 - Médias Especiais i) Média Aritmética Ponderada Considerando uma coleção formada por n números racionais: nxxx ,,, 21 , de forma que cadaum esteja sujeito a um peso, respectivamente, indicado por: nppp ,,, 21 . A média aritmética ponderada desses n números é a soma dos produtos de cada um por seu peso, dividida por npppn 21 , isto é: n nn P ppp xpxpxp M 21 2211 . Exemplo: Um grupo de 64 pessoas, que trabalha (com salário por dia), em uma empresa é formado por subgrupos com as seguintes características: UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Salário por dia (R$) Número de Pessoas 50,00 12 60,00 10 25,00 20 90,00 15 120,00 7 Total 64 Para calcular a média salarial (por dia) de todo o grupo deve-se usar a média aritmética ponderada: 78,60 64 3890 64 8401350500600600 715201012 00,120700,901500,252000,601000,5012 PM . ii) Média Geométrica A média geométrica é usada na administração e na economia para achar taxas médias de variação, de crescimento, ou razões médias. É usada quando as variáveis não assumem valores negativos ou nulos. a) Média Geométrica Simples ou para dados brutos: n nG xxxM 21 . Exemplo: Calcule a média geométrica do conjunto de valores {2, 5, 7, 9}: 00997,56309752 44 1 21 n n i i n nG xxxxM . A média geométrica é dada por 5,00997. b) Média Geométrica Ponderada ou para dados agrupados: k j j j k j j k f k j f j f f k ff G xxxxM 1 1 21 1 21 , onde k é o número de classes de distribuição de frequências e k j jfn 1 . Observação: Em geral, a média geométrica é calculada utilizando-se o emprego de logaritmos ( n i ig x n M 1 ln 1 ln ). iii) Média Harmônica É o inverso da média aritmética dos inversos. Aplica-se em situações em que não faz sentido somar os valores da variável por haver proporcionalidade inversa. A média harmônica costuma ser usada como medida de tendência central para conjuntos de dados que consistem em taxas de variação, como por exemplo, velocidades. UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 a) Média Harmônica Simples ou para dados brutos: n i in H x n xxx n M 121 1111 . Exemplo: Um carro se desloca de Londrina até NewLondres (distância de 100 Km), mantendo na ida uma velocidade média de 90 Km/h e na volta ao local de origem mantendo a velocidade média de 110 Km/h. Qual é a velocidade média durante todo o trajeto? hKm xx n M H /99 990 20 2 990 911 2 110 1 90 1 2 11 21 . A velocidade média do carro durante o trajeto foi de 99 Km/h. b) Média Harmônica Ponderada ou para dados agrupados: k i k k k i i k k k i i H x f f x f x f x f f M 1 1 2 2 1 1 1 , onde k é o número de classes de distribuição de frequências e k j jfn 1 . Observação: Segundo Murteira e Black (1983) a média harmônica é menor ou igual à média geométrica para valores da variável diferentes de zero, que por sua vez é menor ou igual a média aritmética ( XMM gH ). Exercício 1: Uma pessoa é capaz de construir um muro em 6 horas e outra pessoa tem a capacidade de trabalho para construir este mesmo muro em 9 horas. Pondo-se as duas pessoas trabalhando em conjunto, em quanto tempo t, o muro estará pronto? Exercício 2: Uma torneira enche uma caixa d'água em 4 horas e outra torneira enche a mesma caixa em 6 horas. Abrindo-se as duas torneiras ao mesmo tempo, qual será o tempo t necessário para encher a caixa? Exercício 3: Uma torneira enche uma caixa d’água em 4 horas e outra torneira a esvazia em 6 horas. Abrindo-se as duas torneiras simultaneamente, qual será o tempo t necessário para encher a caixa d’água? iv) Média Quadrática ou Raiz Média Quadrática A média quadrática é utilizada em geral em experimentos físicos. Em sistemas de distribuição de energia, por exemplo, as tensões e correntes são em geral dadas em termos de sua média quadrática. UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 a) Média Quadrática Simples ou para dados brutos: n xxx M n Q 22 2 2 1 . Exemplo: Calcule a média quadrática do conjunto de valores {2, 3, 5, 8}: 0498,55,25 4 102 4 8532 222222 2 2 1 n xxx M n Q . A média quadrática é dada por 5,0498. b) Média Quadrática Ponderada ou para dados agrupados: k j k kk Q f xfxfxf M 1 22 22 2 11 , onde k é o número de classes de distribuição de frequências e k j jfn 1 . Fórmula Geral das Médias As médias aritméticas, geométrica e harmônica são casos particulares da fórmula geral das médias ou média de ordem q , , 1 1 q n x qM n i q i que se obtêm fazendo, respectivamente, 1q , 0q , 1q . Observação: quando se tem valores “extravagantes”, podem-se utilizar as chamadas médias aparadas, pois esta atribui menor ponderação a esses valores. Uma média aparada a %100 , simbolicamente T , é obtida eliminando %100 das menores e maiores observações e calculando a média simples das restantes. Por exemplo: Dado 20 observações, 2021 ,,, xxx , tem-se a média aparada a 10% igual a, 16 10,0 1843 xxx T a média aparada a 25% , 10 25,0 1576 xxx T . UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 O problema da escolha do “melhor” não cabe neste momento (disciplina). Porém, pode-se dizer que a quantidade “ideal” para aparar está diretamente relacionada com o peso das caudas da distribuição da população de onde veio a amostra: (a) se as caudas são neutras (distribuição gaussiana), a média 0 é a melhor medida de localização em termos de “eficiência” (nenhuma ou pouca perda de informação); (b) se as caudas são ligeiramente pesadas, para pequenas amostras 5n a medida mais eficiente é a média aparada a 25% (meia média); para amostras ligeiramente maiores 2010 n a medida mais eficiente é a média aparada a 10%; (c) se as caudas são pesadas (Cauchy, etc.), a medida mais eficiente é a mediana. 7.2. Mediana: dM Colocados os valores em ordem crescente de grandeza (rol), a mediana )( dM será o valor que ocupa a posição central da série de dados, ou seja, é o valor que divide a série em duas partes com números iguais de elementos. A mediana é preferível à média quando se está interessado em conhecer exatamente o centro da distribuição dos dados, ou ainda, quando os valores extremos podem afetar sensivelmente a média. O cálculo da mediana é feito sob duas condições: 7.2.1. Mediana em Dados Não-Agrupados Dada uma série de valores como, por exemplo: {5, 2, 6, 13, 9, 15, 10}. De acordo com a definição de mediana, o primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: {2, 5, 6, 9, 10, 13, 15}. O valor que divide a série acima em duas partes iguais é igual a 9, logo dM = 9. Método prático para o cálculo da Mediana: a) Se a série de dados tiver número ímpar de termos: O valor mediano será o termo que ocupa a posição central do rol, ou seja, o termo cuja posição é dada pela fórmula: Posição de Mediana = (n + 1)/2. Exemplo: Calcule a mediana da série {1, 3, 0, 0, 2, 4, 1, 2, 5} 1º - ordenar a série {0, 0, 1, 1, 2, 2, 3, 4, 5} 2º - calcular a posição: n = 9 logo (n + 1)/2 é dado por (9 + 1) / 2 = 5, ou seja, o 5º elemento da sérieordenada será a mediana. Portanto, a mediana será o 5º elemento, então dM = 2. UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 b) Se a série dada tiver número par de termos: O valor mediano será a média aritmética dos valores centrais do rol, ou seja, os termos que ocupam a posição n/2 e n/2+1. Exemplo: Calcule a mediana da série {1, 3, 0, 0, 2, 4, 1, 3, 5, 6} 1º - ordenar a série {0, 0, 1, 1, 2, 3, 3, 4, 5, 6} 2º - calcular a posição: n = 10 logo a mediana será a média aritmética do termo que ocupa a posição n/2 = 10/2 =5, ou seja, o 5º termo e do termo que ocupa a posição n/2+1 = 10/2+1 = 6, ou seja, o 6º termo. No rol: 5º termo = 2 e 6º termo = 3. A mediana será a média aritmética do 5º e 6º termos da série, ou seja, dM = (2+3) / 2 , ou seja, dM = 2,5. 7.2.2. Mediana em Dados Agrupados a) Sem intervalos de classe: Neste caso, é o bastante identificar a frequência acumulada )( AcF imediatamente superior à metade da soma das frequências. A mediana será aquele valor da variável que corresponde a tal Frequência Acumulada. Exemplo: conforme distribuição de frequências abaixo: Variável )( iX Frequência )( if Frequência acumulada )( )(iAcF Observações 0 2 2 0, 0, 1 6 8 1, 1, 1, 1, 1, 1, 2 9 17 2, 2, 2, 2, 2, 2, 2, 2, 2, 3 13 30 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4 5 35 4, 4, 4, 4, 4 Total n=35 - Quando o somatório das frequências for ímpar o valor mediano será o termo que ocupa a posição dada pela fórmula: 2 1 if . Como o somatório das frequências = 35 a fórmula ficará: (35+1)/2 = 18º termo. Localizando na coluna da variável (Xi), dM = 3. Quando o somatório das frequências for par o valor mediano será a média aritmética dos valores centrais da distribuição, ou seja, os termos que ocupam a posição 2 if e .1 2 if UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Exemplo: Calcule a Mediana da distribuição de frequências abaixo: Variável )( iX Frequência )( if Frequência acumulada )( )(iAcF 12 1 1 14 2 3 15 1 4 16 2 6 17 1 7 20 1 8 Total 8 - Localizando a posição da mediana na frequência acumulada teremos: 8/2 = 4º termo e 8/2+1 = 5º termo. Localizando na coluna da variável (Xi), o 4º termo = 15 e o 5º termo = 16. Logo dM = (15 + 16) / 2 = 15,5. b) Com intervalos de classe: Devemos seguir os seguintes passos: 1º) Determinamos as frequências acumuladas; 2º) Calculamos 2 if para localizar a classe mediana; 3º) Marcamos a classe correspondente à frequência acumulada imediatamente superior a 2 if . Tal classe será a classe mediana; 4º) Calculamos a Mediana pela fórmula: h f F f lM i antAc k i i id )( 1 2 onde: il = Limite inferior da classe da mediana; )(antAcF = Frequência acumulada anterior da classe da dM ; if = Frequência simples da classe da mediana; h = Intervalo de classe. Exemplo: Estatura dos bebês. Classes Frequência )( if Frequência acumulada )( )(iAcF 50 |─ 54 4 4 54 |─ 58 9 13 58 |─ 62 11 24 62 |─ 66 8 32 66 |─ 70 5 37 70 |─ 74 3 40 Total 40 UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 1º. Localizar a classe mediana: 20 2 40 2 if . A frequência acumulada que contém a 20ª unidade é a 3ª classe (classe mediana será 58 |─ 62); 2º. Identificar os elementos da fórmula na classe mediana: il = 58; )(antAcF = 13; h = 4 e if = 11; 3º. Substituindo esses valores na fórmula, obtemos: 55,604 11 1320 58 dM . Interpretação da Mediana: Md = 60,55 cm. 50% dos 40 bebês têm estatura abaixo de 60,55 cm ou 50% dos 40 bebês têm estatura acima de 60,55 cm. Observação: Esta mediana é estimada, pois não temos os 40 valores da distribuição. 7.3. Moda: oM A moda ( oM ) é o valor que ocorre com maior frequência ou o valor que mais se repete. Quando a série de dados é tal que as frequências são maiores nos extremos, ou quando se quer destacar um valor de alta frequência ou quando se pretende obter uma medida rápida e aproximada da tendência central, a moda pode então, ser considerada para a interpretação dos dados. Com relação à moda, uma série de dados pode ser classificada em amodal (não possui moda), unimodal (possui apenas uma moda), bimodal (possui duas modas) ou multimodal (possui mais de duas modas). 7.3.1. A Moda quando os dados não estão agrupados A moda é facilmente reconhecida: basta, de acordo com definição, procurar o valor que mais se repete. Exemplo: Na série {7, 8, 9, 10, 10, 10, 11, 12} a moda é igual a 10. Há séries nas quais não exista valor modal, isto é, nas quais nenhum valor apareça mais vezes que outros. Exemplo: {3, 5, 8, 10, 12} não apresenta moda. A série é amodal. Em outros casos, pode haver dois ou mais valores de concentração. Dizemos, então, que a série tem dois ou mais valores modais. Exemplo: {2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9} apresenta duas modas: 4 e 7. A série é bimodal. 7.3.2. A Moda quando os dados estão agrupados a) Sem intervalos de classe: Uma vez agrupados os dados, é possível determinar imediatamente a moda: basta localizar o valor da variável de maior frequência. UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Exemplo: Qual a temperatura mais comum medida no mês abaixo: Temperatura (Xi) Frequência (fi) 0º C 3 1º C 9 2º C 12 3º C 6 Resposta: 2º C é a temperatura modal, pois é a maior frequência. b) Com intervalos de classe: A classe que apresenta a maior Frequência é denominada classe modal. Pela definição, podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os limites da classe modal. O método mais simples para o cálculo da moda consiste em tomar o ponto médio da classe modal. Damos a esse valor a denominação de moda bruta. , 2 si o ll M onde il = limite inferior da classe modal e sl = limite superior da classe modal. Exemplo: Calcule a estatura modal conforme a tabela abaixo. Classes (em cm) Frequência 54 |─ 58 9 58 |─ 62 11 62 |─ 66 8 66 |─ 70 5 Resposta: a classe modal é 58|─ 62, pois é a de maior frequência. il = 58 e sl = 62 oM = (58+62) / 2 = 60 cm (este valor é estimado, pois não conhecemos o valor real da moda). Método mais elaborado pela fórmula de CZUBER: )(2 )( h fff ff lM postantMo antMo io onde: il = Limite inferior da classe modal; Mof = Frequência modal; antf = Frequência simples anterior à classe modal; postf = Frequência simples posterior à classe modal; h = Intervalo de classe. Exemplo: Calcule a Moda da tabela do exemplo anterior pelo processo de CZUBER 6,594 89112 911 58 oM UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Obs.: A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição ou quando a medida de posição deva ser o valor mais típico da distribuição. Já a média aritmética é a medida de posição que possui a maior estabilidade e a mediana é a medida mais central. Relação Empírica entre a Mediana e a Moda: 2 3 od MM X . 7.4. Medidas Separatrizes Além das medidas de posição que estudamos, há outras que, consideradas individualmente, não são medidas de tendência central, mas estãoligadas à mediana relativamente à sua característica de separar a série em partes que apresentam o mesmo número de valores. Essas medidas - os quartis, os decis e os percentis - são conhecidas pelo nome genérico de separatrizes. 7.4.1. Quartis - Qq Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Precisamos portanto de 3 quartis (Q1 , Q2 e Q3) para dividir a série em quatro partes iguais. Observação: O quartil 2 (Q2) sempre será igual a mediana da série. i) Quartis em Dados não Agrupados O método mais prático é utilizar o princípio do cálculo da mediana para os 3 quartis. Na realidade serão calculadas “3 medianas” em uma mesma série. Exemplo 1: Calcule os quartis da série: {5, 2, 6, 9, 10, 13, 15} - O primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: {2, 5, 6, 9, 10, 13, 15} (n+1)/2 => posição - O valor que divide a série acima em duas partes iguais é igual a 9, logo a Md = 9 que será = Q2 = 9. - Temos agora {2, 5, 6} e {10, 13, 15} como sendo os dois grupos de valores iguais proporcionados pela mediana (quartil 2). Para o cálculo do quartil 1 e 3 basta calcular as medianas das partes iguais provenientes da verdadeira Mediana da série (quartil 2). Logo em {2, 5, 6} a mediana é = 5. Ou seja: será o Quartil 1 = Q1 = 5. Em {10, 13, 15} a mediana é =13. Ou seja: será o Quartil 3 = Q3 = 13. Exemplo 2: Calcule os quartis da série: {1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13} n/2 e n/2+1 => posições A série já está ordenada, então calcularemos o Quartil 2 = Md = (5+6)/2 = 5,5. O quartil 1 será a mediana da série à esquerda de Md: {1, 1, 2, 3, 5, 5} Q1 = (2+3)/2 = 2,5 UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 O quartil 3 será a mediana da série à direita de Md: {6, 7, 9, 9, 10, 13} Q3 = (9+9)/2 = 9. ii) Quartis para Dados Agrupados em Classes A fórmula para determinação dos quartis para dados agrupados é semelhante à usada para o cálculo da mediana. Passos para Determinação do Quartil ( qQ ): 1º passo: calcula-se a posição: 4 1 k i i fq p ; 2º passo: identifica-se a classe q Q pela coluna das Frequências Acumuladas; 3º passo: Aplica-se a fórmula: h f F f q lQ iQq antAc k i i iQq q )( 1 4 , para q = 1, 2, 3 onde: qiQ l = Limite inferior da classe do Quartil; )(antAcF = Frequência acumulada anterior a classe do Quartil; qiQ f = Frequência simples da classe do Quartil; h = Intervalo de classe. Exemplo 3 - Calcule os quartis da tabela abaixo: Classes Frequência (fi) Frequência acumulada 50 |─ 54 4 4 54 |─ 58 9 13 -> Q1 58 |─ 62 11 24 -> Md 62 |─ 66 8 32 -> Q3 66 |─ 70 5 37 70 |─ 74 3 40 Total 40 O quartil 2 = dM , logo: 20 4 402 p . Logo.a classe mediana será 58 |─ 62, li = 58..... )(antAcF = 13..... fi = 11.... hi = 4 Substituindo esses valores na fórmula, obtemos: MdQ 54,604 11 1320 582 UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 O quartil 1: 10 4 401 p 67,564 9 410 541 Q Interpretação Q1: 25% dos bebês têm estatura abaixo de 56,67 cm ou 75% dos bebês têm estatura acima de 56,67 cm. O quartil 3: 3. fi / 4 = 30 654 8 2430 623 Q . Interpretação Q3: 75% dos bebês têm estatura abaixo de 65 cm ou 25% dos bebês têm estatura acima de 65 cm. 7.4.2. Decis - Dd A definição dos decis obedece ao mesmo princípio dos quartis, com a modificação da porcentagem de valores que ficam aquém e além do decil que se pretende calcular. A fórmula básica será: d×fi /10 onde d é o número de ordem do decil a ser calculado. Indicam-se os decis: D1, D2, ... , D9. Deste modo precisa-se de 9 decis para se dividir uma série em 10 partes iguais. De especial interesse é o quinto decil, que divide o conjunto em duas partes iguais. Assim sendo, o QUINTO DECIL É IGUAL AO SEGUNDO QUARTIL, que por sua vez É IGUAL À MEDIANA. Para D5 tem-se: 5. fi / 10 = fi / 2 Exemplo: Calcule o 3º decil da tabela anterior com classes. d = 3 onde 3 × (fi / 10) = 3 × 40/10 = 12. Este resultado corresponde a 2ª classe. 55,5755,3544 9 412 543 D . 7.4.3. Percentil ou Centil Denomina-se percentis ou centis como sendo os noventa e nove valores que separam uma série em 100 partes iguais. Indicamos: P1, P2,... , P99. É evidente que P50 = Md; P25 = Q1 e P75 = Q3. O cálculo de um centil segue a mesma técnica do cálculo da mediana, porém a fórmula será: k×fi/ 100, onde k é o número de ordem do centil a ser calculado. Para P45 temos: 45×fi / 100 Exemplo: Calcule o 45º Centil da tabela anterior com classes. Relação entre as Medidas Separatrizes: Uma relação importante entre as quatro Medidas Separatrizes é na verdade uma relação até visual, que não precisamos fazer esforço para percebê-la, basta traçar uma reta horizontal (que representará o conjunto de dados), e depois fazer as divisões, exatamente como mostramos nas seções anteriores, como pode ser visto a seguir: |-------------------|-------------------| 1 Md 100 |---------|---------|---------|---------| UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Q1 Q2 Q3 |---|---|---|---|---|---|---|---|---|---| D1 D2 D3 D4 D5 D6 D7 D8 D9 |---|---|---|---|---|---|---|---|---|---| P10 P20 P30 P40 P50 P60 P70 P80 P90 Daí, conclui-se sem maiores dificuldades que: 5052 PDQMd , 251 PQ e 753 PQ . Interpretação das Medidas Separatrizes: Por exemplo, a interpretação de algumas medidas separatrizes: - Q1: 25% dos dados tomam valores menores ou iguais ao Q1 ou 75% dos dados tomam valores maiores ou iguais a Q1; - Q3: 75% dos dados tomam valores menores ou iguais ao Q3 ou 25% dos dados tomam valores maiores ou iguais a Q1; - D1: 10% dos dados tomam valores menores ou iguais ao D1 ou 90% tomam valores maiores ou iguais ao D1; - P1: 1% dos dados tomam valores menores ou iguais ao P1 ou 99% tomam valores maiores ou iguais ao P1; - P99: 99% dos dados tomam valores menores ou iguais ao P99 ou 1% tomam valores maiores ou iguais ao P1. 8. Medidas de Dispersão As medidas que determinam o comportamento dos valores em termos de variabilidade são chamadas de medidas de dispersão ou de variabilidade, e as mais utilizadas são a variância e o desvio padrão. Não é o bastante dar uma das medidas de posição para caracterizar perfeitamente um conjunto de valores, pois, mesmo sabendo, por exemplo, que a temperatura média de duas cidades é a mesma, e igual a 24ºC, ainda assim somos levados a pensar a respeito do clima dessas cidades. Em uma delas a temperatura poderá variar entre limites de muito calor e de muito frio e, haver, ainda, uma temperatura média de 24ºC. A outra poderá ter uma variação pequena de temperatura, mas mantendo uma média de 24ºC. Fica claro que a média – ainda que considerada como um número que tem a faculdade de representar uma série de valores – não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem um conjunto. Considerando os seguintes conjuntos de valores das variáveis X, Y e Z: X: 70, 70, 70, 70, 70; Y: 68, 69, 70, 71, 72; Z: 5, 15, 50, 120, 160. UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Calculando a média aritmética de cada um desses conjuntos,tem-se que os três conjuntos apresentam a mesma média aritmética dada por 70. 70 5 350 n x x i , 70 5 350 n y y i , 70 5 350 n z z i . Entretanto, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z, já que todos os valores são iguais a média. O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor diversificação entre cada um de seus valores e a média é representativa. Chamando de dispersão ou de variabilidade a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central tomado como ponto de comparação, podemos dizer que o conjunto X apresenta dispersão ou variabilidade nula e que o conjunto Y apresenta uma distribuição ou variabilidade menor que o conjunto Z. Portanto, para qualificar os valores de uma dada variável, ressaltando a maior ou menor dispersão ou variabilidade entre esses valores e a sua medida de posição, a Estatística recorre às medidas de dispersão ou de variabilidade. Dessas medidas, serão descritas a amplitude total, o desvio quartil, o desvio médio absoluto, o desvio padrão e a variância. 8.1. Medidas de Dispersão Absoluta 8.1.1. Amplitude Total: É a única medida de dispersão que não tem na média o ponto de referência. Quando os dados não estão agrupados a amplitude total é a diferença entre o maior e o menor valor observado: MínMáxT XXA . Exemplo: Para os valores 40, 45, 48, 62 e 70 a amplitude total será: TA = 70 – 40 =30 Quando os dados estão agrupados sem intervalos de classe ainda temos: MínMáxT XXA . Exemplo: Xi fi 0 1 3 4 2 6 5 3 TA = 4 - 0 = 4 Com intervalos de classe a AMPLITUDE TOTAL é a diferença entre o limite superior da última classe e o limite inferior da primeira classe. Então: MínMáxT LLA Exemplo: Classes fi UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 4 |─ 6 6 |─ 8 8 |─10 6 2 3 TA = 10 – 4 = 6 A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série, descuidando do conjunto de valores intermediários. Faz-se uso da amplitude total quando se quer determinar a amplitude da temperatura em um dia, no controle de qualidade ou como uma medida de cálculo rápido sem muita exatidão. 8.1.2. Desvio Quartil: Também chamado de amplitude semi-interquatílica e é baseada nos quartis. 2/)( 13 QQDq Observações: 1) O desvio quartil apresenta como vantagem o fato de ser uma medida fácil de calcular e de interpretar. Além do mais, não é afetado pelos valores extremos, grandes ou pequenos, sendo recomendado, por conseguinte, quando entre os dados figurem valores extremos que não se consideram representativos. 2) O desvio quartil deverá ser usado preferencialmente quando a medida de tendência central for a mediana. 3) Trata-se de uma medida insensível à distribuição dos itens menores que Q1, entre Q1 e Q3 e maiores que Q3. Exemplo: Para os valores: 40, 45, 48, 62 e 70 o desvio quartil será: Q1 = (45+40)/2 = 42,5 Q3 = (70+62)/2 = 66 Dq = (66 - 42,5) / 2 = 11,75 8.1.3 Desvio Médio Absoluto - MD i) Para dados brutos: É a média aritmética dos valores absolutos dos desvios tomados em relação a uma das seguintes medidas de tendência central: média ou mediana. a) para a Média = n n i x i x DM 1 )( b) para a Mediana = n n i Md i x DM 1 )( c) As barras verticais indicam que são tomados os valores absolutos, prescindindo do sinal dos desvios. Exemplo: Calcular o desvio médio do conjunto de números {- 4, - 3, - 2, 3, 5} UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 X = -0,2 e dM = - 2 Tabela auxiliar para cálculo do desvio médio Xi 𝑋𝑖 − �̅� |𝑋𝑖 − �̅�| 𝑋𝑖 − 𝑀𝑑 |𝑋𝑖 − 𝑀𝑑| - 4 (- 4) - (-0,2) = -3,8 3,8 (- 4) - (-2) = - 2 2 - 3 (- 3) - (-0,2) = -2,8 2,8 (- 3) - (-2) = - 1 1 - 2 (- 2) - (-0,2) = -1,8 1,8 (- 2) - (-2) = 0 0 3 3 - (-0,2) = 3,2 3,2 3 - (-2) = 5 5 5 5 - (-0,2) = 5,2 5,2 5 - (-2) = 7 7 = 16,8 = 15 Pela Média: MD = 16,8 / 5 = 3,36 Pela Mediana: MD = 15 / 5 = 3 ii) Para dados agrupados: a) para a Média = k j j f k j fx j x D j M 1 1 )( , onde n k j j f 1 . b) para a Mediana = k j j f k j fM j x D jd M 1 1 )( , onde n k j j f 1 . 8.1.4. Desvio-padrão - S É a medida de dispersão mais empregada, pois leva em consideração a totalidade dos valores da variável em estudo. É um indicador de variabilidade bastante estável. O desvio padrão baseia-se nos desvios em torno da média aritmética e a sua fórmula básica pode ser traduzida como: a raiz quadrada da média aritmética dos quadrados dos desvios e é representada por: n XX S n i i 1 2)( quando tratamos de uma população de dados não-agrupados. Exemplo: Calcular o desvio padrão da população representada por {-4, -3, -2, 3, 5}. Como X = -0,2, então: 𝑋𝑖 𝑋𝑖 − �̅� (𝑋𝑖 − �̅�)2 - 4 - 3,8 14,44 - 3 - 2,8 7,84 - 2 - 1,8 3,24 UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 3 3,2 10,24 5 5,2 27,04 = 62,8 Sabe-se que n = 5 e 62,8/5 = 12,56. 54,356,12 5 8,62)( 2 n XX S i Observação: Quando nosso interesse não se restringe à descrição dos dados, mas partindo da amostra, visamos tirar inferências válidas para a respectiva população, convém efetuar uma modificação, que consiste em usar o divisor n - 1 em lugar de n. A fórmula ficará então: 1 )( 2 n XX S i . Se os dados {- 4 , -3 , -2 , 3 , 5} representassem uma amostra o desvio padrão amostral será a raiz quadrada de 62,8 / (5 -1) = 3,96. O desvio padrão detém algumas propriedades, dentre as quais destacamos: 1ª: Somando-se (ou subtraindo-se) uma constante a todos os valores de uma variável, o desvio padrão não se altera. 2ª: Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante (diferente de zero), o desvio padrão fica multiplicado ( ou dividido) por essa constante. Quando os dados estão agrupados (temos a presença de Frequências) a fórmula do desvio padrão será: i ii f fXX S 2)( ou 1 )( 2 i ii f fXX S quando se trata de uma amostra. Exemplo: Calcule o desvio padrão populacional da tabela abaixo: Xi f i Xi . f i 𝑿𝒊 − �̅� (𝑿𝒊 − �̅�)𝟐 (𝑿𝒊 − �̅�)𝟐. 𝒇𝒊 0 2 0 -2,1 4,41 8,82 1 6 6 -1,1 1,21 7,26 2 12 24 -0,1 0,01 0,12 3 7 21 0,9 0,81 5,67 4 3 12 1,9 3,61 10,83 Total 30 63 32,70 Sabe-se que 30if e 32,7 / 30 = 1,09. A raiz quadrada de 1,09 é o desvio padrão = 1,044 Se considerar os dados como sendo de uma amostra o desvio padrão será a raiz quadrada de 32,7 / (30 - 1) = 1,062. O desvio padrão pode ser calculado usando a seguinte fórmula prática: UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 1 )( ou )( 2 2 2 2 i ii ii i ii ii f n fX fX S f n fX fX S quando se trata de uma amostra. Exemplo: Calcule o desvio padrão populacional do exemplo anterior: 𝑿𝒊 𝒇𝒊 𝑿𝒊.𝒇𝒊 (𝑿𝒊) 𝟐 (𝑿𝒊) 𝟐. 𝒇𝒊 0 2 0 0 0 1 6 6 1 6 2 12 24 4 48 3 7 21 9 63 4 3 12 16 48 Total 30 63 165 044,109,1 30 30 )63( 165 2 S Se os dados forem uma amostra, o resultado será: 062,1128,1 130 30 )63( 165 2 S Observação: Nastabelas de distribuições de frequências com intervalos de classe a fórmula a ser utilizada é a mesma do exemplo anterior. Exemplo: Calcule o desvio-padrão populacional da tabela abaixo: É necessário calcular o ponto médio das classes (𝑋𝑖) Classes 𝒇𝒊 𝑿𝒊 𝑿𝒊.𝒇𝒊 (𝑿𝒊) 𝟐 (𝑿𝒊) 𝟐. 𝒇𝒊 2├ 4 8 3 24 9 72 4├ 6 7 5 35 25 175 6├ 8 13 7 91 49 637 8├ 10 2 9 18 81 162 Total () 30 168 1046 Usando a fórmula prática: 873,1507,3 30 30 )168( 1046 )( 22 2 i ii ii f n fX fX S Se os dados forem uma amostra, o resultado será: 905,1628,3 130 30 )168( 1046 1 )( 22 2 i ii ii f n fX fX S DP de Dados Brutos DP de Dados Tabelados UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 População N XX N i i 1 2)( N i i N i ii f XXf 1 1 2 ))(( Amostra Processo longo 1 1 )( 2 n n i x i x S 1 . 1 )( 2 n i f n i x i x S Amostra Processo simplificado 1 2 1 2 n xn n i i x S 1 2 1 2 n xn i f n i i x S 8.1.5. Variância - 2S É o desvio padrão elevado ao quadrado. A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de amostras. 8.1.6. Propriedades da Variância A variância absoluta de uma constante é igual a zero. Somando-se ou diminuindo-se a todos os valores da série um valor constante 0k , a nova variância será igual a anterior, isto é, não se altera. Xi -> 2 Xi + k - Var(Xi + k) = Var(Xi) + Var(k) = Var(Xi) ou Xi - k -> Var(Xi - k) = Var(Xi) - Var(k) = Var(Xi) Multiplicando-se ou dividindo-se todos os valores de uma série por um valor constante, 0k , a nova variância calculada será igual a variância absoluta original multiplicada ou dividida pelo quadrado da constante utilizada. 1 1 )( 2 2 n n i x i x S Xi -> Var(Xi) = 2 Xi + k - Var(Xi +k) = Var(Xi) + Var(k) = Var(Xi) = 2 Xi*2 = Yi Var(Yi) = Var(Xi*2) = 2^2*Var(Xi) = 4*2 = 8. UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Variância de Dados Brutos Variância de Dados Tabelados População N XX N i i 1 2 2 )( N i i N i ii f XXf 1 1 2 2 ))(( Amostra Processo longo 1 1 )( 2 2 n n i x i x S 1 . 1 )( 2 2 n i f n i x i x S Amostra Processo simplificado 1 2 1 2 2 n xn n i i x S 1 2 1 2 2 n xn i f n i i x S 8.1.7. Representação Gráfica do Desvio Padrão na Distribuição Normal com média m () e desvio padrão s (). UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Figura: Distribuição Normal Padrão (N(0, 1)) e Escalas. Representação gráfica - Boxplot O boxplot é um gráfico que possibilita representar a distribuição de um conjunto de dados com base em alguns de seus parâmetros descritivos, que são: a mediana (Md = Q2), o quartil inferior (Q1), o quartil superior (Q3) e do intervalo interquartil (IQR = Q3 - Q1). A linha central da caixa marca a mediana do conjunto de dados. A parte inferior da caixa é delimitada pelo quartil inferior (Q1) e a parte superior pelo quartil superior (Q3). As hastes inferiores e superiores se estendem, respectivamente, do quartil inferior até o menor valor não inferior a Q1 – 1,5×IQR e do quartil superior até o maior valor não superior a Q3 + 1,5×IQR. Os valores inferiores a Q1 – 1,5×IQR e superiores a Q3 + 1,5×IQR são representados individualmente no gráfico sendo estes valores caracterizados como outliers, que também são chamados de pontos aberrantes. Figura 1: Representação do Boxplot. UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 As quantidades Q1 – 1,5×IQR e Q3 + 1,5×IQR delimitam, respectivamente, as cercas inferior e superior e constituem limites para além dos quais, como visto, os dados passam a ser considerados outliers. O boxplot permite avaliar a simetria dos dados, sua dispersão e a existência ou não de outliers nos mesmos, sendo especialmente adequado para a comparação de dois ou mais conjuntos de dados correspondentes às categorias de uma variável qualitativa. Exemplo: Os dados utilizados para a construção do boxplot abaixo está na página 233 do livro Análise Financeira de Balanços - Abordagem Básica e Gerencial (6a Edição) do Dante C. Matarazzo, relativo aos índices de liquidez corrente de empresas solventes e insolventes. O conjunto de dados chama-se ilc.txt e está disponível em http://marcosfs2006.googlepages.com/ilc.txt. O boxplot pode ser construído com a função boxplot() do R (software livre). Os dados possuem duas variáveis (ilc e situacao) e 99 registros ou observações. A variável ilc registra os índices de liquidez corrente das empresas avaliadas. Iremos agora construir um boxplot para comparar a distribuição dos índices de liquidez corrente das empresas solventes e insolventes. O boxplot pode ser feito como na Figura 1. O gráfico abaixo apresenta a distribuição da variável ilc segundo as categorias da variável situação. Observando o gráfico, verifica-se que as empresas classificadas como solventes possuem índices de liquidez corrente em geral maiores que os índices das empresas classificadas como insolventes. Figura 1: Boxplot do índice de liquidez corrente por situação da empresa. UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Figura: Representação gráfica do boxplot e das curvas normais padrão - N(0, 1), na mesma escala. Exercícios: Faça uma análise dos Boxplots a seguir: (a) (b) UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 (c) Milhagem de carros (d) Nascimentos diários no hospital. (e) Petall: pétala esquerda; Sepall: sépala esquerda (f) (g) (h) UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 (i) (j) Milhagem de carro (k) (l) 8.2. Medida de Dispersão Relativa 8.2.1. Coeficiente de Variação É uma medida adimensional, útil para comparar variabilidades de diferentes amostras, onde as médias são muito desiguais ou as unidades de medidas são diferentes. O coeficiente de variação (CV) é o desvio padrão expresso em porcentagem da média, isto é, magnitude relativa do desvio padrão quando comparado com a média da distribuição das medidas. O coeficiente é dado por: %100)( X S XCV . O CV é muito utilizado para comparar a variabilidade de dois conjuntos de dados relativamente ao nível geral dos valores em cada conjunto, e, portanto, relativamente à média. Ou seja, quando deseja-se comparar conjuntos onde as escalas de medidassão diferentes. UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Observações: 1. Será considerada a série mais homogênea, aquela que apresentar menor valor do coeficiente de variação. 2. O CV é uma medida estatística que serve para avaliar a homogeneidade de séries estatísticas, que é o grau de concentração dos valores observados em torno da sua média aritmética. 3. O seu valor numérico pode ser expresso em percentual. 4. Para efeitos práticos, costuma-se considerar que o CV superior a 50% indica alto grau de dispersão e, consequentemente, pequena representatividade da média. Enquanto que para valores inferiores a 50%, a média será tanto mais representativa quanto menor for o valor de seu CV. 5. 1- 2/3 => 33% 6. Em situação onde as variáveis em estudo exigem maior precisão o valor do CV deve ser ainda menor que nos itens 4 e 5. Exemplo 1: Para duas emissões de ações ordinárias da indústria eletrônica, o preço médio diário, no fechamento dos negócios, durante um período de um mês, para as ações A, foi de R$150,00 com desvio- padrão de R$5,00. Para as ações B, o preço médio foi de R$50,00 com um desvio padrão de R$3,00. Em termos de comparação absoluta, a variabilidade do preço das ações A foi maior, devido ao desvio padrão maior. Mas, em relação ao nível do preço, devem ser comparados os respectivos coeficientes de variação, CVA = 0,033 (3,33%) e CVB = 0,060 (6%). Portanto, relativamente ao nível médio de preços das ações, pode-se concluir que o preço da ação B é quase duas vezes mais variável que o preço da ação A. Exemplo 2: Um estudo foi efetuado em uma maternidade, registrando-se o peso e o comprimento de 40 recém-nascidos do sexo feminino, obtendo-se para o peso uma média de 3.094,5 gramas e um desvio padrão de 178,9062 gramas e para o comprimento uma média de 50,525 cm e um desvio padrão de 2,0753 cm. Calcule o CV para o peso e para o comprimento. Média peso = 3.094,5 gramas Desvio-padrão peso = 178,9062 gramas Média comprimento = 50,525 cm Desvio-padrão comprimento = 2,0753 cm %100)( X S XCV CV(Peso) = 178,9062 / 3.094,5 * 100 = 5,78% CV(Comprimento) = 2,0753 / 50,525 * 100 = 4,11% Exemplo 3: Grupo I: CV = 66,67%, S = 2, X = 3 UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Grupo II: CV = 3,64%, S = 2, X = 55 Como vemos, a dispersão dos dados é a mesma para os dois grupos. Entretanto as médias são diferentes. Isso determina a diferença da dispersão relativa, medida pelo coeficiente de variação. Neste caso, o desvio padrão igual a 2 é muito mais importante para o grupo I do que para o grupo II, o que é confirmado a partir do CV. Exemplo 4: Tome os resultados das estaturas e dos pesos de um mesmo grupo de indivíduos: Discriminação Média Desvio-padrão Estaturas 175 cm 5,0 cm Pesos 68 kg 2,0 kg Qual das medidas (Estatura ou Peso) possui maior homogeneidade? Resposta: Teremos que calcular o CV da Estatura e o CV do Peso. O resultado menor será o de maior homogeneidade (menor dispersão ou variabilidade). CV estatura = (5 / 175) x 100 = 2,85% CV peso = (2 / 68) x 100 = 2,94%. Logo, nesse grupo de indivíduos, as estaturas apresentam menor grau de dispersão que os pesos. EXERCÍCIOS: 1. Os dados abaixo representam o número de filhos de 60 casais residentes na zona urbana de uma determinada cidade: 1 5 1 2 2 3 0 2 8 6 0 1 2 3 5 0 4 0 5 6 7 0 2 2 3 4 2 6 3 0 1 2 0 2 1 3 0 6 4 0 1 0 5 6 8 7 2 0 6 0 3 6 9 8 2 0 1 2 0 3 a. Classifique a variável. b. Construir uma distribuição de frequências sem classes para os dados. c. Determinar as frequências relativas percentuais. d. Determinar as frequências absolutas acumuladas. e. Determinar as frequências relativas acumuladas. f. Calcular a média aritmética, a moda e a mediana. g. Calcular a variância, o desvio-padrão e o coeficiente de variação. h. Analisar os resultados. 2. Considere os dados relativos às alturas de 100 indivíduos (dadas em cm): 151 152 154 155 158 159 159 160 161 161 161 162 163 163 163 164 165 165 165 166 166 166 166 167 167 167 167 167 168 168 168 168 168 168 168 168 168 168 169 169 169 169 169 169 169 170 170 170 170 170 a. Classifique a variável. b. Construir uma distribuição de frequências com classes para os dados. c. Determinar as frequências relativas percentuais. UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 d. Determinar as frequências absolutas acumuladas. e. Determinar as frequências relativas acumuladas. f. Construir o histograma e o polígono de frequências. g. Calcular a média aritmética, a moda e a mediana. h. Calcular os quartis, decil 1, decil 9, percentil 10 e 90. i. Calcular a variância, o desvio-padrão e o coeficiente de variação. j. Analisar os resultados. 3. Resultados da prova de Rapidez Numérica - Exame de Admissão do Colégio São José - 2011: 25 33 35 37 55 27 40 16 14 46 39 28 34 29 44 36 22 27 21 21 29 21 28 29 33 42 15 33 24 27 41 20 23 38 47 32 15 51 19 17 27 33 46 10 16 34 18 36 19 26 a. Classifique a variável. b. Construir uma distribuição de frequências com classes para os dados. c. Determinar as frequências relativas percentuais. d. Determinar as frequências absolutas acumuladas. e. Determinar as frequências relativas acumuladas. f. Construir o histograma e o polígono de frequências g. Calcular a média aritmética, a moda e a mediana. h. Calcular os quartis, decil 6, percentil 14 e 86. i. Calcular a variância, o desvio-padrão e o coeficiente de variação. j. Analisar os resultados. 4. A tabela abaixo representa a distribuição dos salários (em R$) de 100 pessoas: 200 150 120 300 500 120 100 200 350 100 250 350 125 140 140 150 200 350 500 600 120 200 140 150 250 100 120 150 200 600 500 150 250 350 450 430 425 600 120 150 350 600 120 150 135 170 450 100 200 100 100 250 220 230 350 600 500 150 100 250 120 100 120 120 240 350 120 100 200 142 250 350 120 100 100 550 450 400 300 200 100 350 150 180 190 200 300 500 100 150 120 100 200 150 140 120 500 600 100 150 a. Classifique a variável. b. Construir uma distribuição de frequências com classes para os dados. c. Determinar as frequências relativas percentuais. d. Determinar as frequências absolutas acumuladas. e. Determinar as frequências relativas acumuladas. f. Construir o histograma e o polígono de frequências. g. Calcular a média aritmética, a moda e a mediana. h. Calcular os quartis, decil 4, percentil 30 e 80. i. Calcular a variância, o desvio-padrão e o coeficiente de variação. j. Analisar os resultados. UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 5. Considere os dados de notas obtidas na prova de Matemática da 6 a série -1° bimestre de 2011, do Colégio C. 5,0 4,5 3,0 2,0 1,5 8,0 7,0 6,2 7,0 6,0 7,0 6,0 6,5 8,0 8,0 7,0 5,0 5,0 3,0 2,0 6,5 4,0 6,0 4,0 5,0 3,0 4,5 4,5 8,0 4,4 7,0 5,0 5,0 7,0 7,0 6,0 9,0 5,5 5,0 8,0 3,0 7,0 1,0 4,0 5,5 2,0 3,5 2,0 2,0 2,5 7,0 7,0 8,0 1,0 3,0 0,5 9,5 5,5 2,0 6,0 a. Classifique a variável. b. Construir uma distribuição de frequências com classes para os dados. c. Determinar as frequências relativas percentuais. d. Determinar as frequências absolutas acumuladas. e. Determinar as frequências relativas acumuladas. f. Construir o histograma e o polígono de frequências g. Calcular a média aritmética, a moda e a mediana. h. Calcular os quartis, decil 4, percentil 30 e 80.i. Calcular a variância, o desvio-padrão e o coeficiente de variação. j. Analisar os resultados. 6) Encontre para os dados abaixo as medidas de posição: média, mediana, moda, quartis, desvio-padrão e coeficiente de variação: a) Temperaturas em o C: 23,764; 23,614; 21,827; 22,196; 22,023; 24,438; 24,675; 24,244; 24,749; 25,611; 25,002; 24,179. b) Idade em anos: 61, 69, 61, 71, 63, 71, 72, 68, 66, 69, 72, 67, 63, 66, 63, 63, 60, 67, 71, 63, 60. c) Cintura em centímetros: 87, 89, 106, 90, 99, 125, 115, 85, 100, 74, 90, 76, 80, 78, 72, 78, 80, 76. d) Quadril em centímetros: 109, 104, 123, 99, 121, 132, 125, 103, 120, 83, 111, 90, 102, 96, 81, 90. e) Peso em kg: 58,2; 63; 70,1; 73,2; 58,6; 77; 76,2; 59,8; 64,3; 52,1; 62; 52,1; 58; 55; 50,1; 57,9. f) Faça uma análise comparativa dos dados usando o coeficiente de variação. 7) Encontre para a distribuição de frequência da tabela abaixo as medidas de posição: média, mediana, moda, quartis, desvio-padrão e coeficiente de variação: Classes fi 0 ├─ 10 10 ├─ 20 20 ├─ 30 30 ├─ 40 40 ├─ 50 2 5 8 6 3 Total 24 8) Encontre para a distribuição de frequência da temperatura ( o C) medida ao longo do ano de 2005 em uma certa cidade, as medidas de posição: média, mediana, moda, quartis, desvio-padrão e coeficiente de variação: UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Classe de Temperatura Frequência 18,00 ├─ 20,00 17 20,00 ├─ 22,00 523 22,00 ├─ 24,00 806 24,00 ├─ 26,00 159 26,00 ├─ 28,00 160 28,00 ├─ 30,00 84 30,00 ├─ 32,00 3 Total 1.752 9) Encontre para a distribuição de frequência do IMC de mulheres, as medidas de posição: média, mediana, moda, quartis, desvio-padrão e coeficiente de variação: Classe de IMC Frequência 20,0 ├─ 22,5 7 22,5 ├─ 25,0 20 25,0 ├─ 27,5 11 27,5 ├─ 30,0 5 30,0 ├─ 32,5 2 Total 45 10) Construa o Boxplot para todas as questões possíveis acima. 11) Dado o conjunto 1;2;16;1;4;2;64A , responda as questões a seguir. i. A Média Aritmética de A é: a) 12,0 b) 2,0 c) 12,9 d) 4,0. ii. A Mediana de A é: a) 12,0 b) 2,0 c) 2,1 d) 12,9 e) 4,0. iii. Podemos dizer que A é: a) Amodal b) Unimodal c) Bimodal d) Unimodal e Bimodal e) Bimodal, porque sua moda é 2. iv. O Desvio Médio de A é: a) 108,6 b) 130321 c) 15,5 d) 3,94 e) 211. v. A Variância de A é: a) 10,4 b) 361 c) 400 d) 3,94 e) 460,1. vi. O Desvio-padrão de A é: a) 3,2 b) 19 c) 2 d) 20 e) 21,4. vii. O Coeficiente de Variação de A é: a) 24,8 b) 15,5 c) 147,3 d) 155,0 e) 165,9. 12) Responda as questões a seguir considerando a distribuição de frequência da Tabela 1. Tabela 1: Número de Funcionários da Empresa Marvel em 1996. Salários Mínimos (R$) Nº de Funcionários 1 ├─ 3 30 3 ├─ 5 15 5 ├─ 7 25 7 ├─ 9 08 9 ├─ 11 10 11 ├─ 13 12 TOTAL 100 Fonte: Dados Hipotéticos i. A média da distribuição de frequências é: a) 5,4 b) 5,78 c) 2,3 d) 2,8 e) 4,0. ii. A mediana da distribuição de frequências é: a) 5,4 b) 5,78 c) 2,3 d) 2,8 e) 4,0. iii. A moda da distribuição de frequências é: a) 5,4 b) 5,78 c) 2,3 d) 2,8 e) 4,0. iv. Se, empiricamente, a moda for 2 e a mediana 4, a média aritmética será: a) 8 b) 2 c) 3 d) 5. Exercícios: Construa o Boxplot para os dados das Tabelas a seguir. UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Tabela 1: Produção de trigo e milho em toneladas. Ano Trigo (t) Milho (t) 1970 200 75 1971 185 90 1972 225 100 1973 250 85 1974 240 80 1975 195 100 1976 210 110 1977 225 105 1978 250 95 1979 230 110 1980 235 100 Tabela 2: Totais anuais de chuva (em mm) na cidade de Pelotas/RS. i Yi i Yi i Yi i Yi i Yi 1 680 21 1048 41 1220 61 1331 81 1510 2 689 22 1049 42 1225 62 1334 82 1535 3 832 23 1054 43 1232 63 1342 83 1539 4 856 24 1066 44 1237 64 1344 84 1543 5 857 25 1090 45 1255 65 1350 85 1555 6 864 26 1099 46 1258 66 1352 86 1582 7 885 27 1110 47 1265 67 1355 87 1605 8 890 28 1112 48 1270 68 1360 88 1654 9 890 29 1114 49 1271 69 1361 89 1656 10 919 30 1137 50 1297 70 1372 90 1694 11 923 31 1138 51 1298 71 1373 91 1695 12 926 32 1144 52 1300 72 1377 92 1718 13 931 33 1153 53 1305 73 1390 93 1724 14 952 34 1160 54 1307 74 1423 94 1746 15 973 35 1166 55 1311 75 1435 95 1778 16 982 36 1178 56 1320 76 1443 96 1780 17 998 37 1179 57 1321 77 1455 97 1815 18 1004 38 1191 58 1323 78 1496 98 1945 19 1011 39 1198 59 1326 79 1501 99 1995 20 1040 40 1212 60 1330 80 1510 100 2338 Tabela 3: Medidas descritivas de notas em estatística de 100 alunos. Média Mediana DP Mínimo Q1 Q3 Máximo 5,925 6,000 1,812 1,500 4,625 7,375 10,000 Tabela 4: Medidas descritivas de temperaturas (C o ) na cidade de São Paulo. Média Mediana Mínimo Q1 Q3 Máximo 17,22 17,7 12,3 16 18,6 21 Tabela 5: Medidas descritivas das idades dos funcionários de duas repartições públicas. Repartição Mínimo Q1 Mediana Média Q3 Máximo DP CV% A 18 27 33 33 39 48 5 15% B 18 23 32 33 42 48 10 30% UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Tabela 6: Medidas descritivas dos salários mínimos (R$) de profissionais com nível universitário. Região Mínimo Q1 Mediana Média Moda Q3 Máximo DP A 8,00 17,32 20,32 20,00 20,15 22,68 32,00 4,00 B 14,00 16,00 18,00 20,00 17,00 24,00 42,00 6,00 9. Tabelas de Contingência A forma geral da tabela cruzada, na qual uma amostra de n observações é classificada relativamente a duas variáveis qualitativas, uma com r categorias ou populações no caso de teste de homogeneidade e outra com c categorias. Estas são denominadas tabela cruzada r × c e a frequência observada ou contagem das categorias i da variável linha e das categorias j da variável coluna, é representada por Oij. O total de observações na categoria i da variável linha é ni. e o total de observações na categoria j da variável coluna é n.j. Estes são chamados totais marginais e em termos das frequências das células, nij, são expressos por: Categoria 1 Categoria 2 Categoria c Total Categoria 1 Categoria 2 Categoria r Total 10. Re-expressão de variáveis 10.1. Transformação dos dados amostrais Razões para a transformação dos dados Quando algum dos requisitos para o emprego da estatística paramétrica - normalidade da distribuição dos erros, homogeneidade das variâncias, e aditividade dos efeitos dos fatores de variação - não puder ser preenchido pelos dados da sua amostra experimental, o pesquisador pode ainda tentar o recurso da transformação dos dados, antes de optar pela aplicação da estatística não- paramétrica. É um recurso que sempre vale a pena tentar, porque a estatística paramétrica é evidentemente mais poderosa que a não-paramétrica. De fato, esta somente foi desenvolvida como um recurso complementar, destinado a suprir a necessidade de testes estatísticos nos casos em que alguma restrição desaconselhava o uso da estatística paramétrica, ou quando a própria natureza dos dados, muitas vezes não exatamente numéricos, vedava a aplicação desta. As transformações mais comumente utilizadas As transformações diretas dos dados mais comumente utilizadas são: a logarítmica, a logarítmica dos dados +1, a raiz quadrada dos dados, a raiz quadradados dados +1, ou mais 1/2, a raiz cúbica dos dados, a transformação angular, a transformação hiperbólica de primeiro grau (ou o inverso dos dados) ou hiperbólica de segundo grau, a transformação percentual, e a UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 transformação em valores de z, já referida quando se comentaram os testes para verificar a normalidade da distribuição dos erros amostrais. A transformação mais indicada Há sempre uma razão objetiva, em geral bem definida matematicamente, para se optar por uma ou outra dessas transformações, tudo dependendo de como ou porque a distribuição amostral está se deformando e fugindo à normalidade. Só a prática, entretanto, acaba ensinando o pesquisador a entrever qual a transformação mais indicada. Todavia, com o advento da informática, essas transformações se tornaram algo tão corriqueiro e tão rápido de realizar, que o estatístico, ou o pesquisador, pode tentar todas elas em sequência, para ver qual a que produz o melhor resultado, gastando para isso não mais do que alguns poucos minutos de seu precioso tempo. Na verdade, a transformação mais indicada geralmente coincide com aquela que apresentar a probabilidade mais elevada de a distribuição ser normal, de modo que se torna supérfluo saber a sua justificativa matemática. Se a transformação não for adequada, a probabilidade de normalidade tende a piorar, em vez de melhorar. Interpretação dos resultados (em dados transformados) O único cuidado que se deve ter, após transformar os dados experimentais, é passar a raciocinar em termos da natureza dos novos dados, por ocasião da discussão e da interpretação dos resultados. Por exemplo: algumas transformações invertem os valores dos dados, como é o caso da própria transformação inversa (ou hiperbólica de primeiro grau), na qual 𝑋𝑖 = 1 𝑥𝑖 , e da hiperbólica de segundo grau, em que 𝑋𝑖 = 1 𝑥𝑖 2. A transformação logarítmica Não se deve esquecer portanto que, uma vez transformados os dados em logaritmos, a soma de dados logarítmicos não tem o mesmo valor que a soma de seus antilogaritmos, mas representa o produto destes, de modo que a média dos logaritmos não corresponde ao logaritmo da média de seus antilogaritmos. Na verdade, o antilogaritmo da média dos logaritmos corresponde à média geométrica dos dados originais, e não à média aritmética destes. Por isso, no cálculo das médias, após a transformação logarítmica, não se pode esquecer de que os logaritmos passaram a ser tratados como simples dados numéricos, e não mais como logaritmos. Para fazer a conversão para os valores originais, as médias correspondentes às médias dos dados logarítmicos têm de ser calculadas a partir dos dados originais. A única coisa que é mantida nesses casos é a hierarquia dos dados, pois quando um dado original é maior do que outro, os seus logaritmos mantêm essa mesma ordenação hierárquica, ainda que os próprios valores numéricos passem a ser diferentes. Uma vez normalizada e homogeneizada a distribuição dos dados amostrais, por intermédio da transformação que se comprovar mais conveniente, o pesquisador estará autorizado a utilizar os testes paramétricos. Contudo, se mesmo tendo tentado todos os recursos disponíveis ainda assim a distribuição continua se demonstrando não-normal, ou não-homogênea, ou até mesmo não-aditiva, não há outra alternativa senão utilizar a estatística não-paramétrica. 10.2. Padronização Modelo Normal UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Diz-se que uma variável aleatória contínua X tem distribuição Normal com parâmetros e 2 se sua função de densidade é dada por xexf x , 2 1 22 2 . Utiliza-se a notação 2,~ NX , para indicar que X tem distribuição Normal com parâmetros e 2 . A densidade é representada na Figura 10.4. UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Figura 10.1: Densidade Normal Algumas propriedades da distribuição Normal podem ser facilmente observadas de seu gráfico (Figura 10.1). I) xf é simétrica em relação a ; II) 0xf quando x ; III) O valor máximo de xf se dá para x . No cálculo das probabilidades para variáveis contínuas, devemos resolver a integral da função densidade no intervalo de interesse, isto é, .. 2 1 22 2 dxebXaP x b a Entretanto, a integral acima só pode ser resolvida de modo aproximado e por métodos numéricos e, por essa razão, as probabilidades para o modelo Normal são calculadas com o auxílio de tabelas. Para se evitar a multiplicação desnecessária de tabelas para cada par de valores 2, , utiliza-se uma transformação que conduz sempre cálculo de probabilidades com uma variável de parâmetros 1;0 , isto é, média 0 e variância 1. Considera-se 2,~ NX e, assim, define-se uma nova variável X Z . Pelas propriedades do valor esperado e da variância tem-se 011 XEXEEZE X e 1 2 1 2 1 XVarXVarVarZVar X . Pode-se ainda verificar que essa transformação não afeta a normalidade e, assim, a variável aleatória Z terá distribuição 1,0N e será denominada de Normal Padrão ou Normal Reduzida. Portanto, para determinar a probabilidade de baX , , procedemos da seguinte forma , ba bXa ZP P bXaPbXaP e portanto, quaisquer que sejam os valores de e , utilizados a Normal Padrão para obter probabilidades com a distribuição Normal. xf x UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Os valores para ,0 zZP 0z são apresentados na Tabela 10.1 em anexo. Como probabilidade é sempre um número entre 0 e 1, a tabela contém apenas a parte decimal. Exemplo 1: Para 9;2~ NX encontre 52 XP . Observação: A simetria da Normal é utilizada para encontrar probabilidades de maneira fácil. Exemplo 2: Para 9;2~ NX encontre 20 XP . Observação: Um outro recurso importante no uso tabela é a utilização do complementar. Exemplo 3: Para 9;2~ NX encontre 3XP . Exemplo 4: Para Para 9;2~ NX encontre P(3<X<5) A tabela também pode ser utilizada no sentido inverso, isto é, dado uma certa probabilidade c tal que ?4,00 cZP procurando no corpo da tabela, a probabilidade de que mais se aproxima de 0,4 é 0,3997; correspondendo a 1,28 que será o valor de c . Finalmente, suponha agora que queremos encontrar d tal que 8,0 dZP . Observamos d precisa ser negativo, pois a probabilidade desejada é maior que 21 , que é o valor de 0ZP . Assim, o intervalo 0,d precisa ter probabilidade 0,3. Pela simetria da Normal, o intervalo d,0 também tem probabilidade 0,3. Da tabela segue que 84,0 d e, portanto 84,0d . Aplicações Teoria da Amostragem: segundo o Teorema Central do Limite, quando n ≥ 30, o uso da distribuição normal é garantido para a estimativa de médias e proporções populacionais. Testes de Hipóteses: testar hipóteses sobre médias ou diferenças entre médias de dois ou mais grupos. Exercícios 1) Para 100;90~ NX , obtenha: a) 115XP = 0,9938 b) 80XP = 0,8413 c) 75XP = 0,0668 d) 10085 XP = 0,5328. 2) Tem-se quea variável QI tem média 100 e variância 225. Padronize a variável QI e encontre: a) Qual a probabilidade que uma pessoa escolhida aleatoriamente tenha o QI superior a 135? Resp.= 0,01. b) Qual a probabilidade que uma pessoa escolhida aleatoriamente tenha o QI inferior a 90? Resp.: 0,2514. 3) Um teste de inteligência foi aplicado em um grupo de 50 estudantes de uma série. Os resultados obtidos apresentaram uma distribuição aproximadamente normal, com média 50 e desvio-padrão 6. a) Qual a proporção de alunos com notas superiores a 60? b) Qual o número de alunos com notas compreendidas entre 35 e 45? UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 Tabela 10.1 – Distribuição Normal Padrão Valores de p tais que pzZP 0 Segunda Decimal de z P a rt e In te ir a e P ri m ei ra D ec im a l d e z z 0 1 2 3 4 5 6 7 8 9 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 0,0000 0,0398 0,0793 0,1179 0,1154 0,1915 0,2257 0,2580 0,2881 0,3159 0,3413 0,3643 0,3849 0,4032 0,4192 0,4332 0,4452 0,4554 0,4641 0,4713 0,4772 0,4821 0,4861 0,4893 0,4918 0,4938 0,4953 0,4965 0,4974 0,4981 0,4987 0,4990 0,4993 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,5000 0,0040 0,0438 0,0832 0,1217 0,1591 0,1950 0,2291 0,2611 0,2910 0,3186 0,3438 0,3665 0,3869 0,4049 0,4207 0,4345 0,4463 0,4564 0,4649 0,4719 0,4778 0,4826 0,4864 0,4896 0,4920 0,4940 0,4955 0,4966 0,4975 0,4982 0,4987 0,4991 0,4993 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,5000 0,0080 0,0478 0,0871 0,1255 0,1628 0,1985 0,2324 0,2642 0,2939 0,3212 0,3461 0,3686 0,3888 0,4066 0,4222 0,4357 0,4474 0,4573 0,4656 0,4726 0,4783 0,4830 0,4868 0,4898 0,4922 0,4841 0,4956 0,4967 0,4976 0,4982 0,4987 0,4991 0,4994 0,4995 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,0120 0,0517 0,0910 0,1293 0,1664 0,2019 0,2357 0,2673 0,2967 0,3238 0,3485 0,3708 0,3907 0,4082 0,4236 0,4370 0,4484 0,4582 0,4664 0,4732 0,4788 0,4834 0,4871 0,4901 0,4925 0,4943 0,4957 0,4968 0,4977 0,4983 0,4988 0,4991 0,4994 0,4996 0,4997 0,4998 0,4999 0.4999 0,4999 0,5000 0,0160 0,0557 0,0948 0,1331 0,1700 0,2054 0,2389 0,2704 0,2995 0,3264 0,3508 0,3729 0,3925 0,4099 0,4251 0,4382 0,4495 0,4591 0,4671 0,4738 0,4793 0,4838 0,4875 0,4904 0,4927 0,4945 0,4959 0,4969 0,4977 0,4984 0,4988 0,4992 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,0199 0,0596 0,0987 0,1368 0,1736 0,2088 0,2422 0,2734 0,3023 0,3289 0,3531 0,3749 0,3944 0,4115 0,4265 0,4394 0,4505 0,4599 0,4678 0,4744 0,4798 0,4842 0,4878 0,4906 0,4929 0,4946 0,4960 0,4970 0,4978 0,4984 0,4989 0,4992 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,0239 0,0636 0,1026 0,1406 0,1772 0,2123 0,2454 0,2764 0,3051 0,3315 0,3554 0,3770 0,3962 0,4131 0,4279 0,4406 0,4515 0,4608 0,4686 0,4750 0,4803 0,4846 0,4881 0,4909 0,4931 0,4948 0,4961 0,4971 0,4979 0,4985 0,4989 0,4992 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,0279 0,0675 0,1064 0,1443 0,1808 0,2157 0,2486 0,2794 0,3078 0,3340 0,3577 0,3790 0,3980 0,4147 0,4292 0,4418 0,4525 0,4616 0,4693 0,4756 0,4808 0,4850 0,4884 0,4911 0,4932 0,4949 0,4962 0,4972 0,4979 0,4985 0,4989 0,4992 0,4995 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,0319 0,0714 0,1103 0,1480 0,1844 0,2190 0,2517 0,2823 0,3106 0,3365 0,3599 0,3810 0,3997 0,4162 0,4306 0,4429 0,4535 0,4625 0,4699 0,4761 0,4812 0,4854 0,4887 0,4913 0,4934 0,4951 0,4963 0,4973 0,4980 0,4986 0,4990 0,4993 0,4995 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,0359 0,0753 0,1141 0,1517 0,1879 0,2224 0,2549 0,2852 0,3133 0,3389 0,3621 0,3830 0,4015 0,4177 0,4319 0,4441 0,4545 0,4633 0,4706 0,4767 0,4817 0,4857 0,4890 0,4916 0,4936 0,4952 0,4964 0,4974 0,4981 0,4986 0,4990 0,4993 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,4999 0,5000