Baixe o app para aproveitar ainda mais
Prévia do material em texto
Lista de Exercícios Cap. 2 1) Considere os dados de Sexo e Raça para os dados abaixo: Sexo F M M F M F F F M M M M M M F F F M F F F F M M F M M Raça B B B B B B B B B B B B B B B B B P B B B A B B B B N a) Construa a tabela de freqüências para cada uma das variáveis. Sexo Fre. Abs. Freq. Rel. Freq. Perc. F 13 0,481481 48% M 14 0,518519 52% Total 27 1 100% Tabela de Freq. Da variável Sexo Tabela de Freq. Da variável Sexo Sexo Fre. Abs. Freq. Rel. Freq. Perc. A 1 0,037037 4% B 24 0,888889 89% I 0 0 0% N 1 0,037037 4% P 1 0,037037 4% Total 27 1 1 b) Faça os gráficos de barras e de setores (pizza) para cada uma das variáveis. c) Qual é a moda (maior freqüência) de cada variável? Modas: Masculino, para Sexo; Brancos, para Raça. 2) Eis as notas de Pesquisa de Hábitos de Estudos e Atitudes (PHEA) para 18 alunas do primeiro ano de uma faculdade: 154 109 137 115 152 140 154 178 101 103 126 126 137 165 165 129 200 148 e para 20 alunos do primeiro ano 108 140 114 91 180 115 126 92 169 146 109 132 75 88 113 151 70 115 187 104 (a) Faça um ramo-e-folhas face-a-face destes dados (faça um ramo único para meninos e meninas, coloque a folhas dos meninos de um lado e das meninas do outro). Meninas Meninos 7 0 5 8 8 9 1 2 9 3 1 10 4 8 9 5 11 3 4 5 5 9 6 6 12 6 7 7 13 2 8 0 14 0 6 4 4 2 15 1 5 5 16 9 8 17 18 0 7 19 0 20 Escala: 100=10|0 (b) Ache a média ( ) e a mediana ( ) para ambos os conjuntos de notas PHEA. Que característica da distribuição explica o fato de ser > ? Meninas Meninos Média 141 121 Mediana 139 115 Comentário: Para os dois casos (masculino e feminino), pode-se perceber pelo gráfico de ramo-e-folhas uma concentração à esquerda dos dados. (c) Os dados da PHEA para mulheres contém um outlier alto. Calcule a média e a mediana para estes dados, com o outlier e sem ele. Como a remoção do outlier afeta ? Como afeta ? Seus resultados ilustram a maior robustez da mediana. Meninas com todas obs. sem obs. 200 Média 141 138 Mediana 139 137 Comentário: Percebemos que a média é mais afetada por pontos extremos (outliers) do que a mediana. A média foi alterada em 7 pontos, enquanto a mediana em 2. (d) Determine o desvio-padrão (s). Para você trabalhar com valores menores, em cada conjunto de dados, subtraia a média de todos os valores e então calcule a variância e o desvio-padrão. Porque seus cálculos manuais ficaram facilitados? Meninas Meninos Desvio-padrão 26,436 32,852 (e) Determine o coeficiente de variação (cv) para ambos os conjuntos de notas PHEA. Compare os dois conjuntos de notas quanto à homogeneidade. Meninas Meninos CV 19% 27% Comentário: Pelo coeficiente de variação (CV), percebemos que as notas dos meninos variam do que as das meninas. Isso é refletido pelo gráfico de ramo-e-folhas, onde o gráfico dos meninos é “mais espalhado” que o das meninas. 3) É dado na Fig. 1 o histograma para um conjunto de dados. Qual dos box-plots é consistente com o histograma na descrição da distribuição dos dados. Justifique sua escolha. Fig. 1: Histograma e box-plots Comentário: O nº 3, pois tem uma cauda longa à esquerda (para baixo no Box-Plot vertical). 4) Considere o seguinte conjunto de dados de uma variável numérica: 21 21 21 22 22 23 23 23 24 24 25 25 25 25 26 26 26 28 30 31 31 32 33 33 33 34 34 35 35 36 a) Calcule as medidas de posição (média, moda, mediana, primeiro e terceiro quartil) e dispersão (amplitude, variância, desvio-padrão e CV) para os dados. Média 27,57 Amplitude 15,00 Moda 25,00 Variância 24,67 Q1 (1º quartil) 23,25 Desvio-padrão 4,97 Q2 (2º quartil) 26,00 CV 0,18 Q3 (3º quartil) 32,75 b) Faça o histograma, gráfico de ramo e folhas e Box-plot para os dados. 2 1 1 2 2 3 3 3 4 4 2 5 5 5 5 6 6 6 8 3 0 1 1 2 3 3 3 4 4 3 5 5 6 Escala: 20=2|0 Freqüências Freqüências Acumuladas Limites Absolutas Relativas Absolutas Relativas 21,0|--23,5 8 0,266667 8 0,266667 23,5|--26,0 6 0,2 14 0,466667 26,0|--28,5 4 0,133333 18 0,6 28,5|--31,0 1 0,033333 19 0,633333 31,0|--33,5 6 0,2 25 0,833333 33,5|--36,0 5 0,166667 30 1 Total 30 1 -- -- 0% 5% 10% 15% 20% 25% 30% 21,0|--23,5 23,5|--26,0 26,0|--28,5 28,5|--31,0 31,0|--33,5 33,5|--36,0 Fr eq . P er ce nt ua is Classes Histograma da variável X Observação 1: Esse gráfico de Box-Plot foi construído no Excel através de uma rotina disponibilizada pelo Lapponi. Os extremos das linhas horizontais vermelhas indicam os limites de 150% e 300% à esquerda e à direita da caixa. Observação 1: A tabela de frequência para a construção do histograma pode resultar diferente, dependendo do nº de classes e do tamanho das classes. c) Comente também sobre os formatos dos dados (assimetria, posição, variabilidade, modalidade (modas)), além da presença ou não de outliers. Solução: Pelo Box-Plot, vemos que existe uma assimetria positiva (posição da mediana na caixa), com uma variabilidade mediana (vide CV). Pelo histograma, vemos que existem duas classes modais (duas ondas), entre 21 e 23.5 e entre 31 e 33,5. Como indicado no Box-Plot, não existem outliers. Vemos que para esses dados, o gráfico de ramo-e-folhas não foi informativo. d) Para os dados agrupados na tabela de freqüências do histograma, calcule média, moda, mediana, variância e desvio-padrão. Média, mediana, variância e desvio-padrão devem ser próximos das estatísticas dos dados não-agrupados (obtidas no item a)). Solução: Média 27,75 Moda 23 Mediana 26,63 Variância 23,02 Desvio-padrão 4,80 5) Retornamos à questão das notas de Pesquisa de Hábitos de Estudos e Atitudes – PHEA. A Fig. 2 apresenta os Box-plots das notas dos conjuntos de dados referentes às alunas (F) e aos alunos (M) e a todos os estudantes (T). TodosMasculinoFeminino 200 180 160 140 120 100 80 60 Conjuntos No ta s Fig. 2: Box-plots dos conjuntos de dados (a) Para cada um dos conjuntos de dados, estime graficamente a mediana, o primeiro e o terceiros quartis e uma medida de dispersão; Solução: Pegar uma régua e fazer uma paralela entre as medidas Q1, Q2 e Q3 com o eixo vertical. Anotar o valor onde a régua passa pelo eixo em cada medição. Quanto à dispersão, dizer apenas se a variabilidade é baixa, média ou alta, a partir da comparação entre comprimento das linhas e tamanho da caixa. Neste caso, a variabilidade do total é mediana, das meninas é mediana e dos meninos é alta. (b) Faça uma breve comparação dos grupos de alunos e alunas. As mulheres, como grupo, têm maiores notas do que os homens? Que grupo de notas se apresenta mais disperso? Solução: Obviamente, os meninos apresentam maior variabilidade (item a). Embora a caixa do Box-plot das meninas se apresente acima dos meninos, existe muita interseção entre elas. Logo, para saber se realmente existe predominância das notas das meninas, somente se fizer um teste estatístico (que veremos até o fim do semestre). 6) A Tabela 1 apresenta algumas informações adicionais sobre esses conjuntos de dados Tabela 1: Algumas medidas-resumo dos conjuntos de dados Conjunto Quantidade. (n) Média ( ) Desvio-padrão (s) CV Alunas (F) 18 141,06 26,44 19% Alunos (M) 20 121,25 32,85 27% Todos os alunos (T) 38 130,63 31,24 24% (a) Utilize o coeficiente de variação (cv) e compare os conjuntos em relação aos resultados obtidos. Qual grupo foi mais homogêneo? Solução: Primeiro, para calcular a média total, basta fazer Xm=(n1*Xm1+n2*Xm2 )/n, onde Xm1 é a média do grupo 1, Xm2 é a média do grupo 2, n1 é o nº de observações do grupo 1 e n2 é o nº de observações do grupo 2. Os resultados já estão na tabela. Assim, o grupo das alunas é mais homogêneo que o dosalunos. (b) Observe a variabilidade dos três conjuntos (F, M e T) e conjecture se o sexo é importante para ajudar a explicar a variação das notas. Solução: Comparando a diferença de médias entre os grupos (20 unidades) e o desvio- padrão do total, podemos afirmar que não existe diferença significativa entre os grupos. Mas somente um teste de hipóteses estatístico poderá responder com certeza (estatística!!!). 7) Os dados da tabela abaixo são de Pesos (em Kg) de 50 Homens e 40 Mulheres. a) Construa as medidas-resumo de posição (média, quartis, mínimo e máximo) e de dispersão (distância interquartílica, amplitude, variância, desvio-padrão e coeficiente de variação) para os dados totais (Feminino e Masculino) e separadamente, por Sexo. Masculino Feminino Total Média 69,94 66,865 68,57333 Mínimo 64 64,1 64 Máximo 75,6 71,9 75,6 Q1 68,63 65,88 66,50 Q2 69,9 66,55 68,05 Q3 71,5 67,725 70,35 DIQ 2,875 1,85 3,85 Amplitude 11,6 7,8 11,6 Variância 6,93 2,36 7,21 Desvio-padrão 2,63 1,54 2,69 CV 4% 2% 4% b) Faça os gráficos de histograma (freq. Relativa e de densidade), ramo-e-folhas e Box- plot para os dados totais (Feminino e Masculino) e separadamente, por Sexo. 66,00 68,00 70,00 72,00 74,00 Peso (em Kg) 0 4 8 12 C ou nt Feminino Masculino 66,00 68,00 70,00 72,00 74,00 Peso (em Kg) 66 ,00 68 ,00 70,00 72 ,00 74 ,00 Peso (em Kg) 0 5 10 15 C ou nt Fe minin o Masc ul ino Sexo 65,00 67,50 70,00 72,50 75,00 Pe so (e m K g) 65,00 67,50 70,00 72,50 75,00 Pe so (e m K g) Feminino Masculino 6 6 1 64 0 3 7 9 9 8 8 8 8 6 6 5 65 9 9 8 7 6 6 5 5 3 2 1 1 1 0 66 8 9 9 8 7 6 6 4 1 67 1 2 2 2 6 9 5 1 0 68 5 6 7 8 9 9 7 69 0 4 4 5 7 7 7 9 9 9 2 70 0 0 4 6 7 7 8 9 71 0 4 5 5 8 8 72 0 3 4 4 8 8 73 74 1 75 4 6 6 Escala: 70,5=70|5 c) Interprete os dados, usando os resultados obtidos nos itens a) e b), explicando, se houver, diferenças atribuídas à variável Sexo. Comente também sobre os formatos dos dados (assimetria, posição, variabilidade, modalidade (modas)), além da presença ou não de outliers. Comentário: O comportamento da variável por grupos (sexo) é completamente diferente. Embora o grupo feminino apresente menor média, o grupo apresenta menor variabilidade, tem simetria, embora apresente um outlier superior. Já o grupo masculino apresenta assimetria e um outliers inferior. Porém, embora os gráficos sugiram alta variabilidade, o CV de variação tem valor baixo (4%). A variável, no total e por grupos, apresenta unimodalidade. M as cu lin o 64,0 64,3 64,7 65,9 66,8 67,1 67,2 67,2 67,2 67,6 67,9 68,5 68,6 68,7 68,8 68,9 68,9 69,0 69,4 69,4 69,5 69,7 69,7 69,7 69,9 69,9 70,0 70,0 70,4 70,6 70,7 70,7 70,8 70,9 71,0 71,4 71,5 71,5 71,8 71,8 72,0 72,3 72,4 72,4 72,8 72,8 74,1 75,4 75,6 75,6 Fe m in in o 64,1 64,6 64,6 65,5 65,6 65,6 65,8 65,8 65,8 65,8 65,9 65,9 66,0 66,1 66,1 66,1 66,2 66,3 66,5 66,5 66,6 66,6 66,7 66,8 66,9 67,1 67,4 67,6 67,6 67,7 67,8 67,9 67,9 68,0 68,1 68,5 68,8 69,7 70,2 71,9 8) Dados sobre uma amostra de 20 funcionários de uma empresa indivíduo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Nº de filhos 0 2 3 2 1 4 5 3 6 7 4 3 2 1 3 5 6 3 2 1 Fonte: Dados fictícios a) Calcule as medidas de posição (média, moda, mediana, primeiro e terceiro quartil) e dispersão (amplitude, variância, desvio-padrão) para os dados. Média 3,15 Moda 3 Mediana 3 Q1 2 Q2 3 Q3 4,25 Amplitude 7 Variância 3,61 DP 1,90 b) Faça o diagrama de freqüências para os dados.
Compartilhar