Prévia do material em texto
1ª LISTA DE EXERCÍCIOS Estatística – Administração Integral e Noturno Estatística Descritiva 1. Classifique as variáveis (qualitativa nominal, qualitativa ordinal, quantitativa discreta, quantitativa contínua): a) Vitamina (A, B1, B2, B6, B12) b) Quantidade de caloria na batata frita. c) Desfecho de uma doença (curado, não curado) d) Classificação de uma lesão (lesão fatal; severa; moderada; pequena). e) Grupo sangüíneo (A,B,AB,O) f) Paridade (primeira gestação, segunda gestação, terceira ...) g) Estado geral de um paciente (bom, regular, ruim) h) Número de nascidos vivos em certo hospital em junho/99 i) Idade j) Concentração de flúor na água k) Atividade esportiva preferida 2. Os dados abaixo referem-se ao número de pessoas que residem em uma amostra de 35 domicílios do bairro Esperança no 1°sem/99: 2 3 4 4 5 3 4 5 6 5 3 1 5 5 1 3 4 5 5 5 3 2 2 5 4 4 2 3 5 4 5 4 2 4 9 Construa uma distribuição de freqüência em classes. 3. Os dados seguintes são referentes ao nível de glicose de 60 crianças: 1 2 Nos exerçícios abaixo, sempre que possível, fazer boxplot! 56 61 57 77 62 75 63 55 64 60 60 57 61 57 67 62 69 67 68 59 65 72 65 61 68 73 65 62 75 80 66 61 69 76 72 57 75 68 83 64 69 64 66 74 65 76 65 58 65 64 65 60 65 80 66 80 68 55 66 71 a) Construa uma distribuição de freqüência b) Determine as freqüências simples acumuladas de cada classe. c) Determine as freqüências relativas de cada classe. d) Determine as freqüências relativas acumuladas de cada classe. 4. Os dados a seguir referem-se ao tempo, em horas, que 80 pacientes hospitalizados dormiram durante a administração de certo anestésico: Tempo (horas) N.de pacientes 0 |⎯ 4 8 4 |⎯ 8 15 8 |⎯ 12 24 12 |⎯ 16 20 16 |⎯ 20 13 a) Encontre a freqüência relativa de cada classe. b) Determine a freqüência acumulada de cada classe. c) Determine o ponto médio de cada classe. d) Dê a interpretação para a freqüência relativa de 3a classe. e) Qual o percentual de pacientes que dormiram menos de 12 horas? 5. Uma amostra de gaúchos foi investigada em relação ao consumo de sal diário, obtendo-se o seguinte: 3 P R O B A B I L I D A D E E E S TAT Í S T I C A ELSEVIER 264 O método dos mínimos quadrados para determinar os coefi cientes a e b a partir dos dados, consiste em encontrar aqueles valores de a e b que minimizam: n 2 i i i 1 (y (a bx )) ! � �© . As fórmulas para calcular a e b a partir dos dados são: � � � � � � n n i ii 1 i 1n n i i i 1 xyi ii 1 2 2n 2n xii 1 ii 1n 2 ii 1 x y b x y x y sx y n sx x x x n ! ! ! ! ! ! ! �� � ! ! � � ! © ©©© © ©© n n i ii 1 i 1 y b xy bxa n ! !�! � !© © EXERCÍCIOS RESOLVIDOS R7.1) O problema mais grave do estado do RJ Considere uma pesquisa por amostragem feita em 1986 junto à população do estado do Rio de Janeiro. Foram ouvidas 1.230 pessoas que, entre outras coisas, apontaram qual era, em sua opinião, o problema mais grave do estado naquele momento. Com base nos dados brutos, foi obtida a tabela a seguir. Frequências e percentuais dos 1.230 respondentes da Pesquisa junto à população do estado do RJ em 1986, segundo o problema mais grave do Estado Problema mais grave do Estado Frequências Percentuais Segurança / Violência 360 29,27 Educação 160 13,01 Saúde 152 12,36 Saneamento 118 9,59 Alimentação/Fome/Pobreza 73 5,93 Transporte 63 5,12 Outros 304 24,72 Total 1.230 100,00 Fonte: Pesquisa de Opinião sobre as Eleições do Rio de Janeiro 1986 Ibase / Serpro / IM-UFRJ Construa o gráfi co de barras e o gráfi co de setores (ou gráfi co “pizza”) com base nessa tabela de frequências. book.indb 264book.indb 264 07/08/2012 09:54:2807/08/2012 09:54:28 4 10. Maiores exportadores de carne suína (mil t), em 2001: Exportador Quantidade União Européia 1.220 Canadá 710 Estados Unidos 699 Brasil 265 China 110 Outros 539 Total 3.543 Fonte: USDA-ABIPECS a) A tabela é identificada como dados agrupados ou não agrupados? b) Utilize as medidas de tendência central para descrever os dados. 11. Um levantamento realizado em uma amostra de pessoas normais, segundo a quantidade de hemoglobina ( g/ 100 ml) existente no sangue forneceu os seguintes resultados: 13,5 12,5 10,6 15,1 11,7 12,9 12,8 9,4 14,9 12,0 Calcule o desvio padrão e o coeficiente de variação. 12. Os dados seguintes são referentes a uma amostra de diâmetros de coração de adultos normais, em mm (medidas em radiografias 36 x 43 cm): 146 125 139 132 121 135 114 114 130 169 114 130 169 125 103 a) Determine a média, a moda e a mediana. b) Calcule a variância e o desvio padrão. 13. Um farmacêutico comprou um material específico de dois diferentes fornecedores. Para comparar o nível de impurezas presentes nas compras feitas aos dois fornecedores, o farmacêutico mediu a porcentagem de impurezas presentes em cada um dos grupos, obtendo o que segue: 5 6 7 Fornecedor A: 1,8 2,5 1,5 1,2 1,0 Fornecedor B: 1,6 2,5 1,2 2,3 1,5 Qual das compras apresenta maior uniformidade nas impurezas? Justifique adequadamente. 14. A tabela abaixo indica a idade de uma amostra de pacientes com hipertensão arterial: Idade (anos) Nº de pacientes 20 |⎯ 30 30 |⎯ 40 40 |⎯ 50 50 |⎯ 60 60 |⎯ 70 2 11 10 9 8 ∑ 40 a) Determine e interprete a idade média. b) Determine interprete a idade modal. c) Calcule o desvio padrão da idade. d) Qual o percentual de pacientes hipertensos com no mínimo 50 anos? e) Qual o percentual de pacientes hipertensos com menos de 40 anos? 15. Número de vezes que 35 indivíduos com lombalgia procuram o serviço de fisioterapia. Calcule o desvio padrão da amostra. Nº de vezes: 0 1 2 3 4 5 Nº de pessoas: 18 10 3 2 1 1 16. O Hospital de Clínicas de Porto Alegre realizou um estudo sobre Síndrome de Down: características clínicas, perfil epidemiológico e citogenético em recém-nascidos. Foi realizado um rastreamento em todos os nascidos com 8 9 10 peso acima de 500 gramas no HCPA entre junho de 1988 e março de 1995, sendo anotado a idade das mães de crianças com Síndrome de Down no grupo de caso e a idade das mães de crianças normais no grupo de controle. Com base nas informações dadas abaixo, qual das amostras de mães é mais homogênea em relação à idade? Justifique a resposta. Casos Controle Média 31,67 anos 26,00 anos Desvio padrão 7,08 anos 5,08 anos 17. O gráfico a seguir apresenta a taxa de desemprego em % da população economicamente ativa no período de 1982 a 1997: a) Classifique a variável de interesse. b) Qual a moda da variável? c) Determine e interprete a média. d) Determine e interprete a mediana. 18. O gráfico a seguir expressa o número de animais doentes encontrados num levantamento de 350 propriedades rurais em MG, 1998: 55 60 112 82 31 8 2 0 20 40 60 80 100 120 0 1 2 3 4 5 6 fr eq üê nc ia nº de animais doentes 2,3 3,9 4,1 4,5 4,4 3,4 4,4 3,8 4,8 - 1,0 2,0 3,0 4,0 5,0 6,0 1989 1990 1991 1992 1993 1994 1995 1996 1997 % ano Taxas de desemprego 11 12 a) Classifique a variável. b) Quantos propriedades apresentaram no máximo dois animais doentes? c) Qual é o percentual de propriedades que apresentaram somente um animal doente? d) Qual é o percentual de propriedades que apresentaram pelo menos um animal doente? e) Qual foi a moda? f) Determine a mediana. 19. Foram obtidos os tempos (em segundos) decorridos entre a formulação de um pedido e a entrega de um determinado sanduíche em uma lanchonete McDonalds. 135 90 85 121 83 69 159 177 120 133 90 80 70 93 80 110 Calcule média, mediana, moda, desvio padrão e coeficiente de variação. Interprete os resultados e comente sobre como está sendo o atendimento nesta loja. 20. Em um Haras, verificou-se a taxa de protombina no plasma de cavalos.Com base nos resultados apresentados a seguir, construa um histograma e veja o que ele sugere em relação taxa de protombina. Calcule e interprete as seguintes medidas: Média, Mediana, Moda, Desvio Padrão, Coeficiente de Variação, variância, erro padrão da média. Taxa de protombina Freqüência 16 --- 25 22 26 --- 35 10 36 --- 45 6 46 --- 55 2 56 --- 65 4 66 --- 75 5 76 --- 85 1 13 14 21) Foram obtidas em uma determinada empresa, a idade dos carros de profissionais do Haras Cavalo de Ouro, com nível médio e profissionais com nível superior. Determine média, Mediana, Moda, Desvio Padrão, Coeficiente de Variação, variância, erro padrão da média. Comparando as duas amostras, elas apresentam a mesma variabilidade? Idade (anos) Nível Médio Nível Superior 0 --- 2 23 35 3 --- 5 33 57 6 --- 8 63 41 9 --- 11 68 10 12 --- 14 19 8 15 --- 17 10 0 18 --- 20 1 1 21 --- 23 0 0 15 C A P Í T U L O 7 ANÁLISE EXPLORATÓRIA DE DADOS AMOSTRAIS 277 EXERCÍCIOS PROPOSTOS P7.1) Um erro grosseiro, mas (infelizmente) bastante comum A partir dos dados 1 2 nx , x ,..., x , calcula-se a variância da variável X pela expressão = = ⎛ ⎞ ⎜ ⎟⎝ ⎠− = − ∑ ∑ 2n in 2 i 1 i 2 i 1 x x ns n 1 Então, se 1 2 3 4 5n 5, x 3, x 5, x 0, x 2, x 6! ! ! ! ! ! , temos: 5 2 2 2 2 2 2 i i 1 x 3 5 0 2 6 74 ! ! � � � � !© Logo, − − = = = − 2 74 7474 74 5 5s 14,8 5 1 4 a) O que está errado nesse cálculo? b) Qual a solução correta? P7.2) Combinando duas amostras Foram coletados os dados relativos a uma determinada variável para duas amostras distintas. Apresen- tam-se a seguir, para cada uma delas, os resultados obtidos quanto a: tamanho da amostra, média e desvio padrão. Amostra No de Obs. Média Desvio Padrão 1 5 7,4 6,309 2 4 11,5 9,983 a) Considerando agora a amostra combinada, ou seja, a amostra composta por todas as nove observa- ções, qual o valor da sua média? b) Qual o seu desvio padrão? P7.3) Atualização da mediana Temos um conjunto de dados com 11 observações já devidamente ordenadas: ( ) ( ) ( ) <<< < (11)1 2 3 x x x ... x . Quais das seguintes afi rmações estão corretas e quais estão erradas? Por quê? a) A mediana desses dados é � 6Q2 x! . b) Suponha que foi eliminada desse conjunto de dados original a maior observação x(11). Então a nova mediana é agora � � � 1 101 x x .2! � c) Suponha que foi adicionada ao conjunto de dados original mais uma observação, de modo que ele passou a ter 12 observações. Então a diferença entre o maior valor possível da nova mediana e o menor valor possível da nova mediana é � � � 7 51 x x2! � . book.indb 277book.indb 277 07/08/2012 09:54:3007/08/2012 09:54:30 16 17 P R O B A B I L I D A D E E E S TAT Í S T I C A ELSEVIER 278 P7.4) Implantes mamários – raciocínio equivocado Um determinado fabricante produz implantes mamários utilizando gel de silicone. Os dados a seguir se referem à tensão de ruptura desses implantes, e foram obtidos por meio de testes físicos realizados com uma amostra de tamanho n = 20: 72,2 80,1 70,4 67,8 70,9 72,1 75,1 73,0 59,4 77,2 65,1 66,5 64,1 79,0 70,6 70,3 63,1 64,4 74,9 75,3 Com base nesses dados, obtenha os quartis Q1, Q2 e Q3. Foi apresentada a seguinte solução: Posição 1 2 3 4 5 6 7 8 9 10 Valor 72,2 80,1 70,4 67,8 70,9 72,1 75,1 73 59,4 77,2 Posição 11 12 13 14 15 16 17 18 19 20 Valor 65,1 66,5 64,1 79 70,6 70,3 63,1 64,4 74,9 75,3 � 1P 20 10,5osição 2Q2 � !! o 1 1Q2 77,2 65,1 71,15 2 2 ! x � x ! 1 10,5Posição(Q1) 5,75 2 �! ! o 1 3Q1 70,9 72,1 71,8 4 4 ! x � x ! 10,5 20 Posição(Q3) 15,25 2 �! ! o 3 1Q3 70,6 70,3 70,525 4 4 ! x � x ! a) Algo está errado nessa solução. O que é? b) Qual a solução correta? P7.5) Preços de automóveis A tabela de frequências a seguir se refere aos preços (em reais) pelos quais foram anunciados 2.695 automóveis para venda em um determinado site. Faixa de preço Frequência Até R$ 7.000 344 De R$ 7.001 a R$ 10.000 419 De R$ 10.001 a R$ 15.000 530 De R$ 15.001 a R$ 20.000 443 De R$ 20.001 a R$ 25.000 320 De R$ 25.001 a R$ 30.000 229 De R$ 30.001 a R$ 40.000 220 De R$ 40.001 a R$ 50.000 99 De R$ 50.001 a R$ 100.000 80 Acima de R$ 100.000 11 Total 2.695 book.indb 278book.indb 278 07/08/2012 09:54:3107/08/2012 09:54:31 18 C A P Í T U L O 7 ANÁLISE EXPLORATÓRIA DE DADOS AMOSTRAIS 281 Com base nesse conjunto de dados foram calculados: Média 22, 027 Mediana 12 Q1 6 Q3 20 DIQ 14 Se for utilizado o critério para identifi cação de observações discrepantes que se baseia em medidas re- sistentes, teremos Cerca Superior Q3 1,5 DIQ 20 1,5 14 41! � ! � x ! . Assim, seis das 37 observações (16%) seriam apontadas como possíveis outliers, isto é, municípios onde haveria um número anormalmente alto de hotéis: Teresópolis (44), Penedo (55), Petrópolis/arredores (58), Petrópolis (83), Nova Friburgo (84) e Itatiaia (121). Responda: a) Por que a média resultou em um valor bem maior que a mediana nesse caso? b) Por que tantos municípios teriam sido apontados pelo critério que identifi ca outliers? P7.11) Défi cit habitacional no Estado do Rio de Janeiro A tabela a seguir contém o número de domicílios rústicos em alguns municípios do Estado do Rio de Janeiro no ano 2000. Número de domicílios rústicos no RJ – 2000 Angra dos Reis 572 Miracema 216 Araruama 117 Niterói 914 Barra do Piraí 741 Nova Friburgo 295 Barra Mansa 250 Nova Iguaçu 457 Belford Roxo 339 Petrópolis 1.839 Cabo Frio 566 Queimados 81 Campos dos Goytacazes 1.119 Resende 66 Duque de Caxias 556 Rio das Ostras 123 Guapimirim 51 Sto. Antônio de Pádua 88 Itaboraí 132 São Gonçalo 394 Itaguaí 70 São João de Meriti 103 Itaperuna 74 São Pedro da Aldeia 77 Japeri 122 Saquarema 289 Macaé 143 Seropédica 159 Magé 567 Teresópolis 329 Maricá 64 Valença 229 Fonte: Fundação João Pinheiro (FJP), Centro de Estatística e Informações (CEI) a. Determine os quartis. b. Obtenha um gráfi co box plot para esses dados. c. Seria o gráfi co ramo-folha adequado para representar estes dados? Por quê? book.indb 281book.indb 281 07/08/2012 09:54:3107/08/2012 09:54:31 21 Sexo Masculino: MÈdia: 22; 30 Mediana: 22; 00 Moda: 22; 00 1o Quartil: 20; 00 3o Quartil: 25; 00 Vari‚ncia: 7; 51 MÌnimo: 17; 00 M·ximo: 26; 00 Sexo Feminino: MÈdia: 20; 88 Mediana: 21; 00 Moda: 22; 00 1o Quartil: 19; 00 3o Quartil: 23; 00 Vari‚ncia: 11; 93 MÌnimo: 10; 00 M·ximo: 28; 00 (a) Qual dos grupos (masculino ou feminino) evidencia desempenho mais heterogÍneo? JustiÖque com base a uma medida estatÌstica apropriada. (b) H· evidÍncia de dados discrepantes (outliers) no grupo masculino? Jus- tiÖque. (c) H· evidÍncia de dados discrepantes (outliers) no grupo feminino? Jus- tiÖque. (d) Analise a assimetria da distribuiÁ„o dos escores do grupo masculino. (e) Analise a assimetria da distribuiÁ„o dos escores do grupo feminino. ExercÌcio 2 Houve uma den˙ncia por parte dos oper·rios de uma ind˙stria de que, toda vez que ocorreria um acidente em uma seÁ„o da ind˙stria, ocorreriam outros em outras seÁıes mais ou menos no mesmo hor·rio. Em outras palavras, os acidentes n„o estavam ocorrendo ao acaso. Para veriÖcar esta hipÛtese, foi feita uma contagem do n˙mero de acidentes por hora durante um certo n˙mero de dias (24 horas por dia). Os resultados da pesquisa est„o abaixo: N˙mero de Acidentes por Hora 0 1 2 3 4 5 6 7 8 N˙mero de Horas 200 152 60 30 13 9 7 5 4 (a) Qual o n˙mero mÈdio de acidentes por hora? (b) E o n˙mero mediano? (c) Qual È a moda? (d) Qual È o desvio-padr„o? (e) Avalie os dados quanto ‡ assimetria. (f) Avalie os dados quanto ‡ curtose. 3 CoeÖciente de CorrelaÁ„o Vimos anteriormente que o diagrama de dispers„o (scatterplot) È usado quando desejamos avaliar a relaÁ„o entre duas vari·veis. A visualizaÁ„o È um primeiro passo para um entendimento dessa possÌvel ináuÍncia de uma vari·vel sobre outra, mas h· que se medir a correlaÁ„o entre elas. O coeÖciente de correlaÁ„o (r) È a medida comumente utilizada para se avaliar a correlaÁ„o linear entreduas vari·veis quantitativas. 5 22 INF 162 Prof. Luiz Alexandre Peternelli 24 (d) Usando a distribuição de frequência conforme obtido em a calcule a média novamente. Para tal, considere os pontos médios de cada classe (média entre os dois limites de cada classe) para serem os valores da variável no cálculo da média. (e) Obtenha a variância para os dados originais conforme feito para a média em c. (f) Obtenha a variância a partir da distribuição de frequência conforme feito para a média no ítem d. obs.: use 7 intervalos de classe. Amplitude da classe igual a 0,5. E o início do intervalo mais baixo em 1,5. 5) Mostre que 2)(∑ − i ii xxf = ∑ ∑ ∑ − i i i ii ii f xf xf 2 2 )( 6) Mostre que a soma de quadrados dos desvios (SQD) em relação à média é um mínimo. Dica: Considere f(a) a função que representa a SQD em relação a a. Ou seja, ∑ = −= n i i axaf 1 2)()( . Usando seus conhecimentos de cálculo, mostre que f(a) será mínimo quando a for igual a média dos valores de X. 7) Calcule a média, mediana, e amplitude total dos valores dispostos no seguinte diagrama de ramos e folhas 6 0 5 5 8 9 7 2 4 4 5 7 8 8 2 3 3 5 7 8 9 9 0 0 1 4 4 5 7 10 0 2 7 8 11 0 2 4 5 12 2 4 5 27 28 INF 162 Prof. Luiz Alexandre Peternelli 25 UNIVERSIDADE FEDERAL DE VIÇOSA --Departamento de Informática / CCE INF 161 - Iniciação à Estatística / INF 162 – Estatística I Lista de Exercícios: Estatística Descritiva 1) Os dados abaixo se referem a medidas tomadas em uma amostra de 10 cães: Cão 1 2 3 4 5 6 7 8 9 10 Peso (kg) 23,0 22,7 21,2 21,5 17,0 28,4 19,0 14,5 19,0 19,5 Comprimento (cm) 104 105 103 105 100 104 100 91 102 99 Pede-se, para as características avaliadas, peso e comprimento, as estatísticas: a) Média; b) Variância; c) Desvio-padrão; d) Erro-padrão da média; e) Coeficiente de variação; f) Qual das duas características é a mais homogênea; g) Mediana; h) Moda. 2) Um pesquisador dispõe das seguintes informações, a respeito dos valores de uma amostra: - a média de todos os valores é igual a 50,34; - a soma dos quadrados dos valores é igual a 150.000; - a amostra é constituída de 52 valores distintos. Pergunta-se: Com essas informações é possível obter alguma(s) medida(s) de dispersão dos valores amostrais? Em caso afirmativo, efetue os cálculos e obtenha a(s) respectiva(s) medida(s). 3) Considere os dados: 12, 17, 17, 17, 10, 10, 9, 9, 9, 12, 12, 6, 6, 6, 17, 17, 12, 12, 9, 9, 9, 12, 12, 12, 12. Supondo que sejam valores assumidos por uma variável aleatória discreta X, pede-se: a) Média, mediana e moda; b) Erro-padrão da média e C.V.(%). 29 30 INF 162 Prof. Luiz Alexandre Peternelli 26 4) Duas turmas A e B com nA = 50 e nB = 80 apresentaram médias XA = 65 e XB = 70 e variâncias sA 2 225= e sB 2 235= . Qual é a turma mais homogênea? 5) A média de aprovação na disciplina de Estatística é 6 ou mais. Durante um período letivo foram realizadas quatro provas, sendo que a primeira prova teve peso dois, a segunda e a terceira o dobro do peso da primeira e a última igual ao peso da primeira. Os resultados, incluindo os de uma prova de substituição optativa, foram os seguintes: Estudantes 1a 2a 3a 4a Optativa 1 2,5 4,5 5,0 6,0 7,0 2 2,0 8,5 7,0 3,0 5,0 3 8,5 10,0 9,0 8,5 nc 4 3,5 5,5 8,5 7,5 6,5 5 3,0 5,0 6,0 4,5 5,0 6 6,0 3,0 4,0 5,0 2,0 7 8,0 1,5 2,0 9,0 5,0 8 1,5 2,0 1,0 2,5 nc 9 7,5 8,0 8,5 10,0 nc 10 5,5 4,5 5,0 4,5 2,5 Sabendo-se que a nota da prova optativa substitui a menor nota das provas precedentes, determine: a) Média de cada estudante; b) Para cada prova: média, moda, mediana, variância, desvio-padrão, erro-padrão da média e CV. c) Para o período: média, variância, desvio-padrão, erro-padrão da média, CV. d) Liste as provas em ordem crescente de homogeneidade. 31 32 Exercícios Estatística Descritiva O conjunto de dados fornecido apresenta características de 22 pacientes com cisto no pâncreas: paciente sexo idade tamanho do cisto (cm) Localização do cisto no pâncreas 1 F 49 6 cabeça 2 F 61 10 cabeça 3 M 34 8,2 cauda 4 F 73 3 colo 5 M 47 3,6 cabeça 6 M 58 10 colo 7 M 43 1 cabeça 8 M 71 1 cabeça 9 M 32 7 cauda 10 M 56 1 cabeça 11 M 61 6,6 corpo 12 F 49 4 cabeça 13 M 80 3,1 cauda 14 M 72 2,3 cabeça 15 M 47 10,5 cabeça 16 F 48 6,5 corpo 17 F 37 13 corpo 18 M 71 1 colo 19 M 74 7 cabeça 20 F 21 12 corpo 21 F 45 8,5 corpo 22 M 38 10 colo 33 Pede-se: 1 – Construa uma tabela e um gráfico de distribuição de freqüências para a localização do cisto no pâncreas dos pacientes; 2 – Construa uma tabela e um gráfico de distribuição de freqüências conjuntas para as variáveis sexo e localização do cisto no pâncreas. Com base na tabela e gráfico obtidos, você suspeita que exista relação entre o sexo e a localização do cisto? 3 – Construa uma tabela e um gráfico de distribuição de freqüências para os tamanhos dos cistos; 4 – São fornecidos gráficos dos tamanhos dos cistos segundo o sexo dos pacientes e suas localizações no pâncreas. Interprete os gráficos apresentados. 5 – Construa um gráfico que permita avaliar a relação entre a idade do paciente e o tamanho do cisto. Comente o resultado. 6 – Calcule as medidas de posição e dispersão estudadas para os tamanhos dos cistos. Depois, calcule-as novamente, para cada sexo. Você suspeita que exista relação entre o tamanho dos cistos e o sexo dos pacientes? Box-plots – gráficos geralmente utilizados no estudo da distribuição dos valores de uma variável quantitativa para diferentes resultados de uma variável qualitativa. Representação: ! Uma caixa, delimitada inferiormente pelo 1º quartil* (Q1) e superiormente pelo 3º quartil* (Q3), e segmentada em duas partes pela mediana (Med). ! A partir da extremidade superior da caixa, estende-se uma linha até o valor adjacente superior (VAS), valor da maior observação que esteja a uma distância inferior a uma vez e meia o tamanho da caixa (1,5*(Q3-Q1)) de Q3. ! O mesmo procedimento é adotado abaixo de Q1, tomando como valor adjacente inferior (VAI) a menor observação que esteja a uma distância inferior a uma vez e meia o tamanho da caixa. ! As observações afastadas da caixa por mais de 1,5*(Q3-Q1) são representadas por pontos e consideradas pontos discrepantes. 1ª lista de exercícios 1. Os dados apresentados na tabela a seguir constituem uma amostra obtida num estudo sobre incidência de problemas no cotovelo entre jogadores de tênis. Tabela - Dados de 20 membros de diversos clubes de tênis de Boston, EUA, que tiveram problema no cotovelo pelo menos uma vez. 1993. No de vezes Tamanho+ Peso++ Material- Material-- Membro Idade Sexo** que teve o da da da armação do trançado (anos) problema raquete* raquete* da raquete* da raquete* 1 53 M 3 C L A C 2 57 M 3 M M AL N 3 43 M 1 C M G N 4 35 F 2 C L FV C 5 43 M 2 C L AL C 6 31 M 1 C L G C 7 36 M 1 C M M C 8 36 F 1 M L AL C 9 33 F 1 C M M N 10 55 M 1 G L AL N 11 35 F 1 M L AL C 12 44 F 3 C L AL N 13 45 F 8 C L FV N 14 47 F 2 M L O N 15 40 F 1 C L AL C 16 41 F 1 C L M N 17 40 F 8 C L O C 18 40 F 3 M L AL N 19 47 F 1 C L M N 20 55 M 8 C M AL N Fonte: Rosner, B. Fundamentals of biostatistics. 4.ed. Duxbury Press, 1995. 682p. (Adaptação). * Raquete usada correntemente. -M = Madeira. AL = Alumínio. + C = Convencional. FV = Fibra de vidro. M = Médio. G = Grafite. G = Grande. A = Aço. C= Composto. 34 ++ L = Leve. O = Outros. M = Médio. P = Pesado. -- N = Nylon. C= Corda. a) Classifique as variáveis observadas em qualitativas (nominais ou ordinais) ou quantitativas (discretas ou contínuas); b) Construa uma tabela de distribuição de freqüênciaspara os tamanhos das raquetes utilizadas. c) Represente a tabela obtida no item ‘b’ por meio de um gráfico de colunas e de um gráfico de setores; 2. Para determinar as preferências de consumo na refeição principal, foi elaborado um estudo em indivíduos de ambos os sexos na cidade de Itajubá. A tabela seguinte resume os resultados obtidos: Tipo de refeição Sexo Saladas Carnes Massas Masculino 12 41 27 Feminino 35 15 30 a) Construa uma tabela com as freqüências relativas para cada sexo; b) Represente os dados através de um gráfico de colunas; c) Com base nos resultados obtidos nos itens anteriores, compare as preferências de consumo de homens e mulheres. 3. A taxa de mortalidade infantil corresponde ao número médio de mortes, dentre 1000 crianças nascidas vivas, antes de completarem um ano de vida. Os dados abaixo representam a Taxa de mortalidade infantil dos municípios da Microrregião Oeste Catarinense (1982) e foram extraídos da publicação Municípios Catarinenses - Dados Básicos, 1987, GAPLAN - SC, que utiliza dados levantados pelo IBGE. 32,3 62,2 10,3 22,0 13,1 9,9 18,3 33,0 20,0 22,7 27,2 11,9 36,4 23,5 18,0 22,6 20,3 38,3 32,9 29,9 29,7 39,2 25,4 19,6 28,9 18,4 27,3 21,7 23,7 13,9 23,8 15,7 17,0 36,3 a) Agrupe convenientemente esses dados em classes e apresente a tabela de distribuição de freqüências. b) Construa o histograma e o polígono de freqüências. c) Calcule as medidas de posição e dispersão vistas em aula para as taxas de mortalidade. 4. Em uma investigação dos fatores de risco para as doenças cardiovasculares, os níveis séricos de cotinina (produto metabólico da nicotina) foram registrados para um grupo de fumantes e um grupo de não fumantes, As distribuições de freqüências correspondentes são mostradas abaixo. 35 Nível de cotinina (mg/ml) Fumantes Não fumantes 0-13 78 3300 14-49 133 72 50-99 142 23 100-149 206 15 150-199 197 7 200-249 220 8 250-259 151 9 300-399 412 11 Total 1539 3445 a) É correto comparar as distribuições dos níveis de cotinina para fumantes e não fumantes, com base nas freqüências absolutas em cada intervalo? Por que? b) Caso sua resposta para o item “a” seja negativa, construa uma nova tabela, em que as distribuições dos níveis de cotinina para fumantes e não fumantes possam ser comparadas. c) Construa um gráfico com os polígono de freqüências para fumantes e não fumantes. d) Com base nos resultados obtidos nos itens “b” e “c”, o que você pode dizer sobre a distribuição dos níveis de cotinina registrados para cada grupo? e) Para todos os indivíduos nesse estudo, o status do fumo é auto-registrado. Você acha que algum dos indivíduos pode estar mal classificado? Por que? 5. Em uma pesquisa sobre a concentração de minerais no leite materno, foram coletados no período de 1984 a 1985, dados de 55 mães do Hospital Maternidade Odete Valadares em Belo Horizonte. As mães foram divididas em dois grupos, segundo o período de lactação: colostro e leite maduro.Os minerais considerados foram cálcio, cobre, magnésio e zinco. Os dados a seguir referem-se ao cálcio e ao zinco. Cálcio ( /g mLµ de leite) – Grupo colostro 113 145 163 163 167 181 221 225 231 241 254 256 275 296 303 311 312 313 323 325 334 344 372 375 437 Cálcio ( /g mLµ de leite) – Grupo maduro 159 175 181 188 200 206 213 214 217 231 238 238 242 244 256 259 260 263 264 275 36 277 279 281 293 303 314 344 394 Zinco ( /g mLµ de leite) – Grupo colostro 1,07 1,20 1,30 3,13 3,20 3,70 4,40 4,57 5,20 5,82 6,07 6,13 6,50 6,82 6,82 6,90 7,23 7,42 7,43 7,43 7,45 8,25 8,40 8,77 9,54 Zinco ( /g mLµ de leite) – Grupo maduro 0,52 0,60 0,78 0,86 1,08 1,23 1,28 1,31 1,40 1,55 1,55 1,60 1,92 2,15 2,27 2,40 2,41 2,52 2,57 2,60 2,63 2,92 3,02 3,05 3,57 3,88 5,50 7,38 Para as concentrações de cálcio e zinco em cada grupo: a) Calcule medidas de tendência central e de variabilidade, o coeficiente de variação e os quartis. Apresente essas estatísticas em uma tabela contendo inclusive o título. Comente os resultados. b) Construa boxplots e verifique a existência de outliers. c) Com base nos resultados dos itens anteriores, compare as concentrações dos minerais nos dois grupos. Exercícios de Bioestatística 1- O nível de colesterol no sangue é uma variável com distribuição Normal, de média µ desconhecida e desvio padrão mlmg 100/60=σ . a) Qual deve ser o valor de n para que apenas 10% das médias amostrais excedam a média populacional em 10 unidades ou mais? b) Teste a hipótese de que 260=µ , contra a alternativa de que 260>µ com base numa amostra de 50 pacientes, em que se observou uma média amostral 268=x . Utilize um nível de significância de 5%. c) Construa um intervalo com 95% de confiança (bilateral) para o nível médio populacional de colesterol. d) Qual deve ser o tamanho amostral para que um intervalo de 99% de confiança para µ tenha um comprimento de 30 unidades? 2- A fim de acelerar o tempo que um analgésico leva para penetrar na corrente sangüínea, um químico analista acrescentou certo componente à fórmula original, que acusava um tempo médio de 43 minutos. Em 36 observações com a nova fórmula, obteve-se um tempo médio de 42 minutos, com desvio padrão de 6 minutos. a) O que podemos concluir, ao nível de 5% de significância, sobre a eficiência do novo componente? b) Qual seria a resposta ao nível de 1%? c) Que tipo de erro pode ser cometido? d) Estime o tempo médio que o analgésico leva para penetrar na corrente sanguínea com um nível de 95% de confiança. 3- Entre milhares de casos de pneumonia não tratada com sulfa, a porcentagem que desenvolveu complicações foi de 10%. Com o intuito de saber se o emprego da sulfa diminuiria essa porcentagem, 120 casos de pneumonia foram tratados com sulfapiridina e destes, 6 apresentaram complicações. C A P Í T U L O 7 ANÁLISE EXPLORATÓRIA DE DADOS AMOSTRAIS 277 EXERCÍCIOS PROPOSTOS P7.1) Um erro grosseiro, mas (infelizmente) bastante comum A partir dos dados 1 2 nx , x ,..., x , calcula-se a variância da variável X pela expressão = = ⎛ ⎞ ⎜ ⎟⎝ ⎠− = − ∑ ∑ 2n in 2 i 1 i 2 i 1 x x ns n 1 Então, se 1 2 3 4 5n 5, x 3, x 5, x 0, x 2, x 6! ! ! ! ! ! , temos: 5 2 2 2 2 2 2 i i 1 x 3 5 0 2 6 74 ! ! � � � � !© Logo, − − = = = − 2 74 7474 74 5 5s 14,8 5 1 4 a) O que está errado nesse cálculo? b) Qual a solução correta? P7.2) Combinando duas amostras Foram coletados os dados relativos a uma determinada variável para duas amostras distintas. Apresen- tam-se a seguir, para cada uma delas, os resultados obtidos quanto a: tamanho da amostra, média e desvio padrão. Amostra No de Obs. Média Desvio Padrão 1 5 7,4 6,309 2 4 11,5 9,983 a) Considerando agora a amostra combinada, ou seja, a amostra composta por todas as nove observa- ções, qual o valor da sua média? b) Qual o seu desvio padrão? P7.3) Atualização da mediana Temos um conjunto de dados com 11 observações já devidamente ordenadas: ( ) ( ) ( ) <<< < (11)1 2 3 x x x ... x . Quais das seguintes afi rmações estão corretas e quais estão erradas? Por quê? a) A mediana desses dados é � 6Q2 x! . b) Suponha que foi eliminada desse conjunto de dados original a maior observação x(11). Então a nova mediana é agora � � � 1 101 x x .2! � c) Suponha que foi adicionada ao conjunto de dados original mais uma observação, de modo que ele passou a ter 12 observações. Então a diferença entre o maior valor possível da nova mediana e o menor valor possível da nova mediana é � � � 7 51 x x2! � . book.indb 277book.indb 277 07/08/2012 09:54:3007/08/2012 09:54:30