Prévia do material em texto
UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA Apostila de Introdução à Estatística Professora Ângela Mello Coelho Índice 1. Apresentação......................................................................................................................................... 1 2. Introdução............................................................................................................................................. 2 2.1. Origens da Estatística e da Probabilidade.................................................................................... 2 2.2. História da Estatística no Brasil..................................................................................................... 2 2.3. Principais áreas de Aplicação da Estatística.................................................................................. 4 2.4. Papel da Estatística na Pesquisa Científica................................................................................... 6 2.5. A Ética na Estatística..................................................................................................................... 7 2.6. Definição....................................................................................................................................... 7 2.7. Terminologia Básica...................................................................................................................... 8 2.8. Exercícios...................................................................................................................................... 10 3. Estatística Descritiva.............................................................................................................................. 11 3.1. Variáveis e Dados.......................................................................................................................... 11 3.2. Distribuição de Frequência – Tabelas e Gráficos.......................................................................... 13 3.2.1. Tabelas de Frequência para Variáveis Qualitativas....................................................... 14 3.2.1.1. Arredondamento.............................................................................................. 15 3.2.1.2. Formatação de Tabelas (normas ABNT)........................................................... 16 3.2.2. Gráficos para Variáveis Qualitativas.............................................................................. 16 3.2.3. Tabelas de Frequência para Variáveis Quantitativas.....................................................20 3.2.4. Gráficos para Variáveis Quantitativas........................................................................... 23 3.2.5. Frequência Acumulada.................................................................................................. 30 3.2.6. Polígonos de Frequência............................................................................................... 32 3.2.7. Tabelas e Gráficos Bidimensionais................................................................................ 38 3.2.7.1. Tabela de Dupla Entrada.................................................................................. 38 3.2.7.2. Gráfico de Dispersão Bidimensional................................................................. 40 3.2.7.3. Gráficos de Linha.............................................................................................. 43 3.3. Exercícios...................................................................................................................................... 45 3.4. Medidas Descritivas...................................................................................................................... 48 3.4.1. Medidas de Tendência Central...................................................................................... 49 3.4.2. Simetria......................................................................................................................... 53 3.4.3. Exercícios....................................................................................................................... 56 3.4.4. Medidas de Dispersão................................................................................................... 57 3.4.5. Amplitude Variância, Desvio Padrão e Coeficiente de Variação................................... 57 3.4.6. Exercícios....................................................................................................................... 62 3.4.7. Quantis.......................................................................................................................... 62 3.4.8. Resumo dos Cinco Números..........................................................................................65 3.4.9. Valores atípicos............................................................................................................. 66 3.4.10. Box-Plot......................................................................................................................... 67 3.4.11. Exercícios....................................................................................................................... 71 4. Exercícios Avaliativos Sobre Estatística Descritiva.................................................................................72 5. Probabilidade........................................................................................................................................ 78 5.1. Experimentos Aleatórios e Determinísticos................................................................................. 78 5.2. Espaço Amostral........................................................................................................................... 79 5.3. Evento........................................................................................................................................... 79 5.4. Teoria dos Conjuntos.................................................................................................................... 80 5.4.1. Operações entre Eventos.............................................................................................. 80 5.5. Exercícios...................................................................................................................................... 81 5.6. Definições de Probabilidade......................................................................................................... 84 5.6.1. Definição Frequentista de Probabilidade...................................................................... 84 5.6.2. Definição Axiomática de Probabilidade........................................................................ 85 5.6.3. Espaço Amostral Finito.................................................................................................. 85 5.6.4. Definição Clássica de Probabilidade.............................................................................. 86 5.7. Propriedades................................................................................................................................ 88 5.8. Probabilidade Condicional............................................................................................................ 89 5.9. Teoremas...................................................................................................................................... 91 5.9.1. Teorema da Probabilidade Total................................................................................... 91 5.9.2. Teorema de Bayes......................................................................................................... 93 5.10. Exercícios............................................................................................................................94 6. Variáveis Aleatórias............................................................................................................................... 101 6.1. Exercícios...................................................................................................................................... 103 6.2. Variáveis Aleatórias Discretas...................................................................................................... 104 6.2.1. Distribuição de Probabilidade de Variáveis Aleatórias Discretas.................................. 104 6.2.2. Função de Distribuição de Probabilidade...................................................................... 106 6.2.3. Medidas de Resumo para Variáveis Aleatórias Discretas.............................................. 108 6.2.3.1. O Valor Esperado de uma Variável Aleatória Discreta..................................... 108 6.2.3.2. A Variância de uma Variável Aleatória............................................................. 111 6.2.4. Algumas Distribuições de Probabilidade....................................................................... 112 6.2.4.1. A Distribuição de Bernoulli............................................................................... 112 6.2.4.2. A Distribuição Binomial.................................................................................... 112 6.2.4.3. A Distribuição de Poisson................................................................................. 114 6.2.5. Exercícios....................................................................................................................... 116 6.2.6. Variáveis Aleatórias Contínuas...................................................................................... 118 6.2.6.1. Distribuições de Probabilidade de uma Variável Aleatória Contínua............... 119 6.2.6.2. Medidas de Resumo para Variáveis Aleatórias Contínuas............................... 119 6.2.6.3. Distribuição Normal.......................................................................................... 120 6.2.6.4. Definição........................................................................................................... 120 6.2.6.5. Propriedades.................................................................................................... 121 6.2.6.6. Normal Padrão.................................................................................................. 122 6.2.7. Exercícios....................................................................................................................... 124 7. Exercícios Avaliativos sobre Probabilidade........................................................................................... 128 8. Amostragem.......................................................................................................................................... 131 8.1. Noções Básicas............................................................................................................................. 131 8.1.1. Terminologia Básica...................................................................................................... 131 8.2. Maneiras de Selecionar Amostras................................................................................................ 132 8.2.1. Amostragem Aleatória Simples..................................................................................... 132 8.2.2. Amostragem Sistemática...............................................................................................133 8.2.3. Amostragem Estratificada............................................................................................. 135 8.2.4. Amostragem por Conglomerado................................................................................... 136 8.2.5. Amostragem Viesada ou Tendenciosa.......................................................................... 138 9. Inferência Estatística............................................................................................................................. 139 9.1. Terminologia Básica...................................................................................................................... 139 9.2. Propriedades de um Estimador.................................................................................................... 141 9.3. Distribuição Amostral................................................................................................................... 142 9.3.1. Distribuição Amostral da Média.................................................................................... 142 9.3.2. Teorema Central do Limite............................................................................................ 143 9.3.3. Distribuição da Proporção Amostral............................................................................. 144 9.3.4. Exercícios Resolvidos..................................................................................................... 146 9.3.5. Exercícios ...................................................................................................................... 147 9.4. Estimação por Intervalo................................................................................................................ 149 9.4.1. Intervalo de Confiança para a Média............................................................................ 149 9.4.2. Intervalo de Confiança para a Proporção...................................................................... 153 9.4.3. Exercícios Resolvidos..................................................................................................... 154 9.4.4. Exercícios....................................................................................................................... 156 9.5. Testes de Hipóteses...................................................................................................................... 159 9.5.1. Introdução..................................................................................................................... 159 9.5.2. Hipóteses de Interesse.................................................................................................. 162 9.5.3. Metodologia.................................................................................................................. 163 9.5.3.1. Erros................................................................................................................. 164 9.5.3.2. Valor Crítico e Região Crítica............................................................................ 168 9.5.3.3. Estatística do Teste........................................................................................... 170 9.5.3.4. P-valor...............................................................................................................171 9.5.4. Um Exemplo.................................................................................................................. 172 9.5.5. Resumindo Testes de Hipóteses para a Média com �� Conhecido.............................. 173 9.5.6. Testes de Hipóteses para a Proporção.......................................................................... 174 9.5.7. Resumindo Testes de Hipóteses para a Proporção....................................................... 176 9.5.8. Testes de Hipóteses para a Média com �� Desconhecido............................................ 177 9.5.9. Resumindo Testes de Hipóteses para a Média com �� Desconhecido......................... 180 9.5.10. Exercícios Resolvidos..................................................................................................... 180 9.5.11. Exercícios....................................................................................................................... 183 9.6. Teste de Qui-Quadrado................................................................................................................188 9.6.1. Exercício Resolvido........................................................................................................ 193 9.6.2. Exercicios....................................................................................................................... 194 10. Exercícios Avaliativos sobre Inferência.................................................................................................. 196 11. Respostas dos Exercícios Propostos...................................................................................................... 198 11.1. Respostas dos Exercícios da Seção 2.8............................................................................... 198 11.2. Respostas dos Exercícios da Seção 3.3............................................................................... 198 11.3. Respostas dos Exercícios da Seção 3.4.3............................................................................ 202 11.4. Respostas dos Exercícios da Seção 3.4.6............................................................................ 203 11.5. Respostas dos Exercícios da Seção 3.4.11.......................................................................... 203 11.6. Respostas dos Exercícios da Seção 4.................................................................................. 205 11.7. Respostas dos Exercícios da Seção 5.5............................................................................... 208 11.8. Respostas dos Exercícios da Seção 5.10............................................................................. 210 11.9. Respostas dos Exercícios da Seção 6.1............................................................................... 211 11.10. Respostas dos Exercícios da Seção 6.2.5............................................................................ 211 11.11. Respostas dos Exercícios da Seção 6.2.7............................................................................ 212 11.12. Respostas dos Exercícios da Seção 7.................................................................................. 212 11.13. Respostas dos Exercícios da Seção 9.3.5............................................................................ 213 11.14. Respostas dos Exercícios da Seção 9.4.4............................................................................ 213 11.15. Respostas dos Exercícios da Seção 9.5.11.......................................................................... 214 11.16. Respostas dos Exercícios da Seção 9.6.2............................................................................ 216 11.17. Respostas dos Exercícios da Seção 10................................................................................ 217 12. Anexos................................................................................................................................................... 218 13. Referências ........................................................................................................................................... 221 1 1. Apresentação Essa apostila foi criada com o objetivo de auxiliar os alunos das disciplinas de letramento estatístico da UFJF, unindo a teoria necessária com exemplos, buscando um equilíbrio entre teoria e aplicabilidade para que alunos de todas as áreas possam utilizar o mesmo material para buscar um conhecimento introdutório em estatística. Para isto foram reunidas informações introdutórias sobre a estatística, a fim de situar a estatística no mundo real, além de informações sobre os pilares da estatística: Coleta de dados, estatística descritiva, probabilidade e inferência. O conteúdo dessa apostila é bastante amplo e superficial em muitos aspectos, boa parte da teoria matemática necessária para demonstrar os resultados será negligenciada, já que esta apostila visa alcançar alunos em início de curso e de diversas áreas do conhecimento, alunos estes que não teriam os pré-requisitos necessários para compreender a fundamentação teórica. 2 2. Introdução Primeiramente, precisamos situar a estatística no mundo real, para isso, falaremos um pouco sobre sua origem e história, comentando um pouco sobre a profissão e o papel da estatística na pesquisa científica. 2.1. Origens da Estatística e da Probabilidade A origem da estatística acompanha a origem das sociedades humanas de grande porte, já que nesses casos faz-se necessário algum tipo de organização de informações sobre a sociedade em questão. Segundo Poubel (2010) estudos estatísticos vêm sendo feitos desde muitos anos antes de Cristo, alguns dos trabalhos citados são: 5000 a.C. – registros egípcios de presos de guerra; 3000 a.C. – registros egípcios da falta de mão-de-obra relacionada a construção de pirâmides; 2238 a.C. – primeiro recenseamento chinês, com fins agrícolas e comerciais; Conforme pesquisas arqueológicas, os Maias (250 d.C. à 900 d.C.) (SILVA, 2019), Incas (100 a.C. à 1532 d.C.) (SOUZA, 2019) e Astecas (1325 d.C. à 1521 d.C.) (SILVA, 2020) também utilizaram registros estatísticos; Os romanos (753 a.C. à 476 d.C.) registravam os nascimentos e as mortes com fins bélicos, de taxação, e cobrança de impostos (SOUZA, 2020). Castro (1970, p. 13-15, apud SILVA JUNIOR, 2015, p. 20) Dividiu a história da Estatística em três grandes períodos (ignorando o período inicial – descrito acima), sendo eles: Primeiro Período (Desde o Regime Feudal até meados do século XVII) – Preparação de fatos, organização de registros sistemáticos com objetivo de taxação e coleta de impostos ou estratégia de guerras. Segundo Período (Meados do século XVII até meados do século XIX) – Preparações das teorias; a estatística foi instituída como disciplina autônoma. Houve um grande desenvolvimento na área de estatísticas descritivas e probabilidades. Terceiro Período (Iniciado em 1853 com a Reunião do Primeiro Congresso de Estatística até a atualidade) – Métodos estatísticos aplicados em diversos campos; aperfeiçoamento da ciência Estatística; grande intercâmbio de informações e ideias; desenvolvimento da computação, permitindo à estatística um salto de desenvolvimento e aplicações. 2.2. História da Estatística no Brasil Segundo Poubel (2010) os primeiros censos realizados no Brasil foram logo no início de 1800: 1800 – Carta régia pedindo informações censitárias ao vice-rei do Estado do Brasil; 1804 – Documento “Um recenseamento na capitania de Minas Gerais: Vila Rica, 1804” com o objetivo de fornecer informações para a arrecadação de impostos para Portugal durante os primeiros anos do século XIX; 1808 – Vinda de D. João VI em 1808, foram iniciados recenseamentos com fins bélicos; 1850 – Autorizada a realização do primeiro censo geral do país; 1854 – Aprovada a criação da Sociedade Estatística do Brasil; 3 1862 – Apresentado o relatório “Bases apresentadas para a organização da estatística geral do Império”; 1863 – Criação da cadeira de “economia Política, Estatística e Princípios de Direito Administrativo” na Escola Central; Criada a Diretoria Geral de Estatística (DGE), primeira instituição brasileira de estatística de caráter público e nacional; 1872 – Realização do primeiro censo geral, embora feito em meio a dificuldades, obteve bons resultados; 1879 – DGE deixa de existir, tendo produzido ao todo 6 relatórios, e passa a funcionar a Seção de Estatística do Ministério dos Negócios do Império; Senra (2009) descreve em detalhes o histórico das estatísticas brasileiras entre 1822 e 2002, podendo ser ressaltado que: 1889 – Proclamação da República; 1890 – DGE é restaurada e reformada; 1890 – É realizado o segundo censo geral, que em meio à confusão política e militar obteve péssimos resultados; 1900 – É realizado o terceiro censo geral, mesmo com a mudança na política e metodologiacensitária, também obteve péssimos resultados; 1906 – DGE é reformada; 1907 – Criado o Conselho Superior de Estatística; 1908 – Aprovado o decreto nº 1.850 que obriga “autoridades civis ou militares, associações, empresas, companhias, estabelecimentos industriais, comerciais e outros e os particulares” a prestarem informações que lhes fossem pedidas pela DGE; 1910 – Censo geral é planejado, porém suspenso; 1920 – Censo geral realizado e divulgado com sucesso; 1930 – Censo não realizado devido à instabilidade política; 1931 à 1936 – São propostas alterações à DGE, sendo que ela acabou sendo incorporada ao Instituto Nacional de Estatística (INE) em 1936 e constituído o Conselho Nacional de Estatística (CNE); 1938 – O INE se transforma em IBGE (Instituto Brasileiro de Geografia e Estatística); 1940 – Realizado o censo geral; 1950 – Realizado o censo geral; 1953 – Criada e instalada a Escola Brasileira de Estatística (EBE); 1954 – A EBE ganha um novo nome: Escola Nacional de Ciências Estatísticas – ENCE (Rio de Janeiro, RJ); 1960 – Realizado o censo geral (com inovações técnicas, trazendo problemas imediatos e ganhos futuros); 1967 – Criado o Grupo Executivo de Pesquisa Domiciliares, que logo daria corpo à Pesquisa Nacional por Amostragem de Domicílios – PNAD; 1968 – Formalizado o Plano Nacional de Estatísticas Básicas – BNEB; 1970 – Realizado e divulgado o censo geral: “Retrato Fiel do País” ou “Manancial de informações”; 4 Após o censo de 1970, o desenvolvimento de técnicas de amostragem, coleta de dados e da computação, além de críticas feitas pela imprensa, e outros, foram, aos poucos transformando o IBGE no instituto que conhecemos hoje. 2.3. Profissão de Estatístico A profissão de estatístico foi regulamentada em 1965 e a procura por esse tipo de profissional está atualmente em crescimento, segundo uma pesquisa feita pelo site CarrerCast.com que estudou os empregos com maiores níveis de satisfação pelos funcionários em 2021 nos Estados Unidos (CarrerCast, 2022) a profissão Estatístico ficou em terceira posição com salário médio anual de 92.270,00 dólares e expectativa de crescimento de 35%, e a primeira posição ficou com cientista de dados, uma profissão que combina os conhecimentos de um estatístico com um cientista da computação, com salário anual médio de 98.230,00 dólares e perspectiva de crescimento de 33%. Segundo o Conselho Regional de Estatística da 3ª Região (SP)(CONRE-3) (sem ano) as principais áreas de aplicação da Estatística são: Big data o Para: agrupar, selecionar, analisar a validade e melhor utilizar enormes quantidades de dados; o Onde: Em qualquer empresa, de qualquer segmento. Demografia; Antropologia; Sociologia o Para: recenseamento; desenvolvimento de modelos matemáticos, auxiliar no planejamento urbano... o Onde: IBGE, SEADE, CEM, Instituto Pólis, SBPPC, OAB, FGV, universidades... Marketing, Pesquisa de Opinião, Satisfação, Eleitoral, Endomarketing Recursos Humanos... o Para: pesquisar as chances de candidatos em época de eleição; tendência dos eleitores; qual marca de determinado produto é mais popular; qual modelo de carro, roupa, tipo de sorvete... deve ser lançado no mercado; qual o melhor lugar pra se colocar um produto na prateleira do mercado, visando uma maior venda; onde é melhor abrir uma franquia/loja; pesquisar satisfação dos funcionários/clientes... o Onde: Institutos de pesquisa de mercado, opinião, eleitoral, quaisquer tipos de empresa/indústria, agência de publicidade, comércio, serviços, entretenimento, ONGs... Economia; Seguro; Previdência... o Para: desenvolver produtos bancários que otimizem o lucro do banco e do cliente; seguro saúde que maximize os lucros da seguradora; analisar dados para detectar fraudes; entender e projetar resultados econômicos; modelar dados para prever o mercado de ações, minimizar riscos em aplicações, prever arrecadação de impostos, taxas e tributos com modelos que estudam seu comportamento através do tempo; avaliar o mercado de trabalho... o Onde: IPEA, FIPE, FGV, SEADE, órgãos governamentais, bancos, seguradoras, financeiras, universidades, indústrias, hospitais... Setor Público, Áreas Estratégicas o Para: analisar o trânsito e ajudar no planejamento estratégico da cidade; analisar o tráfego de ligações telefônicas pelas centrais, de cliques por segundo na internet, de tempo médio de um banho; analisar dados sobre poluição; números de raios que caem na cidade; 5 quantidade de chuva; analisar a eficiência de projetos públicos, satisfação da população com o governo/governantes; analisar dados de criminalidade; auxiliar na solução de problemas no judiciário; apoio na elaboração de leis... o Onde: Companhias de Tecnologia e Saneamento Ambiental, Sistema de Abastecimento de Água e Esgoto, Sistema de Distribuição de Energia Elétrica/Gás/Combustível, Petrobrás, universidades, institutos e centros de pesquisas... Saúde Pública e Medicina; Pesquisa Clínica; Biologia; Bioestatística; Psicologia; Psiquiatria o Para: analisar o comportamento de epidemias, doenças, cáries...; analisar milhões de células que um órgão tem milhares de genes de um ser humano; GENOMA; testar a eficácia de medicamentos, cosméticos, alimentos, previsão de acidentes...; ajudar a estabelecer níveis e padrões para testes clínicos e padrões/curvas que servirão como parâmetro de comparação... o Onde: ANVISA, outras instituições públicas, Instituto Pasteur, Adolpho Lutz, Instituto Butantã, Hospitais, universidades, institutos de pesquisas clínicas, empresas farmacêuticas, de cosméticos, alimentícias, ONGs... Universidades e Instituições de Pesquisas o Para: atuar como docente (praticamente todos os cursos universitários têm aulas de estatística em nível básico); pesquisar e desenvolver novas metodologias; interagir com pesquisadores do mundo todo; assessorar pesquisas de outras áreas... o Onde: todas as escolas, universidades, centros de pesquisas acadêmicas, centros de pesquisas diversas públicos ou privados... Mídia, Artes, Esportes, Literatura, Linguística... o Para: comparar o aproveitamento dos atletas, acompanhar o desempenho progressivo, modelar técnicas mais eficientes de treinamento, analisar estilos literários, de pintura, escultura, atribuição de obra ao autor, lexologia, analisar desempenho de diversos programas de televisão, rádio, jornais, revistas... o Onde: Indústrias de entretenimento em geral (cinema, rádio, TV, teatro...), meios de comunicação, universidades, centros de pesquisas, clubes desportivos, museus... Administração Pública/Privada, Mistas, Filantrópicas; Indústrias, Engenharia, Agronomia, Química, Geologia... o Para: auxiliar no combate de pragas na lavoura; desenvolvimento de produtos agrícolas; trabalhar com controle estatístico de processo; controle de qualidade; calibração de instrumentos; analisar dados geológicos; auxiliar no estudo de implantação de uma fábrica até a avaliação de necessidades de expansão industrial; pesquisa e desenvolvimento de técnicas, produtos e equipamentos; testes de produtos... o Onde: EMBRAPA, INMETRO, IPT, universidades, indústrias diversas, agrobusiness, empresas de serviços diversos, comércio, ONGs... Sendo assim, uma das grandes vantagens da profissão de estatístico, é que o profissional de estatística pode trabalhar em qualquer área do conhecimento, podendo utilizar os seus conhecimentos para conseguir trabalhar em qualquer ambiente que tenha vontade, desde que tenha a força de vontade para se especializar na área desejada e disponibilidade para buscar oportunidades onde elas existem, muitas vezes em grandes centros urbanos. 6 2.4. Papel da Estatística na Pesquisa Científica Para entender o papel e a importância da Estatística na pesquisa científica é necessário, primeiramente, entender o que vem a ser o Método Científico.Fonte: BLOG da Biblioteca Central da UFRGS, (JACOBSEN, 2016). Imagine que você acabou de chegar em casa e decidiu ligar seu laptop a fim de assistir a sua série favorita e relaxar um pouco (JACOBSEN, 2016), infelizmente, seu laptop não liga; nesse caso, você começa a formular hipóteses, por exemplo: Hipótese 1: a bateria descarregou e o cabo de energia não foi conectado corretamente. Ao verificar, você observa que o cabo de alimentação está plugado corretamente; rejeitando a primeira hipótese. Hipótese 2: Seu bairro está sem energia elétrica. Você se levanta e aperta o primeiro interruptor que aparece, observando que a lâmpada se acende, ou seja, sua casa tem energia. Segunda hipótese rejeitada. Mesmo sem saber o motivo pelo qual seu laptop não está ligando, você aplicou o método científico em sua vida cotidiana sem nem perceber. Uma pesquisa, pode ser dita como sendo a atividade realizada a fim de responder a uma pergunta (no caso do exemplo dado: por que meu laptop não liga?). A Pesquisa científica, busca respostas à determinada pergunta utilizando o método científico. Figura 1: Representação do Método Científico 7 Ao nos depararmos com uma pergunta, a ideia seria: primeiro buscar por informações já coletadas anteriormente que possam responder à mesma; caso ainda não seja conhecida a resposta, devemos formular hipóteses e em seguida buscar dados por meio de observação, amostragem ou experimentação, nessa parte de coleta de dados e informações, a estatística é fundamental. Para se fazer uma amostragem, ou experimento de forma correta, são necessários o auxílio e a participação de um estatístico; como disse Sir Ronald A. Fisher (1938, apud RATCLIFFE, 2018): “To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of.” “Consultar um estatístico após um experimento estar finalizado é frequentemente pedir para ele conduzir uma autópsia. Ele poderá, talvez, dizer do que o experimento morreu.” Assim como para analisar dados vindos de experimentação, amostragem ou estudos observacionais, também é necessário conhecimento estatístico, a fim de poder interpretar, inferir e concluir corretamente. 2.5. A Ética na Estatística A profissão de estatístico foi regulamentada em 1965 pela lei nº 4.739 e em 1976 foi aprovado o código de ética profissional do estatístico pelo Conselho Federal de Estatística (CONFE, sem data). Segundo o artigo 7º do Código de Ética “fere a ética profissional”: “assumir compromissos que excedam sua capacidade legal, técnica, financeira, moral e física; Aceitar, direta ou indiretamente, serviços técnicos de qualquer natureza, com prejuízo próprio, da classe ou de seus clientes; Interromper a prestação de serviços, sem justa causa e sem notificação ao cliente; assinar documentos elaborados por terceiros, resultantes de trabalhos técnicos, que não contaram com sua efetiva participação; assinar documentos que possam resultar no comprometimento da dignidade profissional da classe; cooperar, sob qualquer forma, em práticas que venham a prejudicar legítimos interesses de terceiros; exercer atividade profissional junto a empreendimentos de cunho duvidoso, ou a eles ligar seu nome; assumir compromissos de trabalho já desenvolvido ou abandonado por terceiros, sem antes consultar-lhe as causas que originaram a interrupção ou o abandono; deturpar intencionalmente a interpretação do conteúdo, explícito ou implícito, de documentos, obras doutrinárias, leis, acórdãos ou outros instrumentos de apoio técnico ao exercício da profissão, para iludir os seus clientes ou terceiros.” 2.6. Definição Mas afinal, o que vem a ser “Estatística”? Pode-se dizer, resumidamente, que a Estatística é a ciência que se ocupa da coleta, organização, descrição, análise e interpretação de dados; sendo que esses “dados” podem ser quaisquer tipos de informação obtidas nas mais diferentes áreas. Um dos objetivos principais da estatística é auxiliar na tomada de decisões. Toda a coleta e análise de informações, é feita com o intuito de se obter uma visão mais ampla de determinado problema, o que possibilita tomar decisões com base em fatos. 8 Todos nós tomamos decisões todos os dias, muitas dessas decisões são baseadas em análises estatísticas, mesmo que inconscientemente, como por exemplo: decidir se vai levar guarda-chuva ou não com base na probabilidade de chuva fornecida na previsão do tempo dada no jornal diário. Dada a importância e a ampla utilização da estatística é fundamental que todos tenhamos um conhecimento básico de conceitos estatísticos, a fim de compreender melhor as informações disponíveis nos meios de comunicação, para que todos tenhamos uma compreensão melhor do mundo em que vivemos. 2.7. Terminologia Básica São dadas abaixo algumas definições e exemplos de termos estatísticos que serão utilizados nessa apostila: População: o Definição: conjunto de elementos (unidades amostrais) que possuem uma característica em comum; o Exemplo: todos os habitantes de uma cidade; todas as lâmpadas produzidas por uma fábrica em determinado período de tempo; todo o sangue de determinada pessoa... Amostra: o Definição: Todo o subconjunto não vazio e com um número menor de elementos do que o conjunto definido como população; o Exemplo: é observada parte dos habitantes de uma cidade; são sorteadas 5% das lâmpadas produzidas por uma fábrica em determinado período de tempo; é retirado 5ml do sangue de determinada pessoa... Estatística Descritiva: conjunto de técnicas destinadas a descrever e resumir os dados; Probabilidade: teoria matemática utilizada para estudar a incerteza proveniente de fenômenos aleatórios; Inferência Estatística: conjunto de técnicas e metodologias que permitem a extrapolação relativa à uma população das informações obtidas de sua amostra. Note que na definição de amostra, se entende que qualquer subconjunto da população pode ser considerado como uma amostra, e a estatística descritiva, pode ser aplicada a qualquer amostra, com o intuito de obter informações que resumam essa amostra; porém, a inferência estatística não é indicada para ser utilizada em qualquer amostra, considere os seguintes casos retirados de Magalhães e Lima (2010): a. Para avaliar a eficácia de uma campanha de vacinação no Estado de São Paulo, 200 mães de recém- nascidos, durante o primeiro semestre de um dado ano e em uma dada maternidade em São Paulo, foram entrevistadas a respeito da última vez que vacinaram seus filhos. i. População de interesse: Crianças de 6 meses a 4 anos, 11 meses e 29 dias (considerando como exemplo a população alvo da campanha contra sarampo que ocorreu de 7 a 25 de outubro de 2019) ii. Amostra retirada: 200 mães de recém-nascidos de uma maternidade da cidade de São Paulo iii. Considerações: São considerados recém nascidos os bebês que tem 28 dias ou menos de vida, ou seja, resposta sobre a vacinação desses bebês não incluem a vacinação da campanha de interesse; não podemos considerar que as mães de recém nascidos terão filhos dentro da faixa etária da campanha (algumas provavelmente sim, outras não); as mães que foram amostradas não podem ser consideradas como representativas da cidade de São Paulo (cidade mais populosa do Brasil e extremamente diversificada), quanto mais representativas do Estado de São Paulo; levando apenas 9 essas considerações em conta, já fica claro que a inferência estatística não deve ser aplicada nesse caso; b. Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. i. População de interesse: Todo o sangue do paciente; ii. Amostra: porção de sangue retirada do paciente; iii. Considerações: O conhecimento médico do corpo humano indica que é razoável assumir que o sangue que corre pelo corpo de uma pessoa é homogêneo,ou seja, informações obtidas para parte desse sangue serão válidas para sua totalidade. Nesse caso, fazer inferência sobre o todo com base na amostra é indicado. Sempre que houver o interesse em conhecer alguma característica de determinada população deve-se fazer um estudo sobre as possíveis homogeneidades e heterogeneidades dessa população, no que diz respeito à característica de interesse; nesse ponto, é fundamental o auxílio de um estatístico. Muitos trabalhos são perdidos quando pesquisadores retiram uma amostra da população por conta própria, pois muitas vezes essa amostra não pode ser considerada como representativa da população, e por consequência a inferência estatística não pode ser utilizada, e o objetivo do estudo não é alcançado. Pode-se ter uma ideia da relação entre população, amostra e os métodos estatísticos, observando a figura 2 logo abaixo: Figura 2: Esquema visual relacionando população e amostra. Fonte: Magalhães e Lima, 2010 Nesta apostila serão vistos alguns dos métodos mais comuns de amostragem, porém não será visto a fundo como planejar uma amostragem, aqueles que tiverem interesse em conhecer melhor esse método importantíssimo de coleta de informações, podem iniciar a busca por mais informações em Bolfarine e Bussab (2005), por exemplo. Fica, no entanto, o aviso: ANTES DE INICIAR UM PROCESSO DE COLETA DE INFORMAÇÕES BUSQUE O AUXÍLIO DE UM ESTATÍSTICO. 10 2.8. Exercícios 1- [DEVORE, 2006] Diversas universidades e faculdades instituíram programas de Instrução Suplementar (SI), em que um monitor se encontra regularmente com um grupo de estudantes matriculados em um curso para promover discussões sobre o material desse curso e melhorar o domínio da disciplina. Suponha que os estudantes de um grande curso de estatística (o que mais poderia ser?) são aleatoriamente divididos em um grupo de tratamento que participará do SI e outro não. No final do período, é determinada a pontuação total de cada estudante no curso. a. As pontuações do grupo de SI são uma amostra da população existente? Caso contrário, qual seria uma amostra adequada? b. Qual você acha que é a vantagem de dividir aleatoriamente os estudantes em dois grupos em vez de deixar cada estudante escolher o grupo do qual participará? c. Por que os investigadores não colocaram todos os estudantes no grupo de tratamento? Nota: O artigo “Supplemental Instruction: An Effective Component of Student Affairs Programming” (J. of College Student Devel., 1997, p. 577-586) discute a análise de dados de diversos programas de SI. 2- [DEVORE, 2006] Em um famoso experimento executado em 1882, Michelson e Newcomb fizeram 66 observações do tempo levado pela luz para percorrer a distância entre dois locais em Washington, D.C. Algumas das medidas (codificadas de certa forma) foram 31, 23, 32, 36, -2, 26, 27 e 31. Por que essas medidas não são idênticas? 3- [DORIA FILHO, U., 1999] Foi feito um estudo para determinar a estatura média dos alunos de um colégio, que estavam distribuídos por quatro séries consecutivas. Foi selecionada uma amostra em que foram incluídos os primeiros 100 alunos que adentraram à escola num determinado dia. Pergunta-se: a amostra está adequada para a pesquisa em questão? Para as questões 4 e 5, escolha a alternativa correta: 4- [DANCEY et al., 2017] Quais são os benefícios do conhecimento de pesquisas anteriores em um campo particular de interesse? (a) Podemos ver como os outros lidaram com problemas similares de pesquisa. (b) Podemos ver o que outros pesquisadores sugeriram. (c) Poupa-nos de empreender uma pesquisa que pode ser supérflua. (d) Todas as alternativas anteriores. 5- [DANCEY et al., 2017] Como decidimos se existe uma sustentação para uma determinada hipótese de pesquisa? (a) Baseamo-nos em uma pesquisa prévia para testar uma nova hipótese de pesquisa. (b) Precisamos entrevistar outros pesquisadores para ver se concordam com a pesquisa. (c) Delineamos um estudo e, então, coletamos e analisamos os dados para testar a hipótese. (d) Verificamos se a hipótese de pesquisa faz sentido. 11 3. Estatística Descritiva Neste capítulo veremos como iniciar o tratamento de um conjunto de dados, como organizar a informação colhida, como resumi-la, e como apresentar o que foi encontrado. Utilizaremos, principalmente, tabelas, gráficos e medidas de resumo. Porém, antes de poder aplicar as técnicas de resumos aos dados, precisamos definir o que são dados e conhecer a sua natureza. 3.1. Variáveis e Dados Usualmente, ao fazer um levantamento de dados, as informações são inseridas em uma tabela (chamada de tabela de dados brutos), em que cada linha corresponde a uma observação ou dado e cada coluna corresponde a uma variável ou característica de interesse. Vejamos, por exemplo, a tabela 1 abaixo: Tabela 1: Informações de 1999 sobre 30 veículos novos em 1999. Veículo Preço ($) Comprimento (m) Motor (CV) Nacionalidade Geração Anos Asia Towner 9.440 3,36 40 Coreia do Sul 1 9 Audi A3 38.850 4,15 125 Alemanha 1 4 Chevrolet Astra 10.532 4,11 110 Brasil 2 5 Chevrolet Blazer 16.346 4,6 106 Brasil 1 5 Chevrolet Corsa 6.176 3,73 60 Brasil 2 6 Chevrolet Tigra 12.890 3,92 100 Espanha 1 6 Chevrolet Vectra 13.140 4,47 110 Brasil 2 7 Chrysler Neon 31.640 4,36 115 EUA 1 6 Dodge Dakota 11.630 4,98 121 Brasil 2 2 Fiat Fiorino 6.700 4,16 76 Brasil 2 22 Fiat Marea 12.923 4,39 127 Brasil 1 2 Fiat Uno Mille 5.257 3,64 57 Brasil 2 16 Fiat Palio 6.260 3,73 61 Brasil 1 4 Fiat Siena 7.780 4,1 61 Argentina 1 4 Ford Escort 10.767 4,2 115 Brasil 1 17 Ford Fiesta 6.316 3,83 52 Brasil 1 4 Ford Ka 5.680 3,62 54 Brasil 1 4 Ford Mondeo 33.718 4,56 130 Bélgica 1 7 Honda Civic 14.460 4,45 106 Brasil 6 3 Hyundai Accent 21.500 4,12 91 Coréia do Sul 2 6 Peugeot 106 13.840 3,68 50 França 1 9 Renault Clio 13.700 3,7 14 França 2 10 Toyota Corolla 15.520 4,39 116 Brasil 8 2 Toyota Perua 24.632 4,4 96 Brasil 8 1 VW Gol 6.340 3,81 54 Brasil 2 20 VW Golf 22.200 4,15 100 Áustria 4 26 VW Parati 9.300 4,08 69 Brasil 3 18 VW Polo 12.018 4,14 99 Alemanha 3 25 VW Santana 11.386 4,57 101 Brasil 2 16 VW Saveiro 7.742 4,38 88 Brasil 2 18 Fonte: Elaborada pela autora com base em Bussab e Moretin, 2004. 12 No caso da tabela 1, temos as seguintes variáveis: Veículo: marca do carro; Preço: o valor do carro, em dólares, em março de 1999; Comprimento: o comprimento do carro dado em metros; Motor: a potência do motor do carro dada em cavalos; Nacionalidade: o país em que o carro era fabricado em 1999, sendo que se era fabricado no Brasil e em outros foi considerado somente o Brasil, no caso de ser fabricado em mais de um país fora do Brasil, foi considerado o país que importava pro Brasil em 1999; Geração: a geração referente ao veículo produzido em 1999; Anos: tempo, em anos, que o veículo vinha sendo produzido. Pode-se verificar que cada linha representa observações feitas em um mesmo veículo. Por exemplo, na primeira linha temos as informações de que o carro Asia Towner custava 9.440,00 dólares em 1999, media 3,36 metros, tinha 40 cavalos de potência, era fabricado na Coréia do Sul e estava em sua primeira geração. Podemos observar, que embora a tabela 1 possua muitas informações, não é fácil ter uma visão geral apenas ao observá-la. Digamos que haja o interesse em saber a porcentagem de carros produzidos no Brasil, ou quantos carros custavam menos de 10.000,00 dólares. A fim de poder responder facilmente à essas perguntas, podemos utilizar técnicas de estatística descritiva e resumir as informações dadas pela tabela 1. Primeiramente, devemos prestar atenção no tipo de variável de interesse, parece razoável que o método para resumir informações como preço não possa ser utilizado para resumir as informações sobre nacionalidade, já que no caso de preço estamos falando de valores numéricos (quantidades)e no caso de nacionalidade as observações são nomes (qualidades). Sendo assim, o primeiro passo para descrever um conjunto de dados é classificar às variáveis de interesse quanto à sua natureza. Variáveis quantitativas: identificam uma característica mensurável e são descritas por dados discretos ou contínuos o Dados discretos: formam um conjunto finito ou enumerável de números. Resultam, normalmente, de contagem. Alguns exemplos podem ser vistos no quadro 1: Quadro 1: Exemplos de variáveis quantitativas discretas. Variável Dados Número de Filhos 0,1,2,... Doses de álcool / semana 0,1,2,... Atividade física / semana 0,1,2,... Fraturas sofridas 0,1,2,... Fonte: Elaborado pela autora. o Dados contínuos: Pertencem a um intervalo de números reais. Resultam, geralmente, de mensuração (possuem unidade de medida). Alguns exemplos podem ser vistos no quadro 2: 13 Quadro 2: Exemplos de variáveis quantitativas contínuas. Variável Dados Altura m Peso kg Temperatura corporal ⁰C Pressão Arterial mmHg Fonte: Elaborado pela autora. Variáveis qualitativas: Identificam uma qualidade não mensurável e são descritas por dados nominais ou ordinais o Dados nominais: Representam qualidades que não seguem uma ordem específica. Alguns exemplos podem ser vistos no quadro 3: Quadro 3: Exemplos de variáveis qualitativas nominais. Variável Dados Sexo Masculino / Feminino Naturalidade Cidade em que nasceu Cor da pele Branca / Negra / Parda / ... Doença Diabetes / Hipertensão Fonte: Elaborado pela autora. o Dados ordinais: Representam qualidades que seguem determinada ordem. Alguns exemplos podem ser vistos no quadro 4: Quadro 4: Exemplos de variáveis qualitativas ordinais. Variável Dados Escolaridade Fundamental / Média / Superior Faixa Etária Criança / Adolescente / ... Tolerância a dor Baixa / Razoável / Alta Estágio da doença Alzheimer 1,..,4 Fonte: Elaborado pela autora. Com a tabela de dados brutos em mãos, e com o conhecimento da natureza dos dados, pode-se dar início ao resumo dos mesmos. No caso da tabela 1 (página 11), utilizada como exemplo, temos os seguintes tipos de variáveis: Variáveis qualitativas nominais: Veículo e Nacionalidade; Variáveis qualitativas ordinais: Geração; Variáveis quantitativas discretas: Motor e Anos; Variáveis quantitativas contínuas: Preço e Comprimento. 3.2. Distribuição de Frequência – Tabelas e Gráficos Um dos maiores interesses do pesquisador ao construir um banco de dados é conhecer o comportamento das variáveis de interesse, e uma das maneiras mais comuns e intuitivas de observar determinado comportamento é construir tabelas de frequências e/ou gráficos. 14 3.2.1. Tabelas de Frequência para Variáveis Qualitativas Em uma tabela de frequência para variáveis qualitativas temos a seguinte configuração: A tabela é formada por 3 colunas; A primeira coluna é relativa à variável em questão, nas linhas são listadas as possíveis categorias dessa variável; A segunda coluna é relativa à frequência absoluta e deve conter em suas linhas os valores relativos à quantidade de vezes que determinada categoria foi observada (obtida por contagem); o �� representa a frequência da linha �; o � representa a frequência total. Na terceira coluna tem-se a frequência relativa que deve conter em suas linhas os valores que representam a quantidade de vezes que determinada categoria foi observada com relação ao número total de observações. o �� = ��� ou �� = ��� × 100% Tabela 2: Tabela de frequência da variável qualitativa nominal Nacionalidade. Nacionalidade Freq. Abs. Freq. Rel. (%) Alemanha 2 6,67% Argentina 1 3,33% Áustria 1 3,33% Bélgica 1 3,33% Brasil 19 63,33% Coréia do Sul 2 6,67% Espanha 1 3,33% EUA 1 3,33% França 2 6,67% Total 30 100% Fonte: Elaborada pela autora. Nota: A diferença entre soma de frequências relativas e seu respectivo total é relativa ao critério de arredondamento. Algumas observações que devem ser feitas com relação às tabelas de frequência de variáveis qualitativas nominais: As categorias da variável devem ser organizadas na primeira coluna, segundo a ordem alfabética A→Z, ou Z →A; A frequência relativa pode ser apresentada, ou não, em porcentagem. Usualmente é utilizada a porcentagem por ser uma maneira mais intuitiva de se observar parte do total, costuma ser mais “amigável” do que utilizar os valores decimais de zero a um; Ao conferir os dados da Tabela 2, pode-se notar que os valores das frequências relativas foram todos arredondados, se mantendo duas casas decimais. Ao somar os valores obtemos o total 99,99% e não o valor 100% que deveríamos ter encontrado. Isso ocorre por estarmos trabalhando com valores aproximados, e não exatos. Deve-se tomar muito cuidado com o arredondamento, a fim de não haverem erros acumulados no total. Uma variação de até 3 centésimos para mais ou para menos pode 15 ser explicada por arredondamento, uma variação maior que 3 centésimos dificilmente será devida a arredondamento, devendo indicar um ou mais erros na contagem. Pode-se notar que a tabela 2 (página 14) resume as informações de nacionalidade contidas na tabela 1 (página 11) sem nenhuma perda. Fica fácil de ver, na tabela 2, que dentre os veículos estudados e vendidos em 1999, a maioria era produzido no Brasil (63,33%), ou seja, apenas 36,67% dos veículos foram importados, dentre os importados, a maioria veio da Europa (23,33%), apenas 6,67% veio da Ásia e 6,67% do continente americano. Na tabela 3, abaixo, temos o resumo das informações sobre a geração do veículo, que apesar de possuir observações numéricas é considerada qualitativa ordinal, isso pois os valores não representam números, mas posições, a segunda geração de um veículo não acontece depois de um determinado número de anos, e sim quando o veículo passa por uma alteração significativa, buscando alcançar novos clientes, ou não perder clientes para outro modelo. Tabela 3: Tabela de frequência da variável qualitativa ordinal Geração. Geração Freq. Abs. Freq. Rel. (%) 1 13 43,33% 2 11 36,67% 3 2 6,67% 4 1 3,33% 5 0 0,00% 6 1 3,33% 7 0 0,00% 8 2 6,67% Total 30 100% Fonte: Elaborada pela autora. Novamente, pode-se observar que não há perda de informação na construção da tabela 3, existe um resumo que permite a observação de que a grande maioria dos veículos estavam na primeira ou segunda geração (80% do total), 10% dos veículos estavam na terceira ou quarta geração e os outros 10% na sexta ou oitava geração. 3.2.1.1. Arredondamento Considerando os exemplos estudados no item 3.2.1, considero importante fazer um pequeno item sobre arredondamento, que embora possa parecer um tópico que já deve ser conhecido por todos, anos como professora me levaram a perceber que existem ainda muitos alunos com dificuldade na hora de trabalhar com arredondamento. Em primeiro lugar, se estiver utilizando algum tipo de calculadora com memória, ou planilha eletrônica para realizar as contas, o arredondamento deve ser feito apenas no resultado final. Quanto antes o arredondamento for feito e quanto mais valores arredondados forem utilizados, maior o erro acumulado que será observado ao final. Para arredondar um valor, deve-se, primeiro, decidir com quantas casas decimais deseja-se trabalhar, deixo desde já a minha opinião pessoal que quando existem casas decimais diferentes de zero, deve-se trabalhar no mínimo com 2 casas decimais. Nos casos de decidirmos trabalhar com 2 casas decimais, a casa decimal que deve ser considerada para o arredondamento é a terceira casa decimal, se o valor observado na terceira casa 16 decimal for 5, 6, 7, 8 ou 9, deve-se somar 1 ao valor da segunda casa decimal; já se o valor da terceira casa decimal for igual a 0, 1, 2, 3 ou 4 não devemos alterar o valor da segunda casa decimal IBGE (1993). Vamos consideraro valor 5,264994 e supor que desejamos fazer os seguintes arredondamentos: Arredondar para 5 casas decimais: 5,264994, como o valor na sexta casa decimal é 4, teríamos o seguinte valor arredondado: 5,26499 (o valor na quinta casa decimal não sofre alteração); Arredondar para 4 casas decimais: 5,264994, como o valor na quinta casa decimal é 9, devemos somar 1 ao valor da quarta casa decimal, que também é 9, como 9 + 1 = 10, deve-se zerar a quarta casa decimal e somar um à terceira casa decimal, resultando em: 5,265; Arredondar para 2 casas decimais: 5,264994, como o valor na terceira casa decimal é 4, teríamos o seguinte valor arredondado: 5,26 (o valor na segunda casa decimal não sofre alteração). 3.2.1.2. Formatação de Tabelas (normas ABNT) Um outro ponto importante que deve ser levado em consideração ao ensinar a construir tabelas é falar sobre a formatação exigida pela Associação Brasileira de Normas Técnicas (ABNT), seguir às normas da ABNT é importante, pois essa associação visa normalizar os trabalhos técnicos de diversos setores, facilitando a compreensão e disseminação dos trabalhos científicos feitos no Brasil; esses trabalhos técnicos englobam, Trabalhos de Conclusão de Curso, Monografias, Dissertações, Teses, artigos... Além de tabelas, as normas da ABNT também dizem respeito à inclusão de figuras e quadros como elementos textuais. Vale a pena destacar que muitos pontos da formatação desses três elementos são semelhantes, por exemplo, todos devem apresentar título e fonte (como pode ser observado nas tabelas, quadros e figuras presentes nessa apostila); porém, existem também algumas diferenças, como: não devem haver linhas verticais externas nas tabelas, pode-se usar linhas verticais internas no cabeçalho ou no corpo da tabela em casos especiais (IBGE, 1993), as linhas horizontais são permitidas apenas no cabeçalho e no rodapé das tabelas; já no caso de quadros, todas as linhas e colunas devem estar demarcadas, ou seja, utilizam-se linhas verticais e horizontais delimitando todas as linhas e colunas do quadro. Quadros e tabelas não diferenciam apenas na formatação, a maior diferença entre essas duas ferramentas, é que no corpo de uma tabela, as informações de maior importância ou destaque, devem ser numéricas, já no corpo de um quadro, as informações mais relevantes e de maior destaque, são palavras. 3.2.2. Gráficos para Variáveis Qualitativas Existem diversas maneiras de representar dados graficamente, porém dois dos gráficos mais utilizados para apresentar dados provenientes de variáveis qualitativas são os gráficos de barras e os gráficos de setores (ou gráficos de pizza); estes são os dois tipos de gráficos que estudaremos aqui. Para construir um gráfico de barras, ou de pizza, primeiro deve-se ter as informações obtidas nas tabelas de frequência. Iremos perceber que as tabelas de frequência e os gráficos aqui estudados apresentam as mesmas informações, porém de maneiras diferentes. Os gráficos que serão apresentados nessa apostila podem ser feitos manualmente (sem grandes dificuldades) ou pela maioria dos softwares estatísticos e planilhas eletrônicas. Irei utilizar o software R (R Development Core Team, 2020) na elaboração de todos os gráficos que serão apresentados nesta apostila. 17 Consideremos a variável qualitativa nacionalidade, apresentada no item 3.1. (página 11), utilizando as informações apresentadas na tabela 2 (página 14), podemos montar o seguinte gráfico de barras: Figura 3: Gráfico de Barras para a variável qualitativa Nacionalidade. Fonte: Elaborada pela autora. Utilizando os valores apresentados pela tabela 3 (página 15) podemos construir o seguinte gráfico de barras para a variável Geração: 18 Figura 4:Gráfico de Barras para a Variável Qualitativa Geração. Fonte: Elaborada pela autora. Pode-se perceber: Que foram utilizadas as frequências absolutas na construção dos gráficos apresentados nas figuras 3 e 4, a frequência relativa poderia ter sido utilizada, a escolha de qual frequência utilizar depende da facilidade na interpretação e na amplitude das barras; Deve-se, SEMPRE, respeitar uma escala de grandeza, a fim de não construir um gráfico que leve o leitor a uma falsa impressão ou interpretação; Os eixos DEVEM ser nomeados, devendo ficar claro ao leitor qual a informação contida nele; Foram utilizadas legendas nas figuras 3 e 4, já que: os nomes poderiam ter ficado “espremidos” se colocados no eixo, e havia espaço livre na área de plotagem (devido à diferença entre as barras). Se as informações tivessem sido colocadas nos eixos não haveria a necessidade de legenda; Foram utilizadas cores distintas para barras distintas tanto na figura 3 quanto na 4, essa ferramenta pode ser utilizada quando for facilitar a leitura do gráfico, porém não é sempre necessária ou indicada. Outro tipo de gráfico que pode ser utilizado para variáveis qualitativas é o gráfico de pizza. Abaixo serão apresentados os gráficos de pizza para as variáveis Nacionalidade e Geração. 19 Figura 5: Gráfico de pizza para a variável Nacionalidade. Fonte: Elaborada pela autora. Figura 6:Gráfico de pizza para a variável Geração. Fonte: Elaborada pela autora. Os gráficos de pizza podem ser muito úteis quando se deseja evidenciar uma das qualidades. Por exemplo, na figura 5, podemos ver que a grande maioria dos veículos considerados, na pesquisa feita, foram fabricados nacionalmente, fica evidente que: o Brasil tem a maior fatia, França, Alemanha e Coréia do Sul têm fatias iguais, muito menores que a do Brasil, porém maiores do que a dos outros países. Já na figura 6 não é tão simples observar que a fatia relativa à primeira geração é maior que a fatia relativa à segunda geração, para 20 leitores menos atentos elas podem parecer iguais, esse erro não seria facilmente cometido ao se observar a figura 4, que contêm exatamente a mesma informação, só que em forma de barras. Na hora de escolher qual gráfico utilizar deve-se levar em consideração, não só a natureza dos dados, mas também a distribuição dos mesmos, no caso das variáveis Nacionalidade e Geração, eu escolheria o gráfico de PIZZA para a variável Nacionalidade, porém escolheria o gráfico de BARRAS para a variável Geração. Não por um gráfico estar errado e o outro correto, mas por acreditar que os dados podem ser vistos com mais facilidade em um formato do que no outro. 3.2.3. Tabelas de Frequência para Variáveis Quantitativas Existem duas possibilidades na construção de tabelas de frequências para variáveis quantitativas discretas, no caso de haverem poucas possibilidades de observações, a tabela segue os mesmos moldes das tabelas para variáveis qualitativas, em que cada possível observação será representada em uma linha. Isso aconteceria, se por acaso, houvéssemos classificado geração como sendo uma variável quantitativa discreta. Se, no entanto, houverem muitas observações possíveis, com nas variáveis Motor (14 à 130) e Anos (1 à 26) apresentadas na Tabela 1 (página 11) deve-se tratar a variável quantitativa discreta, como se fosse contínua, e trabalhar com intervalos ao invés de valores. Não existe uma maneira única de definir quantos intervalos devem ser utilizados, ou qual o tamanho que esses intervalos devem ter, o que é certo, é que se forem utilizados poucos intervalos pode-se perder muita informação, e se forem utilizados muitos intervalos, o objetivo de resumir os dados pode ficar prejudicado. O número máximo de intervalos que devem ser utilizados varia de livro pra livro, Magalhães e Lima (2010) limita um máximo de 10 intervalos, já Bussab e Morettin (2004) sugerem um limite máximo de 15 classes; no entanto, ambos indicam 5 como sendo o número mínimo de classes que devem ser utilizadas. A familiaridade do pesquisador com os dados é fundamental para a escolha do tamanho ideal das classes, no caso de nãose ter nenhuma ideia pré-concebida, pode-se tentar seguir os seguintes passos: No caso de haver um número grande de observações, ou uma grande distância entre as observações mínima e máxima, pode-se utilizar um número maior de classes (dentro de um máximo de 15); As classes devem ter tamanhos iguais (no caso de construir classes de tamanho diferente, devem ser tomados cuidados extras na construção das tabelas e gráficos, o que não será discutido nessa apostila); Intervalos subsequentes devem iniciar exatamente onde o anterior terminou, no entanto, intervalos diferentes não podem conter o mesmo valor: Para utilizar a linguagem especificada para a construção de tabelas segundo a ABNT, devemos seguir o que fica especificado em IBGE (1993), dessa forma os intervalos devem ser construídos como se segue: o Um intervalo que contém o valor � e não contém o valor , em que � < deve ser denotado como: � ⊢ (intervalo fechado em � e aberto em ); o Um intervalo que não contém o valor � e contém o valor , em que � < deve ser denotado como: � ⊣ (intervalo aberto em � e fechado em ) o Um intervalo que contém ambos os valores, � e , em que � < deve ser denotado como: � ⊢⊣ (intervalo fechado) 21 o As classes inicial e final devem (preferencialmente) ser fechadas à esquerda (inicial) e à direita (final), de maneira que ao se unir todas as classes em uma tabela de frequências, a classe final tenha começo, meio e fim. No caso da classe inicial iniciar antes do valor mínimo, ou da classe final finalizar após o valor máximo, vale a pena buscar uma simetria no valor extra, dividindo partes iguais para a classe inicial e final, a fim de não construir intervalos que possam levar informações enganosas a quem for ler o trabalho. Tabela 4: Tabela de frequência da variável quantitativa discreta Anos. Anos Freq. Abs. Freq. Rel. (%) 1 ⊢ 6 12 40% 6 ⊢ 11 9 30% 11 ⊢ 16 0 0% 16 ⊢ 21 6 20% 21 ⊢⊣ 26 3 10% Total 30 100% Fonte: Elaborada pela autora. As tabelas 4 (acima) e 5 (abaixo) trazem as frequências das variáveis Anos e Motor (respectivamente); pode- se notar que parte da informação é perdida, se olharmos a primeira linha da tabela 4, temos que 12 veículos vinham sendo fabricado a 5 ou menos anos, porém não sabemos ao certo quantos vinham sendo fabricados a 5 anos, ou a 1 ano, infelizmente, não existe uma maneira de resumir a informação sem sofrer alguma perda de informação em casos como os apresentados. Tabela 5: Tabela de frequência da variável quantitativa discreta Motor. Motor (Cavalos de potência) Freq. Abs. Freq. Rel. (%) 14 ⊢ 28,5 1 3,33% 28,5 ⊢ 43 1 3,33% 43 ⊢ 57,5 5 16,67% 57,5 ⊢ 72 4 13,33% 72 ⊢ 86,5 1 3,33% 86,5 ⊢ 101 6 20,00% 101 ⊢ 115,5 7 23,33% 115,5 ⊢⊣ 130 5 16,67% Total 30 100% Fonte: Elaborada pela autora. Nota: A diferença entre soma de frequências relativas e seu respectivo total é relativa ao critério de arredondamento. Utilizando as tabelas 4 e 5 podemos ter uma visão geral dos dados de potência do motor e tempo de fabricação dos veículos: A tabela 4 nos diz que a grande maioria dos carros vinham sendo fabricados a 10 anos ou menos (70%), sendo que 40% dos veículos vinham sendo fabricados a 5 anos ou menos (prestar atenção no intervalo 1 ⊢ 6 fechado em 1 e aberto em 6, isso quer dizer que carros que vinham sendo fabricados a 6 anos não são incluídos nesse intervalo! Devem ser incluídos no segundo intervalo 6 ⊢ 11 fechado em 6 e aberto em 11); 22 A tabela 4 também nos diz que apenas 10% dos carros dessa pesquisa vinham sendo produzidos a mais de 20 anos; A tabela 5 mostra que a maioria dos carros têm 87 CV de potência ou mais (60%) e apenas 6,67% dos veículos observados têm potência de 43 CV ou menos. Embora as tabelas 4 e 5 sejam relativas ao mesmo banco de dados uma possui 5 classes e a outra 8, isso acontece pois: No caso da variável Anos temos uma menor amplitude nos dados (25 anos de amplitude) são poucas informações (apenas 30 dados), escolhi 5 classes, pois a variável é discreta, são poucos dados e 25 é divisível por 5, dessa maneira é possível iniciar a primeira classe em 1 (menor observação) e finalizar a última classe em 26 (maior observação) mantendo o mesmo tamanho nas 5 classes e sem utilizar decimais; No caso da variável Motor temos uma maior amplitude nos dados (116 CV de amplitude), continuamos com as mesmas 30 observações, o que considero como pouco, não sendo necessário um número muito grande de classes, mas um número maior do que 5 (que é o mínimo). Escolhi 8 classes, pois a divisão por múltiplos de 2 costuma fornecer valores fáceis de se trabalhar (nesse caso ���� = 14,5). Sendo assim, novamente, ficou fácil de fazer classes do mesmo tamanho, iniciando a primeira no menor valor (14 CV) e finalizando a última no maior valor (130 CV). Tabela 6: Tabela de frequência da variável quantitativa contínua Preço. Preço (dólares) Freq. Abs. Freq. Rel. (%) 5.255 ⊢ 8.615 9 30,00% 8.615 ⊢ 11.975 6 20,00% 11.975 ⊢ 15.335 7 23,33% 15.335 ⊢ 18.695 2 6,67% 18.695 ⊢ 22.055 1 3,33% 22.055 ⊢ 25.415 2 6,67% 25.415 ⊢ 28.775 0 0,00% 28.775 ⊢ 32.135 1 3,33% 32.135 ⊢ 35.495 1 3,33% 35.395 ⊢⊣ 38.855 1 3,33% Total 30 100% Fonte: Elaborada pela autora. Nota: A diferença entre soma de frequências relativas e seu respectivo total é relativa ao critério de arredondamento. Tabela 7: Tabela de frequência da variável quantitativa contínua comprimento. Comprimento (metros) Freq. Abs. Freq. Rel. (%) 3,36 ⊢ 3,63 2 6,67% 3,63 ⊢ 3,90 7 23,33% 3,90 ⊢ 4,17 9 30,00% 4,17 ⊢ 4,44 6 20,00% 4,44 ⊢ 4,71 5 16,67% 4,71 ⊢⊣ 4,98 1 3,33% Total 30 100% Fonte: Elaborada pela autora. 23 As tabelas 6 e 7 (página 22) resumem as informações sobre o preço (em dólares) e o comprimento (em metros) dos veículos apresentados na tabela 1 (página 11). Novamente, pode-se notar que existe uma perda de informação, sabemos quantos veículos pertencem a cada classe, porém, não temos como saber quais os valores exatos dos preços ou comprimentos. Pode-se dizer, no entanto: 50% dos veículos avaliados custavam menos de 12.000,00 dólares, sendo que apenas 10% dos veículos analisados custavam 28.775,00 dólares ou mais; Já com relação aos comprimentos, aparentemente os carros se distribuem de maneira mais simétrica, 30% dos veículos medem entre 3,36m e 3,90m; 50% medem entre 3,90m e 4,44m; e 20% medem entre 4,44m e 4,98m. Assim como para as tabelas 4 e 5 (página 21), as tabelas 6 e 7 possuem números diferentes de classes, isso pois: Os dados de preços (tabela 6) tinham uma amplitude de 33.593 dólares, um número não muito amigável e bastante grande. Ao dividirmos esse valor por 10, temos 3.359,3 dólares. Pensei em 10 classes pois a divisão de qualquer valor por 10 é simples, e 10 é um número grande o suficiente de classes para fornecer uma ideia da distribuição dos dados. No entanto, fazer classes de tamanho exato de 3.359,3 iria acrescentar decimais e poderia deixar o leitor mais confuso, sendo assim, selecionei o tamanho de 3.360 para cada classe, visando produzir uma tabela mais simples e de fácil leitura. Utilizando o valor de 3.360 para cada uma das 10 classes eu fico com uma amplitude de 33.600 (7 dólares a mais do que a amplitude real). A fim de manter a tabela o mais simples e fiel possível, resolvi iniciar a primeira classe em 5.255 dólares (ao invés de em 5.257 dólares) e finalizei a última classe em 38.855 dólares ao invés de em 38.850 dólares. Esse ajuste não é obrigatório, porém, como a ideia da tabela é facilitar a compreensão dos dados permanecendo fiel aos mesmos, considero como sendo adequado. Já na tabela 7, a amplitude dos dados era de 1,62 m, valor pequeno e divisível por 6, sendo assim foram utilizadas 6 classes de tamanho 0,27 m. Nesse caso, não há problemas em usar decimais, já que os valores brutos são dados com 2 casas decimais, e foi possível manter os valores mínimo e máximooriginais. 3.2.4. Gráficos para Variáveis Quantitativas Assim como para as variáveis qualitativas, também existem diversas maneiras de representar dados e variáveis quantitativas graficamente. Dois gráficos muito comuns e muito utilizados são os histogramas e gráficos de dispersão; estes serão os gráficos que iremos estudar nesta seção. O histograma é um gráfico de barras específico e exclusivo para variáveis quantitativas, não podendo ser utilizado para variáveis qualitativas. Pode-se dizer que todo histograma é um gráfico de barras, mas nem todo gráfico de barras é um histograma. Como os gráficos de barras vistos anteriormente, os histogramas também são montados a partir da tabela de frequência da variável em questão. Consideremos a variável Anos, usando as informações apresentadas na tabela 4 (página 21) temos o seguinte histograma: 24 Figura 7: Histograma para a variável Anos, feito com base na tabela 4. Fonte: Elaborada pela autora. Pode-se perceber que as quebras do histograma apresentado na figura 7 não coincidem com os valores colocados na escala do eixo horizontal, o que pode dificultar a leitura e o entendimento da tabela, ao elaborar um histograma deve-se levar em consideração o posicionamento das barras e a facilidade na leitura das mesmas, utilizando o padrão do software R (R Development Core Team (2020)), utilizado na criação dessas figuras temos o seguinte histograma apresentado na figura 8 (próxima página): 25 Figura 8: Histograma para a variável Anos, feito usando o padrão do comando hist() do software R. Fonte: Elaborada pela autora. Comparando as figuras 7 e 8 podemos perceber que ambos usam a mesma amplitude (5 anos) para os intervalos de anos, porém, na figura 7 o primeiro intervalo se inicia em 1 ano e na figura 8 ele se inicia em 0 anos. Embora ambas as figuras apresentem histogramas corretos e feitos para o mesmo conjunto de dados, podemos perceber que eles possuem diferenças, a figura 7 pode ser menos “amigável” necessitando de mais atenção do leitor para ser bem compreendida e interpretada, mas apresentando os dados com menos perda de informação, já a figura 8 tem barras mais bem localizadas facilitando a leitura e interpretação dos dados, porém com maior perda de informação. Fica a pergunta: Qual dos dois gráficos deve ser utilizado para a apresentação dos dados? É a minha opinião que a figura mais indicada é aquela que permite uma visão geral dos dados de maneira simples e visualmente agradável, sendo assim, embora a figura 7 tenha menor perda de informação, eu diria que a figura 8 deveria ser a escolhida para apresentar visualmente os dados relativos à quantidade de anos que os veículos pesquisados vinham sendo fabricados. Alguns outros pontos que devem ser ressaltados com respeito aos histogramas: Note, que diferente dos gráficos de barras apresentados para variáveis qualitativas, as barras dos histogramas são coladas umas nas outras, isso deve sempre acontecer, já que devemos dar a ideia de continuidade aos dados; Utilizei colorações diferentes para as figuras 7 e 8, isso, pois quis destacar as diferenças em ambos os gráficos, porém as colunas (dentro de cada gráfico) mantém a mesma cor das colunas vizinhas (diferente dos gráficos de barras para variáveis qualitativas), isso deve sempre ser verdade; Como a minha intensão ao construir dois gráficos para a mesma variável foi comparar ambos os gráficos (um com o outro) mantive os mesmos limites em ambos os eixos; sempre que se desejar comparar gráficos deve-se utilizar os mesmos limites nos eixos a fim de evitar erros na interpretação dos leitores; e no caso de utilizar variáveis com alguma diferença (por exemplo comparar valores de 26 carros nacionais com carros importados) além de manter a igualdade nos limites dos eixos, deve-se utilizar a frequência relativa e não a absoluta; Assim como para os gráficos de barras, os eixos devem ser identificados e devem apresentar seus valores em uma escala indicada com clareza. Irei apresentar nas páginas seguintes os histogramas das outras variáveis pra as quais foram feitas as tabelas de frequência; comparando os histogramas construídos com base nas tabelas e aqueles construídos automaticamente pelo comando hist() do software R. 27 Figura 9: Histograma para a variável Motor, feito com base na tabela 5 (página 17). Fonte: Elaborada pela autora. Figura 10: Histograma para a variável Motor, feito usando o padrão do comando hist() do software R. Fonte: Elaborada pela autora. 28 Figura 11: Histograma para a variável Preço, feito com base na tabela 6 (página 18). Fonte: Elaborada pela autora Figura 12: Histograma para a variável Preço, feito usando o padrão do comando hist() do software R. Fonte: Elaborada pela autora. 29 Figura 13: Histograma para a variável Comprimento, feito com base na tabela 7 (página 18). Fonte: Elaborada pela autora. Figura 14: Histograma para a variável Comprimento, feito usando o padrão do comando hist() do software R. Fonte: Elaborada pela autora. 30 Em todos os casos, considero que os histogramas feitos com base nas tabelas de frequências são mais informativos, porém com a desvantagem de apresentarem dificuldades na sua visualização e interpretação (por consequência). Sendo assim, na minha opinião, os histogramas apresentados pelas figuras 8, 10, 12 e 14 deveriam ser os selecionados para apresentação dos dados, mesmo que eles tenham uma perda maior de informação. 3.2.5. Frequência Acumulada Pode ser útil adicionar uma coluna contendo a frequência acumulada nas tabelas de frequência para variáveis, tanto quantitativas quanto qualitativas. A coluna contendo a frequência acumulada deve ser adicionada apenas quando a informação for importante para a interpretação e compreensão dos dados. A frequência relativa acumulada pode ser definida como a proporção de elementos apresentando valor igual ou menor ao de determinada classe (somente quando as classes podem ser ordenadas; pode ser utilizada em tabelas de frequência para variáveis qualitativas ordinais, mas não para variáveis qualitativas nominais). A frequência relativa acumulada deve seguir o mesmo formato da frequência relativa (se essa for em formato decimal a acumulada também deverá ser apresentada no formato decimal, ou se for utilizado porcentagem na frequência relativa, como é o caso nessa apostila, a frequência relativa acumulada também deve ser apresentada em formato de porcentagem). ���� = �! � !"� Vou refazer as quatro tabelas apresentadas na seção acima, adicionando a nova coluna a fim de explicar melhor sua utilidade e construção: Tabela 8: Tabela de frequência da variável quantitativa discreta Anos, adicionando a frequência acumulada. Anos Freq. Abs. Freq. Rel. (%) Freq. Rel. Ac. (%) 1 ⊢ 6 12 40% 40% 6 ⊢ 11 9 30% 40% + 30% = 70% 11 ⊢ 16 0 0% 70% + 0 = 70% 16 ⊢ 21 6 20% 70% + 20% = 90% 21 ⊢⊣ 26 3 10% 90% + 10% = 100% Total 30 100% Fonte: Elaborada pela autora. A tabela 8 apresentada acima não apresenta nenhuma dificuldade no cálculo da frequência relativa acumulada, basta somar as frequências relativas das classes em questão com aquelas frequências relativas das classes anteriores a ela. Fica fácil de observar que 70% dos automóveis observados eram fabricados a 10 anos ou menos, apenas 30% dos automóveis vinham sendo fabricados a 16 anos ou mais. 31 Tabela 9: Tabela de frequência da variável quantitativa discreta Motor, adicionando a frequência acumulada. Motor (Cavalos de potência) Freq. Abs. Freq. Rel. (%) Freq. Rel. Ac. (%) 14 ⊢ 28,5 1 3,33% 1 30# = $, $$% 28,5 ⊢ 43 1 3,33% (1 + 1) 30# = 2 30# = (, ()% 43 ⊢ 57,5 5 16,67% (2 + 5) 30# = 7 30# = *$, $+% 57,5 ⊢ 72 4 13,33% (7 + 4) 30# = 11 30# = $(, ()% 72 ⊢ 86,5 1 3,33% (11 + 1) 30# = 12 30# = +,% 86,5 ⊢ 101 6 20,00% (12 + 6) 30# = 18 30# = (,% 101 ⊢ 115,57 23,33% (18 + 7) 30# = 25 30# = -$, $$% 115,5 ⊢⊣ 130 5 16,67% (25 + 5) 30# = 30 30# = .,,% Total 30 100% Fonte: Elaborada pela autora. Nota: A diferença entre soma de frequências relativas e seu respectivo total é relativa ao critério de arredondamento. Tabela 10: Tabela de frequência da variável quantitativa contínua Preço, adicionando a frequência acumulada. Preço (dólares) Freq. Abs. Freq. Rel. (%) Freq. Rel. Ac. (%) 5.255 ⊢ 8.615 9 30,00% 9 30# = $,% 8.615 ⊢ 11.975 6 20,00% (9 + 6) 30# = 15 30# = /,% 11.975 ⊢ 15.335 7 23,33% (15 + 7) 30# = 22 30# = )$, $$% 15.335 ⊢ 18.695 2 6,67% (22 + 2) 30# = 24 30# = -,% 18.695 ⊢ 22.055 1 3,33% (24 + 1) 30# = 25 30# = -$, $$% 22.055 ⊢ 25.415 2 6,67% (25 + 2) 30# = 27 30# = 0,% 25.415 ⊢ 28.775 0 0,00% (27 + 0) 30# = 27 30# = 0,% 28.775 ⊢ 32.135 1 3,33% (27 + 1) 30# = 28 30# = 0$, $$% 32.135 ⊢ 35.495 1 3,33% (28 + 1) 30# = 29 30# = 0(, ()% 35.395 ⊢⊣ 38.855 1 3,33% (29 + 1) 30# = 30 30# = .,,% Total 30 100% Fonte: Elaborada pela autora. Nota: A diferença entre soma de frequências relativas e seu respectivo total é relativa ao critério de arredondamento. As tabelas 9 e 10 (acima) apresentam uma situação um pouco diferente da tabela 8, já que devido ao arredondamento a soma direta das frequências relativas (como foi feito nas tabelas 8 e 11) resultaria em um valor diferente de 100%. Para solucionar esse problema, uma possível solução é calcular a frequência absoluta acumulada e a partir dela calcular a frequência relativa acumulada, como foi feito em ambas as tabelas (9 e 10). Dessa forma, chegamos à frequência acumulada de 100% na última classe (coisa que sempre deve ocorrer, assim como a frequência relativa total deve sempre ser 100%). Observando a frequência relativa acumulada 32 na tabela 10, fica fácil de ver que 50% dos veículos custavam menos que 11.975 dólares e apenas 10% dos veículos custavam 28.775 dólares ou mais. Tabela 11: Tabela de frequência da variável quantitativa contínua Comprimento, adicionando a frequência acumulada. Comprimento (metros) Freq. Abs. Freq. Rel. (%) Freq. Rel. Ac. (%) 3,36 ⊢ 3,63 2 6,67% 6,67% 3,63 ⊢ 3,90 7 23,33% 6,67% + 23,33% = 30% 3,90 ⊢ 4,17 9 30,00% 30% + 30% = 60% 4,17 ⊢ 4,44 6 20,00% 60% + 20% = 80% 4,44 ⊢ 4,71 5 16,67% 80% + 16,67% = 96,67% 4,71 ⊢⊣ 4,98 1 3,33% 96,67% + 3,33% = 100% Total 30 100% Fonte: Elaborada pela autora. A tabela 11 (acima) também não apresenta dificuldades no cálculo da frequência relativa acumulada, já que não apresenta problemas relativo ao arredondamento utilizado. 3.2.6. Polígonos de Frequência O gráfico denominado polígono de frequência pode ser utilizado para relacionar uma variável contínua com sua frequência relativa (ou absoluta), fornecendo informações muito semelhantes às apresentadas pelo histograma; como diferença, irá apresentar apenas os pontos centrais de cada classe e uma reta ligará esses pontos, sendo que o primeiro ponto deve ser proveniente de uma nova classe criada logo abaixo da menor classe e deve estar ligado ao valor zero e o último ponto deve ser proveniente de uma nova classe criada logo acima da maior classe e deve estar ligado ao valor zero. Os polígonos de frequência podem, também, relacionar uma variável contínua com sua frequência relativa acumulada, nesse caso, deve ser utilizado um ponto para relacionar o limite final de cada classe com a sua frequência relativa acumulada, de maneira que o primeiro ponto deve relacionar o valor mínimo com a frequência zero e o último ponto deverá relacionar o valor máximo com a frequência 100%. Vamos apresentar abaixo os gráficos de polígono de frequência (tanto acumulada como não acumulada) para as variáveis Anos, Motor, Preço e Comprimento. Iremos apresentar, primeiro, o gráfico de polígono de frequência para cada uma das 4 variáveis e em seguida o gráfico de polígono da frequência relativa acumulada para cada uma das 4 variáveis mencionadas. As figuras 15 e 16 (página 33) contém os polígonos de frequências para as variáveis Anos e Motor, esses dois polígonos foram construídos utilizando o histograma apresentado anteriormente nas figuras 7 e 9 (páginas 24 e 27), respectivamente. Utilizei as frequências absolutas, já que os histogramas utilizaram essa frequência. Pode-se notar que o polígono é formado por pontos posicionados de acordo com a frequência observada de determinada classe e seu valor central. Tendo início em um ponto anterior à menor classe e final em um ponto posterior à maior classe, mantendo a mesma distância observada entre os outros pontos. Pode ser feita uma exceção na distância entre os pontos em casos específicos, como, por exemplo, na figura 15, como a variável de interesse é número de anos em que o veículo vinha sendo fabricado, não fazia sentido utilizar um valor negativo, sendo assim, o valor inicial foi o zero, e não -1,5 que seria o valor anterior a 3,5 (ponto central da primeira classe), se fosse mantida a distância de 5 anos utilizada para os outros intervalos entre pontos. 33 Figura 15: Polígono de Frequência para a Variável Anos, baseado na tabela 8 (página 30). Fonte: Elaborada pela autora. Figura 16:Polígono de Frequência para a Variável Motor, baseado na tabela 9 (página 31). Fonte: Elaborada pela autora. Uma das possibilidades que os polígonos de frequência nos oferecem é comparar dois grupos distintos existentes dentro de uma mesma variável. Vejamos por exemplo, a figura 17, à seguir (página 34): 34 Figura 17: Polígono de Frequências para a comparação de veículos Nacionais e Importados, dentro da variável Anos. Fonte: Elaborada pela autora A figura 17 nos mostra que dentre os veículos nacionais é muito mais frequente encontrar veículos mais novos; já dentre os veículos internacionais podemos observar que a divisão das frequências entre carros com menos de 15 anos e mais de 15 anos é bem mais igualitária. No caso da comparação entre carros nacionais e internacionais dentro da variável ano, foi utilizada a frequência relativa (%) e não a absoluta, isso pois os 30 veículos observados se dividem em 11 importados e 19 nacionais, logo, utilizar a frequência absoluta poderia levar o leitor a erros de interpretação e a conclusões erradas, por consequência. Figura 18: Polígono de Frequência para a Variável Preço, baseado na tabela 10 (página 31). Fonte: Elaborada pela autora. 35 Figura 19: Polígono de Frequência para a Variável Comprimento, baseado na tabela 11 (página 32). Fonte: Elaborada pela autora. Já as figuras 18 e 19 foram construídas utilizando a frequência relativa em porcentagem, se vocês observarem as figuras 11 e 13 (páginas 28 e 29, respectivamente), poderão ver que as imagens se encaixariam, assim como as apresentadas nas figuras 15 e 16, mas os eixos verticais apresentam valores distintos, já que em um caso está sendo utilizada a frequência relativa e no outro a absoluta. Pessoalmente, eu prefiro os histogramas aos polígonos de frequência, a não ser em alguns casos específicos, como quando se deseja fazer uma comparação entre duas distribuições de uma mesma variável observada em dois grupos distintos (caso da figura 17, na página 34, por exemplo). As figuras 20, 21, 22 e 23 apresentam os polígonos de frequência acumuladas das variáveis Anos, Motor, Preço e Comprimento (respectivamente). Vou listar abaixo algumas informações que podemos tirar desses 4 gráficos: Primeira informação que é interessante de se notar é que todos os gráficos são crescentes, isso sempre deve acontecer ao construirmos esse tipo de gráfico, pela sua natureza, já que ele deve acumular frequências indo de 0 à 100%, sempre; Pode-se notar, também, que a forma dos gráficos, embora sempre crescente, pode variar bastante de variável para variável: o Variável anos: frequência acumula de maneira muito rápida de 1 a 11 anos, depois para e volta a acumular mais lentamente de 16 a 26 anos(figura 20); 36 Figura 20: Polígono de Frequência Acumulada para a Variável Anos, baseado na tabela 8 (página(26). Fonte: Elaborada pela autora. o Variável Motor: frequência acumula de maneira muito lenta até 43 CV de potência, continua acumulando de maneira lenta, mas nem tanto, até os 86,5 CV, depois dos 86,5 CV a frequência passa a acumular de maneira muito rápida, atingindo os 100% em 130 CV (figura 21); Figura 21: Polígono de Frequência Acumulada para a Variável Motor, baseado na tabela 9 (página 27). Fonte: Elaborada pela autora. 37 o Variável Preço: Comportamento praticamente inverso ao visto na variável Motor, a frequência acumula muito rapidamente entre 5.255 dólares e 15.335 dólares (alcançando 73,33%), depois acumula lentamente até alcançar 100% em 38.855 dólares (figura 22); Figura 22: Polígono de Frequência Acumulada para a Variável Preço, baseado na tabela 10 (página 27). Fonte: Elaborada pela autora. o Variável Comprimento: nesse caso podemos verificar uma acumulo bastante equilibrado, sendo menor nas classes inicial e final (figura 23). Figura 23: Polígono de Frequência Acumulada para a Variável Comprimento, baseado na tabela 11 (página 28). Fonte: Elaborada pela autora. 38 3.2.7. Tabelas e Gráficos Bidimensionais Foram apresentados até agora, tabelas e gráficos resumindo uma única variável por vez. É possível, utilizar tabelas e gráficos para representarem duas ou mais variáveis por vez, isso geralmente é feito quando existe o interesse em verificar se existem padrões de comportamento entre as variáveis, ou buscar possíveis relações entre elas. 3.2.7.1. Tabelas de Dupla Entrada Uma tabela muito útil e muito comum é a tabela de dupla entrada, ela permite estudar a relação entre duas variáveis qualitativas distintas, observadas em uma mesma população, com o intuito de verificar se essas variáveis possuem algum tipo de relação. Essas tabelas podem ser utilizadas como base para estudar, por exemplo, a independência ou não entre duas variáveis qualitativas, o que será estudado com mais cuidado nas seções sobre probabilidade e inferência estatística. Para montar uma tabela de dupla entrada, primeiro, é necessário selecionarmos as variáveis de interesse, no caso das variáveis apresentadas pela tabela 1 (página 11), podemos ter interesse em verificar se parece haver uma relação entre geração do veículo em 1999 e sua nacionalidade. Nesse caso, devo escolher uma variável para ser representada na primeira linha e uma para ser representada na primeira coluna: Tabela 12: Tabela de dupla entrada relacionando Nacionalidade e Geração. Nacionalidade Geração Total 1 2 3 4 6 8 Alemanha 1 0 1 0 0 0 2 Argentina 1 0 0 0 0 0 1 Áustria 0 0 0 1 0 0 1 Bélgica 1 0 0 0 0 0 1 Brasil 6 9 1 0 1 2 19 Coréia do Sul 1 1 0 0 0 0 2 Espanha 1 0 0 0 0 0 1 EUA 1 0 0 0 0 0 1 França 1 1 0 0 0 0 2 Total 13 11 2 1 1 2 30 Fonte: Elaborada pela autora. Esta tabela de dupla entrada (tabela 12) não parece muito informativa, isso se dá pois temos uma quantidade pequena de carros amostrados, temos apenas 1 carro nativo da Argentina, Áustria, Bélgica, Espanha e EUA, apenas 2 carros nativos da Coréia do Sul e da França, temos 19 dos 30 carros brasileiros, nesse caso, pode ser mais interessante fazer uma tabela comparando carros nacionais com carros importados: 39 Tabela 13: Tabela de dupla entrada relacionando carros nacionais e importados, quanto às suas gerações em 1999. Nacionalidade Geração Total 1 2 3 4 6 8 Nacional 6 9 1 0 1 2 19 Importado 7 2 1 1 0 0 11 Total 13 11 2 1 1 2 30 Fonte: Elaborada pela autora. A tabela 13 pode ter perda de informação quando comparada com a tabela 12, isso, pois traz informações mais resumidas, porém, é mais útil para a comparação dos carros nacionais e importados. No entanto, talvez facilite ainda mais se utilizarmos as frequências relativas (em porcentagem) como foi feito nas tabelas de frequência para uma única variável. Existem, no entanto, três possibilidades para a criação dessas tabelas (BUSSAB e MORETTIN, 2004): Trabalhar com a porcentagem com relação ao total geral; Trabalhar com a porcentagem com relação ao total de cada linha; Trabalhar com a porcentagem com relação ao total de cada coluna. Serão apresentadas abaixo as tabelas 14, 15 e 16 contendo cada uma das possibilidades de tabela de dupla entrada com proporção, espero que com esse exemplo possamos ver que as tabelas, não serão idênticas, e que dependendo da situação e das variáveis de interesse, haverá uma mais interessante, ou mais informativa, do que as outras. O nosso papel, é selecionar corretamente a tabela que mais se adequa a cada caso. Tabela 14: Tabela de dupla entrada relacionando nacionalidade com geração, utilizando a porcentagem com relação ao total geral. Nacionalidade Geração Total 1 2 3 4 6 8 Nacional 20% 30% 3,33% 0% 3,33% 6,67% 63,33% Importado 23,33% 6,67% 3,33% 3,33% 0% 0% 36,67% Total 43,33% 36,67% 6,67% 3,33% 3,33% 6,67% 100% Fonte: Elaborada pela autora. Nota: A diferença entre soma de frequências relativas e seu respectivo total é relativa ao critério de arredondamento. Tabela 15: Tabela de dupla entrada relacionando nacionalidade com geração, utilizando a porcentagem com relação ao total de cada linha. Nacionalidade Geração Total 1 2 3 4 6 8 Nacional 31,58% 47,37% 5,26% 0% 5,26% 10,53% 100% Importado 63,64% 18,18% 9,09% 9,09% 0% 0% 100% Total 43,33% 36,67% 6,67% 3,33% 3,33% 6,67% 100% Fonte: Elaborada pela autora. Nota: A diferença entre soma de frequências relativas e seu respectivo total é relativa ao critério de arredondamento. 40 Tabela 16: Tabela de dupla entrada relacionando nacionalidade com geração, utilizando a porcentagem com relação ao total de cada coluna. Nacionalidade Geração Total 1 2 3 4 6 8 Nacional 46,15% 81,82% 50% 0% 100% 100% 63,33% Importado 53,85% 18,18% 50% 100% 0% 0% 36,67% Total 100% 100% 100% 100% 100% 100% 100% Fonte: Elaborada pela autora. Nota: A diferença entre soma de frequências relativas e seu respectivo total é relativa ao critério de arredondamento. Ao observar as tabelas 14,15 e 16, pode-se notar que elas apresentam valores bem diferentes umas das outras, logo, a primeira coisa que se deve fazer ao utilizar esse tipo de tabela, é especificar exatamente o que está sendo apresentado. No caso das duas variáveis que estão sendo utilizadas no exemplo, eu, particularmente acredito que a tabela 15 é a que mais ajuda na comparação, já que separa, primeiramente, os carros em nacionais e importados, e depois os divide de acordo com a geração, permitindo que estudemos a distribuição da geração dentro da nacionalidade. Podemos ver que os carros importados estão bastante concentrados entre a primeira e a segunda geração, com maior peso na primeira geração; já os carros nacionais estão mais dispersos, e centrados na segunda geração. A tabela 16 apresenta como os carros estão divididos entre nacionais e importados dentro de cada uma das gerações observadas, de maneira que as nacionalidades parecem equilibradas dentro das gerações 1 e 3, mas totalmente desequilibradas nas outras gerações, de maneira que a grande maioria dos carros de geração 2 são nacionais, todos os da geração 4 são internacionais e todos os das gerações 6 e 8 são nacionais. A tabela 14 talvez seja a menos simples de interpretar, por estar fazendo a comparação com o total geral e pelo fato de termos quase o dobro de carros nacionais quando comparados com os internacionais. Eu diria que essa seria a menos indicada nesse caso. E que a tabela 15 seria a mais indicada, já que pela distribuição das variáveis, parece mais congruente abrir gerações dentro de nacionalidade do que nacionalidade dentro de gerações (duas gerações com apenas 1 carro cada e duas gerações com apenas 2 carros cada (tabela 13)). 3.2.7.2. Gráfico de Dispersão BidimensionalUm gráfico que pode ser utilizado para representar variáveis quantitativas é o gráfico de dispersão, comumente utilizado quando existe o interesse em visualizar possíveis relações entre duas variáveis. Considerando os dados apresentados na tabela 1 (página 11), parece natural pensar que um veículo maior deve custar mais do que um veículo menor, podemos iniciar um estudo para verificar se esse pensamento é coerente fazendo um gráfico de dispersão entre as variáveis Preço e Comprimento: 41 Figura 24: Gráfico de dispersão para as variáveis Preço e Comprimento. Fonte: Elaborada pela autora. Antes de fazer a interpretação da figura 24, é importante destacar que: Deve-se SEMPRE nomear os eixos e utilizar uma escala consistente nos mesmos; O eixo horizontal (ou eixo x) deve representar a variável considerada independente (nesse caso, faz sentido pensar que o valor do veículo depende do comprimento do mesmo, sendo assim, Comprimento é considerada independente e Preço dependente), a variável dependente deve estar representada no eixo vertical (ou eixo y); Cada ponto no gráfico (cada asterisco vermelho) representa um veículo, se olharmos na tabela 1, poderemos ver que o veículo Audi A3 custava 38.850 e media 4,15 metros, como um exemplo esse veículo específico foi destacado na figura 24. Observando a figura 24, pode-se dizer que preço e comprimento parecem estar relacionados, porém, essa relação não é simples. Temos que veículos entre 3,25 metros e 4 metros (10 veículos, de acordo com a figura 24) tiveram uma variação de preços entre 5.000 dólares e 15.000 dólares, já os veículos entre 4 metros e 4,75 metros (19 veículos, de acordo com a figura 24) tiveram uma grande variação de preço, entre 5.000 e 40.000; sendo assim, acredito que os veículos com menos de 4 metros eram aqueles mais populares, e dentre os veículos com mais de 4 metros e menos de 4,75 metros haviam tanto veículos populares, como veículos de luxo. Nem sempre é fácil enxergar a relação (ou falta dela) entre duas variáveis. Existem alguns tipos de padrão que costumamos procurar quando construímos esse tipo de gráfico: 42 Figura 25: Padrões de relações lineares que podem ser encontrados em gráficos de dispersão. Fonte: Elaborada pela autora. Vamos dar uma olhada no gráfico de dispersão entre as variáveis Motor e Preço (figura 26): Figura 26: Gráfico de dispersão para as variáveis Preço e Motor. Fonte: Elaborada pela autora. Na figura 26 pode-se observar a relação entre as variáveis Preço e Motor, podemos perceber que nenhuma das tendências (ou padrões) apresentados na figura 25 parecem se encaixar aos dados apresentados; isso é muito normal, existem gráficos que apresentarão uma tendência clara e outros que serão mais difíceis de interpretar. No caso do gráfico apresentado na figura 26 pode-se observar uma tendência no valor do carro diminuir conforme o motor fica mais potente (no intervalo de 20 à 60 cavalos) e depois uma possível tendência de aumento do valor conforme aumenta a potência (no intervalo de 80 à 130 cavalos); nesse caso teríamos uma relação decrescente e, no mesmo gráfico, uma relação crescente; o que poderia ser explicado por uma parábola, ou uma equação de segundo grau. Muitas vezes um gráfico de dispersão pode fornecer indicativos de relações mais complexas do que uma simples relação linear, deve-se sempre analisar as possibilidades com muito cuidado e manter a mente aberta para possíveis relações. 43 3.2.7.3. Gráficos de Linha Gráfico com uma estrutura bastante similar ao gráfico de dispersão bidimensional, também, busca relacionar duas variáveis para auxiliar na compreensão da relação entre elas. A grande diferença é que nesse gráfico não pode haver mais de um valor possível no eixo y para cada valor do eixo x. Dessa forma podemos ligar os pontos adjacentes por uma linha e seguir um caminho que irá da esquerda para a direita, sem interrupções ou retornos. Muito útil quando queremos estudar a evolução de uma variável no tempo, como por exemplo, estudar padrões de temperatura no passar dos anos. Podemos ter uma ideia desse tipo de situação ao estudar os gráficos a seguir (figuras 27, 28 e 29), mostrando a temperatura média mensal de janeiro de 1976 à dezembro de 1985 nas cidades de Cananéia e Ubatuba (litoral sul e litoral norte do Estado de São Paulo, respectivamente), esses dados foram obtidos em Bussab e Morettin (2004), páginas 487 e 488. Figura 27: Temperatura média na cidade de Cananéia de Janeiro de 1976 à Dezembro de 1985. Fonte: Elaborada pela autora É interessante plotar a temperatura mensal de acordo com o tempo, já que deixa bastante claro o efeito das estações do ano nessa temperatura, apesar da amplitude térmica ser baixa (esperado em uma cidade litorânea em um país tropical), é possível notar que em janeiro temos temperaturas médias altas, essas temperaturas caem durante o ano, até chegarem os meses centrais de junho e julho, e depois começam a subir novamente, alçando os patamares nos meses de dezembro e janeiro. Podemos notar a mesma sazonalidade observando a figura 28. 44 Figura 28: Temperatura média na cidade de Cananéia de Janeiro de 1976 à Dezembro de 1985. Fonte: Elaborada pela autora. Os dois gráficos (figuras 27 e 28), são semelhantes, mas não idênticos. E embora os eixos tenham sido construídos de maneira a seguirem a mesma escala e terem os mesmos limites, fica difícil de comparar as temperaturas médias de ambas as cidades, se esse for o interesse, pode ser melhor sobrepor um gráfico ao outro (figura 29). Figura 29: Temperatura média nas cidades de Cananéia e Ubatuba de Janeiro de 1976 à Dezembro de 1985. Fonte: Elaborada pela autora. 45 Olhando com cuidado, é possível notar que a Cidade de Cananéia apresentou (exceto em 1983) médias de temperaturas mais baixas no período de inverno (meio do ano), o que era de se esperar, já que Cananéia faz fronteira com Paraná e Ubatuba com o Rio de Janeiro. Mas, as temperaturas médias no período de verão não parecem serem tão distintas, embora as temperaturas de Ubatuba, nessa época do ano, tendam a ser levemente superiores às de Cananéia (novamente, com exceção para o verão entre 1983 e 1984). 3.3. Exercícios 1- [DEVORE, 2006] Os transdutores de temperatura de um determinado tipo são enviados em lotes de 50. Uma amostra de 60 lotes foi selecionada e o número de transdutores fora das especificações em cada lote foi determinado, resultando nos dados a seguir: 2 1 2 4 0 1 3 2 0 5 3 3 1 3 2 4 7 0 2 3 0 4 2 1 3 1 1 3 4 1 2 3 2 2 8 4 5 1 3 1 5 0 2 3 2 1 0 6 4 2 1 6 0 3 3 3 6 1 2 3 a. Determine a tabela de frequências dos valores observados de 1 (número de transdutores fora das especificações em um lote); b. Que proporção de lotes na amostra possui no máximo cinco transdutores fora das especificações? Que proporção tem menos de cinco? Que proporção possui no mínimo cinco unidades fora das especificações? c. Desenhe um gráfico de barras dos dados, usando a frequência relativa na escala vertical e comente suas características. 2- [DEVORE, 2006] O artigo “Study on the Life Distribution of Microdrills” (J. of Engr. Manufacture, 2002:301- 305) relatou as observações a seguir, relacionadas em ordem crescente, à vida útil das brocas (número de furos que uma broca faz antes de quebrar), quando os furos são feitos em uma determinada liga de bronze. 11 14 20 23 31 36 39 44 47 50 59 61 65 67 68 71 74 76 78 79 81 84 85 89 91 93 96 99 101 104 105 105 112 118 123 136 139 141 148 158 161 168 184 206 248 263 289 322 388 513 a. Por que uma distribuição de frequência não poder ter por base os intervalos de classe [0 ; 50], [50 ; 100], [100 ; 150] e assim por diante? b. Construa uma tabela de frequência e um histograma dos dados usando limites de classes 0, 50, 100, ... e então faça comentários sobre as características interessantes; c.Que proporção das observações de vida útil dessa amostra é inferior a 100? Que proporção das observações é igual ou maior que 200? 3- [DEVORE, 2006] Considere os dados a seguir sobre os tipos de queixas de saúde (J = inflamação de articulações, F = fadiga, B = dor nas costas, M = fadiga muscular, C = tosse, N = irritação nasal/coriza, O = outros) feitas por agricultores. Obtenha as frequências e as frequências relativas das diversas categorias, desenhe um gráfico de barras e um de pizza. (Os dados são consistentes com as porcentagens fornecidas no artigo “Physiological Effects of Work Stress and Presticide Exposure in Tree Planting by British Columbia Silviculture Workers”, Ergonomics, 1993, p. 951-961.) O O N J C F B B F O J O O M O F F O O N O N J F J B O C 46 J O J J F N O B M O J M O B O F J O O B N C O O O M B F J O F N 4- [LARSON e FARBER, 2004] Quais são alguns dos benefícios obtidos quando se representa o conjunto de dados usando a distribuição de frequência? 5- [LARSON e FARBER, 2004] Cite algumas maneiras de representar graficamente dados quantitativos e qualitativos. 6- [LARSON e FARBER, 2004] Use um gráfico de dispersão para representar os dados da tabela, que são as horas trabalhadas e o salário por hora (em dólares) para uma amostra de 12 trabalhadores da produção. Descreva quaisquer tendências presentes. Horas Salário por hora Horas Salário por hora 33 13,16 40 13,65 37 9,98 33 12,05 34 10,79 28 10,54 40 11,71 45 10,33 35 11,80 37 11,57 33 11,51 28 10,17 7- [TRIOLA, 2013] A população de idades à época das posses de todos os presidentes dos EUA que eram profissionais das Forças Armadas é 62, 46, 68, 64, 57. Por que não faz sentido construir-se um histograma para esse conjunto de dados? 8- [MARTINEZ, 2015] Um nutricionista deseja comparar os efeitos de duas dietas, que ele identifica por dietas A e B. Um total de 100 pessoas é submetido à dieta A e outras 100 pessoas são submetidas à dieta B. O nutricionista percebeu que 46% das pessoas submetidas à dieta A tiveram redução de peso, e o mesmo aconteceu com 41% das pessoas submetidas à dieta B. Para uma apresentação em um evento científico, ele esboçou dois gráficos para esses dados, exibidos a seguir: Porém, somente um desses gráficos é adequado. Identifique o gráfico adequado (A ou B), e explique o erro cometido no gráfico que é inadequado. 9- [MARTINEZ, 2015] Um estudante está conduzindo um estudo que objetiva descrever os doadores de sangue de um serviço de hemoterapia. Ele utiliza uma amostra de 651 doadores, sendo 410 de sexo masculino e 241 de sexo feminino. Dentre os doadores de sexo masculino, ele encontrou 161 portadores de sangue tipo A, 56 portadores de sangue tipo B, 14 portadores de sangue tipo AB e 179 portadores de sangue tipo O. Dentre os doadores de sexo feminino, ele encontrou 81 portadores de sangue tipo A, 44 portadores de sangue tipo B, 13 portadores de sangue tipo AB e 103 portadores de sangue tipo O. Para 47 descrever esses dados, o estudante construiu o gráfico de barras abaixo. Neste gráfico, os homens são identificados por M, de masculino, e as mulheres por F, de feminino. Seu professor, no entanto, lhe disse que esse gráfico contém um erro bastante sério. a. Comente o que está errado nesse gráfico; b. Esboce novamente um gráfico de barras para esses dados, de modo que esse erro não seja novamente cometido. 10- [TRIOLA, 2013] Construa um gráfico de dispersão utilizando os dados abaixo, sendo que os dados de alcatrão em cigarros tamanho king devem estar na escala horizontal e os dados de monóxido de carbono (CO) nos mesmos cigarros devem estar na escala vertical. Determine se parece haver uma relação entre o alcatrão e o CO em cigarros tamanho king. Em caso afirmativo, descreva a relação. Tamanho King Marca Alcatrão Nicotina CO Austin 20 1,1 16 Basic 27 1,7 16 Bristol 27 1,7 16 Cardinal 20 1,1 16 Cavalier 20 1,1 16 Chesterfield 24 1,4 17 Cimarron 20 1,1 16 Class /a 23 1,4 15 Doral 20 1,0 16 GPC 22 1,2 14 Higway 20 1,1 16 Jacks 20 1,1 16 Marker 20 1,1 16 Monaco 20 1,1 16 Monarck 20 1,1 16 Old Gold 10 1,8 14 Pall Mall 24 1,6 16 48 Pilot 20 1,1 16 Prime 21 1,2 14 Pyramid 25 1,5 18 Raleigh Extra 23 1,3 15 Sebring 20 1,1 16 Summit 22 1,3 14 Sundance 20 1,1 16 Worth 20 1,1 16 11- [PAGANO e GAUVREAU, 2004] Declare se cada uma das seguintes observações é um exemplo de dados discretos ou contínuos: a. O número de suicídios nos Estados Unidos em um ano específico; b. A concentração de chumbo em uma amostra de água; c. A duração de tempo que um paciente de câncer sobrevive depois do diagnóstico; d. O número de abortos prévios que uma mãe grávida teve. 12- [TRIOLA, 2013] Ao usarmos histogramas para a comparação de dois conjuntos de dados, às vezes isso se torna difícil por termos que olhar um e outro histograma. Um histograma de frequência relativa lado a lado usa um formato que torna essa comparação muito mais fácil. Em lugar de frequências absolutas, devemos usar frequências relativas (porcentagens e proporções) para que as comparações não sejam distorcidas por tamanhos amostrais diferentes. Observe o histograma de frequências relativas lado a lado, mostrado a seguir e compare os dois conjuntos de dados. 3.4. Medidas Descritivas Tabelas e gráficos são maneiras bastante eficientes de se resumir conjuntos de dados, porém não são as únicas. Ao trabalhar com variáveis quantitativas, é natural buscar algumas quantidades que resumam essa variável. Nesta seção iremos estudar algumas das medidas mais utilizadas para resumir variáveis quantitativas, sendo elas discretas ou contínuas. 49 3.4.1. Medidas de Tendência Central Uma medida de tendência central fornece um valor em torno do qual os dados de determinada variável se distribuem. Existem diferentes medidas de tendência central, as mais comuns são: Média aritmética; Mediana; Moda. A medida de tendência central mais facilmente encontrada é a média aritmética, ou apenas média. A fim de encontrar a média de um conjunto de dados é necessária utilizar alguns símbolos e linguagem matemática, esses serão definidos abaixo: A média será, de agora em diante, denotada por: 1̅; Um conjunto de � dados, proveniente de uma variável quantitativa será denotado por: (1�, 13 , 14, … , 1�); Dessa maneira, pode-se definir a média como: 1̅ = 1� + 13 + ⋯ + 1�� = 1� 1� � �"� Em que ∑ 1���"� representa o somatório de 1� com � variando de 1 à �. A mediana (denotada por 89) é o valor que ocupa a posição central em um conjunto de dados ordenados, para encontrá-la deve-se, primeiro, ordenar os dados do menor para o maior, em seguida deve-se selecionar o valor central, no caso de um conjunto de dados de tamanho ímpar, basta buscar o valor que estiver na posição central; já para conjuntos de dados de tamanho par, deve-se calcular a média entre os dois valores centrais: 89 = : 1;�<�3 =, se � for ímpar1;�3= + 1;�3<�=2 , se � for par Em que: 1;GHIJ =, 1;GJ= e 1;GJ<�= representam os valores observados que se encontram, após a ordenação dos dados, nas posições �<�3 , �3 e �3 + 1, respectivamente. A moda (denotada por 8K) de um conjunto de dados é a observação que aparece com maior frequência. Um conjunto de dados pode ser: Amodal: Não possui moda, ou seja, todos os valores observados para a variável em questão aparecem com a mesma frequência; Unimodal: Existe apenas um valor dentre todos os observados que se sobressai, que apresenta maior frequência absoluta; Bimodal: Existem dois valores distintos que possuem frequências superiores aos outros valores do conjunto observado, ou seja, dois valores que se sobressaem aos outros observados; Multimodal: Existem três ou mais valores que se sobressaem dentro do conjunto de dados observados. 50 Exemplo 1 (MAGALHÃES E LIMA, 2005,p.94): Suponha que parafusos a serem utilizados em tomadas elétricas são embalados em caixas rotuladas como contendo 100 unidades. Em uma construção, 10 caixas de um lote tiveram o número de parafusos contados, fornecendo os valores 98, 102, 100, 100, 99 97, 96, 95, 99, 100. Para essas caixas: O número médio de parafusos será dado por: 1̅LMN = 98 + 102 + 100 + 100 + 99 + 97 + 96 + 95 + 99 + 10010 OP = 0-(., = 0-, ( parafusos A mediana será dada por: o Primeiro deve-se colocar os dados em ordem: Tabela 17: Número de parafusos por caixa ordenados do menor para o maior. Ordem 1� 13 14 1Q O/ O( 1R 1� 1S 1�T Número de Parafusos 95 96 97 98 99 99 100 100 100 102 Fonte: Elaborada pela autora. o Temos um conjunto par, com 10 observações, logo, deve-se calcular a média dos dois valores centrais: � = 10 ⇒ 89LMN = 1;�3= + 1;�3<�=2 = 1;�T3 = + 1;�T3 <�=2 = 1V + 1(V<�)2 = 1V + 1�2 = 99 + 992 = 99 WX = 00 parafusos. A moda será dada por: o Ao observar a tabela 17, pode-se notar que o valor 100 é o mais frequente, aparecendo 3 vezes, sendo assim, 100 parafusos é a moda observada. WY = .,, parafusos Quando existe o interesse em resumir, numericamente, um conjunto de dados, pode-se escolher uma das medidas mencionadas acima, ou até utilizá-las conjuntamente para auxiliar a análise e interpretação dos dados. No exemplo 1, por exemplo, pode-se notar que as três medidas de tendência central resultaram em valores semelhantes, de maneira que qualquer uma delas poderia ser utilizada para representar o conjunto de dados estudado. Porém, em determinadas situações, uma das medidas de resumo pode ser mais adequada do que outra: No caso de haver um ou mais dados que se afastam do geral das observações (valores discrepantes ou outliers – serão definidos e discutidos mais adiante) a média passa a ser uma medida de tendência central inadequada, sendo a mediana uma medida mais indicada; No caso de conjuntos multimodais ou amodais, a média ou a mediana são mais indicadas para representar a tendência central. 51 Exemplo 2: Considere o mesmo conjunto de dados do exemplo 1, porém considerando que uma das caixas tivesse, na realidade, 45 parafusos, ficando com o seguinte conjunto de dados: 98, 102, 100, 45, 99, 97, 96, 95, 99, 100. Nesse caso: O número médio de parafusos será dado por: 1̅ = 98 + 102 + 100 + 45 + 99 + 97 + 96 + 95 + 99 + 10010 OP = 0$.., = 0$, . parafusos A mediana será dada por: Tabela 18: Número de parafusos, considerando uma das caixas com 45 parafusos, por caixa ordenados do menor para o maior. Ordem 1� 13 14 1Q O/ O( 1R 1� 1S 1�T Número de Parafusos 45 95 96 97 98 99 99 100 100 102 Fonte: Elaborada pela autora. � = 10 ⇒ 89 = 1V + 1�2 = 98 + 992 = 98,5 WX = 0-, / parafusos. A moda será dada por: WY. = 00 parafusos; WY* = .,, parafusos Pode-se perceber que ao inserir um valor atípico no conjunto de dados utilizados: A média foi bastante influenciada, passando de 98,6 parafusos para 93,1 parafusos, tornando-se inadequada para representar o conjunto de dados; O conjunto passou a ser bimodal, o que também torna a moda inadequada para representar o conjunto de dados; A mediana foi a medida que menos sofreu influência do valor atípico, sendo a medida mais adequada para representar o conjunto de dados, nesse caso. Exemplo 3 (MAGALHÃES E LIMA, 2005, p.95): Considere, novamente, o conjunto de dados apresentado no exemplo 1, imagine que não haja interesse no �ú8[\K 9[ ]�\��^_K_ ]K\ ���1� (`), mas no custo total por caixa, nesse caso, teríamos que consideram uma nova variável, �^_aK aKa�b (c), definida como a soma dos custos dos parafusos (cada parafuso custa R$ �) e da embalagem (cada embalagem custa R$ [). Nesse caso: A média do custo total por caixa será dada por: 52 a̅ = 98� + [ + 102� + [ + 100� + [ + 100� + [ + 99� + [10 + + 97� + [ + 96� + [ + 95� + [ + 99� + [ + 100� + [10 = a̅ = 98� + 102� + 100� + 100� + 99� + 97� + 96� + 95� + 99� + 100� + 10[10 a̅ = 986� + 10[10 = 986�10 + 10[10 d̅ = 0-, (e + f = OP ∙ e + f reais A mediana será dada por: Tabela 19: Custo total por caixa ordenados do menor para o maior. Ordem a� a3 a4 aQ d/ d( aR a� aS a�T Custo Total 95�+ [ 96�+ [ 97�+ [ 98�+ [ 99�+ [ 99�+ [ 100�+ [ 100�+ [ 100�+ [ 102�+ [ Fonte: Elaborada pela autora. � = 10 ⇒ 89 = aV + a�2 = 99� + [ + 99� + [2 = 198� + 2[2 = 198�2 + 2[2 WX(h) = 00e + f = WX ∙ e + f reais. A moda será dada por: WY(h) = .,,e + f = WY ∙ e + f reais O exemplo 3 serve para mostrar como calcular medidas de tendência central para medidas indiretas (medidas obtidas através de equações), neste exemplo, temos o número de parafusos por caixa (medida direta obtida da contagem dos parafusos) e o custo total por caixa (medida indireta obtida através de uma equação). É extremamente importante saber trabalhar com medidas indiretas, já que elas fazem parte do nosso dia a dia, embora possamos não perceber. Por exemplo, ao pensar em construir sua casa própria, é necessário saber qual será a área a ser construída; embora trabalhemos com áreas com muita frequência, ela é uma medida indireta, obtida a partir das medidas diretas de comprimento e profundidade. Utilizando o exemplo 3, pode-se perceber que: A multiplicação de uma constante � fez com que que as novas medidas de tendência central se equivalessem às antigas multiplicadas por �; O acréscimo por uma quantidade [ teve o efeito de somar essa mesma quantidade às medidas de tendência central originalmente obtidas. 53 3.4.2. Simetria Um conjunto de dados é dito simétrico se os dados se distribuírem igualmente ao redor da média. É possível verificar a simetria de um conjunto de dados observando a sua distribuição (ao observar a tabela de frequência, ou histograma) ou comparando os valores da média e a mediana. Pode-se dizer que um conjunto de dados é simétrico quando a distribuição dos dados é equivalente à esquerda (ou abaixo) e à direita (ou acima) da média; ou quando os valores da média e mediana são equivalentes. Saber se um conjunto de dados é simétrico ou não auxilia na interpretação do mesmo e é de extrema importância se existe o interesse em fazer previsões ou inferências com base no conjunto de dados em questão. Figura 30: Histograma da variável Preço, contendo os valores da média e da mediana, conjunto de dados amodal. Fonte: Elaborada pela autora. A figura 30, acima, permite a visualização da dispersão da variável Preço, definida anteriormente (página 11), pode-se observar a assimetria dos dados, já que o comportamento dos dados à esquerda da média é bem diferente do comportamento dos dados à direita da média. Outro indicativo de assimetria dos dados é a diferença entre média (13.956 dólares) e a mediana (11.824 dólares). Já a figura 31, abaixo, apresenta a distribuição da variável Comprimento (também definida na página 11); nela pode-se observar uma simetria nos dados, já que o comportamento tanto à esquerda, quanto à direita da média são semelhantes, embora não sejam idênticos. Ao observarmos os valores da média (4,126 metros) e da mediana (4,145 metros) pode-se notar a semelhança entre eles, a decisão de usar uma ou a outra não traria perda ou ganho de informação. 54 Figura 31: Histograma da variável Comprimento, contendo os valores da média e da mediana; o conjunto de dados era multimodal (modas de 3,73 ; 4,15 e 4,39). Fonte: Elaborada pela autora São muito poucas as situações em que se encontra uma simetria perfeita em conjuntos de dados observados. Deve-se manter a mente aberta ao buscar verificar a ausência ou presença de simetria em um conjunto de dados, num geral, pode-se classificar um conjunto de dados de acordo com as três classificações abaixo: Figura 32: Histograma ilustrativo de conjuntos de dados com assimetria à direita (ou assimetria positiva), nessecaso a média e mediana dos dados simulados são dadas por 5,33 e 4,47, respectivamente. Fonte: Elaborada pela autora. 55 Figura 33: Histograma ilustrativo de conjuntos de dados simétricos, para esse conjunto de dados simulados os valores da média e da mediana são dados por 9,84 e 9,77, respectivamente. Fonte: Elaborada pela autora. Figura 34: Histograma ilustrativo de conjuntos de dados com assimetria à esquerda (ou assimetria negativa), para esse conjunto de dados simulados os valores da média e da mediana são dados por 13,70 e 14,44, respectivamente. Fonte: Elaborada pela autora 56 3.4.3. Exercícios 1- [DEVORE, 2006] A propagação de trincas por fadiga em diversas peças de aeronaves tem sido objeto de muitos estudos nos últimos anos. Os dados a seguir consistem dos tempos de propagação (horas de voo/10Q) para atingir um determinado tamanho de trinca em furos de fixadores propostos para uso em aeronaves militares (“Statistical Crack Propagation in Fastener Holes under Spectrum Loading”, J. Aircraft, 1983, p. 1028-1032): 0,736 0,863 0,865 0,913 0,915 0,937 0,983 1,007 1,011 1,064 1,109 1,132 1,140 1,153 1,256 1,394 a. Calcule e compare os valores da média e da mediana amostrais; b. Em quanto a maior observação da amostra pode ser diminuída sem afetar o valor da mediana? Nos exercícios 2 e 3, determine se a afirmativa é verdadeira ou falsa. Se for falsa, reescreva-a em sua forma verdadeira 2- [LARSON e FARBER, 2004] A mediana é a medida de tendência central mais provável de ser afetada por um valor atípico. 3- [LARSON e FARBER, 2004] Alguns conjuntos de dados quantitativos não têm uma mediana. Nos exercícios 4 e 5 faça o seguinte: a. Determine a média, a mediana e a moda dos dados, se possível. Se não for possível, explique o por que a medida de tendência central não pôde ser determinada; b. Qual é a medida de tendência central que melhor representa dos dados? Explique seu raciocínio. 4- [LARSON e FARBER, 2004] O tempo (em segundos) que uma amostra de sete carros esportivos leva para ir de zero a 60 milhas por hora: 3,7; 4,0; 4,8; 4,8; 4,8; 4,8; 5,1. (Fonte: Motor Trend) 5- [LARSON e FARBER, 2004] Os mais velozes (em milhas por hora) em uma amostra de sete carros esportivos: 187,3; 181,8; 180,0; 169,3; 162,2; 158,1; 155,7. (Fonte: Motor Trend) 6- [TRIOLA, 2013] Em que sentido a média, a mediana e a moda são medidas de tendência central? 7- [TRIOLA, 2013] Em um editorial, o Poughkeepsie Journal colocou esta afirmativa: “O preço mediano – o preço exatamente no meio entre o mais alto e o mais baixo - ...” A afirmativa descreve corretamente a mediana? Por que sim, ou por que não? 8- [TRIOLA, 2013] Obteve-se uma amostra aleatória simples de páginas do Merrian-Webster’s Collegiate Dictionary, 11ª Edição, com um total de 1460 páginas. A seguir, estão listados os números de palavras definidas em cada uma das 10 páginas amostradas, estime o número total de palavras definidas no dicionário, utilizando a média e a mediana. É provável que essa seja uma estimativa precisa do número de palavras na língua inglesa? 51 63 36 43 34 62 73 39 53 79 9- [MARTINEZ, 2015] A média do peso dos 100 alunos de uma determinada turma de alunos é 68,4 kg. Essa turma possui 25 homens e 75 mulheres. O peso médio das mulheres dessa turma é 62,6 kg. Qual é o peso médio dos homens dessa turma? 57 3.4.4. Medidas de Dispersão As medidas de tendência central fornecem uma ideia de em torno de qual valor os dados se distribuem, porém, não informam o quão espalhada é essa distribuição. As medidas de dispersão fornecem uma descrição da variabilidade de um conjunto de dados, fornecendo uma maneira de sabermos se os dados se encontram, em geral, próximos do valor de tendência central ou não. Nesta seção iremos estudar algumas das medidas de dispersão mais utilizadas, como: amplitude; quantis; variância; desvio padrão; e coeficiente de variação. 3.4.5. Amplitude, Variância, Desvio Padrão e Coeficiente de Variação A amplitude nada mais é do que a distância entre os valores máximo e mínimo do conjunto de dados, fornecendo uma ideia do espaçamento máximo entre duas observações de uma mesma variável: Os valores máximo e mínimo de um conjunto de dados serão denotados por: 1ijk e 1i��; A amplitude observada em um conjunto de dados é dada por: �8]b�a^9[ = 1ijk − 1i�� A amplitude tem as vantagens de ser de fácil cálculo, fácil compreensão e interpretação, porém ela tem a desvantagem de ser altamente influenciada por valores atípicos. A variância de um conjunto de dados tem por objetivo quantificar a variabilidade ao redor da média das observações. Como a fórmula para obter a variância observada inclui a média observada, existem dois cálculos possíveis: Quando nossos dados forem provenientes de um censo teremos o conhecimento da média populacional m, e poderemos calcular a variância populacional (n3), utilizando: n3 = 1� (1� − m)3� �"� Quando nossos dados forem provenientes de uma amostra teremos apenas o conhecimento da média amostral 1̅ e poderemos calcular apenas uma variância amostral (_3), utilizando: _3 = 1� − 1 (1� − 1̅)3� �"� A diferença entre os valores encontrados ao utilizar essas duas fórmulas diminui conforme o tamanho da amostra se aproxima do tamanho populacional. A variância possui um inconveniente: se as observações forem medidas em �8, a variância será dada em �83. A unidade da variância será, sempre, a unidade de medida das observações elevada ao quadrado. Ao invés de utilizar a variância, muitos preferem utilizar o desvio padrão, que nada mais é do que a raiz quadrada da variância, o que implica, que podemos ter duas maneiras de calcular o desvio padrão: O desvio padrão populacional será dado por: 58 n = on3 = p1� (1� − m)3� �"� O desvio padrão amostral será dado por: _ = o_3 = p 1� − 1 (1� − 1̅)3� �"� A grande vantagem do desvio padrão, com relação à variância, é que a sua unidade de medida é a mesma unidade de medida dos dados observados, o que facilita a sua interpretação. Outra medida de dispersão bastante utilizada é o coeficiente de variação, essa é uma medida muito interessante, pois ela faz uma relação entre a média e o desvio padrão dos dados observados, fornecendo uma medida de homogeneidade do conjunto de dados. O coeficiente de variação de um conjunto de dados será denotado por qr e é dado por: qr = _1̅ × 100% Isso, considerando que dificilmente se calcula o coeficiente de variação de uma população, geralmente, calcula-se essa estatística para amostras, a fim de ter uma ideia sobre a homogeneidade ou confiabilidade na mesma. A grande vantagem do coeficiente de variação é o fato dele ser uma medida livre de unidade de medida, podendo ser utilizado para comparar a variabilidade de variáveis distintas. Exemplo 1: (MAGALHÃES E LIMA, 2005) Retomando o exemplo das caixas com parafusos utilizado anteriormente, considerando as mesmas 10 caixas com: 98, 102, 100, 100, 99 97, 96, 95, 99, 100; parafusos cada. Lembrando que a média para esse conjunto de dados é dada por: 1̅ = 98,6 parafusos. Para essas caixas: A amplitude será dada por: o Primeiro deve-se colocar os dados em ordem: Tabela 20: Número de parafusos por caixa ordenados do menor para o maior. Ordem O. 13 14 1Q 1V 1� 1R 1� 1S O., Número de Parafusos 95 96 97 98 99 99 100 100 100 102 Fonte: Elaborada pela autora. �8]b�a^9[ = 1ijk − 1i�� = 1�T − 1� = 102 − 95 sWtuvdwXf = ) parafusos A variância será dada por: 59 (1� − 1̅)3� �"� o Calculando a variância usando a fórmula diretamente temos: _3 = 1� − 1 (1� − 1̅)3� �"� _3 = (98 − 98,6)3 + (102 − 98,6)3 + ⋯ + (99 − 98,6)3 + (100 − 98,6)310 − 1 _3 = (−0,6)3 + (3,4)3 + ⋯ + (0,4)3 + (1,4)39 = 40,49 x* = +, +0 parafusos² o Pode-se calcular a variância montando uma tabela ou utilizando uma planilha eletrônica. Apresento abaixouma tabela que pode ser utilizada para fazer os cálculos e que pode ser útil para aqueles com dificuldade em utilizar a fórmula matemática diretamente: Tabela 21: Tabela auxiliar para o cálculo da variância. Fonte: Elaborada pela autora. _3 = 40,49 x* = +, +0 parafusos² O desvio padrão será dado por: _ = oy�\LMN = o4,49 = 2,12 x = *, .* parafusos O coeficiente de variação será dado por: qr = 2,1298,6 × 100% = 2,15% z{ = *, ./% Sabemos agora como calcular as medidas de dispersão mais utilizadas, porém, o que isso tudo significa? Ov Ov − OP (Ov − OP)* 98 -0,6 0,36 102 3,4 11,56 100 1,4 1,96 100 1,4 1,96 99 0,4 0,16 97 -1,6 2,56 96 -2,6 6,76 95 -3,6 12,96 99 0,4 0,16 100 1,4 1,96 Total 0 40,40 60 A amplitude foi de 7 parafusos, isso quer dizer que, dentro dessa amostra, a maior diferença entre duas caixas de parafusos é de 7 parafusos; junto com a informação de que a mediana é dada por 99 parafusos, podemos saber que o mínimo de parafusos por caixa foi de 92 ou mais e o máximo foi de 106 ou menos. De maneira que com apenas 2 valores de resumo podemos ter uma ideia sobre o comportamento do conjunto de dados; A variância foi de 4,49 parafusos², sabemos que essa é uma medida da dispersão dos dados com relação à média que é de 98,6 parafusos, porém como não é simples tentar relacional parafusos² com parafusos, o que dificulta a interpretação dessa medida de dispersão, sendo assim, vamos utilizar o desvio padrão; O desvio padrão foi de 2,12 parafusos, e a média de 98,6 parafusos, sabemos que o desvio padrão é a raiz quadrada da variância e que fornece uma medida de dispersão dos dados ao redor da média, podemos imaginar, então, que parte (geralmente um mínimo de 50%) dos dados se encontram entre 96,48 e 100,72 (media ± desvio padrão); O coeficiente de variação foi de 2,15%, esse valor indica que o desvio padrão é pequeno quando comparado com a média, o que indica que o conjunto de dados é bastante homogêneo, não havendo um distanciamento grande entre os valores observados e a média observada. Imagine que dois conjuntos de dados tenham apresentado um desvio padrão de 10, só que o conjunto 1 tem média 10 e o conjunto 2 tem média 100; logo o conjunto 1 teria um coeficiente de variação de 100% e o conjunto 2 um coeficiente de variação de 10%; ou seja, quando comparado com a média, um desvio padrão de 10 pode ser considerado como indicativo de grande variação (heterogeneidade) entre os dados (conjunto 1) ou de pequena variação (homogeneidade) entre os dados (conjunto 2). Exemplo 2: (MAGALHÃES E LIMA, 2005) Considere, novamente, o conjunto de dados apresentado no exemplo 1, imagine que não haja interesse no �ú8[\K 9[ ]�\��^_K_ ]K\ ���1� (`), mas no custo total por caixa, nesse caso, teríamos que consideram uma nova variável, �^_aK aKa�b (c), definida como a soma dos custos dos parafusos (cada parafuso custa R$ �) e da embalagem (cada embalagem custa R$ [). Nesse caso: A amplitude será dada por: Tabela 22: Custo total por caixa ordenados do menor para o maior. Ordem a� a3 a4 aQ d/ d( aR a� aS a��T Custo Total 95�+ [ 96�+ [ 97�+ [ 98�+ [ 99�+ [ 99�+ [ 100�+ [ 100�+ [ 100�+ [ 102�+ [ Fonte: Elaborada pela autora. �8]b�a^9[ = 1ijk − 1i�� = 1�T − 1� = 102� + [ − (95� + [) sWtuvdwXfY�x = )e reais A variância será dada por (lembrando que a média é dada por 98,6� + [ reais): _3 = (98� + [ − 98,6� − [)3 + (102� + [ − 98,6� − [)3 + ⋯ + (100� + [ − 98,6� − [)310 − 1 _3 = (−0,6�)3 + (3,4�)3 + ⋯ + (1,4�)39 = 40,4�39 61 x* = +, +0e* reais² Ou Tabela 23: Tabela auxiliar para o cálculo da variância. dv dv − d̅ (dv − d̅)* 98� + [ −0,6� 0,36�3 102� + [ 3,4� 11,56�3 100� + [ 1,4� 1,96�3 100� + [ 1,4� 1,96�3 99� + [ 0,4� 0,16�3 97� + [ −1,6� 2,56�3 96� + [ −2,6� 6,76�3 95� + [ −3,6� 12,96�3 99� + [ 0,4� 0,16�3 100� + [ 1,4� 1,96�3 Total 0 40,40�3 Fonte: Elaborada pela autora. _3 = 40,4�39 x* = +, +0e* reais² O desvio padrão será dado por: _ = oy�\LMN = o4,49�3 = 2,12� x = *, .*e reais O coeficiente de variação será dado por: z{ = *, .*e0-, (e + f × .,,% Podemos perceber que ao adicionar uma constante [ e/ou ao multiplicar uma constante � a um conjunto de dados teremos que: Ao adicionar uma constante [ aos dados não temos nenhuma alteração no valor da: o Amplitude; o Variância; o Desvio padrão; Ao somar uma constante [ aos dados, a média tem essa mesma constante adicionada ao seu valor e o desvio padrão não sofre alteração, de maneira que se a constante for positiva, o coeficiente de variação será menor quando comparado com o antigo; Ao multiplicar uma constante � aos dados tivemos alteração em todas as medidas de dispersão, sendo que: o A amplitude e o desvio padrão tiveram seu valor antigo multiplicado pela mesma constante �; o A variância teve seu valor antigo multiplicado por �3. (a� − a̅)3� �"� 62 o Tanto a média quanto o desvio padrão serão multiplicados por essa mesma constante, logo, apenas a multiplicação de uma constante não alteraria o valor do coeficiente de variação. 3.4.6. Exercícios 1- [DEVORE, 2006] O artigo “A Thin-Film Oxygen Uptake Test for the Evaluation of Automotive Crankcase Lubricants” (Lubric. Engr., 1984, p. 75-83) informou os seguintes dados sobre o tempo de oxidação- indução (min) para diversos óleos comerciais: 87 103 130 160 180 195 132 145 211 105 145 153 152 138 87 99 93 119 129 a. Calcule a variância e o desvio padrão amostrais; b. Se as observações fossem especificadas em horas, quais seriam os valores resultantes para a variância e para o desvio padrão amostrais? Responda sem reescrever os valores. 2- [DEVORE, 2006] Considere � e como constantes e �� = �1� + para � = 1,2, … , �. a. Quais são as relações entre 1̅ e �� e entre _�3 e _�3? b. Uma amostra de temperaturas iniciais de uma determinada reação química resultou em uma média amostral (°C) de 87,3 e um desvio padrão amostral de 1,04. Quais são a média e o desvio padrão em °F? (DICA: � = SV q + 32), 3- [TRIOLA, 2013] Na estatística, qual a diferença entre variação e variância? 4- [TRIOLA, 2013] Qual você considera ter maior variação: as rendas de uma amostra aleatória simples de 1.000 adultos selecionados da população geral, ou as rendas de uma amostra aleatória simples de 1.000 professores de estatística? Por que? 5- [TRIOLA, 2013] Calcule a variância e o desvio padrão dos dados apresentados no exercício 8 da seção 3.4.3. Como esses valores afetam a confiança na precisão da estimativa da média encontrada anteriormente? 6- [TRIOLA, 2013] A seguir, estão listados os custos (em dólares) de viagens de ida e volta do aeroporto JFK na cidade de Nova York a São Francisco. Todos os voos envolvem uma escala e uma estada de duas semanas. As companhias aéreas são US Air, Continental, delta, United, American, Alaska e Northwest: 30 Dias Antes 244 260 264 264 278 318 280 1 Dia Antes 456 614 567 943 628 1088 536 Calcule os coeficientes de variação para cada um dos conjuntos de dados e os compare quanto à sua homogeneidade. 3.4.7. Quantis Os quantis são medidas de posição, extremamente úteis se quisermos conhecer informações gerais ou específicas sobre um conjunto de dados, podendo fornecer informação sobre a tendência central, ou se forem utilizados um conjunto de quantis, informações sobre a dispersão deste conjunto de dados. Já vimos que a mediana é uma medida de tendência central que não sofre, ou sofre pouca, influência de valores atípicos; os quantis seguem a mesma ideia da mediana, fornecendo valores que se posicionam de maneira a dividir o conjunto de dados de acordo com o interesse do pesquisador (a mediana, por exemplo, divide o conjunto de dados ao meio, os 50% menores dos 50% maiores). Iremos denotar os quantis por �(]), em que ] é uma proporção qualquer (0 ≤ ] ≤ 100), tal que ]% das observações sejam menores ou iguais a �(]), temos, por exemplo:63 �(,) = mínimo; �(10) = primeiro decil ou 10º percentil; �(*/) = primeiro quartil (�.) ou 25º percentil; �(/,) = mediana ou segundo quartil (�*) ; �()/) = terceiro quartil (�$) ; �(80) = oitavo decil; �(95) = 95º percentil; �(.,,) = máximo. Existem diversas maneiras de se calcular os valores dos quartis, para fins desta apostila, iremos apresentar um dos métodos mais simples que permite calcular não só os quartis, mas qualquer quantil de interesse. Para efetuar o cálculo dos quantis, assim como para a mediana, devemos seguir alguns passos: Primeiro passo: ordenar os dados do menor para o maior; Segundo passo: utilizar a regra de três para encontrar a posição do valor representando o quantil desejado: � = �] 100⁄ ; Terceiro passo: o Caso o valor � = �] 100⁄ seja um valor inteiro deve-se calcular �(�) = 1(!) + 1(!<�)2 o Caso o valor � = �] 100⁄ não seja um valor inteiro, deve-se utilizar o valor �(�) = 1(!<�) o em que � é o maior inteiro menor do que �] 100⁄ . Exemplo: A fim de compreender melhor como funciona esse método, vamos calcular alguns quantis utilizando os dados observados para a variável Preço (definida na seção 3.1., página 11) cujos dados, já organizados do menor para o maior, podem ser vistos abaixo: Tabela 24:Tabela da variável Preço, contendo os dados observados ordenados do menor para o maior. Ordem Preço Ordem Preço Ordem Preço 1� 5.257 1�� 9.440 13� 13.840 13 5.680 1�3 10.532 133 14.460 14 6.176 1�4 10.767 134 15.520 1Q 6.260 1�Q 11.386 13Q 16.346 1V 6.316 1�V 11.630 13V 21.500 1� 6.340 1�� 12.018 13� 22.200 1R 6.700 1�R 12.890 13R 24.632 1� 7.742 1�� 12.923 13� 31.640 1S 7.780 1�S 13.140 13S 33.718 1�T 9.300 13T 13.700 14T 38.850 Fonte: Elaborada pela autora. �(10) = primeiro decil ou 10º percentil 64 � = 30 × 10100 = 3 Como 3 é um valor inteiro, devemos fazer a média entre os valores na terceira e quarta posição para encontrar o primeiro decil: �(10) = 14 + 1Q2 = 6.176 + 6.2602 = 12.4362 = 6.218 �(.,) = (. *.-, ,, Xóus�fx �(25) = �� = primeiro quartil � = 30 × 25100 = 7,5 Como 7,5 não é um valor inteiro, devemos encontrar o valor que está na posição 7 + 1 para encontrar o primeiro quartil: �� = 1(R<�) = 1� = 7.742 �. = ). )+*, ,, Xóus�fx �(50) = �3 = mediana � = 30 × 50100 = 15 Como 15 é um valor inteiro, devemos fazer a média entre os valores na décima quinta e décima sexta posição para encontrar a mediana: �3 = 1�V + 1��2 = 11.630 + 12.0182 = 23.6482 = 11.824 �* = ... -*+, ,, Xóus�fx �(75) = �4 = terceiro quartil � = 30 × 75100 = 22,5 Como 22,5 não é um valor inteiro, devemos encontrar o valor que está na posição 22 + 1 para encontrar o terceiro quartil: �4 = 1(33<�) = 134 = 15.520 �$ = ./. /*,, ,, Xóus�fx �(80) = oitavo decil � = 30 × 80100 = 24 65 Como 24 é um valor inteiro, devemos fazer a média entre os valores na vigésima quarta e vigésima quinta posição para encontrar o oitavo decil: �(80) = 13Q + 13V2 = 16.346 + 21.5002 = 37.8462 = 18.923 �(-,) = .-. 0*$, ,, Xóus�fx �(95) = 95º percentil � = 30 × 95100 = 28,5 Como 28,5 não é um valor inteiro, devemos encontrar o valor que está na posição 28 + 1 para encontrar o 95º percentil: �(95) = 1(3�<�) = 13S = 33.718 �(0/) = $$. ).-, ,, Xóus�fx 3.4.8. Resumo dos Cinco Números O resumo dos cinco números apresenta um conjunto de valores (mínimo, primeiro quartil, mediana, terceiro quartil e máximo) que permite ao observador entender a variabilidade, dispersão e simetria de um conjunto de dados, sendo de grande utilidade. Utilizando as informações calculadas na seção anterior (3.4.7.) e as informações na tabela 24 (página 63), podemos apresentar o resumo dos cinco números para a variável Preço: Wí�vWY = /. */), ,, dólares �. = ). )+*, ,, dólares WXY�x = ... -*+, ,, dólares �$ = ./. /*,, ,, dólares WáOvWY = $-. -/,, ,, dólares Esses cinco valores fornecem uma ideia da dispersão dos dados, temos que: 25% dos veículos observados custam entre 5.257,00 e 7.742,00 dólares; 25% dos veículos observados custam entre 7.742,00 e 11.824,00 dólares; 25% dos veículos observados custam entre 11.824,00 e 15.520,00 dólares; 25% dos veículos observados custam entre 15.520,00 e 38.850,00 dólares. Podemos perceber que as observações estão mais concentradas abaixo do terceiro quartil, e mais dispersas acima desse valor. Uma outra grande vantagem de calcular os quartis, ou o resumo de cinco números é que podemos, a partir desses valores, verificar a existência de valores atípicos em um conjunto de dados. 66 3.4.9. Valores atípicos Para verificar a existência ou não de valores atípicos em um conjunto de dados, é necessário, primeiramente, calcular a amplitude, ou distância, interquartil (���): ��� = �4 − �� Em seguida, deve-se calcular a região de observações típicas (��c). Como o nome já diz, os valores que pertencerem à ��c são considerados como típicos e aqueles que estiverem fora da ��c são considerados como atípicos: ��c = (�� − 1,5��� ; �4 + 1,5���) Vamos considerar, novamente, a variável Preço utilizada na seção anterior e cujo resumo de cinco números já foi calculado, logo: ��� = 15.520 − 7.742 = 7.778,00 dólares ��c = (7.742 − 1.5 × 7.778; 15.520 + 1,5 × 7.778) = (7.742 − 11.667; 15.520 + 11.667) ��h = (−$. 0*/, ,, ; *). .-), ,,) dólares O resultado obtido para a ��c obtida nos traz a informação que veículos custando de até 27.187,00 dólares possuem preços típicos, ou preços que não fogem do comumente encontrado; já veículos custando mais de 27.187,00 dólares estão fora do normal, possuem preços atípicos. Pode-se notar que o limite inferior do intervalo definido pela ��c é negativo. Embora não faça sentido pensar em um preço de carro negativo, pode acontecer do limite encontrado possuir um valor negativo, como foi o caso, isso não quer dizer que o valor encontrado está incorreto, quer dizer apenas que não serão encontrados valores atípicos entre os valores mais baixos observados. Para verificar a existência de valores atípicos devemos voltar e observar o conjunto de dados ordenado: Tabela 25: Tabela com os valores da variável Preço ordenados para a verificação de presença ou não de valores atípicos. Ordem Preço Ordem Preço Ordem Preço 1� 5.257 1�� 9.440 13� 13.840 13 5.680 1�3 10.532 133 14.460 14 6.176 1�4 10.767 134 15.520 1Q 6.260 1�Q 11.386 13Q 16.346 1V 6.316 1�V 11.630 13V 21.500 1� 6.340 1�� 12.018 13� 22.200 1R 6.700 1�R 12.890 13R 24.632 1� 7.742 1�� 12.923 O*- 31.640 1S 7.780 1�S 13.140 O*0 33.718 1�T 9.300 13T 13.700 O$, 38.850 Fonte: Elaborada pela autora. Se houverem valores atípicos, eles irão incluir os valores mínimo e/ou máximo, então o que se deve fazer é verificar se esses dois valores pertencem à ��c. No caso dos preços observados, o valor mínimo pertence à ��c, já que 5.257 é maior que -3.082,50, logo não existem valores atípicos dentre os menores valores 67 observados. Já o máximo observado não pertence à ��c, já que 38.850,00 é maior que 27.187,00; o mesmo é verdade para os valores 31.640,00 e 33.718,00; ou seja, temos três valores atípicos nesse conjunto de dados. 3.4.10. Box Plot Assim como os histogramas, o box plot fornece uma maneira de visualizar a dispersão de um conjunto de dados, porém, diferentemente dos histogramas o box plot traz informações específicas sobre a presença ou não de valores atípicos no conjunto de dados observados para uma variável. Uma outra diferença entre histogramas e box plots está no fato de que histogramas fixam o tamanho do intervalo de dados e apresentam as frequências observadas para cada intervalo; já os box plots fixam a frequência dos intervalos (sempre 25%) e variam o tamanho dos mesmos. Vamos fazer o box plot das variáveis Comprimento e Preço. Começando pela variável Comprimento: Devemos calcular o resumo de cinco números da variável Comprimento e em seguida verificar se existemvalores atípicos: Tabela 26: Observações da variável Comprimento ordenados do menor para o maior. Ordem Comprimento Ordem Comprimento Ordem Comprimento 1� 3,36 1�� 4,08 13� 4,38 13 3,62 1�3 4,1 133 4,39 14 3,64 1�4 4,11 134 4,39 1Q 3,68 1�Q 4,12 13Q 4,4 1V 3,7 1�V 4,14 13V 4,45 1� 3,73 1�� 4,15 13� 4,47 1R 3,73 1�R 4,15 13R 4,56 1� 3,81 1�� 4,16 13� 4,57 1S 3,83 1�S 4,2 13S 4,6 1�T 3,92 13T 4,36 14T 4,98 Fonte: Elaborada pela autora. Os valores mínimo e máximo podem ser identificados e retirados diretamente da tabela 26: 8í��8K = 3,36 ; 8á1�8K = 4,98 Para encontrar o primeiro quartil, a mediana e o terceiro quartil podemos utilizar as informações sobre as posições obtidas para a variável preço (página 64), já que ambos os conjuntos possuem 30 observações: o Primeiro quartil: � = 30 × 25100 = 7,5 �� = 1� = 3,81 68 o Mediana � = 30 × 50100 = 15 �3 = 1�V + 1��2 = 4,14 + 4,152 = 8,292 = 4,145 o Terceiro quartil � = 30 × 75100 = 22,5 �4 = 134 = 4,39 Temos agora todas as informações para apresentar o resumo de cinco números: Wí�vWY = $, $( m �. = $, -. m WXY�x = +, .+/ m �$ = +, $0 m WáOvWY = +, 0- m Verificando a presença, ou não, de valores atípicos: ��� = 4,39 − 3,81 = 0,58 ��c = (3,81 − 1.5 × 0,58; 4,39 + 1,5 × 0,58) = (3,81 − 0,87; 4,39 + 0,87) ��h = (*, 0+; /, *() m Como tanto os valores mínimo e máximo pertencem à ��c (2,94 < 3,36 e 4,98 < 5,26), pode-se concluir que não existem valores atípicos no conjunto de dados observados para a variável Comprimento. Podemos, então, construir o box plot para a variável Comprimento, para tal devemos organizar a informação fornecida pelo resumo de cinco números em um gráfico da seguinte maneira: 69 Figura 35: Box-plot para a variável Comprimento. Fonte: Elaborada pela autora. Agora vamos voltar às informações que já calculamos para a variável Preço: Wí�vWY = /. */), ,, dólares �. = ). )+*, ,, dólares WXY�x = ... -*+, ,, dólares �$ = ./. /*,, ,, dólares WáOvWY = $-. -/,, ,, dólares Valores atípicos: 31.640,00 ; 33.718,00 e 38.850,00 dólares Assim como foi feito para comprimento, devemos inserir os valores do resumo de cinco números no box plot, porém devemos representar os valores atípicos também. Devemos iniciar o box plot pelos valores atípicos, e depois inserir o resumo de cinco números: C o m p ri m en to ( m et ro s) 70 Figura 36: Box plot para a variável Preço. Fonte: Elaborada pela autora. Como pode-se ver na figura 36, utiliza-se um novo máximo quando o máximo é considerado como valor atípico. Como encontramos esse novo máximo? Assim como para o cálculo dos quartis, existe mais de uma maneira de selecionar um novo ponto máximo. A maneira que considero aqui é a que acho mais simples: o novo máximo é o maior valor no conjunto de dados que não é visto como atípico, no caso da variável preço é o valor 13R = 24.632,00 dólares. Se o mínimo de um conjunto de dados for considerado atípico, deve-se encontrar um novo mínimo de maneira análoga a utilizada acima, buscando o menor valor do conjunto de dados que não é considerado como atípico para ser o novo mínimo. Pode acontecer de um conjunto de dados ter seus valores máximo e mínimo como atípicos, nesse caso, deve- se encontrar tanto um novo mínimo quanto um novo máximo. Outra informação que podemos tirar do box plot diz respeito a simetria de um conjunto de dados. Para tal, basta ver se o gráfico se comporta de maneira semelhante abaixo e acima da mediana (ou à esquerda e a direita da mediana – se o box plot tiver na horizontal). Por exemplo, a figura 35 apresenta um gráfico que indica aparente simetria do conjunto da dados; já a figura 36 apresenta um gráfico que indica uma assimetria na distribuição dos dados. Uma observação importante, os nomes inseridos nas figuras 35 e 36 em vermelho são ferramentas didáticas para auxiliá-los a entender a construção do gráfico de box plot, não se deve inserir essas informações em gráficos feitos com o intuito de apresentar a distribuição de um conjunto de dados. P re ço ( d ó la re s) 71 3.4.11. Exercícios 1- [DEVORE, 2006] Uma amostra de 20 garrafas de certo tipo de vidro foi selecionada e a resistência à pressão interna de cada garrafa foi determinada. Considere as seguintes informações parciais da amostra: 89 = 202,2 �� = 196,0 �4 = 216,8 Três observações menores: 125,8; 188,1; 193,7 Três observações maiores: 221,3; 230,5; 250,2 a. Há algum outlier na amostra? b. Construa um box plot e comente suas características. 2- [DEVORE, 2006] A concentração de cocaína no sangue (mg/L) foi determinada para uma amostra de indivíduos que morreram de delírio induzido por cocaína (ED) e para uma amostra de indivíduos que morreram de overdose de cocaína sem delírio. O tempo de sobrevida das pessoas em ambos os grupos foi de, no máximo 6 horas. Os dados a seguir foram obtidos de um box plot comparativo do artigo “Fatal Excited Delirium Following Cocaine Use” (J. of Forensic Sciences, 1997, p.25-31): ED 0 0 0 0 0,1 0,1 0,1 0,1 0,2 0,2 0,3 0,3 0,3 0,4 0,5 0,7 0,8 1,0 1,5 2,7 2,8 3,5 4,0 8,9 9,2 11,7 21,0 Não-ED 0 0 0 0 0 0,1 0,1 0,1 0,1 0,2 0,2 0,2 0,3 0,3 0,3 0,4 0,5 0,5 0,6 0,8 0,9 1,0 1,2 1,4 1,5 1,7 2,0 3,2 3,5 4,1 4,3 4,8 5,0 5,6 5,9 6,0 6,4 7,9 8,3 8,7 9,1 9,6 9,9 11,0 11,5 12,2 12,7 14,0 16,6 17,8 a. Determine o resumo de cinco números das duas amostras; b. Há algum outlier nas amostras, se sim, qual/quais? c. Construa um box plot comparativo e use-o como base para comparar e destacar as diferenças das amostras 1ed e não-ED. 3- [TRIOLA, 2013] Obteve-se uma amostra aleatória simples de escores de classificação de crédito FICO, e esses escores ordenados estão listados a seguir. Encontre o resumo de cinco números, verifique a existência, ou não, de valores atípicos e faça o box plot. 664 693 698 714 751 753 779 789 802 818 834 836 4- [TRIOLA, 2013] Use os 40 comprimentos de coxas (cm) de mulheres listados abaixo. Encontre o resumo de cinco números, verifique a existência, ou não, de valores atípicos e faça o box plot. 27 31,1 32,1 33,2 33,8 36 36,2 36,6 37,3 37,5 38 38,1 38,2 38,2 38,2 38,5 38,7 39 39 39 39,1 39,2 39,4 39,7 39,9 40 40,2 40,2 40,3 41 41 41,5 41,6 41,6 42,3 42,8 43,2 43,4 43,8 48,6 5- [TRIOLA, 2013] Um estudante do autor pesou uma amostra aleatória simples de bifes Porter-house, e os resultados (em onças) estão listados a seguir. Os bifes devem ter 21 oz, pois estão listados no menu com peso de 20 onças, e eles perdem uma onça ao serem cozidos. Use a lista de pesos para encontrar: (a) a 72 média; (b) a mediana; (c) a moda; (d) a amplitude; (e) o desvio padrão; (f) a variância; (g) o primeiro quartil; (h) o terceiro quartil; (i) faça o box plot. 17 19 21 18 20 18 19 20 20 21 4. Exercícios Avaliativos sobre Estatística Descritiva 1- Abaixo são dados os tempos de espera (em minutos) de clientes no Banco New York (onde todos os clientes formam uma fila única) e no Banco Montreal (onde os clientes entram em três filas de guichês diferentes): New York Montreal Tempo de espera (min) Freq. Abs. Tempo de espera (min) Freq. Abs. 0 0 0 1 1 2 1 0 2 0 2 2 3 2 3 1 4 1 4 3 5 1 5 3 6 6 6 3 7 9 7 5 8 3 8 3 9 0 9 2 10 0 10 1 Para cada um dos dois bancos acima: a. Calcule a média e o coeficiente de variação sabendo que a variância dos tempos de espera para os Bancos de New York e Montreal são 4,06 e 6,17, respectivamente: b. Faça os box plots, lado a lado; c. Comente sobre as diferenças ou semelhanças entre as distribuições, utilizando as informações obtidas nos itens a) e b). 2- A dona de um restaurante registrou durante 6 meses quantos clientes ela recebia a cada semana. Os dados são apresentados abaixo já organizados do menor para o maior: 501 512 516 525 528 536 546 556 564 567 589 597 601 603 605 612 615 624 629 635 642 645 648 651a. Construa uma tabela de frequências contendo exatamente 6 classes e incluindo a frequência acumulada: b. Construa o histograma da variável observada: c. Sabendo que a média observada foi de 585,29 clientes, a distribuição observada pode ser considerada simétrica? Justifique sua resposta. 3- Abaixo são dadas as notas obtidas em um exame de estatística e em um exame de matemática para cada um dos 12 alunos de uma turma do ensino médio. 73 Aluno Notas Estatística Matemática 1 50 45 2 50 54 3 53 53 4 58 61 5 59 55 6 60 66 7 62 59 8 64 70 9 65 57 10 66 65 11 68 72 12 80 90 a. Calcule a média, mediana e moda para as notas das avaliações de matemática e de Estatística: b. Você diria que a distribuição das notas (para cada uma das matérias) é simétrica? Justifique: c. Sabendo que as variâncias observadas foram de 70,93 para as notas em estatística e 135,48 para as notas em matemática, calcule o coeficiente de variação para ambas as variáveis e responda: Quais notas apresentaram maior variabilidade? Justifique. d. Encontre o resumo de cinco números para ambas as variáveis (notas de matemática e notas de estatística). e. Calcule as distâncias interquartis e as regiões de observação típicas para ambas as variáveis. Existem valores atípicos para as variáveis notas em matemática e estatística, se sim, quais? f. Desenhe um gráfico de dispersão bidimensional relacionando as variáveis notas de estatística, com notas de matemática, levando em consideração que a estatística depende da matemática. 4- Um personal trainer coletou dados sobre a quantidade de água que ele tomava por dia a partir de uma amostra de dias selecionada aleatoriamente. A partir disso, ele descobriu que o número médio de copos de água que ele bebia em um dia era igual a 4,4. Considerando a tabela abaixo, responda: a. Encontre o número de dias representado por 1; b. Calcule o número mediano de copos de água que ele bebe por dia; c. Calcule os quartis da quantidade de copos de água que ele bebe por dia; d. Desenhe o Box Plot do número de copos de água bebido por dia. 74 5- Em 2018 foi realizada uma pesquisa para avaliar o estado nutricional dos funcionários técnico- administrativos da UFJF. Uma das variáveis coletadas foi a medida da circunferência abdominal em centímetros. Na figura a seguir temos a representação desta variável para 3 faixas etárias dos funcionários do sexo masculino. Assinale a afirmativa INCORRETA. (a) O grupo que apresenta menor variabilidade dos valores é o de idade inferior a 30 anos. (b) As distribuições dos grupos com idade entre 30 e 49 anos e idade superior a 49 anos são assimétricas. (c) A mediana do grupo com idade entre 30 e 49 anos é 100 centímetros (d) Todos os grupos apresentam dados discrepantes (e) O gráfico acima não apresenta a média da circunferência abdominal de cada faixa de idades 6- Leia atentamente as afirmações abaixo: I. A média amostral pode ser igual a zero. II. A variância amostral pode ser negativa. III. A mediana de uma amostra pode ser igual ao valor mínimo dessa amostra. IV. A média amostral pode ser superior à mediana. V. O desvio padrão pode ser nulo. Marque a alternativa correta: (a) Todas as afirmações são verdadeiras. (b) Apenas as afirmações I, III, IV e V são verdadeiras. (c) Apenas as afirmações IV e V são verdadeiras. (d) Todas as afirmações são falsas. (e) Nenhuma das alternativas acima está correta. 75 7- Os diagramas na figura mostram as notas obtidas numa prova por alunos de três turmas diferentes. A partir destes gráficos, NÃO podemos concluir que: (a) A turma A tem menos alunos do que a turma B. (b) A maioria dos alunos da turma B tirou notas abaixo de 40. (c) A turma que teve em geral as melhores notas foi a C. (d) A turma mais homogênea, em termos das notas na prova, foi a A. (e) O aluno que obteve a maior nota pertence à turma B. 8- Complete as duas afirmativas abaixo: I. Para que uma aluna seja aprovada numa disciplina, é preciso que o número resultante da soma das suas notas em três provas parciais, dividido por 3, seja maior que 70. Este número pode ser considerado como uma medida de _________________ . II. A diferença entre a nota máxima e a nota mínima obtidas numa prova pelos alunos de uma turma pode ser considerada como uma medida de __________________ . III. A nota na avaliação que mais se repete dentre as notas obtidas pelos alunos de uma turma pode ser considerado como uma medida de ______________ . As respostas são, respectivamente: (a) Dispersão, tendência central e dispersão. (b) Tendência central, tendência central e tendência central. (c) Tendência central, dispersão e tendência central. (d) Tendência central, dispersão e dispersão. (e) Dispersão, dispersão e tendência central. 76 9- Observe no gráfico a seguir uma representação para as notas de 50 alunos do primeiro semestre de Ciências Econômicas numa determinada prova: A mediana das notas dos 50 alunos de ciências Econômicas nesta prova é igual a: (a) 3 (b) 4 (c) 5 (d) 6 (e) 7 10- Marcos está de férias na casa do lago de seu amigo. Ele está curioso sobre a atividade aquática favorita das outras pessoas no lago. Então, ele entrevista 150 pessoas no lago e pergunta qual é sua atividade aquática favorita. A tabela abaixo resume os dados: Atividade Freq. Rel. Passeio de barco 0,24 Pescaria 0,20 Esqui aquático/Wakeboard 0,20 Caiaque 0,16 Stand up paddle 0,12 Natação 0,08 Qual das seguintes afirmações é sustentada pela tabela? (a) 20 pessoas responderam pescaria como a sua atividade favorita. (b) 36 pessoas responderam passear de barco como a sua atividade favorita. (c) Esqui aquático/Wakeboard foi escolhida por mais pessoas do que Stand Up Paddle e natação juntas. (d) Passear de barco e caiaque somam metade das respostas. (e) Um quarto dos respondentes escolheram passear de barco como atividade favorita. 11- Um estudo caracterizou 5 ambientes aquáticos, nomeados de A a E, em uma região, medindo parâmetros físico-químicos de cada um deles, incluindo o pH nos ambientes: O Gráfico I representa os valores de pH dos 5 ambientes. Utilizando o gráfico II, que representa a distribuição estatística de espécies em diferentes faixas de pH, pode-se esperar um maior número de espécies no ambiente: (a) A (b) B (c) C (d) D (e) E 77 12- Quais das seguintes afirmações são verdadeiras? I. Se o lado direito e o lado esquerdo de um histograma são a imagem espelhada um do outro, a distribuição é simétrica. II. Uma distribuição que é bastante dispersa ao longo do seu lado direito é dita assimétrica à direita. III. Se uma distribuição é assimétrica à direita, sua média é, usualmente, maior do que a sua mediana. Escolha a alternativa com a resposta correta: (a) Apenas I (b) I e II (c) I e III (d) II e III (e) Nenhuma das alternativas acima. 13- Em um conjunto de 100 observações numéricas, podemos afirmar que: (a) a média aritmética é maior que a mediana. (b) a mediana é maior que a moda. (c) 50% dos valores estão acima da média aritmética. (d) 50% dos valores estão abaixo da mediana. (e) 25% dos valores estão entre a moda e a mediana. 14- Num curso de iniciação à informática, a distribuição das idades dos alunos, segundo o sexo, é dada pelo gráfico seguinte: Com base nos dados do gráfico, pode-se afirmar que: (a) o número de meninas com, no máximo, 16 anos é maior que o número de meninos nesse mesmo intervalo de idades. (b) o número total de alunos é 19. (c) a média de idade das meninas é 15 anos. (d) o número de meninos é igual ao número de meninas. (e) o número de meninos com idade maior que 15 anos é maior que o número de meninas nesse mesmo intervalo de idades 78 5. Probabilidade Como curiosidade, acho interessanteiniciar essa unidade contando um resumo da história da probabilidade, que se iniciou em 1654 com uma troca de correspondência entre os matemáticos Pascal e Fermat, na qual eles buscaram encontrar uma estratégia para ser usada em jogos de azar que permitisse um maior ganho financeiro. Quem instigou essa busca foi o aristocrata francês Chevalier de Méré que era um jogador inveterado e fez uma consulta ao Pascal (PINHEIRO et. al., 2012). Embora a história da probabilidade tenha se iniciado com aplicações em jogos de azar, essa não é sua única aplicação. Podemos aplicar conhecimentos de probabilidade ao lidar com qualquer situação de incerteza: Qual será o clima de amanhã? Qual será o sexo do meu primeiro filho? Qual a chance de determinada pessoa desenvolver um tipo de câncer? Que tipo de negócio devo abrir? Onde devo investir meu dinheiro? Qual será o próximo prefeito da minha cidade?... Nesta seção vamos apresentar uma visão geral de probabilidade a fim de fornecer uma base, para que alunos de diferentes áreas possam compreender melhor essa importante ferramenta e a possam a utilizar nos diversos processos de tomada de decisão pelos quais passarão em suas vidas. 5.1. Experimentos Aleatórios e Determinísticos Antes de definir probabilidade e falar sobre o cálculo de probabilidades, precisamos nos familiarizar com alguns termos. Primeiro, é fundamental saber diferenciar um experimento aleatório de um experimento determinístico: Experimentos determinísticos: experimentos que quando repetidos, nas mesmas condições, produzem os mesmos resultados. o Exemplo: o Coloco água para ferver em uma cidade litorânea. Qual será a temperatura de ebulição? 100°C. o Jogo óleo de soja em um copo com água, o que vai acontecer? O óleo não vai se misturar com a água e formará uma camada acima da água. Experimentos aleatórios: experimentos que quando repetidos, nas mesmas condições, podem produzir resultados distintos. o Exemplo: o Jogo um dado em uma superfície plana. Qual face ficará para cima? 1, 2, 3, 4, 5 ou 6? o Uma mulher engravida pela segunda vez. Qual será o sexo do seu filho? Feminino ou masculino? A partir de agora, sempre que for mencionado um experimento, ele será aleatório, já que experimentos determinísticos não trazem desafios probabilísticos, já que não existe incerteza quanto ao resultado. Precisamos de conhecimento de probabilidade para conseguir determinar o grau de incerteza relacionado aos resultados de um experimento aleatório. 79 5.2. Espaço Amostral Ao conjunto de resultados possíveis de um experimento aleatório, dá-se o nome de Espaço Amostral (representado pela letra grega Ω). Pode parecer um conceito bastante simples, mas a ideia de espaço amostral é muito importante para o cálculo de probabilidades. Se temos o interesse em saber qual a probabilidade de determinado resultado de um experimento ocorrer, é fundamental conhecermos todos os resultados possíveis. Vejamos abaixo alguns exemplos de espaços amostrais: Experimento 1: Lançar uma moeda e verificar qual face ficará para cima ao cair: o Ω� = �cara, coroa� Experimento 2: Lançar um dado e observar o valor da face voltada para cima: o Ω3 = �1,2,3,4,5,6� Experimento 3: Extrair uma peça de uma linha de produção de a classificar como perfeita ou não: o Ω4 = �perfeita, defeituosa� Experimento 4: Utilizar um instrumento para contar o número de determinada bactéria em uma lâmina e anotar o resultado: o ΩQ = �0,1,2,3,4, … � Experimento 5: Determinar a duração da vida útil de uma lâmpada, em horas: o ΩV = �a|a > 0� Um espaço amostral pode ser finito ou infinito. Os espaços amostrais 1, 2 e 3 apresentados acima, por exemplo, são finitos; já os espaços amostrais 4 e 5 são infinitos. Vale a pena notar, que o espaço amostral 4 é infinito, porém enumerável (é possível ordenar os resultados possíveis), já o espaço amostral 5 é infinito não enumerável (não sendo possível ordenar os resultados possíveis). 5.3. Evento Um evento pode se referir a um único resultado, ou a um subconjunto de resultados, pertencentes à um espaço amostral Ω (geralmente representado por letras maiúsculas encontradas no início do alfabeto: £, ¤, …). Vejamos abaixo alguns exemplos de eventos relativos aos espaços amostrais definidos na seção anterior: Ω� = �cara, coroa� o Evento £, sair cara: £ = �cara� Ω3 = �1,2,3,4,5,6� o Evento ¤, sair um número par: ¤ = �2,4,6� o Evento q, sair um número menor ou igual a 6: q = �1,2,3,4,5,6� ΩQ = �0,1,2,3,4, … � o Evento �, lâmina sem bactérias: � = �0� o Evento ¥, lâmina com número de determinada bactéria superior a 100: ¥ = �101,102, … � ΩV = �a|a > 0� o Evento �, a lâmpada durar mais de 200 e menos de 500 horas: � = �a|200 < a < 500� Alguns eventos especiais: Evento simples ou elementar: evento que representa um único resultado possível. 80 o Por exemplo, os eventos £ e � definidos acima são eventos simples. Evento nulo ou vazio: evento contendo resultados impossíveis ou não contendo resultado algum. o Por exemplo, se eu fosse definir um evento ¦ em Ω�, que representasse o resultado cara e coroa, ele seria impossível, já que não é possível uma moeda cair com as duas faces viradas para cima ao mesmo tempo, logo ¦ = �cara e coroa� = ∅. Evento certo: evento que contém todos os resultados possíveis (espaço amostral) o Por exemplo, o evento q definido acima é equivalente a Ω3, como ele contém todos os resultados possíveis ele certamente ocorrerá, ou seja, é um evento certo. 5.4. Teoria dos conjuntos Definimos Espaço amostral como sendo o conjunto de todos os resultados possíveis de um experimento aleatório, e definimos evento como sendo um subconjunto de um espaço aleatório. Podemos perceber, que teoria de conjuntos é uma parte fundamental para a compreensão e cálculo de probabilidade. Irei, então, realizar uma revisão rápida sobre a teoria dos conjuntos, a fim de relembrar as operações e nomenclaturas mais importantes para a compreensão dessa parte da matéria. 5.4.1. Operações entre Eventos Não é necessário relembrar toda a teoria dos conjuntos, mas é fundamental relembrar algumas das operações e símbolos: A união de dois eventos é denotada por: £ ∪ ¤; o Um conjunto q, tal que q = £ ∪ ¤, é formado por todos os elementos que estejam em £, ou em ¤, ou em ambos. A interseção entre dois eventos é dada por: £ ∩ ¤; o Um conjunto D, tal que � = £ ∩ ¤, é formado por todos os elementos que estejam em £ e em ¤. O complementar do evento £, denotado por £ª ou por £̅, é o evento que ocorre quando £ não ocorre. o O conjunto £ª é formado por todos os elementos pertencentes ao espaço amostral que não estejam em £. Assim como para as quatro operações fundamentais (+, −,×,÷), temos que as leis associativas e comutativas também podem ser utilizadas para as operações entre eventos: Leis comutativas: o £ ∪ ¤ = ¤ ∪ £; o £ ∩ ¤ = ¤ ∩ £. Leis associativas: o £ ∪ (¤ ∪ q) = (£ ∪ ¤) ∪ q; o £ ∩ (¤ ∩ q) = (£ ∩ ¤) ∩ q. Finalmente, conhecendo as operações básicas e as leis comutativas e associativas, podemos chegar às seguintes identidades de conjuntos: £ ∪ (¤ ∩ q) = (£ ∪ ¤) ∩ (£ ∪ q); £ ∩ (¤ ∪ q) = (£ ∩ ¤) ∪ (£ ∩ q); 81 £ ∩ ∅ = ∅; £ ∪ ∅ = £; (£ ∪ ¤)ª = £ª ∩ ¤ª; (£ ∩ ¤)ª = £ª ∪ ¤ª; (£ª)ª = £. Por fim, vamos considerar dois eventos £ e ¤, definidos em um mesmo espaço amostral. Diz-se que £ e ¤ são eventos mutuamente exclusivos (ou mutuamente excludentes) se eles não tiverem nenhum elemento em comum, ou seja, se £ ∩ ¤ = ∅. Exemplo 1: Vamos considerar o lançamento de um dado equilibrado e os seguintes eventos relacionados ao espaço amostral Ω = �1,2,3,4,5,6�: £ = �2,4,6�, ¤ = �5,6�, q = �3�. Encontre os conjuntos: £ ∪ ¤ = �2,4,6� ∪ �5,6� = �2,4,5,6�; £ ∩ ¤ = �2,4,6� ∩ �5,6� = �6�; (OBS: Os eventos £ e ¤ não são mutuamente exclusivos) £ ∪ q = �2,4,6�∪ �3� = �2,3,4,6�; £ ∩ q = �2,4,6� ∩ �3� = ∅; (OBS: Os eventos £ e q são mutuamente exclusivos) ¤ ∩ q = �5,6� ∩ �3� = ∅; (OBS: Os eventos ¤ e q são mutuamente exclusivos) £ ∪ ¤ ∪ q = �2,4,6� ∪ �5,6� ∪ �3� = �2,3,4,5,6�; (£ ∩ q) ∪ ¤ = ∅ ∪ �5,6� = �5,6�; £ ∩ (q ∪ ¤) = �2,4,6� ∩ (�3� ∪ �5,6�) = �2,4,6� ∩ �3,5,6� = �6�; (£ ∪ ¤) ∩ q = �2,4,5,6� ∩ �3� = ∅; £ª = �1,3,5�; (£ ∩ q)ª = ∅ª = �1,2,3,4,5,6� = Ω; £ª ∪ qª = �1,3,5� ∪ �1,2,4,5,6� = �1,2,3,4,5,6� = Ω; (£ ∪ q)ª = �2,3,4,6�ª = �1,5�; £ ∩ ¤ª = �2,4,6� ∩ �1,2,3,4� = �2,4�. Exemplo 2: Sendo £ e ¤ dois eventos em um mesmo espaço amostral “traduza” para a linguagem da teoria dos conjuntos as seguintes situações: Pelo menos um dos eventos ocorre: £ ∪ ¤; O evento £ ocorre, mas ¤ não: £ ∩ ¤ª; Nenhum deles ocorre: (£ ∪ ¤)ª; Exatamente um dos eventos ocorre: (£ ∩ ¤ª) ∪ (¤ ∩ £ª). 5.5. Exercícios 1- [PAGANO e GAUVREAU, 2010] Seja £ representante do evento de que um indivíduo em particular esteja exposto a altos níveis de monóxido de carbono e ¤ do evento de que ele esteja exposto a altos níveis de dióxido de nitrogênio. a. Qual é o evento £ ∩ ¤? b. Qual é o evento £ ∪ ¤? c. Qual é o complemento de £? d. Os evento £ e ¤ são mutuamente exclusivos? 82 2- [BUSSAB e MORETTIN, 2004] Expresse em termos de operações entre eventos: a. £ ocorre mas ¤ não ocorre; b. Exatamente um dos eventos £ e ¤ ocorre; c. Nenhum dos dois eventos £ e ¤ ocorre. 3- [MARTINEZ, 2015] Sejam Ω = ��, , �, 9, [�, £ = ��, , 9�, ¤ = � , 9, [�. Encontre: a. £ ∪ ¤ b. ¤ª c. (£ ∩ ¤)ª d. £ ∩ ¤ e. £ª ∩ ¤ f. £ª ∩ ¤ª g. (£ ∪ ¤)ª h. £ ∪ ¤ª 4- [MARTINEZ, 2015] Nos seguintes diagramas de Venn, sombreie: 5- [MARTINEZ, 2015] Sejam Ω = �1,2,3,4,5,6,7,8,9�, £ = �1,2,3,4�, ¤ = �2,4,6,8� e q = �3,4,5,6�. Encontre: a. £ª 83 b. £ ∩ q c. (£ ∩ q)ª d. £ ∪ ¤ 6- [DEVORE, 2006] Três componentes estão conectados para formar um sistema conforme exibido no diagrama a seguir (Figura 37). Como os componentes no subsistema 2-3 estão conectados em paralelo, esse subsistema funcionará se ao menos um dos dois componentes individuais funcionar. Para que todo o sistema funcione, o componente 1 deve funcionar, bem como o subsistema 2-3. O experimento consiste em determinar a condição de cada componente [S (sucesso) para um componente que funciona bem e F (falha) para um componente que não funciona]. Figura 37: Diagrama ilustrativo para resolução do exercício 2. Fonte: Elaborada pela autora com base na figura apresentada em (DEVORE, 2006) a. Que resultados estão contidos no evento £ para que exatamente dois dos três componentes funcionem? b. Que resultados estão contidos no evento ¤ para que ao menos dois componentes funcionem? c. Que resultados estão contidos no evento C para que o sistema funcione? d. Relacione os resultados de qª, £ ∪ ¤, £ ∩ q, ¤ ∪ q, e ¤ ∩ q. 7- [LARSON e FARBER, 2004] Você está planejando uma viagem de três dias a Seattle, Washington, em outubro. Use o diagrama da árvore que aparece a seguir para responder às perguntas. (S = sol e C = chuva). Figura 38: Diagrama de árvore para auxiliar a resolução do exercício 4. Fonte: Elaborada pela autora com base no diagrama apresentado em (LARSON e FARBER, 2004) a. Enumere o espaço amostral. b. Enumere o(s) resultado(s) do evento "irá chover durante os três dias". c. Enumere o(s) resultado(s) do evento "irá chover durante exatamente um dia". 84 d. Enumere o(s) resultado(s) do evento "irá chover durante pelo menos um dia". 8- [WALPOLE et al., 2009] Um experimento consiste em lançar um dado e, então, uma moeda uma vez, se o número do dado for par. Se o número no dado for ímpar, a moeda é jogada duas vezes. Usando a notação 4¬, por exemplo, para denotar o resultado no qual o dado dá 4 e a moeda dá cara (“Head”), e 3¬c para denotar o resultado quando o dado dá 3 e a moeda dá uma cara (“Head”) e uma coroa (“Tail”), construa um diagrama de árvore para mostrar os 18 elementos do espaço amostral . 9- [WALPOLE et al., 2009] Para o espaço amostral do Exercício 8. a. Liste os elementos correspondentes ao evento £, em que um número menor que 3 seja obtido no dado. b. Liste os elementos correspondentes ao evento ¤, em que ocorram duas coroas. c. Liste os elementos correspondentes ao evento £ª . d. Liste os elementos correspondentes ao evento £ª ∩ ¤. e. Liste os elementos correspondentes ao evento £ ∪ ¤. 5.6. Definições de Probabilidade Existem algumas definições de probabilidade, e embora elas sejam todas semelhantes, existem algumas diferenças e vale a pena apresentá-las indicando para qual caso cada uma seria a mais indicada. 5.6.1. Definição Frequentista de Probabilidade Vamos considerar que determinado experimento foi repetido � vezes, sempre respeitando as mesmas condições iniciais. Vamos definir um evento £ dentro do espaço amostral relativo a este experimento. Considere que o evento £ ocorreu �® vezes, dentro das � repetições realizadas. Já definimos frequência relativa nas sessões 3.2.1. e 3.2.3. (páginas 14 e 20, respectivamente) desta apostila, mas relembrando, pode-se dizer que �® = ��̄ é a frequência relativa do evento £ nas � repetições, sabemos que �® tem as seguintes propriedades: 0 ≤ �® ≤ 1; �® = 1 se, e somente se, £ ocorrer em todas as � repetições do experimento; �® = 0 se, e somente se, £ nunca ocorrer nas � repetições do experimento; Se £ e ¤ forem eventos mutuamente excludentes, e se �®∪° for a frequência relativa associada ao evento £ ∪ ¤, então, �®∪° = �® + �°; ±², com base em � repetições do experimento em questão, é considerada como uma função de �, que “converge” em certo sentido probabilístico para ³(²), quando � → ∞. Para entendermos melhor a ideia da definição frequentista de probabilidade, irei simular no software R o lançamento de um dado viciado (valor 5 com o triplo da probabilidade de sair) e mostrarei os resultados obtidos para 6, 60, 600 e 6.000 e 60.000 lançamentos na tabela 27 que pode ser observada na página 85: 85 Tabela 27: Tabela contendo os resultados obtidos da simulação do lançamento de um dado viciado. � = 6 � = 60 � = 600 Resultados possíveis Freq. Abs. Freq. Rel. Resultados possíveis Freq. Abs. Freq. Rel. Resultados possíveis Freq. Abs. Freq. Rel. 1 1 16,67% 1 10 16,67% 1 55 9,17% 2 2 33,33% 2 9 15,00% 2 66 11,00% 3 0 0,00% 3 11 18,33% 3 79 13,17% 4 1 16,67% 4 4 6,67% 4 79 13,17% 5 2 33,33% 5 17 28,33% 5 243 40,50% 6 0 0,00% 6 9 15,00% 6 78 13,00% � = 6.000 � = 60.000 � → ∞ Resultados possíveis Freq. Abs. Freq. Rel. Resultados possíveis Freq. Abs. Freq. Rel. Resultados possíveis Probabilidade Teórica 1 748 12,47% 1 7459 12,43% 1 12,50% 2 725 12,08% 2 7630 12,72% 2 12,50% 3 740 12,33% 3 7395 12,33% 3 12,50% 4 803 13,38% 4 7349 12,25% 4 12,50% 5 2243 37,38% 5 22582 37,64% 5 37,50% 6 741 12,35% 6 7585 12,64% 6 12,50% Fonte: Elaborada pela autora. Os resultados apresentados na tabela 27 ilustram a definição frequentista de probabilidade, podemos ver que conforme o número de lançamentos simulados aumentam, as frequências relativas chegam mais próximo da probabilidade real (aquela relativa ao dado criado para esta simulação). 5.6.2. Definição Axiomática de Probabilidade Vamos conciderar um espaço amostral Ω relativo a determinado experimento. A cada evento £ será associado um número real, representado por ¶(£), e denominado probabilidade de ², que satisfaça os seguintes axiomas: 0 ≤ ¶(£) ≤ 1; ¶(·) = 1; Se £ e ¤ forem eventos mutuamente excludentes, então, ¶(£ ∪ ¤) = ¶(£) + ¶(¤); Se £�, £3 , … , £� forem, dois a dois, eventos mutuamente excludentes, então, ¶(⋃ £���"� ) =∑ ¶(£�)��"� . 5.6.3. Espaço Amostral Finito Para encontrar a probabilidade de um evento £ definido em um espaço amostral finito Ω devemos, inicialmenteconsiderar o evento formado por um resultado simples – evento simples, ou elementar (£ = ����). A cada evento simples ���� será associado um valor ]�, denominado probabilidade de ����, que satisfaça as seguintes condições: ]� ≥ 0, � = 1,2, … , º; 86 ]� + ]3 + ⋯ + ]» = 1. Em seguida pode se considerar um evento £! constituído por \ resultados, com 1 ≤ \ ≤ º. ¼£! = ½�!I , �!J , … , �!¾¿À, consequentemente: ¶¼£!À = ]!I + ]!J + ⋯ + ]!¾ Exemplo: Suponha-se que somente três resultados sejam possíveis em um determinado experimento aleatório, a saber, ��, �3 e �4. Além disso, suponha-se que �� seja duas vezes mais provável de ocorrer que �3, e que �3 seja duas vezes mais provável de ocorrer que �4. Quais as probabilidades de ��, �3 e �4, cada, ocorrerem? Para resolver esse problema, podemos utilizar os axiomas que definimos acima, sabemos, por exemplo que ]� + ]3 + ]4 = 1, além disso, o enunciado nos diz que ]� = 2]3 e que ]3 = 2]4, logo: ]� + ]3 + ]4 = 1 2]3 + 2]4 + ]4 = 1 2(2]4) + 3]4 = 1 4]4 + 3]4 = 1 7]4 = 1 ]4 = 17 ; ]3 = 27 ; ]� = 47 5.6.4. Definição Clássica de Probabilidade Considere um espaço amostral Ω com º resultados possíveis de determinado experimento, tal que esses º resultados possíveis tenham a mesma probabilidade de ocorrer (espaço amostral igualmente verossímil), ou seja, podemos definir a probabilidade de cada um dos º eventos simples como sendo ]� = 1 º# . ]� ≥ 0, � = 1,2, … , º; ]� = ]! = ] = �», para quaisquer � e �, com, �, � = 1,2, … , º ]� + ]3 + ⋯ + ]» = º. ] = º. �» = 1. Logo, para qualquer evento £ formado por \ resultados, tem-se: ¶(£) = \ º# Ou: ¶(£) = número de casos favoráveis a ocorrência do evento £ número de resultados possíveis do experimento Essa definição de probabilidade, embora bastante intuitiva, não pode ser utilizada para todos os experimentos ou espaços amostrais, mas apenas para experimentos que gerem espaços amostrais igualmente verossímeis. A ideia de um espaço igualmente verossímil é muito atraente, porém não é aplicável a todas as situações, é 87 necessário justificar a verossimilhança de determinado espaço amostral antes de calcular a probabilidade de determinado evento ocorrer. Faz sentido pensar em espaços amostrais igualmente verossímeis em que se consideram experimentos do tipo: Lançamento de um dado honesto; Lançamento de uma moeda honesta; Retirar ao acaso uma carta de um baralho. Exemplo: Em uma universidade, 2000 estudantes do curso de medicina, em determinado ano, foram classificados de acordo com o tipo de esporte que praticam. Futebol é praticado por 260 estudantes, natação por 185 estudantes e musculação por 210 estudantes, sendo que alguns estudantes praticam mais de um desses esportes. Assim, tem-se 42 estudantes que praticam natação e musculação, 12 futebol e musculação, 18 futebol e natação e 3 praticam as três modalidades. Se um desses estudantes é sorteado ao acaso, qual é a probabilidade de: Praticar somente musculação? o Nesse caso, temos um espaço amostral com 2000 resultados possíveis, considerando como possível o sorteio de cada um dos 2000 estudantes. Para saber a probabilidade de retirar um aluno que pratique somente musculação, precisamos saber quantos estudantes praticam apenas musculação, aí termos o número de casos favoráveis ao evento {praticar somente musculação}, depois de definido esse valor, basta dividi-lo pelo número de resultados possíveis (2000). o Para resolver essa probabilidade ou qualquer outra relativa a esse problema, devemos: Definir os eventos de interesse: � = �O estudante pratica futebol�; Ç = �O estudante pratica natação�; Ê = �O estudante pratica musculação�. o Identificar quantos resultados possíveis temos em cada evento. Para isso, usarei o auxílio de um diagrama de Venn (Figura 39), a fim de utilizar esse apoio visual, deve-se inserir os valores do enunciado da maior interseção até os eventos de interesse gradualmente: 88 Figura 39: Diagrama de Venn, auxílio ilustrativo para resolução do exemplo. Fonte: Elaborada pela autora. ¶(somente musculação) = ¶(Ê ∩ �ª ∩ Ǫ) = 1592000 = 0,0795 Praticar pelo menos um destes esportes: ¶(pelo menos 1 dos 3 esporte) = ¶(Ê ∪ � ∪ Ç) = 2000 − 14142000 = 5862000 = 0,293 Praticar pelo menos dois destes esportes: ¶(pelo menos 2 dos 3 esporte) = ¶Ë(� ∩ Ê) ∪ (� ∩ Ç) ∪ (Ê ∩ Ç)Ì = 39 + 3 + 15 + 92000 = 662000 = = 0,033 Não praticar nenhum destes esportes: ¶(Nenhum dos 3 esporte) = ¶Ë(� ∪ Ê ∪ Ç)ªÌ = 14142000 = 0,707 5.7. Propriedades O cálculo de probabilidades depende de interpretação de texto e de situações, compreensão de teoria dos conjuntos e como aplicá-la na definição e tratamento de espaçoes amostrais e de eventos, além de maleabilidade e familiaridade com conceitos de probabilidade e propriedades que podem facilitar os cálculos. Considere os eventos £, ¤ e q relativos a um mesmo espaço amostral Ω. Algumas das propriedades de probabilidade são dadas abaixo: ¶(£ ∪ £ª) = 1; ¶(£ ∩ £ª) = 0; ¶(£) = 1 − ¶(£ª ); ¶(£ ∪ ¤) = ¶(£) + ¶(¤) − ¶(£ ∩ ¤); o No caso de dois eventos, £ e ¤, tal que eles sejam mutumente exclusivos, então: o ¶(£ ∪ ¤) = ¶(£) + ¶(¤). 3 estudantes em � ∩ Ê ∩ Ç 12 estudantes em � ∩ Ê 18 estudantes em � ∩ Ç 42 estudantes em Ê ∩ Ç 260 estudantes em � 185 estudantes em Ç 210 estudantes em Ê 89 ¶(£ ∪ ¤ ∪ q) = ¶(£) + ¶(¤) + ¶(q) − ¶(£ ∩ ¤) − ¶(£ ∩ q) − ¶(¤ ∩ q) + ¶(£ ∩ ¤ ∩ q). Exemplo: Sejam £ e ¤ dois eventos em um mesmo espaço amostral, tais que ¶(£) = 0,2, ¶(¤) = ], ¶(£ ∪ ¤) = 0,5 e ¶(£ ∩ ¤) = 0,1. Determine o valor de ]. ¶(£ ∪ ¤) = ¶(£) + ¶(¤) − ¶(£ ∩ ¤) 0,5 = 0,2 + ] − 0,1 ] = 0,4 5.8. Probabilidade Condicional Vamos considerar o experimento lançamento de um dado honesto, com espaço amostral Ω = �1,2,3,4,5,6�. Dentro desse espaço amostral, vamos definir os eventos £ = �1� e ¤ = �sair um número ímpar�. Já vimos que, no caso de um dado honesto, ¶(£) = 1/6. Agora, e se eu souber que o evento ¤ ocorreu, isso influência a probabilidade do evento £ ocorrer? Sabendo que o evento ¤ = �sair um número ímpar� ocorreu, temos que o espaço amostral do experimento foi alterado de 6 resultados possíveis para 3 resultados possíveis e a probabilidade de £ = �1� ocorrer nesse caso é: ¶(£|¤) = 1/3. Muitas vezes, informações sobre determinado evento ¤ é conhecida, e com conhecimento dessa informação devemos calcular a probabilidade de um outro evento £. Em outras palavras, é comum, querermos calcular a probabilidade do evento £ dado que o evento ¤ ocorreu, ou ¶(£|¤) (se lê probabilidade de £ dado ¤), a probabilidade de £ condicionada a ¤. Podemos resolver problemas de probabilidade condicional utilizando o conceito da restrição feita ao espaço amostral do experimento, ou utilizando a seguinte expressão: ¶(¤|£) = ¶(£ ∩ ¤)¶(£) desde que ¶(£) > 0; Para ¶(£) = 0, temos ¶(¤|£) = ¶(¤). Exemplo: Em um estudo feito com 15 pessoas, foram coletadas informações sobre o estilo de vida de cada um (sedentário ou não) e sobre o peso de cada um (obeso ou não). Foram observadas 5 pessoas obesas e 9 sedentárias; dentre as 5 pessoas obesas, 4 foram classificadas como sedentárias. Qual a probabilidade de: Um indivíduo ser obeso e sedentário? Em exemplos anteriores, resolvi os problemas de maneira direta, ou utilizando o recurso visual do diagrama de Venn. Nesse caso, o diagrama de Venn não é um recurso muito adequado, e resolver o problema de maneira direta pode causar dificuldades para aqueles que têm dificuldade nessa matéria. Sendo assim, indico, para esses tipos de problemas a utilização de uma tabela de dupla entrada para organizar e visualizar as informações do enunciado. 90 Tabela 28: Tabela de dupla entrada para resolução do exemplo. Obeso Não obeso Total Sedentário 4 5 9 Não-Sedentário 1 5 6 Total 5 10 15 Fonte: Elaborada pela autora. Com as informaçõesorganizadas na tabela 28 fica mais símples de saber quantos resultados favoráveis a determinado evento existem, a fim de calcular a probabilidade do evento em questão ocorrer. Vamos definir os eventos � = �o indivíduo ser obeso� e = �o indivíduo ser sedentário�. Queremos calcular a probabilidade de um indivíduo ser obeso e sedentário, ou seja: ¶(� ∩ ) = 4/15. Pela tabela podemos ver que do total de 15 pessoas amostradas, 4 são obesas e sedentárias. Um indivíduo ser obeso ou sedentário? ¶(� ∪ ) = ¶(�) + ¶() − ¶(� ∩ ) = 515 + 915 − 415 = 1015 Um indivíduo ser obeso dado que ele é sedentário? ¶(�|) = ¶(� ∩ )¶() = 4 15#9 15# = 49 Um indivíduo ser sedentário dado que ele é obeso? ¶(|�) = ¶(� ∩ )¶(�) = 4 15#5 15# = 45 Um resultado importante que sai diretamente da definição de probabilidade condicional é a regra multiplicativa. ¶(£ ∩ ¤) = ¶(£|¤)¶(¤) = ¶(¤|£)¶(£) A regra multiplicativa é bastante útil quando estamos interessados em encontrar a probabilidade da interseção entre dois eventos, e também para auxiliar na identificação de eventos independentes: Dois eventos são considerados independentes quando a ocorrência de um não influencia na ocorrência ou não-ocorrência do outro; Logo, se dois eventos, £ e ¤, são independentes tem-se que: ¶(£|¤) = ¶(£) e ¶(¤|£) = ¶(¤); Ou seja, ¶(£ ∩ ¤) = ¶(£)¶(¤). OBS: Os termos mutuamente exclusivos e independentes não são sinonimos; basta lembrar que eventos mutuamente exclusivos não possuem interseção. Exemplo: Considere as situações dadas abaixo. Identifique se os eventos são mutuamente exclusivos ou independentes. 91 Evento A: O primeiro filho de um casal ser menina; Evento B: O segundo filho de um casal ser menina. o Não temos conhecimento dos valores da probabilidades nesse caso, mas conhecemos o conceito de independência, que é a ocorrência de um evento não influenciar a ocorrência ou não do outro. Temos que o o sexo de um filho é determinado por fatores genéticos, e não pelo sexo do filho anterior, ou seja, a informação de que o primeiro filho é menina, não influencia a probabilidade do segundo filho ser menina. o Eventos INDEPENDENTES. Evento A: Um indivíduo, de determinada população, ter o tipo sanguíneo A; Evento B: Um indivíduo, de determinada população, ter o tipo sanguíneo O. o Nesse caso, também não temos valores de probabilidades para nos basear, apenas o conceito. Sabemos que um indivíduo tem apenas um tipo sanguíneo, ou seja, não é possível que um mesmo indivíduo seja do tipo A e do tipo O ao mesmo tempo, sendo assim, existe uma dependência forte entre os eventos, se o evento A ocorrer eu tenho certeza de que o evento B não pode ocorrer, e vice versa, ou seja, os eventos A e B são MUTUAMENTE EXCLUSIVOS, e não independentes. Considere dois eventos, A e B, dado que ¶(£) = 0,8, ¶(¤) = 0,5 e ¶(£ ∩ ¤) = 0,45 o Nesse caso não temos como definir conceitualmente, pois os eventos não são descritos, porém, suas probabilidades são dadas, logo, podemos utilizar a regra multiplicativa para verificar se eles são independentes ou não: o ¶(£)¶(¤) = 0,8 × 0,5 = 0,4 ≠ ¶(£ ∩ ¤), logo A e B NÂO são eventos NEM INDEPENDENTES, NEM MUTUAMENTE EXCLUSIVOS. 5.9. Teoremas Nesta seção estudaremos um dos mais importantes teoremas em probabilidade, o teorema de Bayes. Mas antes de chegar nele, precisamos entender o que é uma partição do espaço amostral. Uma partição do espaço amostral é dada por um conjunto de eventos mutuamente exclusivos (¤�, ¤3, … , ¤�) que quando unidos formam o espaço amostral, ou seja, o conjunto de eventos deve respeitar as seguintes condições: ¶(¤�) > 0, para todo � (� = 1,2, … , �) ¤� ∩ ¤! = ∅, para todo (�, �) com � ≠ � ⋃ ¤���"� = Ω 5.9.1. Teorema da Probabilidade Total Dado um evento £ e uma partição do espaço amostral (¤�, ¤3, … , ¤�), tem-se: ¶(£) = ¶(£ ∩ ¤»)� »"� = ¶(£|¤»)¶(¤»)� »"� Exemplo: Suponha que um fabricante de sorvetes recebe 20% de todo o leite que utiliza de uma fazenda ��, 30% de uma outra fazenda �3 e 50% de �4. Um órgão de fiscalização inspecionou as fazendas de surpresa e observou que 20% do leite produzido por �� estava adulterado por adição de água, enquanto que para �3 e �4, essa proporção era de 5% e 2%, respectivamente. Na indústria de sorvetes os galões de leite são 92 armazenados em um refrigerador sem identificação das fazendas. Para um galão escolhido ao acaso, qual a probabilidade dele estar adulterado? Nesse caso, temos interesse em calcular a probabilidade do evento £ = �o leite estar adulterado�, e temos informações sobre uma partição do espaço amostral (as probabilidade de todo o leite utilizado na fabrica ter vindo de 3 fazendas distintas, sem interseção entre elas) e as probabilidade de adulteração condicionadas ás três fazendas de origem. Vamos organizar a informação em um diagrama de Venn (Figura 40): Figura 40: Diagrama de Venn ilustrando os eventos dados no exemplo. Fonte: Elaborada pela autora. Para encontrar a probabilidade do evento £, basta somar as probabilidades das interseções entre o evento £ e os eventos que formam a partição do espaço amostral. O enunciado nos dá as seguintes informações: “recebe 20% de todo o leite que utiliza de uma fazenda ��”: ¶(��) = 0,20; “30% de uma outra fazenda �3”: ¶(�3) = 0,30; “e 50% de �4”: ¶(�4) = 0,50; “20% do leite produzido por �� estava adulterado”: ¶(£|��) = 0,20; “para �3 e �4, essa proporção era de 5% e 2%, respectivamente”: ¶(£|�3) = 0,05 e ¶(£|�4) = 0,02. O teorema da probabilidade total nos fornece uma maneira de calcular ¶(£): ¶(£) = ¶(£ ∩ ¤»)� »"� = ¶(£|¤»)¶(¤»)� »"� = 0,20 × 0,20 + 0,05 × 0,30 + 0,02 × 0,50 ¶(£) = 0,04 + 0,015 + 0,010 = 0,065 O teorema da probabilidade total não é a única maneira de resolver esse tipo de problema, uma outra maneira, seria utilizando uma árvore de probabilidades, também muito útil quando estamos trabalhando com partições de espaço amostral: �4 �3 �� £ 93 Figura 41: Diagrama de árvore contendo as probabilidades e eventos dados pelo enunciado do exemplo. Fonte: Elaborada pela autora. Utilizando a árvore de probabilidade pode ser mais fácil de visualizar as relações entre os eventos e como encontrar as interseções. Montando a árvore completa, como mostrada na figura 41, temos apenas que somar as probabilidade das interseções contendo £: ¶(£) = 0,04 + 0,015 + 0,01 = 0,065. 5.9.2. Teorema de Bayes Dado um evento £, tal que ¶(£) > 0, e uma partição do espaço amostra (¤� , … , ¤�) tem-se: ¶(¤»|£) = ¶(£ ∩ ¤»)¶(£) = ¶(£|¤»)¶(¤»)∑ ¶(£|¤�)¶(¤�)��"� Com º = 1,2, … , �. Exemplo: Suponha que um fabricante de sorvetes recebe 20% de todo o leite que utiliza de uma fazenda ��, 30% de uma outra fazenda �3 e 50% de �4. Um órgão de fiscalização inspecionou as fazendas de surpresa e observou que 20% do leite produzido por �� estava adulterado por adição de água, enquanto que para �3 e �4, essa proporção era de 5% e 2%, respectivamente. Na indústria de sorvetes os galões de leite são armazenados em um refrigerador sem identificação das fazendas. Agora, ao invés de ter interesse na probabilidade de um galão selecionado ao acaso conter leite adulterado, vamos considerar que temos o interesse em saber qual a probabilidade de um galão de leite adulterado ser proveniente da fazenda 1. Já vimos que o enunciado nos dava as seguintes informações: “20% de todo o leite que utiliza de uma fazenda ��”: ¶(��) = 0,20; “30% de uma outra fazenda �3”: ¶(�3) = 0,30; “e 50% de �4”: ¶(�4) = 0,50; “20% do leite produzido por �� estava adulterado”: ¶(£|��) = 0,20; “para �3 e �4, essa proporção era de 5% e 2%, respectivamente”: ¶(£|�3) = 0,05 e ¶(£|�4) = 0,02. 94 Apenas com essas informações não é possível calcular a probabiliade desejada ¶(£|��) diretamente, já que não conhecemos ¶(£ ∩ ��) e ¶(£). Podemos, no entanto, utilizar o teorema de Bayes: ¶(��|£)= ¶(£|��)¶(��)¶(£|��)¶(��) + ¶(£|�3)¶(�3) + ¶(£|�3)¶(�3) ¶(��|£) = 0,20 × 0,200,20 × 0,20 + 0,30 × 0,05 + 0,50 × 0,02 = 0,040,065 = 0,615 Podemos utilizar o diagrama de árvores para resolver esse tipo de problema, fica por conta de cada um escolher o método com o qual sente mais afinidade e facilidade. 5.10. Exercícios 1- [BLAIR e TAYLOR, 2013] A tabela de dupla entrada dada abaixo representa os resultados de um censo dirigido que abrange todos os alunos em uma grande universidade. Cada aluno foi categorizado por gênero (Ê = �Masculino� / � = �Feminino�) e por suas respostas quanto a terem ou não estado embriagados nos últimos 30 dias (� = �estiveram embriagados� / � ̅ =�não estiveram embriagados�). Determine as probabilidades: � � ̅ Total Ê 0,22 0,32 0,54 � 0,1 0,36 0,46 Total 0,32 0,68 1 a. A probabilidade de que uma aluna, selecionada aleatoriamente dentre as mulheres, não tenha estado embriagada nos últimos 30 dias. b. A probabilidade de que um aluno selecionado aleatóriamente seja do sexo feminino. c. A probabilidade de que um aluno selecionado aleatoriamente seja do sexo masculino ou tenha estado embriagado nos últimos 30 dias. d. A probabilidade de que um aluno selecionado aleatoriamente seja do sexo feminino e tenha estado embriagado nos últimos 30 dias. e. A probabilidade de que um aluno selecionado aleatoriamente dentre aqueles que informaram terem estado embriagados nos últimos 30 dias seja do sexo feminino. f. A probabilidade de que um aluno selecionado aleatoriamente seja do sexo masculino ou feminino. g. O sexo e o estado de embriagues são independentes? Qual é a evidência para a sua conclusão? 2- [BLAIR e TAYLOR, 2013] Suponha que metade dos moradores de uma comunidade seja do sexo feminino e que 20% dos residentes nessa comunidade admitam um aumento de imposto para que sejam oferecidos fundos para vacinações gratuitas contra doenças infantis. Considere que 10% dos moradores da comunidade são do sexo feminino e apoiadores do aumento do imposto. a. Pode-se dizer que o gênero e o apoio ao aumento do imposto são eventos independentes? Qual é a evidência que dá suporte à sua resposta? b. Determine a probabilidade de um indivíduo selecionado aleatoriamente dessa comunidade apoie o aumento do imposto dado que ele é do sexo masculino. 95 3- [BLAIR e TAYLOR, 2013] Suponha que, para os eventos £, £̅, ¤, ¤�, ¶(¤�|£) = 0,22, ¶(£̅) = 0,20 e ¶(¤) = 0,72. Use essa informação para completar a tabela abaixo: £ £̅ Total ¤ ¤� Total 1,00 4- [BLAIR e TAYLOR, 2013] Suponha que, em uma determinada comunidade onde 40% da população term menos de 40 anos, descubramos que a proporção de moradores com menos de 40 anos que apoiam a vacinação obrigatória de crianças em idade escolar contra certas doenças seja de 0,72. A proporção de moradores com mais de 40 anos que apoiam a proposição é de 0,52. Use essa informação para calcular a proporção de possoas nessa comunidade que apoiam a vacinação. 5- [BUSSAB e MORETTIN, 2004] Um restaurante popular apresenta apenas dois tipos de refeições: salada completa ou um prato à base de carne. Considere que 20% dos fregueses do sexo asculino prefenrem salada, 30% das mulheres escolhem carne, 75% dos fregueses são homens e os seguintes eventos: ¬: �freguês é homem� £: �freguês prefere salada� Ê: �freguês é mulher� ¤: �freguês prefere carne� Calcular: a. ¶(¬), ¶(£|¬), ¶(¤|Ê); b. ¶(£ ∩ ¬), ¶(£ ∪ ¬); c. ¶(Ê|£). 6- [BUSSAB e MORETTIN, 2004] As probabilidade de três motoristas serem capazes de guiar até em casa com segurança, depois de beber, são de 1/3, 1/4 e 1/5, respectivamente. Se decidirem guiar até em casa, depois de beber numa festa, qual a probabilidade de todos os três motoristas sofrerem acidentes? Qual a probabilidade de pelo menos um dos motoristas guiar até em casa a salvo? 7- [DEVORE, 2006] Uma empresa de fundos mútuos oferece a seus cl=ientes diversos fundos: um de mercado, três de títulos diferentes (curto, médio e longo prazos), dois fundos de ações (moderados e de alto risco) e um misto. Dentre os usuários que possuem cotas em apenas um fundo, seguem as porcentagens de clientes nos diferentes fundos: Mercado – 20%; Título curto prazo – 15%; Título intermediário – 10%; Título longo prazo – 5%; Ações de alto risco – 18%; Ações de risco moderado – 25%; Misto – 7%. Um cliente que possui cotas em apenas um fundo é selecionado aleatoriamente. a. Qual é a probabilidade de o indivíduo selecionado possuir cotas do fundo misto? b. Qual é a probabilidade de o indivíduo selecionado possuir cotas em um fundo de títulos? c. Qual é a probabilidade de o indivíduo selecionado não possuir cotas em um fundo de ações? 8- [DEVORE, 2006] Uma empresa de consultoria em informática apresenta suas propostas de três projetos. Represente por £� = {projeto i fechado}, para i = 1, 2, 3 e suponha que ¶(£�) = 0,22, ¶(£3) = 0,25, ¶(£4) = 0,28, ¶(£� ∩ £3) = 0,11, ¶(£� ∩ £4) = 0,05, ¶(£3 ∩ £4) = 0,07, ¶(£� ∩ £3 ∩ £4) = 0,01. Expresse em palavras cada evento a seguir e calcule sua probabilidade: a. £� ∪ £3 b. £�ª ∩ £3ª c. £� ∪ £3 ∪ £4 d. £�ª ∩ £3ª ∩ £4ª e. £�ª ∩ £3ª ∩ £4 f. (£�ª ∩ £3ª ) ∪ £4 96 9- [DEVORE, 2006] Represente por £ o evento de que a próxima solicitação de assistência de um consultor de um software estatístico seja relacionada ao pacote SPSS e por ¤ o evento de a próxima solicitação de ajuda ser relacionada ao pacote SAS. Suponha que ¶(£) = 0,30 e ¶(¤) = 0,50. a. Por que não é o caso de ¶(£) + ¶(¤) = 1? b. Calcule ¶(£ª). c. Calcule ¶(£ ∪ ¤). d. Calcule ¶(£ª ∩ ¤ª). 10- [DEVORE, 2006] A inspeção visual de juntas de solda em placas de circuitos impressos pode ser bastante subjetiva. Parte do problema se origina dos diversos tipos de defeitos de soldas (por exemplo, falta de solda em pontos variados) e até da quantidade de um ou mais desses defeitos. Consequentemente, até mesmo inspetores altamente treinados podem discordar sobre a disposição de uma junta. Em um lote de 10.000 juntas, o inspetor £ encontrou 724 que julgou defeituosas, o inspetor ¤ encontrou 751 e 1159 foram encontradas por ao menos um dos inspetores. Suponha que uma dessas 10.000 juntas seja selecionada aleatoriamente. a. Qual é a probabilidade de que a junta selecionada não seja julgada defeituosa por nenhum dos dois inspetores? b. Qual é a probabilidade de que a junta selecionada seja julgada defeituosa pelo inspetor ¤, mas não pelo inspetor £? 11- [DEVORE, 2006] Uma empresa de seguros oferece quatro níveis de dedução – nenhum, baixo, médio e alto – para os possuidores de apólices de seguros residenciais e três níveis diferentes – baixo, médio e alto – para os possuidores de apólices de seguros de automóveis. A tabela a seguir fornece as proporções das diversas categorias de segurados que possuem ambos os tipos de seguros. Por exemplo: a proporção de indivíduos com baixa dedução de seguro residencial e baixa dedução de seguro de automóvel é 0,06 (6% de todos os indivíduos). Automóvel Residencial N B M A B 0,04 0,06 0,05 0,03 M 0,07 0,10 0,20 0,10 A 0,02 0,03 0,15 0,15 Suponha que um indivíduo, que possua ambos os tipos de apólices, seja selecionado aleatoriamente. a. Qual é a probabilidade de que o indivíduo tenha uma dedução média de automóvel e alta de residência? b. Qual é a probabilidade de que o indivíduo tenha uma dedução baixa de automóvel? Uma dedução baixa de residência? c. Qual é a probabilidade de que um indivíduo esteja na mesma categoria para deduções de automóvel e residência? d. Com base na resposta da parte (c), qual é a probabilidade de que as duas categorias sejam diferentes? e. Qual é a probabilidade de que o indivíduo tenha ao menos um nível baixo de dedução? f. Usando a resposta da parte (e), qual é a probabilidade de que nenhum nível de dedução seja baixo? 12- [DEVORE, 2006] Os três principais itens opcionais de certo tipode carro novo são transmissão automática (£), teto solar (¤) e rádio com CD-player (q). Se 70% de todos os compradores solicitarem £, 80% solicitarem ¤, 75% solicitarem q, 85% solicitarem £ ou ¤, 90% solicitarem £ ou q, 95% 97 solicitarem ¤ ou q e 98% solicitarem £ ou ¤ ou q, calcule as probabilidades dos eventos a seguir. Desenhe um diagrama de Venn e identifique todas as regiões. a. O comprador seguinte solicita um dos três opcionais. b. O comprador seguinte não solicita nenhum opcional. c. O comprador seguinte solicita apenas transmissão automática e nenhum dos dois outros opcionais d. O comprador seguinte solicita exatamente um opcional. 13- [LARSON e FARBER, 2004] A distribuição de frequências abaixo mostra o número de eleitores norte- americanos (em milhões) de acordo com a idade. (Fonte: U.S. Bureau of the Census). Obtenha a probabilidade de um eleitor escolhido ao acaso Idade dos eleitores Frequência (em milhões) 18 a 20 anos de idade 10,8 21 a 24 anos de idade 13,9 25 a 34 anos de idade 40,1 35 a 44 anos de idade 43,3 45 a 64 anos de idade 53,7 65 anos de idade ou mais 31,9 a. ter entre 21 e 24 anos b. não ter entre 18 e 20 anos 14- [LARSON e FARBER, 2004] Uma companhia que fabrica caixas de papelão percebe que: a probabilidade de se produzir uma caixa com um furo é de 0,05. a probabilidade de uma caixa ter um canto esmagado é de 0,08. a probabilidade de uma caixa ter um furo e um canto esmagado é de 0,004. a. Os eventos "selecionar uma caixa com furo" e "selecionar uma caixa com um canto esmagado" são mutuamente exclusivos? Explique. b. Se um inspetor de qualidade escolher ao acaso uma caixa, determine a de a caixa ter um furo ou um canto esmagado. 15- [LARSON e FARBER, 2004] Suponha que ¶(£|¤) = 0,2, ¶(£|¤ª) = 0,3 e ¶(¤) = 0,8. Qual é ¶(£)? 16- [LARSON e FARBER, 2004] Suponha que 2% dos rolos de tecido de algodão e 3% dos rolos de tecido de náilon contenham falhas. Dos rolos usados por um fabricante, 70% são de algodão e 30% são de náilon. Qual será a probabilidade de que um rolo selecionado aleatoriamente, usado pelo fabricante, contenha falhas? 17- [LARSON e FARBER, 2004] A aspereza nas bordas de produtos de papel cortado aumenta à medida que as lâminas de uma faca vão sendo gastas. Somente 1% dos produtos cortados com novas lâminas tem bordas ásperas, 3% dos produtos cortados com lâminas mediamente afiadas exibem rugosidade e 5% dos produtos cortados com lâminas gastas exibem rugosidade. Se 25% das lâminas na fabricação forem novas, 60% forem mediamente afiadas e 15% forem gastas, qual será a proporção dos produtos que exibem uma aspereza nas bordas? 18- [LARSON e FARBER, 2004] Os dados de 200 peças usinadas estão resumidos a seguir: condição da extremidade Profundidade do orifício Acima do valor desejado abaixo do valor desejado grosseira 15 10 moderada 25 20 lisa 60 70 98 a. Qual é a probabilidade de que uma peça selecionada tenha uma extremidade em condição moderada e uma profundidade do orifício abaixo do valor alvo? b. Qual é a probabilidade de que uma peça selecionada tenha uma extremidade em condição moderada ou uma profundidade do orifício abaixo do valor alvo? c. Qual é a probabilidade de que uma peça selecionada não tenha uma extremidade em condição moderada ou não tenha uma profundidade do orifício abaixo do valor alvo? d. Construa um diagrama de Venn, com a representação dos eventos no espaço amostral. 19- [LARSON e FARBER, 2004] Em uma operação de enchimento automático, a probabilidade de um enchimento incorreto quando o processo for operado a baixa velocidade será 0,001. Quando o processo for operado a alta velocidade, a probabilidade de um enchimento incorreto será 0,01. Suponha que 30% dos reservatórios sejam cheios quando o processo for operado a alta velocidade e o restante seja cheio a baixa velocidade. a. Qual é a probabilidade de um reservatório ser cheio incorretamente? b. Se um reservatório cheio incorretamente for encontrado, qual é a probabilidade de que ele tenha sido cheio durante uma operação a alta velocidade? 20- [MONTGOMERY e RUNGER, 2003] Considere os dados sobre contaminação de pastilhas e localização na ferramenta de produzir faísca. Considere que uma pastilha seja selecionada ao acaso, desse conjunto. Faça £ denotar o evento em que uma pastilha contenha quatro ou mais partículas e faça ¤ denotar o evento em que uma pastilha seja proveniente do centro da ferramenta de produzir faísca. Determine a. ¶(£) b. ¶(£|¤) c. ¶(¤) d. ¶(¤|£) e. ¶(£ ∩ ¤) f. ¶(£ ∪ ¤) 21- [TRIOLA, 2013] Capacetes e Ferimentos –Use os dados da tabela que segue e responda: Ferimentos na Cabeça Sem Ferimentos Usava Capacete 96 656 Sem Capacete 480 2330 a. Se um dos sujeitos é selecionado aleatoriamente, ache a probabilidade de ser selecionado alguém que teve ferimento na cabeça. b. Se um dos sujeitos é selecionado aleatoriamente, ache a probabilidade de ser selecionado alguém que usava capacete. c. Se um dos sujeitos é selecionado aleatoriamente, ache a probabilidade de ser selecionado alguém que teve ferimento na cabeça ou que usava capacete. d. Se um dos sujeitos é selecionado aleatoriamente, ache a probabilidade de ser selecionado alguém que não usava capacete ou que não sofreu ferimentos. e. Se um dos sujeitos é selecionado aleatoriamente, ache a probabilidade de ser selecionado alguém que usava capacete e que sofreu ferimento na cabeça. f. Se um dos sujeitos é selecionado aleatoriamente, ache a probabilidade de ser selecionado alguém que não usava capacete e que não sofreu ferimentos. g. Se dois diferentes sujeitos do estudo são selecionados aleatoriamente, ache a probabilidade de que ambos estivessem usando capacete. 99 h. Se dois diferentes sujeitos do estudo são selecionados aleatoriamente, ache a probabilidade de que ambos tenham sofrido ferimentos na cabeça. i. Se um dos sujeitos é selecionado aleatoriamente, ache a probabilidade de ser selecionado alguém que não usava capacete, dado que sofreu ferimentos na cabeça. j. Se um dos sujeitos é selecionado aleatoriamente, ache a probabilidade de ser selecionado alguém que não sofreu ferimentos, dado que usava capacete. 22- [WALPOLE et al., 2009] Encontre os erros em cada uma das afirmações abaixo: a. As probabilidades de que um vendedor de carros venda 0, 1, 2 ou 3 carros em qualquer dia de fevereiro são, respectivamente, 0,19; 0,38; 0,29 e 0,15. b. A probabilidade de que choverá amanhã é de 0,40, e a probabilidade de que não choverá é de 0,52. c. As probabilidades de que uma impressora cometerá 0, 1, 2, 3, 4 ou mais erros ao preparar um documento são, respectivamente, 0,19; 0,34; -0,25; 0,43 e 0,29. d. Em uma única retirada de cartas de um baralho, a probabilidade de se tirar uma carta de copas é de 1/4, a probabilidade de se tirar uma carta preta é de 1/2 e de selecionar uma carta de copas preta é de 1/8. 23- [WALPOLE et al., 2009] A probabilidade de que uma indústria norte-americana será localizada em Xangai, na China, é de 0,7; a probabilidade de que será localizada em Pequim, China, é de 0,4; e a probabilidade de que será localizada em Xangai ou em Pequim, ou em ambos os lugares, é de 0,8. Qual é a probabilidade de que a empresa seja localizada: a. em ambas as cidades? b. em nenhuma das cidades? 24- [WALPOLE et al., 2009] Em uma classe de 100 formandos do ensino médio, 54 estudaram matemática, 69 estudaram história e 35 estudaram ambas as matérias. Se um desses estudantes for selecionado aleatoriamente, determine a probabilidade de que: a. o estudante tenha estudado matemática ou história. b. o estudante não tenha estudado nenhuma dessas matérias. c. o estudante tenha estudado história, mas não matemática. 25- [WALPOLE et al., 2009] É comum, em muitas áreas industriais, o uso de máquinas envasadoras para colocar os produtos em caixas. Isso ocorre na indústria alimentícia,bem como em outras áreas nas quais os produtos têm uso doméstico, como o detergente. Tais máquinas não são perfeitas e podem: £, atender às especificações; ¤, encher as caixas menos do que o necessário; ou q, encher mais do que o necessário. Geralmente, o não enchimento das caixas é o que se deseja evitar. Seja ¶(¤) = 0,001 enquanto ¶(£) = 0,990. a. Forneça ¶(q). b. Qual é a probabilidade de a máquina não encher as caixas menos do que o necessário? c. Qual é a probabilidade de a máquina encher as caixas mais do que o necessário ou encher menos do que o necessário? 26- [WALPOLE et al., 2009] Se R é o evento no qual um condenado cometeu assalto à mão armada e � é o evento no qual o condenado vendeu drogas, enuncie em palavras as probabilidades expressas por: a. ¶(�|�); b. ¶(�ª|�); c. ¶(�ª|�ª). 27- [WALPOLE et al., 2009] Uma amostra aleatória de 200 adultos é classificada pelo seu sexo e nível de instrução. 100 Nível de instrução Sexo masculino Sexo feminino Elementar 38 45 Secundário 28 50 Universitário 22 17 Se uma pessoa desse grupo for escolhida aleatoriamente, determine a probabilidade de que: a. a pessoa é um homem, e recebeu educação secundária. b. a pessoa não tem nível universitário, e é do sexo feminino. 28- [WALPOLE et al., 2009] A probabilidade de que um homem casado assista a certo programa de televisão é de 0,4 e de que uma mulher casada assista é de 0,5. A probabilidade de que um homem assista ao programa, dado que sua mulher assiste, é de 0,7. Determine a probabilidade de que: a. um casal assista ao programa. b. uma esposa assista ao programa, dado que seu marido o faça. c. pelo menos uma pessoa do casal assista ao programa. 29- [WALPOLE et al., 2009] A probabilidade de que um médico faça o diagnóstico de uma doença corretamente é de 0,7. Dado que o médico faz um diagnóstico incorreto, a probabilidade de que o paciente entre com um processo é de 0,9. Qual é a probabilidade de que o médico erre o diagnóstico e seja processado pelo paciente? 30- [WALPOLE et al., 2009] Uma valise contém dois frascos de aspirinas e três frascos de tabletes para a tireoide. Uma segunda sacola contém três frascos de aspirinas, dois tabletes para tireoide e um frasco de laxantes. Se um frasco for retirado aleatoriamente de cada uma das sacolas, determine a probabilidade de que: a. ambos contenham tabletes para a tireoide. b. nenhum dos frascos contenha tabletes para a tireoide. c. os dois frascos contenham tabletes diferentes. 31- [WALPOLE et al., 2009] Em certa região do país, sabe-se, baseado em experiências anteriores, que a probabilidade de selecionar um adulto com mais de 40 anos, com câncer, é de 0,05. Se a probabilidade de o médico diagnosticar corretamente uma pessoa com câncer como portadora da doença é de 0,78 e a probabilidade de diagnosticar incorretamente uma pessoa sem câncer como sendo portadora da doença é de 0,06, qual é a probabilidade de que a pessoa seja diagnosticada com câncer? 32- [WALPOLE et al., 2009] Referindo-se ao Exercício 31, qual é a probabilidade de que a pessoa diagnosticada com câncer realmente tenha a doença? 33- [WALPOLE et al., 2009] Suponha que quatro inspetores em uma fábrica de filmes tenham de estampar a data de validade em cada pacote de filme, ao final da linha de montagem. John, que estampa 20% dos pacotes, não estampa a data de validade em um de cada 200 pacotes; Tom, que estampa 60% dos pacotes, erra uma vez a cada 100 pacotes; Jeff, que estampa 15% dos pacotes, erra uma vez a cada 90 pacotes; e Pat, que estampa 5% dos pacotes, erra uma vez a cada 200 pacotes. Se um cliente reclama que sua embalagem de filme não contém a data de validade, qual é a probabilidade de que ela tenha sido inspecionada por John? 101 6. Variáveis Aleatórias Até agora, foi visto como definir e trabalhar com probabilidades utilizando o conhecimento do espaço amostral e das relações entre os eventos definidos nesse espaço amostral. Com tudo que vimos até agora, poderíamos resolver praticamente todos os problemas de probabilidade que possam aparecer, no entanto, ao desenvolver a teoria da probabilidade, pode-se observar que existem alguns padrões que podem aparecer em diferentes problemas, e que ao reconhecer esses padrões e reescrever os problemas utilizando espaços equivalentes o trabalho ao resolvê-los torna-se consideravelmente menor. Considere, por exemplo, o problema abaixo retirado de PINHEIRO et al (2012): “Humberto deseja aumentar a capacidade de memória RAM do seu microcomputador. A placa mãe de Humberto permite a instalação de até 4 pentes de memória e atualmente só possui um pente. Ele vai a um posto de revenda de computadores e solicita a compra e instalação de mais três pentes de memória, idênticos ao atual. Na loja há 12 pentes com essa característica. O que Humberto não sabe, e o técnico também não, é que entre os 12 há quatro pentes defeituosos. Se os três pentes novos forem escolhidos ao acaso, qual a probabilidade de que: a) A capacidade de memória do PC realmente aumente?” De acordo com o enunciado do problema, a capacidade de memória do PC irá aumentar se ao menos um dos três pentes escolhidos não for defeituoso, e irá continuar com a capacidade de memória original se todos os 3 pentes escolhidos forem defeituosos, dessa forma, podemos criar os seguintes eventos de interesse: £ = {o primeiro pente selecionado não é defeituoso (é perfeito)}; ¤ = {o segundo pente selecionado é perfeito}; q = {o terceiro pente selecionado é perfeito}; Podemos construir o diagrama de árvore (figura 42), identificar os resultados possíveis e definir o espaço amostral (Ω): 102 Figura 42: Diagrama de árvore para o problema dos pentes de memória. Fonte: Elaborada pela autora. Utilizando a figura 42, fica fácil ver que o espaço amostral relativo à esse problema é: Ω =�£¤q, £¤qª , £¤ªq, £¤ªqª , £ª¤q, £ª¤qª , £ª¤ªq, £ª¤ªqª�, assim como podemos obter os resultados possíveis, também podemos obter as suas probabilidades, mas ainda não temos, de maneira direta, a resposta da pergunta: “A probabilidade de que a capacidade de memória do PC realmente aumente?”, para isso, precisaríamos somar as probabilidades dos resultados: £¤q, £¤qª , £¤ªq, £¤ªqª , £ª¤q, £ª¤qª , £ª¤ªq. Como o interesse é saber quantos pentes perfeitos haverão dentre os selecionados, faz sentido querer trabalhar com a variável ` relativa ao número de pentes perfeitos dentre os 3 selecionados, essa variável poderia assumir os valores: 0 (resultado possível: £ª¤ªqª); 1 (resultados possíveis: £¤ªqª , £ª¤qª , £ª¤ªq); 2 (resultados possíveis: £¤qª , £¤ªq, £ª¤q); e 3 (resultado possível: £¤q). Utilizando essa nova variável ̀ , a resposta para a pergunta “A probabilidade de que a capacidade de memória do PC realmente aumente?” seria: ¶(` ≥ 1) = 1 − ¶(` = 0) = 1 − Q�3 ∙ 4�� ∙ 3�T = 1 − 0,018 = 0,982. A variável ` é o que chamamos de variável aleatória discreta, e veremos a partir de agora, como definir, encontrar e trabalhar com variáveis aleatórias a fim de facilitar o cálculo de probabilidades em diversas situações. Uma variável aleatória é uma função que associa a cada ponto do espaço amostral um número real. 103 Algumas variáveis aleatórias irão assumir valores em um conjunto enumerável (como a variável utilizada no exemplo acima), essas, são chamadas de variáveis aleatórias discretas. Algumas irão assumir valores em um intervalo da reta real (ex: altura dos alunos de determinada disciplina) e serão denominadas contínuas. Exemplo 1: Suponha que uma lâmpada tenha sido posta em um soquete à meia noite de determinado dia. O Experimento será considerado terminado quando a lâmpada queimar. Serão anotados o dia (primeiro, segundo, terceiro, ...) e a hora em que a lâmpada queimou (24h). Considere que se deseja saber quantas horas a lâmpada permaneceu acesa até queimar. Defina a variável aleatóriaque deve ser utilizada. Resultados do experimento: Dia, dado por 9 (definido no conjunto dos naturais maiores ou iguais a 1); Hora, dado por ℎ (definido no conjunto dos reias); Variável aleatória de interesse, dada por `: �1|1 = 24(9 − 1) + ℎ�, representa o tempo que a lâmpada permaneceu acesa antes de queimar. Exemplo 2: Uma fonte radioativa está emitindo partículas ×. A emissão dessas partículas é observada em um dispositivo contador durante um período de tempo especificado. Qual variável pode ser utilizada nesse problema? Resposta: `: {número de partículas × emitidas durante um determinado período} 6.1. Exercícios 1- [LARSON e FARBER, 2004] O que é uma variável aleatória? Dê um exemplo de variável aleatória discreta e de uma contínua. Justifique sua resposta. 2- [LARSON e FARBER, 2004] Considere as duas afirmações abaixo, determine se elas são verdadeiras ou falsas. Se for falsa, reescreva-a em sua forma verdadeira. a. Na maior parte das aplicações, as variáveis aleatórias contínuas representam dados de contagem, enquanto as discretas representam dados de medida. b. A média de uma variável aleatória representa a “média teórica” de um experimento probabilístico e algumas vezes não é um resultado possível. 3- [LARSON e FARBER, 2004] determine se as variáveis dadas abaixo são discretas ou contínuas. Explique seu raciocínio. a. O número anual de mortes nas rodovias do Texas. b. O volume de sangue retirado para um exame. c. O número de livros vendidos por trimestre em uma livraria. d. A quantidade de neve (em polegadas) caída no Alasca no último inverno. 4- [WALPOLE et. Al, 2009] Classifique as seguintes variáveis aleatórias como discretas ou contínuas: a. Número de acidentes de carro por ano, na Virgínia. b. O tempo para jogar 18 buracos no golfe. c. A quantidade de leite produzida anualmente por determinada vaca. d. O número de ovos postos por uma galinha a cada mês. e. O número de permissões para construção de prédios em uma cidade a cada mês. f. A produção, em toneladas, de um grão por acre. 104 6.2. Variáveis Aleatórias Discretas Como mencionado anteriormente, uma variável aleatória pode ser discreta ou contínua, e assim como na construção de tabelas de frequências ou gráficos, devemos classificar uma variável aleatória como discreta ou contínua, a fim de conseguir trabalhar com ela de maneira adequada. Nos exemplos dados na seção anterior, temos uma variável aleatória discreta (exemplo 2) e uma contínua (exemplo 1). Iremos estudar, agora, como lidar com variáveis aleatórias discretas. 6.2.1. Distribuição de Probabilidade de Variáveis Aleatórias Discretas A distribuição de probabilidade de uma variável aleatória discreta `, definida em um espaço amostral Ω, é uma tabela que associa a cada valor de ` sua probabilidade. ¶(` = 1�) = ](1�) = ]� , � = 1,2, … Ou ainda: Tabela 29: Distribuição de probabilidade da variável aleatória `. ` 1� 13 14 … ¶(` = 1�) ]� ]3 ]4 … Fonte: Elaborada pela autora. Uma distribuição de probabilidade deve satisfazer: 0 ≤ ]� ≤ 1 e ∑ ]�� = 1. Exemplo1: Com dados do último censo, a assistente social de um Centro de Saúde constatou que para as famílias da região, 20% não têm filhos, 30% têm um filho, 35% têm dois e as restantes se dividem igualmente entre três, quatro ou cinco filhos. Suponha que uma família será escolhida, aleatoriamente, nessa região e o número de filhos averiguado. Defina Ç como sendo a variável aleatória “número de filhos”. Descreva a distribuição de probabilidade de Ç. Resolução: primeiro, pode ser interessante resumir o enunciado na seguinte tabela: Tabela 30: Distribuição de probabilidade da variável aleatória Ç. Ç 0 1 2 3 4 5 ¶(Ç = ��) 0,20 0,30 0,35 ] ] ] Fonte: Elaborada pela autora. Devemos, agora, encontrar o valor de ]. Para tal, vamos utilizar as propriedades da distribuição de probabilidade: ]�� = 1 105 0,2 + 0,3 + 0,35 + 3] = 1 3] = 1 − 0,85 ] = 0,153 = 0,05 Logo, a distribuição de probabilidade de Ç é dada por: Tabela 31 Distribuição de probabilidade da variável aleatória Ç. Ç 0 1 2 3 4 5 ¶(Ç = ��) 0,20 0,30 0,35 0,05 0,05 0,05 Fonte: Elaborada pela autora. Exemplo 2: Na construção de um certo prédio, as fundações devem atingir 15 metros de profundidade e, para cada 5 metros de estacas colocadas, o operador anota se houve alteração no ritmo de perfuração previamente estabelecido. Essa alteração é resultado de mudanças para mais ou para menos, na resistência do subsolo. Nos dois casos, medidas corrigidas serão necessárias, encarecendo o custo da obra. Com base em avaliações geológicas, admite-se que a probabilidade de ocorrência de alterações é de 0,1 para cada 5 metros. O custo básico inicial é de 100 UPCs (unidade padrão de construção) e será acrescido de 50º, com º representando o número de alterações observadas. Como se comporta a variável custo das obras de fundação? (OBS: Considere que a alteração é detectada no primeiro metro e as correções aplicadas para a perfuração dos próximos 4 metros.) Resolução: Supõe-se que as alterações ocorrem independentemente entre cada um dos 3 intervalos de 5 metros. Considere o evento £ = {ocorre uma alteração} Vamos construir um diagrama de árvore para auxiliar na resolução desse problema: 106 Figura 43: Diagrama de árvore para auxiliar a resolução do exemplo 2. Fonte: Elaborada pela autora. Vamos definir a variável q como sendo o custo da obra. Utilizando a figura 43 e as informações do enunciado, podemos montar a tabela 32, dada a seguir: Tabela 32: Tabela ilustrativa para auxiliar a resolução do exemplo 2. Evento Probabilidade q (em UPCs) £ ∩ £ ∩ £ 0,1 × 0,1 × 0,1 = 0,14 100 + 50 × 3 = 250 £ ∩ £ ∩ £ª 0,1 × 0,1 × 0,9 = 0,13 × 0,9 100 + 50 × 2 = 200 £ ∩ £ª ∩ £ 0,1 × 0,9 × 0,1 = 0,13 × 0,9 100 + 50 × 2 = 200 £ ∩ £ª ∩ £ª 0,1 × 0,9 × 0,9 = 0,1 × 0,93 100 + 50 × 1 = 150 £ª ∩ £ ∩ £ 0,9 × 0,1 × 0,1 = 0,13 × 0,9 100 + 50 × 2 = 200 £ª ∩ £ ∩ £ª 0,9 × 0,1 × 0,9 = 0,1 × 0,93 100 + 50 × 1 = 150 £ª ∩ £ª ∩ £ 0,9 × 0,9 × 0,1 = 0,1 × 0,93 100 + 50 × 1 = 150 £ª ∩ £ª ∩ £ª 0,9 × 0,9 × 0,9 = 0,14 100 + 50 × 0 = 100 Fonte: Elaborada pela autora. Podemos resumir as informações da tabela acima utilizando a tabela de distribuições de probabilidade de q: Tabela 33: Distribuição de probabilidade da variável aleatória q. q 100 150 200 250 ¶(q = q�) 0,729 0,243 0,029 0,001 Fonte: Elaborada pela autora. 6.2.2. Função de Distribuição de Probabilidade A função de distribuição ou função acumulada de probabilidade de uma variável aleatória discreta ` é definida, para qualquer número real 1, pela seguinte expressão: �(1) = ¶(` ≤ 1) 107 Exemplo 1: Suponha que a variável aleatória ` tome os três valores 0, 1 e 2, com probabilidades 1 3# , 1 6# e 1 2# , respectivamente. Para encontrar a função de distribuição da variável aleatória ` deve-se seguir os seguintes passos: 1. Devemos encontrar o valor mínimo da função de distribuição, para tal, devemos considerar o que ocorreria se a variável aleatória fosse menor do que seu valor mínimo. No nosso caso, o que ocorreria se 1 < 0. a. Nesse caso, �(1) = �(�) = ¶(` ≤ �) = 0, em que � < 0. b. Ou seja, para 1 < 0, temos que �(1) = 0. 2. Em seguida, devemos considerar o que ocorreria se 1 estivesse entre os dois menores valores, incluindo o valor mínimo. No nosso caso, o que ocorreria se 0 ≤ 1 < 1. a. Para tentar ilustrar melhor, vamos assumir que 1 = , em que ∈ Ë0,1): b. Em seguida estudar qual a função de distribuição para 1 = : �(1) = �( ) = ¶(` ≤ ) =¶(` = 0) = 1 3# . c. Ou seja, para 0 ≤ 1 < 1, temos que �(1) = 1 3# . 3. Devemos prosseguir dessa maneira alterando os intervalos em que definimos a variável aleatória `, o próximo intervalo seria: 1 ≤ 1 < 2. a. Poderíamos fazer um caso específico, utilizando um valor � ∈ Ë1,2), mas vou fazer de maneira direta, se você tiverdificuldade para enxergar sem esse caso específico, continue o utilizando até parar de sentir a necessidade dele. b. A função de distribuição para 1 ≤ 1 < 2: �(1) = ¶(` ≤ 1) = ¶(` = 0) + ¶(` = 1) =1 3# + 1 6# = 1 2# . c. Ou seja, para 1 ≤ 1 < 2, temos que �(1) = 1 2# . 4. Por fim, devemos estudar o que ocorreria se 1 ≥ 2. a. A função de distribuição para 1 ≥ 2: �(`) = ¶(` < 1) = ¶(` = 0) + ¶(` = 1) + ¶(` =2) = 1 3# + 1 6# + 1 2# = 1 b. Ou seja, para 1 ≤ 2, temos que �(1) = 1. Resumindo: �(1) = ⎩⎪⎨ ⎪⎧0, _[ 1 < 0 1 3# , _[ 0 ≤ 1 < 11 2# , _[ 1 ≤ 1 < 21, _[ 1 ≥ 2 ; ou: 0 1 108 Fonte: Elaborada pela autora. A função de distribuição nos dá a probabilidade acumulada até determinado ponto, no exemplo que fizemos, se eu pedir: Qual a probabilidade de 1 ≤ 1, poderia responder utilizando �(1) = 1 2# ; ou se quiser saber, qual a probabilidade de 1 = 1, poderia fazer: �(1) − �(0) = 1 2# − 1 3# = 1 6# . De uma distribuição de probabilidades é possível encontrar uma função de distribuição. Assim como de uma função de distribuição também podemos encontrar a distribuição de probabilidades. Se ` for uma variável aleatória discreta, com um número finito de valores possíveis, o gráfico da fd será constituído por segmentos horizontais (nesse caso, a função de distribuição se denomina função em degraus), como ocorre na figura 44. A função � é contínua, exceto nos valores possíveis de `, nesses valores o gráfico dará um “salto” de ](1�) de magnitude. 6.2.3. Medidas de Resumo para Variáveis Aleatórias Discretas Na seção 3.4. (página 48) estudamos medidas de resumos para variáveis quantitativas discretas e contínuas, essas medidas de resumo tinham o intuito de fornecer uma visão geral da variável em questão. Demos bastante destaque para a média, variância, desvio padrão e quantis. Ao estudar variáveis aleatórias, existe o interesse em obter valores que a resumam, fornecendo informação sobre sua posição (como a média ou mediana) e sua dispersão (variância, desvio padrão e quantis). Veremos agora como obter medidas de resumo para variáveis aleatórias discretas, iniciando pela média. 6.2.3.1. O Valor Esperado de uma Variável Aleatória Discreta Uma das medidas de resumo, ou parâmetros, mais utilizadas tanto na estatística descritiva, quanto para distribuições de probabilidade é a média, ou esperança, ou valor esperado, dependendo da bibliografia encontraremos uma ou outra denominação para o mesmo parâmetro. Definição: Seja ` uma variável aleatória discreta, com valores possíveis 1�, … , 1�, … Seja ](1�) =¶(` = 1�), � = 1, 2, … , �, … Então, o valor esperado de ` (ou esperança de `), denotado por ¥(`) é definido como: Figura 44: Gráfico da função de distribuição. 109 ¥(`) = 1�](1�)Ý �"� Exemplo 2: Os alunos do curso de Estatística têm um time de futebol que não é dos melhores. Admita que a função de probabilidade dos diversos saldos de gols (diferença entre gols feitos e sofridos) é a seguinte: Tabela 34: Função de probabilidade da variável saldo de gols. Saldo de gols -4 -3 -2 -1 0 1 2 ]� 0,1 0,3 0,3 0,1 0,1 0,05 0,05 Fonte: Elaborada pela autora Encontre o saldo de gols esperado desse time: Resolução: Para encontrar a média, ou valor esperado da variável saldo de gols por partida, basta fazer a média ponderada do saldo de gols pela probabilidade desse saldo ocorrer: ¥(`) = −4 ∙ 0,1 − 3 ∙ 0,3 − 2 ∙ 0,3 − 1 ∙ 0,1 + 0 ∙ 0,1 + 1 ∙ 0,05 + 2 ∙ 0,05 = −1,85 gols/partida Podemos tentar enxergar essa esperança como a média apresentada na seção 3.4.1. (página 49), se todos conseguirem fazer essa conexão entre ambas as medidas, fica mais fácil entender o conceito, já que ambas têm o mesmo significado. Sendo assim, vamos imaginar que foram observados 20 jogos, utilizando as probabilidades dadas na distribuição de probabilidade do exemplo, podemos montar o a seguinte tabela de dados observados: Tabela 35: Frequência absoluta estimada para a variável saldo de gols. Saldo de gols -4 -3 -2 -1 0 1 2 Número de jogos 2 6 6 2 2 1 1 Fonte: Elaborada pela autora. Olhando por esse lado, se fosse pedida a média aritmética bastaria fazer: 1̅ = −4 ∙ 2 − 3 ∙ 6 − 2 ∙ 6 − 1 ∙ 2 + 0 ∙ 2 + 1 ∙ 1 + 2 ∙ 12 + 6 + 6 + 2 + 2 + 1 + 1 = −3720 = −1,85 Não vou me aprofundar no conceito de esperança nesta seção, já que já isso já foi bastante discutido na parte relativa à seção 3.4.1. (página 49). A ideia desta seção é apresentar uma maneira de calcular esse parâmetro para variáveis aleatórias discretas. Exemplo 2: Um fabricante produz peças tais que 10 por cento delas são defeituosas e 90 por cento são não- defeituosas. Se uma peça defeituosa for produzida, o fabricante perde US$1, enquanto uma peça não- defeituosa lhe dá um lucro de US$ 5. Considere a variável aleatória ` como sendo o lucro líquido por peça. Qual o valor esperado de `? Resolução: Essa é uma aplicação muito interessantes da utilização do valor esperado. Para resolvermos esse problema, primeiro, precisamos definir a distribuição de probabilidade de `, para tal, basta relacionar o prejuízo de US$ 1 (ou lucro negativo (- US$ 1)) com a probabilidade da peça ser defeituosa (10% = 0,10) e o lucro (positivo) de US$ 5 com a probabilidade da peça ser perfeita (90% = 0,90); dessa forma temos: 110 Tabela 36: Distribuição de probabilidade da variável lucro. 1� -1 5 ]� 0,1 0,9 Fonte: Elaborada pela autora. Agora é só calcular o valor esperado: ¥(`) = −1 ∙ 0,1 + 5 ∙ 0,9 = Þ$4,40peça Algumas propriedades do valor esperado são dadas abaixo: Seja ` uma variável aleatória e seja à = ¬(`), tem-se ¥(à) = ¥Ë¬(`)Ì = ¬(1�)](1�)Ý �"T . Seja ` = q, em que q é uma constante, então, ¥(`) = q. Suponha-se que q seja uma constante e ` seja uma variável aleatória. Então, ¥(q`) = q¥(`). Sejam ` e à duas variáveis aleatórias quaisquer. Então, ¥(` + à) = ¥(`) + ¥(à). Sejam � variáveis aleatórias `�, … , `�. Então, ¥(`� + ⋯ + `�) = ¥(`�) + ⋯ + E(`�). Exemplo3: Seja ` uma variável aleatória que pode receber os valores −1, 0 e 1 com as respectivas probabilidades: ¶(` = −1) = 0,2 ¶(` = 0) = 0,5 ¶(` = 1) = 0,3 Calcule ¥(`3). Resolução: Para resolver esse problema basta utilizar a primeira dentre as propriedades dadas acima: ¥(à) = ¥Ë¬(`)Ì = ¬(1�)](1�)Ý �"T Nesse caso, temos que ¬(`) = `3, logo: ¥(`3) = (−1)3 ∙ 0,2 + 03 ∙ 0,5 + 13 ∙ 0,3 = 0,5 111 6.2.3.2. A Variância de uma Variável Aleatória Definição: Seja ` uma variável aleatória. Definimos a variância de `, denotada por r(`) ou n�3, da seguinte maneira: r(`) = ¥Ë` − ¥(`)Ì3 = ¥(`3) − Ë¥(`)Ì3 A raiz quadrada positiva de r(`) é denominada o desvio-padrão de `, e é denotado por n�. Assim como foi feito para a esperança, irei me ater a como fazer os cálculos da variância e desvio-padrão no caso de variáveis aleatórias, o conceito e significado dessas estatísticas, ou parâmetros, já foi discutido no material referente à seção 3.4.5. (página 57). Exemplo: O serviço de meteorologia classifica o tipo de céu que é visível, em termos de “grau de nebulosidade”. Uma escala de 11 categorias é empregada: 0, 1, 2, ..., 10, em que 0 representa um céu perfeitamente claro, 10 representa um céu completamente encoberto, enquanto os outros valores representam as diferentes condições intermediárias. Suponha-se que tal classificação seja feita em uma determinada estação meteorológica, em um determinado dia e hora. Seja ` a variável aleatória que pode tomar um dos 11 valores acima. Admita-se que a distribuição de probabilidade de ` seja: ](0) = ](10) = 0,05; ](1) = ](2) = ](8) = ](9) = 0,15; ](3) = ](4) = ](5) = ](6) = ](7) = 0,06 Calcule a esperança e a variância de `. Resolução: Primeiro, vamos calcular a esperança de `: ¥(`) = (0 + 10) ∙ 0,05 + (1 + 2 + 8 + 9) ∙ 0,15 + (3 + 4 + 5 + 6 + 7) ∙ 0,06 = 0,05 + 3 + 1,5 = 5 Poderíamos ter encontrado esse valor de maneira conceitual, já quepodemos verificar que a distribuição de ` é perfeitamente simétrica em torno de 5. Para encontrar a variância de ` basta calcular ¥(`3) e em seguida utilizar a fórmula: r(`) = ¥(`3) − Ë¥(`)Ì3. ¥(`3) = (03 + 103) ∙ 0,05 + (13 + 23 + 83 + 93) ∙ 0,15 + (33 + 43 + 53 + 63 + 73) ∙ 0,06= 5 + 22,5 + 8,1 = 35,6 r(`) = 35,6 − 53 = 10,6 Algumas propriedades da variância de uma variável aleatória são dadas abaixo: Se q for uma constante, r(` + q) = r(`). Se q for uma constante, r(q`) = q3r(`). Sejam `�, `3, … , `�, � variáveis aleatórias independentes. Então, r(`� + `3 + ⋯ + `�) = r(`�) + r(`3) + ⋯ + r(`�). 112 Seja ` uma variável aleatória com variância finita. Então, para qualquer número real ×, r(`) = ¥Ë(` − ×)3Ì − Ë¥(`) − ×Ì3. 6.2.4. Algumas Distribuições de Probabilidade Existem diversas distribuições de probabilidade que explicam de maneira bastante satisfatória a distribuição de probabilidades de variáveis aleatórias discretas de interesse prático. O conhecimento dessas distribuições facilita a compreensão das variáveis e o processo de previsão e tomada de decisão em problemas reais. Devido ao caráter introdutório desta apostila iremos nos ater a apenas duas distribuições: Distribuição de Bernoulli; Distribuição Binomial; e Distribuição de Poisson. 6.2.4.1. A Distribuição de Bernoulli A distribuição de Bernoulli, embora seja extremamente importante, não costuma ser muito utilizada do ponto de vista prático, porém, a sua compreensão nos permitirá utilizar a distribuição Binomial, uma das distribuições discretas mais importantes e com ampla aplicação em problemas reais. Definição: Dizemos que uma variável ` segue uma distribuição de Bernoulli se atribui 0 ou 1 à ocorrência de fracasso ou sucesso, respectivamente. Com ] representando a probabilidade de sucesso, 0 ≤ ] ≤ 1, sua distribuição de probabilidade é dada por: Tabela 37: Distribuição de probabilidade de Bernoulli. ` 0 1 ¶(` = 1�) 1 − ] ] Ou, de modo resumido: ¶(` = 1) = ]k(1 − ])�âk, 1 = 0,1 6.2.4.2. A Distribuição Binomial Definição: Considere a repetição de � ensaios de Bernoulli independentes e com a mesma probabilidade de sucesso ]. A variável aleatória ` que conta o número total de sucessos é denominada Binomial com parâmetros � e ]. A distribuição de probabilidade de ` é dada por: ¶(` = º) = ;�º= ]»(1 − ])�â» , º = 0,1, … , �. Com ¼�»À representando o coeficiente binomial calculado por: ;�º= = �!º! (� − º)! 113 Usaremos a notação `~Bin(�, ]) para indicar que a variável aleatória ̀ segue uma distribuição binomial com parâmetros � e ]. Resultado: Seja ` uma variável aleatória com distribuição Binomial (`~Bin(�; ])). Então, ¥(`) = �]; r(`) = �](1 − ]). Exemplo 1: Uma certa doença pode ser curada através de procedimento cirúrgico em 80% dos casos. Dentre os que têm essa doença, sorteamos 15 pacientes que serão submetidos à cirurgia. Fazendo alguma suposição que julgar necessária, responda qual é a probabilidade de: Todos serem curados; Pelo menos dois não serem curados; Ao menos 10 ficarem livres da doença. Resolução: Primeiramente, vamos definir a variável aleatória de interesse: `: �número de pacientes que se curam da doença, em 15 submetidos à cirurgia� Faz sentido supor que os pacientes são independentes entre si e que a probabilidade de cura se mantém a mesma para cada um deles. Dessa forma, podemos supor que a distribuição binomial se ajusta bem a essa variável aleatória, dessa forma, temos: `~¤��(15; 0,8) Após definir a distribuição de probabilidade de ` basta calcular as probabilidades pedidas: ¶(` = 15) = ;1515= 0,8�V(1 − 0,8)�Vâ�V = 0,8�V = 0,035 ¶(` ≤ 13) = 1 − ¶(` > 13) = 1 − ˶(` = 14) + ¶(` = 15)Ì = 1 − ;1514= 0,8�Q(0,2)�Vâ�Q −0,035 = 1 − 15 ∙ 0,8�Q ∙ 0,2 − 0,035 = 1 − 0,132 − 0,035 = 0,833 ¶(` ≥ 10) = ¶(` = 10) + ¶(` = 11) + ¶(` = 12) + ¶(` = 13) + ¶(` ≥ 14) =;1510= 0,8�T(0,2)V + ;1511= 0,8��(0,2)Q + ;1512= 0,8�3(0,2)4 + 0,167 = 0,939 Exemplo 2: Uma máquina impressora tem uma probabilidade constante de 0,05 de entrar em pane, em um dia qualquer, independentemente de ter tido uma pane ou não no dia (ou dias) anterior. Durante uma semana de 5 dias úteis, se a máquina não entrar em pane, um lucro de $ será obtido; se 1 ou 2 panes ocorrerem, um lucro de $� será alcançado (� < ); e se 3 ou mais panes ocorrerem, um lucro de $(−è) será obtido. (Admita-se que �, e è sejam maiores do que zero; também se supõe que, se a máquina entrar em pane em qualquer dia, ela permanecerá parada durante o resto do dia.) Seja ` o lucro obtido por semana de cinco dias úteis. Qual o lucro médio esperado por semana? Resolução: Primeiramente, vamos definir as variáveis aleatórias de interesse: à: �número de panes em 5 dias� `: �lucro obtido por semana de 5 dias úteis� 114 Como o enunciado nos diz: “probabilidade constante de 0,05 de entrar em pane, em um dia qualquer” – probabilidade de sucesso (pane) constante; “se a máquina entrar em pane em qualquer dia, ela permanecerá parada durante o resto do dia” – ou a máquina apresenta 1 pane em dado dia, ou não apresenta pane (não tem a possibilidade de apresentar mais de uma pane) – únicos resultados possíveis são sucesso (pane) ou fracasso (sem pane); “independentemente de ter tido uma pane ou não no dia (ou dias) anterior” – independência entre ensaios de Bernoulli; Dessa forma, podemos assumir: à~¤��(5; 0,05) Conhecendo a distribuição de probabilidades de à, podemos encontrar a distribuição de probabilidade de `, já que o enunciado também nos informa que: “se a máquina não entrar em pane, um lucro de $ será obtido”: ou seja ¶(` = ) = ¶(à = 0) “se 1 ou 2 panes ocorrerem, um lucro de $� será alcançado (� < )”: ou seja ¶(` = �) = ¶(1 ≤ à ≤ 2) “se 3 ou mais panes ocorrerem, um lucro de $(−è) será obtido”: ou seja ¶(` = −è) = ¶(à ≥ 3) Tabela 38: Distribuição de probabilidade do lucro. 1� −è � ]� ¶(à ≥ 3) ¶(1 ≤ à ≤ 2) ¶(à = 0) Fonte: Elaborada pela autora. ¥(`) = −è˶(à = 3) + ¶(à = 4) + ¶(à = 5)Ì + �˶(à = 1) + ¶(à = 2)Ì + ∙ ¶(à = 0) Vou deixar as contas por conta dos leitores, porém, as resolvendo, vocês devem chegar em: ¥(`) = $Ë−0,001è + 0,225� + 0,774Ì 6.2.4.3. A Distribuição de Poisson Definição: Uma variável aleatória ̀ tem distribuição de Poisson com parâmetro é > 0, se sua distribuição de probabilidade for dada por: ¶(` = º) = [âê黺! , º = 0,1, … , �, … Em que [ (e Neperiano ou número de Euler) representa uma constante irracional cujos dígitos iniciais são dados por: 2,7182. Com o parâmetro é sendo usualmente considerado como a taxa de ocorrência da variável `. 115 Usaremos a notação `~Poisson(é) para indicar que a variável aleatória ` segue uma distribuição de Poisson com parâmetro é. Resultado: Seja ` uma variável aleatória com distribuição de Poisson (`~Poisson(é)). Então, ¥(`) = é; r(`) = é. Exemplo 1: A emissão de partículas radioativas tem sido modelada através de uma distribuição de Poisson, com valor do parâmetro dependendo da fonte utilizada. Suponha que o número de partículas alfa, emitidas por minuto, seja uma variável aleatória seguindo uma distribuição de Poisson com parâmetro 5, ou seja, a taxa de ocorrência é, em média, de 5 emissões a cada minuto. Calcule a probabilidade de haver mais de 2 emissões em um minuto e a probabilidade de não haver nenhuma emissão em um minuto. Resolução: Primeiramente, vamos definir a variável de interesse: `: �número de partículas emitidas por determinada fonte em um período de um minuto� `~¶K�__K�(5) Calculo da probabilidade de haver mais de 2 emissões em um minuto: ¶(` > 2) = 1 − ¶(` ≤ 2) = 1 − ˶(` = 0) + ¶(` = 1) + ¶(` = 2)Ì ¶(` > 2) = 1 − [âV5T0! − [âV5�1! − [âV532! ¶(` > 2) = 1 − 0,0067 × 11 − 0,0067 × 51 − 0,0067 × 252 ¶(` > 2) = 1 − 0,0067 − 0,0337 − 0,08422 ¶(` > 2) = 0,8753 Cálculo da probabilidade de não haver nenhuma emissão:¶(` = 0) = 0,0067 Observação: A distribuição de Poisson pode ser vista como uma aproximação da distribuição binomial quando o valor do parâmetro ] é pequeno e o valor do parâmetro � é grande, nesses casos uma variável `~¤��(�, ]) pode ser aproximada por `~¶K�__K�(é), em que é = �]. Exemplo 2: Vamos reimaginar o enunciado do exemplo anterior: Deseja-se estudar a emissão de partículas de determinado material, observou-se que uma única partícula é emitida desse material com probabilidade 0,08 em qualquer período de 1 segundo, e que ele não libera partículas em quaisquer períodos de 1 segundo com probabilidade de 0,92. Deseja-se saber qual a probabilidade deste material emitir mais de 2 partículas em um período de 1 minuto, ou de 60 segundos. Resolução: Podemos tentar resolver este exercício utilizando a distribuição binomial, e considerar o seguinte: 116 `: �número de partículas emitidas por determinada fonte em um período de 60 segundos� `~¤��(60; 0,08) ¶(` > 2) = 1 − ¶(` ≤ 2) = 1 − ¶(` = 0) − ¶(` = 1) − ¶(` = 2) ¶(` > 2) = 1 − ì600 í 0,08T0,92�T − ì601 í 0,08�0,92VS − ì602 í 0,0830,92V� ¶(` > 2) = 1 − 0,0067 − 0,0351 − 0,0899 = 0,8683 Vamos resolver agora utilizando a aproximação da Binomial pela Poissom: `: �número de partículas emitidas por determinada fonte em um período de 60 segundos� é = �] = 60 × 0,08 = 4,8 `~¶K�__K�(4,8) ¶(` > 2) = 1 − ¶(` ≤ 2) = 1 − ¶(` = 0) − ¶(` = 1) − ¶(` = 2) ¶(` > 2) = 1 − [âQ,�4,8T0! − [âQ,�4,8�1! − [âQ,�4,832! ¶(` > 2) = 1 − 0,0082 × 11 − 0,0082 × 4,81 − 0,0082 × 23,042 ¶(` > 2) = 1 − 0,0082 − 0,0395 − 0,0948 = 0,8575 Podemos perceber que utilizando ambos os métodos chegamos em valores semelhantes (0,8683) e (0,8575), quanto maior for o tamanho de � e quanto menor for o tamanho de ] (parâmetros da binomial) melhor será a aproximação. 6.2.5. Exercícios 1- [MONTGOMERY e RUNGER, 2003] O espaço amostral de um experimento aleatório é {a, b, c, d, e, f} e cada resultado é igualmente provável. Uma variável aleatória é definida como segue: Resultado a b c d e f ` 0 0 1,5 1,5 2 3 Determine a função de probabilidade de `. Para os exercícios 2 e 3, verifique as funções de probabilidade e determine as probabilidades requeridas: 2- [MONTGOMERY e RUNGER, 2003] Considere a seguinte distribuição de probabilidades: a. ¶(` ≤ 2) b. ¶(` > −2) c. ¶(−1 ≤ ` ≤ 1) x -2 -1 0 1 2 p(x) 1/8 2/8 2/8 2/8 1/8 117 d. ¶Ë(` ≤ −1) ∪ (` = 2)Ì 3- [MONTGOMERY e RUNGER, 2003] ¶(`) = 3k<�3V , 1 = 0, 1, 2, 3, 4 a. ¶(` = 4) b. ¶(` ≤ 1) c. ¶(2 ≤ ` < 4) d. ¶(` > −10) 4- [MONTGOMERY e RUNGER, 2003] O setor de comercialização estima que um novo instrumento para análise de amostras de solo terá grande sucesso, moderado sucesso, ou não terá sucesso, com probabilidades de 0,3; 0,6 e 0,1 respectivamente. A receita anual associada com um produto de grande sucesso, moderado sucesso ou nenhum sucesso é de R$10 milhões, R$5 milhões e R$1 milhão, respectivamente. Faça a variável aleatória ` denotar a renda anual do produto. Determine a função de probabilidade de `. 5- [MONTGOMERY e RUNGER, 2003] Em um processo de fabricação de semicondutores, três pastilhas de um lote são testadas. Cada pastilha é classificada como passa ou falha. Suponha que a probabilidade de uma pastilha passar no teste seja de 0,8 e que as pastilhas sejam independentes. a. Qual é a probabilidade de que todas as três pastilhas passem no teste? b. Determine a função de probabilidade do número de componentes no arranjo que encontram as especificações. 6- [MONTGOMERY e RUNGER, 2003] Um arranjo consiste em três componentes mecânicos. Suponha que as probabilidades do primeiro, do segundo e do terceiro componentes encontrarem as especificações sejam iguais a 0,95; 0,98 e 0,99. Considere que os componentes sejam independentes. a. Qual a probabilidade de que todos os componentes em um arranjo encontrem as especificações? b. Determine a função de probabilidade do número de componentes no arranjo que encontram as especificações? 7- [TRIOLA, 2013] No jogo Pick 3 da loteria de Illinois, você paga 50 centavos para selecionar uma sequência de três dígitos, como 233. Se você seleciona a mesma sequência de três dígitos que é extraída, você ganha e recebe US$ 250. a. Quantas seleções são possíveis? b. Qual é a probabilidade de ganhar? c. Se você ganha, qual seu lucro líquido? d. Ache o valor esperado. e. Se você aposta 50 centavos no jogo Pick 4 de Illinois, o valor esperado é de -25 centavos. Qual é melhor: uma aposta de 50 centavos no jogo Pick 3 de Illinois ou uma aposta de 50 centavos no jogo Pick 4 de Illinois? Explique. 8- [TRIOLA, 2013] Há uma probabilidade de 0,9986 de que um homem de 30 anos de idade, selecionado aleatoriamente, sobreviva este ano. A companhia Fidelity de seguros cobra US$ 161 para segurar que o homem sobreviva este ano. Se o homem não sobrevive ao ano, a apólice paga US$ 100.000 como benefício por morte. a. Da perspectiva de um homem de 30 anos, quais são os valores correspondentes aos dois eventos de sobreviver e não sobreviver ao ano? b. Se um homem de 30 anos compra a apólice, qual é o seu valor esperado? c. A companhia pode esperar lucrar com muitas dessas apólices? Por quê? 9- [TRIOLA, 2013] Em uma pesquisa com 320 graduados em faculdades, 36% relataram que permaneceram em seu primeiro emprego de tempo integral menos de um ano. 118 a. Se 15 sujeitos pesquisados são selecionados aleatoriamente sem reposição para uma pesquisa de acompanhamento, ache a probabilidade de que 5 deles tenham permanecido em seu primeiro emprego menos de um ano. b. Se parte de a) é alterada, de modo que 20 sujeitos de pesquisa selecionados, explique por que a fórmula da probabilidade binomial não pode ser usada. 10- [TRIOLA, 2013] Na análise dos locais atingidos por bombas V1 na Segunda Guerra Mundial, Londres foi subdivida em 576 regiões, cada uma com 0,25 km². Um total de 535 bombas atingiu a área combinada de 576 regiões. a. Qual número médio de bombas por região? b. Se uma região é selecionada aleatoriamente, ache a probabilidade de que ela não tenha sido atingida. c. Com base na probabilidade da parte b), quantas das 576 regiões se espera que não tenham sido atingidas? d. Na verdade, houve 229 regiões que não foram atingidas. Como esse resultado real se compara com o resultado da parte c)? 11- [WALPOLE et. at, 2009] Determine o valor c de modo que cada uma das seguintes funções possa servir como distribuição de probabilidade da variável aleatória discreta `. a. ](1) = �(13 + 4), para 1 = 0, 1, 2, 3; b. ](1) = � ;21= ; 33 − 1=, para 1 = 0, 1, 2. 12- [WALPOLE et. at, 2009] A distribuição de probabilidade de `, o número de imperfeições a cada dez metros de um tecido sintético produzido em rolos contínuos de largura uniforme, é dada por: 1 0 1 2 3 4 p(1) 0,41 0,37 0,16 0,05 0,01 Construa a função de distribuição acumulada de `. 6.2.6. Variáveis Aleatórias Contínuas Já vimos como trabalhar com variáveis aleatórias discretas, nesta seção veremos como trabalhar com variáveis aleatórias contínuas. Quando estudados como montar tabelas de frequências e gráficos para variáveis quantitativas, vimos que trabalhar com variáveis aleatórias discretas era bastante intuitivo, já que conseguimos ordenar os dados, estando em um conjunto enumerável, sendo ele finito ou não. Já ao trabalhar com variáveis quantitativas contínuas, era necessário fazer certas adaptações, já que variáveis contínuas não são enumeráveis, pertencendo aos conjuntos dos Reais, vimos que para construir tabelas de frequência não existia a possibilidade de relacionar frequências com valores específicos, era necessário criar intervalos e relacionar as frequênciasa esses intervalos (não importando o quão grande ou pequena a amplitude dos dados). Ao trabalharmos com variáveis aleatórias contínuas encontraremos dificuldades análogas, para definir a distribuição de probabilidades, por exemplo, não é possível criar uma tabela que relacione cada valor possível com sua probabilidade, novamente, será necessário trabalhar com a probabilidade da variável aleatória pertencer a um determinado intervalo. Como veremos abaixo. 119 6.2.6.1. Distribuição de Probabilidade de Variáveis Aleatórias Contínuas Definição: Diz-se que ` é uma variável aleatória contínua, se existir uma função �, denominada função densidade de probabilidade (�9]) de ` que satisfaça às seguintes condições: �(1) ≥ 0 para todo 1; A área definida por �(1) é igual a 1; Para quaisquer �, , com −∞ < � < < +∞, teremos ¶(� ≤ ` ≤ ) = î �(1)Mj 91. Primeiramente, é necessário deixar claro que trabalharemos com conceitos e ferramentas que permitam o cálculo de probabilidades de variáveis aleatórias contínuas que não exijam a resolução de integrais, limites ou derivadas, já que esta apostila é livre de pré-requisitos matemáticos de nível superior. A fim de tentar entender melhor a definição acima, vamos observar a figura 45 abaixo: Figura 45: Ilustração de uma densidade de probabilidade. Fonte: Elaborada pela autora. Temos na figura 45 a variável aleatória contínua ` representada pelo eixo horizontal e a função densidade de probabilidade �(1) definida no eixo vertical e a curva que relaciona a variável com sua �9]. Está destacada a área abaixo da curva delimitada pelos valores � e 9, em que � ≤ 1 ≤ 9. Dessa forma a área destacada é igual à probabilidade da variável aleatória ` estar entre os valores � e 9. Observações: ¶(� < ` < 9) representa a área sob a curva ¶(` = 1T) = 0; ¶(� ≤ ` ≤ 9) = ¶(� ≤ ` < 9) = ¶(� < ` ≤ 9) = ¶(� < ` < 9). �(1) não representa a probabilidade de coisa alguma! o Somente quando a função for integrada entre dois limites, ela produzirá uma probabilidade. 6.2.6.2. Medidas de Resumo para Variáveis Aleatórias Contínuas Assim como para variáveis aleatórias discretas, podemos calcular a esperança e a variância para variáveis aleatórias contínuas, essas medidas mantêm o mesmo conceito, mudando apenas o método do cálculo da esperança que será dado abaixo para variáveis aleatórias contínuas: Definição: Seja ` uma variável aleatória contínua com f.d.p. �. O valor esperado de ` é definido como 120 ¥(`) = ï 1�(1)91<Ý âÝ , se, e somente se, ï |1|�(1)91<Ý âÝ for finita. Para encontrar a variância pode-se utilizar a mesma fórmula dada no caso discreto (r(`) = ¥(`3) −Ë¥(`)Ì3), mantendo em mente que as propriedades apresentadas no caso discreto se mantêm para o caso contínuo. Exemplo: Existe uma variável aleatória ` com ¥(`) = 3 e ¥(`3) = 8? Resolução: como o cálculo e o conceito de variância se mantém, podemos dizer, com confiança que NÃO existe uma variável aleatória ` com ¥(`) = 3 e ¥(`3) = 8, já que r(`) = ¥(`3) − Ë¥(`)Ì3 = 8 − 33 = 8 − 9 =−1, e sabemos que não existe variância negativa. 6.2.6.3. Distribuição Normal A distribuição de probabilidade normal é uma distribuição de extrema importância no cálculo de probabilidades e na inferência estatística, devida a sua grande importância ela será apresentada e iremos estudar alguns métodos de obter probabilidades para variáveis que seguem essa distribuição. 6.2.6.4. Definição Uma variável aleatória ` tem distribuição normal com parâmetros m e n3 Ë`~Ç(m, n3)Ì se sua densidade de probabilidade é dada por: �(1) = 1√2ñn [òâ(kâó)J3ôJ õ Em que: −∞ < 1 < ∞;−∞ < m < ∞ e n3 > 0. ñ representa uma constante, aproximadamente 3,1415; [ representa uma outra constante, aproximadamente 2,7182; m representa a média da distribuição; n3 representa a variância da distribuição; Juntos, os parâmetros m e n3 definem uma função densidade de probabilidade normal. Não se assustem pela definição da Normal, a ideia é apenas apresentá-la, o mais importante é vocês compreenderem suas propriedades e como calcular probabilidades. 121 6.2.6.5. Propriedades A distribuição normal é unimodal e simétrica em torno de sua média m: ¶(` < m) = ¶(` > m); O desvio padrão n é uma medida da dispersão dos dados ao redor da média m: ¶(m − n < ` < m + n) = 0,6826; ¶(m − 2n < ` < m + 2n) = 0,9546; ¶(m − 3n < ` < m + 3n) = 0,9974. Figura 46: Forma da distribuição Normal e algumas propriedades. Fonte: Elaborada pela autora. Tem-se que qualquer combinação linear de variáveis Normais independentes, também terá uma distribuição Normal, ou seja, se `�, `3, … , `� formam uma sequência de variáveis aleatórias Ç(m�; n�3) independentes e ��, �3, … , ��, são constantes quaisquer, então: ö = �� �̀ � �"� terá distribuição normal com parâmetros: m÷ = ∑ ��m���"� ; nø3 = ∑ ��3n�3��"� . 122 6.2.6.6. Normal Padrão Diz-se que uma variável aleatória ù segue uma distribuição normal padrão se ela segue uma distribuição normal com média 0 e desvio padrão 1 (m = 0 e n3 = 1). Exemplo: Suponha que o comprimento de recém-nascidos do sexo feminino não portadores de anomalias congênitas seja uma variável aleatória com distribuição aproximadamente normal de média 48,54cm e desvio- padrão 2,5cm. Se subtrairmos 48,54cm de todas as observações teremos uma distribuição normal com média 0cm e desvio padrão 2,5cm; se, após subtrairmos 48,54cm, dividirmos todas as observações por 2,5cm teremos uma distribuição normal com média 0cm e desvio padrão 1cm. Figura 47: Padronização da distribuição normal, um exemplo. Fonte: Elaborada pela autora. Uma variável aleatória ` que siga uma distribuição normal com média m ≠ 0 ou desvio padrão n ≠ 1 pode ser padronizada pela seguinte expressão: ù = ` − mn Conhecendo a relação entre uma variável aleatória ` seguindo uma distribuição normal diferente da padrão e a variável aleatória ù que segue uma distribuição normal padrão, é possível calcular as probabilidades relativas à variável ` utilizando a tabela de probabilidades de ù. Existem diversas tabelas da distribuição normal padrão disponíveis como anexo de diferentes referências bibliográficas, ou disponíveis na internet. Em anexo, está disponível a tabela que usaremos nesta apostila. Explicarei o como utilizá-la na resolução do exemplo abaixo. Continuação do Exemplo: Tomando ` a variável aleatória relativa ao comprimento de recém nascidos (m =48,54cm e n = 2,5cm). Imagine que desejamos saber qual a probabilidade de um recém-nascido ter mais de 48,54 cm 123 Nesse caso, nem seria necessário fazer a relação entre a variável normal `~Ç(48,54; 2,53) com a variável normal padrão ù~Ç(0,1), já que uma das propriedades da distribuição normal é que ela é simétrica em torno da sua média, ou seja: ¶(` > 48,54) = 0,5 Imagine que desejamos saber qual a probabilidade de um recém-nascido ter menos de 44,79 cm Primeiro Passo: Relacionar ` com ù Para ` = 44,79 ⇒ ù = �âóô = QQ,RSâQ�,VQ3,V = â4,RV3,V = −1,5 P(` ≤ 44,79) = P(ù ≤ −1,5) Para encontrarmos P(ù ≤ −1,5) podemos recorrer à tabela da distribuição normal padrão em anexo, irei apresentar parte dessa tabela abaixo para entendermos como usá-la: Figura 48: Representação de parte da tabela da distribuição normal padrão. Fonte: Anexo (tabela 49 página 218) A figura 48 me fornece ¶(ù ≥ 1,5) = 0,0668 (valores marcados em azul), mas a probabilidade que estamos procurando é a probabilidade de ù ≤ −1,5; como obter a probabilidade desejada com a tabela fornecida? Devemos utilizar, novamente, o conhecimento das propriedades da normal, como a simetria em torno da média. Sabemos que a média da normal padrão é zero, e sabemos que a distribuição normal é simétrica em torno da média (zero), ou seja, sabemos que o que acontece à esquerda da média, vai ser espelhado à direita da média. Sendo assim: 124P(` ≤ 44,79) = P(ù ≤ −1,5) = ¶(ù ≥ 1,5) = 0,0668 Imagine que desejamos saber qual a probabilidade de um recém-nascido ter entre 45,965 cm e 50,465 cm Primeiro Passo: Relacionar ` com ù Para ` = 45,965 ⇒ ù = QV,S�VâQ�,VQ3,V = â3,VRV3,V = −1,03 Para ` = 50,465 ⟹ ù = VT,Q�VâQ�,VQ3,V = �,S3V3,V = 0,77 P(46,04 ≤ ` ≤ 51,04) = P(−1,03 ≤ ù ≤ 0,77) Vamos voltar na figura 48 e observar os valores marcados em vermelho, temos que ¶(ù ≥ 1,03) =¶(ù ≤ −1,03) = 0,1515 e ¶(ù ≥ 0,77) = 0,2206. Para encontrarmos a probabilidade desejada, podemos utilizar o evento complementar ao evento de interesse: P(45,965 ≤ ` ≤ 51,465) = P(−1,03 ≤ ù ≤ 0,77) = 1 − ¶(` ≤ −1,03) − ¶(ù ≥ 0,77)= 1 − 0,1515 − 0,2206 ¶(45,965 ≤ ` ≤ 51,465) = 0,6279 Mesmo a tabela da distribuição normal padrão sendo limitada, podemos utilizá-la para resolver qualquer tipo de problema envolvendo a distribuição normal. 6.2.7. Exercícios 1- [DEVORE, 2006] Em cada caso, determine o valor da constante c que torna a declaração de probabilidade verdadeira. a. ¶(0 ≤ ù ≤ �) = 0,291 b. ¶(� ≤ ù) = 0,121 c. ¶(−� < ù < �) = 0,668 d. ¶(|ù| > �) = 0,016 2- [DEVORE, 2006] Suponha que a força que age sobre uma coluna que ajuda a suportar um edifício tenha distribuição normal com a média 15,0kips e desvio padrão 1,25 kips. Qual é a probabilidade de a força: a. Estar entre 10 e 12 kips? b. Desviar de 15,0 kips por no máximo 2 desvios? 3- [MONTGOMERY e RUNGER, 2003] A resistência à tração do papel pode ser modelada por uma distribuição normal com média de 35 libras por polegada quadrada e um desvio padrão de 2 libras por polegada quadrada. a. Qual a probabilidade da resistência de uma amostra ser menor que 40lb/in². b. Se as especificações requererem que a resistência à tração exceda 30lb/in², que proporção das amostras será rejeitada. 4- [MONTGOMERY e RUNGER, 2003] O volume de enchimento de uma máquina automática de enchimento usada para encher latas de bebidas gasosas é distribuída normalmente, com uma média de 12,4 onças fluídas e um desvio padrão de 0,1 onça fluída. 125 a. Qual é a probabilidade do volume de enchimento ser menor do que 12 fl oz. b. Se todas as latas menores que 12,1 fl oz ou maiores que 12,6 fl oz forem rejeitadas, que proporção de latas será rejeitada? c. Determine as especificações que sejam simétricas em torno da média que incluam 99% de todas as latas. 5- [MONTGOMERY e RUNGER, 2003] O tempo de reação de um motorista para um estímulo visual é normalmente distribuído com uma média de 0,4s e um desvio padrão de 0,05s. a. Qual é a probabilidade de que uma reação requeira mais de 0,5s? b. Qual é a probabilidade de que uma reação requeira entre 0,4s e 0,5s? c. Qual é o tempo de reação que é excedido em 90% do tempo? 6- [MONTGOMERY e RUNGER, 2003] No exercício anterior, suponha que o processo fosse centralizado, de modo, que a média fosse 90mm e o desvio padrão fosse 0,1mm. Considere 10 casos supostos independentes, fossem medidos. a. Qual será a probabilidade de todos os 10 casos estarem entre 89,7mm e 90,3mm? b. Qual é o número esperado dos 10 casos que estão entre 89,7mm e 90,3mm? 7- [MONTGOMERY e RUNGER, 2003] A vida de um semicondutor a laser, a uma potência constate, é normalmente distribuída com uma média de 7000 horas e desvio padrão de 600 horas. a. Qual é a probabilidade do laser falhar antes de 5000 horas? b. Qual é o tempo de vida em horas que 95% dos lasers excedem? c. Se 3 lasers forem usados em um produto e se eles falharem independentemente, qual será a probabilidade de todos os 3 estarem ainda operando depois de 7000 horas? 8- [MONTGOMERY e RUNGER, 2003] O peso de um sofisticado sapato de corrida é normalmente distribuído com uma média de 12 onças e de um desvio padrão de 0,5 onça. a. Qual a probabilidade do sapato pesar mais de 13 onças? b. Qual tem de ser o desvio padrão do peso para que a companhia estabeleça que 99,9% de seu sapato sejam mais leves do que 13 onças? c. Se o desvio padrão permanecer em 0.5 onça, qual tem de ser o peso médio para que a companhia estabeleça que 99,9% de seus sapatos sejam mais leves que 13 onças? Nos exercícios 9 a 11, use as seguintes informações: As alturas de homens são normalmente distribuídas, com média de 69,0 polegadas e desvio-padrão de 2,8 polegadas; As alturas de mulheres são normalmente distribuídas, com média de 63,6 polegadas e desvio-padrão de 2,5 polegadas. (TRIOLA, 2013) 9- [TRIOLA, 2013] O monotrilho Mark VI usado na DisneyWorld e o avião comercial Boeing 757-200 ER têm portas com altura de 72 polegadas. a. Qual é a porcentagem de homens adultos que podem passar por essas portas sem se curvar? b. Qual é a porcentagem de mulheres adultas que podem passar por essas portas sem se curvar? c. O projeto de porta com 72 polegadas de altura parece ser adequado? Explique? d. Qual altura de porta permitiria que 98% dos homens adultos passassem sem se curvar? 10- [TRIOLA, 2013] O Tall Clubs International é uma organização social para pessoas altas. Ele exige que os homens tenham, no mínimo, 74 polegadas (187,96 cm) de altura, e as mulheres, no mínimo, 70 polegadas (177,80 cm) de altura. a. Qual porcentagem de homens satisfaz tal exigência? b. Qual porcentagem de mulheres satisfaz tal exigência? c. As exigências para homens e mulheres são razoáveis? Por que sim ou por que não? 126 11- [TRIOLA, 2013] As Forças Armadas Americanas exigem que as mulheres tenham alturas entre 58 e 80 polegadas (147,32 e 203,20 cm). a. Ache a porcentagem de mulheres que satisfazem essa exigência. Muitas mulheres estão perdendo a oportunidade de entrar para as forças armadas por serem muito baixas ou muito altas? b. Se as Forças Armadas mudam as exigências de altura de modo que todas as mulheres possam entrar, exceto o 1% das mulheres mais baixas e os 2% das mulheres mais altas, quais seriam as novas exigências de altura? 12- [TRIOLA, 2013] Na Noruega, os pesos ao nascer são normalmente distribuídos, com uma média de 3570 g e um desvio-padrão de 500 g. a. Se o Hospital Universitário Ullevar em Oslo exige tratamento especial para bebês com pesos ao nascer inferiores a 2700 g, qual é a porcentagem de bebês recém-nascidos que exigirão tratamento especial? b. Se os diretores do Hospital Universitário Ulleval planejam pedir tratamento especial para os 3% mais leves dos bebês nascidos, qual peso ao nascer separa os que exigem tratamento especial dos que não exigem? c. Por que não é prático para o hospital estabelecer que os bebês que exigem tratamento especial são os dos 3% inferiores dos pesos ao nascer? 13- [TRIOLA, 2013] Com base nos resultados amostrais do Conjunto de Dados 2 do Apêndice B, suponha que as temperaturas do corpo humano sejam distribuídas normalmente, com média de 92.20 °F e desvio-padrão de 0.62 °F. a. O hospital Bellevue, na cidade de Nova York, usa 100.6 °F como a menor temperatura considerada como febre. Qual é a porcentagem de pessoas normais e saudáveis que seriam consideradas febris? Tal porcentagem sugere que o corte de 100.6 °F seja apropriado? b. Os médicos desejam selecionar uma temperatura mínima para a requisição de exames médicos adicionais. Qual deve ser essa temperatura, se eles desejam que somente 5% das pessoas saudáveis tenham temperatura superior? (Tal resultado é chamado um falso-positivo, o que significa que o resultado do teste deu positivo, mas a pessoa não está realmente doente). 14- [TRIOLA, 2013] Os tempos de gravidez são normalmente distribuídos, com média de 268 dias e desvio- padrão de 15 dias. a. Um uso clássico da distribuição normal é inspirado em uma carta para “Dear Abby”, na qual uma mulher afirmava ter dado a luz 308 dias depois da visita de seu marido, que estava em serviço na Marinha. Dada essa informação, ache a probabilidade de uma gravidez durar 308 dias ou mais. O que esse resultado sugere? b. Se um bebê é classificado como prematurono caso de a duração da gravidez estar dentro dos 4% tempos inferiores, ache o tempo de gravidez que separa os bebês prematuros dos demais. Bebês prematuros, em geral, requerem tratamentos especiais, e esse resultado pode ser útil para os administradores de hospitais no planejamento de tais cuidados. 15- [WALPOLE et. Al, 2009] Dada uma distribuição normal padrão, determine o valor de º de modo que: a. ¶(ù < º) = 0,0427 b. ¶(ù > º) = 0,2946 c. ¶(−0,93 < ù < º) = 0,7235 16- [WALPOLE et. Al, 2009] Dada a variável distribuída normalmente ̀ com média 18 e desvio-padrão 2,5, determine: 127 a. ¶(` < 15) b. O valor de ºde modo que ¶(` < º) = 0,2236 c. O valor de ºde modo que ¶(` > º) = 0,1814 d. ¶(17 < ` < 21) 17- [WALPOLE et. Al, 2009] Um cientista reporta que camundongos viverão uma média de 40 meses quando suas dietas forem bastante restritas e portanto, enriquecidas com vitaminas e proteínas. Assumindo que a vida de tais camundongos é distribuída normalmente, com desvio padrão de 6,3 meses, determine a probabilidade de que certo camundongo viverá: a. Mais de 32 meses. b. Menos de 28 meses. c. Entre 37 e 49 meses. 18- [WALPOLE et. Al, 2009] Uma máquina de refrigerante está regulada de modo a despejar uma média de 200ml de refrigerante por copo. Se a quantidade da bebida é normalmente distribuída com desvio padrão de 15ml. a. Que fração de copos conterá mais de 224 ml? b. Qual é a probabilidade de que um copo contenha entre 191ml e 209 ml? c. Quantos copos provavelmente transbordarão se forem utilizados copos de 230ml para as próximas 1000 bebidas? d. Abaixo de qual valor temos os 25% menores volumes de bebidas? 19- [WALPOLE et. Al, 2009] Um advogado viaja diariamente de sua casa nos subúrbios até o escritório no centro da cidade. O tempo médio de viagem de ida é de 24 minutos, com desvio padrão de 3,8 minutos. Assuma que seus tempos de viagem sejam distribuídos normalmente: a. Qual é a probabilidade de que uma viagem leve pelo menos 30 minutos? b. Se o escritório abre às 9h e ele sai de sua casa às 8:45h, qual é a porcentagem do tempo em que ele estará atrasado para o trabalho? c. Se ele sai de casa às 8:35h e o café será servido no escritório entre 8:50h e 9:00h, qual é a probabilidade de ele perder o café? d. Determine o tempo acima do qual encontramos os 15% menores tempos de viagem. e. Determine a probabilidade de que 2 das próximas 3 viagens levarão pelo menos 30 minutos. 20- [WALPOLE et. Al, 2009] A vida média de certo tipo de pequeno motor é de 10 anos, com desvio padrão de 2 anos. O fabricante substitui gratuitamente os motores que falharem enquanto estiverem sob garantia. Se ele deseja substituir somente 3% dos motores que falham, quanto tempo de garantia deve ser oferecido? Assuma que a vida do motor segue uma distribuição normal. 21- [WALPOLE et. Al, 2009] Uma empresa paga a seus funcionários um salário médio de R$15,90 por hora, com desvio padrão de R$1,50. Se os salários são distribuídos aproximadamente de maneira normal e pagos ao centavo mais próximo: a. Qual porcentagem de funcionários recebe salários entre R$13,75 e R$16,22, inclusive, por hora? b. Os 5% mais altos salários por hora são maiores do que qual quantia? 22- [WALPOLE et. Al, 2009] A resistência à tensão de certo componente de metal é normalmente distribuída com média de 10.000kg/cm². As medições são registradas para os 50kg/cm² mais próximos. a. Qual é a proporção desses componentes que excede 10.150kg/cm² na resistência à tensão? 128 b. Se as especificações exigem que todos os componentes tenham resistência à tensão entre 9.800kg/cm² e 10.200kg/cm², inclusive, qual é a proporção de componentes que você espera serem inutilizados? 23- [WALPOLE et. Al, 2009] Os QIs (quocientes de inteligência) de 600 candidatos de certa faculdade são aproximadamente distribuídos segundo a distribuição normal, com média de 115 e desvio padrão de 12. Se a faculdade exige um QI de pelo menos 95, quantos desses estudantes serão rejeitados sem ser consideradas outras qualificações? 24- [WALPOLE et. Al, 2009] O nível de colesterol ` em garotos de 14 anos tem distribuição normal com media 170 e desvio-padrão de 30. a. Determine a probabilidade de que o nível de colesterol de um garoto de 14 anos selecionado aleatoriamente exceda 230. b. Em uma escola de ensino médio há 300 meninos de 14 anos de idade. Determine a probabilidade de que pelo menos oito garotos tenham nível de colesterol que exceda 230. 7. Exercícios Avaliativos sobre Probabilidade 1- Uma empresa distribui seus produtos em três cidades por meio de seus vendedores. De seus vendedores, 20% atuam na cidade A, 40% na cidade B e 40% na cidade C. Cada vendedor atua em apenas uma cidade. A empresa disponibilizará para os vendedores que desejarem um novo aplicativo de gestão de vendas. Uma consulta revelou que 60% dos vendedores da cidade A pretendem usar o aplicativo, bem como 75% dos vendedores da cidade B e 80% dos vendedores da cidade C. a. Dados os eventos: £ = {Um vendedor atender a cidade A} e ¤ = {Um vendedor atender a cidade B}. Pode-se dizer que £ e ¤ são independentes? Justifique sua resposta. b. Qual a proporção de vendedores da empresa que pretendem adotar o aplicativo? c. Um determinado vendedor usa o aplicativo de gestão de vendas, qual a probabilidade de ele atuar na cidade A? 2- Em um cassino existem dois tipos de máquina caça-níqueis: uma que paga 10% das vezes e outra que paga 20% das vezes. Obviamente, você gostaria de jogar na máquina que paga 20% das vezes, mas não sabe quais das máquinas são as mais generosas. Assim, você adota a seguinte estratégia: você supõe inicialmente as máquinas são igualmente distribuídas entre generosas e não generosas. Você, então, seleciona uma máquina aleatoriamente e coloca uma moeda nela. Neste caso. a. Qual será a probabilidade de que o caça-níquel pague? b. Considerando que você perdeu a primeira aposta, estime a probabilidade de que a máquina que você selecionou seja a mais generosa das duas máquinas? c. Qual é a probabilidade de você ter escolhido uma máquina que pague apenas 10% das vezes, se você tiver sido pago? Se você souber que apenas 20% das máquinas do cassino são das mais generosas que pagam 20% das vezes, d. Qual a probabilidade de que você ganhe alguma coisa em uma jogada? e. Qual a probabilidade de que você selecione uma máquina que pague apenas 10% das vezes e que não seja pago? 3- Uma fábrica produz peças para bicicletas que podem ser classificadas ao final do processo de produção como: aprovada (A), remanufaturada (R) ou defeituosa (D). As primeiras, classificadas como aprovadas 129 (A), serão diretamente comercializadas. As remanufaturadas (R) serão recuperadas dentro dos padrões de qualidade exigidos e avaliadas novamente e classificadas apenas como aprovadas (A) e, portanto, comercializadas, ou defeituosas (D). Qualquer peça classificada como defeituosa (D) será descartada. Distribuição de probabilidade das peças produzidas no primeiro estágio de produção (Y1) �� aprovada remanufaturada defeituosa ¶(à� = ��) 0,9 ] 0,03 Distribuição de probabilidade das peças produzidas no segunda estágio de produção (Y2) - apenas para as peças classificadas como “remanufaturadas” no primeiro estágio de produção. �3 aprovada defeituosa ¶(à3 = �3) 0,8 0,2 Considere que, se a peça foi comercializada ao final de qualquer um dos dois estágios, ela produzirá uma lucro igual a 10 unidades monetárias (UM) e se foi classificada como defeituosa, um prejuízo de 3 UM a. Qual o valor de ]? b. Seja è a variável relativa ao lucro por peça, forneça a distribuição de probabilidade da variável è. c. Qual o lucro esperado por peça 4- As preferências de homens e mulheres por cada gênero de filme alugado em uma locadora de vídeos, estão apresentadas na próxima tabela: Gênero/Filme Comédia Romance PolicialHomens 136 92 248 Mulheres 102 195 62 Sorteando-se, ao acaso, uma dessas locações de vídeo, pergunta-se a probabilidade de a. Uma mulher ter alugado um filme policial? b. O filme alugado ser uma comédia? c. Um homem ter alugado ou o filme ser um romance? d. O filme ser policial dado que foi alugado por um homem? 5- Suponha que o diâmetro (em polegadas) do tronco de um certo tipo de árvore tenha distribuição normal com média 8,8 e desvio padrão 2,8. Qual a probabilidade de que uma arvore escolhida ao acaso tenha diâmetro entre 8 e 9 polegadas? 6- Para empresas de comércio eletrônico, fazer com que um cliente visite um site da Web não é suficiente. Os comerciantes devem também persuadir consumidores on-line a gastar dinheiro realizando uma compra. Especialistas da Andersen Consulting estimam que 88% dos consumidores da Web abandonam seus carrinhos de compras virtuais antes de completar as suas transações. Considere uma amostra de 20 consumidores que visitam um site da Web de 130 comércio eletrônico e admita que a probabilidade de que um cliente irá sair do site antes de completar a transação seja 0,88. Utilize o modelo binomial para responder a seguinte pergunta: qual é a probabilidade de que exatamente 19 consumidores irão sair do site sem completar uma transação? 7- O circuito mostrado a seguir opera se houver ao menos um caminho de equipamentos funcionando entre os pontos a e b, da esquerda para a direita. A probabilidade de que cada equipamento funcione é mostrada na figura abaixo. Suponha que os equipamentos falhem independentemente um do outro. Qual será a probabilidade de que o aparelho funcione? 8- Considere a tabela a seguir que apresenta a distribuição de probabilidade da variável aleatória `: ` 0 1 2 3 4 ¶(` = 1�) 0,05 0,25 0,4 � 0,15 Responda as seguintes questões: a. Qual valor de c é transforma a tabela acima em uma distribuição de probabilidades? b. Qual o valor esperado da variável `? c. Qual a variância da variável `? 9- Sejam £ e ¤ eventos independentes relativos a um mesmo espaço amostral Ω, com ¶(£) e ¶(¤) diferentes de zero. É INCORRETO afirmar. (a) ¶(£ ∩ ¤) = ¶(£)¶(¤) (b) ¶(£|¤) = ¶(£) (c) ¶(£ ∪ ¤) = ¶(£) + ¶(¤) (d) £ e ¤ são independentes (e) ¶(£ ∩ ¤) = ¶(£|¤)¶(¤) 131 8. Amostragem A história da amostragem anda junto com a história da estatística. Vimos na Apostila (Seção 2.1., página 2) que foram encontrados registros de trabalhos estatísticos em civilizações antigas, datando de 5000 a.C. em diante (POUBEL, 2010), registros esses com o objetivo de obter informações sobre a população de determinada região, geralmente com intuito de taxação, organização bélica, fins agrícolas ou comerciais. Além disso, Castro (1970, p. 13-15, apud SILVA JUNIOR, 2015, p. 20) definiu o primeiro período da estatística, como indo desde o Regime Feudal até meados do século XVII como período de preparação de fatos, organização de registros com objetivo de: taxação e coleta de impostos ou estratégias de guerras. Desses registros, podemos observar que a técnica da amostragem vem sendo aplicada (mesmo que de maneira informal e não probabilística) desde que os seres humanos começaram a conviver em grandes civilizações, como um método para organizar as cidades, estados, impérios, ... A formalização da pesquisa por amostragem foi surgir apenas em 1895 no trabalho de Kiar (1895, apud Vasconcelos, 2006, p.769-771), apresentado na reunião do International Statistical Institute (ISI), trabalho esse que foi visto com desconfiança, inicialmente, devido à simplicidade da ideia, mas que ganhou força após o fortalecimento da modelagem e consolidação da ideia em publicações feitas entre 1949 e 1954 (VASCONCELOS, 2006). 8.1. Noções Básicas A ideia de amostragem é bastante intuitiva, utilizamos o conceito, muitas vezes sem ao menos perceber, por exemplo, na hora de cozinhar. Ao fazer feijão, por exemplo, é comum pegar uma colher para experimentar e checar se o feijão está cozido, ou se precisa de mais tempero... sabemos também, que não adianta pegar a colher e tirar apenas um pouco do líquido que está em cima, pois, nesse caso teríamos apenas o suficiente para saber se o tempero está bom, mas não para saber se o feijão está cozido, temos que misturar o conteúdo da panela e pegar uma colher que contenha um pouco dos grão e do caldo, para podermos ter uma ideia mais completa sobre o sabor e ponto do feijão. Na amostragem, vamos definir quem é a população de interesse (no caso acima o conteúdo da panela de feijão) e qual a melhor maneira de remover uma pequena parte dessa população (amostra) de maneira a poder tirar informações confiáveis sobre a população utilizando o que foi observado na amostra. Não iremos nos aprofundarmos em como planejar e conduzir uma amostragem da maneira adequada. O objetivo é entender o conceito de amostragem e saber reconhecer alguns dos tipos de amostras mais comuns a fim de entender as metodologias utilizadas em artigos e pesquisas de interesse, sendo capaz de ter uma visão crítica do que foi feito. 8.1.1. Terminologia Básica Abaixo são dadas as definições de alguns termos fundamentais para a compreensão das técnicas mais comumente utilizadas em amostragem: População-Alvo: o População que se deseja descrever. População de Estudo: o Subconjunto da população-alvo, do qual as amostras serão selecionadas. 132 Sistema de referência: o Lista dos elementos pertencentes à população de estudo. Amostra: o Todo o subconjunto não vazio e com um número menor de elementos do que o conjunto definido como população. Unidade Amostral: o Cada elemento contido na amostra. Exemplo: Considere que é de interesse estudar a proporção de alunos do ensino médio de Juiz de Fora que pretendem fazer vestibular. Suponha, também, que a verba da pesquisa seja suficiente para coletar informação de uma amostra de 250 alunos. População-Alvo: Todos os alunos matriculados no ensino médio na cidade de Juiz de Fora no ano da pesquisa. o Vamos assumir que no ano em questão temos aproximadamente 20.000 alunos de ensino médio matriculados em Juiz de Fora, divididos entre: 34 escolas estaduais; 28 escolas privadas; 2 escolas federais. População de Estudo: Nesse caso, temos acesso à informação da matrícula de todos os elementos da população, sendo assim, a população de estudo é igual à população-alvo. Sistema de Referência: Lista contendo o nome de todos os alunos matriculados no ensino médio no período da pesquisa. 8.2. Maneiras de Selecionar Amostras Será descrito abaixo, de maneira superficial, os métodos mais comuns de amostragem. 8.2.1. Amostragem Aleatória Simples O que define uma amostra aleatória simples é o fato de todos os elementos da população terem a mesma chance de serem selecionados para a amostra e a metodologia para a obtenção da amostra consiste em listar, ou numerar todos os elementos da população e sortear elementos ao acaso até que a amostra alcance o tamanho desejado. Vamos considerar o mesmo exemplo usado anteriormente: Exemplo: Considere que é de interesse estudar a proporção de alunos do ensino médio de Juiz de Fora que pretendem fazer vestibular. Suponha, também, que a verba da pesquisa é suficiente para coletar informação de uma amostra de 250 alunos. A fim de retirar uma amostra aleatória simples, de tamanho 250, nesse caso, basta numerar cada elemento do sistema de referência de 1 a 20.000 (lista contendo o nome de todos os alunos matriculados no ensino médio no período da pesquisa) e sortear aleatoriamente 250 números entre 1 e 20.000 sem reposição. Dessa maneira todos os alunos listados mantêm a mesma probabilidade de serem sorteados e de participarem da amostra. 133 Os 250 números sorteados aleatoriamente devem ser, então, relacionados aos alunos no sistema de referência, formando a amostra com 250 alunosselecionados segundo o método de amostragem aleatória simples. Figura 49: Metodologia para a seleção de uma amostra aleatória simples. Fonte: Elaborada pela autora. 8.2.2. Amostragem Sistemática A amostragem sistemática difere da simples, por fazer o sorteio da amostra seguindo um sistema. Esse tipo de amostragem é indicado em casos de amostras que, se igualmente espalhadas na população, trouxerem informações mais confiáveis. A fim de entender melhor essa ideia, vamos imaginar que desejamos saber como está a condição de rodagem na BR-040 que é uma rodovia federal com 1.179km de extensão, ligando Brasília ao Rio de Janeiro. Digamos que serão analisados 150 km dessa rodovia, serão verificados a condição do acostamento, se é trecho de pista única ou dupla, existência ou não de buracos, trecho com ou sem radar, limite de velocidade, pista sinuosa ou não, entre outros. Aproximadamente 830km da BR-040 estão em Minas Gerais, caso fosse feita a amostragem dos 150km a serem observados de maneira totalmente aleatória, poderia ocorrer desses 150km serem selecionados de maneira a cobrirem parte dos 349km da rodovia que se dividem entre os Estados do Rio de Janeiro e Goiás, ficando de fora a maior parte da rodovia que se encontra em Minas Gerais. 134 Figura 50: Imagem da BR-040. Fonte: Google Maps (2020) Uma maneira de amostrar 150 km de estrada de maneira a ter uma ideia melhor das condições em que ela realmente se encontra, seria impor um sistema de sorteio que fizesse com que esses km se espalhassem igualmente pela extensão completa da rodovia. Isso pode ser feito se seguirmos o seguinte sistema: Primeiro, podemos estabelecer que esses 150 km serão divididos em 150 extensões de 1 km da estrada que serão amostradas. A fim de fazer essa amostragem de forma sistemática, podemos pensar na estrada como sendo a junção de 1.179 extensões de 1 km, e que serão amostradas 150 dessas 1.179 partes de maneira sistemática: Primeiramente, dividimos a rodovia BR-040 em 1.179 pedaços de 1 km de extensão cada, e os numeramos de 1 a 1.179; Em seguida, é necessário encontrar um valor º = 1.179 150# = 7,86 ≅ 8; A próxima etapa é sortear um valor entre 1 e º (no nosso caso, entre 1 e 8) de maneira completamente aleatória: utilizando o software R, foi sorteado o valor 2; Dessa maneira, o primeiro km da amostra é o km anteriormente numerado como 2, os próximos km amostrados, serão os provenientes da função: 2 + � × 8, com 1 ≤ � ≤ 147 Teremos, então, os seguintes km pertencentes à amostra: 2; 10; 18; 26; ...; 1162; 1170; 1178. Totalizando uma amostra de 148 km da BR-040. OBS: Foi obtida uma amostra de 148 km, e não uma de 150 km, como tínhamos proposto, isso ocorre pois utilizamos uma aproximação para chegar no valor º, se não fosse necessário fazer a aproximação, chegaríamos 135 ao tamanho proposto para a amostra. Se o arredondamento tivesse sido para 7, ao invés de 8, teríamos uma amostra de 169 km. Podemos resumir o método de amostra sistemática da seguinte maneira: Considerando Ç elementos na população, e o objetivo de amostrar � elementos. Utiliza-se o valor º = Ç/� (valor inteiro mais próximo); Faz-se a seleção dos elementos em uma lista selecionando aqueles nas posições + �º, com � pertencente aos naturais e sendo um número sorteado entre 1 e º. 8.2.3. Amostragem Estratificada A amostragem estratificada, é utilizada quando se acredita que a população não seja homogênea. Se tomarmos, como exemplo a população de alunos do ensino médio utilizada na seção 8.1.1. (página 131): Exemplo: Considere que é de interesse estudar a proporção de alunos do ensino médio de Juiz de Fora que pretendem fazer vestibular. Suponha, também, que a verba da pesquisa é suficiente para coletar informação de uma amostra de 250 alunos. População-Alvo: Todos os alunos matriculados no ensino médio na cidade de Juiz de Fora no ano da pesquisa. o Vamos assumir que no ano em questão temos aproximadamente 20.000 alunos de ensino médio matriculados em Juiz de Fora, divididos entre: 34 escolas estaduais; 28 escolas privadas; 2 escolas federais. Vimos como obter uma amostra aleatória simples dessa população, esse tipo de amostragem, no entanto, pode não ser o mais indicado nesse caso, já que faz sentido imaginar que alunos matriculados em escolas estaduais podem não apresentar a mesma propensão a prestar vestibular que os alunos do ensino privado. Faz sentido pensar que o objetivo de prestar vestibular pode variar dependendo da instituição em que o aluno está matriculado. Nesse caso, seria mais indicado dividir a população em 3 estratos: 1- alunos matriculados em escolas estaduais (10.352 alunos); 2- alunos matriculados em escolas privadas (8.750 alunos); e 3- alunos matriculados em escolas federais (625 alunos). A fim de obter uma amostra final que represente esses 3 estratos, devemos retirar amostras aleatórias simples independentes de cada estrato e, em seguida, unir as 3 amostras obtidas para obter a amostra final da população alvo. Abaixo podemos visualizar um esquema de como essa amostra poderia ser retirada da população: Inicialmente, criam-se três sistemas de referência, uma para cada estrato: o 1- alunos matriculados em escolas estaduais. o 2- alunos matriculados em escolas privadas. o 3- alunos matriculados em escolas federais. 136 o É importante ressaltar que esses 3 sistemas de referência, quando unidos DEVEM CONTER TODOS OS 20.000 ALUNOS DA POPULAÇÃO, de maneira que CADA UM DELES APAREÇA UMA ÚNICA VEZ. Em seguida, realizam-se 3 sorteios aleatórios independentes. No nosso exemplo temos: o Sorteio 1: retiram-se aleatoriamente e sem reposição 125 números entre 1 e 10.625 para serem relacionados com os números dados aos alunos no sistema de referência 1. o Sorteio 2: retiram-se aleatoriamente e sem reposição 75 números entre 1 e 8.750 para serem relacionados com os números dados aos alunos no sistema de referência 2. o Sorteio 3: retiram-se aleatoriamente e sem reposição 50 números entre 1 e 625 para serem relacionados com os números dados aos alunos no sistema de referência 3. Finalmente, deve-se unir as 3 amostras aleatórias simples obtidas e formar uma amostra aleatória estratificada de tamanho 125 + 75 + 50 = 250. Figura 51:Metodologia para a seleção de uma amostra aleatória estratificada. Fonte: Elaborada pela autora. OBS: O termo estrato simboliza divisões entre elementos, como sexo, classe social, naturalidade, idade, entre outras. 8.2.4. Amostragem por Conglomerado A amostragem por conglomerado considera uma amostra de conglomerados (prédios, escolas, hospitais, ...) dentre todos os existentes na população: Estuda todos os elementos dentro de cada conglomerado selecionado (um estágio); Ou amostra parte dos elementos dos conglomerados selecionados (dois estágios). 137 Vamos considerar, novamente o exemplo dos 20.000 alunos do ensino médio em Juiz de Fora. Para fazer uma amostra por conglomerado em um estágio nesse caso, poderíamos seguir a seguinte metodologia: Primeiro, teríamos que fazer um sistema de referência para as 64 escolas de ensino médio de Juiz de Fora (34 Estaduais + 28 Privadas + 2 Federais). Depois, sortear aleatoriamente um número entre 1 e 64. o Usando o software R, foi sorteado o número 41. Deve-se, então, relacionar o número 41 com a escola relativa no sistema de referência, e amostrar todos os alunos matriculados nessa escola. Figura 52: Esquema de amostragem por conglomerado em um estágio. Fonte: Elaborada pela autora. Para fazer uma amostragem por conglomerado em dois estágios, poderíamos seguir o seguinte esquema: Dividir as 64 escolas de ensino médio de Juiz de Fora em 3 estratos: o Estrato 1: 34 escolas estaduais; o Estrato 2: 28 escolas privadas; o Estrato 3: 2 escolas federais. Definir 3 sistemas de referência,um para cada estrato; Conduzir 3 sorteios aleatórios independentes: o Sorteio 1: 2 números entre 1 e 34 sorteados aleatoriamente e sem reposição: 13 e 14 (por exemplo); o Sorteio 2: 2 números entre 1 e 28 sorteados aleatoriamente e sem reposição: 17 e 24 (por exemplo); o Sorteio 3: 1 número entre 1 e 2 sorteado aleatoriamente: 1 (por exemplo). Obter 5 listas de referência contendo os alunos matriculados no ensino médio, uma para cada escola sorteada; 138 Conduzir 5 sorteios aleatórios independentes, cada sorteio resultando em uma amostra de 50 alunos de cada escola. Unir as 5 amostras aleatórias independentes (com 50 alunos cada) para obter a amostra aleatória por conglomerado em 2 estágios de tamanho 250. Figura 53: Esquema de amostra por conglomerado em dois estágios. Fonte: Elaborada pela autora. 8.2.5. Amostragem Viesada ou Tendenciosa Os métodos de amostragem apresentados até agora (simples, sistemática, estratificada e conglomerado) são chamadas de probabilísticas, ou seja, sabe-se qual a probabilidade de inclusão das unidades amostrais. 139 Existem outros métodos de amostragem que não são probabilísticos, métodos que tendem a representar apenas parte de uma população, e não sua totalidade. Alguns métodos de amostragem não probabilísticas são: amostras de conveniência ou amostras constituídas de voluntários. O fato de uma amostra ser não probabilística não é necessariamente por falta de conhecimento, ou de técnica do pesquisador, em alguns casos pode não ser possível fazer um sistema de referência e retirar uma amostra dentro dos moldes apresentados anteriormente. Um caso em que não é possível observar amostras probabilísticas é quando existe o viés de sobrevivência. Para aqueles que quiserem ver um pouco sobre viés de sobrevivência, indico acessarem: https://hypescience.com/vies-de-sobrevivencia/ https://medium.com/@renato.cleite/vies-de-sobrevivencia-em-ux-612fc49137a Duas matérias que sumarizam alguns problemas que foram resolvidos utilizando a boa interpretação de amostras viesadas. 9. Inferência Estatística Definimos, anteriormente, a inferência estatística como sendo um conjunto de técnicas e metodologias que permitem a extrapolação relativa à uma população das informações obtidas de sua amostra. Nesta seção iremos estudar um pouco mais detalhadamente algumas das técnicas e metodologias utilizadas na inferência. Novamente, essa apostila visa fornecer um letramento estatístico, não iremos fornecer explicações teóricas, mas apresentar algumas aplicações e fornecer informações suficientes para a compreensão do funcionamento da técnica e permitir a interpretação conceitual dos resultados encontrados. 9.1. Terminologia Básica É preciso conhecer alguns termos para podermos entender os conceitos e metodologias da inferência estatística, os termos mais importantes para o nosso curso são: Parâmetro: Quantidades da população, em geral desconhecidas, sobre as quais temos interesse, usualmente representadas por letras gregas tais como ü, m e n, entre outras. Estimador: Combinação dos elementos da amostra, construída com a finalidade de representar, ou estimar, um parâmetro de interesse na população. Em geral, denotamos os estimadores por símbolos com o acento circunflexo: üý, m̂, n�, etc. Estimativa: Valores numéricos assumidos pelos estimadores. Vamos utilizar um exemplo para tentar entender um pouco melhor o que são parâmetros, estimadores e estimativas. Exemplo: Vamos considerar o conjunto de dados relativos aos pesos obtido em entrevistas com 898 alunos da UFJF. Foram feitas diversas perguntas com o intuito de conhecer melhor o perfil dos alunos da UFJF, e saber como eles se sentem sobre o próprio corpo e se desejam se submeter a cirurgia plástica. Algumas das variáveis coletadas foram: Área de Estudo; Idade; Peso, Altura; Índice de Massa Corporal (IMC); e Nível de Depressão. Com o objetivo puramente ilustrativo, considere que esses 898 alunos componham nossa população alvo. 140 Nesse caso conhecemos a média e variância da variável de interesse peso (kg) para toda a população (parâmetros de interesse). m = 63,42 kg n3 = 156,03 kg² n = 12,49 kg Vamos retirar 5 amostras aleatórias de tamanho 30 dessa população utilizando o software R, anotar os resultados obtidos para a variável peso e obter duas estimativas para a média de peso, utilizando como estimadores a média amostral e a mediana amostral. Amostra 1: (58,8; 61; 78; 55; 55; 61; 91; 67; 56; 70; 52; 45; 56; 53; 60; 86; 95; 53; 50; 66; 60; 50; 63; 53; 53; 49; 48; 56; 71; 50) o m̂� = 1̅� = 60,73 kg; ou o m̂3 = 89� = 56 kg Amostra 2: (67; 72; 72; 47; 78; 62; 48; 78; 58; 93; 51; 54; 76; 60; 52; 66; 58; 55; 70; 80; 81; 75; 58; 69; 61; 60; 63; 75; 49; 78) o m̂4 = 1̅3 = 65,53 kg; ou o m̂Q = 893 = 64,5 kg Amostra 3: (53; 80; 60; 55; 62; 76; 88; 48; 59; 43; 50; 76; 78; 51; 73; 72; 78; 45; 59; 63; 64; 73; 49; 50; 58; 54; 64 58; 57; 72) o m̂V = 1̅4 = 64,35 kg; ou o m̂� = 894 = 62,5 kg Amostra 4: (59; 57; 51,5; 95; 100; 77; 76; 65; 67; 54; 63; 75; 61; 57; 65; 59; 68; 58; 55; 73; 85; 66; 43; 65; 47; 48; 78; 62; 54; 47) o m̂R = 1̅Q = 63,47 kg; ou o m̂� = 89Q = 61 kg Amostra 5: (87; 70; 51; 60; 56; 52; 52; 71; 93; 74; 80; 63; 59; 64; 53; 45; 67; 85; 50; 73; 60; 61; 56; 57; 64; 52; 63; 52; 73; 61) o m̂S = 1̅V = 63,42 kg; ou o m̂�T = 89V = 61 kg Nesse exemplo, conhecemos o parâmetro que estamos tentando estimar (m = 63,42 kg), retiramos 5 amostras aleatórias independentes de tamanho 30 da população alvo, aplicamos dois estimadores (média e mediana) a cada uma das amostras, obtendo 10 estimativas para m apresentadas abaixo: Tabela 39: Resumo dos estimadores e estimativas obtidas nas 5 amostras, ordenadas da menor para a maior. Estimador mediana amostral média amostral Amostras 1 5 4 3 2 1 5 4 3 2 Estimativas 56 61 61 62,5 64,5 60,73 63,42 63,47 64,35 65,53 Parâmetro 63,42 Fonte: Elaborada pela autora. Algumas informações interessantes são: Pode-se notar que o estimador fornecido pela mediana subestimou o parâmetro em 4 das 5 amostras; 141 O estimador fornecido pela média amostral superestimou o parâmetro em 3 das 5 amostras, chegando ao valor exato para a amostra 2 e subestimando o parâmetro na amostra 1. Se nós continuássemos sorteando amostras aleatórias e obtendo mais estimativas, perceberíamos que elas girariam em torno do parâmetro de interesse, porém, dificilmente seriam idênticas a ele. O que nos leva à pergunta: Qual estimador utilizar? 9.2. Propriedades de um Estimador Quando estamos trabalhando com inferência estatística, temos que lembrar que o interesse é tirar conclusões confiáveis sobre uma população com base em algum parâmetro desconhecido e que pretendemos estimar. Sendo assim, a escolha do estimador desse parâmetro é de extrema importância, se escolhemos um bom estimador teremos mais confiança no nosso resultado, se escolhermos um estimador ruim, teremos pouca confiança nos resultados. Uma forma de fazer a escolha de um bom estimador é verificar as propriedades desse estimador, selecionando aquele que tem as propriedades desejadas. Algumas das propriedades que devem ser verificadas são: Vício: Um estimador üý é não viciado ou não viesado para um parâmetro ü se ¥¼üýÀ = ü. Ou seja, um estimador é não viciado se o seu valor esperado coincide com o parâmetro de interesse. Consistência: Um estimador üý é consistente, se, à medida que o tamanho da amostra aumenta, seu valor esperado converge para o parâmetro de interesse e sua variância converge para zero: o lim�→Ý ¥¼üýÀ = ü; o lim�→Ý r�\¼üýÀ = 0 Eficiência: Dados dois estimadores üý� e üý3, não viciados para um parâmetro ü, dizemos que üý� é mais eficiente do que üý3 se r�\¼üý�À < r�\¼üý3À Alguns dos parâmetros de interesse mais comuns são a média, a proporção e a variância. Os estimadoresmais utilizados em trabalhos que buscam fazer inferências sobre esses parâmetros são: Quadro 5: Propriedades de alguns dos estimadores mais comuns. Parâmetro Estimador Propriedades m �̀ = `� + `3 + ⋯ + `�� Não viciado e consistente ] ]̂ = �\[�^ê���� �8K_a\�b �K8 � ��\��a[\í_a���� Não viciado e consistente n3 3 = 1� − 1 (`� − �̀)3� �"� Não viciado e consistente Fonte: Elaborado pela autora. Vamos utilizar novamente o exemplo da variável peso no caso do estudo que observou 898 alunos da UFJF, novamente, considerando os 898 alunos como sendo a população de interesse e a média m = 63,42 kg como o parâmetro de interesse. 142 Utilizando o software R foram obtidas 50 amostras independentes de tamanho 50 dessa população, abaixo serão apresentadas as médias amostrais obtidas para essas 50 amostras independentes: Tabela 40: Valores das médias estimados para as 50 amostras obtidas, ordenados do menor para o maior. 59.170 59.550 60.760 60.902 61.250 61.460 61.540 61.660 61.860 61.940 62.000 62.306 62.370 62.830 62.866 62.896 62.956 62.990 63.110 63.120 63.130 63.140 63.180 63.190 63.200 63.230 63.316 63.416 63.416 63.508 63.646 63.690 63.836 64.010 64.038 64.080 64.110 64.170 64.390 64.420 64.680 64.740 64.796 64.830 64.860 65.890 66.070 66.490 66.510 66.980 Fonte: Elaborada pela autora. Pelo quadro 5, sabemos que a média é um estimador não viesado e consistente, e podemos ver (pela tabela 40) que os valores das estimativas obtidas pela média amostral variaram de 59,17 kg a 66,98 kg, mas ao fazer a média das 50 estimativas encontradas por esse estimador chegamos ao valor 63,33 kg que se aproxima bastante do valor do parâmetro (63,42 kg). A variância das estimativas encontradas também demostra a consistência do estimador (_3 = 2,67 kg²) o que resulta nas estimativas apresentarem um coeficiente de variação de 2,58% que é um indicativo de que as estimativas obtidas são robustas. 9.3. Distribuição Amostral Como vimos nas últimas duas seções, estimadores são funções de variáveis aleatórias, ou seja, eles também são variáveis aleatórias, basta notar que para amostras distintas obtivemos estimativas distintas, utilizando um mesmo estimador. Existem diversas distribuições amostrais, uma para cada estimador. Iremos estudar nesta apostila a distribuição de probabilidade de um dos estimadores mais utilizados: a média amostral. 9.3.1. Distribuição Amostral da Média Para entender melhor a ideia da distribuição da média amostral, vamos voltar ao exemplo dos 898 alunos da UFJF: Considere ` como a variável aleatória que representa o peso (em kg) dos 898 alunos da UFJF que consideramos como nossa população alvo na seção 9.1. (página 139). Sabemos que ` tem média igual a 63,42 kg e variância igual a 156,03 kg². Vimos, ao retirar 50 amostras dessa população (tabela 40) que foram obtidas 50 estimativas distintas para a média populacional. Sendo assim, podemos considerar as médias obtidas como uma nova variável aleatória �̀. Temos o interesse em conhecer a distribuição dessa nova variável �̀ a fim de podermos tirar uma informação confiável sobre a média populacional tendo um valor da média amostral ( �̀ ) como base. Utilizei, mais uma vez, o software R para obter 150 amostras aleatórias retiradas da população de 898 alunos, de maneira que 50 amostras possuíssem apenas 5 elementos cada, 50 amostras possuíssem 50 elementos cada e as outras 50 amostras possuíssem 100 elementos cada. Podemos ver as densidades das médias amostrais obtidas (separadas por tamanho da amostra) na figura abaixo. 143 Figura 54: Densidades sobrepostas das distribuições das médias obtidas para as 50 amostras de tamanho 5 (azul), das 50 amostras de tamanho 50 (vermelho), e das 50 amostras de tamanho 100 (amarelo). Fonte: Elaborada pela autora. Observando a figura 54, fica claro que a dispersão entre as médias obtidas para as amostras de tamanho 5 é bem maior do que a dispersão para as médias obtidas para as amostras de tamanho 50, e a dispersão entre as médias obtidas para as amostras de tamanho 100 é a menor observada. 9.3.2. Teorema Central do Limite Suponha uma amostra aleatória simples de tamanho � retirada de uma população com média m e variância n3 (note que a distribuição de probabilidade da variável aleatória não é especificada). Representando tal amostra por � variáveis aleatórias independentes (`�, `3, … , `�) e, denotando sua média por �̀, temos que: �̀ − mn √�# �→Ý�⎯⎯�ù Com ù~Ç(0,1). O Teorema Central do Limite garante que para � suficientemente grande (maior ou igual a 30) a distribuição da média amostral, devidamente padronizada, segue uma distribuição Normal Padrão, permitindo o estudo da média amostral probabilisticamente. Vamos, novamente, imaginar que o grupo de 898 estudantes da UFJF entrevistados constituam a nossa população alvo, sabemos que a m = 63,42 kg e n3 = 156,03 kg². Tiramos 50 amostras independentes de tamanho 50 dessa população, segundo o teorema central do limite, a média amostral, para amostras de tamanho 50 deve se comportar de acordo com a distribuição normal com média igual a m = 63,42 kg e 144 variância igual à n3 �# = 156,03 50# = 3,1206 kg². Vamos observar se as amostras retiradas anteriormente se encaixam nesse perfil. Figura 55: Densidade de uma distribuição normal com média 63,24 e variância igual a 3,1206 e a densidade observada para a média amostral das 50 amostras independentes de tamanho 50 obtidas pelo software R. Fonte: Elaborada pela autora. A figura 55 nos mostra a densidade teórica (em preto) e a densidade observada (em vermelho) a ideia do teorema central do limite, é permitir que a densidade real seja aproximada pela densidade teórica, é sabido que o que é encontrado na realidade não segue perfeitamente os modelos teóricos, porém, temos que os modelos teóricos, quando utilizados da maneira correta, representam uma aproximação boa o suficiente para que possamos utilizá-los como base de inferência da realidade. As curvas: preta e vermelha; não são idênticas, mas são próximas o suficiente para utilizarmos a preta como uma aproximação da realidade, a utilizarmos para fazer inferência sobre a população tendo uma ideia do erro relacionado a essa inferência. 9.3.3. Distribuição da Proporção Amostral Suponha que ] represente a proporção de indivíduos com determinada característica em uma população (valor desconhecido) e ]̂ represente o estimador dessa proporção, considerando uma amostra de tamanho �, dado por: ]̂ = �ú8[\K 9[ ��9�y. �� �8K_a\� �K8 9�9� ��\��a[\í_a���� Vimos no quadro 5 que esse estimador é não viesado e consistente, sabe-se que: 145 ¥(]̂) = ] e r�\(]̂) = ](1 − ])� Considerando o Teorema Central do Limite, tem-se que (para � ≥ 30): ]̂ − ] �](1 − ])� �→Ý�⎯⎯�Ç(0,1) Mais uma vez, vamos tentar entender melhor essa distribuição utilizando o exemplo dos 898 alunos da UFJF como sendo nossa população de estudo. Vamos considerar o IMC como sendo a variável de interesse nesse caso, e que queremos saber qual porcentagem da população está com IMC entre 18,5 e 25 (peso normal – quadro 6). Quadro 6: Significado dos valores de IMC. IMC Significado menor que 17 muito abaixo do peso (queda de cabelo, infertilidade, ausência menstrual) [17 ; 18,5) abaixo do peso (fadiga, stress, ansiedade) [18,5 ; 25) peso normal (menor risco de doenças cardíacas e vasculares) [25 ; 30) acima do peso (fadiga, má circulação, varizes) [30 ; 35) obesidade grau 1 (diabetes, angina, infarto, aterosclerose) [35 ; 40) obesidade grau 2 (apneia do sono, falta de ar) maior que 40 obesidade grau 3 (refluxo, dificuldade para se mover, escaras, diabetes, infarto, avc) Fonte: Elaborado pela autora. Para tal, vamos sortear aleatoriamente 50 amostras de tamanho 50 da população alvo (898 alunos entrevistados) e verificar (assim como fizemos para a média amostral) se a proporção amostral é bem ajustada pela distribuiçãonormal com média 0,7661 e variância 0,7661 × 0,2339 50# = 0,0036 (valores obtidos da população). Primeiro, vamos dar uma olhada nas proporções de alunos dentro do peso normal observadas nas 50 amostras: Tabela 41: Proporções estimadas organizadas da menor para a maior. 0.66 0.68 0.68 0.68 0.68 0.70 0.72 0.72 0.72 0.72 0.72 0.72 0.72 0.74 0.74 0.74 0.74 0.74 0.74 0.74 0.76 0.76 0.76 0.76 0.76 0.76 0.76 0.76 0.78 0.78 0.78 0.78 0.80 0.80 0.80 0.80 0.80 0.80 0.80 0.80 0.82 0.84 0.84 0.84 0.84 0.84 0.86 0.86 0.86 0.88 Fonte: Elaborada pela autora. Observando os dados da tabela 20, podemos ver que a menor proporção observada foi de 66% e a maior foi de 88%, unindo todas estimativas, temos uma média de 0,7676 e uma variância de 0,0029. Vamos colocar as densidades da distribuição teórica e da distribuição observada para ver o quanto elas se assemelham: 146 Figura 56: Densidade de uma distribuição normal com média 0,7676 e variância igual a 0,0029 e a densidade observada para a proporção amostral das 50 amostras independentes de tamanho 50 obtidas pelo software R. Fonte: Elaborada pela autora. A figura 56 nos mostra que a densidade teórica (em preto) se ajusta muito bem à densidade observada (em vermelho), fornecendo um bom exemplo do quão útil a distribuição de probabilidade normal é para a inferência estatística, fornecendo um meio de tirar conclusões sobre um parâmetro populacional, tendo como base um valor retirado de uma pequena parte dessa população. 9.3.4. Exercícios Resolvidos Exercício 1- Uma variável ` tem média 5,5 e variância 4. Uma amostra com 40 observações é sorteada. Qual a probabilidade da média amostral superar o valor 5? Queremos calcular ¶( �̀ > 5), usando o teorema central do limite, temos que: �̀~Ç ;5,5 ; QQT=, já que � = 40 pode ser considerado como grande o suficiente para a aplicação do teorema. Para facilitar o cálculo da probabilidade desejada, podemos reescrever a distribuição de �̀ da seguinte maneira: �̀~Ç(5,5 ; 0,323). Conhecendo a média (5,5) e o desvio padrão (0,32) da distribuição de �̀, podemos relacionar essa variável com a variável normal padrão e encontrar a probabilidade desejada: ¶( �̀ > 5) = ¶ ìù > 5 − 5,50,32 í = ¶(ù > −1,56) 147 Figura 57: Representação de parte da tabela da distribuição normal padrão. Fonte: Anexos (tabela 49, página 218) Logo, observando a probabilidade marcada em azul na figura 57, temos: ¶( �̀ > 5) = ¶(ù > −1,56) = 1 − ¶(ù ≤ −1,56) = 1 − ¶(ù ≥ 1,56) = 1 − 0,0594 = ,, 0+,( Exercício 2- Suponha que a proporção de peças fora de especificação em um lote é de 40%. Tomada uma amostra de tamanho 30, qual a probabilidade dessa amostra fornecer uma proporção de peças defeituosas menor que 0,50? Queremos encontrar: ¶(]̂ < 0,5), com as informações passadas pelo enunciado, podemos utilizar o Teorema Central do Limite para definir a distribuição de ]̂: ] = 0,4 ; � = 30 ⟹ ]̂~Ç ì0,4 ; 0,4 × (1 − 0,4)30 í ⟹ ]̂~Ç(0,4 ; 0,0893) ¶(]̂ < 0,5) = ¶ ìù < 0,5 − 0,40,089 í = ¶(ù < 1,12) = 1 − ¶(ù ≥ 1,12) Voltando na figura 57, e observando a probabilidade marcada em vermelho, temos: Logo, ¶( �̀ < 0,5) = 1 − 0,1314 = 0,8686. 9.3.5. Exercícios 1- [TRIOLA, 2013] Com suas próprias palavras, descreva uma distribuição amostral. 2- [TRIOLA, 2013] O que significa dizermos que a média amostral é um estimador não viesado da média populacional, ou que a média amostral “tende” para a média populacional? 148 3- [TRIOLA, 2013] Você deseja estimar a proporção de todos os estudantes de faculdades nos Estados Unidos que têm o profundo bom senso de fazer um curso de estatística. Você obtém uma amostra aleatória simples na New York University. A proporção amostral resultante é um bom estimador da proporção populacional? Por que sim ou por que não? 4- [TRIOLA, 2013] Amostras de tamanho � = 1000 são selecionadas aleatoriamente da população do último dígito de números de telefone. Ao se encontrar a média amostral para cada amostra, qual é a distribuição das médias amostrais? 5- [TRIOLA, 2013] As idades (anos) dos quatro presidentes dos Estados Unidos quando foram assassinados no exercício do cargo são 56 (Lincoln), 49 (Garfield), 58 (McKinley) e 46 (Kennedy). a) Supondo que duas das idades sejam selecionadas com reposição, liste as 16 diferentes amostras possíveis. b) Ache a média de cada uma das 16 amostras e, então resuma a distribuição amostral das médias no formato de uma tabela que represente a distribuição de probabilidade. c) Compare a média populacional com a média das médias amostrais. d) As médias amostrais tendem para o valor da média populacional? Em geral, as médias amostrais são bons estimadores das médias populacionais? Por que sim ou por que não? 6- [TRIOLA, 2013] Um experimento genético envolve uma população de moscas de frutas que consiste em um macho, Mike e três fêmeas, chamadas Ana, Bárbara e Cristina. Suponha que duas moscas de fruta sejam selecionadas aleatoriamente com reposição. a) Depois de listar as 16 diferentes amostras possíveis, ache a proporção de fêmeas em cada amostra e, então, use uma tabela para descrever a distribuição amostral das proporções de fêmeas. b) Ache a média da distribuição amostral. c) A média da distribuição amostral (da parte b.) é igual à proporção populacional de fêmeas? A média da distribuição amostral de proporções é sempre igual à proporção populacional? 7- [TRIOLA, 2013] Com base em dados de Pesquisa Nacional de Exame de Saúde e Nutrição, suponha que os pesos de homens normalmente distribuídos, com média de 172 libras e desvio padrão de 29 libras. a) Ache a probabilidade de que, se um homem individual é selecionado aleatoriamente, seu peso seja superior a 180 libras. b) Ache a probabilidade de que 20 homens selecionados aleatoriamente tenham peso médio superior a 180 libras. c) Se 20 homens têm peso superior a 180 libras, o peso total excede o limite de carga de segurança de 3500 libras de um táxi aquático particular. Com base nos resultados anteriores, isso constitui uma preocupação para a segurança? Por que sim ou por que não? 8- [TRIOLA, 2013] Uma gôndola de esqui, em Vail, Colorado, carrega esquiadores para o topo de uma montanha. Ela leva um placa na qual se diz que a capacidade máxima é de 12 pessoas ou 2004 libras. Tal capacidade será excedida se 12 pessoas tiverem pesos com uma média superior a 2004/12=167libras. Como os homens tendem a pesar mais do que as mulheres, a “pior situação” envolve 12 passageiros que sejam todos homens. Os homens tem pesos que são normalmente distribuídos, com média 172lb e desvio padrão de 29lb (com base em dados da Pesquisa Nacional de Saúde). a) Ache a probabilidade de que um homem individual, selecionado aleatoriamente, tenha peso superior a 167 libras. 149 b) Ache a probabilidade de que 12 homens, selecionados aleatoriamente tenham um peso médio superior a 167 libras (de modo que o peso total será maior que a capacidade máxima da gôndola, de 2004lb). c) A gôndola parece ter o limite do peso correto? Por que sim ou por que não? 9.4. Estimação por Intervalo Até agora, falei apenas sobre estimadores pontuais, suas propriedades e distribuições. Já foi visto que estimadores são variáveis aleatórias e as estimativas variam de amostra para amostra. No caso de estimativa para proporção, por exemplo, sorteei 50 amostras distintas, as estimativas variaram de 66% a 88% o valor do parâmetro era de 76,76%. Levando em consideração a variação observada nas estimativas, a metodologia de sortear uma amostra aleatória da população, utilizar um estimador e fornecer a estimativa obtida como valor final da inferência não parece muito razoável. Parece mais razoável utilizar o conhecimento da distribuição do estimador e associar, à estimativa, informações sobre sua precisão. Para tal, podemos utilizar intervalos de confiança na estimação de um parâmetro desconhecido, fornecendoum intervalo contendo valores distintos e a confiança que temos ao afirmar que o intervalo construído contém o parâmetro desconhecido. 9.4.1. Intervalo de Confiança para a Média Pode-se utilizar o conhecimento da distribuição da média amostral para construir um intervalo de confiança para a média desconhecida m de uma população, da seguinte maneira: Considere uma variável aleatória ` com média m e variância n3 conhecida, sabemos que: ù = �̀ − mn √�# Dado que ` siga uma distribuição normal ou que � seja suficientemente grande (Teorema Central do Limite). Agora, a distribuição da variável ù é a normal padrão ¼ù~Ç(0,1)À, conhecida e tabelada, utilizada como referência para a calcular probabilidades para todas as outras variáveis aleatórias com distribuição normal diferentes da padrão. Sabemos, por exemplo que 95% das observações da variável aleatória ù estão entre os valores −1,96 e 1,96. Basta olhar na tabela da distribuição normal padrão parcialmente representada na figura 58 abaixo: 150 Figura 58: Representação de parte da tabela da distribuição normal padrão. Fonte: Anexo (tabela 49, página 218) Podemos escrever: P(−1,96 ≤ ù ≤ 1,96) = 1 − ¶(ù < −1,96) − ¶(ù > 1,96) = 1 − 2 × 0,025 P(−1,96 ≤ ù ≤ 1,96) = 0,95 Como ù = ��âóô √�# , temos: P�−1,96 ≤ �̀ − mn √�# ≤ 1,96� = 0,95 As propriedades da distribuição normal permitem a manipulação da desigualdade, dentro dos parênteses, sem alterar a afirmação da probabilidade, ou seja, podemos multiplicar os termos da desigualdade pelo erro padrão da média ìn √�# í sem perder a veracidade da afirmação feita. −1,96 n√� ≤ �̀ − m ≤ 1,96 n√� Em seguida, pode-se subtrair a média amostral ( �̀) dos três termos da desigualdade: 151 −1,96 n√� − �̀ ≤ −m ≤ 1,96 n√� − �̀ Por fim pode-se multiplicar os três termos da desigualdade por -1, lembrando de inverter as desigualdades: 1,96 n√� + �̀ ≥ m ≥ −1,96 n√� + �̀ Ao rearranjarmos os termos da desigualdade tem-se: �̀ − 1,96 n√� ≤ m ≤ �̀ + 1,96 n√� Dessa forma, o intervalo de 95% de confiança para a média m é dado por: ì �̀ − 1,96 n√� , �̀ + 1,96 n√�í A fim de tentar entender melhor o conceito de um intervalo de confiança, pode-se imaginar que são retiradas 100 amostras independentes de uma população e 100 intervalos de 95% de confiança são construídos, cada um com base em cada uma das 100 amostras independentes. Espera-se, que 95 desses intervalos de confiança contenham o valor de m e que 5 deles não. Vamos tomar como exemplo (mais uma vez) o conjunto dos 898 alunos da UFJF entrevistados como se fossem a população alvo. Pretendemos estimar a média do peso dos 898 alunos utilizando uma amostra de tamanho 30. Agora, sabemos que o peso médio populacional é de 63,42 kg; retiramos, aleatoriamente, e independentemente, 100 amostras de tamanho 30 da população (898 alunos) e construímos 100 intervalos de 95% de confiança. Os resultados podem ser observados na figura 59. 152 Figura 59: Representação de 100 intervalos de 95% de confiança, obtidos para um mesmo parâmetro, a partir de 100 amostras aleatórias de uma mesma população. Fonte: Elaborada pela autora. Cada segmento horizontal presente na figura 59, representa um dos 100 intervalos de 95% de confiança, os segmentos pretos são aqueles que contêm a verdadeira média populacional, podemos perceber que em alguns a média está próxima ao ponto central, em outras ela está próxima aos limites. Os segmentos que estão em vermelho não contêm o valor da verdadeira média populacional, podemos observar que são 5 segmentos vermelhos e 95 pretos, ou seja, dos 100 intervalos estimados 5 não contém o valor que tentam estimar. Na vida real, não é comum retirar mais de uma amostra de uma mesma população, o comum é buscar retirar uma amostra aleatória de tamanho suficiente e representativa da população alvo. Com a informação retirada dessa amostra pode-se construir um intervalo de confiança para a média populacional (com 95% de confiança, por exemplo). Mas o pesquisador deve ter em mente, e deixar claro em seus resultados que existe a possibilidade de que o intervalo construído não contenha o valor almejado. É importante ressaltar que apesar de procurarmos tirar conclusões sobre a média populacional m, essa média é um valor fixo, embora desconhecido, e não uma variável aleatória. O intervalo de confiança mais comum é o que considera um nível de confiança de 95%, porém esse não é o único, pode-se montar intervalos de confiança de qualquer tamanho, dependendo do interesse do m = 63,42 º� 153 pesquisador, no entanto, intervalos de menos de 90% de confiança são de pouca utilidade. A forma geral para um intervalo de confiança de 100(1 − ×)% para m é dada por: �q(m, (1 − ×)%) = ì �̀ − 3# . n√� , �̀ + 3# . n√�í O tamanho de um intervalo de confiança varia de acordo com o nível de confiança do mesmo ou de acordo com o tamanho da amostra. Considerando uma amostra de tamanho � fixo, por exemplo, temos: Quadro 7: Apresentação da amplitude de um intervalo de confiança, mantendo o mesmo tamanho amostral e variando o nível de significância. � �� *# Limites de confiança de .,,(. − �)% para Amplitude do Intervalo 0,1 1,645 ì �̀ − 1,645. n√� , �̀ + 1,645. n√�í 3,29. n√� 0,05 1,96 ì �̀ − 1,96. n√� , �̀ + 1,96. n√�í 3,92. n√� 0,01 2,576 ì �̀ − 2,576. n√� , �̀ + 2,576. n√�í 5,152. n√� Fonte: Elaborado pela autora. Agora, considerando uma amostra com nível de significância × fixo, temos: Quadro 8: Apresentação da amplitude de um intervalo de confiança, mantendo o mesmo nível de significância e variando o tamanho da amostra. � � Limites de confiança de .,,(. − �)% para Amplitude do Intervalo 0,05 10 ì �̀ − 1,96. n√10 , �̀ + 1,96. n√10í 1,239n 0,05 100 ì �̀ − 1,96. n√100 , �̀ + 1,96. n√100í 0,392n 0,05 1000 ì �̀ − 1,96. n√1000 , �̀ + 1,96. n√1000í 0,124n Fonte: Elaborado pela autora. 9.4.2. Intervalo de Confiança para a Proporção Como vimos anteriormente (seção 9.3.3., página 144) o Teorema Central do Limite também no diz que a distribuição de probabilidade do estimador da proporção de determinada característica, quando � é grande o suficiente se aproxima de uma distribuição normal: ]̂ − ] �](1 − ])� �→Ý�⎯⎯�Ç(0,1) Logo, analogamente ao que foi feito para a média, pode-se construir um intervalo de confiança para a proporção em uma população com base na proporção amostral: 154 �]̂ − 3# .�](1 − ])� ,]̂ + 3# .�](1 − ])� � Infelizmente, o intervalo de confiança dado não pode ser utilizado de maneira direta, já que não conhecemos o parâmetro ] (parâmetro de interesse que queremos estimar). Sendo assim, são propostas as duas soluções abaixo: Substituir ] por ]̂ (intervalo otimista): �]̂ − 3# .�]̂(1 − ]̂)� ,]̂ + 3# .�]̂(1 − ]̂)� � Substituir ](1 − ]) por 1 4# , valor máximo que ](1 − ]) pode alcançar (intervalo conservador): �]̂ − 3# .� 14� ,]̂ + 3# .� 14�� 9.4.3. Exercícios Resolvidos Exercício 1- Um provedor de acesso à internet está monitorando a duração do tempo das conexões de seus clientes, com o objetivo de dimensionar seus equipamentos. São desconhecidas a média e a distribuição de probabilidade desse tempo, mas o desvio padrão, por analogia a outros serviços, é considerado igual a √50 minutos. Uma amostra de 500 conexões resultou num valor médio observado de 25 minutos. O que dizer da verdadeira média, com confiança de 92% `: �tempo das conexões à internet de clientes� ; m =? ; n3 = 50 8��^aK_ ; � = 500 �̀~Ç ìm ; 50500í ; 1̅ = 25 ; × = 8% Observando a probabilidade marcada em azul na figura 60, pode-se obter o valor 3# = T,T� 3# = T,TQ =1,75. Sendo assim, temos todas as informações necessárias para calcular o intervalo de 92% de confiança para a média de tempo das conexões dos clientes do provedor em questão: �q(m, 92%) = �25 − 1,751� 50500 ; 25 + 1,751� 50500� = (24,45 ; 25,55) 8��^aK_ Pode-se dizer que o intervalo encontradocontém o verdadeiro valor da média populacional com probabilidade de 92%. 155 Figura 60: Representação de parte da tabela da distribuição normal padrão. Fonte: Anexo (tabela 49, página 218) Exercício 2- A vida média de baterias automotivas de uma certa marca está sendo estudada. Baseado em estudos similares, com outras marcas, é possível admitir que a vida dessas baterias segue a distribuição normal com desvio padrão de 4,5 meses. De qual tamanho deverá ser a amostra, para que a amplitude do intervalo de 90% de confiança para a vida média seja de 3 meses? �̀: �Vida média de baterias automotivas� ; � =? ; �̀~Ç�m ; 4,53� � ; × = 10% Observando a probabilidade marcada em vermelho na figura 60, pode-se obter o valor 3# = T,� 3# = T,TV =1,645; já que 0,05 é o ponto médio entre 0,0505 e 0,0495, podemos calcular o valor de relativo à essa probabilidade calculando o valor médio entre 1,64 e 1,65. �q(m, 90%) = �1̅ − 1,645�4,53� ; 1̅ + 1,645�4,53� � 1̅ + 1,645�4,53� − �1̅ − 1,645�4,53� � = 3 156 2 × 1,645�4,53� = 3 → �4,53� = 33,29 → 20,25� = 0,913 → � = 20,250,83 = 24,5 ≅ 25 baterias A amostra deverá conter 25 baterias. Exercício 3 - Pretende-se estimar a proporção ] de cura, através do uso de um certo medicamento em doentes contaminados com cercária, que é uma das formas do verme da esquistossomose. Um experimento consistiu em aplicar o medicamento em 200 pacientes, escolhidos ao acaso, e observar que 160 deles foram curados. O que podemos dizer da proporção ] na população em geral, a um nível de 99% de confiança (utilize ambos os intervalos: otimista e conservador)? Como os dois intervalos calculados se comparam? ]: �proporção de cura� ; � = 200 ; ]̂ = 160200 = 0,8; × = 1% Observando a probabilidade marcada em verde na figura 60, pode-se obter o valor 3# = T,T� 3# = T,TTV =2,575; Intervalo de 99% confiança otimista para a verdadeira proporção de cura �0,8 − 2,575�0,8 × 0,2200 ; 0,8 + 2,575�0,8 × 0,2200 � = (0,73 ; 0,87) Intervalo de 99% confiança pessimista para a verdadeira proporção de cura �0,8 − 2,575� 14 × 200 ; 0,8 + 2,575� 14 × 200� = (0,71 ; 0,89) O intervalo de confiança pessimista, por considerar a maior variância possível, possui uma maior amplitude com relação ao otimista. 9.4.4. Exercícios 1- [DEVORE, 2006] Considere a distribuição de uma população normal com valor de σ conhecido. a. Qual é o nível de confiança do intervalo ` ± 2,81n/ √�? b. Qual é o nível de confiança do intervalo ` ± 1,44n/ √�? 2- [DEVORE, 2006] Suponha que uma amostra aleatória de 50 garrafas de uma marca especifica de xarope para tosse seja selecionada e o teor alcoólico de cada garrafa seja determinado. Seja m o teor médio de álcool da população de todas as garrafas da marca em estudo. Suponha que o intervalo de confiança de 95% resultante seja (7,8; 9,4). a. O intervalo de confiança de 90% calculado dessa mesma amostra teria sido mais estreito ou mais largo que o intervalo mencionado acima? Explique seu raciocínio. b. Considere a afirmação a seguir: Existe 95% de chance de m estar entre 7,8 e 9,4. Esta afirmação está correta? Por quê? 157 c. Considere a afirmação a seguir: Podemos estar certos de que 95% de todas as garrafas desse tipo de xarope tem um conteúdo alcoólico que está entre 7,8 e 9,4. A afirmação está correta? Por quê? d. Considere a afirmação a seguir: Se o processo de seleção de uma amostra de tamanho 50 e de cálculo de intervalo de 95% correspondente for repetido 100 vezes, 95 dos intervalos resultantes incluirão m. Essa afirmação está correta? Por quê? 3- [DEVORE, 2006] Assuma que a porosidade do hélio (em porcentagem) das amostras de carvão tiradas de qualquer junta especifica seja normalmente distribuída com desvio padrão real de 0,75. a. Calcule um IC de 95% da porosidade média real de uma junta, caso a porosidade média de 20 de espécimes seja 4,85. b. Calcule um IC de 98% de porosidade média real de outra junta com base nos 16 espécimes com média amostral de porosidade de 4,56. c. Quão grande o tamanho de uma amostra deve ser se a amplitude do intervalo de 95% for 0,40? d. Que tamanho de amostra é necessário para estimar a porosidade média real dentro de 0,2 com confiança de 99%? 4- [TRIOLA, 2013] Em uma pesquisa do Pew Research Center com 745 adultos selecionados aleatoriamente, 589 disseram ser moralmente errado não relatar toda a renda na declaração de imposto de renda. Construa um intervalo de confiança de 95% para a porcentagem de todos os adultos que pensam do mesmo modo e, então, escreva uma afirmativa que dê uma interpretação desse intervalo de confiança. 5- [TRIOLA, 2013] Uma amostra aleatória de 37 pesos de moedas e um centavo feitas depois de 1983 tem média de 2,4991 g e desvio-padrão 0,0165 g. Construa um intervalo de confiança de 99% para o peso médio de todas essas moedas de um centavo. Especificações do planejamento requerem uma média populacional de 2,5 g. O que o intervalo de confiança sugere sobre o processo de fabricação. 6- [TRIOLA, 2013] Uma pesquisa Gallup consistiu em 1012 adultos selecionados aleatoriamente, ao quais se perguntou se “a clonagem de humanos deveria ou não ser permitida”. Os resultados mostraram que 901 adultos pesquisados apontaram que a clonagem não deveria ser permitida. a. Ache a melhor estimativa pontual da proporção de adultos que acreditam que a clonagem de humanos não deve ser permitida. b. Construa um intervalo de confiança de 95% para a proporção de adultos que acreditam que a clonagem de humanos não deve ser permitida. c. Um repórter de um jornal deseja determinar se os resultados da pesquisa constituem uma forte evidência que a maioria (50%) das pessoas se opõe a tal clonagem. Com base nos resultados, há evidência forte apoie a afirmativa de que a maioria se opõe a tal clonagem? Por que sim ou por que não? 7- [TRIOLA, 2013] Quantos adultos devem ser selecionados aleatoriamente para se estimar o escore médio FICO (classificação de crédito) de adultos trabalhadores nos Estados Unidos? O desvio padrão populacional é 68 e desejamos 95% de confiança em que a média amostral esteja a até 3 pontos da média populacional. 8- [TRIOLA, 2013] Quantas quantidades diárias de chuva em Boston devem ser selecionadas para estimar a quantidade diária média de chuva? O desvio-padrão populacional é 0,212 polegada e desejamos 99% de confiança em que a média amostral esteja a até 0,010 polegada da média populacional. 9- [TRIOLA, 2013] Uma amostra aleatória simples de 125 escores SAT tem média de 1522. Suponha que os escores SAT tenham um desvio-padrão de 333. 158 a. Construa um intervalo de confiança de 95% para o escore SAT médio. b. Construa um intervalo de confiança de 99% para o escore SAT médio. c. Qual dos intervalos anteriores é maior? Por quê? 10- [TRIOLA, 2013] Quando 14 estudantes de segundo ano do curso de medicina, no Hospital Bellevue, mediram a pressão sanguínea da mesma pessoa, obtiveram os resultados listados a seguir. Supondo que o desvio-padrão da população seja conhecido e igual a 10 mmHg, construa um intervalo de confiança de 95% para a média populacional. Idealmente, qual deveria ser o intervalo de confiança nessa situação? 138 130 135 140 120 125 120 130 130 144 143 140 130 150 11- [TRIOLA, 2013] O teste Weschler de QI é planejado de modo que a média seja 100 e o desvio-padrão seja 15 para a população de adultos normais. Ache o tamanho de amostra necessário para se estimar o escore de QI médio de cientistas trabalhando hoje na NASA. Desejamos ter 95% de confiança em que nossa média amostral esteja a até cinco pontos de QI do verdadeiro valor da média. A média para essa população é claramente maior do que 100. O desvio-padrão é, provavelmente, menor do que 15, porque é um grupo com menos variação do que um grupo selecionado aleatoriamente da população geral; assim, se usarmos σ = 15, seremos conservadores,pois estaremos usando um valor que torna o tamanho amostral, no mínimo, tão grande quanto necessário. Suponha σ = 15 e determine o tamanho amostral requerido. 12- [TRIOLA, 2013] Desejamos estimar a perda média de peso de pessoas, um ano após usarem a dieta de Atkins. Quantas pessoas que fizeram a dieta devem ser entrevistadas, se desejarmos estar 95% confiantes em que a perda de peso média amostral esteja a até 0,25 libra da verdadeira média populacional? Suponha que o desvio-padrão populacional seja conhecido e igual a 10,6 libras (com base em dados de “Comparison of the Atkins, Ornish, Weight Watchers, and the Zone Diets for Weight Loss and Heart Diseases Risk Reduction”, de Dansinger, et al., Journal of the American Medical Association, Vol. 293, Nº 1). O tamanho amostral obtido é prático? 13- [TRIOLA, 2013] Uma chamada no jornal USA Today observou que “Os consumidores irão gastar uma média estimada de 483 dólares em mercadorias” nas despesas de volta às aulas. Foi dito que o valor se baseava em uma pesquisa com 8453 consumidores, e que a margem de erro era de “± 1 ponto percentual”. O que há de errado com essa informação? 14- [TRIOLA, 2013] Uma organização nacional de pesquisas de opinião foi contratada para estimar a quantidade média de dinheiro carregada por adultos nos Estados Unidos. O planejamento amostral original envolvia chamadas telefônicas para 2500 números diferentes de telefone em todo o país, mas um gerente decide economizar nas despesas de chamadas interurbanas e usa uma amostra aleatória simples de 2500 números de telefone, todos no estado da Califórnia. Se essa amostra é usada para a construção de um intervalo de confiança de 95% para estimar a média populacional, a estimativa será boa? Por que sim ou por que não? 15- [WALPOLE et al., 2009] Muitos pacientes cardíacos usam marcapassos implantados para controlar os batimentos do coração. Um módulo conector plástico é montado no topo do marcapasso. Assumindo um desvio-padrão de 0,0015 e uma distribuição aproximadamente normal, determine um intervalo de confiança de 95% para a média de todos os módulos conectores fabricados por certa indústria. Uma amostra aleatória de 75 módulos tem média de 0,310 polegada. 16- [WALPOLE et al., 2009] Uma amostra aleatória de 100 proprietários de automóveis mostra que, no estado da Virgínia (Estados Unidos), um automóvel é dirigido a uma média de 23.500 quilômetros por 159 ano, com desvio-padrão de 3.900 quilômetros. Assuma a distribuição das medidas como sendo aproximadamente normal. a. Construa um intervalo de confiança de 99% para o número médio de quilômetros que um automóvel percorre anualmente no estado da Virgínia. b. O que podemos afirmar com 99% de confiança sobre o tamanho possível de nosso erro se estimarmos o número médio de quilômetros percorridos pelos proprietários de automóveis como sendo 23.500 quilômetros por ano? 17- [WALPOLE et al., 2009] Qual é o tamanho da amostra necessário no Exercício 22 se desejamos estar 95% confiantes de que nossa média amostrai estará dentro de 0,0005 polegada da média verdadeira? 18- [WALPOLE et al., 2009] Em uma amostra aleatória de 1.000 casas em certa cidade, sabe-se que 228 têm aquecimento a óleo. Determine o intervalo de confiança de 99% para a proporção de casas com aquecimento a óleo nessa cidade. 19- [WALPOLE et al., 2009] Um novo sistema de lançamento de foguetes está sendo considerado para a implementação de foguetes pequenos e de certo alcance. O sistema existente tem p = 0,8 como probabilidade de um lançamento bem-sucedido. Uma amostra de 40 lançamentos experimentais com o novo sistema é realizada e 34 obtêm sucesso. a. Construa um intervalo de confiança de 95% para p. b. Você concluiria que o novo sistema é melhor? 9.5. Testes de Hipóteses Chegamos, agora, na parte final da apostila. Aqui, iremos estudar sobre testes de hipóteses, uma ferramenta muito importante na pesquisa científica. Vamos relembrar rapidamente do método científico, discutido na seção 2.4. (página 6): Uma pesquisa científica, tem por objetivo responder a uma pergunta. Se não houver informação prévia sobre o problema, pode-se desejar fazer um estudo exploratório para conhecer algo ainda desconhecido, nesse caso, o que vimos sobre intervalos de confiança pode ser o suficiente para concluirmos a pesquisa. No entanto, se já existe algum conhecimento prévio, é comum o pesquisador ter alguma hipótese sobre o resultado que será encontrado, nesse caso, a pesquisa é feita com o intuito de encontrar evidencias que suportem ou não a hipótese inicial. Assim como fizemos intervalos de confiança para a média populacional e para a proporção populacional utilizando os conhecimentos das distribuições amostrais dos estimadores da média amostral e proporção amostral, também podemos estudar como conduzir testes de hipóteses para a média populacional e para a proporção populacional. Primeiro, iremos estudar mais detalhadamente como conduzir um teste de hipóteses para a média populacional, em seguida, irei mostrar quais adaptações devem ser feitas ao trabalhar com a proporção. 9.5.1. Introdução Para introduzir o conceito de teste de hipóteses e a nomenclatura básica necessária para o bom entendimento e aplicação dessa técnica, utilizarei um exemplo puramente ilustrativo: Considere uma variável aleatória `, tal que: ` = òconcentração em unidadesml de determinada vitamina no sangueõ 160 Vamos supor que as distribuições de ` no caso de indivíduos que tenham deficiência, a quantidade adequada (saudáveis), ou excesso dessa vitamina no sangue sejam conhecidas, e dada por: `�~Ç(10, 63) (indivíduos com deficiência da vitamina); `�~Ç(14, 63) (indivíduos saudáveis); `�~Ç(18, 63) (indivíduos com excesso da vitamina). Irei descrever três situações que poderiam surgir em pesquisas relacionadas com a variável definida acima: Situação 1: Suponha que determinada clínica tenha um grupo com 30 pacientes com deficiência da vitamina no sangue. Todos os pacientes aceitaram tomar um suplemento vitamínico (já se sabe que é seguro) para verificar se ele é eficaz. Faz sentido imaginar que serão observadas as quantidades de vitamina no sangue, de cada paciente, após o tratamento com o suplemento, e que a média observada irá fornecer a base para a conclusão sobre a eficácia do tratamento. Figura 61: Imagem ilustrativa da situação 1. Fonte: Elaborada pela autora. Situação 2: Suponha que determinada clínica tenha um grupo com 30 pacientes com excesso da vitamina no sangue. Todos os pacientes aceitaram tomar um medicamento (já se sabe que é seguro) para verificar se ele é eficaz. O processo de decisão deve seguir o mesmo esquema da situação acima: observar as quantidades de vitamina no sangue, de cada paciente, após o tratamento com o medicamento, obter a média observada que fornecerá a base para a conclusão sobre a eficácia do tratamento. 161 Figura 62: Imagem ilustrativa da situação 2. Fonte: Elaborada pela autora. Situação 3: Vamos supor que foi retirada uma amostra de 30 indivíduos de uma cidade, deseja-se inferir se a população da cidade tem deficiência, excesso, ou se possui a quantidade normal da vitamina no sangue, com base nessa amostra. Novamente, faz sentido imaginar que essas quantidades serão observadas para cada indivíduo da amostra e que a média observada sirva como ponto de partida para tomar a decisão sobre a saúde da população. Figura 63: Imagem ilustrativa da situação 3. Fonte: Elaborada pela autora 162 9.5.2. Hipóteses de Interesse Ao trabalharmos com testes de hipóteses, faz-se necessário definir as hipóteses de interesse. Todo teste de hipótese deve possuir duas hipóteses: Hipótese Nula (¬T): o Hipótese conservadora, aquela que mantém o status quo, não desafia o que já se sabe, ou o que foi especificado; Hipótese Alternativa (¬j): o Hipótese inovadora,desafia o que se é conhecido, traz uma situação ou conhecimento novo. Nas situações que foram definidas anteriormente (seção 9.5.1.) temos as seguintes hipóteses de interesse: Situação 1: o ¬T: m = 10 unidades/ml Pois o suplemento foi dado a pessoas com deficiência da vitamina, cuja média do componente no sangue é 10 unidades/ml, ou seja, a hipótese conservadora é o remédio não faz efeito. o ¬j: m > 10 unidades ml⁄ O objetivo do suplemento é aumentar a quantidade de vitamina no sangue, logo, se m > 10 o suplemento teve o efeito desejado. Situação 2: o ¬T: m = 18 unidades/ml Pois o medicamento foi dado a pessoas com excesso da vitamina, cuja média do componente no sangue é 18 unidades/ml. o ¬j: m < 18 unidades ml⁄ O objetivo do medicamento é diminuir a quantidade de vitamina no sangue, logo, se m < 18 o medicamento teve o efeito desejado Situação 3: o ¬T: m = 14 unidades/ml. Pois quando não se sabe nada sobre a população, supõe-se o normal. o ¬j: m ≠ 14 unidades ml⁄ Se a população tiver deficiência da vitamina m < 14; Se a população tiver excesso da vitamina m > 14. Dividimos as hipóteses de interesse em dois tipos: Unilaterais: Casos em que a hipótese alternativa é dada por uma única desigualdade (como ocorre nas situações 1 e 2). o ¬T: m = � versus ¬j : m < �, ou o ¬T: m = � versus ¬j : m > �. Usualmente, utiliza-se a seguinte notação para hipóteses unilaterais, sem alterar a ideia ou o conceito por trás da hipótese nula: o ¬T: m ≥ � versus ¬j: m < �, ou o ¬T: m ≤ � versus ¬j: m > �. 163 Bilaterais: Casos em que a hipótese alternativa é dada pela diferença ou por duas desigualdades (como ocorre na situação 3). o ¬T: m = � versus ¬j : m ≠ �. 9.5.3. Metodologia Ao realizar uma pesquisa, devemos primeiro, definir a pergunta que queremos responder, depois definir as nossas hipóteses de interesse, em seguida prosseguir com a coleta de dados e por fim analisar os dados e buscar evidências que nos auxiliem na decisão de qual hipótese parece ser a mais compatível com a realidade. Vamos considerar as situações passadas anteriormente, as hipóteses já estão definidas, vamos considerar que os dados já foram coletados, vamos ver agora, como analisar esses dados de maneira a obter conclusões confiáveis. Vamos relembrar a nossa situação 1: temos 30 pacientes que já foram tratados com o suplemento vitamínico, amostras de sangue foram coletadas e a quantidade de vitamina no sangue foi observada para cada um dos pacientes, resultando em um conjunto de 30 dados (`�, `3, … , `4T), o próximo passo é calcular a média amostral 1̅LMN, veremos agora, como tomar uma decisão baseada nessa média observada. Figura 64: Imagem ilustrativa da situação 1. Fonte: Elaborada pela autora. Já vimos, anteriormente, que a média amostral é uma variável aleatória, e que, portanto, seu valor varia de amostra para amostra, faz sentido utilizar o conhecimento da distribuição amostral da média na nossa tomada de decisão. É aqui que vai entrar a importância das hipóteses definidas. Precisamos conhecer a média e o desvio padrão populacional, a fim de conhecer a distribuição amostral da média. Sabemos que os pacientes tinham deficiência de vitamina, ou seja, a quantidade de vitamina no sangue desses pacientes seguia uma distribuição normal com média 10 unidades/ml e desvio padrão de 6 unidades/ml (definido na seção 9.5.1., página 159) antes do tratamento com o suprimento. Se o tratamento não tiver efeito (hipótese nula) faz sentido pensar que a quantidade de sangue após o tratamento seguirá essa mesma distribuição, logo �̀~Ç ;10 ; �J4T=. 164 Figura 65: Distribuição amostral da média, se a hipótese nula for verdadeira. Fonte: Elaborada pela autora A figura 65 mostra a distribuição da média amostral (após o tratamento) se o medicamento não for eficaz, sabemos que a média amostral pode assumir qualquer valor dentro do intervalo delimitado pela curva azul, com maior probabilidade para os valores centrais e menor probabilidade para os valores mais próximos das caudas. A ideia é definir um valor crítico (1ª) que delimite o quão afastado de 10 a média observada deve estar para que a hipótese de que ele pertença a distribuição �̀~Ç ;10 ; �J4T= seja rejeitada. 9.5.3.1. Erros O valor crítico (1ª) deve ser determinado de maneira a minimizar os erros associados às possíveis conclusões. Faz-se necessário, então, conhecer as possíveis conclusões de um teste de hipóteses: Rejeitar a hipótese nula; ou Não rejeitar a hipótese nula. Sempre devemos relacionar as conclusões às hipóteses nulas, pois é com base nessa hipótese que encontramos a distribuição da média amostral (como ilustrado na figura 65). Os erros que podem ser cometidos ao se realizar um teste de hipóteses são: Erro de tipo I: o Consiste em rejeitar a hipótese nula quando ela é verdadeira; o Geralmente representado por ×; o Em virtude de ¬T especificar um único valor do parâmetro, existe um único valor de ×. Erro de tipo II: o Consiste em não rejeitar a hipótese nula quando ela é falsa; o Geralmente representado por �; 165 o Como ¬j não especifica um único valor para o parâmetro de interesse, existe um valor diferente de � para cada valor do parâmetro consistente com ¬j. A fim de entender melhor a ideia de rejeitar ou não a hipótese nula e os erros relativos a essas decisões, gosto de utilizar uma analogia com o processo criminal. Imagine que você é um membro do júri em um julgamento. Você será informado de que o réu deve ser considerado inocente até que se prove o contrário; ou seja, é assumida a hipótese de inocência como a hipótese nula, apenas se houverem evidências fortes o suficiente deve-se rejeitar essa hipótese e dar o veredito de culpado. Figura 66: Analogia com o processo criminal. Fonte: Elaborada pela autora. Pode-se ver, na figura 66 que os erros são: Rejeitar a inocência (veredito de culpado) quando o réu é inocente; e Não rejeitar a inocência (veredito de inocente) quando o réu é culpado. O consenso, é que é pior prender um inocente do que libertar um culpado, por isso a suposição de inocência até provada a culpa. Ainda assim, sabemos que o sistema é falho e que erros ocorrem. Quando diminuímos o erro de prender um inocente, aumentamos a probabilidade de soltar um culpado e vice-versa. Uma parte fundamental do teste de hipóteses é controlar a probabilidade de cometermos o erro do tipo I: Quadro 9: Erros e acertos em um teste de hipóteses. Decisão Situação ¬T verdadeira ¬T falsa Rejeitar ¬T Erro Tipo I Sem Erro Não rejeitar ¬T Sem Erro Erro Tipo II Fonte: Elaborado pela autora. 166 Resumindo, temos: Erro de tipo I: Rejeitar ¬T quando ¬T é verdadeira; ¶(\[�[�a�\ ¬T|¬T é y[\9�9[�\�) = × Erro de tipo II: Não rejeitar ¬T quando ¬T é falsa; ¶(�ãK \[�[�a�\ ¬T|¬T é ��b_�) = � Vamos voltar para a situação 1, em que: ¬T: O suplemento não é eficaz, ou ¬T: m ≤ 10 ¬j: O suplemento é eficaz, ou ¬j : m > 10 Nesse caso, temos as seguintes probabilidades dos erros de tipo I e de tipo II: × = ¶(concluir que o suplemento é eficaz quando na verdade ele não é) � = ¶(concluir que o suplemento não é eficaz quando na verdade ele é) Idealmente, teríamos × e � próximos a zero, mas como podemos ver na figura 67 abaixo, conforme diminuímos ×, aumentamos � (para fazer a figura foi utilizado ¬j : m = 14, média da população saudável). Figura 67: Representação gráfica dos erros de tipo I e II. Fonte: elaborada pela autora. O que a figura 67 nos mostra, é que (nesse caso específico) se eu aumentar o valor crítico, iremos diminuir a área azul, o que significa diminuir o valor do erro de tipo I (×), porém, ao mesmo tempo que diminuiríamos a área azul, a área laranja aumentaria, ou seja, o erro de tipo II (�) aumentaria. A situação 1 representa um teste de hipóteses unilateral, oque aconteceria se tivéssemos um teste de hipóteses bilateral? 167 Vamos relembrar da situação 3 (detalhada na seção 9.5.1., página 159) cujas hipóteses foram definidas na seção 9.5.2., página 162): ¬T: m = 14 ¬j: m ≠ 14 Nesse caso, temos as seguintes probabilidades dos erros de tipo I e de tipo II: × = ¶(concluir que a população é saudável quando na realidade ela não o é: pode ter tanto excesso quanto deficiência da vitamina no sangue) � = ¶(concluir que a população não é saudável (pode ter tanto excesso quanto deficiência da vitamina no sangue) quando na realidade ela é saudável) Idealmente, teríamos × e � próximos a zero, mas como podemos ver na figura abaixo, conforme diminuímos ×, aumentamos � (para fazer a figura foi utilizado ¬j: m = 10 ou m = 18, média da população com deficiência e com excesso da vitamina no sangue, respectivamente). Figura 68: Representação dos erros de tipo I e II no caso de testes bilaterais. Fonte: Elaborada pela autora. Nesse caso, o erro de tipo um (área azul) deve ser dividido nas duas caldas da distribuição amostral da média, já que temos interesse em rejeitar ¬T tanto no caso de haver evidências de a média real ser inferior a 10, quanto no caso de haver evidências de que a média é superior a 10. Da mesma forma, o erro de tipo II (área laranja) também estará dividido, mas assim como no caso unilateral, conforme diminuímos a área do erro de tipo 1, iremos aumentar a área do erro de tipo II. 168 9.5.3.2. Valor Crítico e Região Crítica O valor crítico (1ª) deve ser determinado de maneira a respeitar um erro de tipo I (×) máximo aceito pelo pesquisador. Esse valor crítico será utilizado para definir a Região Crítica, ou Região de Rejeição (figuras 67 e 68). A ideia é que se o valor da média amostral estiver dentro da região crítica a hipótese nula deverá ser rejeitada. Agora, se o valor da média amostral não pertencer à região crítica, então a hipótese nula não deverá ser rejeitada. Logo, para encontrar 1ª, deve-se fixar o valor de ×, denominado nível de significância do teste, e utilizar o conhecimento da distribuição de probabilidade da média amostral. Voltemos para o exemplo dado pela situação 1, temos que �̀~Ç ;m, �J4T=, pois não sabemos qual o valor real de m após a utilização do suplemento, mas sabemos que foi retirada uma amostra de tamanho 30 da população de indivíduos com deficiência da vitamina no sangue ¼`~(10, 63)À. Se considerarmos ¬T como sendo verdadeira, em outras palavras, se considerarmos que após a utilização do suplemento m = 10, teremos que �̀~Ç ;10, �J4T=, logo, × será dado por: ¶ �1 > 1ª� �̀~Ç ì10, 6330í� = × Um nível de significância muito utilizado, é o de 5%, vamos imaginar, então, que aceitemos um erro máximo de 5% para a rejeição de ¬T. Se voltarmos na figura 60 (página 145) veremos que ¶(ù > 1,645) = 0,05. Para encontrar o valor crítico basta relacionar esse valor da distribuição normal padrão com a variável �̀: ª = 1ª − mn √�# 1,645 = 1ª − 106 √30# ⇒ 1ª = 1,645 6√30 + 10 ⇒ Oe = .., - Algumas observações: Por que calcular ¶ �1 > 1ª� �̀~Ç ;10, �J4T=� = 0,05 ao invés de ¶ �1 < 1ª� �̀~Ç ;10, �J4T=�? o A nossa hipótese nula é que o suplemento não é eficaz, ou seja, a média daqueles que tomaram o medicamento não difere de 10, que é a média de indivíduos com deficiência. o Estamos procurando evidências de que o suplemento é eficiente, ou seja, rejeitaremos a hipótese nula se a média observada for grande o suficiente para concluirmos que não faz sentido dizer que ela vem de uma distribuição com média igual a 10. o Dessa forma, faz sentido utilizarmos o sinal definido na ¬j quando formos calcular o valor crítico (isso sempre será verdade). Região de rejeição: o Nesse caso, a região de rejeição é dada por: 169 �� = �1̅ ∈ ℝ: 1̅ > 11,8� Conclusões possíveis: o Vamos imaginar que a média amostral observada após o término do experimento seja igual a 11,4 unidade/ml da vitamina no sangue dos participantes. Nesse caso, a média observada não pertence à Região de rejeição, sendo assim, não existe evidência para rejeitar a hipótese nula. Ou seja, conclui-se que o suplemento não foi eficaz, a um nível de 5% de significância. o Agora, vamos imaginar que a média amostral observada após o término do experimento foi igual a 12,5 unidade/ml da vitamina no sangue dos participantes. Nesse caso, a média observada pertence à região de rejeição, ou seja, existe evidência para rejeitar a hipótese nula, ou seja, conclui-se que o suplemento foi eficaz, a um nível de 5% de significância. Novamente, temos que a situação 1 representa um teste de hipóteses unilateral, o que aconteceria se tivéssemos um teste de hipóteses bilateral? Vamos relembrar, mais uma vez da situação 3: temos que �̀~Ç ;m, �J4T=, pois não sabemos qual o valor real de m da população da cidade em questão, mas sabemos que foi retirada uma amostra de tamanho 30 da população e que independentemente de ter deficiência da vitamina no sangue, ser saudável ou ter excesso da vitamina no sangue a variância se mantém (n3 = 63). Se considerarmos ¬T como sendo verdadeira, em outras palavras, se considerarmos que a população é saudável m = 14, teremos que �̀~Ç ;14, �J4T=, logo, × será dado por: ¶ �1 < 1ª� �̀~Ç ì14, 6330í� + ¶ �1 > 1ª� �̀~Ç ì14, 6330í� = × Um nível de significância muito utilizado, é o de 5%, vamos imaginar, então, que aceitemos um erro máximo de 5% para a rejeição de ¬T. Se Voltarmos na figura 58 na página 140, vermos que ¶(ù < −1,96) = ¶(ù > 1,96) = 0,025, ou seja, os valores críticos poderão ser encontrados ao relacionar os valores -1,96 e 1,96 da distribuição normal padrão com os respectivos valores na distribuição da média amostral. −1,96 = 1ªI − 146 √30# ⇒ 1ªI = −1,96 6√30 + 14 ⇒ Oe. = .., -/ 1,96 = 1ªJ − 146 √30# ⇒ 1ªJ = 1,96 6√30 + 14 ⇒ Oe* = .(, ./ Algumas observações: Região de rejeição: o Nesse caso, a região de rejeição é dada por: �� = �1̅ ∈ ℝ: 1̅ < 11,85 ou 1̅ > 16,15� Conclusão: 170 o Vamos imaginar que a média amostral observada após o término do experimento foi igual a 13,2 unidade/ml da vitamina no sangue dos participantes. Nesse caso, a média observada não pertence à Região de rejeição, sendo assim, não existe evidência para rejeitar a hipótese nula. Ou seja, conclui-se que não existe evidências para afirmar que a população tenha deficiência ou excesso da vitamina, a um nível de 5% de significância. 9.5.3.3. Estatística do Teste Encontrar ao valor crítico e a região crítica não é a única forma de concluir um teste de hipóteses, pode-se utilizar, também, a estatística do teste, uma função dos dados da amostra na qual a decisão (rejeitar ¬T ou não rejeitar ¬T) se baseia. No caso de testes de hipóteses para a média populacional quando conhecemos o desvio padrão da população (caso discutido até agora) a estatística do teste é a normal, e tudo que temos que fazer é relacionar o valor da média amostral observada com o valor respectivo da distribuição normal padrão: ù = 1̅ − mn √�# E verificar se a estatística do teste se encontra dentro ou fora da região de rejeição, também definida na distribuição normal padrão. A utilização do valor crítico ou da estatística do teste, não traz nenhuma diferença ao resultado do teste, a decisão de qual utilizar fica a cargo do pesquisador, pode ser que para alguns casos uma das metodologias seja mais rápida ou envolva menos cálculos, mas ambas DEVEM sempre chegar à mesma conclusão. Vamos considerar a situação 1, digamos que queremos realizar um teste de hipóteses a um nível de 5% de significância, teremos: Região de Rejeição: �� = � ∈ ℝ: > 1,645� (figura 60, página 145) Considerando que a média observada seja igual a 12,5, temos: o Estatística do teste: ù = 12,5 − 106 √30# = 2,28 Conclusão: Como 2,28 > 1,645, temos que a estatística do teste pertence à região de rejeição, ouseja, rejeitamos ¬T a um nível de 5% de significância. Mesma conclusão que havíamos chegado utilizando o valor crítico. Vamos considerar a situação 3, a fim de saber como agir no caso de teste bilateral: Região de Rejeição: �� = � ∈ ℝ: < −1,96 ou > 1,96� (figura 58, página 140) Considerando que a média observada seja igual a 13,2, temos: o Estatística do teste: ù = 13,2 − 146 √30# = −0,73 171 Conclusão: Como -1,96 < -0,73 < 1,96, temos que a estatística do teste não pertence à região de rejeição, ou seja, não rejeitamos ¬T a um nível de 5% de significância. Mesma conclusão que havíamos chegado utilizando o valor crítico. 9.5.3.4. p-valor Uma forma de relatar o resultado de um teste de hipóteses é dizer se a hipótese nula foi, ou não, rejeitada a um nível de significância especificado, como vimos nas seções anteriores. Porém, esse tipo de afirmação nem sempre é adequado, pois não informa se o valor da estatística estava próximo ou afastado do valor limite da região de rejeição. O p-valor é a probabilidade calculada, assumindo-se que ¬T seja verdadeira, de se obter um valor igual ao da estatística de teste observada, ou tão contraditória à ¬T quanto. Dessa maneira, ele fornece informação sobre a força da evidência contra ¬T, e permite que o pesquisador tire sua conclusão em qualquer nível de significância ×. Quanto menor for o p-valor observado, mais contraditórias a ¬T são as evidências coletadas. Uma vez que o p-valor tenha sido calculado, a conclusão, em qualquer nível × de significância, resulta da comparação do p- valor a ×: ] − y�bK\ ≤ × ⟹ implica na rejeição de ¬T a um nível ×; ] − y�bK\ > × ⟹ implica na não-rejeição de ¬T a um nível ×. Novamente, vamos considerar a situação 1, definida anteriormente, digamos que o valor da média observada tenha sido 12,5 unidades/ml. A fim de conhecer o p-valor relativo à essa média observada, basta calcular o quão provável seria de encontrar valores superiores (tiro a desigualdade da ¬j) à média observada se ¬T for verdade, ou seja: ¶ �1̅ > 12,5� �̀~Ç ì10, 6330í� = ¶(ù > 2,28) = 0,0113 Nesse caso, temos um p-valor de 0,0113 = 1,1% (tabela 49, página 218), dessa forma, podemos concluir que existem fortes evidências para rejeitar ¬T, já que o erro real ao rejeitar ¬T, baseado no valor da média amostral obtido, é inferior ao erro considerado como aceitável de 5% (nível de significância). Ou seja, pode-se concluir, ainda com mais certeza, que o suplemento vitamínico é eficiente. Agora, vamos considerar a situação 3, definida anteriormente, digamos que o valor da média observada tenha sido 13,2 unidades/ml. Para encontrar o p – valor no caso de teste bilateral, devemos ter um pouco mais de cuidado, já que devemos considerar a probabilidade de erro dividida nas duas caudas da distribuição amostral. No caso bilateral, deve-se, primeiramente verificar se o valor da média observada é superior ou inferior ao valor da média definida pela hipótese nula (no nosso caso 13,2 < 14) nesse caso, vamos considerar que metade do p – valor é dado por: ] − y�bK\2 = ¶ �1̅ < 13,2� �̀~Ç ì14, 6330í� 172 ∴ ] − y�bK\ = 2 × ¶ �1̅ < 13,2� �̀~Ç ì14, 6330í� ] − y�bK\ = 2 × ¶(ù > −0,73) = 2 × 0,2327 = 0,4664 Nesse caso, temos um p-valor de 0,4664 = 46,64%, dessa forma, podemos concluir que existem fortes evidências para não rejeitar ¬T, já que o erro real ao rejeitar ¬T, baseado no valor da média amostral obtido, é muito superior ao erro considerado como aceitável de 5% (nível de significância). OBS: Os valores utilizados acima foram obtidos da seção anterior (seção 9.5.3.3., página 170 e da tabela da distribuição normal padrão que pode ser encontrada na página 218). 9.5.4. Um Exemplo Vamos relembrar agora a situação 2: Temos uma amostra de 30 indivíduos com excesso de vitamina no sangue ¼`~Ç(18 ; 63)À, todos irão tomar um medicamento cujo objetivo é normalizar a quantidade de vitamina no sangue dos pacientes. Ao final do experimento a quantidade de vitamina no sangue de cada paciente foi analisada e a média amostral de 16,5 unidades/ml foi encontrada. A empresa reguladora de medicamentos exige que seja conduzido um teste de hipóteses a um nível de 1% de significância a fim de aprovar ou não o medicamento. Temos: Hipóteses de interesse: o ¬T: m ≥ 18, em outras palavras, o medicamento não é eficaz; o ¬j: m < 18, em outras palavras, o medicamento é eficaz Nível de significância: o × = 0,01 Variância populacional: o n3 = 63 Tamanho amostral: o � = 30 Média amostral: o 1̅ = 16,5 Conduzindo o teste utilizando o valor crítico: o Primeiro devemos encontrar o valor relativo ao valor crítico na distribuição normal padrão: × = 0,01 ⇒ = −2,33 ⇒ �q: � | < −2,33� o 1̅ª = −2,33 × 6 √30# + 18 = −2,55 + 18 = 15,45 ��: �1̅|1̅ < 15,45� o Como 16,5 > 15,45, temos que a média observada não pertence à região de rejeição, logo, não existe evidência, a um nível de 1% de significância, para rejeitar a hipótese nula, ou seja, o remédio não pode ser considerado eficaz. Conduzindo o teste utilizando a estatística do teste: = 16,5 − 186 √30# = −1,37 173 ��: � | < −2,33� o Como -1,37 > -2,33, temos que a média observada não pertence à região de rejeição, logo, não existe evidência, a um nível de 1% de significância, para rejeitar a hipótese nula, ou seja, o remédio não pode ser considerado eficaz. Conduzindo o teste utilizando a o p-valor: o Para calcular o p-valor, primeiro, vamos relembrar qual a afirmação feita pela hipótese alternativa: ¬j: m < 18. Ou seja, iremos utilizar o sinal de menor (<) no cálculo do p – valor: ¶(ù < −1,37) = 0,0853 Como o p – valor é superior à 0,01, temos que o erro real ao rejeitar ¬T, tendo a média amostral como base, é superior ao máximo aceito, ou seja, não se deve rejeitar ¬T. 9.5.5. Resumindo Testes de Hipóteses para a Média com �* Conhecido Testes Unilaterais: o ¬T: m ≥ � vs ¬j: m < � Estatística do Teste: LMN = 1̅LMN − �n √�# Nível de significância: ×; Valor Crítico: ¶( �̀ < 1ª) = × Região de Rejeição: ��: �1̅ ∈ ℝ|1̅ < 1ª� p-valor: ¶( �̀ < 1̅LMN) = ¶(ù < LMN) o ¬T: m ≤ � vs ¬j: m > � Estatística do Teste: LMN = 1̅LMN − �n √�# Nível de significância: ×; Valor Crítico: ¶( �̀ > 1ª) = × Região de Rejeição: ��: �1̅ ∈ ℝ|1̅ > 1ª� p-valor: ¶( �̀ > 1̅LMN) = ¶(ù > LMN) Teste Bilateral: o ¬T: m = � vs ¬j: m ≠ � Estatística do Teste: LMN = 1̅LMN − �n √�# Nível de significância: ×; 174 Valor Crítico: ¶¼ �̀ < 1ªIÀ = × 2# e ¶¼ �̀ > 1ªJÀ = × 2# Região de Rejeição: ��: ½1̅ ∈ ℝ�1̅ < 1ªI ou 1̅ > 1ªJ¿ p-valor: 2 × ¶(ù ≤ LMN) = 2 × ¶( �̀ ≤ 1̅LMN) se 1̅LMN ≤ � ou 2 × ¶(ù ≥ LMN) = 2 × ¶( �̀ ≥ 1̅LMN) se 1̅LMN ≥ � 9.5.6. Testes de Hipóteses para a Proporção Iremos estudar como conduzir um teste de hipóteses para a proporção utilizando exemplos, assim como foi feito para a média. Teste de hipótese unilateral Situação 1: Vamos considerar os mesmos 30 pacientes com deficiência de determinada vitamina no sangue, esses pacientes aceitaram participar de um experimento com um suplemento vitamínico cuja taxa de eficiência é de 85% (segundo a farmacêutica). O objetivo do pesquisador é verificar se o suplemento atinge a taxa de eficiência prometida. Hipóteses de interesse: o ¬T: ] ≥ 0,85, hipótese nula (conservadora), a afirmação da farmacêutica está correta. o ¬j: ] < 0,85, hipótese alternativa (inovadora), o suplemento não tem a eficácia prometida. Com as hipóteses definidas, podemos dar prosseguimento ao experimento. Ao final do mesmo, serão obtidas amostras de sangue de cada um dos pacientes e observado quantos deles tiveram a quantidade de vitamina no sangue compatível com a de indivíduos saudáveis. A variável aleatória de interesse nesse caso é a proporção amostral (]̂): proporção de indivíduos na amostra com concentraçãoadequada da vitamina no sangue. Sabemos que para amostras de tamanho suficientemente grande (� ≥ 30) tem-se que a variável aleatória ]̂ segue uma distribuição normal: ]̂~Ç ì], ](1 − ])� í Sendo assim, na situação 1, temos (ao considerar a hipótese nula verdadeira): ]̂~Ç�0,85 ; 0,85(0,15)30 � ou ]̂~Ç(0,85 ; 0,0653) Com o conhecimento da distribuição amostral da proporção, podemos conduzir o teste de hipóteses da mesma forma como foi feito para a média: Utilizando o Valor Crítico e Região de Rejeição: 175 Novamente, devemos encontrar o valor crítico com base em um nível de significância pré-estabelecido. Vamos considerar um nível de 5% de significância nesse exemplo. ¶(]̂ < ]ª) = 0,05 = ¶(ù < −1,645) Tendo o valor crítico na distribuição normal padrão, basta relacioná-lo com o valor da região crítica na distribuição de ]̂: −1,645 = ]ª − 0,850,065 ⇒ ]ª = −0,11 + 0,85 ⇒ te = ,, )+ Vamos supor que 24 dos 30 pacientes tenham chegado a níveis considerados saudáveis da vitamina no sangue, ou seja ]̂ = 24 30# = 0,8 = 80%. Como 0,8 > 0,74, temos que a proporção observada não pertence à região de rejeição, ou seja, não foram encontradas evidências fortes o suficiente para contradizer as especificações dadas pela empresa farmacêutica, a um nível de 5% de significância. Utilizando a Estatística do teste: Nesse caso, assim como para a média, a estatística do teste é a normal: LMN = ]̂ − ] �](1 − ])� = 0,8 − 0,850,065 = −0,77 Como -0,77 > -1,645, chegamos à conclusão de que não podemos rejeitar a hipótese nula a um nível de 5% de significância. Utilizando o p – valor: ¶( LMN < −0,77) = 0,2206 Logo, O erro real ao rejeitar ¬T (] − y�bK\ = 22,06%), baseado no valor da proporção amostral obtido, é superior ao erro considerado como aceitável de 5% (nível de significância), ou seja, não encontramos evidências para rejeitar a hipótese nula. Teste de hipótese bilateral Situação 2: Vamos considerar uma amostra aleatória de 30 indivíduos de uma cidade pequena. Não se sabe qual a prevalência de indivíduos com a quantidade adequada de vitamina no sangue para essa cidade, mas sabe-se que no estado, a prevalência é de 75% de indivíduos saudáveis na população. O objetivo do pesquisador é saber se a prevalência de indivíduos com a quantidade adequada da vitamina no sangue, nessa cidade, difere da prevalência no estado. Mais uma vez, vamos usar um nível de 5% de significância. Hipóteses de interesse: o ¬T: ] = 0,75, hipótese nula (conservadora), a taxa do estado se mantém na cidade em questão. o ¬j: ] ≠ 0,75, hipótese alternativa (inovadora), a taxa na cidade difere da encontrada no estado. 176 Com as hipóteses definidas, podemos dar prosseguimento ao experimento. Ao final do mesmo, serão obtidas amostras de sangue de cada um dos pacientes e observado quantos deles tiveram a quantidade de vitamina no sangue compatível com a de indivíduos saudáveis. Para a situação 2, temos: ]̂~Ç�0,75 ; 0,75(0,25)30 � ou ]̂~Ç(0,75 ; 0,0793) Utilizando o Valor Crítico e Região de Rejeição: ¶(]̂ < −]ª) + ¶(]̂ > ]ª) = 0,05 = ¶(ù < −1,96) + ¶(ù > 1,96) −1,96 = ]ªI − 0,750,079 ⇒ ]ªI = −0,15 + 0,75 ⇒ te. = ,, (, 1,96 = ]ªJ − 0,750,079 ⇒ ]ªJ = 0,15 + 0,75 ⇒ te* = ,, 0, Vamos supor que 24 dos 30 pacientes tenham chegado a níveis considerados saudáveis da vitamina no sangue, ou seja ]̂ = 24 30# = 0,8 = 80%. Como 0,60 < 0,80 < 0,90, temos que a proporção observada não pertence à região de rejeição, ou seja, não foram encontradas evidências fortes o suficiente para concluir que a taxa de prevalência na cidade seja diferente daquela observada no estado. Utilizando a Estatística do teste: LMN = ]̂ − ] �](1 − ])� = 0,8 − 0,750,079 = 0,63 Como -1,96 < 0,633 < 1,96, chegamos à conclusão de que não podemos rejeitar a hipótese nula a um nível de 5% de significância. Utilizando o p – valor: ¶(ù < 0,63) = 0,2643 ] − y�bK\ = 2 × 0,2643 = 0,5286 Logo, O erro real ao rejeitar ¬T (] − y�bK\ = 52,86%), baseado no valor da proporção amostral obtido, é muito superior ao erro considerado como aceitável de 5% (nível de significância), ou seja, encontramos evidências fortes para não rejeitar a hipótese nula. 9.5.7. Resumindo Testes de Hipóteses para a Proporção Testes Unilaterais: o ¬T: ] ≥ � vs ¬j: ] < � Estatística do Teste: LMN = ]̂LMN − � ��(1 − �)� Nível de significância: ×; Valor Crítico: 177 ¶(]̂ < ]ª) = × Região de Rejeição: ��: �] ∈ ℝ|] < ]ª� p-valor: ¶(]̂ < ]̂LMN) = ¶(ù < LMN) o ¬T: ] ≤ � vs ¬j: ] > � Estatística do Teste: LMN = ]̂LMN − � ��(1 − �)� Nível de significância: ×; Valor Crítico: ¶(]̂ > ]ª) = × Região de Rejeição: ��: �] ∈ ℝ|] > ]ª� p-valor: ¶(]̂ > ]̂LMN) = ¶(ù > LMN) Teste Bilateral: o ¬T: ] = � vs ¬j : ] ≠ � Estatística do Teste: LMN = ]̂LMN − � ��(1 − �)� Nível de significância: ×; Valor Crítico: ¶¼]̂ < ]̂ªIÀ = × 2# e ¶¼]̂ > ]̂ªJÀ = × 2# Região de Rejeição: ��: ½] ∈ ℝ�] < ]ªI ou ] > ]ªJ¿ p-valor: 2 × ¶(ù ≤ LMN) = 2 × ¶(]̂ ≤ ]̂LMN) se ]̂LMN ≤ � ou 2 × ¶(ù ≥ LMN) = 2 × ¶(]̂ ≥ ]̂LMN) se ]̂LMN ≥ � 9.5.8. Testes de Hipóteses para a Média com �* Desconhecido Algo que acontece com bastante frequência em problemas de inferência estatística é o fato de não ser conhecida a variância populacional relacionada com a variável que temos interesse em estudar. Vamos ver como lidar com situações em que desejamos fazer inferência sobre a média, porém, não temos conhecimento sobre a variância populacional. 178 Situação 1: Suponha que determinada clínica tenha um grupo com 30 pacientes com deficiência de determinada vitamina no sangue. Todos os pacientes aceitaram tomar um suplemento vitamínico (já se sabe que é seguro) para verificar se ele é eficaz. Faz sentido imaginar que serão observadas as quantidades de vitamina no sangue, de cada paciente, após o tratamento com o suplemento, e que a média observada irá fornecer a base para a conclusão sobre a eficácia do tratamento. Sabe-se que indivíduos saudáveis apresentam uma média de 14 unidades/ml e que indivíduos com deficiência da vitamina apresentam uma média de 10 unidades/ml, porém não se conhece a variância dessas distribuições. Hipóteses de Interesse: o ¬T: m ≤ 10, hipótese nula (conservadora), o suplemento não é eficaz. o ¬T: m > 10, hipótese alternativa (inovadora), o suplemento é eficaz. Vamos supor que observamos uma média de 1̅ = 13,91 unidades/ml e um desvio-padrão de _ = 5,82 unidades/ml, com os resultados obtidos da amostra ao final do experimento. E que o pesquisador deseje conduzir um teste de hipóteses a um nível de 1% de significância. Como não conhecemos a variância populacional não podemos utilizar a distribuição normal como foi feito nos testes de hipóteses conduzidos até agora, temos, no entanto, o desvio padrão amostral, isso nos permite utilizar uma outra estatística do teste para conduzir o teste de hipóteses. Estatística do Teste: nos casos em que não conhecemos o desvio-padrão (ou variância) populacional, podemos utilizar uma aproximação da distribuição Normal, a distribuição t de Student: a = �̀ − m_ √�# o Em que c segue uma distribuição t de Student com � − 1 graus de liberdade. No nosso caso, temos o seguinte valor observado para a estatística do teste: aLMN = 13,91 − 105,82 √30" = 3,911,063 = 3,678 179 Podemos agora, seguir com o teste comparando esse valor com o valor crítico definido para um nível de significância de 1% e pela distribuição t de Student com 29 graus de liberdade, isso pode ser feito utilizando a tabela da t de Student que pode ser encontrada em anexo (tabela 50, página 219). Figura 69: Representação de parte da tabela da distribuição t de Student. Fonte: Anexo (tabela 50, página 219). ��: �a|aLMN > 2,462� Como o valor observado para a estatística do teste 3,678 é superior ao valor tabelado 2,462 (valor destacadoem azul na figura 69) para a distribuição t de Student com 29 graus de liberdade, temos evidências o suficiente para rejeitar a hipótese nula a um nível de 1% de significância. P – valor: Como o maior valor de t tabelado para 29 graus de liberdade é 2,7564 e ¶(a > 2,7564) = 0,005 (valor circulado em vermelho na figura 69), temos que: ] − y�bK\ = ¶(a > 3,678) < 0,005 A maior diferença entre o caso de trabalhar com a distribuição normal ou a distribuição t de Student, é que quando utilizamos a distribuição normal podemos concluir o teste de 3 maneiras: Valor e região crítica; Estatística do teste; P – valor. Quando utilizamos a distribuição t de student, podemos utilizar apenas 2 dessas técnicas: 180 Estatística do teste; ou P – valor. 9.5.9. Resumindo Testes de Hipóteses para a Média com �* Desconhecido Testes Unilaterais: o ¬T: m ≥ � vs ¬j: m < � Estatística do Teste: aLMN = 1̅LMN − �_ √�# Nível de significância: ×; p-valor: ¶(a < aLMN) o ¬T: m ≤ � vs ¬j: m > � Estatística do Teste: aLMN = 1̅LMN − �_ √�# Nível de significância: ×; p-valor: ¶(a > aLMN) Teste Bilateral: o ¬T: m = � vs ¬j: m ≠ � Estatística do Teste: aLMN = 1̅LMN − �a √�# Nível de significância: ×; p-valor: 2 × ¶(a ≤ aLMN) se 1̅LMN ≤ � ou 2 × ¶(a ≥ aLMN) se 1̅LMN ≥ � 9.5.10. Exercícios Resolvidos 1 - Suponha, por exemplo, que 10% de todas as placas de circuito produzidas por um certo fabricante durante um período recente estivessem com defeito. Um engenheiro sugeriu uma mudança no processo de produção, acreditando que resultará em um índice reduzido de defeito. Seja ] a proporção real de placas com defeito resultante do processo alterado. Quais as hipóteses nula e alternativa que devem ser consideradas nesse caso? Resposta: ¬T: ] ≥ 0,1 y[\_^_ ¬j: ] < 0,1 2- Identifique as hipóteses que estão sendo testadas em cada caso: a. A companhia de transporte afirma que, em média, o intervalo entre sucessivos ônibus é de 15 minutos. Uma associação de usuários de transportes coletivos acha que a pontualidade é muito importante e pretende testar a afirmação da companhia. 181 Resposta: ¬T: m = 15 8��^aK_ versus ¬j: m ≠ 15 8��^aK_ b. Os amortecedores, de automóveis que circulam entre cidades, duram em média 30 mil quilômetros, segundo informações de algumas oficinas especializadas. Um proprietário de automóvel deseja testar essa informação. Resposta: ¬T: m = 30.000 º8 versus ¬j: m ≠ 30.000 º8 c. Um veterinário conseguiu ganho médio diário de 3 litros de leite por vaca com uma nova composição de ração. Um pecuarista acredita que o ganho não é tão grande assim. Resposta: ¬T: m ≥ 3 b versus ¬j : m < 3 b 3 - Um estudo foi desenvolvido para avaliar o salário de empregadas domésticas na cidade de São Paulo. Foram sorteadas e entrevistadas 200 trabalhadoras. Admita que o desvio-padrão dessa variável na cidade é de 0,8 salários-mínimos. Deseja-se testar se a média é igual a 3 salários-mínimos ou é menor. a. Formule as hipóteses adequadas. Resposta: ¬T: m ≥ 3 _�bá\�K_ 8í��8K_ y[\_^_ ¬j: m < 3 _�bá\�K_ 8í��8K_ b. Para um nível de significância de 3%, construa a região crítica. Resposta: n √�# = 0,8 √200# = 0,057 ¶(ù < ª) = 0,03 ⇒ ª = −1,88 −1,88 = 1ª − 30,057 ⇒ 1ª = 2,893 ��: �1 ∈ ℝ|1 < 2,893� c. Se a amostra forneceu média de 2,5 salários-mínimos, qual seria a conclusão? Resposta: Como 2,5 < 2,89, teríamos evidências fortes o suficiente para rejeitar ¬T a um nível de 3% de significância. Ou seja, concluiríamos que o salário médio de empregadas domésticas na cidade de São Paulo é inferior à 3 salários-mínimos. 4 - Um pesquisador deseja estudar o efeito de certa substância no tempo de reação de seres vivos a um certo tipo de estímulo. Um experimento é desenvolvido em cobaias, que são inoculadas com a substância e submetidas a um estímulo elétrico, com seus tempos de reação (em segundos) anotados. Os seguintes valores foram obtidos: 9,1 9,3 7,2 7,5 13,3 10,9 7,2 9,9 8,0 8,6 Admite-se que o tempo de reação segue, em geral, uma distribuição normal com média 8 e que o desvio padrão seja de 2 segundos. O pesquisador desconfia, entretanto, que o tempo médio sofre alteração por influência da substância. Conduza um teste de hipóteses a um nível de 4% de significância. 182 `: �tempo de reação� ; `~Ç(8 ; 23) , logo �̀~Ç�8 ; 2310� ¬T: m = 8 _[�^�9K_ versus ¬j: m ≠ 8 _[�^�9K_ ¶(ù < − ª) = ¶(ù > ª) = 0,02 ⇒ ª = 2,05 −2,05 = 1ªI − 80,63 ⇒ 1ªI = 6,703 2,05 = 1ªJ − 80,63 ⇒ 1ªJ = 9,297 ��: �1̅LMN < 6,703 _[�^�9K_ ou 1̅LMN > 9,297 _[�^�9K_� 1̅LMN = 9,1 + 9,3 + 7,2 + 7,5 + 13,3 + 10,9 + 7,2 + 9,9 + 8 + 8,610 = 9,1 _[�^�9K_ Como 1̅LMN não pertence à região de rejeição, não se rejeita ¬T. Ou seja, conclui-se que o tempo de reação não sofreu alteração devido ao efeito da substância estudada. 5 - Um relatório de uma companhia afirma que 40% de toda a água obtida, através de poços artesianos no Nordeste é salobra. Há muitas controvérsias sobre essa informação, alguns dizem que a proporção é maior, outros que é menor. Para eliminar a dúvida, 400 poços foram sorteados e observou-se, em 120 deles, água salobra. Qual seria a conclusão, ao nível de 3% de significância? ]: �proporção de poços artesianos, no Nordeste, com água salobra� ¬T: m = 0,4 versus ¬j: m ≠ 0,4 � = 400 ; ]̂ = 120400 = 0,3 ¶(ù < − ª) = ¶(ù > ª) = 0,015 ⇒ ª = 2,17 −2,17 = ]ªI − 0,4 �ì0,4(0,6)400 í ⇒ ]ªI = 0,347 2,17 = ]ªI − 0,4 �ì0,4(0,6)400 í ⇒ ]ªJ = 0,453 ��: �]̂ < 0,347 _[�^�9K_ ou ]̂ > 0,453 _[�^�9K_� Como 0,3 pertence à região de rejeição, conclui-se que existe evidência para rejeitar a hipótese nula a um nível de 3% de significância, ou seja, no Nordeste, a proporção de poços artesianos com água salobra é diferente de 40%. 183 6 - Suponha que um laboratório alegue que uma determinada droga que ele comercialize é eficiente em pelo menos 80% dos casos em que é utilizada. Suponha que, para comprovar a alegação do laboratório, um organismo de controle testou 180 pacientes, verificando a eficiência da droga em 147 casos. Teste a eficiência alegada pelo laboratório a um nível de 1% de significância. ]: �proporção de casos em que a droga é eficiente� ¬T: m ≥ 0,8 versus ¬j: m < 0,8 � = 180 ; ]̂ = 147180 = 0,82 ª = 0,82 − 0,8 �ì0,8(0,2)180 í ⇒ ª = 0,67 ] − y�bK\ = ¶(ù < 0,67) = 1 − 0,2514 = 0,7486 Como o erro ao rejeitar ¬T baseado nas evidências encontradas é superior ao erro máximo aceito de 1% (] − y�bK\ = 0,7486), não se rejeita ¬T, ou seja, conclui-se que a eficiência alegada pelo laboratório está de acordo com a realidade. 7 - Uma amostra com 10 observações de uma variável aleatória normal forneceu média amostral de 5,5 e variância amostral 4. Deseja-se testar, ao nível de significância de 5%, se a média na população é igual ou é menor que 6. Qual é a conclusão? ¬T: m ≥ 6 versus ¬j: m < 6 � = 10 ; 1̅LMN = 5,5 ; _ = 2 ; × = 0,05 aLMN = 5,5 − 62 √10# = −0,791 ¶(a < aª) = 0,05 ⇒ aª = 1,8331 Como o valor da distribuição -0,791 > -1,8331, temos que não existe evidência o suficiente para rejeitar a hipótese nula a um nível de 5% de significância. 9.5.11. Exercícios 1- [DEVORE, 2006] Antes de concordar em fazer um grande pedido de revestimentos de polietileno para um tipo específico de cabo de força submarino preenchido com óleo de alta pressão, uma empresa deseja ter evidências conclusivas de que o desvio padrão da real espessura do revestimento é menor que 0,05mm. Quais hipóteses devem ser testadas e por quê? Neste contexto, quais são os erros tipo I e tipo II. 2- [DEVORE, 2006] Amostras de água são coletadas da água usada para resfriamento quando está sendo despejada de uma usina de energia em um rio. Determinou-se que, desde que a temperatura média da água despejada seja de no máximo 150°F, não haverá efeitos negativos sobre o ecossistema do rio.Para investigar se a usina está em conformidade com as regulamentações que proíbem uma temperatura média de água de descarga acima de 150°, 50 amostras de água serão tiradas em tempos 184 selecionados aleatoriamente e a temperatura de cada amostra será registrada. Os dados resultantes serão usados para testas as hipóteses: ¬T: µ ≤ 150°� y[_^_ ¬j: µ > 150°. No contexto dessa situação, descreva os erros tipo I e tipo II. Que tipo de erro você consideraria mais sério? Explique. 3- [DEVORE, 2006] Duas empresas diferentes concentraram-se em oferecer serviços de televisão a cabo em uma determinada região. Seja ] a proporção de todos os assinantes em potencial que favorecem a primeira empresa com relação à segunda. Considere o teste de ¬T: ] = 0,5 y[\_^_ ¬j: ] ≠ 0,5 com base em uma amostra aleatória de 25 indivíduos. Seja ̀ o número na amostra que favorece a primeira empresa e x o valor observado de `. a. Qual das regiões de rejeição a seguir é mais apropriada e por quê? �1 = �1: 1 ≤ 7 K^ 1 ≥ 18�, �2 = �1: 1 ≤ 8�, �3 = �1: 1 ≥ 17� b. No contexto da situação deste problema, descreva quais são os erros do tipo I e tipo II. c. Qual é a distribuição de probabilidades da estatística do teste ` quando H0 for verdadeira? Use-a para calcular a probabilidade de um erro tipo I. d. Usando a região selecionada, a que conclusão você chegaria se 6 dos 25 questionados favorecessem a empresa 1? 4- [DEVORE, 2006] Seja `�, . . . , `� uma amostra aleatória de uma distribuição de uma população normal com um valor conhecido de n. a. Para testar as hipóteses: ¬T: µ = µT y[_^_ ¬j: µ = µT (onde µT é um número fixo), mostre que o teste com estatística de teste �̀ e região de rejeição 1̅ ≥ m0 + 2,33σ/√� possui nível de significância de 0,01. b. Suponha que o procedimento do item (a) seja usado para testar a hipótese ¬T: µ ≤ µT y[_^_ ¬j: µ > µT. Se µT = 100, � = 25, [ n = 5, qual é a probabilidade de se cometer um erro tipo I quando µ = 99? E quando µ = 98? Em geral, o que se pode dizer sobre a probabilidade de um erro tipo I quando o valor real de µ for menor que µ0? Prove sua afirmação. 5- [MONTGOMERY e RUNGER, 2003] A resistência à quebra de um fio usado na fabricação de material moldável necessita ser no mínimo 100 psi. Experiência passada indicou que o desvio padrão da resistência à quebra foi 2 psi. Uma amostra aleatória de 9 espécimes é testada e a resistência média à quebra é 98 psi. a. A fibra deve ser julgada como aceitável com α= 0,05? b. Qual é o valor p para esse teste? c. Encontre um intervalo bilateral de confiança de 95% para a resistência média verdadeira à quebra. 6- [MONTGOMERY e RUNGER, 2003] O diâmetro dos orifícios para arreios de cabo tem um desvio padrão de 0,01in. Uma amostra aleatória de tamanho 10 resulta em um diâmetro médio de 1,5045in. Use α=0,01. a. Teste a hipótese de que o diâmetro médio verdadeiro do orifício seja igual a 1,50in? b. Qual é o valor p para esse teste? c. Qual seria o tamanho necessário da amostra para detectar um diâmetro médio verdadeiro do orifício igual a 1,505in, com uma probabilidade de no mínimo 0,90? (poder do teste) d. Encontre um intervalo bilateral de confiança de 99% para o diâmetro médio do orifício. 7- [MONTGOMERY e RUNGER, 2003] Sabe-se que a vida em horas de um bulbo de uma lâmpada de 75W é distribuída de forma aproximadamente normal, com desvio padrão n = 25ℎK\�_. Uma amostra aleatória de 20 bulbos tem uma vida média de 1014horas. 185 a. Há alguma evidencia que suporte a alegação de que a vida do bulbo excede 1000horas? Use α= 0,05. b. Qual é o valor para o teste do item A? c. Construa um intervalo de confiança de 95% para a vida média. 8- [TRIOLA, 2013] Relatando Rendas Em uma pesquisa de opinião de Pew Reserch Center com 745 adultos selecionados aleatoriamente, 589 disseram ser moralmente errado não se relatar toda a renda na declaração de ajuste de imposto de renda. Use o nível de significância de 0,01 para testar a afirmativa de que 75% dos adultos dizem ser moralmente errado não se relatar toda a renda na declaração de ajuste do importo de renda. 9- [TRIOLA, 2013] Replay Instantâneo no Tênis O sistema eletrônico Hawk-Eye (Olho de Facão) é usado no tênis para mostrar repetições instantâneas de jogadas para se ter certeza se uma bola foi fora ou não. No primeiro U.S. Open que usou o sistema Hawk-Eye, era, então, usado para confirmar ou derrubar a marcação do juiz. Os jogadores fizeram 839 desafios, e 327 deles foram bem-sucedidos, com a marcação do juiz retirada. Use o nível de significância de 0,01 para testar a afirmativa de que a proporção de desafios que são bem-sucedidos é maior que 1/3. O que os resultados sugerem sobre a qualidade de marcações feitas pelos juízes? 10- [TRIOLA, 2013] Teste Clínico do Tamiflu Testes clínicos envolveram o tratamento de pacientes de gripe com Tamiflu, que é um medicamento que se destina a atacar os vírus da influenza e impedi-lo de causar os sintomas de gripe. Entre 724 pacientes tratados com Tamiflu, 72 tiveram náuseas como reação adversa. Use o nível de significância de 0,05 para testar a afirmativa de que a taxa de náuseas é maior do que a taxa de 6% exibida pelos pacientes com gripe que receberam um placebo. A náusea parece ser uma preocupação para os que receberam o tratamento com Tamiflu? 11- [TRIOLA, 2013] Telefones Celulares e Câncer Em um estudo com 420095 usuários de telefone celular na Dinamarca, 135 pessoas desenvolveram câncer de cérebro ou do sistema nervoso. Teste a afirmativa de uma crença que tais cânceres são afetados pelo uso do telefone celular. Isto é, teste a afirmativa de que os usuários de telefone celular desenvolvem câncer de cérebro ou do sistema nervosa a uma taxa que é diferente da taxa de 0,0340% entre as pessoas que não usam telefone celular. Como essa questão é de grande importância, use o nível de significância 0,005. Os usuários de telefone celular devem se preocupar sobre o câncer de cérebro ou de sistema nervoso? 12- [TRIOLA, 2013] Trapaceando em Bombas de Gasolina Ao testar bombas de gasolina em Michigan em relação a precisão, especialistas em cumprimento da lei de qualidade do combustível testaram bombas e encontraram que 1299 delas não estavam bombeando adequadamente (dentro de 3,3 onças quando 5 galões eram bombeados), e 5686 bombas eram precisas. Use o nível de significância de 0,01 para testar a afirmativa de uma representante da indústria de que menos de 20% das bombas de gasolina de Michigan eram imprecisas. Da perspectiva do consumidor, essa taxa parece ser baixa o bastante? 13- [TRIOLA, 2013] Detectores de Mentira Testes em um experimento com polígrafo incluem 98 resultados, com 24 casos de resultados errados e 74 casos de corretos. Use o nível de significância de 0,05 para testar a afirmativa de que tais resultados de polígrafo são corretos em menos de 80% das vezes. Com base nos resultados, os resultados de testes de poligrafo deveriam ser proibidos como evidência em julgamentos? 14- [TRIOLA, 2013] A cota de Nielsen Uma apresentação recente de show de televisão 60 minutes teve uma cota de 15, o que significa que, entre 5000 aparelhos domésticos de televisão ligados, 15% deles estavam ligados no 60 Minutes. Use o nível de significância de 0,01 para testar a afirmativa de um 186 anunciante de que, entre as residências com televisões ligados, menos de 20% estavam sintonizados no 60 Minutes. 15- [TRIOLA, 2013] Erros em Entrevistas para Emprego Em uma pesquisa de Accountemps com 150 executivos seniores, 47,3% disseram que o erro mais comum em uma entrevista para emprego é ter- se pouco, ou nenhum, conhecimento da companhia. Teste a afirmativa de que, na população de todos os executivos seniores, 50% digam que o erro mais comum em uma entrevista para emprego é ter-se pouco, ou nenhum, conhecimento da companhia. Qual importante lição se tira dessa pesquisa? 16- [TRIOLA, 2013]Uso da Internet Quando 3011 adultos foram entrevistados em uma pesquisa de opinião do Pew Research Center, 73% disseram usar a Internet. É razoável que um repórter de jornal escreva que “3/4 de todos os adultos usam a Internet”? Por que sim ou por que não? 17- [TRIOLA, 2013] Grito Uma sondagem com 61.647 pessoas incluiu várias questões sobre relações de trabalho. Dos respondentes, 26% relataram que os patrões gritavam com os empregados. Use o nível de significância de 0,05 para testar a afirmativa de que mais de ¼ das pessoas diz que os patrões gritam com os empregados. Como essa conclusão é afetada, depois de se saber que essa sondagem está postada em uma pesquisa de Elle/MSNBC.COM, na qual os usuários da Internet escolhem se respondem, ou não? 18- [TRIOLA, 2013] Encontrando Emprego através de uma Rede de Amigos Em uma pesquisa com 703 trabalhadores selecionados aleatoriamente, 61% haviam obtido seus empregos através de uma rede de amigos. Use os dados amostrais, com o nível de significância de 0,05, para testar a afirmativa de que a maioria (mais que 50%) dos trabalhadores obteve seus empregos através de rede de amigos. O que esse resultado sugere sobre a estratégia para se encontrar um emprego depois de formado? 19- [TRIOLA, 2013] Escrevendo uma Canção de Sucesso Num manual “How to Have a Number One the easy Way”, afirma-se que uma canção “não deve durar mais que 3 minutos e 30 segundos” (ou 210s). Uma amostra aleatória simples de 40 canções atuais de sucesso resulta em uma duração média de 252,5s. Suponha que o desvio padrão da duração das canções seja 54,5s. Use o nível de significância de 0,05 para testar a afirmativa de que a amostra é proveniente de uma população de canções com duração média superior a 210s. O que esses resultados sugerem sobre o conselho dado no manual? 20- [TRIOLA, 2013] Pesos de M&M Uma amostra aleatória simples de 19 balas verdes M&M tem média de 0,8635g. Suponha que o desvio padrão seja conhecido e igual a 0,0565g. Use o nível de significância de 0,05 para testar a afirmativa de que o peso médio de todas as balas verdes M&M é igual a 0,8535g, que é o peso médio necessário para que as balas M&M tenham o peso impresso no rótulo da embalagem. As balas verdes M&M parecem ter pesos consistentes com o rótulo da embalagem? 21- [TRIOLA, 2013] A dieta é prática? Quando 40 pessoas usam Weight Watchers (Vigilantes do Peso) por um ano, a perda média de peso foi de 3,0 libras. Suponha que o desvio padrão de todas tais mudanças de peso seja n = 4,9 libras e use o nível de significância de 0,01 para testar a afirmativa de que a perda média de peso e superior a 0. Com base nesses resultados, parece que a dieta é eficaz? A dieta parece ter significância pratica? 22- [TRIOLA, 2013] Altura sentada Uma aluna do autor mediu a altura sentada de 36 colegas homens, e obteve a média de 92,8cm. A população de homens tem altura sentada média de 91,4cm e desvio padrão de 3,6cm. Use o nível de significância de 0,05 para testar a afirmativa de que os homens na escola dessa aluna tenham altura sentada média diferente de 91,4cm. Há alguma coisa sobre os dados amostrais que sugira que os métodos apresentados aqui não devam ser usados? 23- [TRIOLA, 2013] Salários de Técnicos de futebol da NCAA Uma amostra aleatória simples de 40 salários de técnicos da NCAA tem média de 415.953 dólares. O desvio padrão de todos os salários de técnicos 187 de futebol da NCAA é 464.364 dólares. Use o nível de significância de 0,05 para testar a afirmativa de que o salário de um técnico de futebol da NCAA é inferior a 500.000dólares. 24- [TRIOLA, 2013] Bolas de Beisebol Testes com bolas antigas de beisebol mostraram que, quando jogadas de uma altura de 24 pés sobre uma superfície de concreto, elas quicavam a uma altura média de 235,8cm. Em um teste de 40 novas bolas de beisebol, as alturas dos quiques teve média de 235,4cm. Suponha que o desvio padrão das alturas dos quiques seja 4,5cm. Use o nível de significância de 0,05 para testar a afirmativa de que as novas bolas de beisebol têm alturas de quiques com media diferente de 235,8cm. As novas bolas de beisebol são diferentes? 25- [TRIOLA, 2013] Escores de Credito FICO Obtém-se uma amostra aleatória simples de escores de classificação de credito FICO, que estão listados a seguir. Até o momento da escrita deste livro o escore FICO médio era relatado como de 678. Suponha que o desvio padrão de todos os escores FICO seja conhecido e igual a 58,3, use o nível de significância de 0,05 para testar a afirmativa de que esses escores FICO amostrais são provenientes de uma população com média de 678. 714 751 664 789 818 779 698 836 753 834 693 802 26- [TRIOLA, 2013] Escrevendo uma Canção de Sucesso – No manual da KLF Publications “How to Have a Number One the Easy Way”, afirma-se que uma canção deve durar “não mais do que três minutos e trinta segundos” (ou 210 segundos). Uma amostra aleatória simples de 40 canções de sucesso atuais resulta em uma duração média de 252,2 segundos e desvio-padrão de 54,5 segundos. (As canções são de Timberlake, Furtado, Daughtry, Stefani, Fergie, Akon, Ludacris, etc.). Use o nível de significância de 0,05 e para testar a afirmativa de que a amostra é proveniente de uma população de canções com média superior a 210 segundos. 27- [TRIOLA, 2013] Alcatrão em Cigarros – Obteve-se uma amostra aleatória simples de 25 cigarros de 100mm com filtro, e mediu-se o conteúdo de alcatrão em cada um deles. A amostra tem média de 13,2mg e desvio-padrão de 3,7mg. Use o nível de significância de 0,05 para testar a afirmativa de que o conteúdo médio do alcatrão de cigarros de 100mm com filtro é inferior a 21,1mg, que é a média para cigarros tamanho king sem filtro. O que os resultados sugerem sobre a eficácia dos filtros? 28- [TRIOLA, 2013] Pesos de Centavos – A Casa da Moeda americana tem uma especificação de que as moedas de 1 centavo tenham peso médio de 2,5g. Uma amostra de 37 centavos tem peso médio de 2,49910g e desvio-padrão de 0,01648g. Use o nível de significância de 0,05 para testar a afirmativa de que essa amostra provém de uma população com peso médio de 2,5g. As moedas de centavo parecem estar de acordo com as especificações da Casa da Moeda? 29- [TRIOLA, 2013] Tempo Necessário para se Obter o Grau de Bacharel – Pesquisadores coletaram uma amostra aleatória simples dos tempos que 81 estudantes universitários levaram para obter o grau de bacharel. A amostra tem média de 4,8 anos e desvio-padrão de 2,2 anos (com base em dados do National Center for Education Statistics). Use o nível de significância de 0,05 para testar a afirmativa de que o tempo médio para todos os estudantes universitários é superior a 4,5 anos. 30- [TRIOLA, 2013] Análise de Centavos – Em uma análise que investigava a utilidade das moedas de 1 centavo, foram registradas as porções em centavos de 100 cheques selecionados aleatoriamente. A amostra tem média de 23,8 centavos e desvio padrão de 32 centavos. Se as quantidades de 0 centavos a 99 centavos são todas igualmente prováveis, a média esperada é 49,5 centavos. Use o nível de significância de 0,01 para testar a afirmativa de que a amostra provém de uma população com média menor que 49,5 centavos. O que o resultado sugere sobre as quantias em centavos dos cheques? 31- [TRIOLA, 2013] Testes de assentos de crianças em carros – A National Highway Traffic Safety Administration realizou testes de batidas para assentos de crianças em carros. A seguir, estão listados os resultados desses testes, com as medidas dadas em Hic – unidade padrão de danos à cabeça. O 188 requisito de segurança é de que a medida em Hic seja inferior a 1000 Hic. Use o nível de significância de 0,01 para testar a afirmativa de que a amostra provém de uma população com média menor do que 1000 Hic. 32- [TRIOLA, 2013] Custos de Batidas de Carro – O instituto de seguros para segurança nas estradasrealizou testes com batidas de carros novos que viajavam a 6 mi/h e encontrou-se o custo total dos danos. Os resultados estão listados a seguir, para uma amostra aleatória simples de carros testados. Use o nível de significância de 0,05 para testar a afirmativa de que, quando testado sobre as mesmas condições padrão, o custo dos danos para a população de carros tem média de U$5000,00. 7448 4911 9051 6374 4277 33- [WALPOLE et al., 2009] Uma indústria elétrica fabrica lâmpadas cuja vida útil tem distribuição aproximadamente normal com média de 800 horas e desvio-padrão de 40 horas. Teste a hipótese de que m = 800 horas contra a alternativa m ≠ 800 horas, se uma amostra aleatória de 30 lâmpadas tem média de vida de 788 horas. Use um valor P em suas respostas. 34- [WALPOLE et al., 2009] Em uma pesquisa feita por Richard H. Weindruch, da Escola de Medicina da Universidade da Califórnia, afirmou-se que os ratos com média de vida de 32 meses viveriam por mais ou menos 40 meses se 40% das calorias de suas refeições fossem substituídas por vitaminas e proteínas. Há alguma razão para acreditarmos que m < 40 se 64 ratos colocados sob essa dieta têm uma média de vida de 38 meses com desvio-padrão de 5,8 meses? Use um valor P em sua conclusão. 35- [WALPOLE et al., 2009] Afirma-se que um automóvel é dirigido, em mé-dia, mais de 20.000 quilômetros por ano. Para testar essa afirmação, uma amostra aleatória de cem proprietários de automóveis registra os quilômetros viajados. Você concordaria com essa afirmação, se esta amostra mostrasse uma média de 23.500 quilômetros e desvio-padrão de 3.900 quilômetros? Use um valor P em sua conclusão. 36- [WALPOLE et al., 2009] Teste a hipótese de que o conteúdo médio de recipientes de certo lubrificante é dez litros, se os conteúdos de uma amostra aleatória de dez recipientes são 10,2; 9,7; 10,1; 10,3; 10,1; 9,8; 9,9; 10,4; 10,3 e 9,8 litros. Use o nível de significância 0,01 e suponha que a distribuição dos conteúdos dos recipientes é normal. 37- [WALPOLE et al., 2009] Experiências passadas indicam que o tempo para que alunos veteranos do ensino médio completem um teste padronizado é uma variável aleatória normal, com média de 35 minutos. Se uma amostra aleatória de 20 alunos levou uma média de 33,1 minutos para completar o teste, com um desvio-padrão de 4,3 minutos, teste a hipótese, no nível de significância 0,05, de que m = 35 minutos contra a alternativa de que m < 35 minutos. 9.6. Teste de Qui-Quadrado Um outro teste que pode ser muito útil é o teste de qui-quadrado que pode ser utilizado para verificar se duas variáveis distintas são independentes ou não. Assim como foi feito para os outros testes, vamos utilizar um exemplo para explicar o objetivo, metodologia e como interpretar resultados do teste. São apresentados, na tabela 32, os resultados de um estudo sobre a efetividade dos capacetes de bicicleta na prevenção de lesões na cabeça. Os dados foram obtidos de uma amostra aleatória de 793 ciclistas envolvidos em acidentes em um período especificado de um ano. 189 Tabela 42: Tabela contendo os dados da amostra de 793 ciclistas. Lesão na Cabeça Uso de Capacete Total Sim Não Sim 17 218 235 Não 130 428 558 Total 147 646 793 Fonte: Pagano e Gauvreau (2004). O objetivo do pesquisador ao coletar os dados apresentados na tabela 42, era de verificar se os capacetes para ciclistas realmente evitavam lesões na cabeça. Foram observadas duas variáveis: Se houve uma lesão séria na cabeça (lesão que precisou de tratamento médico), ou não; e se estava utilizando capacete ao se acidentar, ou não. Se o capacete não for eficiente na prevenção das lesões na cabeça, faz sentido pensar que sofrer lesão ou não na cabeça independe de estar utilizando capacete, ou não, na hora do acidente. A fim de verificar a independência das duas variáveis vamos utilizar o teste de qui-quadrado. Hipóteses de interesse: o ¬T: hipótese nula (conservadora), as variáveis são independentes, ou seja, a proporção de ciclistas que sofrem lesões na cabeça na população de usuários de capacetes no momento do acidente é igual à proporção de ciclistas que sofrem lesões na cabeça na população de não usuários desses equipamentos de segurança. o ¬T: m > 10, hipótese alternativa (inovadora), as variáveis são dependentes entre si, ou seja, as proporções de ciclistas que sofrem lesões na cabeça diferem nas duas populações. A metodologia do teste de qui-quadrado consiste em usar parte das informações coletadas para criar uma tabela de maneira que os dados confirmem a independência entre as variáveis, ou seja, criar uma tabela de dupla entrada na qual a hipótese nula é verdade. Em seguida é utilizada uma estatística para verificar se a tabela observada é equivalente ou não à tabela criada respeitando à hipótese nula. Essa tabela criada para respeitar a hipótese nula é chamada de tabela de valores esperados (valores que seriam esperaríamos observar se as variáveis fossem independentes entre si), e deve ser encontrada da seguinte maneira: Vamos considerar a tabela 43, dada abaixo, como uma representação hipotética de uma tabela observada em um problema real, na qual as letras representam os valores observados: Tabela 43: Tabela hipotética de dados observados. Variável 1 Variável 2 Total Sim Não Sim � � + Não � 9 � + 9 Total � + � + 9 � Fonte: Elaborada pela autora. Para obter a tabela de dados esperados, deve-se fazer os cálculos apresentados na tabela 44: 190 Tabela 44: Tabela hipotética de dados esperados. Variável 1 Variável 2 Total Sim Não Sim (� + ) × (� + �)� (� + ) × ( + 9)� � + Não (� + 9) × (� + �)� (� + 9) × ( + 9)� � + 9 Total � + � + 9 � Fonte: Elaborada pela autora. Voltando ao nosso exemplo do estudo sobre a eficiência dos capacetes para ciclistas, vejamos como ficaria a tabela de dados esperados: Relembrando a tabela de dados observados: Tabela 45: Tabela de dados observados. Lesão na Cabeça Uso de Capacete Total Sim Não Sim 17 218 235 Não 130 428 558 Total 147 646 793 Fonte: Pagano e Gauvreau (2004). Obtendo a tabela de dados esperados: Tabela 46: Cálculo dos valores esperados. Lesão na Cabeça Uso de Capacete Total Sim Não Sim (235) × (147)793 = 43,6 (235) × (646)793 = 191,4 235 Não (558) × (147)793 = 103,4 (558) × (646)793 = 454,6 558 Total 147 646 793 Fonte: Elaborada pela autora. Temos agora a tabela contendo as observações retiradas da amostra (tabela 45) e a tabela contendo valores representando aqueles que seriam esperados se as variáveis fossem independentes (tabela 46). A ideia do teste de qui-quadrado é comparar essas duas tabelas e verificar se existem evidências que indiquem que a diferença entre elas é pequena o suficiente para indicar que a tabela observada é compatível com a tabela de valores esperados; ou se essa variação é grande o suficiente para indicar que a tabela observada não é compatível com a hipótese de independência, indicando que as variáveis dependem entre si. Para saber se a diferenças entre a tabela é pequena o suficiente, ou grande o suficiente, devemos calcular a estatística do teste: 191 'LMN3 = (�� − ¥�)3¥� (ª �"� Em que: b representa o número de linhas na tabela; � representa o número de colunas na tabela; b� representa o número de caselas na tabela; �� representa cada uma das frequências observadas; ¥� representa cada uma das frequências esperadas. A estatística do teste, dada acima, segue uma distribuição qui-quadrado ('3) com (� − 1)(b − 1) graus de liberdade, isso, se a hipótese nula for verdadeira. Com as informações dadas até agora, podemos calcular a estatística do teste para o exemplo sobre a eficiência dos capacetes de ciclismo na prevenção de lesões na cabeça de ciclistas: Figura 70: Exemplo do cálculo da estatística do teste qui-quadrado. Fonte: Elaborada pela autora 'LMN3 = (17 − 43,6)343,6