Baixe o app para aproveitar ainda mais
Prévia do material em texto
APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 1 Módulo I Conceitos Básicos Estatística – é uma coleção de métodos (instrumentos) para o planejamento de experimentos, obtenção de dados e, consequente organização, resumo, apresentação, análise, interpretação, elaboração de conclusões e tomadas de decisões baseadas nos dados. Estatística Descritiva – é a parte da estatística que descreve os aspectos importantes de um conjunto de dados. Inferência Estatística – usa uma amostra para fazer generalizações a respeito de aspectos importantes de uma população. Dados – são observações que tenham sido coletados. Ex.: Os tempos, em dias, da detecção de um primeiro defeito nos compressores, modelo W1, produzidos pela empresa X9, no ano de 2016. População – é a coleção completa de todos os elementos (escores, medidas e outros) a serem estudados. Ex. Todos os compressores modelo W1, produzidos pela empresa X9, no ano de 2016. Censo – é o conjunto de dados obtidos de todos os membros da população. Ex.: Coleta dos tempos de detecção do primeiro defeito em todos os compressores modelo W1, produzidos pela empresa X9, no ano de 2016. Amostra – é o subconjunto de dados obtidos entre todos os membros de uma população. Ex.: relação de 200 tempos de detecção do primeiro defeito em compressores modelo W1, produzidos pela empresa X9, no ano de 2016 escolhidos aleatoriamente. Tipos de Dados Parâmetros – é uma medida numérica que descreve alguma característica de uma população. Ex. A média das notas de cálculo vetorial de todos os acadêmicos da UDESC. Estatística – é uma medida numérica que descreve alguma característica de uma amostra. Ex. A média das notas de cálculo vetorial de uma amostra aleatória dos acadêmicos da UDESC. Dados Quantitativos – consistem em números que representam contagens ou medidas. Ex: O número de moradores por domicílios. Dados Qualitativos (ou categóricos ou de atributos) – distinguem por alguma característica não-numérica. Ex: O estado civil dos moradores por domicílios. Dados Discretos – surgem quando o número de valores possíveis é ou um número finito ou uma quantidade “enumerável”. Ex: O número de moradores por domicílio: 0, 1, 2, 3, 4, 5, ... Dados Contínuos – resultam de infinitos valores possíveis que correspondem a alguma escala contínua que cobre um intervalo de valores sem vazios, interrupções ou saltos. Ex: A estatura dos moradores (em metros): 1,67; 1,56; 1,72; ..... Características Importantes dos Dados Centro – é um valor representativo ou médio que indica onde se localiza o meio do conjunto de dados. APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 2 Variação ou Dispersão – é uma medida de quanto os valores dos dados variam entre eles. Distribuição – e a natureza ou forma de distribuição dos dados (tal como em forma de sino, uniforme ou assimétrica). “Outliers” ou Valores Discrepantes – Valores amostrais que se localizam muito longe da grande maioria dos outros valores amostrais. Posição – mede a relação de posição que um determinado valor tem com o conjunto de dados estudado. Planejamento de Experimentos Os métodos estatísticos são direcionados pelos dados. Normalmente, obtemos dados de duas fontes distintas: estudos observacionais e experimentos. Estudo Observacional – observamos e medimos características específicas, mas não tentamos modificar os sujeitos objeto de estudo, O Estudo Observacional pode ser: Estudo Transversal – os dados são observados, medidos e coletados em um determinado tempo presente. Ex.: coleta das notas da primeira avaliação de estatística das turmas de engenharia do semestre em curso. Estudo Retrospectivo – os dados são coletados do passado, voltando no tempo através de exames de registros, entrevistas e assim por diante. Ex.: Coleta das notas da primeira avaliação de estatística de todas as turmas de engenharia, entre os anos de 1996 e 2008. Estudo Prospectivo – os dados são programados para serem coletados ao longo de um determinado tempo, considerando um período futuro, de grupos que compartilhem fatores comuns. Ex.: Coleta das notas da primeira avaliação de estatística de todas as turmas de engenharia referente ao período dos próximos 05 anos. Experimento – aplicamos algum tratamento e passamos, então, a observar seu efeito sobre o sujeito. Ex.: Estudo de eficácia de um determinado medicamento farmacêutico, após alterações periódicas de dosagens. Aleatoriedade Amostra Aleatória – membros de uma população são selecionados de tal modo que cada membro individual tenha chance igual de ser selecionado. Amostra Aleatória Simples de tamanho n – é selecionada de tal modo que toda amostra possível de mesmo tamanho n tem a mesma chance de ser escolhida. Outras Estratégias Amostrais Amostragem Sistemática – escolhemos um determinado ponto inicial e em seguida, selecionamos cada k-ésimo o elemento da população. APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 3 Amostragem Estratificada – Subdividimos a população em, pelo menos, dois subgrupos (ou estratos) que compartilham as mesmas características (tais como sexo ou faixa etária) e em seguida, extraímos uma amostra de cada subgrupo (ou estrato). Amostragem por Conglomerado – primeiro dividimos a área da população em seções (ou conglomerados), depois selecionamos aleatoriamente alguns desses conglomerados e então escolhemos todos os membros desses conglomerados selecionados. Amostragem de Convivência – simplesmente usamos resultados que sejam muito fáceis de obter. Erros Amostrais Erro Amostral – é a diferença entre o resultado amostral e o verdadeiro resultado da população. Tais erros resultam das flutuações amostrais devidas ao acaso. Erro não-amostral – ocorre quando os dados amostrais são coletados ou registrados ou analisados incorretamente (tal como a seleção de uma amostra tendenciosa, o uso de um instrumento de medida defeituoso, ou cópia incorreta dos dados). APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 4 Módulo II Estatística Descritiva Apresenta as ferramentas básicas para a medição e descrição de diferentes características de um conjunto de dados. Podemos ter a medição e descrição das diferentes características dos dados a partir de distribuições de frequências, gráficos ou medidas. Distribuição de Frequência As distribuições de frequência são construídas pelas seguintes razões: (1) grandes conjuntos de dados podem ser resumidos, (2) podemos obter alguma compreensão sobre a natureza dos dados, e (3) temos uma base para construir gráficos importantes. A distribuição de frequência lista os valores dos dados (individualmente ou por grupos de intervalos), junto a suas frequências correspondentes (ou contagens). Vida útil de betoneiras elétricas Semanas de uso Frequência 0 – 99 11 100 – 199 12 200 - 299 14 300 - 399 1 400 - 499 2 Total 40 Elementos de uma Distribuição de Frequência Simples Limites inferiores de classe – são os menores números que podem pertencer às diferentes classes. A tabela acima tem os seguintes limites inferiores de classe: 0, 100, 200, 300 e 400. Limites superiores de classe - são os maiores números que podem pertencer às diferentes classes.A tabela acima tem os seguintes limites superiores de classe: 99, 199, 299, 399 e 499. Fronteiras de classe – são os números usados para separar as classes, mas sem saltos criados pelos limites de classe. São obtidos como segue: ache o tamanho do salto entre o limite superior de classe de uma classe e o limite inferior da classe seguinte. Acrescente metade dessa quantidade a cada limite superior de classe para encontrar as fronteiras superiores de classe; subtraia metade daquela mesma quantidade de cada um dos limites inferiores de classe para encontrar as fronteiras inferiores de classe. A tabela acima tem as seguintes fronteiras de classe: 1a classe - -0,5 e 99,5 2a classe - 99,5 e 199,5 3a classe - 199,5 e 299,5 4a classe - 299,5 e 399,5 5a classe - 399,5 e 499,5 APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 5 Pontos médios de classe – são os pontos médios dos intervalos que determinam cada classe. Cada ponto médio de classe pode ser encontrado somando-se o limite inferior de classe ao limite superior de classe e dividindo-se a soma por 2. A tabela acima tem os seguintes pontos médios de classe: 1a classe - 49,5 2a classe - 149,5 3a classe - 249,5 4a classe - 349,5 5a classe - 449,5 Amplitude de classe – é a diferença entre dois limites inferiores de classe consecutivos ou duas fronteiras inferiores de classe consecutivas. A tabela da página anterior tem uma amplitude de classe igual a 100. Procedimento para a construção de uma Distribuição de Frequência 1 - Decida sobre o número de classes desejado. O número de classes deve, preferencialmente, estar entre 05 e 20, e o número que você escolher deve ser influenciado pela conveniência de se usar números arredondados. 2 – Calcule: Amplitude de classe = (maior valor – menos valor)/número de classes Arredonde esse resultado para obter um número conveniente. Em geral, arredonda-se para cima. A prioridade é usar valores que sejam fáceis de entender. 3 – Ponto inicial: Comece escolhendo um número para limite inferior da primeira classe. Escolha ou o valor mínimo dos dados, ou um valor conveniente que seja um pouco menor. 4 – Usando o limite inferior da primeira classe e a amplitude da classe, prossiga e liste os outros limites inferiores d classe. Adicione a amplitude de classe ao ponto inicial para obter o segundo limite inferior de classe. Adicione a amplitude de classe ao segundo limite inferior de classe para obter o terceiro, e assim por diante. 5 – Liste os limites inferiores de classe em uma coluna vertical e prossiga para preencher os limites superiores de classe, que são facilmente identificados. 6 – Percorra o conjunto de dados colocando uma marca apropriada de classe em cada valor de dado. Use as marcas para encontrar a frequência total de cada classe. Distribuição de Frequência Relativa Uma distribuição de frequência relativa inclui os mesmos limites de classe que uma distribuição de frequência, mas são usadas as frequências relativas em vez das frequências reais. As frequências relativas são, algumas vezes, expressas como percentuais. APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 6 Tempo de vida útil de betoneiras elétricas Semanas de uso Frequência Relativa 0 – 99 0,275 100 – 199 0,300 200 - 299 0,350 300 - 399 0,025 400 - 499 0,050 Total 1,000 Distribuição de Frequência Acumulada A frequência acumulada para uma classe é a soma da frequência daquela classe mais as frequências de todas as classes anteriores; Tempo de vida útil de betoneiras elétricas Semanas de uso Frequência Acumulada 0 – 99 11 100 – 199 23 200 - 299 37 300 - 399 38 400 - 499 40 Total 40 Exercício de Aula 1 – Identifique a amplitude de classe, os pontos médios das classes e as fronteiras de classe para a distribuição de frequência abaixo Pressão Sanguínea Sistólica Frequência Simples 90 -99 1 100 – 109 4 110 – 119 17 120 – 129 12 130 – 139 5 140 – 149 0 150 - 159 1 2 – Construam uma distribuição de frequência simples, relativa e acumulada estruturada por classes para uma amostra com 60 medições efetuadas em um motor elétrico (volts). 3,53 – 3,57 - 3,89 – 3,78 - 3,99 – 4,05 -3,98 -4,00 - 3,60 – 3,28 -3,76 – 4,01 -4,03 – 4,00 -3,46 3,50 – 3,57 - 3,39 – 3,78 - 3,69 – 4,05 -3,78 -4,00 - 3,30 – 3,88 -3,76 – 4,21 -4,23 – 4,00 -3,56 3,53 – 3,47 - 3,89 – 3,58 - 3,90 – 4,00 -3,98 -4,00 - 3,64 – 3,28 -3,75 – 4,21 -4,03 – 4,00 -3,46 3,55 – 3,27 - 3,84 – 3,78 - 3,99 – 4,01 -3,48 -4,05 - 3,60 – 3,22 -3,70 – 4,01 -4,05 – 4,04 -3,46 APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 7 Módulo II Estatística Descritiva Medidas de Tendência Central Medida de Centro ou de Centralidade- é um valor no centro ou meio do conjunto de dados. Principais Medidas de Centro: Média; Mediana; Moda; Ponto Médio. Média – é a mais importante das medidas numéricas usadas para descrever dados, considera, em seu cálculo, todos os valores da amostra ou da população que está sendo estudada. . Média Aritmética – é a medida de centro encontrada pela adição dos valores e divisão do total pelo número de valores. Fórmula: → referente à população → referente à amostra Onde, ∑ → indica a adição de um conjunto de valores. x → é a variável, em geral usada para representar os valores individuais dos dados. n → representa o número de valores de uma amostra, N → representa o número de valores em uma população. APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 8 Media Aritmética ponderada – e uma média calculada com os diferentes valores associados a diferentes pesos. Mediana – é a medida de centro que é o valor do meio quando os dados estão arranjados em ordem crescente (ou decrescente) de magnitude Para se encontrar a mediana, primeiro ordene os valores e depois siga um dos procedimentos: 1 – Se o numero de valores for impar, a mediana será o numero localizado no meio exato da lista. 2 – Se o numero de valores for par, a mediana será encontrada pelo calculo da média dos dois números do meio. Moda – é o valor que ocorre mais frequentemente. Quando dois valores ocorrem com a mesma maior frequência, cada um é uma moda, e o conjunto de dados é bimodal. Quando mais de dois valores ocorrem com a mesma maior frequência, cada um é uma moda, e o conjunto de dados é multimodal. Quando nenhum valor se repete, dizemos que não há moda. Ponto Médio – é a medida de centro que é exatamente o valor a meio caminho entre o maior e o menor valor no conjunto original de dados. Assimetria – uma distribuição de dados é assimétrica quando se estende mais para um lado do que para o outro. Exercício em Aula 1 - Para os exercícios abaixo, encontre a média, a mediana, a moda e o ponto médio para cada uma das duas amostras apresentadas e teça algum comentário sobre o resultado encontrado. a – Tempo de espera de clientes nas filas de caixa das instituições financeiras A e B Banco A (fila única): 6,5 – 6,6 – 6,7 – 6,8 - 7,1 – 7,3 – 7,4 – 7,7 – 7,7 - 7,7 Banco B (três filas): 4,2 – 5,4 – 5,8 – 6,2 – 6,7 – 7,7 - 7,7 - 8,5 – 9,3 - 10,0 b – Largura máxima de crânios de homens egípcios de 4000 a.C. a 150 d.C. 4000 a.C. : 131 –119 – 138 – 125 – 129 – 126 – 131 – 132 – 126 – 128 – 128 – 131 http://www.google.com.br/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=0CAcQjRxqFQoTCOS3hLP3xMcCFQqTHgodZbwCIw&url=http%3A%2F%2Flinkconcursos.com.br%2Fsignificado-de-medias-aritmeticas-simples-e-ponderada-media-simples-e-media-ponderada%2F&ei=I73cVdKONcamet7HmqgN&psig=AFQjCNGChpr8Lqkwxowns0gd_hFVzMT5ng&ust=1440616113737598 APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 9 150 d.C. : 136 – 130 – 126 – 126 – 139 – 141 – 137 – 138 – 133 – 131 – 134 - 129 2 – Para as 60 medições efetuadas em um motor elétrico (volts), calcule a média aritmética. 3,53 – 3,57 - 3,89 – 3,78 - 3,99 – 4,05 -3,98 -4,00 - 3,60 – 3,28 -3,76 – 4,01 -4,03 – 4,00 -3,46 3,50 – 3,57 - 3,39 – 3,78 - 3,69 – 4,05 -3,78 -4,00 - 3,30 – 3,88 -3,76 – 4,21 -4,23 – 4,00 -3,56 3,53 – 3,47 - 3,89 – 3,58 - 3,90 – 4,00 -3,98 -4,00 - 3,64 – 3,28 -3,75 – 4,21 -4,03 – 4,00 -3,46 3,55 – 3,27 - 3,84 – 3,78 - 3,99 – 4,01 -3,48 -4,05 - 3,60 – 3,22 -3,70 – 4,01 -4,05 – 4,04 -3,46 3 – Um aluno obteve as notas 65, 87 e 34, nas três primeiras provas, cujo peso atribuído era 2. Ele obteve 56 na última prova cujo peso era 4. Qual a sua média final? APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 10 Módulo II Estatística Descritiva Medidas de Tendência Central Outras Medidas de Tendência Central Média Truncada ou Aparada– é uma média mais resistente a distorções por valores extremos. Para achar a média truncada de 10% de um conjunto de dados, primeiro ordene os dados, despreze os 10% valores inferiores e os 10% dos valores superiores e depois calcule a média aritmética. Caso não se consiga um número exato de observações (15% de 10 observações), então, calcula-se a média com as duas porcentagens mais próximas. (10% de 10 observações) . Média Harmônica – é, em geral, usada como medida de tendência central para conjuntos de dados que consistem em taxas de variação, tais como velocidade. Média Geométrica – é, em geral, usada em administração, economia e geografia para encontrar taxas médias de variação, taxas médias de crescimento, ou razões média. Para efetuar o cálculo, normalmente, transformamos percentuais em fatores de crescimento, por exemplo, 10 % em 1,10 ou –8% em 0,92. Média Quadrática (ou valor RMS – root mean square) – é, em geral, usada em aplicações de física, principalmente em distribui cão de energia. Exercício 1 – Para os dados referente ao exercício 1 e 2 da pagina 8, (a) calcule a média aparada de 10%; (b) a média aparada de 20%? 2 – Um veículo se desloca entre três cidades equidistantes “A”, “B” e “C”, retornando a primeira. Entre a cidade “A” e “B” ele se desloca à 30 km/h, entre “B” e “C” à 40 km/h e entre “C” e “A” a 50 km/h. Qual a velocidade média em todo o trecho percorrido. APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 11 3 – Calcule a taxa média de variação dos juros anuais 10%; 8%; 9%; 12% e 7%; referente a um determinado tipo de investimento financeiro. 4 – Ache a RMS dos valores 110; 0; -60 e 12 referente a medição de energia, em volts. APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 12 Módulo II Estatística Descritiva Medidas de Variação Mede a dispersão dos dados em relação a um valor médio. Principais medidas de dispersão: Amplitude; Desvio Médio Absoluto; Desvio Padrão; Variância. Amplitude – é a diferença entre o maior e o menor valor de um conjunto de dados. AT (Amplitude Total) = maior valor – menos valor Desvio Médio Absoluto – é a distância média dos dados até a sua média aritmética, considerando os valores absolutos. O desvio médio absoluto usa uma operação que não é algébrica (valor absoluto) criando dificuldades algébricas nos métodos de inferência estatística. Desvio Padrão – é uma medida da variação dos valores em torno da média. É uma espécie de desvio médio em relação à media. Desvio Padrão amostral Desvio Padrão Populacional http://www.google.com.br/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=0CAcQjRxqFQoTCMO62tSDxccCFUQmHgodlwgOSQ&url=http%3A%2F%2Fwww.ebah.com.br%2Fcontent%2FABAAABdnUAK%2Fcopia-medidas-dispersao&ei=FsrcVcPXAcTMeJeRuMgE&psig=AFQjCNGn_Y7swSe6rYqhd6lZN4N_MDEw2w&ust=1440619411870592 http://www.google.com.br/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&ved=0CAcQjRxqFQoTCPbRwoCExccCFYukHgodBA4Eww&url=http%3A%2F%2Fwww.datalyzer.com.br%2Fsite%2Fsuporte%2Fadministrador%2Finfo%2Farquivos%2Finfo94%2F94.html&ei=ccrcVbbVN4vJeoSckJgM&psig=AFQjCNG9D_SB_jrJ-myoTouyPGsW8WRsrw&ust=1440619492028107 http://www.google.com.br/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&ved=0CAcQjRxqFQoTCOvN7rKExccCFQPXHgodQDgHfw&url=http%3A%2F%2Fwww.unipvirtual.com.br%2Fmaterial%2FMATERIAL_ANTIGO%2Festatistica%2Fhtml%2Fmod_8.html&ei=28rcVav0HYOue8DwnPgH&psig=AFQjCNHhkSMzEDUU871qsCOY1HFTKh2Uzg&ust=1440619592097792 APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 13 Variância – é uma medida da variação igual ao quadrado do desvio padrão Variância Amostral Variância Populacional Comparação da variação em diferentes populações Coeficiente de Variação (CV) – descreve, em percentual, o desvio padrão em relação à média. Exercício de Aula 1 - Para os exercícios abaixo, encontre a amplitude, o desvio médio, o desvio padrão e a variância para cada uma das duas amostras e o coeficiente de variação para o par de amostras apresentadas e teça algum comentário sobre o resultado encontrado. a – Tempo de espera de clientes nas instituições financeiras A e B Banco A : 6,5 – 6,6 – 6,7 – 6,8 - 7,1 – 7,3 – 7,4 – 7,7 – 7,7 - 7,7 Banco B : 4,2 – 5,4 – 5,8 – 6,2 – 6,7 – 7,7 - 7,7 - 8,5 – 9,3 - 10,0 b – Largura máxima de crânios de homens egípcios de 4000 a.C. a 150 d.C. 4000 a.C. : 131 – 119 – 138 – 125 – 129 – 126 – 131 – 132 – 126 – 128 – 128 – 131 150 d.C. : 136 – 130 – 126 – 126 – 139 – 141 – 137 – 138 – 133 – 131 – 134 - 129 2 – Calcule o desvio padrão para as 60 medições efetuadas em um motor elétrico (volts). 3,53 – 3,57 - 3,89 – 3,78 - 3,99 – 4,05 -3,98 -4,00 - 3,60 – 3,28 -3,76 – 4,01 -4,03 – 4,00 -3,46 3,50 – 3,57 - 3,39 – 3,78 - 3,69 – 4,05 -3,78 -4,00 - 3,30 – 3,88 -3,76 – 4,21 -4,23 – 4,00 -3,56 3,53 – 3,47 - 3,89 – 3,58 - 3,90 – 4,00 -3,98 -4,00 - 3,64 – 3,28 -3,75 – 4,21 -4,03 – 4,00 -3,46 3,55 – 3,27 - 3,84 – 3,78 - 3,99 – 4,01 -3,48 -4,05 - 3,60 – 3,22 -3,70 – 4,01 -4,05 – 4,04 -3,46 https://www.google.com.br/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=0CAcQjRxqFQoTCOLdnOeFxccCFcGkHgodDyoJ_w&url=https%3A%2F%2Fwww.passeidireto.com%2Fpergunta%2F1679730%2Fduvidas-sobre-variancia-e-desvio-padrao&ei=VczcVaLfLMHJeo_UpPgP&psig=AFQjCNH1j5Ii1uGD4hLUBjr3KVdHntYLPg&ust=1440619807377738 http://www.google.com.br/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=0CAcQjRxqFQoTCNv5hsuFxccCFYc8HgodPX0EKQ&url=http%3A%2F%2Fwww.portalaction.com.br%2Festatistica-basica%2F22-medidas-de-dispersao&ei=GszcVduEKIf5eL36kcgC&psig=AFQjCNHCs9JXEDPz3WE3pH2jt9sK6FGx5Q&ust=1440619866246538APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 14 Módulo II Estatística Descritiva Medidas de Posição São medidas que permitem comparar valores de conjuntos de dados diferentes, ou comparar valores dentro de um mesmo conjunto de valores. Escore z – é o número de desvio padrões que se situa determinado valor de x acima ou abaixo da média. Amostra População Arredonde z para duas casas decimais. Quartis (Q1, Q2, Q3)- Os três quartis dividem os valores ordenados em quatro partes iguais. Decis (D1, D2, ..., D9) – Os nove decis dividem os valores em dez partes iguais. Percentis (P1, P2, ..., P99) – Os noventa e nove percentis dividem os valores em cem partes iguais. Exercício de Aula 1 - Para o exercício 1 da página 11, encontre o escore z dos valores solicitados. a – Tempo de espera de clientes nas instituições financeiras A e B Banco A : 6,5 Banco B : 6,5 b – Largura máxima de crânios de homens egípcios de 4000 a.C. a 150 d.C. 4000 a.C. : 130 150 d.C. : 130 2 – Para o exercício 2 da página 11, encontre o valor de uma medição que está posicionada em z = -2,56 http://www.google.com.br/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=0CAcQjRxqFQoTCOT4-YCHxccCFQzSHgodGBkJrA&url=http%3A%2F%2Fon-select.com%2Fgal%2Fz%2Fz-score-formula%2F&ei=mM3cVeTMB4yke5iypOAK&psig=AFQjCNFSDpRM6mvBCgWuBIPyj3Wq12A-Uw&ust=1440620308933569 http://www.google.com.br/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=0CAcQjRxqFQoTCPDD2O-GxccCFUVrHgodv_oCbA&url=http%3A%2F%2Fstudy.com%2Facademy%2Flesson%2Fz-scores-in-statistics-explained-formula-lesson-quiz.html&ei=c83cVbC-OMXWeb_1i-AG&psig=AFQjCNELf9GA1pecqCe6m9IC-tvJnPGMhw&ust=1440620266158753 APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 15 Módulo II Estatística Descritiva Representação Pictográfica O gráfico estatístico é uma forma de apresentação dos dados estatísticos que visa produzir no público uma impressão mais viva e rápida do fenômeno estudado. Por sua finalidade, os gráficos devem ser simples, claros e trazer informações verídicas. Os principais tipos de gráficos estatísticos são: Gráfico de Colunas Gráfico de Barra APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 16 Gráfico de Pizza APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 17 Módulo III Probabilidade Probabilidade é a base sobre a qual são construídos importantes métodos de inferência estatística. Conceitos Básicos Evento – é qualquer conjunto de resultados de um experimento. Evento Simples – é um resultado ou um evento que não pode mais ser decomposto em componentes mais simples. Espaço Amostral – consiste em todos os eventos simples possíveis. Isto é, o espaço amostral consiste em todos os resultados que não podem mais ser decompostos. Notação para Probabilidade P representa a probabilidade A, B, e C representam eventos específicos P(A) representa a probabilidade de o evento A ocorrer. Regra 1: Aproximação da probabilidade pela freqüência relativa Realize ou observe um experimento um grande número de vezes e conte o número de vezes que o evento A ocorre. Baseado nesses resultados efetivos, P(A) é estimado como Regra 2: Abordagem Clássica da Probabilidade Suponha que um determinado experimento tenha n diferentes eventos simples e que cada um desses eventos simples tenha igual chance de ocorrer. Se o evento A pode ocorrer em s dessas n maneiras, então Regra 3 : Probabilidade Subjetiva P(A), a probabilidade do evento A, é encontrada por uma simples conjectura ou estimando seu valor com base no conhecimento de circunstâncias relevantes. APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 18 Lei dos Grandes Números A medida que um experimento é repetido várias vezes, a probabilidade dada pela frequência relativa de um evento tende a se aproximar da verdadeira probabilidade. Arredondamento de Probabilidades Devemos dar ou a fração ou decimal exato ou arredondar o resultado final para três algarismos significativos. Regra da Adição É uma ferramenta que permite expressar como P(A ou B), a probabilidade de que ou o evento A ocorre ou o evento B ocorre (ou ambos ocorrem) como um único resultado de um experimento. Notação para Regra de Adição Regra da Adição Formal Regra da Adição Indutiva Para achar P(A ou B), ache a soma do número de maneiras como o evento A pode ocorrer e o número de maneiras como o evento B pode ocorrer, somando de tal maneira que cada resultado seja contado apenas uma vez. P(A ou B) é igual a esta soma dividida pelo número total de resultados do espaço amostral. Exemplo: A probabilidade de se escolher uma carta de um baralho e esta carta ser um “valete’’ou um “rei” é de: Regra da Multiplicação É uma ferramenta que envolve a multiplicação de probabilidades e que, algumas vezes, teremos que ajustar a probabilidade do evento B para refletir a ocorrência do evento A Notação para Multiplicação APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 19 P(A e B) = P(evento A ocorrer na primeira prova e evento B ocorrer na segunda prova) Notação para Probabilidade Condicional P(B |A) = probabilidade de o evento B ocorrer depois que se assume que o evento A ocorreu Dois eventos A e B são independentes se a ocorrência de um não afeta a probabilidade de ocorrência do outro. Se A e B não são independentes, então A e B são dependentes. Regra da Multiplicação Formal Regra da Multiplicação Indutiva Ao calcular a probabilidade de ocorrência do evento A em uma prova e do evento B na prova seguinte, multiplique a probabilidade do evento A pela probabilidade do evento B, mas certifique-se de que a probabilidade do evento B leva em conta a ocorrência prévia do evento A. Exemplo 01 - A probabilidade de José estar vivo daqui a 10 anos é de 25%, e; de João estar vivo também daqui a 10 anos é de 50%. Qual a probabilidade de, daqui a 10 anos, José estar vivo e João não é de: Exemplo 02 - A probabilidade de acertar os seis números no jogo de mega sena é de: Exercício de Aula 1 – Uma empresa possui três máquinas, denominadas A, B e C. Elas possuem, respectivamente, 10%, 25% e 50% de chance de apresentar algum tipo de problema ao longo deste ano. Qual a chance delas: a) não apresentarem problemas ao longo deste ano? b) As três apresentarem problemas ao longo deste ano? c) Apenas a primeira apresentar problema ao longo deste ano? 2 – Para o exemplo 2 da regra de multiplicação, calcule a probabilidade de o apostador acertar a) a quadra; b) a quina no jogo de mega sena? APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 20 Módulo IV Distribuição de Probabilidade Discreta Distribuição de Probabilidade – é um gráfico,uma tabela ou fórmula que dá a probabilidade para cada valor da variável aleatória. Variável aleatória – é uma variável (normalmente representada por x) que tem um único valor numérico, determinado por acaso, para cada resultado de um experimento. Variável aleatória discreta – tem ou um número finito de valores, ou uma quantidade enumerável de valores, onde, “enumerável” se refere ao fato de que podem existir infinitos valores, mas que podem ser associados a um processo de contagem. Variável aleatória contínua – tem infinitos valores, e esses valores podem ser associados com medidas em uma escala contínua, de modo que não há pulos ou interrupções. Requisitos para uma distribuição de probabilidade 1. P(x) = 1 onde x assume todos os valores possíveis; 2. 0≤p(x)≤1 para todo valor individual de x. Valor Esperado O valor esperado de uma variável aleatória discreta é designado por E e representa o valor médio dos resultados. É obtido pelo cálculo de . Principais Distribuições de Probabilidade Distribuições de Probabilidade Discretas Binomial; Geométrica; Hipergeométrica; Multinomial; e Poisson. Distribuições de Probabilidade Contínuas Uniforme; Normal; APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 21 Distribuição de Probabilidade Binomial Uma distribuição de probabilidade binomial resulta de um experimento que satisfaz os seguintes requisitos: 1. O experimento tem um número fixo de provas; 2. As tentativas devem ser independentes (o resultado de qualquer tentativa individualmente não afeta a probabilidade nas outras tentativas. 3. Cada tentativa deve ter todos os resultados classificados em duas categorias; 4. As probabilidades devem permanecer constantes para cada tentativa. Fórmula para Distribuições de Probabilidade Binomial onde, P(x) representa a probabilidade de se obterem exatamente x sucessos em n tentativas. n = representa o número fixo de tentativas; x = representa o número específico de sucessos em n tentativas, de modo que x pode ser qualquer número inteiro entre 0 e n, inclusive. P = representa a probabilidade de sucesso em uma das n tentativas. q = representa a probabilidade de fracasso em uma das n tentativas. A palavra sucesso não representa, necessariamente, algo bom. Exercícios 1 – A Air America tem uma política de reservar lugar para 15 pessoas em um avião no qual podem se sentar apenas 14 pessoas. Estudos passados mostraram que apenas 85% dos passageiros agendados realmente se apresentam para o vôo. Ache a probabilidade de que a Air America reserve lugar para 15 pessoas, e que não haja lugar suficiente para todos? 2 – A companhia telktronic compra grandes carregamentos de lâmpadas e usa o seguinte plano de amostragem de aceitação: seleciona aleatoriamente e testa 24 lâmpadas, e aceita o lote todo se há apenas uma ou nenhuma lâmpada que não funcione. Se um carregamento de milhares de lâmpadas tem uma taxa de 4% de defeituosas, qual é a probabilidade de que o carregamento todo seja aceito. 3 – Pesquisa interna paga por uma determinada empresa de vendas pela internet, mostram que mesmo as empresas mais corretas apresentam 15% de reclamações nos seus processos de entrega. Suponha que você esteja testando tal empresa fazendo 10 pedidos, também considere que esta empresa apresenta, historicamente, o mesmo percentual de reclamações a) Ache a probabilidade de se obter uma reclamação. b) Ache a probabilidade de se obter, no máximo, uma reclamação. APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 22 Distribuição de Probabilidade Geométrica Se um experimento satisfaz todos os requisitos de uma distribuição binomial, exceto pelo fato de que o número de tentativas não é fixo, então a distribuição geométrica pode ser usada. A probabilidade de se obter o primeiro sucesso na x-ésima tentativa é dado por: Em que p é a probabilidade de sucesso em qualquer tentativa. Distribuição de Probabilidade Hipergeométrica Se extrairmos uma amostra de uma população finita pequena sem reposição, a distribuição binomial não deve ser usada porque os eventos não são independentes. Se a amostragem é feita sem reposição e os resultados pertencem a um de dois tipos, podemos usar a distribuição hipergeométrica. Se uma população tem A objetos de um tipo, enquanto os B objetos restantes são de outro tipo, e se n objetos são selecionados sem reposição, então a probabilidade de se obterem x objetos do tipo A e n-x objetos do tipo B é Distribuição de Probabilidade Multinomial A distribuição binomial se aplica apenas a casos que envolvem dois tipos de resultados, enquanto a distribuição multinomial envolve mais de duas categorias de resultados. Suponha que tenhamos três tipos de resultados mutuamente exclusivos representados por A, B e C. Sejam P(A)=p1, P(B)=p2 e P(C)=p3. Em n tentativas independentes, a probabilidade de x1 resultado do tipo A, x2 resultados do tipo B e x3 resultados do tipo C é dada por Distribuição de Probabilidade de Poisson A distribuição de Poisson é uma distribuição de probabilidade discreta que se aplica a ocorrências de eventos ao longo de intervalos especificados. A variável aleatória x é o número de ocorrências do evento no intervalo. O intervalo pode ser tempo, distância, área, volume ou alguma unidade similar. A probabilidade de ocorrência do evento x vezes em um intervalo é dada pela fórmula abaixo APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 23 Onde e ≈2,71828 A distribuição de Poisson tem os seguintes requisitos: a) A variável aleatória x é o número de ocorrências de um evento ao longo de algum intervalo; b) As ocorrências devem ser aleatórias; c) As ocorrências devem ser independentes uma das outras. A distribuição binomial é afetada pelo tamanho da amostra n e pela probabilidade p, enquanto que a distribuição de Poisson é afetada apenas pela média µ. Exercícios de Aula 1 – Suponha que a probabilidade de um componente de computador defeituoso seja de 0,2. Ache a probabilidade de que o primeiro defeito ocorra no sétimo componente testado. 2 – Em um jogo de loteria, um apostador seleciona seis números em 54 possíveis, e uma combinação de seis números ganhadora é selecionada aleatoriamente. Ache a probabilidade de se obter: a) Todos os seis números ganhadores; b) Exatamente cinco dos seis números ganhadores; c) Exatamente três dos seis números ganhadores d) Nenhum dos números ganhadores. 3 – Um experimento de genética envolve seis genótipos mutuamente exclusivos identificados como A, B, C, D, E e F, e eles são todos igualmente prováveis. Se 20 descendentes são testados, ache a probabilidade de se obterem exatamente cinco A, quatro B, três C, dois D, três E e três F. 4 – Para um período recente de 100 anos houve 93 grandes terremotos (pelo menos 6,0 na escala Richter) no mundo. Supondo que a distribuição de Poisson seja um modelo adequado, APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 24 ache a probabilidade de que o numero de terremotos em um ano selecionado aleatoriamente seja: a) 0; b) 1; c) Até 2; d) Acima de 3; 5 – Em um ano houve 116 paradas na linha de produção de uma empresa devido a algum tipo de problema. Para um dia selecionado ao acaso, ache a probabilidade de que o número de paradas seja de: a) 0;b) 1; c) Mais que 1. Módulo V Distribuição de Probabilidade Contínua APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 25 Distribuição de Probabilidade Uniforme Uma variável aleatória contínua tem uma distribuição uniforme se seus valores se espalham uniformemente sobre a faixa de possibilidades. O gráfico de uma distribuição uniforme resulta em uma forma retangular. A curva de densidade da distribuição uniforme é uma reta horizontal; assim é fácil achar a área de qualquer região retangular: multiplique a largura pela altura. Distribuição Normal Padrão e Não Padronizada A Distribuição Normal Padrão é uma distribuição de probabilidade normal que tem média 0 e o desvio padrão 1, e a área total sob a curva de densidade é 1. Abaixo temos uma representação, primeiramente de uma distribuição não padronizada (de média 8,2 e desvio padrão de 1,34), e; em seguida a de uma distribuição padronizada de média 0 e desvio padrão 1). Na prática a aplicação direta de uma distribuição normal padronizada não seria tão útil. O ideal e que possamos converter uma distribuição não padronizada (resultados comumente encontrados no nosso dia a dia) em uma distribuição padronizada, que nos permitirá efetuar cálculos rápidos, principalmente através de tabelas pré-elaboradas. A curva de densidade de uma distribuição normal tem forma de sino mais complicada, de modo que é mais difícil achar áreas, mas o princípio é o mesmo da distribuição uniforme: há uma correspondência entre área e probabilidade. APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 26 Para transformar valores de uma distribuição não padronizada para a padronizada use: Usando a tabela do escore z (página seguinte), podemos achar essas áreas (ou probabilidades) para muitas regiões diferentes, o processo é simples e está descrito abaixo. O exemplo abaixo proposto requer que achemos a probabilidade associada a um valor menor que 1,58. Comece com o escore z de 1,58, localizando 1,5 na coluna a esquerda; em seguida ache o valor na linha adjacente de probabilidade que esta exatamente abaixo de 0,08. O valor da área (ou probabilidade) de 0,4429 indica que há uma probabilidade de 0,4429 (ou uma porcentagem de 44,29%) de selecionarmos aleatoriamente um escore z entre 0 e 1,58. z . . . . . . . . . . .. . . . . . .0,08 . . . 1,5 . . . . . . . . . . . . . . . . . . . . 0,4429 APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 27 APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 28 Determinação de Valores a partir de áreas conhecidas Normalmente, temos os valores dos limites e precisamos achar a área (ou probabilidade ou porcentagem). Em muitos casos reais e práticos, a área (ou probabilidade ou porcentagem) é conhecida, e temos que achar os valores relevantes. Ao achar valores a partir de áreas conhecidas, tenham em mente essas advertências. a) Não confunda escore z e áreas. Lembre-se, escore z são distâncias ao longo da escala horizontal, mas áreas são regiões sob a curva normal. A tabela mostra escore z na coluna à esquerda e na linha de topo, mas as áreas são encontradas no corpo da tabela. b) Escolha o lado correto (direito/esquerdo) do gráfico. c) Um escore z tem que ser negativo sempre que se localizar na metade esquerda da distribuição normal. d) Áreas (probabilidades) são valores nulos ou positivos, mas nunca são negativos. Exercícios de Aula 1 - Os tempos de substituição de notebooks são distribuídos normalmente, média de 7,1 anos e um desvio padrão de 1,4 ano. a) Ache a probabilidade de um notebook, selecionado aleatoriamente, ser substituído em menos de 8,0 anos. b) Se você deseja estabelecer uma garantia de modo que apenas 2% dos notebooks sejam substituídos antes da expiração da garantia, qual deve ser o prazo de garantia? 2 - Os tempos de substituição de aparelhos de TV são distribuídos normalmente, com média de 8,2 anos e um desvio padrão de 1,1 ano . a) Ache a probabilidade de um aparelho de TV, escolhido aleatoriamente ser substituído em menos de 5,0 anos. b) Se você deseja estabelecer uma garantia de modo que apenas 1% dos aparelhos de TV seja substituído antes da expiração da garantia, qual deve ser o prazo de garantia? 3 – Os tempos de gravidez são normalmente distribuídos, com uma média de 268 dias e um desvio padrão de 15 dias. APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 29 a) Uma mulher afirma ter dado à luz 308 dias depois da visita de seu marido, que estava a serviço da marinha. Dada essa informação, ache a probabilidade de uma gravidez durar 308 dias ou mais? O que o resultado sugere? b) Se um bebê é classificado como prematuro no caso de a duração da gravidez estar dentro dos 4% tempos inferiores, ache o tempo de gravidez que separa os bebês prematuros dos demais? APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 30 Modulo V Distribuição de Probabilidade Contínua Distribuição Amostral das Médias A Distribuição Amostral da Média é a distribuição de probabilidade das médias amostrais, com todas as amostras tendo o mesmo tamanho amostral n. Vejamos o exemplo da tabela abaixo. Considere uma população com três valores: 1; 2 e 5. Vamos então calcular a média e o desvio padrão da população (1; 2 e 5) e também a média e desvio padrão de todas as médias e desvios padrões gerados pelas amostras de dois elementos retiradas da população em questão. Amostra (02 elementos) Média (X) Desvio Padrão (s) 1;1 1,0 0,000 1;2 1,5 0,707 1;5 3,0 2,828 2;1 1,5 0,707 2;2 2,0 0,000 2;5 3,5 2,121 5;1 3,0 2,828 5;2 3,5 2,121 5;3 5,0 0,000 Média dos Valores da Estatística 2,7 1,3 Parâmetro Populacional 2,7 1,7 A estatística amostral atinge o alvo do parâmetro populacional? Sim Não O Teorema Central do Limite e a Distribuição Amostral das Médias Dado: 1. A variável aleatória x tem uma distribuição (que pode ser ou não ser normal) com media µ e desvio padrão σ. 2. Amostras aleatórias simples, todas de tamanho amostral n, são selecionadas da população. Conclusões: APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 31 1. A distribuição das médias amostrais X, ira se aproximar de uma distribuição normal a medida que n aumentar. 2. A média de todas as médias amostrais é a média µ da população 3. O desvio padrão de todas as médias amostrais é . Regras Práticas Comumente Usadas 1. Se a população original não for normalmente distribuída, eis uma diretriz comum para amostras de tamanho n maior que 30, a distribuição das médias amostrais pode ser razoavelmente bem aproximada pela distribuição normal. A aproximaçãose torna melhor a medida que o tamanho da amostra n se torna maior. 2. Se a população original for normalmente distribuída, então as médias amostrais serão normalmente distribuídas para qualquer tamanho amostral de n (não apenas para valores de n maiores que 30). Notação para a distribuição Amostral de X Se todas as possíveis amostras de tamanho n são selecionadas de uma população com média µ e desvio padrão σ, a média das médias amostrais é designada por µ, de modo que Também o desvio padrão das médias amostrais é seguido por σx, de modo que Exercícios de Aula 1 - O gerente de uma grande rede de lojas esta preocupado com o fato de que seus fornecedores lhe entreguem aparelhos de TV com nível de qualidade inferior a média. Sua pesquisa mostra que o tempo de substituição dos aparelhos tem uma média de 8,2 anos e um desvio padrão de 1,1 ano. Ele seleciona 50 aparelhos vendidos e descobre que o tempo médio de substituição é de 7,8 anos. a) Supondo que os tempos de substituição de aparelhos de TV tenham uma média de 8,2 anos e um desvio padrão de 1,1 ano, ache a probabilidade de 50 aparelhos selecionados aleatoriamente terem um tempo de substituição de 7,8 anos ou menos? b) Com base no resultado há evidência de que a rede recebeu aparelhos de TV com qualidade inferior a qualidade média? 2 – A cidade de Newport opera um depósito de lixo que fica sobrecarregado se as 4872 casas da cidade descarregar lixo com pesos com média superior a 13,88 Kg em uma semana. Por APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 32 varias semanas diferentes, resultou que amostras de 472 casas têm pesos normalmente distribuídos com média de 13,45 Kg. E desvio padrão de 5,14 Kg. Qual a proporção de semanas nas quais o depósito de lixo ficará sobrecarregado? 3 – Os pesos de mulheres são normalmente distribuídos, com uma média de 60 Kg e um desvio padrão de 7,8Kg., enquanto os pesos dos homens são normalmente distribuídos, com média 72 Kg e desvio padrão de 7,5 Kg. Você precisa planejar um elevador de shopping Center, e ele tem que ser seguro para transportar 16 pessoas. Supondo o cenário pior caso 16 passageiros do sexo masculino, ache o peso máximo permitido se queremos uma probabilidade de 0,975 de que esse máximo não seja ultrapassado por 16 homens selecionados aleatoriamente. APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 33 Modulo VI Estimativas e Tamanhos Amostrais Estimativa Pontual – é um único valor para aproximar um parâmetro populacional. Estimativa Intervalar – é um intervalo de valores usado para estimar o verdadeiro valor de um parâmetro populacional. Nível de Confiança – é a probabilidade 1 – α (em geral, expressa o valor equivalente em porcentagem) que ι a proporção de vezes que o intervalo de confiança realmente contém o parâmetro populacional, supondo que o processo de estimação seja repetido um grande número de vezes. O nível de confiança é também chamado de grau de confiança ou coeficiente de confiança. Valor Crítico – é um numero na fronteira que separa estatísticas amostrais que tem chance de ocorrer daqueles que não têm. O número zα/2 é um valor crítico que é um escore z com a propriedade de separar uma de α/2 na cauda direita de distribuiηγo normal padronizada. Quadro de valores críticos mais comuns. Nível de Confiança α Valor Crítico. zα/2 90% 0,10 1,645 95% 0,05 1,96 99% 0,01 2,575 Estimativa de uma Proporção Populacional Suposições: 1. A amostra é uma amostra aleatória simples; 2. As condições para a distribuição binomial são satisfeitas; 3. A distribuição normal pode ser usada para aproximar a distribuição de proporções amostrais. Notação para proporções p = proporção populacional Margem de Erro (E) – é a diferença máxima provável (com probabilidade 1 – α) entre a proporção amostral observada e o verdadeiro valor da proporção populacional p. Intervalo de Confiança para Proporção Populacional p APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 34 Determinação do Tamanho Amostral Quando se conhece uma estimativa : Quando não se conhece qualquer estimativa : Regra de arredondamento para a determinação do tamanho amostral Para garantir que o tamanho amostral exigido seja no mínimo tão grande como deve ser, se o tamanho amostral calculado não for um número inteiro, arredonde-o para o inteiro maior mais próximo. Exercícios 1 – em uma pesquisa, 1025 adultos selecionados aleatoriamente foram entrevistados e 29% deles disseram que usavam a internet para compras pelo menos cinco vezes por ano. Ache a estimativa de intervalo de confiança de 95% e 99% de confiança da percentagem de adultos que usam a Internet para compras. 2 – Quando Mendel realizou seus famosos experimentos em genética com ervilhas, uma amostra consistia em 428 ervilhas verdes e 152 amarelas. Ache uma estimativa de intervalo de confiança de 95% de confiança da porcentagens de ervilhas amarelas. 3 – Em uma pesquisa com 1002 pessoas, 701 disseram que votaram em uma recente eleição presidencial. Os registros da votação mostram que 61% dos eleitores habilitados realmente votaram. a) Ache uma estimativa de intervalo de confiança de 99% de confiança da proporção de pessoas que disseram ter votado. b) Os resultados da pesquisa estão de acordo com o resultado real de votantes? Por que sim ou pro que não? 4 - Você foi contratado por uma empresa para fazer uma pesquisa de mercado , e deve estimar a porcentagem de residências que possuem pelo menos um chuveiro elétrico. Quantas residências devem ser pesquisadas, se você deseja estar 94% confiante de que sua porcentagem amostral tem uma margem de erro de três pontos percentuais? a) Suponha que um estudo anterior tenha sugerido que 86% das residências possuem chuveiros? b) Suponha que não haja informação disponível? APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 35 Modulo VI Estimativas e Tamanhos Amostrais Estimativa da Média Populacional Neste bloco discutiremos novamente o intervalo de confiança e a determinação do tamanho amostral, mas consideramos agora o objetivo da determinação da média populacional µ. Suposições: 1. A amostra é uma amostra aleatória simples. 2. O valor do desvio padrão populacional, σ, é conhecido. 3. Uma ou ambas as condições seguintes são satisfeitas: a população é normalmente distribuída ou n maior que 30. Intervalo de confiança Os estatísticos desenvolveram o intervalo de confiança, que consiste em uma faixa de valores, em vez de um único valor – estimativa pontual. O intervalo de confiança esta associado a um nível de confiança, tal como 95%. O nível de confiança nos dá a taxa de sucesso do procedimento usado para construir o inter valo de confiança. Margem de Erro Estimativa do Intervalo de Confiança para a média populacional µ (com σ conhecido) Determinação do Tamanho Amostral necessário para estimar µ Onde: zα/2 escore z crítico com base no nível de confiança desejado E = margem de erro desejada σ = desvio padrão populacional APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 36 Exercício1 – Para monitorar a saúde de uma determinada área de florestas, várias medidas são registradas em tempos diferentes. As temperaturas mínimas são registradas, e a média de 30,4oC é obtida a partir de 61 temperaturas registradas. Supondo que o desvio padrão foi de 1,7oC, ache uma estimativa de intervalo de confiança de 95% e 99% para a média populacional de todas as temperaturas. 2 – Uma amostra de 54 lâmpadas eletrônicas da marca XXP atingiram uma vida útil média de 1100 horas, supondo que o desvio padrão seja conhecido como 123 horas, ache a estimativa de intervalo de confiança de 98% de confiança da vida útil média de toda a população de lâmpadas eletrônicas desta marca. 3 – Um economista deseja determinar a renda média para o primeiro ano de trabalho de engenheiros graduados na Udesc. Quantas dessas rendas devem ser encontradas se desejamos 95% de confiança em que a média amostral estará menos de R$ 200,00 da verdadeira media populacional? Suponha que um estudo prévio tenha revelado que, para tais rendas, o desvio padrão é de R$ 2650,00. APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 37 Modulo VI Teste de Hipótese Hipótese - é uma afirmativa sobre uma propriedade da população Teste de Hipótese – é um procedimento padrão para testar uma afirmativa sobre uma propriedade da população. Regra do evento raro para a inferência estatística Se, sob uma dada suposição, a probabilidade de um evento observado particular é excepcionalmente pequena, concluímos que a suposição provavelmente não é correta. Componentes de um teste de hipótese formal Hipótese Nula e Alternativa Hipótese Nula (representada por Ho) é uma afirmativa do que o valor de um parâmetro populacional é igual a algum valor especificado. Ho:p=0,5 Ho:µ=98,6 Testamos a hipótese nula diretamente, no sentido de que supomos que ela seja verdadeira e chegamos a uma conclusão para rejeitar Ho ou deixar de rejeitar Ho. Hipótese Alternativa da Nula (representada por H1 é a afirmativa de que o parâmetro tem um valor que, de alguma forma, difere da hipótese nula. H1:p H1:µ H1:p H1:µ H1:p H1:µ Estatística de Teste – é um valor calculado a partir dos dados amostrais e é usada para se tomar a decisão sobre a rejeição da hipótese nula. A estatística de teste é encontrada pela conversão da estatística amostral em um escore z com a suposição de que a hipótese nula seja verdadeira. Estatística de Teste para proporção Região Critica – é o conjunto de todos os valores da estatística de teste que nos fazem rejeitar a hipótese nula. APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 38 Modulo VII Correlação e Regressão Correlação _ existe uma correlação entre duas variáveis quando uma delas está relacionada com a outra de alguma maneira. Diagrama de dispersão – é um gráfico no qual os dados amostrais emparelhados são plotados com um eixo horizontal x e um eixo vertical y. Cada par individual (x,y) é plotado como um único ponto. Coeficiente de Correlação Linear (r) – mede a intensidade da relação linear entre os valores quantitativos emparelhados x e y em uma amostra. Seu valor é calculado usando a formula abaixo. Notação para o coeficiente de correlação linear n → representa o número de pares de dados presentes ∑ → representa a soma dos itens indicados. http://www.google.com.br/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=0CAcQjRxqFQoTCL3F_c-IxccCFQEYkAodUxQBWg&url=http%3A%2F%2Fwww.conexionismo.com%2Fleer_articulo.php%3Fref%3Dprueba_t_de_student_para_dos_muestras_relacionadas-902ybsd7&ei=Ss_cVb34EYGwwATTqITQBQ&psig=AFQjCNFgubJvVtz0jzrJRA_ZXI2hg4faNA&ust=1440620735264687 APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 39 APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 40 Correlação Nã0-linear Regressão – é a descrição da relação entre duas variáveis através do gráfico e da equação que representam a relação. Essa reta é chamada de reta de regressão, e sua equação é chamada de equação da regressão. A equação da regressão expressa uma relação entre x (chamada de variável independente, ou variável preditora, ou variável explanatória) e (chamada de variável dependente, ou variável resposta) Onde, As equações de regressão podem ser úteis para predizer o valor de uma variável, dado algum valor particular de outra variável. Se a reta de regressão se ajusta bem aos dados, então faz http://www.google.com.br/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=0CAcQjRxqFQoTCIHc6NiLxccCFcF-kAodm5oFkA&url=http%3A%2F%2Fwww.scielo.br%2Fscielo.php%3Fpid%3DS0103-65132007000100004%26script%3Dsci_arttext&ei=gtLcVYGTCMH9wQSbtZaACQ&psig=AFQjCNFxAi95m7HCop-bu5LaL9UNNUNPBg&ust=1440621541934092 APOSTILA DE PROBABILIDADE E ESTATÍSTICA Prof. Murilo Carvalho Página 41 sentido usar essa equação para predições. No entanto, devemos utilizar a equação de regressão apenas se r indicar que há uma correlação linear. Exercício: 1 – Uma pesquisa efetuada entre índice de umidade média do ar e vida útil de um determinado equipamento apresentou os seguintes resultados. Primeiro grupo Umidade média relativa no ar (x) 89 87 67 93 99 45 20 44 60 66 Vida útil – anos (y) 18 17 13 19 21 18 15 10 13 15 Segundo grupo Umidade média relativa no ar (x) 89 87 67 93 99 45 20 44 60 66 Vida útil – anos (y) 18 22 18 17 15 25 30 25 23 15 Pergunto: a) Quais os coeficientes de correlação linear (r) de cada um dos grupos? b) Há correlação linear entre as variáveis para cada um dos grupos? c) Qual grupo possui a melhor correlação? d) Desenvolva a equação de regressão para o grupo de melhor correlação. e) Qual a predição de vida útil para um equipamento instalado em uma região onde a unidade relativa do ar média é de 40%
Compartilhar