Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 LUCIANE REGINA PAVAN APOSTILA ESTATÍSTICA APLICADA AO MARKETING II MARINGÁ 2013 2 INFERÊNCIA ESTATÍSTICA Trata-se do processo de obter informações sobre uma população a partir de resultados observados na amostra. De modo geral, tem-se uma população com grande número de elementos e deseja- se, a partir de uma amostra dessa população, conhecer “o mais próximo possível” algumas características da população. Toda conclusão tirada por uma amostragem, quando generalizada para a população, virá acompanhada de um grau de incerteza ou risco. Ao conjunto de técnicas e procedimentos que permitem dar ao pesquisador um grau de confiabilidade, de confiança nas afirmações que faz para a população, baseadas nos resultados das amostras, damos o nome de Inferência Estatística. O problema fundamental da Inferência Estatística, portanto, é medir o grau de incerteza ou risco dessas generalizações. Os instrumentos da Inferência Estatística permitem a viabilidade das conclusões por meio de afirmações estatísticas. 1. INTERVALO DE CONFIANÇA O que vamos estudar? Veja o exemplo a seguir: Uma indústria de componentes eletrônicos está interessada em determinar a vida útil de certo tipo de bateria. Uma amostra em horas foi analisada e a média amostral x obtida foi 5,32x horas. Podemos concluir que qualquer bateria fabricada por esta indústria terá uma vida útil de 32,5 horas, ou seja, podemos afirmar que a média amostral é a média da população? Claro que não! Então o que pretendemos é exatamente determinar uma maneira de calcular a média populacional. Para isso vamos determinar um intervalo especial chamado intervalo de confiança para a média populacional. Vamos determinar um intervalo de confiança para a média quando as amostras forem grandes ( 30n ) e um intervalo de confiança para a média quando as amostras forem pequenas ( 30n ). Para começar precisamos entender algumas definições importantes, ou seja, o que significa: Estimativa Intervalar; Nível de Confiança (c) e Erro Máximo da Estimativa (E)? Estimativa Intervalar: É um intervalo de valores usado para estimar um parâmetro populacional (média, variância e desvio-padrão). Embora a estimativa pontual não seja igual a média populacional real, ela provavelmente está próxima desse valor. Observação: Antes de obter uma estimativa intervalar, você deve, em 1º lugar, determinar qual a confiança necessária de que sua estimativa contenha a média populacional . Nível de Confiança (α): É a probabilidade de que o intervalo estimado contenha o parâmetro populacional. Observação Importante: Quando são retiradas amostras com 30 ou mais elementos de uma população qualquer, a distribuição amostral das médias das amostras terá uma distribuição normal, o nível de confiança α é a área sob a curva normal padrão entre os 3 valores críticos cZ e cZ . A área remanescente é 1- α. Portanto, a área em cada cauda é (1-α)/2. Exemplo: Se α = 90% então como a curva é simétrica com relação a Z = 0 , pela tabela da distribuição normal corresponde a 64,1cZ . Então 5% da área estão à esquerda de – 1,64 e 5% estão à direita de 1,64. Erro Máximo da Estimativa (e): Dado um nível de confiança c, o erro máximo da estimativa E é a maior distância possível entre a estimativa pontual e o valor do parâmetro a ser estimado. A fórmula usada para calcular o erro é: n ZE c , onde é o desvio-padrão da população. Lembrando... Distribuição Normal Reconhecemos hoje em dia que muitas ocorrências reais e naturais, assim como muitas medidas físicas tem distribuição de freqüência que são aproximadamente normais. (Nível de Colesterol, Alturas, Diâmetros de Laranjas, Peso, etc.). A forma da distribuição normal lembra um sino. Como existem muitas distribuições normais de probabilidade, cada uma dependendo de uma média e um desvio padrão, eles padronizaram uma distribuição, chamada “Distribuição Normal Padrão”. Para determinar a área sob qualquer curva normal, é preciso primeiro converter os limites para o escore Z através da fórmula x Z , onde é o desvio padrão da população e é a média da população. Exemplo: A espessura de uma chapa de aço é uma variável normalmente distribuída com média 15 mm e desvio padrão 3 mm. O comprador exige que as chapas possuam no mínimo uma espessura de 12 mm. De um lote de 500 chapas, quantas serão recusadas pelo comprador? Devemos calcular P(x < 12 mm), ou seja, a probabilidade da espessura das chapas ser menor que 12 mm. Primeiro devemos calcular o valor de Z, ou seja, converter o limite x=12 mm para um Z correspondente. Obtemos então: 1 3 3 3 1512 Z . Olhando na tabela de distribuição normal obtemos Z = 0,3413. Portanto a área desejada é 0,5 – 0,3413 = 0,1587 = 15,87%. Isso corresponde a 15,87% de 500 chapas = 80 chapas aproximadamente. Portanto de um lote de 500 chapas, 80 serão recusadas. Depois das definições e revisões importantes, vamos determinar os intervalos de confiança para a média (Amostras Grandes 30n ). 1.1 INTERVALO DE CONFIANÇA PARA MÉDIA – AMOSTRAS 30n E DESVIO PADRÃO CONHECIDO Definição: Um intervalo de confiança para a média populacional é ExEx . A probabilidade de que o intervalo de confiança contenha é α. ORIENTAÇÕES GERAIS Como obter um intervalo de confiança para uma média populacional (ou conhecido) com uma população distribuída normalmente? 4 1. Obtenha as estatísticas amostrais n e x . Lembre que n x x ou n fx x ii . 2. Se conhecido, especifique . Caso contrário, se 30n , determine o desvio padrão amostral s e use-o como uma estimativa de , ou seja, s . Lembre que 1 )( 2 n xx s i ou 1 )( 2 n fxx s ii . 3. Determine o valor crítico cZ que corresponde ao nível de confiança determinado. Use a Tabela Normal Padrão. 4. Determine o erro máximo de estimativa n ZE c . 5. Determine o extremo esquerdo Ex e o extremo direito Ex e forme o intervalo de confiança para a média ExEx ou [ ExEx ; ] Exemplo: Uma indústria de componentes eletrônicos está interessada em determinar a vida útil de certo tipo de bateria. Em uma amostra aleatória de 40 baterias, a vida útil média encontrada foi de 5,32x horas. Sabe-se que o desvio padrão da amostra é s=1,5 e que a população está normalmente distribuída. Construa um intervalo de confiança de 90% da vida útil média da população. Solução: 1. n = 40 e 5,32x . 2. Como 30n então s , ou seja, 5,1s . 3. Como α 64,1%90 cZ 4. 39,0 40 5,1 64,1 n ZE c . 5. 11,3239,05,32Ex 89,3239,05,32Ex O intervalo de confiança para a média populacional é [ ExEx ; ]= [32,11 ; 32,89]. Portanto, há 90% de probabilidade que o intervalo de confiança 89,3211,32 contenha a média real da vida útil das baterias. Observação: Depois de construir o intervalo de confiança, é importante que o resultado seja corretamente interpretado. Voltando no último exemplo dado, onde n = 40, 5,1 , 5,32x e c = 90%, conseguimos determinar o intervalo de confiança 89,3211,32 para a média populacional. Uma vez que já existe, ou ela está no intervalo ou não. “É incorreto afirmar que há 90% de probabilidade de que a média real da vida útil das baterias esteja no intervalo (32.11, 32.89)”. A maneira correta é “há 90% de probabilidade que o intervalode confiança descrito contenha a média real da vida útil das baterias”. Isso também significa, naturalmente, que existem 10% de probabilidade de que o intervalo de confiança não contenha . Observe que, quanto maior o nível de confiança, maior será o intervalo. Aumentando o intervalo, a precisão da estimativa diminui. Uma forma de aumentar a precisão de uma estimativa sem a redução do nível de confiança α é ampliar o tamanho da amostra. 5 Valores de Z para os níveis de confiança mais usados na prática: . 1.2 INTERVALO DE CONFIANÇA PARA MÉDIA – AMOSTRAS 30n E DESVIO PADRÃO DESCONHECIDO A distribuição t de Student Willian S. Gosset (1876 - 1937) desenvolveu a distribuição t em Dublin, Irlanda. Gosset publicou seus achados usando o pseudônimo de Student. Em muitas situações da vida real, o desvio padrão populacional é desconhecido. Além disso, em função de fatores como tempo e custo, não é prático colher amostras de tamanho 30 ou mais. Nesse caso, como construir intervalos de confiança para a média populacional? Se a variável aleatória é normalmente distribuída, a distribuição amostral para x é uma distribuição t. Por exemplo: Sabendo-se que uma amostra tem 15 elementos, que a sua média 120 e desvio padrão igual a 10. Represente um intervalo de confiança em nível de 95%. Como a amostra é menor que 30 elementos, então iremos usar a distribuição t de Student, de acordo com a tabela t de Student, conseguimos determinar que o intervalo de confiança nesse caso é 54,12546,114 (Veremos como determinar esse intervalo a seguir). Portanto, há 95% de probabilidade que o intervalo de confiança 54,12546,114 contenha a média real desejada. A distribuição t de Student Definição: Se a distribuição de uma variável aleatória x é aproximadamente normal e 30n , então a distribuição amostral de x é uma distribuição t de Student, onde n s x t . Os valores críticos de t são denotados por ct . Diversas propriedades da distribuição t estão relacionadas a seguir: 1. A distribuição t tem a forma de sino e é simétrica em torno da média. 2. A distribuição t é uma família de curvas, cada uma delas determinada por um parâmetro chamado grau de liberdade (g.l). Os graus de liberdade são os números de escolhas livre deixada após uma amostra estatística tal como x ter sido calculada. Quando se usa uma distribuição t para estimar uma média populacional, o número de graus de liberdade é igual ao tamanho da amostra menos 1, ou seja, g.l = n – 1. 3. A área total sob uma curva t é 1 ou 100%. 4. A média, a moda e a mediana da distribuição t são iguais a zero. 5. Quando o número de graus de liberdade cresce, a distribuição tende para a distribuição normal. Após 30 graus de liberdade a distribuição t está muito próxima da distribuição normal padrão z. Nível de confiança / 2 Z 90% 0,10 0,05 1,65 95% 0,05 0,025 1,96 99% 0,01 0,005 2,58 6 Vamos aprender agora como determinar o intervalo de confiança se 30n . ORIENTAÇÕES GERAIS Construindo um intervalo de confiança para a média: distribuição t 1. Obtenha as estatísticas amostrais n e x e s. Lembre que n x x ou n fx x ii e 1 )( 2 n xx s i ou 1 )( 2 n fxx s ii . 2. Identifique o grau de liberdade g.l = n – 1 , o nível de confiança α e o valor critico ct . 3. Determine o erro máximo de estimativa n s tE c . 4. Determine o extremo esquerdo Ex e o extremo direito Ex e forme o intervalo de confiança para a média ExEx ou [ ExEx ; ] Exemplo: Você seleciona ao acaso 16 restaurantes e mede a temperatura do café vendido em cada uma. A temperatura média amostral é de 162°F, com um desvio padrão amostral de 10°F. Obtenha o intervalo de confiança de 95% para a temperatura média. Solução: Uma vez que o tamanho da amostra é 16 < 30, pode-se usar a distribuição t de Student. n = 16, 162x e 10s . g.l = 16 – 1 = 15; α= 0,95; 131,2ct 3275,5 16 10 131,2 n s tE c 6725,1563275,5162Ex 3275,1673275,5162Ex O intervalo de confiança para a média populacional é 33,16767,156 ou [156,67;167,33] Portanto, com 95% de confiança, pode-se afirmar que o Intervalo de Confiança [156,67;167,33] contenha a temperatura média do café. EXERCÍCIOS: INTERVALO DE CONFIANÇA PARA A MÉDIA POPULACIONAL 1) O dono de um café quer calcular o lucro médio diário por cliente. Numa amostra de 100 clientes verificou que o gasto médio por cliente era de 350 unidades monetárias (u.m.), sendo o desvio padrão dessa amostra de 75 u.m.. Estime um intervalo de confiança para o verdadeiro gasto médio com 90% de confiança. 2) Um mini-mercado pretende estimar o número médio de litros de água que vende diariamente, para efeitos de controlo de encomendas a fornecedores. Ao fim de 20 dias de negócio, verificou que em média vendia 32 litros de água/dia, sendo o desvio padrão desta amostra igual a 12 litros. Admitindo a normalidade, calcule os limites de confiança para um grau de confiança de 95%. 7 3) Com a finalidade de estimar o peso médio (em quilos) das crianças de 15 anos de idade em determinada região geográfica, selecionaram-se aleatoriamente 10 crianças que forneceram uma média de 38.4 quilos e um desvio padrão de 5.5 quilos. Admitindo a normalidade. Determine um intervalo de confiança a 95% para o peso médio de todas as crianças. 4) Não se conhece o consumo médio de combustível de automóveis da marca T. Na análise de 100 automóveis da marca T, obteve-se consumo médio de combustível de 8 km/l e desvio padrão de 10 km/l. Encontre um intervalo de confiança para o consumo médio de combustível dessa marca de carro. Adote um coeficiente de confiança igual a 95%. 5) Deseja-se estimar o tempo médio de estudo (em anos) da população adulta de um município. Sabe-se que o tempo de estudo tem distribuição normal. Foram entrevistados n = 25 indivíduos, obtendo-se para essa amostra, um tempo médio de estudo igual a 10,5 anos com desvio padrão igual a 2,5 anos. Obter um intervalo de 90% de confiança para o tempo médio de estudo populacional. 6) Dada a distribuição a seguir, pede-se para construir o intervalo de confiança para a média ao nível de 95% Classes 2,2 6,2 6,2 10,2 10,2 14,2 14,2 18,2 Fi 3 4 5 3 7) Um conjunto, composto por 10 animais em experiência, foi alimentado com uma dieta especial durante certo tempo e verificou-se que os aumentos de peso foram: 25 – 22 – 30 – 26 – 24 – 39 – 32 – 26 – 32 – 33. Encontrar os limites de confiança para a média , ao nível de confiança de 90%. 8 1.3 INTERVALO DE CONFIANÇA PARA A PROPORÇÃO POPULACIONAL O procedimento de construção do intervalo de confiança para a proporção populacional é totalmente análogo ao do intervalo de confiança para a média de uma população normal com variância conhecida, visto anteriormente. Assim, iremos usar a seguinte notação: : proporção ou frequência relativa na amostra; p: proporção alegada para a população; q = 1−p. Se p é a proporção favorável (sucesso) na população, q será a proporção desfavorável (fracasso); n: tamanho da amostra. Na ausência de encontra-se fazendo, n x . Calculamos a margem de erro: E em seguida construímos o Intervalo de Confiança: Em uma pesquisa com 1068 hóspedes, 673 informaram ter preferência em ver filmes na TV a cabo. Determine a estimativa intervalar de todos os hóspedes do hotel. Exercícios: 91.4 TÉCNICAS DE AMOSTRAGEM O que é? É o estudo de um pequeno grupo de elementos retirado de uma população que se pretende conhecer. Esses pequenos grupos retirados da população são chamados de Amostras. Por que realizar um estudo por amostragem? Como a amostragem considera apenas parte da população, diferentemente de um censo, o tempo para análise e o custo são menores, além de ser mais fácil e gerar resultados satisfatórios. Quando não se deve realizar um estudo por amostragem? Quando o tamanho da amostra é grande em relação ao tamanho da população, ou quando se exige o resultado exato, ou quando já se dispõe dos dados da população, é recomendado realizar um censo, que considera todos os elementos da população. A partir das três perguntas anteriores, vamos aprender a realizar um estudo por amostragem, conhecendo suas diferentes técnicas. Para realizar um estudo por amostragem, a amostra deve ser representativa da população estudada. Para isso, existem técnicas adequadas para cada tipo de situação. Veremos a seguir as principais técnicas de amostragem, divididas em probabilísticas e não-probabilísticas: Técnicas Probabilísticas As técnicas probabilísticas garantem a possibilidade de realizar afirmações sobre a população com base nas amostras. Normalmente, todos os elementos da população possuem a mesma probabilidade de serem selecionados. Assim, considerando N como o tamanho da população, a probabilidade de cada elemento ser selecionado será 1/N. Estas técnicas garantem o acaso na escolha. São técnicas probabilísticas: 10 Amostragem Aleatória Simples É o processo mais elementar e freqüentemente utilizado. Pode ser realizado numerando-se os elementos da população de 1 a n e sorteando-se, por meio de um dispositivo aleatório qualquer, X números dessa seqüência, que corresponderão aos elementos pertencente à amostra. Exemplo Obter uma amostra representativa, de 10%, de uma população de 200 alunos de uma escola. 1º) Numerar os alunos de 1 a 200; 2º) Escrever os números de 1 a 200 em pedaços de papel e colocá-los em uma urna; 3º) Retirar 20 pedaços de papel, um a um, da urna, formando a amostra da população. Nesta técnica de amostragem, todos os elementos da população têm a mesma probabilidade de serem selecionados: 1/N, onde N é o número de elementos da população. Amostragem Estratificada Quando a população possui características que permitem a criação de subconjuntos, as amostras extraídas por amostragem simples são menos representativas. Nesse caso, é utilizada a amostragem estratificada. Como a população se divide em subconjuntos, convém que o sorteio dos elementos leve em consideração tais divisões, para que os elementos da amostra sejam proporcionais ao número de elementos desses subconjuntos. Observe a figura abaixo: Exemplo Em uma população de 200 alunos, há 120 meninos e 80 meninas. Extraia uma amostra representativa, de 10%, dessa população. 11 Nesse exemplo, há uma característica que permite identificar 2 subconjuntos, a característica Sexo. Considerando essa divisão, vamos extrair a amostra da população. SEXO POPULAÇÃO AMOSTRA (10%) Masculino 120 12 Feminino 80 8 Total 200 20 Portanto, a amostra deve conter 12 alunos do sexo masculino e 8 do sexo feminino, totalizando 20 alunos, que correspondem a 10% da população. Para selecionar os elementos da população para formar a amostra, podemos executar os seguintes passos: 1º) Numerar os alunos de 1 a 200, sendo os meninos numerados de 1 a 120 e as meninas, de 121 a 200; 2º) Escrever os números de 1 a 120 em pedaços de papel e colocá-los em uma urna A; 3º) Escrever os números de 121 a 200 em pedaços de papel e colocá-los em uma urna B; 4º) Retirar 12 pedaços de papel, um a um, da urna A, e 8 da urna B, formando a amostra da população. São exemplos desta técnica de amostragem as pesquisas eleitorais por região, cidades pequenas e grandes, área urbana e área rural, sexo, faixa etária, faixa de renda, etc. Amostragem Sistemática Esta técnica de amostragem em populações que possuem os elementos ordenados, em que não há a necessidade de construir um sistema de referência. Nesta técnica, a seleção dos elementos que comporão a amostra pode ser feita por um sistema criado pelo pesquisador. Exemplo Obter uma amostra de 80 casas de uma rua que contém 2000 casas. Nesta técnica de amostragem, podemos realizar o seguinte procedimento: 1º) Como 2000 dividido por 80 é igual a 25, escolhemos, por um método aleatório qualquer, um número entre 1 e 25, que indica o primeiro elemento selecionado para a amostra. 2º) Consideramos os demais elementos, periodicamente, de 25 em 25. Se o número sorteado entre 1 e 25 for o número 8, a amostra será formada pelas casas: 8ª, 33ª, 58ª, 83ª, 108ª, etc. 12 Apesar de esta técnica ser de fácil execução, há a possibilidade de haver ciclos de variação, que tornariam a amostra não-representativa da população. Amostragem por Conglomerados Esta técnica é usada quando a identificação dos elementos da população é extremamente difícil, porém pode ser relativamente fácil dividir a população em conglomerados (subgrupos) heterogêneos representativos da população global. A seguir, é descrito o procedimento de execução desta técnica: 1º) Seleciona uma amostra aleatória simples dos conglomerados existentes; 2º) Realizar o estudo sobre todos os elementos do conglomerado selecionado. São exemplos de conglomerados: quarteirões, famílias, organizações, agências, edifícios, etc. Exemplo Estudar a população de uma cidade, dispondo apenas do mapa dos quarteirões da cidade. Neste caso, não temos a relação dos moradores da cidade, restando o uso dos subgrupos heterogêneos (conglomerados). Para realizar o estudo estatístico sobre a cidade, realizaremos os seguintes procedimentos: 1º) Numerar os quarteirões de 1 a n; 2º) Escrever os números de 1 a n em pedaços de papel e colocá-los em uma urna; 3º) Retirar um pedaço de papel da urna e realizar o estudo sobre os elementos do conglomerado selecionado. Técnicas Não-Probabilísticas (não-aleatórias) São técnicas em que há uma escolha deliberada dos elementos da população, que não permite generalizar os resultados das pesquisas para a população, pois amostras não garantem a representatividade desta. São técnicas não-probabilísticas: Amostragem Acidental Trata-se da formação de amostras por aqueles elementos que vão aparecendo. Este método é utilizado, geralmente, em pesquisas de opinião, em que os entrevistados são acidentalmente escolhidos. Exemplo Pesquisas de opinião em praças públicas, ruas movimentadas de grandes cidades, etc. 13 Amostragem Intencional De acordo com determinado critério, é escolhido intencionalmente um grupo de elementos que comporão a amostra. O pesquisador se dirige intencionalmente a grupos de elementos dos quais deseja saber a opinião. Exemplo Em uma pesquisa sobre preferência por determinado cosmético, o pesquisador entrevista os freqüentadores de um grande salão de beleza. 14 1.5 CÁLCULO DO TAMANHO DA AMOSTRA Para as mesmas amostras estatísticas, a medida que o nível de confiança cresce, o intervalo de confiança se alarga. Mas, a medida que o intervalo de confiança se alarga, a precisão da estimativa diminui. Uma forma de aumentar a precisão de uma estimativa sem a redução do nível de confiança é ampliar o tamanho da amostra. Mas quando precisamos aumentar a amostra para assegurar certo nível de confiança para um determinado erro máximo de estimativa? A respostaestá na análise correta da fórmula usada para calcular o erro E. n ZE c 1.5.1 DETERMINAÇÃO DO TAMANHO DA AMOSTRA PARA MÉDIA Dado um nível de confiança e um erro máximo de estimativa, o tamanho da amostra necessária para estimar a média populacional é: OBS: Aproximar sempre para o maior inteiro e observa-se que o tamanho da amostra depende do grau de confiança desejado, da margem de erro pretendida e do σ. Exemplo: Consultando o IBGE verificou-se que o desvio padrão da altura dos homens adultos no Brasil é de 8 cm. Qual deve ser o tamanho mínimo que deve ter uma amostra de homens brasileiros para que o erro cometido ao estimar a altura média seja de 1 cm com um nível de confiança de 90%? Observe que precisamos entrar com o valor do escore Z=1,65 (observado em tabela) correspondente ao nível de confiança de 90%. Logo pela fórmula o valor do tamanho mínimo da amostra que é de 173 habitantes. Exercício: 1) Qual o tamanho de amostra necessária para se estimar a média de uma população infinita cujo desvio padrão é igual a 4, com 99% de confiança e erro de 0,5? 2) Um economista deseja estimar a renda média para o primeiro ano de trabalho de um bacharel em direito. Quantos valores de renda devem ser tomados, se o economista deseja ter 95% de confiança em que a média amostral esteja a menos de R$500,00 da verdadeira média populacional? Suponha que saibamos, por um estudo prévio, que para tais rendas, o desvio padrão é de R$6250,00. 3) Baseado nos dados do exercício 2, utilize a margem de erro de R$1.000,00 e determine qual seria o tamanho da amostra necessário nesta situação. 15 1.5.2 DETERMINAÇÃO DO TAMANHO DA AMOSTRA PARA PROPORÇÃO Para determinar o tamanho necessário da amostra a fim de achar o valor aproximado de uma proporção populacional devemos utilizar a Margem de Erro e resolver para n. Quando se conhece a Estimativa o tamanho da amostra é dado por: Quando não se conhece a estimativa considera-se: Assim o tamanho da amostra será: Exemplo •Um instituto de pesquisas quer estimar, com margem de erro de três pontos percentuais, a percentagem de eleitores que pretendem votar “sim” em determinado referendo. Com nível de confiança de 95%, quantos eleitores devem ser pesquisados? a) Supor que se tenha uma estimativa de estudo anterior, mostrando que 18% dos eleitores vão votar “sim”; b) Supor não haver qualquer estimativa. Solução: a) b) 16 Exercícios: 1) Uma amostra de 300 habitantes de uma grande cidade revelou que 180 desejavam a fluoração da água. Encontre o intervalo de confiança para a verdadeira proporção dos que não desejam a fluoração da água: (a) para um nível de significância de 5%; (b) para um nível de confiança de 96%. 2) Para estudar a viabilidade de lançamento de um novo produto no mercado, o gerente de uma grande empresa contrata uma firma de consultoria estatística para estudar a aceitação do produto entre os clientes potenciais. O gerente deseja obter uma estimativa com erro máximo de 1% com nível de confiança de 90% e pede ao consultor estatístico que forneça o tamanho de amostra necessário. a) De posse das informações dadas, o consultor calcula o tamanho da amostra necessário levando em conta que a população está dividida meio-a-meio em suas preferências. Qual o tamanho de amostra obtido pelo consultor? b) O gerente acha que o custo de tal amostra seria muito alto e autoriza o consultor a realizar um estudo piloto com uma amostra de 100 pessoas para obter uma estimativa da verdadeira proporção. O resultado desse estudo piloto é uma estimativa = 0, 76 de aceitação do novo produto. Com base nessa estimativa, o consultor recalcula o tamanho da amostra necessário. Qual é esse tamanho? c) Selecionada a amostra com o tamanho obtido no item anterior, obteve-se uma proporção de 72% de clientes favoráveis ao produto. Construa um intervalo de confiança para a verdadeira proporção com nível de confiança de 90%. 3) Uma associação de estudantes universitários de uma grande universidade deseja saber a opinião dos alunos sobre a proposta da reitoria a respeito do preço do bandejão. Para isso, seleciona aleatoriamente uma amostra de 200 estudantes, dos quais 120 são favoráveis à proposta da reitoria. a) Construa um intervalo de confiança para a verdadeira proporção de alunos favoráveis à política da reitoria, ao nível de significância de 1%. b) Qual é a margem de erro em (a)? c) Qual deverá ser o tamanho da amostra para se ter um erro de, no máximo, 5% com nível de confiança de 99%? 17 2. TESTE DE HIPÓTESE Trata-se de uma técnica para se fazer inferência estatística. Ou seja, a partir de um teste de hipóteses realizado com os dados amostrais, pode-se fazer inferências sobre a população. Hipóteses estatísticas são suposições feitas sobre o valor dos parâmetros (média, desvio padrão) nas populações. Muitos problemas requerem que determinemos entre aceitar ou rejeitar uma afirmação acerca de algum parâmetro. A afirmação é chamada de hipótese e o procedimento de tomada de decisão sobre a hipótese é chamado de teste de hipóteses. TIPOS DE HIPÓTESES: As hipóteses estatísticas sempre comparam dois ou mais parâmetros, quer afirmando que são iguais, quer que não são. São de dois tipos: Ho: hipóteses a ser testada, ou também chamada de hipóteses nula. É sempre a primeira a ser formulada. H1: hipótese alternativa (Ha), é a hipóteses contrária à hipóteses nula. É a que o pesquisador quer ver confirmada. O teste de hipóteses é um procedimento estatístico pelo qual ser rejeita ou não uma hipótese, associando à conclusão um risco máximo de erro. 2.1 TESTE DE HIPÓTESE PARA MÉDIA (Μ) POPULACIONAL COM VARIÂNCIA CONHECIDA E n ≥ 30. Como o teste é para média de populações normais com variância conhecida, usaremos a variável Z: N(0,1) como critério, ou seja, a Distribuição Normal. A maioria dos Testes de hipóteses envolvendo médias é bilateral, isto é, testa a hipóteses nula onde há ausência de diferença contra a alternativa de que existe uma diferença entre as médias. Ho: o H1: o Há casos, porém, em que somente haverá interesse prático se μ for menor ou maior do que μo. neste caso temos os testes unilaterais. - Unilateral a direita - Unilateral a esquerda Ho: o Ho: o H1: o H1: o ESTRUTURA DO TESTE DE HIPÓTESES: 18 Para executarmos o teste de hipóteses, podemos estabelecer alguns passos, sendo: 1. Formulação de H0 e H1; 2. Escolha de uma distribuição amostral adequada; 3. Escolha de um nível de significância e definição da região crítica; 4. Cálculo de uma estatística de teste; 5. Comparação do valor teste com a região crítica; 6. Rejeitar H0 se o valor teste excede a região crítica ou aceitar em caso contrário. ESTATÍSTICA DE TESTE A Estatística de Teste é o cálculo do coeficiente “z” que, então no passo 5 será comparado com a região crítica. Quando o desvio padrão da população é conhecido, utilizaremos a distribuição normal Z: onde: Ζ = estatística de teste х = média obtida na amostra μ = média da população σ= desvio padrão da população n = número de elementos na amostra 2.2 TESTE DE HIPÓTESE PARA MÉDIA (Μ) POPULACIONAL COM VARIÂNCIA DESCONHECIDA E n<30. Segue-se a mesma estrutura do Teste anterior, porém quando o desvio padrão da população não é conhecido, ou seja,como desconhecemos σ, iremos trabalhar com S, que é o desvio padrão da amostra; e também com t quando a amostra for menor que 30, pois, usaremos a distribuição t de Student. onde: t = estatística de teste х = média obtida na amostra μ 0 = média esperada da população S = desvio padrão da população n = número de elementos na amostra 19 Exercícios: Teste de Hipótese para Média populacional 1) Uma amostra de 25 valores foi selecionada, chegando a uma média amostral x igual a 11,3. a) Poderia esta média amostral ter sido obtida de uma população com média μ=10 e variância σ²=16? Adotando-se 5% de significância. b) Poderia esta média amostral ter sido obtida de uma população com média μ maior 10 e variância σ²=16? Adotando-se 5% de significância. 2) Os sistemas de escapamentos de uma aeronave funcionam devido a um propelente sólido. A taxa de queima desse propelente é uma característica importante do produto. Um técnico da qualidade seleciona uma amostra aleatória de n=25 e obtém uma taxa média amostral de queima de X = 51,3 cm/s. As especificações requerem que a taxa média de queima seja de 50 cm/s. Sabemos que o desvio padrão da taxa de queima é de 2 cm/s. Teste a hipótese de que a taxa média de queima seja igual a 50 cm/s usando um nível de significância de 0,05. 3) Está sendo proposta uma dieta que visa a reduzir o nível de colesterol sangüíneo. De uma população em que o nível médio é 262 mg/mL e o desvio padrão, 70 mg/dL, é selecionada uma amostra de 20 pessoas que se submetem a esta dieta. Ao final de certo tempo, o nível de colesterol é medido nessas pessoas e a média é 233 mg/mL. Pode-se afirmar que a dieta produziu realmente uma redução no colesterol sangüíneo ou a diferença deve ser atribuída ao acaso, ao nível significância de 5%? 4) Um fabricante de lajotas de cerâmica introduz um novo material em sua fabricação e acredita que aumentará a resistência média, que é de 206 kg. A resistência das lajotas tem distribuição normal, com desvio padrão de 12 kg. Retira-se uma amostra de 30 lajotas, obtendo-se X’ =210 kg. Ao nível de 10%, pode o fabricante aceitar que a resistência média de suas lajotas tenha aumentado? 5) Um fabricante de linha de pesca afirma que sua linha do “teste 5Kg” resiste ao “teste 7 Kg”. Se uma amostra de 20 linhas do “teste 5 Kg” teve média de ruptura de 6,5 Kg com desvio padrão de 3,9 kg, podemos aceitar a alegação do fabricante, ao nível significância de 5%? 20 2.3 TESTES DE HIPÓTESES PARA UMA PROPORÇÃO Definição: Assim como no Teste de Hipóteses para a Média, é uma regra de decisão utilizada para aceitar ou rejeitar uma hipótese estatística com base em elementos amostrais. A diferença é que, enquanto no Teste para Médias os dados amostrais se apresentam através de medidas, no Teste para Proporções os dados se apresentarão na forma de percentagem (ou proporção) de elementos com uma determinada característica, que será testada em relação à percentagem alegada para a população. Por exemplo: proporção para uma determinada doença, proporção de peças defeituosas, proporção de eleitores de um candidato, proporção de pessoas que possuem DVD em uma cidade, etc. Teremos então nos Testes para Proporções as seguintes Hipóteses: 1) Para o teste Bicaudal ou Bilateral: Hipótese Nula H 0 : p = p 0 Hipótese Alternativa H 1 : p ≠ p 0 Onde: p 0 é o valor alegado para a proporção populacional. 2) Para o teste Unicaudal ou Unilateral à direita Hipótese Nula H 0 : p = p 0 Hipótese Alternativa H 1 : p > p 0 3) Para o teste Unicaudal ou Unilateral à esquerda Hipótese Nula H 0 : p = p 0 Hipótese Alternativa H 1 : p < p 0 A principal diferença entre os dois testes é que no Teste de Hipóteses para a Média precisávamos nos preocupar com o tamanho da amostra e se era conhecida ou não a variância populacional para decidir se usávamos a Tabela Normal ou a Tabela t-Student. Já no Teste de Hipóteses para Proporções não precisamos nos preocupar com isso, pois para encontrar o valor tabulado a ser comparado com o valor calculado (estatística teste) usaremos sempre a TABELA DA DISTRIBUIÇÃO NORMAL PADRÃO. Cálculo da estatística teste (Zt): : proporção ou freqüência relativa na amostra; p: proporção alegada para a população; q = 1−p. Se p é a proporção favorável (sucesso) na população, q será a proporção desfavorável (fracasso); n: tamanho da amostra. O procedimento de teste para proporção usa a estatística de teste a seguir: Na ausência de encontra-se fazendo, n x . OBS: Os passos para testar a hipótese segue os mesmos para teste de hipótese da média. 21 Exemplo: O consumidor está desconfiado do fabricante que diz que apenas 20% das unidades fabricadas apresentam defeito. Para confirmar sua suspeita, o consumidor usou uma amostra de tamanho 50, onde 27% das unidades eram defeituosas. Mostre como o fabricante poderia refutar a acusação usando um nível de significância de 10%. Exercícios: Teste de hipótese para uma proporção 1) Um fabricante alega que apenas 2% das peças que ele fornece estão abaixo das condições ordinárias de utilização. Em 200 peças selecionadas aleatoriamente, encontrou- se 10 falhas. A alegação do fabricante é aceitável ao nível de 5%? 2) As condições de mortalidade de uma região são tais que a proporção de nascidos que sobrevivem até 60 anos é de 0,6. Testar essa hipótese ao nível de 5% se em 1.000 nascimentos amostrados aleatoriamente, verificou-se 530 sobreviventes até 60 anos. 3) Um jornal alega que 25% dos seus leitores pertencem a classe A. Se em uma amostra de 740 leitores encontramos 156 de classe A, qual sua decisão a respeito da veracidade da alegação veiculada pelo jornal? Considere um nível de significância de 5%. 4) Uma pesquisa conclui que 90% dos médicos recomendam aspirina a pacientes que têm dor de cabeça crônica. Teste a afirmação, ao nível de significância de 0,05, contra a alternativa de que a percentagem é inferior a 90%, se numa amostra aleatória de 100 médicos, 80% recomendam aspirina. 5) Um fabricante de doces afirma que a percentagem de embalagens de pastilhas de chocolate mal cheias é, no máximo, igual a 3%. Uma pesquisa aleatória acusa 8% de embalagens mal cheias. Considerando uma significância de 0,05, a evidência amostral refuta a alegação do fabricante, isto é, mais de 3% de embalagens mal cheias? 6) Um produtor de morangos afirma que 85 % de sua produção não contém agrotóxicos, estando assim dentro dos limites do ministério da agricultura. Numa amostra de 50 caixas de morango constatou-se agrotóxicos em 10 caixas. Considerando um valor crítico para 5 %, determinar se o produtor está certo em sua afirmação. 7) Um fabricante afirma que 5% dos equipamentos que fornece à indústria encontram-se fora de suas especificações. Uma amostra de 200 itens escolhidos ao acaso revelou 20 itens fora de especificação. A alegação do fabricante é aceitável ao nível de 10%? 22 3. CORRELAÇÃO Introdução: Quando consideramos, observações de duas ou mais variáveis, surge um problema: as relações que podem existir entre elas. Quando consideramos variáveis como peso e altura de um grupo de pessoas, uso de cigarros incidência de câncer, vocabulário e compreensão da leitura, entre outros, procuramos verificar se existe alguma relação entre os pares de variáveis estudada, e qual o grau dessa relação. Sendo a relação das variáveis de natureza quantitativa, a correlação é o instrumento adequado para descobrir e medir essa relação. Uma vez caracterizada a relação, a regressão é a função matemática adequadapara a determinação dos parâmetros dessa função. 1. Relação funcional Neste tipo de relação a ligação entre as variáveis é exata, veja o exemplo: O perímetro de um quadrado é exatamente a soma da dimensão de seus quatro lados, logo: P=4.L Onde: P – é o perímetro L – é a medida do lado do quadrado Vemos que esta relação é exata, portanto, é uma relação funcional. 2. Relação Estatística Aqui existe uma relação entre as variáveis que não é exata, mas sim estatística, veja o exemplo: A relação entre o peso e a altura de um grupo de pessoas. Vemos claramente que a ligação entre peso e altura não é precisa quanto à ligação entre os lados do quadrado e seu perímetro, porém, em média quanto maior a altura, maior o peso. Quando duas variáveis estão relacionadas por uma relação estatística, dizemos que existe correlação entre elas. 3. Diagrama de dispersão Uma maneira de visualizar a (possível) correlação entre as observações de duas variáveis, é através do diagrama de dispersão. O diagrama de dispersão é um gráfico onde pontos no espaço cartesiano XY são usados para representar simultaneamente os valores de duas variáveis quantitativas medidas em cada elemento do conjunto de dados. Ele é muito útil para comparar dados, como antes e depois. 4. Correlação Linear 23 Uma correlação pode ser: a) Linear positiva se os pontos do diagrama tem como imagem uma reta ascendente; b) Linear negativa se os ponto têm como imagem uma reta descendente; c) Não-linear se os pontos têm como imagem uma curva. Se os pontos apresentam-se disperso, não oferecendo uma imagem definida, concluímos que não há relação entre as variáveis em estudo. Temos então os seguintes diagramas: 5. Coeficiente de Correlação Linear O instrumento empregado para a medida da correlação linear é o coeficiente de correlação. Esse coeficiente deve indicar o grau de intensidade da correlação entre duas variáveis e, ainda, o sentido dessa correlação (positivo ou negativo). Esta medida e também chamada de coeficiente de correlação de Pearson, que é dado por: Onde n é o número de observações. O valor de r estar sempre entre 1 e -1, ou seja −1 ≤ r ≤ 1 Se r está próximo de 1, há uma forte correlação positiva. Se r está próximo a –1, há uma forte correlação negativa. Se r está próximo de 0, não há correlação linear. A partir dos valores de r podemos verificar o tipo da correlação existente entre as variáveis estudadas, conforme tabela seguinte: Valor de r Correlação 0,0 nula 0,0 ----| 0,3 fraca 0,3 ----| 0,6 media 0,6 ----| 0,9 forte 0,9 ----| 0,99 fortíssima 1,0 perfeita Ao observarmos o diagrama, vemos que os pontos formam uma elipse, quanto mais fina esta elipse, mais ela se aproximará de uma reta, assim chamada de correlação linear. 24 Para obter os somatórios da equação r procede-se da seguinte maneira: ∑(x.y): fazem-se os produtos x.y, referente a cada par de observações e depois efetua-se a soma. ∑ x: somam-se os valores da variável x. ∑ y: somam-se os valores da variável y. ∑ x²: elevam-se ao quadrado cada valor de x e, depois, efetua-se a soma. ∑ y²: elevam-se ao quadrado cada valor de y e, depois efetua-se a soma. (∑ x)²: somam-se os valores da variável x e depois eleva ao quadrado. (∑ y)²: somam-se os valores da variável y e depois eleva ao quadrado. Exercício: 1) A tabela abaixo mostra o resultado de uma pesquisa com 10 famílias de determinada região. Famílias Renda (R$) Poupança (R$) Nº de Filhos Média de Anos de Estudo da família A 10 4 8 3 B 15 7 6 4 C 12 5 5 5 D 70 20 1 12 E 80 20 2 16 F 100 30 2 18 G 20 8 3 8 H 30 8 2 8 I 10 3 6 4 J 60 15 1 8 a) Calcular ao coeficiente de correlação Linear entre a renda familiar e a poupança. Solução: RENDA (Y) POUPANÇA (X) X2 Y2 XY 10 4 16 100 40 15 7 79 225 105 12 5 25 144 60 70 20 400 4.900 1.400 80 20 400 6.400 1.600 100 30 900 10.000 3.000 20 8 64 400 160 30 8 64 900 240 10 3 9 100 30 60 15 225 3.600 900 y =407 x =120 x2=2.152 y2=26.769 xy=7.535 Aplicando na Fórmula : r = (10 x 7.535 )– (120 x 407 = 0,9835 √(10x2.152) – 1202 √10x26.769 -4072 25 Existe uma forte correlação linear entre renda e a poupança familiar. O sinal do coeficiente mostra que as duas variáveis variam no mesmo sentido. b) Calcular o coeficiente de correlação linear entre renda e número de filhos para as dez famílias. c) Calcular o coeficiente de correlação linear entre número de filhos e anos de estudo. d) Calcular o coeficiente de correlação linear entre poupança e número de filhos. 4. REGRESSÃO ESTATÍSTICA Quando duas variáveis possuem certo grau de relacionamento (verificado pela correlação), podemos aplicar a análise de regressão que vai nos permitir descrever através de um modelo matemático, a relação entre duas variáveis, partindo de n observações das mesmas. Já que foi estabelecido uma relação linear e uma boa correlação entre as variáveis deve-se agora determinar uma formula matemática para prever os resultados de y dado os valores de x. Chama-se esta relação de regressão, ou seja, a regressão, em geral, trata da questão de se estimar um valor condicional esperado. Para executarmos a regressão, as variáveis serão divididas em variável dependente e variável independente. Para o eixo x, indicamos a variável independente e para o eixo y, a dependente. A regressão linear que é um modelo adequado quando encontramos disposições dos pontos conforme os da figura abaixo: Descrevemos a equação linear através da fórmula y = a + bx. Y= valor calculado na reta de regressão para os valores de x a = ordenada do intercepto da reta no eixo y b= coeficiente angular da reta de regressão Os diferentes valores observados representados pela figura acima serão ajustados através da técnica dos mínimos quadrados que permitem ajustar a melhor reta para o conjunto de pontos dados. Os valores de b e a são sinteticamente determinados pelas fórmulas: onde X é o valor médio da variável x, e Y é o valor médio da variável y. que é calculado da seguinte forma: onde n é o número de observações dos dados amostrais. 26 EXEMPLO RESOLVIDO Considere-se a tabela seguinte, que apresenta o bônus recebido pelos funcionários de uma dada empresa, expresso em euros (variável y), e o respectivo tempo de serviço, em meses (variável x) a) Ajustar os dados através de um modelo linear. b) Para um funcionário com 45 meses de serviço, ambos os processos estimam um bônus de quantos euros? Solução: a) I –Determinar o valor do Parâmetro b b= (12)(89894) – (628)(1684) b= 1,138005 12 (34416) – (628)² II – Determinar o valor do Parâmetro a a = 1684 - 1,138005. 628 = 80,77773 12 12 III – Equação da Reta Ajustada y = a + bx y = 80,77773 + 1,138005 x 27 b) fazendo x = 45 y = 80,77773 + 1,138005 (45)=131,988 Para um funcionário com 45 meses de serviço, ambos os processos estimam um bônus de 131.988 € EXEMPLO RESOLVIDO Os dados abaixo referem-se ao volume de precipitação pluviométrica (mm) e ao volume de produção de leite tipo C (milhões de litros), em determinada região do país. c) Ajustar os dados através de um modelo linear d) Admitindo-se, em 1980, um índice pluviométrico de 24 mm, qual deverá ser o volume esperadode produção do leite tipo C? Anos Produção de leite (1.000.000 l) Índice Pluviométrico (mm) 1970 26 23 1917 25 21 1972 31 28 1973 29 27 1974 27 23 1975 31 28 1976 32 27 1977 28 22 1978 30 26 1979 30 25 Solução: Y X X2 XY 26 23 529 598 25 21 441 525 31 28 784 868 29 27 729 783 27 23 529 621 31 28 784 868 32 27 729 864 28 22 484 616 30 26 676 780 30 25 625 750 y = 289 x = 250 x2 =6.310 xy = 7.273 I –Determinar o valor do Parâmetro b b = (10x7.273)- (250x289) = 0,8 (10x6.310) - 2502 II – Determinar o valor do Parâmetro a 28 a = 289 - 0,8. 250 = 8,9 10 10 III – Equação da Reta Ajustada y = a + bx y = 8,9 +0,8x b) fazendo x = 24 mm temos: y = 8,9 +0,8x24 = 28,1. De acordo com o modelo, podemos esperar 28,1 milhões de litros produzidos para um índice pluviométrico de 24 mm. Exercícios: 1) Considere X o número de horas (em milhões) de trabalho na Construção Civil e Y o número de acidentes ocorridos. X 3 5 10 16 20 Y 12 13 17 22 25 a) Ajuste uma reta aos dados, ou seja, estabeleça a reta de regressão linear. b) Determine quantos acidentes (Y) poderão ocorrer para 14 milhões de horas trabalhadas. 2) A tabela abaixo apresenta os dados referentes à variação da demanda de um produto produzido (Y) em relação à variação do preço da venda (X): X 40 45 52 58 62 Y 320 305 290 280 275 a) Análise o diagrama de dispersão e interprete-o. b) Tendo Σx=257, Σy=1470, Σx²=13537, Σy²=433550 e Σx.y=74895, calcule o nível de correlação entre as variáveis em estudo. 3) Os dados a seguir correspondem à variável renda familiar e gasto com alimentação (em unidades monetárias) para uma amostra de 15 famílias. 260 280 300 320 340 0 50 100 29 Renda Familiar (X) Gasto com Alimentação (Y) 3 1,5 5 2,0 10 6,0 10 7,0 20 10,0 20 12,0 20 15,0 30 8,0 40 10,0 50 20,0 60 20,0 70 25,0 70 30,0 80 25,0 100 40,0 a) Construa o diagrama de dispersão da variável gasto com alimentação (Y) em função da renda familiar (X). b) Calcular o coeficiente de correlação entre essas variáveis. c) Obtenha a equação de regressão do gasto com alimentação em função da renda familiar.
Compartilhar