Baixe o app para aproveitar ainda mais
Prévia do material em texto
- -1 PROBABILIDADE E ESTATÍSTICA UNIDADE 3 - ESTIMAÇÃO DE PARÂMETROS Joelma Iamac Nomura - -2 Introdução Nesta unidade, vamos adentrar ao mundo da Estatística Inferencial ou Indutiva. Um dos principais objetivos dos estudos em Estatística é poder fazer generalizações seguras, baseadas em amostras ou sobre as populações das quais tais amostras foram extraídas. É preciso que você se recorde dos termos parâmetro e estatística. Os parâmetros são funções de valores populacionais e as estatísticas são funções de valores amostrais. Vamos trabalhar com amostras aleatórias porque elas permitem generalizações válidas ou lógicas. Assim, nosso objetivo é obter mecanismos para que possamos tirar conclusões probabilísticas sobre aspectos de uma população com base na amostra coletada, visando à tomada de decisões. Nesta unidade, você também irá conhecer vários termos novos, como: estimador, estimativa, nível de confiança, intervalo de confiança, grau de liberdade e uma nova distribuição probabilística muito semelhante à distribuição normal, a distribuição de .t-Student Ao final do estudo desta unidade, você poderá responder às seguintes questões: é possível determinar o provável risco que acompanha a tomada de decisão? O que se entende por nível de significância ou grau de confiança? Quais são os tipos de erros que podemos cometer ao tomar tais decisões? Dessa maneira, podemos considerar que vamos estudar as situações prováveis que tornam viável uma conclusão por meio de afirmações estatísticas. Vamos começar? Bons estudos! 3.1 Conceito Na Estatística Indutiva, estamos interessados em duas grandes áreas de estudo: a estimação de parâmetros de um problema e os testes de hipótese, em que o objetivo de ambas as áreas é conhecer o comportamento da população. Mas antes de adentrar ao assunto, vamos abordar um pouco os conceitos de estimador e estimativa. O primeiro termo corresponde a uma variável aleatória caracterizada por uma distribuição de probabilidade e seus parâmetros como média ou desvio-padrão. Já a estimativa corresponde a cada valor particular que pode assumir um estimador. De acordo com Morettin e Bussab (2010), em determinadas situações podemos ter mais de um valor estimado para um mesmo parâmetro e a finalidade é descobrir qual é o “melhor” deles. Dessa maneira, dado um parâmetro de interesse, como a média da população µ, ou sua proporção , o objetivo ép estimar o número que represente uma amostra ou uma população, de modo que esse número represente o valor real do parâmetro. Perceba que estamos tratando de um número que representa o parâmetro que caracteriza a população, chamado daqui para frente de estimativa pontual. 3.2 Estimativa pontual Para que seja calculado o valor do parâmetro (característica da população), torna-se necessário que o pesquisador obtenha dados de várias quantidades de amostras. Assim, o objetivo da estimativa pontual é selecionar um número com base em dados amostrais. Clique nos itens e conheça as notações adotadas. Parâmetro (θ) Média populacional (µ) Proporção populacional de “sucessos” (p) Contudo, conforme apontam Larson e Farber (2010), o problema da estimativa pontual é que raramente ela se - -3 Contudo, conforme apontam Larson e Farber (2010), o problema da estimativa pontual é que raramente ela se iguala ao parâmetro exato de uma população, o que nos obriga a fazer estimativas mais significativas a partir de um intervalo de valores que deverá conter o parâmetro populacional. 3.2.1 Estimação por pontos da média populacional A melhor estimativa para a média populacional é a média amostral dada por: . O uso da mediana somente ocorre quando o cálculo da média se torna impossível. 3.2.2 Estimação por pontos da variância populacional Para seu cálculo, é necessário conhecer a média populacional (µ). A estimação por pontos nessa situação é dada por: Ou quando as frequências estão envolvidas: Caso não tenhamos a média populacional, usamos a média amostral. Nesse caso, preste atenção no denominador da expressão que deverá ser substituído por . Assim, temos que: Ou , quando são apresentadas as frequências. 3.2.3 Estimação por ponto de uma proporção populacional Quando desejarmos estimar a proporção de elementos ( ) com determinada característica de certa população,p devemos usar a proporção, ou frequência relativa, ´ com que essa característica se dá na amostra. Essap estimação por pontos é dada por: A seguir, vamos estudar um teorema fundamental em Probabilidade e Estatística, o Teorema Central do Limite. Ele constitui o fundamento para a estimativa de parâmetros populacionais e o teste de hipóteses. De maneira intuitiva, sua ideia básica é na medida em que o tamanho da amostra aumenta, podemos afirmar que a distribuição amostral das médias amostrais tende para uma distribuição normal. Acompanhe com atenção! 3.3 Teorema Central do Limite Conforme aponta Freund (2006), quando recorremos a uma média amostral para estimar a média populacional estamos sujeitos a erros. Uma hipótese razoável para minimizar tais erros é estimar uma amostra n suficientemente grande, em que a curva normal adequada aproximará da distribuição real de . Este constitui no teorema mais importante de probabilidade. Devore (2018, p. 219) estabelece a seguinte definição: Seja uma amostra aleatória de uma distribuição com valor médio µ e desvio-padrão . Então, se for suficientemente grande, tem aproximadamente uma distribuição normal comn média e variância , e também tem aproximadamente uma distribuição normal com , . Quanto maior o valor de , melhor a aproximação.n - -4 Assim, conforme explica Devore (2018), quando for grande e queremos calcular uma probabilidade, tal como n , precisamos admitir que é normal, padronizá-la e usar a tabela de distribuição normal. O autor acrescenta que a resposta encontrada é aproximadamente correta. Na prática, o Teorema Central do Limite sempre é usado quando . Dessa maneira, ele justifica a aplicação da curva normal e aplica-se automaticamente à amostragem de populações infinitas ou finitas com reposição, tendo que o valor de da amostra, embora seja grande, corresponde a um valor pequeno dentro da população .n N Exemplo: “Com base no Teorema Central do Limite, qual é a probabilidade de o erro ser inferior a 5 quando usamos a média de uma amostra aleatória de tamanho para estimar a média de uma população infinita com ?” (FREUND, 2006, p. 256). Solução: devemos calcular a área sob a curva normal padronizada entre: e Pela tabela de distribuição normal, temos que as áreas correspondentes são: . Figura 1 - Distribuição amostral da média. Fonte: FREUND, 2006, p. 257. Assim, podemos concluir que a probabilidade é de 95,44% de que a média de uma amostra aleatória igual a de uma população difira por menos de 5 da média populacional. 3.4 Estimativas por intervalos Quando trabalhamos com uma estimativa pontual, não podemos assegurar a precisão e a confiabilidade da estimativa, uma vez que ela é representada por um único número. A alternativa para resolver esse problema é informar um intervalo inteiro de possíveis valores, que será chamado de estimativa intervalar ou intervalo de confiança (IC). Larson e Farber (2010, p. 252) apontam a seguinte definição: “uma estimativa intervalar é um intervalo, ou amplitude de valores, usado para estimar um parâmetro populacional”. Esse intervalo é calculado selecionando-se o nível de confiança que corresponde a uma medida do grau de confiabilidade do intervalo. Para os autores, “o nível de confiança é a probabilidade de que o intervalo estimado contenha o parâmetro populacional” (LARSON; FARBER, 2010, p. 252). Assim, em um exemplo que se propõe o cálculo da resistência à ruptura de uma amostra de tecido, cuja média é , a um nível de confiança de 95% para essa mesma resistência à ruptura, entende-se que a resistência pode transitar dentro do intervalo de 9162,5 e 9482,9. Resumindo, qualquer valor da média µ entre 9162,5 e 9482,9 é plausível. De acordo com Devore (2018), os níveis de confiançamais usados são 90%, 95% e 99% e seus z-escores - -5 De acordo com Devore (2018), os níveis de confiança mais usados são 90%, 95% e 99% e seus z-escores correspondentes são: e . Agora vamos analisar a seguinte figura. Figura 2 - Intervalos de confiança do teste de ruptura do tecido. Fonte: Elaborada pela autora, 2019. Perceba que, de acordo com a figura, para um intervalo de confiança maior, menos precisa será a análise estatística porque aceitaremos tudo o que pode ocorrer. Já em um intervalo de confiança menor, podemos assegurar que os dados são mais precisos, ou seja, maior é a qualidade da análise ou pesquisa estatística. 3.4.1 Intervalos de confiança para a média de uma população Para o estudo desta seção, vamos apresentar duas situações prováveis, quando (desvio-padrão populacional) é conhecido e quando é desconhecido. De maneira a iniciar a discussão, vamos tomar , tal que a área à sua direita sob a curva normal padrão é α e, portanto, a área sob a curva normal padrão entre e é igual a . De acordo com Devore (2018), o Teorema Central do Limite (TCL) em uma amostra suficientemente grande implica que tem uma distribuiçãon aproximadamente normal, qualquer que seja a natureza da distribuição da população. Nessa condição, temos que e e a probabilidade de que essa estimativa vá diferir para um ou para outro lado por, no máximo, . Esse valor corresponde ao erro máximo de estimativas ou erro amostral e ele nos garante o seguinte intervalo de confiança: ou Exemplo: um grupo de técnicos em eficiência pretende utilizar a média de uma amostra aleatória de tamanho para estimar a aptidão mecânica média (avaliada por certo teste padronizado) dos operários da linha de montagem em uma grande indústria. Se, com base na experiência, os técnicos admitem que para tais VOCÊ O CONHECE? Willian S. Gosset (1876-1937) desenvolveu a distribuição enquanto trabalhava na indústriat de Cerveja em Dublin, na Irlanda. Foi químico e estatístico inglês conhecido peloGuinness pseudônimo de e pelo seu trabalho na distribuição , cujo modelo pode serStudent t-Student caracterizado por um único parâmetro, o tamanho amostral. Seus experimentos iniciais estavam voltados ao programa de cultivo da cevada em conjunto com fazendeiros, envolvendo pesquisas com diferentes variedades e fertilizantes. Assim, todo o processo de plantio até a cerveja final poderia ser controlado por uma série de observações e testes estatísticos. - -6 montagem em uma grande indústria. Se, com base na experiência, os técnicos admitem que para tais dados, o que eles podem afirmar, com 0,99 de probabilidade, sobre o erro máximo de sua estimativa? (FREUND, 2006). Solução: pelo enunciado, nos são fornecidos os seguintes dados: , , Assim, os técnicos podem afirmar, com 0,99 de probabilidade, que seu erro máximo será de 1,30. Dessa maneira, devemos apenas calcular o valor de (erro amostral) para que possamos construir o intervalo E , em um intervalo de confiança de desejado. O gráfico com os pontos serão simétricos emE relação à média da distribuição, de tal maneira que a probabildiade de deve estar contida entre esses pontos e ser igual a . É o que mostra a próxima figura. Figura 3 - Distribuição amostral da média. Fonte: FREUND, 2006, p. 272. Outra situação possível é quando o valor do desvio-padrão é desconhecido, o que, em geral, acontece nos problemas reais. Quando é desconhecido, podemos pensar em estimar o seu valor com base na amostra disponível no estudo, calculando o desvio-padrão da amostra, que será dado por: Portanto, o valor de passa a ser substituído por . De acordo com Freund (2006), precisamos supor que as populações das quais estamos extraindo as amostras tenham, aproximadamente, a forma de distribuições normais. Contudo, nessa situação, o valor da variável aleatória tem a distribuição de , ou distribuição de t Student . A forma dessa distribuição contínua é muito semelhante à distribuição normal padrão, em forma deStudent sino e simétrica em relação à média zero. Sua forma exata depende do parâmetro denominado número de graus de liberdade, dado por e que será denotado pela letra . Os valores de são inteiros positivos. Com base nas ideias de Devore (2018, p. 279), asv v propriedades das distribuições são:t-Student Denote por a distribuição com graus de liberdade.t v 1. Cada curva possui formato de sino e está centrada em 0. - -7 1. Cada curva possui formato de sino e está centrada em 0. 2. Toda curva é mais dispersa que a curva normal padronizada ( ).z 3. À medida que aumenta, a dispersão da curva correspondente diminui.v 4. Como a sequência das curvas aproxima-se da curva normal padronizada (então, a curva z é muitas vezes chamada de curva com grau de liberdade ).t A seguir, apresentamos as duas curvas: a de distribuição normal e de distribuição de . Perceba quet-Student existem poucas diferenças entre elas, pois ambas têm a forma de sino e são simétricas em relação à média zero. Figura 4 - FREUND, 2006, p. 276. Fonte: Distribuição normal padrão e distribuição .t-Student Para a distribuição normal padrão, definimos de maneira que a área sob a curva à direita seja e, portanto, a área sob a curva entre e seja igual a . De maneira semelhante à distribuição normal, os valores correspondentes para a distribuição são e , que dependem do grau de liberdade . Para seu cálculo,t v faremos uso da tabela abaixo. - -8 Tabela 1 - Distribuição de .t-Student Fonte: FREUND, 2006, p. 495. Da mesma maneira que procedemos para o cálculo do intervalo de confiança com conhecido, precisamos calcular o valor do erro máximo de estimativa ou erro amostral . Nessas condições, ele é dado por .E Assim, temos o seguinte intervalo de confiança: ou Exemplo: encontre o valor crítico para uma confiança de 95% quando o tamanho da amostra é 15. - -9 Exemplo: encontre o valor crítico para uma confiança de 95% quando o tamanho da amostra é 15. Solução: temos que , portanto, graus de liberdade. É dado e, pela tabela de distribuição de , temos o valor .t-Student Figura 5 - Valor crítico para uma confiança de 95% e 14 graus de liberdade. Fonte: LARSON; FARBER, 2010, p. 264. Em geral, a distribuição é usada para estimar intervalos de confiança para pequenas amostras. Àt-Student medida que o tamanho da amostra aumenta, a distribuição aproxima-se da distribuição normal,n t-Student contudo reflete maior variabilidade, o que é esperado para amostras menores. Exemplo: durante a execução de determinada tarefa sob condições de simulação, a média da taxa de batimentos cardíacos de 12 astronautas aumentou em 27,33 batimentos por minuto, com desvio-padrão de 4,28 batimentos por minuto. Construa um intervalo de confiança de 99% para o verdadeiro aumento médio da taxa de batimentos cardíacos dos astronautas no desempenho daquela tarefa. Solução: de acordo com o enunciado são fornecidos os dados: Para , temos que 1- . Assim, o erro amostral é . Pela tabela de distribuição t-Student, encontramos o valor para e 11 graus de liberdade que é 3,106. VOCÊ QUER LER? Você pode fazer uma leitura mais aprofundada da distribuição a partir do artigot-Student “Cerveja e Estatística: vida e obra de um mestre cervejeiro” (VIALI; BERLIKOWSKY, 2016). Você lerá sobre a história de William S. Gosset, químico e mestre cervejeiro da , queGuinness foi um dos pioneiros na aplicação do método científico na fabricação de cerveja. Em suas pesquisas estava incluído o tratamento de dados de várias fontes, sendo que a maioria era formada por pequenos conjuntos, ou seja, amostras. Você pode ler o artigo em: https://periodicos.ufn.edu.br/index.php/VIDYA/article/viewFile/1813/1754. https://periodicos.ufn.edu.br/index.php/VIDYA/article/viewFile/1813/1754 - -10 Pela tabela de distribuição t-Student, encontramos o valor para e 11 graus de liberdade que é 3,106. O intervalo de confiança é dado por batimentos por minuto. É possível concluir que existem 99% de confiança de que os batimentos médios por minutosdos astronautas estejam entre 23,49 e 31,17. O valor de 23,49 é chamado de limite inferior e o valor de 31,17 é chamado de limite superior de confiança para µ. 3.4.2 Intervalos de confiança para a proporção da população De maneira semelhante ao cálculo do intervalo de confiança para uma média populacional, começamos com um ponto estimado e o cálculo de sua margem de erro. Conforme expõe Devore (2018), para que possamos calcular o intervalo de confiança de uma proporção populacional, devemos considerar como a proporção de “sucessos” em uma população, sendo assim é ap proporção de “fracassos”. Uma amostra aleatória de indivíduos ou objetos será selecionada e é o número de sucessos da amostra.n x Devore (2018, p. 272) cita que “contanto que seja pequeno em comparação com o tamanho da população, n x pode ser considerado uma variável aleatória binomial com e . Além disso, se e , possui uma distribuição aproximadamente normal”.x Como, em geral, não conhecemos adaptamos as aproximações seguintes para determinar se podemos usar ap, normal no lugar da binomial a partir da seguinte relação: e , sendo a frequência relativa amostral: . Análogo ao cálculo do erro amostral para a média populacional, o erro amostral para uma proporção populacional é dado por: , sendo a proporção de sucessos e a proporção de fracassos. Na expressão anterior para cálculo do erro, podemos substituir o parâmetro pela estimativa uma vez quep p´, não conhecemos . Nessa condição, a amostra sendo suficientemente grande para satisfazer as condições dep aproximação pela normal, podemos considerar p´ razoavelmente próxima de . Então:p , o que nos leva ao seguinte intervalo de confiança: Exemplo: em uma amostra aleatória, 136 dentre 400 pessoas que tomaram uma vacina contra a gripe sentiram algum efeito colateral. Construa um intervalo de confiança para a verdadeira proporção das pessoas que experimentam efeito colateral com a referida vacina (FREUND, 2006). Solução: são fornecidos os dados: (temos que Assim, calculamos o erro amostral :E Portanto, o intervalo de confiança é dado por: . Observe que e são valores muito maiores que 10, de maneira que estão justificados no uso da aproximação normal à distribuição binomial. 3.5 Determinando o tamanho da amostra A partir do nível de confiança e do erro amostral , o tamanho mínimo da amostra necessário para estimar aE n média populacional µ é dado por . Contudo, se for desconhecido, podemos usar uma amostra piloto de elementos e com ela calcular a estimativa do desvio padrão pela aplicação de t . Essa distribuiçãoS -Student é usada uma vez que a amostra piloto seja razoavelmente pequena. Assim, a fórmula empregada para calcular o tamanho da amostra é: - -11 Assim, a fórmula empregada para calcular o tamanho da amostra é: Se , a amostra piloto será grande o suficiente para estimar o número real que representará a amostra definitiva, porém devemos refazer a amostra piloto se estivermos diante da situação em que . Esse processo será repetido tantas vezes até que o tamanho da amostra piloto seja suficiente para estimar o tamanho mínimo da amostragem. Também é possível estimar o tamanho de uma proporção populacional com determinada confiança e precisão. Conforme apontam Larson e Farber (2010, p. 273), “uma forma de aumentar a precisão do intervalo de confiança sem diminuir o nível de confiança é aumentar o número da amostra”. A fórmula que possibilita seu cálculo é: Para o cálculo, é necessário ter uma estimativa preliminar para e . Se não forem fornecidos tais valores,p vamos assumir que . Exemplo: qual deve ser o tamanho da amostra para se estimar a proporção de blocos de concreto defeituosos, com precisão de 0,02 e um intervalo de confiança de 95%, sabendo que em casos semelhantes já estudados, essa proporção não é superior a 0,125? Solução: para cálculo do tamanho da amostra, devemos usar a fórmula: Dessa maneira, será necessária uma amostra de 1051 blocos de concreto para obter, na análise estatística, uma precisão de 2% com um intervalo de confiança de 95%. 3.6 Testes de Hipótese Agora, o objetivo da investigação não é mais estimar um parâmetro, mas decidir qual das alegações contraditórias sobre o parâmetro está correta a partir de métodos de decisão. Isso corresponde à parte da Inferência Estatística chamada de testes de hipótese. De acordo com Morettin e Bussab (2010), um dos problemas a serem resolvidos na Inferência Estatística é o de testar hipóteses, ou seja, a partir de uma afirmação sobre uma população e dos dados coletados de uma amostra respectiva, podemos rejeitar ou não as hipóteses traçadas. Segundo Freund (2006), para desenvolver processos de testes de hipóteses estatísticas, devemos sempre saber precisamente o que esperar quando a hipótese é verdadeira, e é por essa razão que, frequentemente, traçamos a hipótese contrária àquilo que gostaríamos de provar. Assim, podemos introduzir o conceito com alguns exemplos como: quando queremos saber se um determinado método de ensino é mais VOCÊ SABIA? Há muitas maneiras nas quais as pesquisas podem resultar em previsões incorretas. Quando você vir os resultados de uma pesquisa, lembre-se de questionar o tamanho da amostra, a técnica de amostragem e a questão usada. Essa situação nos leva a uma amostra não representativa. - -12 conceito com alguns exemplos como: quando queremos saber se um determinado método de ensino é mais eficiente que o outro ou quando queremos saber se uma liga de aço-cobre é mais resistente do que uma de aço comum. 3.6.1 Hipóteses de um teste Conforme expõe Triola (2017), uma hipótese é uma afirmação sobre uma propriedade da população, sendo que as afirmações são as hipóteses a serem testadas. Como exemplo, citamos: a porcentagem de motoristas hospitalizados por acidente é menor quando se usa o cinto de segurança ou, ainda, pesquisadores médicos afirmam que a temperatura média do corpo humano não é igual a . Uma hipótese estatística é “uma alegação ou afirmação sobre o valor de um único parâmetro (característica populacional ou característica de uma distribuição de probabilidade), sobre os valores de vários parâmetros ou sobre a forma de uma distribuição de probabilidade” (DEVORE, 2018, p. 291). Em qualquer teste de hipóteses sempre haverá duas suposições contraditórias. O objetivo é decidir, com base em uma informação amostral, qual das duas é a correta. Em problemas de testes de hipóteses, sempre haverá o favorecimento de uma alegação em relação à outra. Conforme explica Devore (2018, p. 292), “tal alegação não será rejeitada em favor da alegação alternativa, a menos que a evidência amostral a contradiga e forneça forte apoio à afirmação alternativa”. Dessa maneira, são dadas as hipóteses , também chamada de hipótese nula, que representa a alegação inicial tomada como verdadeira ou prioritária e , ou hipótese alternativa, que representa a afirmação contraditória à . Assim, se a afirmação na hipótese nula não for verdadeira, então, a hipótese alternativa deve ser verdadeira. Por exemplo, se , então , se , então e se , então . Observe que a hipótese nula sempre apresentará a informação de igualdade. Exemplo: estabelecendo a hipótese nula e alternativa, escreva a afirmação como uma sentença matemática: 1. Um fabricante de torneiras anuncia que o índice médio de fluxo de água de certo tipo de torneira é menor que CASO Apesar de áreas aparentemente distintas, a Estatística e o Direito estabelecem suas relações. Acompanhe a seguinte situação: a propaganda da Companhia de Cigarros Tabacox afirma que o teor médio de nicotina da marca , que ela fabrica, é, no máximo, de 0,7 mg. UmDelicious organismo fiscalizador analisa 16 cigarros dessa marca, obtendo um valor médio para a amostra analisada de 0,708 mg de nicotina. O organismo decide denunciar a fabricante à Justiça, que a autua por propaganda enganosa e a condena a pagar uma elevada multa. A Companhia decide recorrer. O advogado da Companhia contrata um estatístico para saber se tem alguma chance de ganhar orecurso. O estatístico solicita os dados relativos às análises feitas pelo organismo fiscalizador e calcula as estatísticas adequadas. Sorrindo, diz o advogado da Companhia: “Não tem problema não, pode apresentar o recurso”. Dias depois, o recurso é deferido, e a sentença inicial é revogada. A tranquilidade do estatístico e sua confiança no julgamento positivo do recurso residem no conhecimento da teoria estatística, que, por meio de um teste de hipótese, lhe permitiu verificar que uma média amostral de 0,708 mg pode, muito provavelmente, ser proveniente de uma população com média 0,7 mg. Para o advogado e para a diretoria da Companhia, ficou evidente a conveniência de se ter algum conhecimento das técnicas estatísticas (PINHEIRO et al., 2009). - -13 1. Um fabricante de torneiras anuncia que o índice médio de fluxo de água de certo tipo de torneira é menor que 2,5 galões por minuto. Solução: temos que e seu complemento é . Como a hipótese nula sempre apresenta a informação de igualdade, vamos adotar e . 2. Uma universidade pública em que a proporção de alunos que se graduaram em quatro anos é de 82%. Solução: a afirmação “a proporção [...] é de 82%” pode ser escrita como e seu complementar como . Em razão de conter a afirmação de igualdade, ela torna a hipótese nula. Então, temos: e . 3.6.2 Tipos de erros e nível de significância Sempre iniciamos um teste de hipótese considerando que a condição de igualdade na hipótese nula é verdadeira. Como aponta Devore (2018), quando realizamos um teste de hipótese tomamos as seguintes decisões: 1. rejeitamos quando ela é verdadeira ou; 2. não rejeitamos quando ela é falsa. Contudo, pelo fato de estarmos tomando uma decisão com base em uma amostra e não em uma população, estamos sujeitos a cometer determinados erros. Clique nas abas e veja os tipos de erro que podemos cometer. Erro do Tipo I Consiste em rejeitar a hipótese nula mesmo que ela seja verdadeira. Erro do Tipo II Consiste em aceitar a hipótese nula mesmo que ela seja falsa. Para compreender essa questão, vamos apresentar um exemplo exposto por Devore (2018). Exemplo: uma fabricante de cereal afirma que uma porção de cereal de uma de suas marcas tem 100 calorias. Naturalmente, o real teor de calorias vai variar de uma porção para outra (conforme o tamanho específico), portanto, 100 deveria ser interpretado como uma média. Poderia ser angustiante para os consumidores desse cereal se o teor calórico médio verdadeiro excedesse o valor declarado. Desse modo, uma formulação da hipótese a testar é versus . Os erros são: Erro do Tipo I: rejeitar a alegação do fabricante de que quando, de fato, é verdadeira; Erro do Tipo II: não rejeitar a alegação do fabricante quando na verdade . Quando usamos testes estatísticos ocorre a variação de amostra para amostra, o que pode nos levar a rejeitar a hipótese nula mesmo que ela seja verdadeira. Em outras palavras, embora a hipótese nula seja verdadeira, sua estatística amostral está determinada a ser um evento incomum na distribuição da amostragem. Para isso, o nível de significância α corresponde à probabilidade máxima permissível para cometer um erro do tipo I e o nível de significância β corresponderá à probabilidade máxima permissível para cometer um erro do tipo II. Regiões de rejeição e valores críticos De acordo com Larson e Farber (2010), outra forma de rejeitar a hipótese nula é verificando se a estatística do teste padronizado está dentro de uma amplitude de valores chamada de região de rejeição da distribuição de amostragem. Dessa maneira, nessa região, a hipótese nula não é provável e deverá ser rejeitada. Um valor crítico separa a região de rejeição da região de não rejeição. Para tanto, inicialmente, deverá ser especificado o nível de significância α e, em seguida, decidir se o teste é unicaudal à esquerda, unicaudal à direita ou bicaudal. • se o teste de hipótese for unicaudal à esquerda, devemos encontrar o que corresponde à área z-escore de α. • se o teste de hipótese for unicaudal à direita, devemos encontrar o que corresponde à área de 1-z-escore α. • se o teste de hipótese for bicaudal, devemos encontrar o que corresponde à área de .z-escore Vamos fazer a análise de um teste bicaudal, cujo erro é distribuído em ambas as caudas (da esquerda e da • • • - -14 Vamos fazer a análise de um teste bicaudal, cujo erro é distribuído em ambas as caudas (da esquerda e da direita) e, por isso, vamos trabalhar com a metade dele em cada uma das caudas. Assim, devemos aceitar se tivermos a seguinte situação: ou recusar se . Para efeito de cálculo, no teste unilateral pela esquerda e pela direita adotamos e no teste bilateral adotamos Exemplo: encontre o valor crítico e a região de rejeição do teste bicaudal com . Solução: o gráfico mostra a curva normal padrão com as áreas sombreadas de . A área à esquerda de é e a área à esquerda de é . Os escores que correspondem às duas áreas são, respectivamente, e . Portanto, os valores críticos são e . As regiões de rejeição estão à esquerda de e à direita de . Figura 6 - Região de rejeição com nível de significância . Fonte: LARSON; FARBER, 2010, p. 311. Muito bem! A seguir, vamos apresentar o teste de hipótese para uma única média populacional quando for conhecido. Para tanto, é necessário ter os conceitos e termos específicos anteriormente apresentados bem consolidados. Vamos fazer o estudo sobre o teste de hipóteses para uma média populacional e para uma proporção populacional, o que nos permitirá tirar boas conclusões a respeito de cada um. VOCÊ QUER VER? O conteúdo tratado nesta unidade poderá ser visualizado na videoaula (2018),Inferências disponível em: https://www.youtube.com/watch?v=FM9tz8U2g2k. https://www.youtube.com/watch?v=FM9tz8U2g2k - -15 3.6.3 Teste para uma média populacional Para iniciar esta discussão, vamos recordar alguns conceitos essenciais sobre amostras e populações. O processo é rigorosamente válido se estivermos trabalhando com amostras aleatórias, suficientemente grandes e se responder a uma distribuição normal do fenômeno em estudo. Devemos recorrer à padronização da variável , cuja precisão da média é dada por (semelhante ao erro amostral). Uma distribuição populacional normal com conhecido Nesse tipo de análise, vamos partir da suposição de que a hipótese nula dirá que possui um valor numérico específico, o valor nulo. Assim, teremos: . De acordo com Devore (2018, p. 294), “sejam uma amostra aleatória de tamanho populacional com distribuição normal. Então a média amostral possuin distribuição normal com valor esperado e desvio-padrão . Quando é verdadeira, . A estatística dada pela relação é uma medida natural da distância entre , o estimador e seu valorz esperado quando é verdadeira. Se a distância for muito grande, em uma direção consistente com a hipóteseX alternativa , podemos considerar a hipótese nula como falsa. - -16 Figura 7 - Critérios do teste para a média populacional.z Fonte: FREUND, 2006, p. 307. O exemplo a seguir nos fornecerá subsídios para o estudo dos conceitos anteriormente expostos. Exemplo: sabendo que a média dos pesos de placas de granito para bancadas de cozinha, de uma amostra de 100 unidades, é de 95,7 kg com um desvio-padrão da população de 11,5 kg, é possível afirmar que a média da população das bancadas seja inferior a 100 kg ao nível de significância de 5%? Qual sua conclusão? Solução: são fornecidos os dados: ; ; ; . O teste a ser realizado tem como hipóteses: Primeiramente, vamos calcular o valor da estatística | | para esta amostra:z Agora, calcularmos para compará-lo com o valor da estatística anteriormente calculado:o valor de críticoz z (tabela de distribuição normal) Assim, devemos rejeitar se tivermos a seguinte situação: . É o que acontece, pois . - -17 Assim, devemos rejeitar se tivermos a seguinte situação: . É o que acontece, pois . Podemos, então, rejeitar ao nível de significância de 5% e, por esse motivo, afirmar que a média dos pesos das bancadasda loja é inferior a 100 kg. 3.6.4 Testes para a proporção populacional Você deve se lembrar das relações existentes entre o número de elementos da amostra e a possibilidade de aproximar a distribuição binomial da normal e a forma de calcular o desvio-padrão, considerando que estamos diante de uma amostra suficientemente grande. Assim, diante de uma amostra suficientemente grande, a binomial pode se aproximar da normal diante as seguintes condições: e , sendo o desvio-padrão As seguintes hipóteses devem ser testadas: (teste unilateral pela esquerda) O valor da estatística é dado por: , sendo ´ a frequência relativa da amostra. De acordo com o estudoz p do teste de hipótese de uma média populacional, devemos rejeitar se (teste unilateral pela esquerda), (teste unilateral pela direita) ou . Exemplo: centenas de carros de um mesmo modelo e mesma montadora foram testados com gasolina. A porcentagem de carros que teve complicações no sistema de combustível foi de 10%. Para saber se o etanol pode causar problemas no sistema de combustível, 100 carros foram rigorosamente testados. Analisados os resultados durante um ano com uso exclusivo de etanol, destes, cinco apresentaram problemas. Admitindo que todos os carros sejam comparáveis, exceto no combustível, com um nível de significância de 5%, pode-se dizer que a proporção de problemas entre os carros que usaram etanol é menor do que entre os que usaram gasolina? Solução: os dados fornecidos no enunciado são: Estamos diante de uma amostra suficientemente grande, o que nos leva a afirmar que a binomial se aproxima da normal. As seguintes hipóteses devem ser testadas: (teste unilateral pela esquerda) O valor da estatística z é dado por: E o valor de z crítico é: Conforme exposto anteriormente, devemos rejeitar se (teste unilateral pela esquerda), (teste unilateral pela direita) ou . Assim, como -1,67 > -1,96, não temos evidências suficientes para rejeitar a hipótese nula, ou seja, ao nível de significância de 5%, não existem evidências de que a proporção de defeitos nos carros que usaram etanol seja menor que 10%. - -18 Síntese Nesta unidade, aprendemos sobre a estatística inferencial, que consiste em métodos de utilização de dados amostrais para tirar conclusões sobre parâmetros populacionais. Seu estudo foi fundamental para compreender o impacto da estatística na avaliação de um produto e as melhores decisões a serem tomadas quando o assunto envolve produção, custo, tempo e outro fatores impactantes nos negócios da empresa. Nesta unidade, você teve a oportunidade de: • encontrar uma estatística pontual e intervalar; • construir e interpretar intervalos de confiança para a média populacional e proporção populacional; • determinar o tamanho e proporção populacional; • determinar uma hipótese nula e hipótese alternativa; • encontrar valores críticos para um teste ;z • usar regiões de rejeições para um teste ;z • usar o teste para uma média populacional e uma proporção populacional.z Bibliografia DEVORE, J. L. . Tradução: Solange Aparecida Visconte.Probabilidade e estatística para engenharia e ciências Revisão Técnica: Magda Carvalho Pires. São Paulo: Cengage, 2018. ESTATÍSTICA e Probabilidade – Aula 11 – Inferências. 2018. 1 vídeo (21 min 28 s). Publicado no canal UNIVESP. Disponível em: . Acesso em: 11 jul. 2019.https://www.youtube.com/watch?v=FM9tz8U2g2k FREUND, J. E. : economia, administração e contabilidade. Tradução: Claus Ivo Doering. 11.Estatística aplicada ed. Porto Alegre: Bookman, 2006. LARSON, R.; FARBER, B. . Tradução: Luciane Ferreira Pauleti Vianna. 4. ed. São Paulo:Estatística Descritiva Pearson Prentice Hall, 2010. MORETTIN, P. A., BUSSAB, W. O. 6. ed. São Paulo: Saraiva, 2010.Estatística Básica. PINHEIRO, J. I. D. . : a arte de trabalhar com dados. Rio de Janeiro: Elsevier, 2009.et al Estatística básica TRIOLA, M. F. . 12. ed. Rio de Janeiro: LTC, 2017.Introdução à Estatística VIALI, L.; BERLIKOWSKY, M. E. Cerveja e Estatística: vida e obra de um mestre cervejeiro. , Santa Maria, v.VIDYA Caro estudante, para que você possa se apropriar cada vez mais dos conhecimentos adquiridos nesta unidade, disponibilizamos uma lista de exercícios. Realize as atividades e, na sequência, confira as respostas. Lembre-se: a prática é um dos caminhos mais assertivos para se ter domínio sobre os conceitos aprendidos. Bons estudos! Clique aqui para acessar os exercícios. Clique aqui para acessar as resoluções. • • • • • • • https://www.youtube.com/watch?v=FM9tz8U2g2k https://laureatebrasil.blackboard.com/bbcswebdav/institution/laureate/conteudos/ENG_PROEST_19/unidade_3/ebook/ENG_PROEST_19_E_3_exercicios.pdf https://laureatebrasil.blackboard.com/bbcswebdav/institution/laureate/conteudos/ENG_PROEST_19/unidade_3/ebook/ENG_PROEST_19_E_3_gabarito.pdf - -19 TRIOLA, M. F. . 12. ed. Rio de Janeiro: LTC, 2017.Introdução à Estatística VIALI, L.; BERLIKOWSKY, M. E. Cerveja e Estatística: vida e obra de um mestre cervejeiro. , Santa Maria, v.VIDYA 36, n. 2, p. 507-522, jul.-dez. 2016. Disponível em: https://periodicos.ufn.edu.br/index.php/VIDYA/article /viewFile/1813/1754. Acesso em: 11 jul. 2019. Introdução 3.1 Conceito 3.2 Estimativa pontual 3.2.1 Estimação por pontos da média populacional 3.2.2 Estimação por pontos da variância populacional 3.2.3 Estimação por ponto de uma proporção populacional 3.3 Teorema Central do Limite 3.4 Estimativas por intervalos 3.4.1 Intervalos de confiança para a média de uma população 3.4.2 Intervalos de confiança para a proporção da população 3.5 Determinando o tamanho da amostra 3.6 Testes de Hipótese 3.6.1 Hipóteses de um teste 3.6.2 Tipos de erros e nível de significância 3.6.3 Teste para uma média populacional 3.6.4 Testes para a proporção populacional Síntese Bibliografia
Compartilhar