Baixe o app para aproveitar ainda mais
Prévia do material em texto
Introdução Estatística Inferencial é um ramo da estatística a qual compreende técnicas que são utilizadas para tomadas de decisões sobre uma população estatística. Ou seja, as decisões são baseadas unicamente na observação de uma amostra ou na elaboração de um juízo. População é o conjunto de todos os elementos que interessam ao estudo. Como por exemplo; o conjunto de todos os eleitores de um determinado estado. Amostra é um subconjunto da população. Como por exemplo; os eleitores de uma determinada cidade do estado em estudo. Um exemplo de aplicação da estatística inferencial são os testes de opiniões sobre produtos. Nesse caso não há como entrevistar a todos, logo escolhe-se um grupo de possíveis consumidores e se faz a entrevista com eles. Ou seja, será coletado os dados a partir de uma amostra de consumidores, os quais fornecerá dados da amostra e por meio desses dados o pesquisador poderá fazer suas estimativas e testar as hipóteses que deseja verificar. A obtenção de amostra ocorreria da seguinte forma; da população total daquela cidade selecionaríamos um consumidor alvo ao qual sabemos que se interessa pelo produto. Calculamos a quantidade total desse público alvo naquela cidade e selecionamos uma amostra com uma quantidade razoável desses consumidores. A partir daí temos a nossa amostra. De onde eles podem ser na região daquela cidade o pesquisador pode escolher; se será só de um bairro ou de cada bairro um pouco... No entanto, se realizarmos várias vezes a amostragem descrita, provavelmente obteremos amostras compostas por consumidores diferentes. Mas apesar de diferentes, podemos ter respostas próximas ou iguais nas diversas amostras. Conceitos Iniciais Parâmetro são as características numéricas de uma população, em geral desconhecidas e sobre as quais temos interesse. Usualmente são representadas por letras gregas. Os mais comuns no estudo da EI são a média (𝜇) e o desvio padrão (𝜎). Estimador é a combinação dos elementos da amostra (geralmente fórmulas: função das variáveis aleatórias constituintes da amostra), construída com a finalidade de representar, ou estimar, um parâmetro de interesse na população. Em geral é representado por letras gregas com um acento circunflexo. Podem também ser chamados de estimativas pontuais (pois dependem dos valores pertencentes à amostra aleatória) ou simplesmente estimativas. Estimativa é o valor encontrado através do estimador. → Um estimador também é uma variável aleatória, assim como os valores encontrados na análise para formação da amostra. E como tal, possui uma distribuição de probabilidades que por sua vez, formará a base das argumentações probabilísticas utilizadas na extrapolação da informação da amostra para os parâmetros da população. Exemplo: Temos uma amostra com a quantidade de faltas dos funcionários, abaixo temos alguns estimadores de parâmetros: Inferencial Estimativa da média populacional é 3,44 faltas, ou seja; o número médio de faltas por funcionário em cada ano é aproximadamente 4. A parte bege simboliza o estimador, e a parte azul escuro a estimativa. ESTIMAÇÃO PONTUAL No estimador chamado de pontual, inferimos sobre a população, considerando apenas um valor da estimativa. Essas estimativas por ponto não nos dão uma ideia sobre confiança e as margens de erro que deveriam ser aplicadas ao resultado. O melhor estimador para a média populacional µ, é a média aritmética amostral que é dada por: Já o melhor estimador para a variância populacional σ² é s², a variância amostral dada por: ESTIMATIVA POR INTERVALO Estimação por intervalo consiste na construção de um intervalo em torno da estimativa pontual, de modo que esse tenha uma probabilidade conhecida de conter o verdadeiro valor do parâmetro. A estimação por intervalos nos fornece uma informação mais precisa em relação ao parâmetro, esta é a melhor forma de estimar o parâmetro populacional. Para você estimar parâmetros populacionais por meio de dados amostrais, é necessário o conhecimento da distribuição amostral da estatística que está sendo usada como estimador (visto anteriormente). Pode-se ter estimadores intervalo para a média, proporção, variância, diferença de médias e diferença de proporções da população Teorema central do limite O teorema define que independente de qual seja a distribuição de X, a distribuição de sua média se aproximará da normal à medida que o número de elementos da amostra cresce (desde que média e variância existam). Ou seja; qualquer que seja a distribuição da variável de interesse para grandes amostras, a distribuição das médias amostrais será aproximadamente normalmente distribuída, e tenderão a uma distribuição normal à medida que o tamanho de amostra crescer. Então podemos ter uma variável original com uma distribuição muito diferente da Normal (pode até mesmo ser discreta), mas se tomarmos várias amostras grandes desta distribuição, e então fizermos um histograma das médias amostrais, a forma se parecerá como uma curva Normal. Assim, pelo teorema central do limite, temos que quanto maior o tamanho da amostra, melhor é a aproximação à distribuição normal. Além disso, o teorema nos garante que para n grande a distribuição da média amostral, devidamente padronizada, se comporta segundo uma distribuição normal de probabilidades com média 0 e variância 1. EXEMPLO DE APLICAÇÃO Uma aplicação importante relaciona-se com a distribuição da proporção amostral, que é definida como sendo a fração de indivíduos com uma dada característica em uma amostra de tamanho n. Se construirmos para o i-ésimo indivíduo uma variável aleatória Yi, tal que: Assim, podemos escrever a proporção amostral (que é a média de variáveis aleatórias convenientemente definidas), como sendo: Assumindo que a proporção de indivíduos com a característica na população é p e que os indivíduos são selecionados aleatoriamente, temos que Y1, ... , Yn formam uma sequência de variáveis aleatórias do modelo Bernoulli. Assim, a média e a variância do modelo Bernoulli são dadas por p e p(1-p)/n, respectivamente. A partir do teorema central do limite temos que: Estimação da média populacional 𝜇 INTERVALOS DE CONFIANÇA Os estimadores vistos até o momento são pontuais, pois fornecem estimativas numéricas para o parâmetro de interesse. A partir de agora, veremos o método que incorpora à estimativa pontual uma margem de erro, chamado de estimação intervalar ou estimação por intervalo. O intervalo de confiança pode ser interpretado da seguinte forma: se obtivermos várias amostras de mesmo tamanho e para cada uma calcularmos os correspondentes intervalos de confiança com coeficiente de confiança (1- 𝛼)%, esperamos que a proporção de intervalos que contenham o valor de 𝜇 seja igual a (1-𝛼)%. Dessa forma, se construirmos 100 intervalos para a média 𝜇 com 90% de confiança, é de se esperar que 90 desses intervalos contenham a verdadeira média 𝜇. Os casos a serem analisados são os seguintes: Também podemos dizer que calculamos o intervalo de confiança para estimar a média populacional e em qualquer situação a fórmula do intervalo de confiança para a média da população. Assim, o intervalo de confiança pode ser descrito como: ❖ Caso 1: a variância populacional 𝜎² é conhecida Quando a variância populacional é conhecida e supondo uma amostra de tamanho n, temos, pelo teorema central do limite, que a média amostral tem distribuição normal com a mesma média 𝜇 e a variância 𝜎2 𝑛 . Para um valor 0 < 𝛼 < 1, podemos obter na tabela da distribuição normal Z padronizada um valor Za/2 tal que: Lembrando que a distribuição normal é simétrica, portanto, a área 𝛼 deve ser igualmente distribuída em torno de 0; EXEMPLIFICAÇÃO: Observe a formula a seguir: temos que; X é a média, Zc da tabela normal e n é o tamanho da amostra. Sigma já sabemos que é o desvio- padrão.A parte após o +/- é a nossa margem de erro, o nosso intervalo. Por exemplo: Resolução: Donde podemos obter a resposta pela formula acima descrita de qual é o intervalo: Ou ❖ Caso 2: a variância populacional 𝜎² é desconhecida e a amostra é grande (n>=30) Na maioria das aplicações, a variância populacional é desconhecida. Quando isso acontece, o estimador não viciado, S², pode ser usado para estimar a variância populacional. Nos casos em que a amostra é grande, n>=30, o teorema central do limite fornece boa aproximação para a distribuição da média amostral. Então o intervalo de confiança de (1-𝛼)% é expresso da forma: Tal que 𝑆 = √𝑆2 . Portanto, a construção do intervalo de confiança é semelhante à que foi feita no 1º caso, a única diferença é que no lugar de 𝜎 usa-se o desvio padrão amostral S EXEMPLIFICANDO: Como parte de uma revisão anual das apólices de seguro de vida, a Statewice Insurance Company selecionou uma amostra aleatória simples de 36 proprietários de apólices de seguro de vida Statewide As correspondentes apólices de seguro de vida são revistas em termos de garantia de cobertura. Para o estudo, um gerente solicitou uma estimativa do intervalo de confiança de 90% da idade média para a população dos proprietários da apólice de seguro de vida. A idade média da amostra é �̅� = 39,5 anos. O desvio padrão da amostra é 𝑆 = 7,77. O valor de 𝑧0,05 = 1,645. Portanto o intervalo de 90% é dado por: [ 39,5 − 1,645 7,77 √36 ; 39,5 + 1645 7,77 √36 ] → [39,5 − 2,13; 39,5 + 2,13] A margem de erro é 2,13 e a estimativa da idade média da população de proprietários de apólices de seguros com 90% de confiança, é 37,37 a 41,63 anos. ❖ Caso 3: a variância populacional 𝜎² é desconhecida e a amostra é pequena (n>=30) Se tivermos uma amostra pequena e pretendemos construir um intervalo de confiança, mas não conhecemos 𝜎², podemos utilizar a distribuição t-Student, ou simplesmente, distribuição t, para construir o intervalo de confiança. A distribuição t é utilizada na determinação de valores críticos denotados por ta/2.. Observe na tabela da distribuição t que nas linhas aparece o número de graus de liberdade, que é dado por n-1. Os graus de liberdade, (gl) correspondem ao número de valores que podem variar após terem sido impostas certas restrições a todos os valores. As propriedades da distribuição t-Student são: Podemos agora determinar os valores para a margem de erro para construir intervalos de confiança: Tal que Ta/2,n-1 é o valor de t que fornece uma área de 𝛼 2 na extremidade superior da distribuição t com n-1 graus de liberdade. E o intervalo de (1-𝛼)% de confiança é dado por: O intervalo de confiança para 𝜇, com coeficiente de confiança (1-𝛼)% também pode ser expresso por: EXEMEPLIFICANDO: Consideremos que após estudos sobre a quantidade de faltas dos funcionários em determinada empresa, foram encontrados os seguintes valores dos parâmetros a seguir: �̅� = 3,44 faltas e 𝑆2 = 2,006 faltas², sendo 𝑆 = √𝑆2 = √2,006 = 1,4163 falta. Assim, calculemos um intervalo de 95% de confiança para o número médio de faltas por funcionário: Para encontrar o valor de T0,025;24 , Consultamos a tabela a seguir que mostra a distribuição T. como a amostra é de tamanho 25, temos 24 graus de liberdade. Na tabela da distribuição T, o valor crítico que deixa área de 2,5% acima da curva, com 24 graus de liberdade é T0,025;24 = 2,064. Grau de liberdade 0,005 (unilateral) 0,01 (bilateral) 0,01 (unilateral) 0,02 (bilateral) 0,025 (unilateral) 0,05 (bilateral) 0,05 (unilateral) 0,10 (bilateral) 21 2,831 2,518 2,080 1,721 22 2,819 2,508 2,074 1,717 23 2,807 2,500 2,069 1,714 24 2,797 2,492 2,064 1,711 25 2,787 2,485 2,060 1,708 P (-2,064 <= T <= 2,064) = 0,95 Assim o intervalo de 95% de confiança para a média será dado por ; IC (𝜇, 95%) = [3,44 ± 2,064 1,4163 √25 ] → [3,44 ± 0,585] → [2,855; 4,025] Sendo a margem de erro igual a 0,585 faltas. Teste de Hipótese para média populacional COMPONENTES DE UM TESTE DE HIPÓTESES • Hipótese nula (H0): É a afirmação sobre o valor de um parâmetro populacional (como por exemplo a média ou a proporção). Nesse tipo de hipótese deve escrever-se como o parâmetro sendo =, ≤ 𝑜𝑢 ≥ que o valor suposto. • Hipótese alternativa (Ha): É uma afirmação que deve ser verdadeira se a hipótese alternativa comporta apenas uma das três formas: ERROS EM TESTES DE HIPÓTESES • Erro do tipo 1: consiste em rejeitar a hipótese nula quando ela é verdadeira. Como por exemplo se uma indústria farmacêutica deseja testar um novo medicamento no combate à dor de cabeça e ela sabe que em geral o tempo de alívio de dor dos analgésicos comuns é de 15 minutos, mas espera que seu produto tenha um tempo de alívio da dor abaixo do normal; para ser mais eficiente. Seria um erro dizer que o produto dessa indústria farmacêutica possuí um tempo de alívio da dor menor que 15 minutos pois pode ser menor que 15 minutos ou igual já que esse é o tempo normal de todos os analgésicos. A probabilidade de rejeitar H0 quando ela é verdadeira é chamada de nível de significância (denotada por 𝛼), geralmente é fixada antes de se realizar o teste. • Erro do tipo 2: Consiste em não rejeitar a hipótese nula quando ela é falsa. Como por exemplo dizer que o tempo de reação do novo medicamento (citado no exemplo do erro anterior), possuí um tempo de reação igual ou superior a 15 minutos, vemos claramente que está errado, mas em alguns casos não... A probabilidade de não rejeitar H0 Além dessas definições apresentadas até agora, há outra definição muito importante; a estatística de teste que nada mais é que um valor baseado nos dados amostrais para tomar uma decisão sobre a rejeição da hipótese nula. No caso de teste para média ela será formada pela média amostral e pelo desvio padrão. Veremos mais a frente como se constrói a estatística de teste. Temos também a região crítica, que é o conjunto de todos valores da estatística de teste que levam à rejeição da hipótese nula. E o valor crítico que é o valor ou valores que separa(m) a região crítica dos valores da estatística de teste que não levam à rejeição da hipótese nula. Os valores críticos dependem da natureza da hipótese nula, da distribuição amostral da estatística de teste de nível de significância 𝛼. ESTÍTISTICA DE TESTE A chamaremos Z e a denotaremos e a calcularemos por Zcalc. É utilizada no teste de hipóteses e é construída a partir do teorema central do limite. Na média a estatística de teste é dada por; Onde 𝜇0 é valor extremo dado pela hipótese nula. Além disso, podemos definir a estatística de teste para a proporção; Sendo 𝑝0 é o valor extremo fornecido pela hipótese nula. TIPOS DE TESTES: BILATERAL E UNILATERAL As caudas em uma distribuição de probabilidades são as regiões extremas delimitadas por valores críticos. A partir de H0, dá para saber qual é o tipo de teste. A cauda corresponderá à região crítica que contém os valores conflitantes com a hipótese nula: Quando o teste é unilateral definimos as hipóteses assim: Contudo, alguns autores usam as mesmas hipóteses definidas de forma diferente; trocando os sinais da hipótese nula por sinais de igualdade. No entanto, em nada muda a construção do teste. Estudos de Casos 1. TESTE UNILATERAL QUANDO A VARIÂNCIA POPULACIONAL 𝝈𝟐 É CONHECIDA OU A AMOSTRA É GRANDE (N>30): Quando se realiza um teste unilateral, a hipótese alternativa é Ha; 𝜇 < 𝜇0, no caso do teste unilateral esquerdo ou Ha; 𝜇 > 𝜇0, no caso de um teste unilateral direito. A partir de uma amostra dos dados calcula-se a média amostral �̅� . No caso em que a variância populacional 𝜎2 é conhecida, a estatística de teste será: Mas no caso em que a variância 𝜎2 é desconhecida, mas a amostra é grande (n>30)utiliza-se o valor do desvio padrão S dos dados da amostra como uma estimativa de 𝜎. Portanto a estatística de teste será: E dessa forma construímos a regra de rejeição: Quando se observa o valor da estatística Zcalc (estatística de teste) na região crítica, deve-se rejeitar H0. Caso contrário, não se deve rejeitar H0. Denotando RC de região crítica, podemos escrever: 2. TESTE BILATERAL QUANDO A VARIÂNCIA POPULACIONAL 𝝈𝟐 É CONHECIDA OU A AMOSTRA É GRANDE (N>30): Quando se realiza um teste bilateral, a hipótese alternativa é Ha: 𝜇 ≠ 𝜇0 (𝜇0 é o valor especificado por H0 ). A partir de uma amostra dos dados calcula-se a média amostral �̅� . Assim, quando a variância é conhecida, a estatística de teste será: Quando a variância é desconhecida, mas a amostra é grande, utiliza-se o valor de S dos dados como uma estimativa de 𝜎, igual ao caso unilateral. Portanto, a estatística de teste será: Dessa forma, construímos a regra de rejeição: Quando se observa o valor da estatística Zcalc na região crítica, deve-se rejeitar H0. Caso contrário, não se deve rejeitar H0. Podemos escrever a região crítica da forma: 3. TESTE UNILATERAL QUANDO A VARIÂNCIA POPULACIONAL 𝝈𝟐 É DESCONHECIDA OU A AMOSTRA É PEQUENA (N<30): Para realizar testes com pequenas amostras, vamos seguir o mesmo raciocínio que foi utilizado na estimação intervalar. Em vez de utilizar a aproximação normal, iremos recorrer à distribuição t de Student. A estatística de teste, que chamaremos t calculado e denotaremos tcalc, neste caso é: A região crítica é construída utilizando a distribuição t com n-1 graus de liberdade. No caso em que a hipótese é unilateral temos que quando se observa o valor da estatística tcalc na região crítica, deve-se rejeitar H0 . Caso contrário, não se vede rejeitar H0. Podemos escrever: O valor crítico t𝛼, 𝑛 − 1 é o valor de t da tabela t Student que fornece uma área de 𝛼 na extremidade superior da distribuição t com n-1 graus de liberdade, conforme se vê no gráfico abaixo: 4. TESTE BILATERAL QUANDO A VARIÂNCIA POPULACIONAL 𝝈𝟐 É DESCONHECIDA OU A AMOSTRA É PEQUENA (N<30): Seguindo o mesmo raciocínio do caso anterior, o teste bilateral também segue à distribuição t-Student. A estatística de teste será dada por: A região crítica é construída utilizando a distribuição t com n-1 graus de liberdade. No caso em que a hipótese é bilateral temos: Quando se observa o valor da estatística tcalc na região crítica, deve-se rejeitar H0. Caso contrário não se deve rejeitar a hipótese nula. Podemos escrever a região crítica no teste bilateral RC como sendo: O valor crítico t𝑎 ∕ 2, 𝑛 − 1 é o valor de t da tabela t- Student que fornece uma área de 𝛼 ∕ 2 na extremidade superior da distribuição t com n-1 graus de liberdade. Valor 𝜌 Nível Descritivo Ao realizarmos um teste de hipóteses, partimos de um dado valor de 𝛼 prefixado, para construir a regra de decisão. Uma alternativa é deixar a cargo de quem vai utilizar as conclusões do teste a escolha do valor para a probabilidade 𝛼, que não precisará ser fixado a priori. A ideia consiste em calcular, supondo que a hipótese nula seja verdadeira, a probabilidade (usando a distribuição t ou normal padronizada) de se obter estimativas mais desfavoráveis ou extremas do que está sendo fornecida pela amostra (pelas estatísticas tcalc ou Zcalc). Uma outra forma é utilizando o valor 𝜌, denotado por 𝛼 ∗. Ele funciona em todos os quatro casos descritos anteriormente. Valores pequenos desse parâmetro indicam que a hipótese nula é falsa. Sendo a amostra nossa ferramenta de inferência sobre a população, ela fornece uma estimativa que teria probabilidade muito pequena de acontecer se a hipótese nula fosse verdadeira. O conceito do que é pequeno fica a cargo do pesquisador do teste, que assim decide qual 𝛼 usar para comparar com o valor obtido 𝛼 ∗. Quando não é definido o valor de 𝛼 para se fazer comparação recomenda-se usar nível 0,05. APLICAÇÃO DE 𝝆 NOS CASOS Alguns valores de nível descritivo não estão acessíveis nas tabelas das distribuições normais padronizadas e t. Quando não há maneiras disponíveis para fazer o cálculo, mas somente as tabelas, pode-se fazer uma aproximação para o valor p, dizendo entre quais valores ele se situa. Em casos bilaterais, ao calcularmos o nível descritivo (valor 𝜌), precisaremos considerar que forma da região envolve os valores de Zcalc e tcalc que se distanciam muito (para mais ou para menos) daquele previsto pela hipótese nula. Dessa forma, o procedimento usual é multiplicar por dois as probabilidades obtidas em uma das caudas, de modo a preservar a ideia de afastamento bilateral. Assim, ao testarmos 𝐻0: 𝜇 = 𝜇0 contra 𝐻𝑎: 𝜇 ≠ 𝜇0, a definição do valor 𝜌 depende da relação entre �̅� e 𝜇0 que é o mesmo que avaliar se Zcalc e tcalc são maiores que zero: Para encontrar o valor de 𝜌 quando Zcalc > 0 e tcalc > 0, fazemos o seguinte: Referências: O ESTATÍSTICO. Estimativa e Estimador. Vamos extrapolar? - O Estatístico. O Estatístico, 21 Oct. 2016. Disponível em: <https://oestatistico.com.br/estimativa-e-estimador/>. Acesso em: 9 dec. 2021. RESPONDE AÍ. Teorema Central do Limite / Resumo e Exercícios Resolvido. Respondeai.com.br, 2013. Disponível em:<https://www.respondeai.com.br/conteudo/probabilidade-e-estatistica/variaveis-aleatorias/teorema-central-do- limite/854>. Acesso em: 27 dec. 2021. UFPR. Teorema Central do Limite. Ufpr.br, 2016. Disponível em:<http://www.leg.ufpr.br/~silvia/CE001/node38.html>. Acesso em: 27 dec. 2021. FERNANDA KARINE RUIZ, C.; JOAQUIM OSVALDO PEREIRA, G.; WILTON REZENDE, F. Estatística Inferencial. [S.l.]: 10, 2010. p. 159 .
Compartilhar