Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 INFERÊNCIA ESTATÍSTICA: estimativas por pontos e intervalos de confiança Fabiano Sousa Lira1 Ronaldo Silva2 RESUMO O universo matemático é bastante amplo, sua aplicabilidade na realidade concreta também, em um vasto número de elementos que compõem uma população (de unidades até bilhares deles) a capacidade de análise se restringe a uma pequena parte deles, denominada amostra, da qual pode-se fazer um estudo matemático descritivo dos dados desta amostra que englobam desde medidas de tendência central até de dispersão. Este campo de estudo fica a cargo da estatística descritiva, que aliada ao conhecimento de probabilidade dos eventos em um espaço amostral, que culminam numa distribuição probabilística contínua ou amostral, possibilitam a compreensão da população a partir de amostras suas, as quais permitem inferências originadas de dados numéricos estimados que podem ser frutos de amostras pontuais ou de um intervalo de amostras. Isto tudo, é um campo de estudo da estatística inferencial sob a ótica das estimativas por pontos e intervalos de confiança. Palavras-chave: Estatística. Estimativa por Ponto. Inferência. Intervalo de Confiança. 1 INTRODUÇÃO É de fundamental importância a contribuição da Estatística dentro da realidade dos indivíduos, a partir dela, dados de uma população grande podem ser estimados por meio de uma amostra da mesma. Em vista de tal importância, foi feito um levantamento bibliográfico tendo como ótica o estudo da inferência estatística. O presente trabalho tem como objetivo o estudo da inferência estatística onde foi feito uso de uma pesquisa bibliográfica, tendo como finalidade a explanação dos tópicos: estimativas por ponto e intervalos de confiança. 1 Graduando do V período do Curso de Licenciatura em Física do Instituto Federal de Educação, Ciências e Tecnologia do Maranhão - Campus Imperatriz – fabianolira.01@gmail.com. 2 Graduando do V período do Curso de Licenciatura em Física do Instituto Federal de Educação, Ciências e Tecnologia do Maranhão - Campus Imperatriz – lanor.silva@gmail.com. 2 2 ESTIMADORES, ESTIMATIVAS E PARÂMETROS Quando é necessário estudar uma determinada característica de uma população, a partir de amostras com determinados tamanhos (n), é preciso definir uma variável que indique a característica que será estudada da população (X). Para análise desta variável em estudo existe um parâmetro populacional (θ) que é constante em uma dada população, porém tal parâmetro quando inserido num contexto de análise amostral é especificado por meio de um estimador (𝜃) que é variável para cada amostra e oferece um valor aproximado para o parâmetro (θ), sendo considerado um parâmetro amostral. Estes estimadores podem ser: o desvio padrão amostral (S); a variância amostral (S2); a média amostral (�̅�). Sendo que os respectivos parâmetros populacionais constantes são: o desvio padrão populacional (𝜎); a variância populacional (𝜎2); a média populacional (𝜇); entre outros. Os valores numéricos dos estimadores amostrais são denominados de estimativas; sendo assim, infere-se que: À combinação dos elementos da amostra, construída com a finalidade de representar, ou estimar, um parâmetro de interesse na população, denominamos estimador. Em geral, denotamos os estimadores por símbolos com acento circunflexo: �̂�, �̂�, �̂�, etc. Aos valores numéricos assumidos pelos estimadores denominamos estimativas pontuais ou simplesmente estimativas. Notamos que um estimador, digamos �̂�, é uma função das variáveis aleatórias constituintes da amostra, isto é, �̂� = f (X1, X2, ...). Logo o estimador é também uma variável aleatória. (MAGALHÃES, 2010, p. 224). Sendo os estimadores variáveis amostrais, implica-se portanto que, eles serão os valores que determinarão os parâmetros populacionais, quer dizer, a distribuição de probabilidade dos estimadores amostrais indica em uma certa faixa de confiança a inclusão do parâmetro populacional. 3 TIPOS DE ESTIMATIVAS 3.1 Estimativa por ponto No instante em que os dados amostrais são utilizados para calcular uma medida de tendência central ou de dispersão, e este valor é tomado como uma aproximação estimada da medida da população, se está realizando uma estimativa por ponto. Assim, o valor de �̅�, por 3 exemplo, é uma estimativa por ponto da média populacional 𝜇. Uma situação exemplificativa configura-se quando de uma amostra aleatória de 200 alunos calcula-se �̅� como sendo 5, a nota média amostral, e atribui-se aos 10 mil alunos a mesma média; ou seja, ampliou-se uma característica típica da amostra (ponto da população) para toda a população, portanto, tal estimativa é pontual. 3.2 Estimativa por intervalo de confiança Este tipo de estimativa baseia-se na presença do parâmetro populacional contido no interior de um intervalo numérico obtido a partir de elementos amostrais, dos quais, espera-se que o parâmetro mencionado esteja inserido com um dado nível de confiança ou probabilidade (1 – 𝛼)%; tal índice ou nível de confiança geralmente é superior a 90%. Além do mais, quanto menor a amplitude do intervalo de confiança mais precisa é a inferência realizada quanto ao parâmetro amostral. Um exemplo de intervalo de confiança é quando se afirma com 95% de nível de confiança que a altura média dos moradores de um município X está entre 1,60 e 1,64 metros, sempre é recomendado considerar a probabilidade de erro, pois indicará a chance da amostra não conter o parâmetro populacional indicado. 4 INTERVALO DE CONFIANÇA PARA A MÉDIA POPULACIONAL QUANDO A VARIÂNCIA É CONHECIDA Como já foi mencionado o estimador de 𝜇 é �̅�, reconhecendo que a destruição de probabilidade é dada, para populações infinitas, por (Eq. 1): �̅�𝑑𝑁 (𝜇 ; 𝜎2 𝑛 ) (1) E para populações finitas por (Eq. 2): �̅�𝑑𝑁 (𝜇 ; 𝜎2 𝑛 ( 𝑁−𝑛 𝑁−1 )) (2) 4 Nas equações acima, os termos ainda não mencionados, N é o número de elementos da população e 𝑑 denota a distribuição de probabilidade, neste caso, da média amostral. Deste modo, considerando populações infinitas, a variável normal padronizada de �̅� é Zi dado por (Eq. 3): Zi = 𝑥�̅�− 𝜇 𝜎 √𝑛 (3) Ao ser fixado o nível de confiança (1 – 𝛼) obtém-se a seguinte distribuição normal de probabilidade (Fig. 1). Figura 1 – Distribuição da probabilidade correspondente a Zi Fonte: (MARTINS, 2010) A partir da análise do gráfico contido na Figura 1 é notório que a faixa em que a variável normal padronizada está inserida, ou seja, o intervalo de confiança onde provavelmente a média populacional (𝜇) está inserida limita-se, à região intermediária não hachurada, matematicamente tem-se (Eq. 4): 𝑃 (−𝑍𝛼 2 ≤ 𝑍𝑖 ≤ 𝑍𝛼 2 ) = 1 − 𝛼 (4) Substituindo o valor de Zi dado pela Equação 3 na Equação 4 e simplificando a inequação assim obtida, pode-se encontrar um intervalo no qual a média populacional 𝜇 está inerida com (1 – 𝛼) nível de confiança como demonstrado na seguinte equação (Eq. 5): 𝑃 (𝑥 ̅− 𝑍𝛼 2 𝜎 √𝑛 ≤ 𝜇 ≤ �̅� + 𝑍𝛼 2 𝜎 √𝑛 ) = 1 − 𝛼 (5) 5 A Equação 5 é válida para populações infinitas caso a população seja finita utiliza-se está outra fórmula (Eq. 6): 𝑃 (𝑥 ̅− 𝑍𝛼 2 𝜎 √𝑛 √ 𝑁−𝑛 𝑁−1 ≤ 𝜇 ≤ �̅� + 𝑍𝛼 2 𝜎 √𝑛 √ 𝑁−𝑛 𝑁−1 ) = 1 − 𝛼 (6) 5 INTERVALO DE CONFIANÇA (IC) PARA MÉDIA POPULACIONAL QUANDO A MÉDIA POPULACIONALÉ DESCONHECIDA Se houver amostras pequenas e o valor do desvio padrão populacional (𝜎) for desconhecido, pode-se construir um intervalo de confiança para média desde que a população de onde a amostra aleatória foi extraída tenha distribuição normal. Como o 𝜎 é desconhecido, é preciso substituí-lo pelo S (desvio padrão amostral) que, diferente do 𝜎, não é constante, mas uma variável aleatória. Portanto, obtém-se uma distribuição de probabilidade t de Student análoga à presente na Equação 3, porém, com uma substituição de Zi por t e de 𝜎 por S, adquire- se assim uma equação com duas variáveis aleatórias (�̅� 𝑒 𝑆) (Eq. 7). ti = 𝑥�̅�− 𝜇 𝑆 √𝑛 (7) Feita a análise da referida equação e fixando um nível de confiança e (1 – 𝛼) tem-se como resultado a seguinte distribuição t de Student (Fig. 2): Figura 2 – Distribuição t de Student para 𝜇 Fonte: (MARTINS, 2010) 6 De forma similar ao caso anterior, o valor de ti estará compreendido entre as duas áreas hachuradas com um percentual de confiança equivalente (1 – 𝛼). Matematicamente esta situação pode ser expressa da forma probabilística (Eq. 8): 𝑃 (−𝑡𝛼 2 ≤ 𝑡𝑖 ≤ 𝑡𝛼 2 ) = 1 − 𝛼 (8) Quando se substitui o valor de ti dado pela Equação 7 na Equação 8 e simplifica-se inequação assim obtida recai numa inequação que indica o intervalo de confiança no qual a média populacional 𝜇 está inserida quando o valor da variância populacional é desconhecida e é sabido somente o valor da variância amostral. Tal intervalo apresenta um nível de confiança (1 – 𝛼) e uma distribuição de probabilidade t de Student dada por (Eq. 9): 𝑃 (𝑥 ̅− 𝑡𝛼 2 𝑆 √𝑛 ≤ 𝜇 ≤ �̅� + 𝑡𝛼 2 𝑆 √𝑛 ) = 1 − 𝛼 (9) Nesta equação a variável t possui (n – 1) graus de liberdade; porém, é válida para populações infinitas, considerando populações finitas a fórmula aplicada será (Eq. 10): 𝑃 (𝑥 ̅− 𝑡𝛼 2 𝑆 √𝑛 √ 𝑁−𝑛 𝑁−1 ≤ 𝜇 ≤ �̅� + 𝑡𝛼 2 𝑆 √𝑛 √ 𝑁−𝑛 𝑁−1 ) = 1 − 𝛼 (10) 6 INTERVALO DE CONFIANÇA PARA VARIÂNCIA O estimador da variância populacional 𝜎2 é a variância amostral S2, a qual tem distribuição Qui-Quadrado, exceto em casos constantes, apresentado (n – 1) graus de liberdade, quer dizer, sua distribuição é da seguinte maneira (Eq. 11): 𝜒𝑛−1 2 𝑑 (𝑛−1)𝑆2 𝜎2 (11) Considerando que a população tenha uma distribuição normal, esta pode ser representada do seguinte aspecto (Fig. 3): 7 Figura 3 – Distribuição de probabilidade Qui-Quadrado para 𝜎2 Fonte: (MARTINS, 2010) De maneira similar ao raciocínio utilizado para a distribuição normal padronizada podemos inferir o seguinte intervalo de confiança (Eq. 12): 𝑃(𝜒𝑖𝑛𝑓 2 ≤ 𝜒𝑛−1 2 ≤ 𝜒𝑠𝑢𝑝 2 ) = 1 − 𝛼 (12) Substituindo o valor de Qui-Quadrado dado pela Equação 11 na Equação 12 e isolando o 𝜎2 no termo intermediário da inequação tem-se como resultado (Eq. 13): 𝑃 ( (𝑛−1)𝑆2 𝜒𝑠𝑢𝑝 2 ≤ 𝜎 2 ≤ (𝑛−1)𝑆2 𝜒𝑖𝑛𝑓 2 ) = 1 − 𝛼 (13) 7 INTERVALO DE CONFINAÇA PARA O DESVIO PADRÃO (𝝈) Reconhecendo que a distribuição de probabilidade populacional da qual a amostra foi extraída seja normal, é possível obter um intervalo de confiança para o desvio padrão populacional (𝜎) o qual é dado pela raiz quadrada do intervalo de confiança da variância populacional como mostrado (Eq. 14): 𝑃 (√ (𝑛−1)𝑆2 𝜒𝑠𝑢𝑝 2 ≤ 𝜎 ≤ √ (𝑛−1)𝑆2 𝜒𝑖𝑛𝑓 2 ) = 1 − 𝛼 (14) 8 8 INTERVALO DE CONFIANÇA PARA PROPORÇÃO É sabido que em amostras suficientemente grandes (n > 30) a distribuição amostral da frequência (f) equivale ao estimador de proporção populacional (�̂�) o qual indica a verdadeira proporção de sucessos, sendo igual à razão entre o número de sucessos na amostra (x) e o tamanho da amostra (n) com distribuição aproximadamente norma, quer dizer, a média populacional das frequências tem o mesmo valor de p e o desvio padrão destas (𝜎(𝑓)) será dado pela seguinte expressão (Eq. 15): 𝜎(𝑓) = √ 𝑝 (1−𝑝) 𝑛 (15) Desta expressão implica-se, para grandes amostras (Eq. 16) e (Eq. 17): 𝑓𝑑𝑁 (𝑝 ; 𝑝 (1−𝑝) 𝑛 ) (16) 𝑍𝑖 = 𝑓𝑖−𝑝 √𝑝 (1−𝑝) 𝑛 (17) Estipulando o nível de confiança de (1 – 𝛼) obtém-se a seguinte distribuição de probabilidade (Fig. 4): Figura 4 – Distribuição de probabilidade normal para proporção Fonte: (MARTINS, 2010) 9 Com a análise desta distribuição é perceptível que o intervalo de confiança desta é dado pela Equação 4 mencionada; substituindo o valor de Zi dado pela Equação 17 e isolando o valor de p no termo intermediário da inequação, considerando nos demais termos este equivalendo a f o intervalo de confiança para a proporção populacional de determinado evento será obtido de acordo com a expressão (Eq. 18): 𝑃 (𝑓 − 𝑍𝛼 2 √ 𝑓(1−𝑓) 𝑛 ≤ 𝑝 ≤ 𝑓 + 𝑍𝛼 2 √ 𝑓(1−𝑓) 𝑛 ) = 1 − 𝛼 (18) A equação acima é válida para populações infinitas caso as populações sejam finitas a fórmula anterior deverá ser expressa como segue (Eq. 19): 𝑃 (𝑓 − 𝑍𝛼 2 √ 𝑓(1−𝑓) 𝑛 ( 𝑁−𝑛 𝑁−1 ) ≤ 𝑝 ≤ 𝑓 + 𝑍𝛼 2 √ 𝑓(1−𝑓) 𝑛 ( 𝑁−𝑛 𝑁−1 )) = 1 − 𝛼 (19) Uma regra prática para se testar a hipótese de uma amostra grande, é verificar se o intervalo seguinte não contém o 0 ou 1 (Eq. 20): 𝑓 = ±2√ 𝑓(1−𝑓) 𝑛 (20) 9 CONSIDERAÇÕES FINAIS Com base no que foi mostrado, é perceptível que, a Estatística Descritiva e a Probabilidade, são alicerces teóricos de estudo para a Estatística Inferencial, a partir de uma variável populacional, estipula-se um parâmetro populacional que é estudado por meio de estimadores amostrais variáveis, quer dizer, as características descritivas da população são oriundas de médias e análises probabilísticas das características amostrais. O conhecimento acerca da Estatística Inferencial presente neste artigo, não esgota todo seu estudo, foi realizada uma abordagem gráfica e matemática das mesmas com a preocupação de compreender a essência do assunto mesmo desconhecendo a origem das fórmulas. Portanto, o conteúdo deste artigo serve como base fundamental para estudos mais aprofundados. 10 STATISTICAL INFERENCE: estimates for points and confidence intervals ABSTRACT The mathematical universe is quite broad, its applicability in the concrete reality also in a large number of elements that make up a population (units by billiards them) analysis capability is limited to a small part of them, called sample, which can- make a descriptive mathematical study of data from this sample that range from measures of central tendency to scatter. This field of study is the responsibility of descriptive statistics, which combined with the events of the likelihood of knowledge in a sample space, culminating in a continuous probability distribution or sample, enable understanding of the population from their samples, which allow inferences arising from estimated numerical data that can be fruits point sample or a sample interval. All this is a field of study of inferential statistics from the perspective of the estimates for points and confidence intervals. Keywords: Statistics. Estimated by Point. Inference. Confidence Interval. REFERÊNCIAS MAGALHÃES, Marcos Nascimento. Noções de Probabilidade e Estatística. São Paulo: Editora da Universidade de São Paulo,2010. MARTINS, Gilberto de Andrade. Estatística geral e aplicada. São Paulo: Atlas, 2010.
Compartilhar