Prévia do material em texto
ESTATÍSTICA AULA 5 Prof. Guilherme Rodrigues 2 CONVERSA INICIAL Se pensarmos que a estatística é a ciência ou ramo da matemática que tem como sua definição a ciência de registro de dados, nessa linha, a inferência estatística seria uma parte dessa ciência que tem a sua definição na análise da ocorrência ou não ocorrência de eventos probabilísticos. De modo mais simples e direto, o termo “inferência” significa dedução, tirar uma conclusão. Portanto, a inferência é o estudo matemático de possibilidades. Ao levarmos isso ao campo da Estatística, podemos dizer que inferência é um ato de pesquisa que nos leva a conclusões analíticas dentro de parâmetros e limitações, pois, quando decidimos trabalhar com estimativas, por característica fundamental, temos que trabalhar com um intervalo de incerteza. Nesta aula, trabalharemos um pouco mais com amostragem e incluiremos o estudo de probabilidade, assim como o teste de hipóteses e o cálculo da Nova. TEMA 1 – INFERÊNCIA ESTATÍSTICA A inferência estatística é o um ramo da estatística que busca o estudo comportamental de uma população frente a um evento por meio de uma amostra, valendo-se do estudo das probabilidades. Dessa forma, é um estudo baseado na ideia da probabilidade. Para exemplificar: imagine uma indústria de motores a combustão que tem um padrão de qualidade mínimo de seus manufaturados. Figura 1 – Pistão de um motor a combustão Créditos: Waldemarus/Shutterstock. 3 Esse padrão de qualidade ou parâmetro de fábrica indica, por exemplo, que um pistão tem uma tolerância de erro de 0,010 mm. Figura 2 – Motor a combustão, de quatro cilindros Créditos: VFXARTIST/Shutterstock. Isto é, os pistões fabricados podem ter uma variação positiva ou negativa de seu diâmetro de no máximo 0,010 mm para manter o seu bom funcionamento dentro do motor. Contudo, verifica-se que a cada 1.000 pistões fabricados, a máquina que faz a usinagem precisa de uma correção na regulagem (por desgaste natural). Dessa forma, estrategicamente, a fábrica já tem o conhecimento de que a cada 1.000 pistões, os “erros” na fabricação serão mais evidentes. Seguindo essa análise, podemos definir que após 1.000 pistões fabricados, temos a certeza de que o 1.001º pistão estará fora das especificações técnicas. Outra ideia é a de um controle de qualidade que sorteia aleatoriamente, dentro de uma linha de montagem, um produto qualquer para verificar se ele está no padrão técnico de tolerância. Para chegarmos ao padrão fabril, precisamos estabelecer um grupo menor chamado de amostra para analisar, simulando o total da produção. Digamos que o grupo analisado seja de 100 elementos, dos quais 12 apresentaram defeito de fabricação, portanto, respeitando os parâmetros, podemos reconhecer que possíveis 12% dos elementos manufaturados seriam defeituosos. 4 Em ambos os contextos, podemos não só prevenir e corrigir um processo fabril, mas também mensurar o volume de elementos fora do padrão preestabelecido. Para iniciarmos o estudo em torno da inferência estatística, precisamos desenvolver algumas ideias sobre amostragem, estimação e intervalo de confiança. Como todo processo estatístico, precisaremos ter muita atenção e critério na análise, pois é nesse tema que os fatores probabilísticos são de absoluta relevância. TEMA 2 – AMOSTRAGEM Ao buscarmos uma amostra, desejamos que ela tenha uma representatividade adequada da população/evento que estamos estudando, ou que no mínimo seja coerente com o tipo de estudo/análise que estamos elaborando. Portanto, é necessário ser muito criterioso e conhecer as técnicas utilizadas para essa seleção, pois a escolha do tipo de amostragem influencia diretamente o nível de confiabilidade que atingiremos. Na figura a seguir, vemos como Castanheira (2010, p. 198) trata a obtenção dos dados amostrais. Figura 3 – Levantamentos amostrais Neste ponto, é interessante destacar que a decisão por esse ou aquele tipo de amostra será decisivo no resultado. E, como visto anteriormente, dependendo do estudo feito, a obtenção dos dados (por meio de entrevistas, por exemplo) demandará, além de um alto custo, um grande compromisso como a pesquisa. 5 Figura 4 – Amostra Créditos: Sentavio/Shutterstock. A seguir, buscaremos uma definição para cada um dos termos. 2.1 Amostragem aleatória simples É a forma mais fácil de se selecionar uma amostra probabilística. Neste caso, todos os elementos da população têm a mesma probabilidade de serem selecionados. Por exemplo: a retirada de uma carta de um naipe específico de um baralho. Todas as 13 cartas de um naipe escolhido têm a mesma chance de serem retiradas do universo de 52 cartas. Figura 5 – Amostragem aleatória simples Créditos: Gmlykin/Shutterstock. 6 2.2 Amostragem aleatória sistemática É uma variação da amostragem aleatória simples, contudo, esse tipo segue uma ideia sistemática de processo na separação dos elementos. Assim, tal tipo de amostragem segue um critério pré-definido e lógico de escolha. Por exemplo: uma seleção de indivíduos dentro de uma lista de nomes seguindo o critério de cinco e cinco nomes. Isto é, seguindo esse critério, será selecionado um nome a cada cinco na lista. Na lista a seguir, em destaque amarelo, foram selecionados os nomes seguindo o critério estabelecido. Perceba que, nessa lista, os nomes não foram dispostos em ordem alfabética. Este fato não é algo fundamental nesta amostragem, pois como ela segue um perfil aleatório, o critério não é afetado se os nomes estiverem ou não em ordem alfabética. Os nomes mudariam, mas o critério seria mantido. Tabela 1 – Lista de indivíduos Em destaque amarelo, os nomes selecionados pelo critério estabelecido. 7 2.3 Amostragem aleatória estratificada Tipo de amostragem em uma população heterogênea na qual visamos uma distinção simples (estrato). Esse tipo de amostra respeita as caraterísticas gerais da população de origem. Por exemplo: suponha que o Censo do Instituto Brasileiro de Geografia e Estatística (IBGE) aponta que, em uma determinada região, a população feminina urbana tem um nível educacional maior que a população masculina urbana, e que a população feminina rural tenha um nível educacional menor em relação à população masculina rural. Nesse caso, ao separar uma amostra da população dessa região, é de fundamental importância que essa amostra siga a mesma proporção indicada no censo para cada estrato. Figura 6 – Amostra da população Créditos: VMAQ/Shutterstock. Isto é, a amostra deveria seguir a mesma proporcionalidade indicada no Censo. 8 2.4 Amostragem aleatória por conglomerados Tipo de amostragem na qual os dados são coletados de forma dividida, segmentada. É um tipo de amostra em que os elementos são selecionados aleatoriamente, mas dentro de grupos. A principal diferença entre esse tipo de amostragem (amostragem aleatória por conglomerado) e a amostragem aleatória estratificada é que esse tipo não forma estratos, sendo que a seleção só é aleatória dentro de cada estrato. Nessa amostragem, só na separação dos grupos de indivíduos são estabelecidos critérios. Assim, a região de escolha é o critério, não levando em consideração a idade, o gênero ou outra especificidade. Por exemplo: suponha uma pesquisa eleitoral nacional para presidente por região. Figura 7 – Pesquisa eleitoral Créditos: Tmvectorart/Shutterstock. Nesse caso, é interessante que a amostragem seja bem heterogênea e por regiões. Dessa forma, esse tipo de pesquisa diminui muito o grau de incerteza (precisão) do seu resultado. Um detalhe interessante é que a coleta de dados nesse tipo de amostragem é mais rápida e, inclusive, menos onerosa, pois não necessita de um refinamento exigido pela amostragem aleatóriaestratificada. Contudo, é 9 importante ter em mente o objetivo da pesquisa, pois, como dito, a qualidade e quantidade da amostra influencia diretamente os resultados. 2.5 Amostragem não aleatória intencional Tipo de amostra em que houve uma pré-seleção pelo pesquisador, muito utilizada em estudos dirigidos. Por exemplo: uma pesquisa em um supermercado sobre o lançamento de um novo sabor de sorvetes. Nesse caso, não seriam entrevistadas todas as pessoas que entram no supermercado, mas sim apenas aquelas que estão comprando sorvetes. Créditos: Elenabsl/Shutterstock. Portanto, esse tipo de amostra se caracteriza como uma abordagem aleatória de clientes, porém, dentro do local de interesse, pois identificam diretamente futuros consumidores. 2.6 Amostragem não aleatória voluntária Amostra em que os elementos da população se oferecem voluntariamente para fazer parte da amostra sem a interferência do pesquisador. Por exemplo: pesquisa científica em relação a um determinado medicamento ou tratamento 10 médico, na qual é feita uma chamada pública de voluntários. Contudo, mesmo nesse tipo de amostragem, é possível estabelecer um perfil ingressante dos indivíduos. Saiba mais Acesse para saber mais. Fonte: UFPRTV. 2.7 Amostragem não aleatória acidental Também conhecida como amostragem por conveniência, é um tipo de amostra não probabilística na qual os elementos da população não são escolhidos pelo pesquisador. Os indivíduos são selecionados à medida que aparecem, ou seja, são selecionados ao acaso. A amostra por conveniência é utilizada quando se deseja obter informações de maneira rápida e barata, pois não tem muitas exigências. Exemplificando: 1. Pode ser utilizada na abertura de páginas em ambientes virtuais, pois não se preocupa muito além do fator interesse naquele assunto e, assim, aproveita a oportunidade de acesso para questionar o usuário em uma pesquisa rápida, sem muitos parâmetros analíticos; 2. Disponibilizar números de linhas telefônicas para que, durante um programa de televisão, a audiência possa dar suas opiniões por meio de discagem programada. 11 TEMA 3 – PROBABILIDADE E DISTRIBUIÇÃO DE PROBABILIDADE Neste tema, estudaremos sobre a probabilidade e a distribuição de probabilidade. 3.1 Probabilidade A probabilidade é uma ferramenta poderosa. Seu uso é muito estratégico, pois dentro de uma análise de possibilidades, sendo a favor ou contra a hipótese analisada, e ainda que com alguma margem de erro, ela é capaz de trazer uma segurança nas tomadas de decisões. A ideia central da probabilidade é analisar um acontecimento e confrontar a relação entre o número de casos favoráveis (ou não favoráveis) com o número de casos possíveis desse evento. Em linhas gerais a probabilidade pode ser dita como: Exemplificando: 1. Analisando a probabilidade de resultado de face cara no lançamento de uma moeda honesta, temos duas possibilidades de resultados: cara (K) ou coroa (C). Portanto, numericamente, Tomando como referência esse resultado, em números relativos: Isso significa que teríamos 50% de chances de sucesso (face cara) no lançamento de moeda. Portanto, analisando o insucesso, teríamos também 50% do resultado não desejável, haja vista que a soma dos casos favoráveis (sucesso) como os casos desfavoráveis (insucessos) totaliza 100%. 12 2. Analisando a possibilidade de resultado de duas faces cara no lançamento de duas moedas honestas, temos quatro possibilidades de combinação de resultados: KK, KC, CK, CC. Contudo, temos apenas uma possibilidade de resultado favorável ao evento desejável (KK). Portanto, analisando o insucesso, teríamos também 75% do resultado não desejável, lembrando que a soma dos casos favoráveis (sucesso) com os casos desfavoráveis (insucessos) totaliza 100%. 3. A retirada de duas cartas de um naipe específico de um baralho, sendo que todas as 13 cartas de um naipe escolhido têm a mesma chance de serem retiradas do universo de 52 cartas. Créditos: Gmlykin/Shutterstock. Neste caso, teríamos uma combinação de duas cartas em 13 do mesmo naipe, frente ao total de combinações de duas cartas. Portanto, Calculando as combinações, o resultado é: Em número relativo, esse resultado representaria 13 Portanto, teríamos 5,8823% de chances de termos sucesso nessa combinação de cartas. 3.2 Estimação A estimação consiste em um cálculo que fazemos buscando uma avaliação de uma amostra pautada em um critério no qual podemos concluir que há uma tendência forte de resultado dentro da população/evento estudado. Para isso, precisamos supor que essa amostra representa adequadamente a população em questão. A essa grandeza Castanheira (2010) chama de estimador: “estimador é uma grandeza baseada em observações feitas em uma amostra e que é considerada como indicador de um parâmetro populacional desconhecido” (Castanheira, 2010, p. 201). Dessa forma, podemos dizer que “uma estimativa é o valor atribuído ao estimador” (Castanheira, 2010, p. 201). 3.3 Intervalo de confiança Um intervalo de confiança é um intervalo de valores no qual buscamos ter o máximo de confiança possível na análise. Obviamente, o valor ideal seria 100%. De forma comum, esse valor é amplamente conhecido como “margem de erro” nas pesquisas, sobretudo nas eleitorais. 3.4 Nível de confiança Toda estimativa requer um nível de confiança na análise. Esse número traduz o grau de confiabilidade da análise. Obviamente, o melhor nível de confiança seria 100%, contudo, por vários fatores característicos das pesquisas estatísticas, esse valor acaba por se tornar teórico. O nível de confiança é diretamente afetado pela qualidade da coleta de dados. Em uma pesquisa para o lançamento de um refrigerante, por exemplo, é extremamente importante que se defina o público-alvo para tal, do contrário, corre-se o risco de haver um comprometimento dos resultados ao se analisar fora desse público específico. TEMA 4 – TESTE DE HIPÓTESES 14 Os testes de hipóteses são técnicas que nos permitem aceitar ou rejeitar a hipótese estatística dentro dos parâmetros que escolhemos como pesquisadores. Os testes de hipóteses são métodos científicos para a tomada de decisão baseados em dados. Para isso, temos vários tipos, entre eles o método de análise da variância, que consiste basicamente em dividir a variância para melhorar a análise. TEMA 5 – MÉTODO DE CÁLCULO DA VARIÂNCIA – ANOVA O tipo mais simples dos testes de hipótese é o Anova (Analysis of Variance). Esse método é aquele em que se observa “grupos considerando uma única propriedade, pois a aplicação desse método visa justamente possibilitar que façamos a comparação simultânea de várias médias de amostras” (Castanheira, 2010, p. 237). 15 NA PRÁTICA Essa é uma fase muito importante dentro do campo da estatística, exatamente porque é nela que se reconhece o tipo de dados que serão trabalhados. Portanto, essa análise é fundamental para se atingir o objetivo do cálculo estatístico. A escolha da amostra influencia contundentemente os resultados da análise dos dados do cálculo probabilístico. Dessa forma, uma coleta correta e uma identificação precisa tornam possíveis e confiáveis os cálculos. FINALIZANDO A inferência estatística nos permite analisar os resultados obtidos de uma amostra como adequados para representar toda a população da qual aquela amostra foi retirada dentro de certos parâmetros de confiabilidade. Sendo assim, a inferência estatística se traduz como um elemento fundamental na tomada de decisões. 16 REFERÊNCIAS CASTANHEIRA, N. P. Estatística Aplicada a todos os níveis. 5. ed. Curitiba: IBPEX, 2010. CRESPO, A. A. Estatística Fácil. 19. ed.São Paulo: Saraiva, 2009. LARSON, F. Estatística Aplicada. 4. ed. São Paulo: Pearson, 2011. MORETTIN, P. A. Estatística Básica. 6. ed. São Paulo: Saraiva, 2010.