Baixe o app para aproveitar ainda mais
Prévia do material em texto
Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 1 APOSTILA DE ESTATÍSTICA II Esta apostila contém uma compilação de textos de diversos autores, tendo sido elaborado com o objetivo exclusivo de ser um apoio didático para o aluno em sala de aula. Professor Jean Pierre Wasem Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 2 Introdução O mundo dos negócios, em qualquer que seja a área, de Recursos Humanos ao Marketing, não pode mais embasar as tomadas de decisões e assumir risco simplesmente no feeling e no bom-senso dos executivos e gerentes organizacionais. A complexidade da sociedade e dos mercados apresentada atualmente exige que estes agentes se utilizem de recursos precisos e poderosos de forma a minimizar os potenciais riscos da atividade econômica. Neste contexto pode-se destacar a crescente utilização da informática, do método e dos recursos de estatística nas organizações que almejam destacarem-se como agentes econômicos de ponta. O barateamento exponencial destes recursos nos últimos anos tem feito que muitas empresas invistam neste hardware (computadores, pacotes estatísticos, Internet, bases de dados) mas uma menor atenção tem sido dada ao “humanware” ou seja aos indivíduos que efetivamente extrairão deste arsenal tecnológico a informação e o conhecimento que possibilitarão conduzir estas organizações à liderança em seus segmentos. Sem este aprimoramento do “humanware” de muita pouca valia será o investimento feito no aparato tecnológico. Este curso tem a intenção de aportar conhecimentos básicos de ferramentas e métodos relacionados à pesquisa e à análise estatística de dados visando o aprimoramento da utilização de poderosos recursos com a visão gerencial de como, e porque explorar a informação e de como enxergar em um “oceano” de dados aqueles que efetivamente são capazes de promover um diferencial competitivo à organização. Estatística básica para pesquisa de mercado não pretende cobrir todas as possibilidades da análise estatística de dados mas sim de prover uma consistente base sobre a qual novas habilidades podem ser facilmente construídas e desenvolvidas. Bem-vindo ao mundo da análise estatística de dados!!!! Marcus Vinicius da Cunha Júnior, Estudante de Doutorado - University of Florida Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 3 A Estatística nas Empresas No mundo atual, a empresa é uma das vigas-mestra da economia dos povos.A direção de uma empresa é de qualquer tipo, incluindo as estatais e governamentais, exige de seu administrador a importante tarefa de tomar decisões, e o conhecimento e o uso da Estatística facilitaram seu tríplice trabalho de organizar, dirigir e controlar a empresa. Por meio de sondagem, de coleta de dados e de recenseamento de opiniões, podem conhecer a realidade social, os recursos naturais, humanos e financeiros disponíveis, as expectativas da comunidade sobre a empresa, e estabelecer suas metas, seus objetivos com maior possibilidade de serem alcançados a curto, médio ou longo prazo. A Estatística ajudará em tal trabalho, como também na seleção e organização da estratégia a ser a dotada no empreendimento e, ainda, na escolha das técnicas de verificação e avaliação da qualidade e da quantidade do produto e mesmo das possíveis lucros e/ou perdas. Tudo isso que se pensou, que se planejou, precisa ficar registrado, documentado para evitar esquecimento, a fim de garantir o bom uso do tempo, da energia e do material e, ainda, para um controle eficiente do trabalho. O esquema do planejamento é o plane, que pode ser resumido, com o auxilio da Estatística, em tabelas e gráficos, que facilitarão a compreensão visual dos cálculos matemáticos-estatísticos que lhes deram origem. O homem de hoje, em suas múltiplas atividades, lança mão de técnicas e processos estatísticos, e só estudando-os evitaremos o erro das generalizações apresentadas a respeito de tabelas e gráficos apresentados em jornais, revistas e televisão, freqüentemente cometido quando se conhece apenas “por cima” um pouco de Estatística. Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 4 1.Distribuições de Probabilidade Binomial Poisson Normal σ μ−= xz Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 6 1.2. Aproximação pela Normal das probabilidades de Poisson Quando a média for muito grande de uma distribuição de Poisson, a distribuição Normal (Gauss¹) pode ser usada como uma aproximação das probabilidades de Poisson. Uma regra conveniente é que tal aproximação é aceotável quando 10≥μ E neste caso μσ = ¹ Johann Carl Friedrich Gauss (ou Gauß) (Braunschweig, 30 de Abril de 1777 — Göttingen, 23 de Fevereiro de 1855) foi um famoso matemático, astrônomo e físico alemão. Era conhecido como o príncipe dos matemáticos. Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 7 Exercício: Um departamento de conserto de máquinas recebe, em média, 10 chamadas por dia. Determine a probabilidade de que mais do que 15 chamadas serão recebidas em um dia aleatoriamente escolhido. Faça por Poisson e Normal, se possível. 1.3 Aproximação pela normal das probabilidades binomiais Quando o número de observações ou tentativas for muito grande, a distribuição normal pode ser utilizada como aproximação da probabilidade binomial, como regra para utilização conveniente usa-se: 5. 30 ≥ ≥ pn e n E neste caso )1( pnp −=σ Exercício: Para um grande número de clientes potenciais, sabe-se que 20% dos contatados pessoalmente por gerentes de prospecção de negócios realizarão uma compra. Se um gerente visita 30 clientes, qual a probabilidade de que 10 ou mais farão uma compra? Faça por binomial e normal. Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 8 Exercício: Sabe-se que 70% das pessoas que entram em um centro comercial realizam pelo menos uma compra. Para uma amostra de 50 pessoas. a) Qual a probabilidade de que no mínimo 40 pessoas façam compras? b) Qual a probabilidade que pelo menos 30 façam uma compra? Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 9 Exercício: Sabe-se que os pedidos de serviço chegam em média de cinco por hora. a)Qual a probabilidade de que sejam recebidos mais de 50 pedidos em um período de 8 horas? b) Qual a probabilidade de que cheguem 35 pedidos ou menos num período de 4 horas? Exercício: Suponhamos que a proporção de motores defeituosos em uma linha de montagem é 0,1 e que uma amostra de 200 motores é incluída em um carregamento particular. Qual a probabilidade de que pelo menos 30 dos 200 motores sejam defeituosos? Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 10Exercício: Suponhamos que a proporção de motores defeituosos em uma linha de montagem é 0,1 e que uma amostra de 200 motores é incluída em um carregamento particular. Qual a probabilidade de que três ou menos sejam defeituosos? Exercício: Uma indústria de brinquedos determinou que historicamente 40% dos brinquedos que ela desenvolve tenham, pelo menos, um moderado sucesso de mercado.Qual a probabilidade de que pelo menos 30 deles tenham um êxito moderado, se 60 forem lançados? Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 11 2. Amostragem 2. 1. População e Amostras Ao conjunto de entes portadores de, pelo menos, uma característica comum denominamos População estatística ou universo estatístico. Esse termo refere-se não somente a uma coleção de indivíduos, mas tambémao alvo sobre o qual reside nosso interesse. Assim, nossa população pode ser tanto todos os habitantes de Curitiba, como todas as lâmpadas produzidas por uma fábrica em um certo período de tempo, ou todo o sangue no corpo de uma pessoa. Como em qualquer estudo estatístico temos em mente pesquisar uma ou mais características dos elementos de alguma população, esta característica deve estar perfeitamente definida. E isso se dá quando, considerando um elemento qualquer, podemos afirmar, sem ambigüidade, se esse elemento pertence ou não à população. Vamos entender que, em Estatística, a palavra população tem significado muito mais amplo do que no vocabulário leigo. Para o estatístico, todos os valores que uma variável pode assumir, nos elementos de um conjunto, constitui uma população. Algumas vezes podemos acessar toda a população para estudarmos características de interesse, mas em muitas situações, tal procedimento não pode ser realizado, por impossibilidade ou inviabilidade econômica ou temporal. Por exemplo, uma empresa não dispõe de verba suficiente para saber o que pensa todos os consumidores de seus produtos. Há ainda razões éticas, quando, por exemplo, os experimentos de laboratório envolvem o uso de seres vivos. Além disso, existem casos em que a impossibilidade de acessar toda a população de interesse é incontornável como no caso da análise do sangue de uma pessoa ou em um experimento para determinar o tempo de funcionamento das lâmpadas produzidas por uma indústria. Tendo em vista as dificuldades de várias naturezas para observar todos os elementos da população, tomaremos alguns deles para formar um grupo a ser estudado. A essa parte proveniente da população em estudo denominamos amostra. Uma amostra é um subconjunto finito de uma população. Qualquer estudo científico enfrenta o dilema de estudo da população ou da amostra. Obviamente teria-se uma precisão muito superior se fosse analisado o grupo inteiro, a população, do que uma pequena parcela representativa, denominada amostra. Observa-se que é impraticável na grande maioria dos casos, estudar-se a população em virtude de distâncias, custo, tempo, logística, entre outros motivos. A alternativa praticada nestes casos é o trabalho com uma amostra confiável. Se a amostra é confiável e proporciona inferir sobre a população, chamamos de inferência estatística. Para que a inferência seja válida, é necessária uma boa amostragem, livre de erros, tais como falta de determinação correta da população, falta de aleatoriedade e erro no dimensionamento da amostra. Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 12 2.2. Amostras relacionadas Quando se retira aleatoriamente, dois elementos de uma mesma população e expõe-se apenas um elemento a um determinado fator (propaganda, por exemplo). Avalia-se o impacto junto aos dois elementos. 2.3. Amostras não relacionadas Apenas um elemento é selecionado e exposto ao fator. Uma comparação é feita considerando o antes e o depois. 2.4. Tipos de amostragens Não Probabilística 1. Acidental ou conveniência 2. Intencional 3. Quotas ou proporcional 4. Desproporcional Probabilística 1. Aleatória Simples 2. Aleatória Estratificada Tipos de amostragens 3. Conglomerado Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 13 2.4.1.Não probabilística Este tipo de amostra, é determinada por ordem do pesquisador, ou seja, não há uma aleatoriedade para a escolha de um elemento da população. A escolha de um método não probabilístico, via de regra, sempre encontrará desvantagem frente ao método probabilístico. No entanto, em alguns casos, se faz necessário a opção por este método. Observa-se que no envio de questionários via correio o método é não probabilístico (mesmo que a opção seja por amostragem Probabilística). O respondente pode não querer responder o questionário ou mesmo não ser localizado. Fonseca (1996), alerta que não há formas de se generalizar os resultados obtidos na amostra para o todo da população quando se opta por este método de amostragem 2.4.1.1 Acidental ou conveniência Indicada para estudos exploratórios. Freqüentemente utilizados em super mercados para testar produtos. 2.4.1.2 Intencional O entrevistador dirige-se a um grupo em específico para saber sua opinião. Por exemplo, quando de um estudo sobre automóveis, o pesquisador procura apenas oficinas. 2.4.1.3 Quotas ou proporcional Na realidade, trata-se de uma variação da amostragem intencional. Necessita-se ter um prévio conhecimento da população e sua proporcionalidade. Por exemplo, deseja-se entrevistar apenas indivíduos da classe A, que representa 12% da população. Esta será a quota para o trabalho. Comumente também substratifica-se uma quota obedecendo a uma segunda proporcionalidade. Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 14 2.4.1.4 Desproporcional Muito utilizada quando a escolha da amostra for desproporcional à população. Atribui-se pesos para os dados, e assim obtém-se resultados ponderados representativos para o estudo. Por exemplo, em um mercado de telefones celulares, considerando uma fatia de mercado meramente ilustrativa, obteve-se os resultados conforme descritos a seguir: Marcas Participação no mercado Elementos na amostra n % Nokia 60% 50 25% Ericsson 20% 50 25% Gradiente 15% 50 25% Philips 05% 50 25% Total 100% 200 100% Objetivando obter os pesos a serem atribuídos a cada marca de telefone celular, para uma análise conjunta de todas as marcas no exemplo acima, obteve-se os seguintes coeficientes: Número de elementos a serem entrevistados Peso Nokia Peso Ericsson Peso Gradiente Peso Philips 2,4 0,8 0,6 0,2 120 40 30 10 Total: 200 Fórmula aplicada: Peso = participação no mercado/elementos na amostra (%) 2.4.2 Probabilística Para que se possam realizar inferências sobre a população, é necessário que se trabalhe com amostragem probabilística. É o método que garante segurança quando se investiga alguma hipótese. Normalmente os indivíduos investigados possuem a mesma probabilidade de ser selecionado na amostra. Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 15 2.4.2.1 Aleatória Simples É o mais utilizado processo de amostragem. Prático e eficaz, confere precisão ao processo de amostragem. Normalmente utiliza-se uma tabela de números aleatórios e nomeiam-se os indivíduos, sorteando-se um por um até completara amostra calculada. Utiliza-se comumente o sorteio aleatório disponível em planilhas eletrônicas como o Excel®. Uma variação deste tipo de amostragem é a sistemática. Em um grande número de exemplos, o pesquisador depara-se com a população ordenada. Neste sentido, têm-se os indivíduos dispostos em seqüência o que dificulta a aplicação exata desta técnica. Quando se trabalha com sorteio de quadras de casas, por exemplo, há uma regra crescente para os números das casas. Em casos como este, divide-se a população pela amostra e obtém-se um coeficiente (Ħ). A primeira casa será a de número x, a segunda será a de número x + Ħ; a terceira será a de número x + 3. Ħ. Supondo que este coeficiente seja 6. O primeiro elemento será 3. O segundo será 3 + 6. O terceiro será 3 + 2.6. O quarto será 3 + 3.6, e assim sucessivamente. 2.4.2.2 Aleatória Estratificada Quando se deseja guardar uma proporcionalidade na população heterogênea. Estratifica-se cada subpopulação por intermédio de critérios como classe social, renda, idade, sexo, entre outros. 2.4.2.3 Conglomerado Em corriqueiras situações, torna-se difícil coletar características da população. Nesta modalidade de amostragem, sorteia-se um conjunto e procura-se estudar todo o conjunto. É exemplo de amostragem por conglomerado, famílias, organizações e quarteirões. 2.5. Tipos de dados Basicamente os dados de uma pesquisa quantitativa, dividem-se em contínuos e discretos. O primeiro é definido como qualquer valor entre dois limites quaisquer, tal como um diâmetro. Portanto trata-se de um valor que ser “quebrado”. São dados contínuos, questões que envolvem idade, renda, gastos, vendas, faturamento, entre muitas outras. Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 16 Quando se fala em valores discretos, aborda-se um valor exato, tal como quantidade de peças defeituosas. Comumente utiliza-se este tipo de variáveis para tratar de numero de filhos, satisfação e escalas nominais no geral. A tipologia dos dados determina a variável, ela será, portanto contínua ou discreta. Isto quer dizer que ao definir-se uma variável com contínua ou discreta, futuramente já se definiu que tipo de tratamento se dará a ela. Por exemplo, a variável dependente em uma análise envolvendo Anova, não poderá ser discreta. 2.6. Tipos de variáveis escalares Ordinal, Objetiva criar como o próprio nome diz, uma ordem de valor, segundo a preferência do respondente. Por exemplo, em um escala, A é preferido a B, mas não se identifica o quanto A é menor que B. Nominal, São as escalas mais comuns em pesquisas de marketing. Seus números servem para identificar a escolha do respondente e não determinar ordem ou mesmo se A é melhor que B. Os números são associados aos pontos de resposta, visando criar uma organização nas escalas. É exemplo clássico de escala nominal, questões de sexo e as de dicotomia (sim; não) e diferencial semântico (puro _ _ _ impuro). Intervalar são questões que visam comparar intervalos e medir o quanto uma preferência encontra-se distante de outra. Atualmente são objetos de infindáveis discussões entre estatísticos e acadêmicos de marketing quando da aplicação de testes estatísticos, afinal são consideradas discretas, mas podem passar por um processo de aproximação e tornarem-se contínuas. Um processo semelhante é descrito por Cunha (1997), quando o autor aborda a técnica de Análise de Correspondência (AC) e comenta que as variáveis de melhor emprego para tal técnica são as qualitativas ou as que passaram por processo de categorização. Exemplo de escalas intervalares: 1;2;3;4;5, muito insatisfeito; insatisfeito; indiferente; satisfeito; muito satisfeito. Razão são as variáveis contínuas. Peso, idade, renda, são exemplos de questões de razão. Abaixo serão descritos modelos estatísticos possíveis para os tipos de escalas abordadas. Tipo de escala Estatística possível Ordinal Todas de tendência central Nominal Moda e Qui quadrado Intervalar Médias, desvio padrão e médio, amplitudes, variância, teste z e t, correlação e regressão. Razão Todos do anterior Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 17 2.3 Dimensionamento da amostra ¹ Quando se deseja dimensionar o tamanho da amostra, o procedimento desenvolve- se em três etapas distintas: 1. Avaliar o instrumento de coleta de dados e julgar a variável mais importante do questionário ou o grupo de variáveis mais significativas; 2. Analisar se é ordinal, intervalar ou nominal; 3. Verificar se a população é finita ou infinita; Tratamos, particularmente, de três situações: uma em que não se pode determinar o tamanho da população, apresenta nível de confiança fixado em 95% e proporção populacional do evento igual a 0,5, outra na qual também não se conhece o tamanho da população, sem fixar o nível de confiança e a proporção populacional do evento e uma terceira situação, na qual se conhece o tamanho da população. 2.3.1Metodologia Em um primeiro momento, procuramos, por meio de um recorte realizado na teoria da amostragem, pesquisar quais abordagens distintas se têm em relação ao tamanho da amostra aleatória simples para a estimação de proporções populacionais. Poucos estudiosos de Estatística tratam do assunto, especialmente entre aqueles que destinam seu trabalho ao usuário de metodologias quantitativas aplicadas às diversas áreas do conhecimento. Por outro lado, os livros técnicos, específicos da Teoria da Amostragem, não apresentam esse conteúdo de forma acessível à grande maioria dos pesquisadores. Apresentamos, então, uma análise de diferentes procedimentos disponíveis para a determinação do tamanho da amostra aleatória simples, destinada ao cálculo de estimativas de proporções e porcentagens populacionais. Para tal, realizamos simulações, utilizando planilhas do Excel, considerando-se diversos valores de parâmetros determinantes do tamanho da amostra aleatória simples, de acordo com a equação analisada. Como aplicação das técnicas analisadas, apresentamos a determinação do tamanho de uma amostra aleatória simples na área de Ciência da Informação. Considerando-se que a Coordenadoria Geral de Bibliotecas da UNESP nos solicitou, em 2003, a determinação do tamanho de uma amostra aleatória para representar uma população de tamanho (N) igual a 40416, composta por docentes, graduandos e pós-graduandos, para a execução de um projeto denominado "Implantação de modelo de referência na rede de bibliotecas da UNESP", desenvolvemos as técnicas apresentadas para essa população. ¹ por Ely Francina Tannuri de Oliveira e Maria Cláudia Cabrini Grácio Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 18 2.3.2 Análise dos Procedimentos Iniciamos com a análise da situação em que não se pode determinar o tamanho da população (N). Nesse caso, o tamanho mínimo da amostra aleatória simples pode ser determinado através do cálculo de n0, considerado uma primeira aproximação para o cálculo do tamanho da amostra, dado por: ( )200 1 E n = (I) sendo E0 o erro amostral tolerável A expressão acima apresentada mantém fixo o nível de confiança de 95% e a variância populacional no caso de maior heterogeneidade da população, ou seja, quando a proporção do evento na população em estudo é de 0,5. A fixação da proporção populacional do evento em 0,5, deve-se ao fato de ser esta a pior situação possível em termos de variabilidade populacional. Assim, pode-se considerar que a expressão (I) destina-se a três situações: uma primeira, na qual não se conhece uma estimativa da proporção do evento na populaçãoem estudo, uma vez que qualquer que seja o valor da proporção, este dá origem a uma variabilidade menor que aquela vinculada à proporção 0,5. Observamos que neste caso é preciso maior cuidado com a determinação da amostra e, conseqüentemente, a quantidade de elementos que a comporão. Uma segunda situação na qual o valor de uma estimativa preliminar para a proporção do evento estudado é igual a 0,5 e, uma última, na qual o estudo destina-se à estimação da proporção de vários eventos da população, com pelo menos um dos eventos sem presença de uma estimativa anterior de sua proporção na população. A seguir, apresentamos uma tabela com aplicações da fórmula acima para alguns valores de erro amostral tolerável, a fim de se exemplificar a relação entre E0 e uma primeira estimativa para o tamanho da amostra (n0). Tabela 1. Exemplos de tamanho de amostra (n0) em função do erro amostral tolerável: 0E 0n 0,01 0,015 0,02 0,025 0,030 0,035 0,040 0,050 Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 19 Conforme podemos observar na tabela 1, quanto menor o erro amostral tolerado pelo pesquisador, maior o tamanho da amostra necessário para se atendê-lo. Considerando que o erro amostral tolerável representa o quanto o pesquisador admite errar na estimação dos parâmetros de interesse, ou seja, especifica o intervalo em torno do valor que a estatística acusa, dentro do qual encontra-se o verdadeiro valor do paramêtro que se deseja estimar, quanto menor o erro amostral tolerado pelo pesquisador, maior será o tamanho da amostra para que se possa obter essa maior precisão da estatística. Assim, por exemplo, se o pesquisador tolerar no máximo um erro de 2%, i.e., que o verdadeiro valor do parâmetro seja no máximo 2% menor ou 2% maior que o valor que a estatística acusa na amostra, ele terá que trabalhar com uma amostra aleatória composta por 2500 indivíduos da população, ao passo que, se o pesquisador tolerar um erro amostral de 2,5%, ele terá que trabalhar com uma amostra aleatória composta por 1600 indivíduos da população e o verdadeiro valor do parâmetro da população estará no intervalo entre 2,5% a menos até 2,5% a mais do valor que a estatística acusa na amostra, com 95% de probabilidade. Portanto, quanto maior a precisão que se deseja associar à estimativa estatística, maior o tamanho amostral necessário para atendê-la. Ainda sem conhecer o tamanho N da população, considere-se a situação em que se conhece uma estimativa da variação populacional obtida por meio de um levantamento piloto ou em pesquisas prévias, e que deseja-se ter a opção de alterar o nível de confiança associado ao tamanho da amostra. Nesse caso, a determinação do tamanho de uma amostra aleatória simples, n’0, é obtida através da seguinte expressão: ( )20 2 0 )1.(.´ E ppzn −= (II) sendo z = valor da distribuição normal para o nível de confiança desejado p = estimativa da proporção do evento na população E0 = erro amostral tolerável. Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 20 A tabela 2 apresenta aplicações da fórmula (II) para alguns valores de erro amostral tolerável, nível de confiança e estimativa da proporção do evento na população, a fim de se exemplificar a dependência de n’0 em relação a E0, p e o nível de confiança. p 0E 0´n (90% de nível confiança) 0´n (95% de nível confiança) 0´n (99% de nível confiança) 0,5 0,02 0,5 0,025 0,4 0,02 0,4 0,025 0,3 0,02 0,3 0,025 0,2 0,02 0,2 0,025 0,1 0,02 0,1 0,025 Conforme podemos observar na primeira linha da tabela 2, mantendo-se fixos o valor da estimativa da proporção do evento (p) e o erro amostral tolerável (E0), quanto maior o nível de confiança, maior o tamanho da amostra necessário para atende-lo. Quanto maior a certeza (probabilidade) de o parâmetro populacional pertencer ao intervalo construído com base na estimativa estatística da amostra e o erro amostral tolerado pelo pesquisador, maior o tamanho da amostra para garantir a probabilidade (nível de confiança) desejada pelo pesquisador. Por exemplo, se o pesquisador desejar ter a garantia (probabilidade) de 90% que o verdadeiro valor do parâmetro populacional pertença ao intervalo determinado pela estimativa estatística na amostra e o erro amostral tolerável de 2%, deverá trabalhar com uma amostra de tamanho 1691, ao passo que se esse pesquisador desejar ter uma garantia maior, de 95%, que o verdadeiro valor do parâmetro populacional pertença ao intervalo centrado na estimativa estatística, com o mesmo erro amostral tolerável de 2%, para mais ou para menos, deverá trabalhar com uma amostra aleatória composta por 2401 indivíduos da população. Por outro lado, fixando-se o nível de confiança, i.e., observando-se cada coluna de n’0 individualmente, quanto mais a estimativa de p se distancia de 0,5, menor o tamanho da amostra necessário para se garantir a representatividade da população. Como o valor de p determina a variabilidade populacional, quanto mais homogênea for a população (p mais distante de 0,5), menor o tamanho da amostra para representá- la, pois teremos uma menor variabilidade nas respostas. Por exemplo, conhecendo-se que a estimativa para p, na população em estudo, é de 0,1, pode-se trabalhar com uma amostra constituída por 553 elementos, para um nível de 95% de confiança e E0 = 0,025 (ou 2,5%), a fim de se representar o comportamento geral da população, ao passo que caso não se tenha uma estimativa de p, i.e., trabalha-se com p = 0,5 (ou, sabe que a estimativa de p é 0,5 – ambos os casos se equivalem), precisa-se de uma amostra de 1537 elementos, para se atingir o mesmo nível de confiança e erro amostral, ou seja, uma amostra três vezes maior que a primeira. Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 21 Ainda, do mesmo modo que ocorre para o cálculo de n0 (tabela 1), observa-se na tabela 2 que quanto maior o valor do erro amostral tolerável, menor o tamanho de amostra associado. Com base nas constatações acima descritas, pode-se observar que o tamanho da amostra diminui em função do fato de a população ser mais homogênea (estimativa de p se distancia de 0,5), trabalhar-se com menores níveis de confiança e maiores erros amostrais toleráveis. Consideramos o cálculo de n’0 mais interessante que de n0, no sentido de possibilitar a fixação de outros níveis de confiança, mais severos ou não que 95%, conforme a necessidade do pesquisador, bem como propiciar o uso de estimativas da proporção do evento na população, proporcionando tamanhos de amostra menores e mais fáceis de serem atendidos, uma vez que, de modo geral, o custo financeiro da pesquisa , limita/dificulta o emprego de amostras grandes. Conhecendo-se o tamanho da população N, pode-se corrigir o cálculo de n0, obtido por I ou II, para se ter o tamanho da amostra aleatória simples, n, através da expressão: )( . nN nNn += (III) sendo n = n0 ou n’0. A tabela 3 exemplifica aplicações da fórmula (III) para alguns tamanhos de população e determinados valores de n obtidos nas tabelas anteriores, a fim de se observar a relação entre essas variáveis. Tabela 3. Exemplos de tamanho de amostra (n) em função do tamanho da população (N) e da proporção populacional (p), tomando-se nível de 95% de confiança e erro amostral tolerável igual a 0,025. N p n0 n(N, n0) n’0 n(N, n’0) 1000 0,5 1600 10000 0,5 1600 100000 0,5 1600 1000 0,25 1600 10000 0,25 1600 100000 0,25 1600 1000 0,1 1600 10000 0,1 1600 100000 0,1 1600 Material Complementarde Estatística Dedutiva Professor Jean Pierre Wasem 201 2 22 2.3.3.Uma aplicação na área de Ciência da Informação A rede de bibliotecas da UNESP atende uma população de 40416 usuários, entre docentes, graduandos e pós-graduandos, além de demais usuários. A Coordenadoria Geral de Bibliotecas da UNESP, na pessoa de sua coordenadora, iniciou em janeiro de 2003 um projeto denominado "Implantação de modelo de referência na rede de bibliotecas da UNESP". Para isso, nos solicitou a determinação do tamanho adequado de uma amostra aleatória simples para que a mesma seja representativa dessa população referenciada, possibilitando a revalidação dos resultados amostrais para toda a população de 40416 usuários. Admite-se um erro amostral tolerável de 2% (ou 0,02) nos resultados, i.e., que os parâmetros populacionais em estudo se distanciem no máximo 2% para mais ou para menos, em relação às estimativas estatísticas obtidas, e estabelece-se uma probalidade de acerto (nível de confiança) de 95% (ou 0,95) para as estimativas estatísticas a serem obtidas. Com base no erro amostral tolerável estabelecido (2%), uma primeira aproximação para o tamanho da amostra aleatória (n0) a ser retirada é dada pela equação (I): n0 = 1/(0,02)2 = 2500 usuários Assim, se não levarmos em conta o tamanho da população em estudo (docentes, graduandos e pós-graduandos), uma amostra de tamanho adequado para captar-se as tendências dessa população em relação às variáveis em estudo deve ser composta por 2500 usuários. Os parâmetros populacionais em estudo possuirão seus valores verdadeiros até 2% para a mais ou 2% para menos em relação às estimativas proporcionais obtidas Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 23 nessa amostra, i.e., o pesquisador estará admitindo uma margem de erro de até 2% para mais ou 2% para menos em relação aos verdadeiros valores populacionais. Como o tamanho da população é conhecido (40416 usuários), podemos utilizar a equação (III) e diminuir o tamanho da amostra que deverá ser utilizada nesse projeto, obtendo ainda uma amostra representativa da população. O tamanho da amostra aleatória simples (n) será: n = 2500. 40416/(2500+40416) = 2354 usuários Uma amostra de tamanho 2354 usuários representa 5,82% da população: 5,82% = (2354/40416).100% Observamos assim que, a indicação usual de que uma amostra deve abranger uma porcentagem fixa da população (entre 10 % e 20%), superestima o tamanho da amostra necessária para representar a população em estudo, uma vez que indica uma amostra entre 4042 (10% dos usuários) e 8084 (20% dos usuários). Para coletar uma amostra aleatória para essa população de usuários da rede de bibliotecas da UNESP, basta retirar 5,82% de cada segmento (docente, graduando e pós-graduando) em cada uma das unidades universitárias que pertence à rede de bibliotecas da UNESP. Salientamos que o erro amostral tolerável de 2% estará associado à estimativa geral dos parâmetros e não às estimativas estatísticas por segmento. Caso se exija essa margem de erro (erro amostral tolerável) por segmento, o cálculo do tamanho de amostra deverá ser feito para cada segmento (docente, graduando, pós-graduando), i.e., teremos três cálculos de tamanho de amostra, cada um relativo ao tamanho da população do segmento. O tamanho total da amostra, quando exige-se a precisão do erro amostral por segmento, vai corresponder à soma dos tamanhos das amostras de cada segmento, e representará uma amostra total maior que aquela em que não se exige a precisão do erro amostral nos segmentos, tolerando erros amostrais maiores para as estimativas porsegmento. 2.3.4.Considerações finais Com base nas expressões analisadas para o cálculo de determinação do tamanho de uma amostra aleatória simples para a estimação da proporção populacional de um evento, observa-se que quanto mais heterogênea for a população (p mais próximo de 0,5), maior será o tamanho da amostra, a fim de que ela possa ser representativa das características gerais daquela população. Essa constatação consolida a idéia intuitiva a cerca da composição de uma amostra em função da heterogeneidade dos elementos da população: quanto maior a heterogeneidade entre os elementos, maior a amostra a fim de captar essas diversidades. Assim, quando trabalha-se com Amostragem Estratificada e deseja-se que o erro amostral seja específico para cada estrato, precisa-se retirar uma amostra aleatória simples para cada estrato, caso contrário perde-se a determinação da Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 24 precisão do erro amostral tolerável por estrato, sendo fixo apenas o erro amostral tolerável para a estimativa geral da proporção na população. Observa-se ainda que a indicação de que uma amostra deve abranger uma porcentagem fixa, aproximadamente de 10 a 20%, dependendo do tamanho da população, é inadequada, uma vez que para populações pequenas, esse percentual está aquém do necessário. Por outro lado, para populações grandes esse percentual para a determinação do tamanho da amostra é muito maior que o necessário, apontado pelos cálculos. Assim, como mostra a figura 2, o percentual da população que deve ser abrangido para que uma amostra seja representativa para a população estudada, diminui a medida que cresce o tamanho da população. 3. Teste de hipótese Uma hipótese estatística é uma afirmativa a respeito de um parâmetro de uma distribuição de probabilidade. Através dos elementos amostrais faz-se um teste que indicará a aceitação ou rejeição da hipótese formulada. Hipótese estatística é uma suposição de um parâmetro populacional. Por exemplo: 1. A renda média da população de Forquilhinha é R$ 350,00. Então H: μ = 350,00. 2. A proporção de alunos reprovados é 35%, ou seja: H:p = 0,35 A contrapartida para uma hipótese alternativa (H1) é a hipótese nula (H0). A primeira sempre é expressa por uma desigualdade e a segunda sempre por uma igualdade. Utiliza-se o teste de hipótese para casos como comparação de médias, de pares de observação, de variâncias, e de parâmetros, entre outros. Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 25 4. Estatística não paramétrica Distintamente da estatística paramétrica que trata de testes para variáveis razão e intervalares, a estatística paramétrica aborda os testes para variáveis nominais e ordinais. Conclui-se então que os parâmetros populacionais e as estimativas são desconsiderados nos testes a seguir. Segundo Fonseca (1996), os testes não paramétricos são muito interessantes para os dados qualitativos quando se trabalha com amostras pequenas, (inferiores a 30). Os principais representantes desta estatística são os testes de Qui Quadrado, de Wilcoxon, de Mann-Whitney, da Mediana, e de Kruskall-Wallis. Abordar-se-á apenas o de Qui quadrado por considerar-se o mais importante e popular. 3.4 Teste do qui quadrado Este teste objetiva verificar se a freqüência absoluta observada de uma variável é significativamente diferente da distribuição de freqüência absoluta esperada. 3.4.1 Teste do qui quadrado para uma amostra Aplica-se quando se quer estudar a dependência entre duas variáveis, através de uma tabela de dupla entrada ou também conhecida como tabela de contingência. 3.4.1.1 Condições para a execução do teste Exclusivamente para variáveis nominais e ordinais; Observações independentes; Não se aplica se 20% das observações forem inferiores a 5 Não pode haver freqüências inferiores a 1; Nos dois últimos casos, se houver incidências desta ordem, aconselha-se agruparos dados segundo um critério em específico. Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 26 3.4.1.2 Procedimento para a execução do teste 1. Determinar H0. Será a negativa da existência de diferenças entre a distribuição de freqüência observada e a esperada; 2. Estabelecer o nível de significância (∝ ); 3. Determinar a região de rejeição de H0. Determinar o valor dos graus de liberdade (φ), sendo K – 1 (K = número de categorias). Encontrar, portanto, o valor do Qui-quadrado tabelado; 4. Calcular o Qui Quadrado, através da fórmula: ∑ ⎥⎦ ⎤⎢⎣ ⎡ −= e eo 22 )(χ Sendo o Qui Quadrado calculado, maior do que o tabelado rejeita-se H0 em prol de H1. Exemplo: Um vendedor trabalhou comercializando um produto em sete bairros residenciais de uma mesma cidade em um mesmo período do ano. Seu gerente decidiu verificar se o desempenho do vendedor oscilava em virtude do bairro trabalhado, ou seja, se as diferenças eram significativas nos bairros trabalhados. A partir deste estudo o gerente poderia então elaborar uma estratégia comercial para cada bairro ou manter uma para todos. Bairro 1 2 3 4 5 Total Valores Observados 9 11 25 20 15 80 Valores Esperados 16 16 16 16 16 80 H0: não há diferenças significativas entre os bairros H1: as diferenças observadas para os bairros 3 e 4 são significativamente diferentes para melhor em relação aos demais bairros. ∝ = 0,05 g.l = 5 – 1 = 4, onde Qui quadrado tabelado é igual a 9,49. Χ2 = (9-16)2 + (11 – 16) 2 + (25-16) 2 + (20 – 16) 2 + (15 – 16) 2/16 Χ2 = 72 + 52 +92 + 42 + 12= 172/16 = 10,75 Conclui-se que o Qui quadrado calculado (10,75) é maior do que o tabelado (9,49), rejeita-se H0 em prol de H1. Portanto há diferença significativa, ao nível de 0,05, para os bairros 3 e 4. Face ao cálculo o gerente deve elaborar uma estratégia comercial para cada bairro. Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 27 3.4.2 Teste do qui quadrado para independência (duas amostras) A utilização do presente teste em pesquisa visa verificar se as distribuições de duas ou mais amostras não relacionadas diferem significativamente em relação à determinada variável. 3.4.2.1 Condições para a execução do teste Exclusivamente para variáveis nominais e ordinais; Preferencialmente para amostras grandes, <30; Observações independentes; Não se aplica se 20% das observações forem inferiores a 5 Não pode haver freqüências inferiores a 1; Nos dois últimos casos, se houver incidências desta ordem, aconselha-se agrupar os dados segundo um critério em específico. 3.4.2.2 Procedimento para a execução do teste Determinar H0. As variáveis são independentes, ou as variáveis não estão associadas; Estabelecer o nível de significância (∝ ); Determinar a região de rejeição de H0. Determinar o valor dos graus de liberdade (φ), sendo φ = (L – 1) (C – 1), onde L = números de linhas da tabela e C = ao número de colunas.. Encontrar, portanto, o valor do Qui-quadrado tabelado; Calcular o Qui Quadrado, através da fórmula: ∑ ⎥⎦ ⎤⎢⎣ ⎡ −= e eo 22 )(χ Para encontrar o valor esperado (E), utilizar a fórmula a seguir: Sendo o Qui Quadrado calculado, maior do que o tabelado rejeita-se H0 em prol de H1. Há dependência ou as variáveis não estão associadas. Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 28 Exemplo: Um pesquisador deseja identificar se há dependência no consumo de seus chocolates e as cidades de sua região. Cidades do Vale do Taquari Sabor do chocolate Lajeado Santa Cruz Estrela Taquari ∑ Chocolate com caju 60 30 20 40 150 Chocolate com amendoim 45 35 20 10 110 Chocolate com flocos 55 25 47 13 140 Chocolate com passas 70 35 25 20 150 ∑ 230 125 112 83 550 H0: A preferência pelos sabores independe da cidade H1: A preferência pelos sabores depende da cidade. ∝ = 0,05 φ = (4 – 1) (3 – 1) = 6, onde Qui quadrado tabelado é igual a 12,6. Calculo dos valores esperados (E). Cidades do Vale do Taquari Sabor do chocolate Lajeado Santa Cruz Estrela Taquari Chocolate com caju 62,7 34,1 30,5 22,6 Chocolate com amendoim 46,0 25,0 22,4 16,6 Chocolate com flocos 58,5 31,8 28,5 21,1 Chocolate com passas 62,7 34,1 30,5 22,6 Χ2 = (60 – 62,7)2/62,7 + [(30 – 34,1) 2/34,1 ...[(20 – 22,6) 2/22,6 = 0,11+0,49+3,61+13,39+0,02+4+0,25+2,62+0,21+1,45+12+3,11+0,85+0,32 +0,99+0,29 = 43,72 Conclui-se que o Qui quadrado calculado (43,72) é maior do que o tabelado (12,6), rejeita-se H0 em prol de H1. Portanto há diferença significativa, ao nível de 0,05, para as cidades. Material Complementar de Estatística Dedutiva Professor Jean Pierre Wasem 201 2 30 Johann Carl Friedrich Gauss (1777 – 1855) nasceu num casebre em Braunschweig, seu pai Gerhard Diederich era jardineiro e pedreiro. Severo e brutal, tudo fez para impedir que seu filho desenvolvesse seu grande potencial. Foi salvo por sua mãe Dorothea e seu tio Friederich que apercebeu-se da inteligência de seu sobrinho. Tinha memória fotográfica, tendo retido as impressões da infância e da meninice nítidas até a sua morte. Ressentia-se de que seu tio Friederich, um gênio, perdera-se pela morte prematura. Aos dois anos impressionava a todos que acompanharam o seu desenvolvimento. Antes dos três anos corrigiu uma longa soma que seu pai fazia, ao seu lado, em voz alta, do pagamento aos trabalhadores sob sua responsabilidade. Gerhard ouviu surpreso o menino dizer “Pai, a conta está errada, deveria ser.....” Repetindo a conta viu que o menino estava certo. Antes disto ele já aprendera a ler e a somar sozinho. Aos sete anos entrou para a escola. Seu diretor, Butner, utilizava o espancamento como método de ensino. Aos dez anos ele foi admitido na classe de aritmética. Na primeira aula sem que os alunos ali presentes jamais tivessem ouvido falar de uma progressão aritmética, Butner deu-lhes um longo problema de soma, cujo resultado, através de uma fórmula, poderia ser encontrado em alguns segundos. O problema era o seguinte: 81297 + 81395 + 81693 + ......... + 100899, em que a diferença de um número para o próximo era a mesma sempre (aqui 198), e um determinado número de termo (aqui 100) para ser somado, o que tornava a obtenção do resultado simples, caso se soubesse deste macete. Disse o professor: “Quem for terminando, vá colocando a lousa sobre a minha mesa.” Terminado o ditado Gauss colocou sua lousa na mesa. Ele pensou “mais um aluno idiota”. Quando foi verificar as respostas, na lousa de Gauss estava apenas um único número, o certo. Ele descobrira, instantaneamente, o macete. Todos os outros alunos tinham enormes somas... erradas. Butmer ficou tão atônito com a proeza de um menino de dez anos que pagou do próprio bolso livros de aritmética para ele, que os absorvia instantaneamente. Reconhecendo que fora ultrapassado pelo aluno passou o ensino para seu jovem assistente, Johann Martin Bartels (1769-1856), apaixonado pela matemática. Entre Bartels com dezessete anos e o aluno de dez nasceu uma boa amizade que durou toda a vida. Eles estudavam juntos, ajudando-se um ao outro em suas dificuldades. O encontro de Gauss com o teorema binômio inspirou-o para alguns de seus maiores trabalhos, tornando-se ele o primeiro “rigorista”. Insatisfeito com o que ele e Bartels encontravam em seus livros, Gauss foi além, e iniciou a análise matemática. Material Complementar de Estatística Dedutiva Professor JeanPierre Wasem 201 2 31 Nenhum matemático anterior tinha a menor concepção do que é agora aceitável como prova, envolvendo o processo infinito. Ele foi o primeiro a ver que a “prova” que pode levar a absurdos como “menos 1 é igual ao infinito” não é prova nenhuma. Mesmo que, em alguns casos, uma fórmula dê resultados consistentes, ela não tem lugar na matemática, até que a precisa condição sob a qual ela continuará a se submeter, consistentemente, tenha sido determinada. O rigor imposto por Gauss à análise superou toda a matemática, tornando-a totalmente diferente dos que o antecederam. 17. Bibliografia CUNHA, M.V. Análise Multidimensional de Dados Categóricos. In: PPGA, UFRGS, 16. 1997. Porto Alegre, RS FONSECA, J. S, MARTINS, G. Curso de Estatística. São Paulo. Atlas.1996 FREITAS & CUNHA CONSULTORES LTDA. Guia do Usuário – Sphinx Léxica 2.08 for Windows®. Porto Alegre, 1998. KOTLER, P. Administração de Marketing: Análise, Planejamnto, Implementação e controle. São Paulo: Atlas, 1996. LABES, E. M. Questionário: do planejamento à aplicação na pesquisa. Chapecó: Grifos, 1998. MARR, S.L., CROSBY, L.A. Customer Satisfaction Measurement: a management Information system for total quality. Artigo de trabalho da Disciplina de Comportamento do consumidor – PPGA – UFRGS, 1996. MATTAR, F. N. Pesquisa de Marketing. São Paulo: Atlas, 1996. ROSSI, C. A. V.; SLONGO, L. A. Pesquisa de satisfação de clientes: o estado-da- arte proposição de um método Brasileiro. In: ENCONTRO ANUAL DA ANPAD, 21., Anais. 1997, Rio das Pedras, RJ. p.124 SLACK, N. Administração da produção. São Paulo: Atlas, 1997.
Compartilhar