Baixe o app para aproveitar ainda mais
Prévia do material em texto
AN02FREV001/REV 4.0 1 PROGRAMA DE EDUCAÇÃO CONTINUADA A DISTÂNCIA Portal Educação CURSO DE METODOLOGIA DE PESQUISA QUANTITATIVA Aluno: EaD - Educação a Distância Portal Educação AN02FREV001/REV 4.0 2 CURSO DE METODOLO METODOLOGIA DE METODOLOGIA DE PESQUISA QUANTITATIVA MÓDULO I Atenção: O material deste módulo está disponível apenas como parâmetro de estudos para este Programa de Educação Continuada. É proibida qualquer forma de comercialização ou distribuição do mesmo sem a autorização expressa do Portal Educação. Os créditos do conteúdo aqui contido são dados aos seus respectivos autores descritos nas Referências Bibliográficas. AN02FREV001/REV 4.0 3 SUMÁRIO MÓDULO I 1 INTRODUÇÃO À PESQUISA QUANTITATIVA 1.1 CONCEITOS BÁSICOS DA PESQUISA QUANTITATIVA 1.2 DIFERENÇAS ENTRE PESQUISA QUANTITATIVA E QUALITATIVA 1.3 APLICAÇÕES DA PESQUISA QUANTITATIVA MÓDULO II 2 PRINCÍPIOS DA METODOLOGIA DE PESQUISA QUANTITATIVA 2.1 TÉCNICAS DE AMOSTRAGEM 2.2 TIPOS DE VARIÁVEIS 2.3 MEDIDAS DE POSIÇÃO E DE DISPERSÃO 2.4 DEFINIÇÃO E PROPRIEDADES DA PROBABILIDADE 2.5 DISTRIBUIÇÕES DE PROBABILIDADES 2.5.1 Distribuição de Probabilidade Binomial 2.5.2 Distribuição de Probabilidade Poisson 2.5.3 Distribuição de Probabilidade Normal 2.6 ESTIMAÇÃO DE PARÂMETROS MÓDULO III 3 TESTES DE HIPÓTESES 3.1 CONCEITOS FUNDAMENTAIS 3.2 TESTES DE HIPÓTESES NÃO PARAMÉTRICOS 3.3 TESTES DE ADERÊNCIA 3.4 COMPARAÇÃO DE AMOSTRAS 3.4.1 Comparação de duas amostras independentes 3.4.2 Comparação de duas amostras relacionadas 3.4.3 Comparação de mais de duas amostras independentes AN02FREV001/REV 4.0 4 MÓDULO IV 4 MÉTODOS QUANTITATIVOS 4.1 ANÁLISE DE CORRELAÇÃO E MEDIDAS DE ASSOCIAÇÃO 4.1.1 Diagramas de dispersão 4.1.2 A covariância e as medidas de associação 4.2 ANÁLISE DE REGRESSÃO 4.2.1 Regressão linear simples 4.2.2 Métodos dos mínimos quadrados ordinários 4.2.3 Análise de variância da regressão 4.2.4 Erro padrão de estimação e intervalos de predição 4.2.5 Análise de resíduos REFERÊNCIAS BIBLIOGRÁFICAS AN02FREV001/REV 4.0 5 MÓDULO I 1 INTRODUÇÃO À PESQUISA QUANTITATIVA 1.1 CONCEITOS BÁSICOS DA PESQUISA QUANTITATIVA A metodologia científica está relacionada aos conceitos de método e ciência. O conceito de metodologia retrata o estudo do método, ou seja, é o conjunto de mecanismos necessários a realização de uma pesquisa. Já o conceito de ciência relaciona-se ao conhecimento, ao domínio do saber. Diante disso, o método científico representa um sistema ordenado de conhecimento que visa a obtenção de conclusões formuladas baseadas em hipóteses propostas. A pesquisa é a base da metodologia. É por meio da pesquisa que são obtidas soluções para diversas questões preestabelecidas, contando sempre com o auxílio dos processos científicos. Com base nessas informações podemos ter uma ideia da importância da condução de pesquisas científicas para o avanço e desenvolvimento da ciência. Toda pesquisa científica baseia-se no raciocínio lógico, nos procedimentos sistemáticos e nos métodos científicos. O objetivo principal de uma pesquisa é encontrar soluções para os problemas propostos pelos pesquisadores. As pesquisas científicas podem ser classificadas de acordo com vários fatores. O interessante para o nosso estudo neste curso é a classificação quanto à abordagem. Uma pesquisa científica quanto à abordagem pode ser classificada em pesquisa científica qualitativa e pesquisa científica quantitativa. Nos dias atuais podemos observar a pesquisa quantitativa cada vez mais atuante em todos os campos da ciência. Vários tipos de atividades dependem da estatística, como por exemplo, a área econômica sempre utiliza as técnicas estatísticas em suas decisões; a área ambiental conta com as técnicas estatísticas AN02FREV001/REV 4.0 6 na avaliação do controle da poluição; a área farmacêutica no estudo dos efeitos dos medicamentos e vários outros exemplos. A partir destes poucos exemplos, podemos notar a importância da estatística como ferramenta necessária para a compreensão dos fenômenos que ocorrem nas mais diferentes áreas. Nesse contexto, serão abordados os principais conceitos da pesquisa quantitativa e no próximo item serão retratadas as diferenças entre esses dois tipos de pesquisa. População Dá-se o nome de população ou universo estatístico ao conjunto de elementos que apresentam uma ou mais características em comum. Assim, por meio da população que são realizados os estudos estatísticos. As características e o comportamento das populações são variáveis de grande interesse para os pesquisadores. Como dito anteriormente, a população é constituída de diversos elementos e a cada elemento desse conjunto damos o nome de Unidade Estatística. O número de unidades estatísticas é variável e depende do estudo em questão. Ao conjunto de unidades estatísticas damos o nome de Dimensão populacional. A dimensão populacional é de grande importância na obtenção de resultados fidedignos ao final dos estudos estatísticos e, portanto, pode ser classificada em finita e infinita. Dimensão populacional ou população finita: Uma dimensão populacional ou população finita é aquela em que é possível realizar a enumeração de todos os seus elementos. Retrata um universo limitado. AN02FREV001/REV 4.0 7 Exemplos: O número de medicamentos produzidos por uma indústria farmacêutica por mês; O número de habitantes de determinada cidade; O número de estudantes em uma sala de aula; O número de estudantes em uma escola; O número de doentes que apresentam determinada doença em um hospital; O número de centros de saúde de uma determinada cidade. Dimensão populacional ou população infinita: Já uma dimensão populacional ou população infinita, não é possível realizar a enumeração de seus elementos constituintes. Dessa forma, não é possível uma delimitação do universo, já que seus elementos não podem ser mensurados. Exemplos: Os resultados (cara ou coroa) obtidos em sucessivos lançamentos de uma moeda; AN02FREV001/REV 4.0 8 O conjunto de números inteiros, reais ou naturais; Os pontos de uma reta; A temperatura em cada ponto do Brasil; O estudo de uma população no seu todo quase sempre não é possível por diversos motivos. Dentre os mais importantes estão: O tamanho populacional, ou seja, a população sob estudo pode ser infinita; Muitos estudos levam a destruição da população; Dificuldades de recursos financeiros e de tempo; Inacessibilidade de alguns dos elementos da população. Além da classificação em finitas e infinitas, as populações também podem ser classificadas em reais ou conceituais. AN02FREV001/REV 4.0 9 Populações reais Uma população é chamada de real quando é constituída por elementos presentes no momento exato da realização da pesquisa. Uma característica especialdas populações reais é que elas são sempre finitas. Populações conceituais O conceito de populações conceituais refere-se a populações cujas unidades constituintes não são identificáveis Como a maioria das populações de interesse é infinita, as pesquisas científicas são realizadas com parte dessa população, objetivando reduzir os custos e o tempo de trabalho. A essa parte da população denominamos amostra. Amostra Amostra é o nome dado a qualquer parcela de uma determinada população com a finalidade de reproduzir a realidade estudada. A amostra deve ser representativa, ou seja, manter as características da população (Figura 1). AN02FREV001/REV 4.0 10 FIGURA 1 - REPRESENTAÇÃO DE POPULAÇÃO E AMOSTRA FONTE: Disponível em: <http://www.portalaction.com.br>. Acesso em: 01 out. 2012. Outra característica da amostra é que ela seja aleatória, ou seja, que sua forma de obtenção seja aleatória. É necessário que toda amostra seja selecionada adequadamente, já que erros nesse momento do trabalho acarretarão em resultados não confiáveis. Estatística descritiva Denomina-se Estatística descritiva a parte da estatística responsável pela organização, resumo e apresentação dos dados de determinado estudo. AN02FREV001/REV 4.0 11 Inferência estatística Em toda pesquisa científica, o pesquisador necessita de confiabilidade. A essa confiabilidade damos o nome de Inferência Estatística. Portanto, com base nas informações da amostra o pesquisador pode inferir sobre as informações da população, por meio de técnicas e procedimentos. Método estatístico O método estatístico é uma ferramenta utilizada na organização e estruturação das fases de uma pesquisa. Toda pesquisa apresenta as seguintes fases: Definição do problema; Planejamento; Coleta de Dados; Apuração dos Dados; AN02FREV001/REV 4.0 12 Apresentação dos Dados; Análise e interpretação. Significância estatística (nível-p) O nível de significância ou nível-p representa uma mensuração de que determinado resultado seja verdadeiro, ou seja, o resultado realmente indica uma representatividade da população. Certeza estatística Toda pesquisa embasada em ferramentas estatísticas permite a certeza estatística, ou seja, a confiabilidade dos resultados. Hipótese O conceito de hipótese retrata uma explicação de determinado fato, uma suposição. AN02FREV001/REV 4.0 13 1.2 DIFERENÇAS ENTRE PESQUISA QUANTITATIVA E QUALITATIVA Como já dito anteriormente, a pesquisa científica quanto à abordagem é classificada em qualitativa e quantitativa. Nesse item procuraremos fazer a distinção desses dois tipos de pesquisa. De acordo com a literatura, a pesquisa qualitativa é multimetodológica e está sempre se preocupando com a qualidade, ou seja, com os significados e valores. A imprevisibilidade caracteriza o desenvolvimento da pesquisa qualitativa, já que seus aspectos não podem ser quantificados. Neste tipo de pesquisa, as informações obtidas não são comprovadas e os pesquisadores envolvidos apresentam conhecimentos parciais e limitados. A pesquisa qualitativa é, então, criticada pelo empirismo, subjetividade e intuição do pesquisador. É considerado um método indutivo de pesquisa. Já considerando a pesquisa quantitativa, podemos dizer que ela leva em consideração a objetividade, ou seja, seus resultados podem ser quantificados por meio da análise dos dados e a utilização de ferramentas estatísticas. Na tabela 1 encontram-se os principais aspectos das pesquisas qualitativa e quantitativa. AN02FREV001/REV 4.0 14 TABELA 1 - ASPECTOS DA PESQUISA QUALITATIVA E DA PESQUISA QUANTITATIVA FONTE: Moresi (2003). Na tabela 2, encontra-se uma comparação entre os métodos qualitativo e quantitativo. TABELA 2 - COMPARAÇÃO ENTRE OS MÉTODOS QUALITATIVO E QUANTITATIVO FONTE: Moresi (2003). AN02FREV001/REV 4.0 15 Abaixo serão dadas as principais diferenças entre as pesquisas qualitativa e quantitativa. Diferenças quanto à amostra: Considerando a pesquisa que utiliza a abordagem qualitativa, os seus resultados não são projetados para a população, já que utilizam normalmente amostras pequenas. Já na pesquisa quantitativa, por utilizarem amostras representativas da população, projetam seus resultados para a população. Diferenças quanto à entrevista Quanto às entrevistas, a principal diferença entre as pesquisas qualitativas e quantitativas está relacionada à forma como são conduzidas. Na pesquisa qualitativa as entrevistas são geralmente discussões em grupo, ou seja, um bate-papo em que são gravados os depoimentos do grupo entrevistado. Podem ocorrer também entrevistas pré-agendadas, as chamadas entrevistas em profundidade, em que ocorre privacidade, ou seja, cada entrevistado é ouvido individualmente. Porém, na pesquisa qualitativa não há nenhum critério predefinido quanto à escolha dos entrevistados. Já na pesquisa quantitativa isso não ocorre. Os pesquisadores selecionam previamente os entrevistados quanto às características de interesse. Aqui, as entrevistas são feitas sempre individualmente. AN02FREV001/REV 4.0 16 Diferenças quanto ao questionário As diferenças entre as pesquisas quantitativa e qualitativa quanto ao questionário estão relacionadas à forma estrutural deste. Na pesquisa qualitativa, há um roteiro a ser seguido pelo entrevistador e os entrevistados têm seus depoimentos gravados e posteriormente avaliados. Já na pesquisa quantitativa, os entrevistados respondem a um questionário bem estruturado, construído por perguntas claras e objetivas responsáveis pela uniformidade do entendimento dos entrevistados. Diferenças quanto ao relatório As diferenças entre as pesquisas quantitativa e qualitativa quanto ao relatório está na forma de apresentação deste. Na pesquisa qualitativa, o relatório é constituído de interpretações e conclusões do roteiro aplicado pelo entrevistador. Na pesquisa quantitativa, o relatório consta também da apresentação dos dados obtidos (tabelas e gráficos). Por mais que existam várias diferenças entre os tipos de pesquisa, é certo que a pesquisa quantitativa e a pesquisa qualitativa são duas correntes complementares. AN02FREV001/REV 4.0 17 1.3 APLICAÇÕES DA PESQUISA QUANTITATIVA O que determina o predomínio dos métodos a serem utilizados é o objetivo principal da pesquisa e o grau de conhecimento prévio que já exista a respeito do objeto em análise. As pesquisas quantitativas são aplicadas sempre que são necessários dados numéricos para representar determinada realidade ou fenômeno. A pesquisa quantitativa está presente em todas as áreas da ciência. Abaixo serão dados alguns exemplos da aplicação da pesquisa quantitativa no cotidiano. Pesquisa Quantitativa nas Ciências da Computação A pesquisa quantitativa é bastante empregada na Ciência da Computação e tem comoobjetivo principal verificar o quão “melhor” é usar um programa/sistema novo frente à(s) alternativa(s). Determinadas áreas da computação usam conjuntos de dados ou conjuntos de exemplos definidos pela comunidade como forma de avaliar os programas. Tais conjuntos de dados são chamados de benchmarks. Os benchmarks devem em princípio representar a possível diversidade dos “dados reais”. Os benchmarks são agrupados em três classes: AN02FREV001/REV 4.0 18 1ª classe Os benchmarks dessa classe são usados para avaliar o tempo de execução de determinado programa. 2ª Classe Os benchmarks dessa classe são usados para avaliar se determinado programa consegue obter um resultado (dentro talvez de certas restrições de tempo de execução) e resultam em um conjunto de medidas binárias (resolveu ou não resolveu o problema). 3ª Classe Os benchmarks dessa classe são usados para avaliar a qualidade da resposta do programa É com base nessas informações obtidas por benchmarks que é realizada a pesquisa quantitativa de satisfação em áreas de jogos, da robótica e de programação. AN02FREV001/REV 4.0 19 Pesquisa Quantitativa na Educação A pesquisa quantitativa não é muito utilizada na educação. Porém, há questões que só são compreendidas quando são levados em conta os aspectos quantitativos. Um exemplo é a questão do analfabetismo no Brasil. Não é possível uma discussão política em relação a esse problema sem ter dados sobre o volume e a distribuição do problema segundo algumas variáveis como: gênero, idade, condição socioeconômica, região geográfica, cidade ou meio rural, etc. Neste contexto, os números se tornam extremamente importantes, bem como suas relações. AN02FREV001/REV 4.0 20 Pesquisa Quantitativa na Enfermagem FONTE: www.ufpel.edu.br/cic/2010/cd/ca.htm A pesquisa quantitativa na área da enfermagem tem como objetivo produzir dados estatisticamente significantes, relativos a uma realidade, que permitem avaliar a importância, gravidade, risco e tendência de agravos e ameaças. AN02FREV001/REV 4.0 21 Pesquisa Quantitativa no Âmbito da Religião A pesquisa quantitativa no âmbito religioso visa determinar como é a porcentagem geral das religiões no Brasil, ou seja, determinar a realidade social religiosa da sociedade brasileira. Pesquisa Quantitativa no Esporte No esporte, várias pesquisas quantitativas são feitas visando determinar a preferência dos estudantes brasileiros às modalidades esportivas, visando determinar a influência da prática de esportes na saúde e no desenvolvimento intelectual dos brasileiros, dentre outras. AN02FREV001/REV 4.0 22 Pesquisa Quantitativa na Sociedade de Consumo Muitas pesquisas quantitativas são feitas visando determinar o consumo de frutas, legumes e verduras pela população, determinar o consumo de álcool nas escolas públicas brasileiras, bem como determinar a porcentagem de pessoas usuárias de drogas e os tipos de drogas mais utilizados. FIM DO MÓDULO I AN02FREV001/REV 4.0 23 299PROGRAMA DE EDUCAÇÃO CONTINUADA A DISTÂNCIA Portal Educação CURSO DE METODOLOGIA DE PESQUISA QUANTITATIVA Aluno: EaD - Educação a Distância Portal Educação AN02FREV001/REV 4.0 24 CURSO DE METODOLO METODOLOGIA DE METODOLOGIA DE PESQUISA QUANTITATIVA MÓDULO II Atenção: O material deste módulo está disponível apenas como parâmetro de estudos para este Programa de Educação Continuada. É proibida qualquer forma de comercialização ou distribuição do mesmo sem a autorização expressa do Portal Educação. Os créditos do conteúdo aqui contido são dados aos seus respectivos autores descritos nas Referências Bibliográficas. AN02FREV001/REV 4.0 25 MÓDULO II 2 PRINCÍPIOS DA METODOLOGIA DE PESQUISA QUANTITATIVA 2.1 TÉCNICAS DE AMOSTRAGEM A amostragem é um instrumento que visa analisar amostras de determinada população, buscando, assim, informações inerentes à população, contando com o auxílio da teoria probabilística. A amostragem trabalha com amostras que devem ser representativas da população estudada. Isso garante que cada elemento tenha a mesma probabilidade de ser escolhido. Esse fato é de grande importância, já que as inferências a respeito da população serão feitas baseadas nas amostras. A realização de pesquisas é baseada nas questões relativas às tomadas de observações da realidade, ou seja, na obtenção de uma amostra dessa realidade. A busca por metodologias adequadas, visando garantir o valor científico das informações e conclusões formuladas são sempre realizadas pelos pesquisadores. O método, também chamado de delineamento, é o plano estratégico de observação da realidade e é também de grande importância no processo. Como já mencionado, os levantamentos por amostragem têm a finalidade de reproduzir a realidade estudada. Esses levantamentos são aplicados à população analisada. Os dados são obtidos por meio de amostras da população e, a partir daí, são obtidas estimativas que representam as informações disponíveis a respeito dos parâmetros populacionais. Diante do exposto, podemos conceituar amostragem como a definição de tamanho e desenho da amostra, bem como, a ferramenta utilizada para a obtenção das estimativas dos parâmetros populacionais. AN02FREV001/REV 4.0 26 Como podemos perceber a obtenção de amostras para a realização de estudos populacionais é de extrema importância para a garantia de resultados fidedignos. Para que esses resultados sejam alcançados, como já foi dito anteriormente, é necessário que haja representatividade da amostra, ou seja, que a amostra seja capaz de reproduzir todas as características básicas da população em questão. Dessa forma, a orientação de uma pesquisa é sempre baseada em amostras, devido à dificuldade em se conseguir trabalhar com o todo populacional. Todas as informações obtidas da amostra, então, servirão de base para inferirmos o comportamento populacional. Como já foi dito no módulo anterior, uma amostra representa uma população. Diante disso, os trabalhos baseados nos conjuntos amostrais são preferidos e justificados por: a) Custo As despesas com operacionalização estatística da amostra são geralmente bem menores. b) Velocidade Por apresentarem um menor número de elementos, as pesquisas baseadas em amostras são bem mais rápidas. c) Praticidade As pesquisas realizadas com amostras, devido ao fato de serem mais rápidas, são mais práticas. AN02FREV001/REV 4.0 27 O processo de amostragem é classificado em: probabilístico e não probabilístico. Uma amostragem é considerada probabilística quando há a garantia de que todo elemento da população apresente a mesma probabilidade de fazer parte da amostra. Essa probabilidade pode ser conhecida ou diferente de zero. A amostragem probabilística pode ser de vários tipos. Abaixo serão exemplificados os quemais se destacam nos processos estatísticos: a) Amostragem probabilística casual ou aleatória simples Um exemplo de processo de amostragem probabilística é a amostragem casual ou aleatória simples. Esse tipo de amostragem consiste no fato de que qualquer elemento retirado da população tem a mesma probabilidade de ser sorteado para compor a amostra. É um dos processos de amostragem mais simples e também o mais utilizado nas análises estatísticas (Figura 2). FIGURA 2 - DEMONSTRAÇÃO DE UMA AMOSTRAGEM ALEATÓRIA SIMPLES FONTE: Disponível em: <http://www.uapi.edu.br>. Acesso em: 29 set. 2012. AN02FREV001/REV 4.0 28 O número de elementos da amostra é previamente definido. Portanto, o processo de amostragem casual simples deve ser repetido até que a amostra tenha sido completada. O processo de amostragem casual simples pode ser dividido em: amostragem casual simples sem reposição e amostragem casual simples com reposição. Em populações muito grandes não há diferença entre esses dois processos, já que a probabilidade de um elemento ser sorteado mais de uma vez para compor a amostra é muito pequena. Geralmente, a amostragem casual simples é aplicada quando as populações sob análises são finitas. Uma característica exigida para que haja sucesso da amostragem, ou seja, para que estimativas fidedignas dos parâmetros populacionais possam ser obtidas, refere-se a uma homogeneidade entre os elementos dessa população. Essa homogeneidade é difícil de ser caracterizada nas situações práticas. Nunca se deve confundir homogeneidade com falta de variabilidade da população. b) Amostragem probabilística proporcional estratificada Outro exemplo de processo de amostragem probabilística é a amostragem proporcional estratificada que consiste na divisão da população em estratos mutuamente exclusivos. Dentro de cada estrato é realizada a amostragem casual simples. O sorteio deve levar em consideração a heterogeneidade entre os estratos e a homogeneidade dentro de cada estrato. A maior vantagem da utilização da estratificação de amostras é a precisão na estimação dos parâmetros populacionais. As estimativas obtidas em cada estrato são combinadas e, a partir daí, pode-se inferir sobre determinado parâmetro da população como um todo. AN02FREV001/REV 4.0 29 c) Amostragem probabilística sistemática Considera-se amostragem sistemática todo processo em que a amostra da população é constituída de intervalos regulares de mesmo tamanho. FIGURA 3 - DEMONSTRAÇÃO DE UMA AMOSTRAGEM SISTEMÁTICA FONTE: Disponível em: <http://www.uapi.edu.br>. Acesso em: 29 set. 2012. O primeiro passo para se realizar uma amostragem sistemática é verificar a ocorrência de ordenação dos elementos da população. Em caso desses se encontrarem ordenados, não haverá necessidade da construção de um sistema de referência. Porém, se o contrário ocorrer, a forma de amostragem deve considerar um gride alinhado e não alinhado. A forma de amostrar deve considerar um gride alinhado ou não alinhado. No gride alinhado, a sequência de unidades na horizontal, ou na vertical, segue a mesma distância ou alinhamento. No gride não alinhado essa disposição não obedece a essa regra. AN02FREV001/REV 4.0 30 d) Amostragem probabilística por conglomerados ou agrupamentos A amostragem por conglomerados ou agrupamentos consiste em sorteios de grupos para compor a amostra (Figura 4). FIGURA 4 - DEMONSTRAÇÃO DE AMOSTRAGEM POR CONGLOMERADOS FONTE: Disponível em: <http://www.uapi.edu.br>. Acesso em: 29 set. 2012. A razão da utilização desse tipo de amostragem é a praticidade e economia envolvidas no processo, que dispensa a listagem de todos os elementos populacionais. Geralmente realizam-se os sorteios em estágios sucessivos e somente os conglomerados sorteados são listados e identificados. São exemplos de conglomerados: quarteirões, famílias, organizações, agências, edifícios etc. AN02FREV001/REV 4.0 31 e) Amostragem probabilística acidental Neste tipo de amostragem, a amostra é constituída por elementos que vão surgindo. Normalmente, esse tipo de amostragem é utilizado em pesquisas de opinião, em que os entrevistados são escolhidos acidentalmente, sem critério algum previamente estabelecido, até completarem o número de elementos da amostra. Exemplo: pesquisa de opinião em praças públicas, ruas de grandes cidades, etc. f) Amostragem probabilística intencional A amostragem intencional é um tipo de processo de amostragem em que, intencionalmente, o pesquisador determina um critério previamente e a partir desse critério, escolhe os elementos que constituirão a amostra. A amostragem intencional normalmente é indicada em pesquisas de opinião. Um exemplo é a pesquisa sobre a preferência por determinado cosmético. Nesse caso, o pesquisador em questão dirige-se aos locais óbvios de se encontrar os consumidores específicos desejados. g) Amostragem probabilística por cotas O processo de amostragem por cotas é um tipo de amostragem bastante utilizado. Normalmente é aplicado em levantamentos de mercado e em pesquisas eleitorais. É um processo que consiste de três fases. A primeira fase está relacionada à classificação da população em questão com o objetivo de determinar AN02FREV001/REV 4.0 32 os elementos relevantes às pesquisas. Na segunda fase são determinadas as proporções da população para cada característica pesquisada. E finalmente, há a fixação das quotas para cada pesquisador. Como pôde ser observado, o processo de amostragem é de grande importância na obtenção de resultados fidedignos, além de garantir a praticidade e economia das pesquisas. Porém, esses processos também estão sujeitos a dificuldades. Dentre as dificuldades mais relevantes podemos citar as seguintes: Presença de erros aleatórios. Esse tipo de dificuldade é contornado aumentando-se o número de repetições do experimento ou pesquisa em questão. Seleções amostrais imprecisas, devido à complexidade do processo. Vimos anteriormente os tipos de processos de amostragem probabilísticos. Como sabemos, a amostragem é dividida em probabilística e não probabilística. Falto-nos entender os processos não probabilísticos de amostragem. A amostragem não probabilística utiliza-se de critérios subjetivos do pesquisador. Não há uma probabilidade conhecida e pode ser dividida em vários tipos, como descrito abaixo: a) Amostragem não probabilística por conveniência Na amostragem não probabilística por conveniência há a escolha das amostras baseadas na conveniência do pesquisador. Não há critérios de escolha dos constituintes da amostra e os escolhidos são solicitados a responder questionários. Esse tipo de amostragem é aplicado com frequência na área da saúde. Porém, há muitas restrições quanto a sua utilização. AN02FREV001/REV 4.0 33 b) Amostragem não probabilística por julgamento A amostragem não probabilística por julgamento é parecida com a amostragem por conveniência. Há um julgamento preestabelecido pelo pesquisador pertinente à pesquisa. Normalmente, neste tipo de amostragem, os pesquisadores aceitam indicações de novos entrevistados à medida que as entrevistas são realizadas. c) Amostragem nãoprobabilística por cota Apesar de apresentar o mesmo nome da amostragem probabilística, este tipo de amostragem difere do anteriormente descrito por não permitir a inferência a respeito da população estudada, pois os erros cometidos na escolha dos elementos constituintes da amostra são desconhecidos. Nesse tipo de amostragem, o pesquisador determina uma amostra baseada em aspectos da população. Não é muito indicada, devido à elevada tendenciosidade dos dados. 2.2 TIPOS DE VARIÁVEIS Considera-se como variável todo dado em que ocorre variação. Toda variável representa uma característica da população passível de ser mensurada conforme alguma escala de medida. Quanto à classificação, as variáveis populacionais podem ser qualitativas e quantitativas (variáveis aleatórias). AN02FREV001/REV 4.0 34 Variáveis qualitativas As variáveis qualitativas representam descrições, dados e informações de natureza não numérica. Portanto, não expressam quantidades e, sim, qualidades. As variáveis qualitativas podem ser divididas em nominais e ordinais. As variáveis qualitativas são nominais quando não há ordem de classificação definida e são ordinais quando essa ordenação está presente. Variáveis quantitativas As variáveis quantitativas são também chamadas de variáveis aleatórias. São de extrema importância para a estatística, já que, normalmente, estamos interessados em dados numéricos quando realizamos um experimento. As variáveis quantitativas ou aleatórias são passíveis de medições em uma escala quantitativa. Fornecem importantes contribuições para a pesquisa quantitativa. Uma variável deste tipo consiste na associação de um número real a cada elemento constituinte da amostra. A representação da função pode ser vista na figura 5. AN02FREV001/REV 4.0 35 FIGURA 5 - REPRESENTAÇÃO DA FUNÇÃO DE UMA VARIÁVEL QUANTITATIVA FONTE: Disponível em: <http://www.ime.usp.br>. Acesso em: 1 out. 2012. Na figura anterior observamos a representação da função de uma variável quantitativa. Em que: S espaço amostral s elemento do espaço amostral IR Imagem real. Quanto à classificação, as variáveis quantitativas podem ser discretas ou contínuas. Uma variável quantitativa discreta é aquela que os dados assumem valores dentro de um conjunto finito e enumerável. Já uma variável quantitativa contínua é aquela que os dados podem assumir qualquer valor dentro de um intervalo, ou seja, dentro de um conjunto não enumerável. Na figura 6 está um resumo da classificação das variáveis. AN02FREV001/REV 4.0 36 FIGURA 6 - CLASSIFICAÇÃO DAS VARIÁVEIS FONTE: Disponível em: <http://www.ime.usp.br>. Acesso em: 1 out. 2012. 2.3 MEDIDAS DE POSIÇÃO E DE DISPERSÃO Medidas de posição ou medidas de tendência central As medidas de posição ou tendência central fornecem medidas que podem caracterizar o comportamento dos elementos de uma série, possibilitando determinar se um valor está entre o maior e o menor valor da série, ou se está localizado no centro do conjunto de dados, por exemplo. Resumindo, as medidas são utilizadas para indicar onde a amostra da população está localizada. As principais medidas de tendência central são: a média, a mediana e a moda. Esses parâmetros são úteis por descreverem propriedades da população. AN02FREV001/REV 4.0 37 Média A média de um conjunto de dados é o valor obtido, somando-se todos os elementos do conjunto e dividindo-se a soma pelo número total de elementos. Esse parâmetro é obtido por meio da seguinte expressão matemática: Em que: = média aritmética; = os dados do conjunto amostral; = número de dados da amostra. A média possui as seguintes propriedades e características: A soma dos desvios em relação à média é igual à zero para qualquer amostra; A soma de quadrados de desvios em relação a uma constante arbitrária A, qualquer, será um valor mínimo se A = média; A soma ou subtração de uma constante (k) aos dados altera a média de tal forma que a nova média fica adicionada ou subtraída pela constante; AN02FREV001/REV 4.0 38 A multiplicação dos dados ou divisão por uma constante (k) aos dados altera a média de tal forma que a nova média fica multiplicada ou dividida pela constante; A média é influenciada por valores extremos. A média tenderá a ser grande, se existirem alguns poucos valores que são maiores que a maioria das mensurações realizadas, ou a ser pequena, se existirem na amostra alguns poucos valores menores que a maioria das mensurações. Exemplo de mensuração da média: Determinar a temperatura média diária do mês de outubro. AN02FREV001/REV 4.0 39 = = 20,59ºC Para os dados agrupados em uma tabela de distribuição de frequências, como na tabela 3, a média deve ser obtida ponderando-se o valor médio da classe pela sua respectiva frequência. TABELA 3 - DISTRIBUIÇÃO DE FREQUÊNCIAS DAS PRODUÇÕES DE GRÃOS EM G/PLANTA OBTIDAS EM UMA AMOSTRA DE N = 20 PLANTAS DE FEIJÃO Classes de pesos ̅i Fi Fri Fpi (%) -2,49 I— 5,25 1,38 6 0,30 30 5,25 I— 12,98 9,11 8 0,40 40 12,98 I— 20,71 16,84 4 0,20 20 20,71 I— 28,44 24,57 2 0,10 10 FONTE: Ferreira (2005). AN02FREV001/REV 4.0 40 A expressão para esse caso é: ̅ = ∑ ̅ Considerando os dados da tabela 3, o valor da média é: = = = 9,883 AN02FREV001/REV 4.0 41 Média Harmônica A média harmônica representa um tipo de medida de posição aplicada para conjunto de dados que apresentam variação, como por exemplo: velocidades, temperaturas, etc. A média harmônica é obtida por meio da expressão abaixo: Considerando o exemplo dado anteriormente, a média harmônica para a temperatura média diária é: AN02FREV001/REV 4.0 42 Média Geométrica A média geométrica representa uma vertente da média comum. É aplicada nas áreas administrativa e econômica. Geralmente utiliza-se para mensurar taxas médias de variação, de crescimento, etc. Seu valor é dado pela raiz quadrada do produto dos dados, de acordo com a seguinte expressão: Com base nos dados de temperatura citados anteriormente, a média geométrica dos dados é: AN02FREV001/REV 4.0 43 Média Quadrática A média quadrática é aplicada na área da física. Seu valor é obtido por meio da seguinte expressão: Considerando o exemplo das temperaturas dado anteriormente, a média quadrática é: AN02FREV001/REV 4.0 44 Mediana A mediana representa uma medida de posição ou de tendência central muito utilizada em estatística. Para determinar a medidada mediana de um conjunto de dados, devem ser seguidos alguns passos: 1º Passo Deve-se ordenar todos os dados do conjunto em questão. A ordenação pode ser feita de forma crescente ou decrescente. Isso variará de acordo com o pesquisador. 2º Passo A mediana do conjunto de dados dependerá do número de elementos que constituem esse conjunto: Se o número de dados for ímpar, a mediana será o elemento que ocupa a posição central da distribuição. Exemplo: Número de dados igual a n= 37 (portanto, n é ímpar); AN02FREV001/REV 4.0 45 1º Passo – Colocar os dados em ordem crescente: A mediana será o 19º elemento (pois =19). Portanto, seu valor será 8. Se o número for par, a mediana será a média aritmética dos dois valores centrais. Exemplo: Número de dados igual a n= 50 (portanto, n é par); 1º Passo – Colocar os números em ordem crescente; AN02FREV001/REV 4.0 46 2º Passo – Como n é par, a mediana será a média aritmética entre o 25º elemento (pois = 25) e o 26º elemento. Dessa forma, o valor da mediana será: 25º elemento = 9 26º elemento = 9 Portanto, a mediana será 9. Diante do exposto, a mediana divide o conjunto de dados em duas partes: a parte dos valores inferiores à mediana e a parte dos valores superiores a ela. Para estimar a mediana a partir dos dados arranjados em uma tabela de distribuição de frequências, é necessário definir a classe mediana e em seguida encontrar a mediana interpolando os resultados. A posição da mediana é obtida acumulando-se frequências das classes, até encontrar o valor que seja igual ou imediatamente superior a . Utilizando os dados da tabela 3, o valor de n é igual a 20 e é igual a 10. A frequência da classe 1 é igual a 6, valor inferior a 10; a frequência acumulada das classes 1 e 2 é igual a 14, valor que supera 10. Logo, a classe 2 é considerada a classe mediana. Encontrada a classe mediana, o estimador é: AN02FREV001/REV 4.0 47 md = LI md + Em que: LImd = limite inferior; Fmd = frequência da classe mediana; cmd = amplitude da classe mediana; Fc = frequência acumulada das classes anteriores à classe mediana. A mediana possui as seguintes propriedades e características: A soma dos módulos dos desvios em relação a uma constante arbitrária A, qualquer, será um valor mínimo se A=md; A soma ou subtração de uma constante (k) aos dados altera a mediana de tal forma que a nova mediana fica adicionada ou subtraída pela constante; A multiplicação dos dados ou divisão por uma constante (k) aos dados altera a mediana de tal forma que a nova mediana fica multiplicada ou dividida pela constante; A mediana não é influenciada por valores extremos. AN02FREV001/REV 4.0 48 Moda A moda de uma série de dados é representada pelo valor mais frequente da série. Diz-se que uma série é bimodal quando esta apresentar dois valores de moda e multimodal quando apresentar mais de duas modas. Medidas de dispersão ou de variabilidade Amplitude (A) Amplitude de uma série de dados é dada pela diferença entre o maior e o menor valor da série (A = Xmax – Xmin). É um tipo de mensuração da variabilidade que apresenta grande simplicidade e facilidade de ser calculada. Porém, por levar em consideração apenas os valores extremos, são considerados uma medida pobre da variabilidade e um estimador da amplitude populacional aviesado e ineficiente. Desvio médio É possível expressar a variabilidade de um conjunto de dados em termos de desvios da média. Dessa forma, o desvio médio é definido como sendo a média dos desvios absolutos em relação à média da amostra e pode ser calculado pela seguinte expressão: AN02FREV001/REV 4.0 49 S I ̅ I = ∑ ̅ Desvio Padrão Considera-se como desvio padrão a medida da grandeza da dispersão dos dados em relação à média. O desvio padrão populacional ( σ) é definido por: σ = √ [∑ (∑ ) ] O estimador amostral do desvio padrão populacional σ é um estimador aviesado, embora seja derivado de um estimador não - aviesado (variância). O desvio padrão não é afetado pela soma ou subtração de uma constante aos dados. No entanto, ele se altera quando os dados são multiplicados ou divididos por uma constante. Nesse caso, o novo desvio padrão será igual ao desvio padrão original multiplicado ou dividido pela constante. Um valor de desvio padrão baixo, ou seja, próximo de zero, refere-se uma grande concentração dos dados em torno da média. Caso o valor de desvio padrão seja grande, não haverá concentração dos valores em torno da média. AN02FREV001/REV 4.0 50 Variância Uma das medidas de maior utilização na estatística para mensurar a variabilidade dos dados em torno da média. Representa o quadrado do desvio padrão. A variância amostral (s²) é dada pela expressão abaixo: Já a variância populacional (σ²) é dada pela seguinte expressão: A variância tem a propriedade de não se alterar quando os dados são adicionados ou subtraídos de uma constante, mas, quando esses dados são multiplicados ou divididos por essa constante, a variância do novo conjunto é igual à variância do conjunto original multiplicada ou dividida pela constante ao quadrado. AN02FREV001/REV 4.0 51 Coeficiente de variação (CV) O coeficiente de variação (CV) é uma medida da variabilidade dos dados e pode ser calculado utilizando a seguinte expressão: CV = x 100% O coeficiente de variação é a expressão do desvio padrão como porcentagem da média do conjunto de dados. É uma medida adimensional da variabilidade, ou seja, não possui unidade de medida. Erro padrão da média Para definir o erro padrão da média suponha que amostras aleatórias de tamanho n são retiradas de uma população e que em cada amostra seja estimada sua média. Se for computado o desvio padrão da população formada por todas as estimativas de médias obtidas, o valor encontrado é conhecido como erro padrão da média. O erro padrão da média (σ ̅) é dado pela razão entre o desvio padrão populacional e a raiz do tamanho da amostra, como pode ser observada pela expressão abaixo: AN02FREV001/REV 4.0 52 σ ̅ = √ O erro padrão da média é uma medida da dispersão das médias amostrais em torno da média da população. É fácil perceber que quanto menor for o seu valor, mais provável será a chance de obter a média da amostra nas proximidades da média da população, e quanto maior for menos provável se torna esse evento. Assim, o erro padrão da média é um estimador da precisão da estimativa de uma média populacional. 2.4 DEFINIÇÃO E PROPRIEDADES DA PROBABILIDADE Sempre há a necessidade de levar em consideração a variabilidade dos dados nos processos de inferência estatística. A inferência estatísticaque é realizada sobre parâmetros contempla sempre mecanismos para lidar com as incertezas e incorpora uma linguagem peculiar na redação dos resultados científicos alcançados. A validade dessa inferência depende fundamentalmente da escolha correta dos modelos probabilísticos para lidar com a variabilidade do fenômeno sob estudo. Dessa forma, a probabilidade e os modelos probabilísticos possuem grande importância nos processos estatísticos de estimação e decisão. Para apresentar o conceito de probabilidade é necessário apresentar antes o conceito de espaço amostral ou universo (Ω/ S). Assim, será considerado o conjunto Ω ou S = {ω1, ω2, …}, em que os elementos ωi são os pontos amostrais. A frequência de cada elemento do conjunto é denominada de probabilidade, P(ωi). Considerando E, um evento de interesse de um pesquisador, o qual é definido AN02FREV001/REV 4.0 53 como sendo um subconjunto qualquer de Ω, é possível calcular a probabilidade de sua ocorrência. Em situações especiais em que todos os pontos de Ω têm a mesma probabilidade e o número das possíveis realizações do experimento, número total de elementos de Ω, é finito, define-se a probabilidade do evento E, P(E), pela seguinte equação: P (E) = Em que: m = é o número de pontos amostrais do subconjunto E; n = é o número de pontos amostrais do espaço amostral Ω, com m≤n. Exemplo: No nascimento de três cachorros avaliar a probabilidade de ocorrerem exatamente duas fêmeas. O conjunto total de dados ou espaço amostral Ω é a representação de todas as possibilidades relacionadas ao nascimento de três cachorros quanto à sexualidade, já E corresponde ao subconjunto de Ω representado exatamente por duas fêmeas. Com esses dados, poderíamos inferir que a representação dos conjuntos em questão fosse: AN02FREV001/REV 4.0 54 Ω = {FFF, FFM, FMM, MMM} E= {FFM} Esse pensamento levaria a um valor de probabilidade de ¼, ou seja, 25% de probabilidade do evento de interesse E ocorrer. Esse resultado é equivocado, uma vez que não são consideradas as possibilidades de acordo com a ordenação dos nascimentos. De acordo com o exposto, o espaço amostral e o evento E corretos são: Ω = {FFF,FFM,FMF,MFF,FMM,MFM,MMF,MMM} E= {FFM,FMF,MFF} Considerando esses novos dados, pode-se inferir que o valor da probabilidade é de 3/8, correspondente a 37,5%. Para calcular o valor dessa probabilidade não é necessário enumerar todas as possibilidades do espaço AN02FREV001/REV 4.0 55 amostral, basta pensar em termos práticos. O primeiro cachorro tem a probabilidade de ½ de ser do sexo feminino e a mesma probabilidade de ser fêmea, ou seja, 50% para cada sexo. O mesmo acontece para os dois nascimentos subsequentes. Dessa forma, o número de possibilidades total de Ω é dado por: n= 2 x 2 x 2 = 2³ = 8 Já o número dos eventos possíveis E, ou seja, do subconjunto E pode ser obtido por aplicação da análise combinatória. Dessa forma temos: m = = ( ) = 3 Muitas vezes o espaço amostral é contínuo, ou seja, é constituído de infinitos pontos de uma escala real qualquer. Inúmeras são as pesquisas que lidam com espaços amostrais contínuos. Considerando dois eventos A e B, há várias possibilidades de ocorrência desses eventos: A ∩ B / A e B os dois eventos ocorrem simultaneamente; AN02FREV001/REV 4.0 56 A U B / A ou B há a ocorrência de pelo menos um dos dois eventos; Ac é o evento em que A não ocorre. Ac representa o complemento de A. AN02FREV001/REV 4.0 57 Pode ocorrer de um evento não ser constituído de elementos, daí recebe o nome de evento nulo (Ø). O evento nulo é considerado complemento do espaço amostral: S= Ø = Sc Se os eventos A e B são tais que AB = Ø, então A e B são ditos eventos disjuntos ou mutuamente exclusivos. Isso quer dizer que A e B não podem ocorrer simultaneamente. Exemplo: A e Ac são eventos mutuamente exclusivos. AN02FREV001/REV 4.0 58 Propriedades fundamentais 1) Se for o conjunto vazio, então P()=0. 2) Se ̅ for o evento complementar de A, então P( ̅ ) = 1 - P(A). 3) Se A e B forem eventos quaisquer tais que A B então P(A) £ P(B). 4) Se A e B são dois eventos quaisquer, então P(A B) = P(A) + P(B) - P(A B) 2.5 DISTRIBUIÇÕES DE PROBABILIDADES 2.5.1 Distribuição de Probabilidade Binomial A distribuição de Bernoulli é utilizada para descrever experimentos quando há uma probabilidade específica definida. Esse tipo de distribuição está relacionado à ocorrência de sucesso ou fracasso. Dessa forma, é definido que determinada variável (X) assume o valor 1 caso ocorra sucesso e o valor 0 caso ocorra o fracasso. Com os valores obtidos da variável, define-se probabilidade de sucesso, p, e a probabilidade de fracasso, q, por: P (X=x) = px (1-p)1-x para x=0 ou 1 AN02FREV001/REV 4.0 59 q = 1-p Por outro lado, a distribuição de uma variável obtida pela contagem do número de sucessos em uma amostra aleatória de tamanho n>1 realizada nessa população, sendo os n ensaios independentes, ou seja, o resultado de um ensaio não tem influência alguma sobre o outro, e que a probabilidade de se obter sucesso permanece constante e igual a p, é denominada de distribuição Binomial. Considerando o nascimento de três cachorros, é fácil perceber que esses experimentos correspondem a três ensaios de Bernoulli. Dessa forma, todos os ensaios são independentes. O exemplo do nascimento dos três cachorros apresenta como variável o número de fêmeas. Abaixo construiremos um dendograma para exemplificar a distribuição da variável “número de fêmeas” (X): 1º Nascimento 2º nascimento 3º nascimento M (1/2) M (1/2) F (1/2) M (1/2) F(1/2) M (1/2) F (1/2) F (1/2) M (1/2) M (1/2) F (1/2) F (1/2) M (1/2) F (1/2) AN02FREV001/REV 4.0 60 O espaço amostral completo corresponde a: Ω = { (MMM); (MMF); (MFM); (MFF); (FMM); (FMF); (FFM); (FFF)} De acordo com o dendrograma, pode-se inferir que a distribuição de probabilidade é a seguinte: x Elementos de Ω P (X=x) 0 (MMM) 1/8 1 (MMF); (MFM); (FMM) 3/8 2 (MFF); (FMF); (FFM) 3/8 3 (FFF) 1/8 De acordo com o exposto, percebe-se que o número de elementos de Ω associadoa cada valor de X (x) é dado por =( ) fica-se, ainda, que as probabilidades associadas a cada valor de X referem-se a esses números, =( ), multiplicados pela probabilidade associada aos elementos de Ω correspondentes (1/8). Dessa forma, definindo-se q = 1-p como sendo a probabilidade de fracasso, é possível, com uma análise mais aprofundada, verificar que as probabilidades relacionadas às realizações de X correspondem aos termos da expansão do Binômio de Newton apresentado a seguir: (p + q) n = qn +( ) pqn-1 + ( ) p²qn-2 +…+ ( ) pn-1 q¹ +pn A função da probabilidade da distribuição binomial, então é: AN02FREV001/REV 4.0 61 P (X=x) = ( ) px (1-p)n-x = ( ) pxqn-x x= 0,1,…,n Em que: ( )= ( ) A média e a variância da distribuição de probabilidade binomial são dadas pelas equações abaixo: μx = np σ²x = np (1-p) = npq A distribuição binomial é uma das mais importantes distribuições discretas de probabilidade. A sua aplicação não se restringe somente à modelagem probabilística de certos fenômenos, mas se estende a uma série de procedimentos de estimação e inferência em estatística. AN02FREV001/REV 4.0 62 2.5.2 Distribuição de Probabilidade Poisson A distribuição de probabilidade de Poisson é aplicada quando se deseja contar com o número de eventos de certo tipo, que ocorrem em um intervalo de tempo, superfície ou volume. Quando consideramos que determinada variável segue este tipo de distribuição, concluímos que ela pode assumir infinitos valores no domínio dos números inteiros positivos. Uma variável Poisson pode surgir também da aproximação da bionomial quando n é grande e p é pequena, ou seja, quando n ≥ 50 e p ≤ 0,10. São exemplos de distribuição Poisson: A quantidade de formigueiros por área; A quantidade de bactérias em uma determinada lâmina; A quantidade de espermatozoides inviáveis por volume de sêmen. O parâmetro da distribuição de Poisson é representado por λ= np e sua função de probabilidade é representada pela equação abaixo: AN02FREV001/REV 4.0 63 P (X=x) = Em que: x = 0, 1, 2, 3…; e = 2,718281828 (número neperiano irracional). λ = parâmetro da distribuição de Poisson. Assim, pode-se considerar o parâmetro λ>0 como o número esperado ou número médio de sucessos. Na distribuição de Poisson, a média e a variância apresentam valores iguais e podem ser estimados por meio das equações abaixo: μx = σ²x = λ = np 2.5.3 Distribuição de Probabilidade Normal A distribuição normal é considerada a distribuição de maior aplicabilidade em estatística devido a fatores como: AN02FREV001/REV 4.0 64 Basicamente todas as técnicas estatísticas seguem uma distribuição normal; Comportamentos de diversos fenômenos aleatórios seguem de forma precisa ou aproximada a distribuição normal; É um tipo de distribuição que limita outras distribuições, devido ao teorema central do limite; A maioria das amostras apresentam n grande, o que infere a necessidade da aplicação da distribuição normal; A equação abaixo representa a densidade da normal (x): f( x) = x √ ( ) Como pode ser observado pela equação descrita anteriormente, ocorre a dependência dos parâmetros μ e σ². As principais propriedades da distribuição normal são: É simétrica em relação ao ponto médio; Tem forma campanular – sino; AN02FREV001/REV 4.0 65 Fica perfeitamente definida se conhecermos a média (μ) e o desvio padrão (σ) dos dados, isto é, com esses dois parâmetros pode-se estimar a altura da curva em qualquer ponto do eixo horizontal; Tem dois pontos de inflexão correspondentes às abcissas m ; A área compreendida pela curva e o eixo x é igual a 1 ou 100%. Isto é ∫ ( ) Para facilitar a utilização das propriedades da distribuição normal e torná-la comparável em qualquer situação, independente do caráter, é empregada a distribuição normal reduzida ou padronizada, que é uma distribuição com média zero (m=0) e variância igual a um ( =1,0). A padronização é realizada, promovendo-se a transformação de variável Z pela expressão Z = . Em se tratando de populações naturais, não é possível ter o parâmetro populacional e sim a estimativa do mesmo. Desse modo, o “σ” é substituído por “s”. Utilizando essa distribuição normal padronizada, pode-se estimar facilmente a probabilidade de ocorrência de determinados eventos. Seja, por exemplo, uma plantação de feijão, cujos dados da produção de grãos se ajustam a uma curva normal com média de 10,2 g/planta e s= 1,2 g. Nessa situação, a seguinte indagação poderia ser feita: qual a probabilidade de se obter uma planta com mais de 12g/planta? Essa indagação pode ser esquematicamente representada em uma distribuição normal, como pode ser observado abaixo no gráfico 1: AN02FREV001/REV 4.0 66 GRÁFICO 1 - DISTRIBUIÇÃO NORMAL m= 10,2 g x= 12,0 g FONTE: Ferreira (2005). O que se deseja é obter a área correspondente à parte hachurada no esquema apresentado. Essa área corresponde à probabilidade (P) de ocorrer o evento desejado. A probabilidade de se obter qualquer valor igual ou superior à média, isto é, P (x≥10,2), é de 0,5 ou 50%. De maneira análoga, qualquer valor igual ou inferior à média também é de 0,5 ou 50%. Contudo, no exemplo, a indagação é de P (x≥12,0g). Portanto, estimando a área compreendida na curva normal entre 10,2 g 2 12,0g e subtraindo 0,5, obtém-se P (x≥ 12,0g). Para se obter esse valor, obtém-se a variável transformada Z pela fórmula dada anteriormente: Z = AN02FREV001/REV 4.0 67 Z = = 1,5 A tabela de probabilidade Z é encontrada na internet e fornece o valor da probabilidade de Z estar entre 0 e 1,5, que corresponde à probabilidade de x estar entre 10,2g e 12,0g. No dado exemplo, essa probabilidade é de 0,4332. Portanto, a probabilidade de x ser superior a 12,0g será P(z > 1,5) = 0,50 – 0,4332 = 0,0668 ou 6,68%. 2.6 ESTIMAÇÃO DE PARÂMETROS Parâmetros estatísticos são considerados valores numéricos utilizados para descrever uma determinada população. Dependendo da situação, é praticamente impossível medir todos os elementos de uma população. Por essa razão, os pesquisadores trabalham com dados amostrais ou experimentais. Desse modo, todas as inferências estatísticas são baseadas nas distribuições amostrais e na teoria probabilística. Estimativar parâmetros é um processo pelo qual valores são obtidos de amostras objetivando fazer inferências sobre dados populacionais. A estimativa pode ser obtida pela estimação por ponto ou pela estimação por intervalo. Na estimação por ponto ou pontual é obtido um único valor amostral para estimar o parâmetro populacional. Convém salientar que o estimador é uma variável aleatória, que é função dos elementos amostrais. Dessa forma, a estimativa por ponto pode variar entre as amostras, estando, pois, sujeita a errosde estimação, devido ao processo de aleatorização e à variabilidade inerente à população da qual foi retirada a amostra. Já na estimação por intervalo é construído um intervalo com uma probabilidade pré-fixada de conter o parâmetro populacional. Essas probabilidades são, em geral, fixadas em 95% ou 99% e são denominadas nível de confiança. AN02FREV001/REV 4.0 68 Para que a estimação de parâmetros seja eficiente é necessário que o estimador possua propriedades específicas. As principais propriedades de um estimador são: a) O estimador deve ser não viciado ou não aviesado. Dizer que um estimador é não viciado ou não-aviesado significa que, se forem retiradas todas as amostras de tamanho n de uma população, a média de todas as estimativas obtidas em todas as amostras possíveis será igual ao valor do parâmetro que se deseja estimar. b) O estimador deve ser consistente. Um estimador será consistente se, além de não viciado, sua variância tender para zero, quando n aumenta, tendendo para o infinito. Esse fato indica que o estimador converge em probabilidade para o parâmetro à medida que n cresce. c) O estimador deve ser eficiente. Um estimador eficiente é aquele que apresenta menor variância. FIM DO MÓDULO II AN02FREV001/REV 4.0 69 PROGRAMA DE EDUCAÇÃO CONTINUADA A DISTÂNCIA Portal Educação CURSO DE METODOLOGIA DE PESQUISA QUANTITATIVA Aluno: EaD - Educação a Distância Portal Educação AN02FREV001/REV 4.0 70 CURSO DE OMETODOLOGIA DE PESQUISA QUANTITATIVA MÓDULO III Atenção: O material deste módulo está disponível apenas como parâmetro de estudos para este Programa de Educação Continuada. É proibida qualquer forma de comercialização ou distribuição do mesmo sem a autorização expressa do Portal Educação. Os créditos do conteúdo aqui contido são dados aos seus respectivos autores descritos nas Referências Bibliográficas. AN02FREV001/REV 4.0 71 MÓDULO III 3 TESTES DE HIPÓTESES 3.1 CONCEITOS FUNDAMENTAIS Diante dos resultados estatísticos obtidos pelas características da amostra há a necessidade de tomadas de decisão e realização de inferências, por parte do pesquisador, acerca dos parâmetros populacionais em estudo. Diante dessas necessidades, surge como forma de auxiliar o pesquisador, os testes de hipóteses ou testes de significância. O teste de hipóteses ou de significância é uma ferramenta estatística utilizada para auxiliar o pesquisador em aceitar ou rejeitar determinada hipótese formulada ou também, a inferir se os dados observados diferem de modo significativo dos resultados esperados. Para o entendimento dos testes de hipóteses é necessária à introdução de vários conceitos estatísticos, como: Hipóteses estatísticas São consideradas hipóteses estatísticas as suposições feitas pelo pesquisador em relação às populações sob estudo. Representam considerações acerca dos parâmetros populacionais. Essas considerações feitas pelos pesquisadores podem ou não ser verdadeiras. Essa veracidade é comprovada pelos resultados dos testes de hipóteses. AN02FREV001/REV 4.0 72 Todo teste estatístico de hipótese são consideradas duas hipóteses, que são denominadas de: Hipótese nula (H 0 ): Considera-se como hipótese nula ou hipótese H0 a hipótese proposta pelo pesquisador com o intuito de ser testada, ou seja, de ser rejeitada ou aceita. É a hipótese responsável por apresentar inferência sobre determinado parâmetro populacional. A hipótese nula é uma hipótese simples, ou seja, ela admite apenas um único valor. São características da hipótese nula (H0): Retrata determinada situação em que não há mudança; É o que se aceita por defeito; Apresenta sempre uma igualdade. Hipótese alternativa (H1 ou HA): Considera-se como hipótese alternativa toda hipótese que reflete a dúvida que fez com que o pesquisador realizasse o teste. É representada sempre por uma desigualdade (>, < ou ≠). Essa desigualdade representa os possíveis valores do parâmetro avaliado. Diante disso, a hipótese alternativa pode ser uma hipótese composta, ou seja, admitir mais de um valor. Exemplos de alternativas para H1: AN02FREV001/REV 4.0 73 H1 bilateral H1 unilateral direito AN02FREV001/REV 4.0 74 H1 unilateral esquerdo Por meio das informações obtidas da amostra é possível realizar o teste de hipóteses e rejeitar ou não a hipótese nula. Quando a hipótese nula é rejeitada, a hipótese alternativa é validada como verdadeira. AN02FREV001/REV 4.0 75 Tipos de erros Dois tipos de erros podem ser cometidos em um teste de hipóteses: Erro tipo I (α): a hipótese nula é verdadeira e é rejeitada pelo pesquisador. Erro tipo II (β): a hipótese nula é falsa e é aceita pelo pesquisador. Na tabela 4 está um resumo das possibilidades em um teste de hipóteses. TABELA 4 - POSSIBILIDADES EM UM TESTE DE HIPÓTESES FONTE: Disponível em: <http://www.ebah.com.br>. Acesso em: 02 out. 2012. Graficamente podemos representar as regiões de aceitação e rejeição da seguinte forma: AN02FREV001/REV 4.0 76 Nível de significância (α) O erro tipo I é considerado o mais grave e sempre deverá ser minimizada a probabilidade de ocorrência deste tipo de erro. Essa probabilidade recebe o nome de Nível de Significância (α), ou seja, corresponde a probabilidade máxima a qual se sujeitaria a correr o risco de um erro tipo I. O nível de significância é sempre especificado antes da obtenção das amostras, a fim de que os resultados obtidos não influenciem na escolha. Na prática, observa-se que se usa α igual a 1% ou 5%, ou seja, a disposição de aceitar uma probabilidade de erro tipo I de 1% ou 5%. Potência ou poder do teste Define-se potência ou poder de um teste como a probabilidade de rejeitar a hipótese nula quando esta for falsa. AN02FREV001/REV 4.0 77 A probabilidade é dada por: π = 1 – β 0 < β < 1 p-valor Define-se como p-valor a probabilidade de um valor da estatística de teste tanto ou mais afastado que o valor observado na amostra, assumindo que a H0 é verdadeira. Deve-se rejeitar a H0 se o p-valor ≤ α. Estatística de teste A Estatística teste é o cálculo do valor de Z. Existem duas situações para o cálculo da estatística de teste: a) Quando o desvio padrão da população é conhecido: AN02FREV001/REV 4.0 78 Em que: Z = estatística de teste; ̅= média obtida na amostra; μ = média populacional; σ = desvio padrão da população; n= número de elementos na amostra. b) Quando o desvio padrão é desconhecido, sendo a amostra ≤ 30, usaremos a distribuição t de Student: AN02FREV001/REV 4.079 Em que: Z = estatística de teste; ̅= média obtida na amostra; μ0 = média esperada da população; σ = desvio padrão da população; n= número de elementos na amostra. Diante do exposto, os passos para a realização de um teste de hipóteses são: 1) Formular as hipóteses nula e alternativa; 2) Decidir o nível de significância (α) e a região de rejeição; 3) Computar o valor da estatística escolhida. Nesta etapa, rejeita-se ou se aceita a hipótese nula. 3.2 TESTES DE HIPÓTESES NÃO PARAMÉTRICOS Os testes de hipóteses são classificados em testes paramétricos e testes não paramétricos. São considerados testes de hipóteses paramétricos os que apresentam as seguintes características: AN02FREV001/REV 4.0 80 Os testes paramétricos sempre estão relacionados a algum parâmetro populacional; Nos testes paramétricos, sempre se conhece a distribuição de probabilidade em questão; Os erros ou resíduos nos testes paramétricos sempre seguem a distribuição normal; Além de seguirem distribuição normal, os erros dos testes paramétricos sempre possuem variância constante e finita; Outra característica dos erros ou resíduos de testes paramétricos é a independência. Um teste somente será considerado não paramétrico quando qualquer uma das condições citadas anteriormente não ocorrer. Os testes considerados não paramétricos são também chamados de testes de distribuição livre, já que não seguem qualquer tipo de distribuição de probabilidades. A aplicação de um teste não paramétrico só é indicada quando não for possível a aplicação de um teste paramétrico, já que são considerados de menor potência. Há uma infinidade de testes não paramétricos descritos na literatura. Abaixo serão citados os mais utilizados na estatística para complementar os testes paramétricos. AN02FREV001/REV 4.0 81 Teste do Qui-quadrado O teste do Qui-quadrado é considerado um teste com grande facilidade de aplicação. É baseado na comparação das frequências observadas e das frequências esperadas de determinado evento. Para isso, um passo importante é agrupar os dados em classes e posteriormente calcular as frequências esperadas sob o modelo normal, já que as frequências observadas são obtidas diretamente pela contagem do número de elementos da amostra em cada classe. A maior dificuldade encontrada na aplicação desse teste é a determinação do número ótimo de classes para que seja possível um equilíbrio entre as taxas de erro tipo I e o poder do teste. Essa dificuldade está relacionada ao fato de que o número de classes influencia nos resultados estatísticos. Dessa forma, um número pequeno tende a tornar o teste menos poderoso por mascarar o desvio da normalidade e um número grande tende a aumentar as chances de se rejeitar uma hipótese verdadeira. Diante dessas informações, é necessário que o pesquisador tenha vivência e seja capaz de escolher o número de classes ideal, tarefa essa considerada extremamente difícil e sujeita a erros. Muitos critérios são usados para auxiliar o pesquisador nessa tarefa, sendo os mais importantes citados abaixo: a) Critério baseado no tamanho da amostra. Se n é até 100, o número de classes (K) é igual a √ ; quando n é maior que 100, usa-se K = 5log10 n. Em ambos os casos, como K pode ser um número com decimais, adota-se o inteiro mais próximo. AN02FREV001/REV 4.0 82 b) Critério baseado em normalidade dos dados amostrais. Partindo da suposição que os dados possuem distribuição normal, o número de classes será determinado pela expressão abaixo: K = Em que: A = amplitude total s = desvio padrão. Após a escolha do número de classes, deve ser estimada a amplitude da classe (c). Esse valor corresponde à diferença entre os limites superior e inferior de uma determinada classe e é estimado pela seguinte expressão: c = O limite inferior (LI) da primeira classe será obtido por: LI = menor valor - O próximo passo é realizar a determinação das classes. O procedimento é o seguinte: AN02FREV001/REV 4.0 83 Somar ao valor do limite inferior da primeira classe, a amplitude de classe. Obtido o número de classes, especificadas as classes e determinadas às frequências observadas em cada uma delas, é necessário estimar as frequências esperadas. Com as estimativas da média e da variância da população, são calculadas as probabilidades de a variável X estar entre os limites de cada classe, adotando, para isso, o modelo normal. Para a primeira classe, o limite inferior é alterado para - e, para a última, o limite superior é alterado para +. As frequências esperadas de cada classe são obtidas pela multiplicação dessas probabilidades pelo tamanho da amostra. Assim, para a i-ésima classe, tem-se a frequência esperada (FEi) e a frequência observada (Fi), para i = 1, 2, 3…,k. A estatística do teste de qui-quadrado para normalidade é dada pela seguinte equação: = ∑ Esse teste é apenas aproximado e deve ser aplicado somente para n grande. O exemplo abaixo ilustra o teste de qui-quadrado com os detalhes necessários para a sua aplicação. Exemplo 1: Aplicar o teste de qui-quadrado para verificar a hipótese de normalidade dos dados. Para isso, uma amostra com n = 15 parcelas de milho foi coletada. Os dados amostrais em t/há estão apresentados a seguir: AN02FREV001/REV 4.0 84 8,52 9,07 11,90 9,43 4,32 5,77 8,52 5,95 5,56 9,02 12,08 8,06 9,96 6,02 8,69 As estimativas são: ̅ = 8,1913 S² = 5, 2137 A hipótese a ser testada é: H0: os dados apresentam distribuição normal, ou seja, são provenientes de uma população normal. O 1º passo é obter a distribuição de frequência. Os resultados da distribuição de frequência obtidos são apresentados a seguir, considerando k = 3 classes. Classes Fi 2,38 I— 6,26 5 6,26 I—10,14 8 10,14 I—14,02 2 AN02FREV001/REV 4.0 85 O próximo passo é computar as frequências esperadas. Para isso, a probabilidade de X pertencer a cada classe deve ser calculada, considerando o modelo normal sob H0. A primeira classe deve ser alterada para ] -; 6,26] e a última para [10,14; + [, conforme comentado anteriormente. Em todos os casos, as estimativas da média e da variância devem ser usadas para a padronização dos valores, ou seja, dos limites de classes. Assim, P (X < 6,26) = P( √ ) = P (Z < - 0,85) = 0,5 – 0,3023 = 19,77% P (6,26 < X < 10,14) = P ( √ ) = P (-0,85 < Z < +0,85) = 2 X 0,3023 = 60,46% P ( X > 10,14) = P (Z > 0,85) = 0,5 – 0,3023 = 19,77%. Logo, as frequências esperadas são obtidas multiplicando-se cada probabilidade pelo tamanho amostral. FE1 = 0,1977 X 15 = 2,9655 Os resultados completos estão apresentados a seguir: Classes Fi FEi 2,38 I— 6,26 5 2,9655 6,26 I—10,14 8 9,0690 AN02FREV001/REV 4.0 86 10,14 I—14,02 2 2,9655 De acordo com o exposto, o valor do qui-quadrado é: +
Compartilhar