Baixe o app para aproveitar ainda mais
Prévia do material em texto
AT C837 Costa, Suely de Souza Estatística básica / Suely de Souza Costa, José Cardoso Neto, Sônia Araújo do Nascimento. --- Manaus : [s.n.], 2012. 85 p. : il. color. Elaboração Projeto Fronteiras: Alto Rio Negro; apoio FINEP, Financiadora de Estudos e Projetos. Bibliografia: p. 81-82. ISBN: 1. Estatística – Estudo e ensino. I. Cardoso Neto, José. II. Nascimento, Sônia Araújo. III. Título. CDD 19. ed. 519.5 INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA – Inpa PROJETO FRONTEIRA: ALTO RIO NEGRO SUBPROJETO: IMPLANTAÇÃO DE UM BANCO DE DADOS AMBIENTAIS E DE UMA BIBLIOTECA EM SÃO GABRIEL DA CACHOEIRA, NO ALTO RIO NEGRO, AMAZONAS. ESTATÍSTICA BÁSICA Autores SUELY DE SOUZA COSTA JOSÉ CARDOSO NETO SONIA ARAUJO DO NASCIMENTO Manaus 2012 Presidência da Republica Ministério Ciência Tecnologia Instituto Nacional de Pesquisas da Amazônia — Inpa Projeto Fronteira: Alto Rio Negro Wanderli Pedro Tadei, Dr. Coordenador Lúcia K. O. Yuyama Dra. Sub-coordenadora Suely de Souza Costa Dra. Engenharia de Produção e Coordenadora do Subprojeto “Implementação do banco de dados ambientais e de uma biblioteca em São Gabriel da Cachoeira”. Ângela Nascimento dos Santos Panzu, Especialista em Memória Social e Docu- mento e em Documentação e Informação, Bibliotecária e Orientadora. José Cardoso Neto, Dr. em Estatística e Professor da UFAM. Sonia Araújo Nascimento, Esp. em Estatística Industrial e Professora da UEA. Silene da Mota Coelho, Especialista em Informática na Educação. Prólogo Este livro propõe disponibilizar as ferramentas básicas e aplica- ções da estatística para um público que precisa ambientar-se com está ma- téria num curto espaço de tempo. Este trabalho é fruto da demanda de São Gabriel da Cachoeira, e vem dar continuidade nos dois livros s desen- volvidos anteriormente, para o ensino à distância para outros municípios do Estado do Amazonas. Procurou-se apresentar o conteúdo de forma fácil e dinâmica. Exemplos e exercícios práticos são usados para sedimentar o aprendizado e, ao mesmo tempo, reduzir as fronteiras de acesso à linguagem estatística, essencial para apoio à tomada de decisão em diferentes áreas do conheci- mento. No final de um caminho, há sempre muito agradecer àqueles que, de uma forma ou de outra, contribuíram para a conclusão deste trabalho. Agradecemos aos nossos alunos que participaram direta ou indire- tamente dos cursos ministrados em diversos momentos, nas salas de aula presenciais e ensino à distância, tornando o projeto pedagógico realidade. Entre os amigos que com estímulo nos apoiaram no cumprimento dessa trajetória, expressamos gratidão à equipe do no sub-Projeto Fronteira, e em especial, o apoio financeiro da Finep ao Projeto Fronteira. 7 SUMÁRIO CAPÍTULO 1 CONCEITOS FUNDAMENTAIS......................13 1.1 Estatística E sua importância...............................................13 1.2 população E amostra............................................................14 1.3 alguns tópicos importantEs na sElEção da amostra......15 1.3.1 Identificação dos objetivos da pesquisa e popula- ção......................................................................................................15 1.3.2 Coleta dos dados.................................................................15 1.3.3 Planejamento e Seleção da amostra....................................16 1.3.4 critérios dE inclusão E Exclusão dos ElEmEntos da am ostra.......................................................................................................16 1.3.5 Quais as técnicas para sElEção da amostra...................16 1.3.6 Plano de Amostragem........................................................18 1.3.7 Seleção de Amostra............................................................20 1.4 amostragEm alEatória simplEs..........................................21 1.4.1 amostragEm Estratificada...............................................21 1.4.2 amostragEm sistEmática....................................................21 1.5 dEfinição E classificação dE variávEis..............................23 1.5.1 Variável Qualitativa.............................................................24 1.5.2 Variável Quantitativa...........................................................24 1.6 colEta dE dados.....................................................................25 8 1.6.1 fontEs dE dados..............................................................25 1.6.2 construção dE instrumEnto dE pEsQuisa ...................26 1.6.3 amostra piloto ou pré-tEstE........................................27 1.6.4 rEcursos complEmEntarEs ...........................................27 CAPÍTULO 2 ORGANIZAÇÃO DE DADOS....................31 2.1 aprEsEntação dE dados Em tabElas...........................31 2.2 componEntEs das tabElas...............................................31 2.3 tabElas dE dupla Entrada............................................32 2.4 tabElas dE distribuição dE frEQüências.....................33 2.5 tabEla dE distribuição dE frEQüência pontual........34 2.6 tabElas dE distribuição dE frEQüências Em classEs..35 2.7 construção dE uma tabEla dE distribuição dE frEQüência Em classEs..................................................................35 2.8 tipos dE frEQüências.......................................................38 2.9 mEdidas dE posição para dados agrupados................39 2.9.1 Média aritmética ( X ) para dados agrupados.............39 2.9.2 Mediana - dM ..............................................................41 2.9.3 Moda - oM ...................................................................44 2.10 mEdidas dE dispErsão ou variabilidadE......................46 2.10.1 Amplitude total........................................................47 2.10.2 variância ( 2S ).......................................................48 2.10.3 dEsvio padrão ( S ).....................................................49 8 9 2.11 mEdidas dE dispErsão rElativa......................................51 2.12 coEficiEntE dE variação dE pEarson - (%)CV .........51 CAPÍTULO 3 CORRELAÇÃO............................................59 3.1 diagrama dE dispErsão...................................................59 3.2 corrElação linEar............................................................61 3.3 como sE mEdE corrElação linEar?................................62 3.4 tEstE dE significância sobrE r ......................................63 CAPÍTULO 4 REGRESSÃO LINEAR SIMPLES..............67 4.1 introdução.........................................................................67 4.2 modElo Estatístico..........................................................67 4.3 o método dos mínimos Quadrados..............................68 4.4 notação básica..................................................................68 4.5 rEta dE mínimos Quadrados..........................................68 4.6 análisE dE variância.......................................................70 4.7 como Encontrar as somas dE Quadrados?...................71 4.8 como Encontrar os Quadrados médios?......................72 4.9 o tEstE f.............................................................................734.10 coEficiEntE dE dEtErminação.......................................74 4.11 infErência sobrE os parâmEtros.....................................75 4.12 obsErvaçõEs sobrE o modElo:.........................................76 4.13 análisE dos rEsíduos........................................................77 10 REFERÊNCIAS..............................................................81 ANEXO...........................................................................83 TABELA DE ESTATÍSTICA A - DISTRIBUIÇÃO NOR- MAL PADRÃO - ( )P Z z p≤ = ..............................................83 TABELA ESTATÍSTICA B - DISTRIBUIÇÃO T DE STUDENT P(T > T)= Α..............................................84 TABELA ESTATÍSTICA C - DISTRIBUIÇÃO F - P(F > F; N,D) = 0.05..............................................................85 LISTA DE TABELAS Tabela 1 Número de famílias nos bairros mais populosos de uma cidade X. Tabela 2. População por bairro, na cidade de São Gabriel da Cachoeira, no ano de 2003. Tabela 3 Nascidos vivos registrados por sexo e o ano de regis- tro, 1988. Tabela 4 Número de domicílios por bairros e região de nasci- mento do responsável em São Gabriel da Cachoeira/AM, 2003. Tabela 5 Níveis de escolaridade da Empresa X, no Polo Indus- trial de Manaus, 2010. Tabela 6 Nascidos vivos segundo o peso ao nascer, em quilo- gramas. Tabela 7 Número de famílias com filhos do sexo masculino Tabela 8 Estatura média de crianças em uma creche. 10 11 Tabela 9 Número de banheiros por domicílios Tabela 10 Crianças e adolescentes em uma escola Tabela 11 Distribuição das estaturas das crianças. Tabela 12 A estatura modal conforme a tabela a seguir. Tabela 13 Dados estão agrupados sem intervalos de classe Tabela 14 Dados de estatura (em cm) agrupados em intervalos de classe ............................................................... Tabela 15 Quantidades de nicotina e alcatrão em 12 marcas de cigarros. Tabela 16 Regra de decisão sob a hipótese nula Tabela 17 Cálculos para análise de regressão: Nicotinas (Y) e Alcatrão (X) em mg. Tabela 18 Análise de Variância – ANOVA Tabela 19 Tabela de Análise de Variância Tabela 20 Análise dos resíduos, em função da estimação da nicotina e o valor observado. LISTA DE QUADROS Quadro 1 Quadro Retirado da Tabela Normal Padrão (Tabela C). Quadro 2 Dados brutos da variável peso de crianças ao nascer (kg). Quadro 3 Dados em ordem crescente da variável peso de crianças ao nascer (kg) 12 Quadro 4 Qual a temperatura mais comum medida no mês. Quadro 5 Estaturas e pesos de um grupo de indiví- duos. Quadro 6. Número de casas por quarteirão Quadro 7 Estimação dos coeficientes de regressão. LISTA DE FIGURAS Figura 1 Diagrama de dispersão da quantidade de ni- cotina e alcatrão em cigarros. Figura 2 Representação da correlação positiva. Figura 3 Representação da correlação negativa Figura 4 Representação da reta de regressão e dos pontos observados. Figura 5 Representação do resíduo em função dos da- dos ajustados. 12 13 Capítulo 1 Conceitos fundamentais 1.1 Estatística e sua importância Durante muito tempo, a Estatística foi vista como uma simples téc- nica, que podia proporcionar ao homem a possibilidade de produzir gráfi- cos e tabelas. Posteriormente, a estatística passou a ser um procedimento, que servia à razão, na teoria dos jogos. Atualmente, no mundo contempo- râneo, passou a se constituir numa metodologia útil não só para descrever e analisar os fenômenos, mas, principalmente, para prever acontecimentos. Para tanto, a Estatística, através de técnicas específicas, transforma uma quantidade de dados (números) em informações úteis, que servem para organizar, analisar, apresentar, representar e interpretar dados sobre um determinado fenômeno. Todo esse procedimento ajuda-nos a enten- der o fenômeno e dar apoio à tomada de decisão. Todas as ciências se desenvolveram bastante nas últimas décadas e, dentro desse desenvolvimento a estatística também vêm se ampliando e se constituindo em metodologias, que tem se apropriado de conhecimentos e de tecnologias existentes das áreas afins, principalmente da Matemática e da Computação, fazendo com que os cálculos complexos e demorados sejam resolvidos facilmente através de pacotes estatísticos disponíveis no mercado (programas de computadores específicos para estatística). A Estatística Descritiva é de extrema importância na análise inicial dos dados coletados de um determinado fenômeno. O seu uso serve para: organizar, analisar, interpretar e descrever um conjunto de dados. Embora já se disponha de métodos estatísticos bem sofisticados, muitos problemas do nosso dia-a-dia podem ser resolvidos com a Estatística Descritiva. Os métodos de Inferência Estatística são utilizados principalmente para tomar decisões diante de incertezas que são inerentes aos fenômenos aleatórios. 14 1.2 População e Amostra População é o conjunto de todos os elementos (pessoas, animais, domi- cílios ou objetos) que têm pelo menos uma característica ou atributo em comum de interesse no fenômeno em estudo. A seguir veremos alguns exemplos: Exemplo 1.1 Suponha que queremos estudar o perfil sócio-econômico dos estudantes do Ensino Médio da cidade de São Gabriel da Cachoeira. Então, o fenômeno em estudo é o perfil sócio-econômico dos estudan- tes do Ensino Médio e a população é formada por todos os estudantes matriculados nas escolas de Ensino Médio da cidade de São Gabriel da Cachoeira. Exemplo 1.2 Para estudar o consumo mensal de energia (em kW/h) num determinado bairro da cidade de São Gabriel da Cachoeira, o fenômeno em estudo é o consumo de energia e a população é formada por todos os domicílios do bairro estudado. Exemplo 1.3 Imagine agora que queremos fazer um levantamento sobre o perfil das da população na cidade de São Gabriel da Cachoeira. Então, o fenômeno em estudo é a população de todos os habitantes que residem na cidade (sendo a grande maioria da população da região local entre outros imigrantes). Amostra é uma parte da população, selecionada de maneira criteriosa, para efetivamente fornecer os dados representativos para o estudo. Uma amostra representativa de uma população pode ser obtida escolhendo-se aleatoriamente os elementos que irão compor a amostra, e isso nos permite fazer inferências sobre a população. No Exemplo 1.1, a amostra é composta por parte dos estudantes do Ensino Médio da cidade de São Gabriel da Cachoeira, enquanto que no Exemplo 1.2 a amostra é formada por alguns domicílios do bairro es- tudado, escolhidos aleatoriamente. Duas observações são importantes: a primeira é que devemos usar procedimentos estatísticos para determinar o tamanho da amostra, ou 14 15 seja, quantos elementos devem ser selecionados para fazer parte da amos- tra; e a segunda é utilizar o método adequado para a seleção dos elementos da amostra, isto é, o plano de amostragem. Algumas questões surgem, quando pensamos em amostragem, dentre as quais: Como será selecionada a amostra? Qual será o tipo de amostragem? Dentre os tipos de amostragem será aleatória ou não? Quem fará parte da amostra? Quem não fará parte da amostra? Lembramos que a amostra está diretamente ligada aos objetivos da pes- quisa, deste modo, para decidir sobre o tamanho da amostra e o método de seleção da amostra, é necessário ter informações sobre o universo a ser pesquisado. 1.3 Alguns tópicos importantes na seleção da amostra. 1.3.1 Identificação dos objetivos da pesquisa e população Ao realizarmos uma pesquisa é importante avaliar alguns pontos: O primeiro ponto seria identificar as razões e antecedentes da pes- quisa, para então definir os objetivos gerais, operacionais e alternativos. Segundo ponto seria identificar as unidades de análise e resposta, assim como estabelecer população-alvo de interesse (as sub-populações, no caso de estratos). Outro ponto é a especificação das variáveis de interesse, bem como definir as possíveis unidadesde medidas. 1.3.2 Coleta dos dados Estabelecer o modo de coleta na pesquisa de campo: entrevista di- reta, observação, individual, em grupo, por carta, telefone, e-mail, baseado na elaboração de um instrumento de pesquisa (formulário, questionário entre outros). Neste contexto, é muito importante operacionalizar os con- 16 ceitos de variáveis. 1.3.3 Planejamento e Seleção da amostra A precisão estatística para pesquisa esbarra nas limitações impos- tas pelo orçamento, na operacionalidade e na logística, seja no campo, ou no laboratório. Deste modo é necessário avaliar custo do levantamento da pesquisa, para saber o quanto vai ser gasto para coletar os dados. 1.3.4 Critérios de inclusão e exclusão dos elementos da amostra Antes de obter a amostra é preciso definir exatamente a população de onde essa amostra será retirada, ou seja, é preciso saber a configura- ção da população. Na configuração da população, é preciso estabelecer os critérios para selecionar os elementos ou sujeitos que irão constituir a amostras. Assim como definir os sujeitos que não poderão participar da amostra. 1.3.5 Quais as técnicas para seleção da amostra Os princípios básicos da teoria da amostragem são expressos por meio de uma linguagem simples, apresentando os recursos empíricos fa- miliares a quem já utiliza os procedimentos descritivos da estatística em seus estudos, ou atividades de pesquisas. Neste capítulo, serão delimitadas as características básicas dos planos de observação e a localização dos pro- cedimentos da amostragem, no processo da investigação científica. Na realização de uma investigação científica queremos fazer afir- mações sobre características de uma determinada população, que assegu- 16 17 rem o valor científico das informações obtidas e das conclusões alcança- das, isto é, a confiabilidade dos resultados do estudo. A amostragem tem a finalidade de reunir as seguintes características operacionais: Ser aplicado a um conjunto de dados reais e finitos, composto de ele- mentos ou sujeitos de uma população em estudo; Estes elementos podem ser animais, plantas, ou sujeitos de pesquisas, como seres humanos coletados de maneira direta (entrevistas, como roteiros de pesquisas e formulários, ou mesmos questionários) ou in- direta por meio de bancos de dados (fichas cadastrais, prontuários, entre outros) em uma determinada comunidade. (Lembrando que, pesquisas com seres humanos de maneira direta ou indireta, o projeto de pesquisa deverá ser submetido à aprovação em um Comitê de Ética em Pesquisa – CEP, conforme (Resolução 196/96 MS), antes de fazer pesquisa); As características ou atributos são observados em cada elemento da amostra, e posteriormente agregados por meio de medidas estatísticas, denominadas valores populacionais; Os dados são coletados em amostras da população em estudo e as medidas calculadas (estimativas) passam a ser a informação disponível para os valores populacionais desconhecidos. Em geral, estudo de levantamento é quase impossível observar to- dos os elementos da população em estudo, principalmente pelo tempo e o custo operacional. Portanto, precisa-se selecionar uma amostra. Na qual se deve escolher uma amostra que seja representativa da população. As- sim, escolhendo-se criteriosamente as unidades amostrais, teremos segu- rança para usar a inferência estatística e generalizar os resultados obtidos na amostra para a população. Alguns conceitos são necessários e serão reforçados a seguir: População é o conjunto de todos os elementos (animais, plantas, pessoas, domicílios ou objetos) que têm pelo menos uma caracterís- tica ou um atributo em comum de interesse do estudo. Censo - quando consideramos todos os elementos da população, em um estudo, realizamos um censo. Em geral, a realização de um censo demanda muito tempo e alto custo, daí o Brasil fazer o censo a cada dez anos. Por outro lado, o censo se torna viável também, 18 quando a população é pequena e é fácil o acesso aos elementos da população. Amostra é uma parte da população, selecionada de maneira criterio- sa, para efetivamente fornecer os dados para o estudo. Deste modo, é necessário a formulação do problema e determinar qual é o objeto de pesquisa, para poder definir o plano de amostragem com elementos de ligação na operacionalidade do estudo, que compreen- de desde o cálculo do tamanho da amostra e do plano amostral. 1.3.6 Plano de Amostragem A elaboração do plano de amostragem significa construir soluções para determinar o número de elementos a serem observados, mas também as condições concretas para operacionalizar os planos de observação e análise no processo de amostragem. Em geral, escolhemos um tamanho mínimo de amostra necessário para estimar uma proporção populacional - π ou uma média populacio- nal - µ , com uma aceitável margem de erro - ε para mais ou para menos e a probabilidade de ocorrer um erro menor ou igual ao erro aceitável deve ser alta, isto é, um intervalo de confiança de (1 ) 100%α− × . Ou seja, de- vemos escolher n de modo que, (| | ) 1P p π ε α− ≤ ≥ − ou (| | ) 1 ,P x µ ε α− ≤ ≥ − onde p é a proporção amostral e x é a média amostral. A partir daí, fazendo algumas suposições e alguns cálculos, vamos encontrar, respectivamente, 2 / 2 0 2 (1 ) zn α π π ε = × × − ou 2 2/ 2 0 2 zn α σ ε = × Se a população em estudo tem um número finito de elementos, devemos fazer a correção de população finita como segue: 0 01 nn n N = + 18 19 Onde N é o tamanho da população do estudo. Em seguida, de acordo com os objetivos do estudo, determina- mos o procedimento amostral (método) mais apropriado entre os tipos de amostragens: aleatória Simples, amostragem sistemática, amostragem estratificada, entre outras. Podemos observar que, na fórmula para o cálculo do tamanho da amostra, aparecem as quantidades desconhecidas π ou 2σ . Este proble- ma é contornado usando-se em seu lugar as respectivas proporção amos- tral p ou variância amostral 2S , que podem ser obtidas de uma amostra piloto. Exemplo 1.4: Suponha que queremos avaliar o estado nutricional de escolares (entre 6 a 10 anos) na rede de ensino público em Manaus, por exemplo, neste ano. O cálculo da amostra poderia ser realizado levan- do-se em conta a área metropolitana de Manaus, levando-se em conside- ração a demanda escolar semanal e a prevalência de 15%, poderia ser a prevalência de desnutrido estimada entre os desvios nutricionais dos esco- lares )15,0( p . Admitindo-se para composição da amostra a ser estuda- da um erro amostral tolerável de 5% )05,0( 0 e e um nível de confiança de 95%, isto é, 100)1( ×−α , ( 96,1 2 Z ) . ( ) ( )2 2 2 0 1)( e ppZ n − = α 196 05,0 15,0115,096,1 2 2 0 n Utilizando-se a fórmula para correção para populações finitas, com N=64.857 crianças de 6 a 10 anos (IBGE, 2000), temos N n nn 0 0 1+ = 2159,214 64857 1961 196 ≅= + =n Após o cálculo da amostra, algumas vezes, é necessário levar em conside- ração, no tamanho da amostra, possível perdas por preenchimento de for- mulário ou devoluções de questionários a fim de compensar as possíveis perdas, resguardaremos um nível de 5%. Com uma compensação das perdas de 5% equivale a uma amostra com no mínimo 225 escolares. 20 A seguir representamos o quadro os intervalos de confiança )1( α− mais frequentemente utilizados com os correspondentes valores de 2 αz . Quadro 1 Quadro Retirado da Tabela Normal Padrão (Tabela C). 1.3.7 Seleção da amostra Resumidamente, podemos selecionar os elementos da amostra da seguinte forma: a) Quando a população é homogênea conforme a variá- vel de interesse usa-se amostra aleatória simples; b) Quando se sabe que a população não é homogênea, conforme a variável de interesse usa-se amostragem estratificada, ou seja, dividi-se a população em grupos homo- gêneos (estratos) e realiza-se amostragem aleatória simplesem cada estra- to; c) Há outros métodos de amostragens como amostragem sistemática e amostragem por conglomerado. 1.4 Como selecionar a amostra? De um lado, uma amostra representativa de uma população pode ser obtida escolhendo-se aleatoriamente os elementos que irão compor a amostra e isso nos permite calcular estimativas de erros no processo inferencial. Amostras obtidas desta forma são chamadas de Amostras Probabilísticas, neste caso fica claramente definida a probabilidade de um elemento qualquer fazer parte da amostra. Por outro lado, o plano de amostragem consiste em decidir qual é (1-α) Z/2 0,80 1,282 0,95 1,960 0,99 2,576 20 21 o modelo de sorteio e o tipo de amostragem adequado para a seleção da amostra seja probabilística, ou não, adequado às condições propostas no plano de observação. Neste livro, a amostragem não probabilística não fará parte. 1.4.1 Amostragem Aleatória Simples Quando a população é homogênea, segundo a característica esco- lhida para o estudo, os elementos da população são numerados de 1 a N e em seguida, sorteia-se aleatoriamente n números compreendidos entre 1 e N . A amostra será composta pelos n números sorteados. 1.4.2 Amostragem Estratificada Quando a população sabidamente não é homogênea em relação à característica escolhida para o estudo, mas pode ser dividida em grupos homogêneos, é mais fácil e eficiente escolher uma amostra aleatória sim- ples de cada grupo. Estes grupos são chamados de estratos. Esse método de amostragem é bastante utilizado, pois em muitos estudos a população tem estratos bem definidos e comumente usa-se a amostragem estratificada proporcional, isto é, o tamanho da amostra em cada estrato é proporcional ao tamanho do estrato. Exemplo 1.5 Suponha que vamos tomar uma amostra de 10 alunos de uma classe com 50 alunos dos quais 32 são mulheres. A população será estratificada por gênero. Então, o tamanho da população é 50N = , o ta- manho de estrato corresponde aos homens é 18HN = e o tamanho do estrato corresponde às mulheres é 32MN = . Calculando o tamanho da amostra 10n = , proporcional ao tamanho de cada estrato, encontramos. 1810 3,6 4 50 H H Nn n N = × = × = ≈ 22 3210 6,4 6 50 M M Nn n N = × = × = ≈ .e Observe que H MN N N= + e H Mn n n= + . Ou seja, o tamanho da po- pulação é igual à soma dos tamanhos dos estratos e o mesmo ocorre com o tamanho da amostra, isto é, serão selecionados proporcionalmente ho- mens (4) e mulheres (6). 1.4.3 Amostragem Sistemática É bastante utilizada por sua simplicidade operacional. De uma população de N elementos, escolhem-se n elementos a cada intervalo de amplitude r , sendo r o inteiro mais próximo de /N n . A amostra será formada pelos elementos escolhidos seqüencial- mente de ordem , , 2 , , ( 1)k k r k r k n r+ + + − , onde k é qualquer intei- ro escolhido aleatoriamente entre 1 e n . Exemplo 1.6: Vamos selecionar uma amostra sistemática de oito alunos de uma turma de 50 alunos de uma classe em São Gabriel da Cachoeira. Usamos o Diário de Classe onde consta o nome dos alunos em ordem al- fabética. Aqui 50N = , 8n = e 50 /8 6,3 6.r = = ≈ Suponha que entre 1 e 8 sorteamos o número 6. Assim, farão parte da amostra os alunos cujos números no boletim correspondem a 6, 12, 18, 24, 30, 36, 42 e 48. Exemplo 1.7: Suponha que José é candidato a Prefeito de uma cidade com, digamos, 10.000 habitantes. Ele quer saber qual é a proporção de eleitores com intenção de votar nele. Para responder essa questão, antes de tudo deve ficar claro que a população a ser pesquisada não é a popula- ção dos habitantes do Município, e sim a população formada por todos 22 23 os eleitores com domicílio eleitoral naquela cidade. Para estimar a proporção desejada, José admite um erro de 5% e fica estabelecido que seja usado um intervalo de 95% de confiança. Neste caso o tamanho da amostra será calculado como: 2 / 2 0 2 (1 ) zn α π π ε = × × − , onde 0,05ε = , obtido da Tabela A - distribuição normal / 2 0,025 1,96z zα = = , e π é verdadeira proporção de eleitores de José. Essa proporção é desconhecida π e devemos estimá-la usando uma amostra pi- loto ou usando o valor máximo 2 1=π , e 2 11 =−π , isto é, (1 )π π× − que igual a ¼. Assim, o tamanho inicial da amostra é dado por: 2 0 2 (1,96) 1 384,19 385 (0,05) 4 n = × = ≈ . Supondo que na cidade existem, registrados, 4.852 eleitores, deve- mos fazer a correção de população finita e o tamanho final da amostra fica dado por 385 3573851 4852 n = = + No caso do estudo da eleição para Prefeito da cidade, uma forma razoável de se fazer a amostragem é dividir a população em estratos, cada estrato correspondendo, por exemplo, aos bairros da cidade. O tamanho da amostra em cada bairro (estrato) deve ser proporcional ao tamanho da população do bairro. Escolhendo-se aleatoriamente os domicílios dentro do bairro e de cada domicílio poderemos entrevistar um eleitor. 1.5 Definição e classificação de variáveis No exemplo 1.1, estudo do perfil socioeconômico dos estudantes do Ensino Médio da cidade de São Gabriel da Cachoeira fica subentendi- 24 do que, estamos querendo conhecer, normalmente, algumas variáveis de interesse, por exemplo: sexo, idade, renda familiar, número de filhos na família, escolaridade dos pais, entre outras variáveis socioeconômicas. É importante diferenciar os tipos de variáveis para podermos dar o tratamento estatístico adequado às mesmas. As variáveis são classificadas como qualitativas ou quantitativas. 1.5.1 Variável Qualitativa A Variável Qualitativa representa uma qualidade e seus valores são categorias. De acordo com as categorias, pode ser subdividida em Qua- litativa Nominal, se as categorias não impõem uma ordem natural, ou Qualitativa Ordinal, se as categorias impõem uma ordem natural. Exemplo 1.8 Variáveis Qualitativas Nominais Nacionalidade (brasi- leira, colombiana, venezuelana, portuguesa,...); Religião (católica, evangéli- ca,...); Sexo: (masculino, feminino,...). Observa-se nestas variáveis que não existe uma relação de ordem entre as categorias. Exemplos 1.9 Variáveis Qualitativas Ordinais Escolaridade (Ensino Fundamental, Ensino Médio, Ensino Superior); Classe social (A, B, C,...); Tamanho do manequim de uma pessoa (PP, P, M, G, GG). Neste caso, as categorias apresentam uma relação de ordem natural. 1.5.2 Variável Quantitativa A Variável Quantitativa representa uma quantidade e seus va- lores são numéricos. Podem ser subdivididas em quantitativa discreta, quando seus valores são pontos sobre a reta, geralmente resultado de uma contagem, ou quantitativa contínua, quando seus valores estão num in- tervalo da reta, geralmente é o resultado de uma medida. Exemplo 1.10 Variáveis quantitativas discretas Número de filhos por família (0, 1, 2,...); Número de computadores por domicílio (0, 1,...); Números de celulares por domicílio (0, 1,...); Números de quartos por domicílios (0,1,...); Números de mensagens recebidas por dia (0, 1, 2, 3, ...), entre outras. Neste caso, refere-se a resultado de contagem da variá- 24 25 vel de interesse. Exemplo 1.11 Variáveis Quantitativas Contínuas idade e peso de indi- víduo (em quilograma), altura de indivíduos (em centímetro ou em metro), entre outras. As variáveis são avaliadas e registradas conforme o objeto de estu- do, sendo realizadas em diferentes unidades de medidas. Por exemplo, no estudo do perfil dos estudantes do Ensino Médio da cidade de São Gabriel da Cachoeira, o pesquisador tem como unidade amostral, estudante do Ensino Médio e as variáveis poderiam ser: altura, idade, renda familiar e tipo de escola em que está matriculado o estudante. O valor da vari- ável vai depender do estudante avaliado, sendo o valor expresso pela uni- dade de medida escolhida, por exemplo, a variável idade em anos; renda em números de salários mínimos, altura poderá ser medida em centímetro (ou metro). 1.6 Coleta de dados Em toda pesquisa de levantamento onde queremosfazer afirma- ções sobre características de uma população, surgem dois problemas que devem ser tratados com bastante atenção para a confiabilidade dos resul- tados do estudo. O primeiro diz respeito ao número de unidades a serem observadas, o tamanho da amostra, anteriormente, já visto. O segundo refere-se ao plano amostral, isto é, como operacionalizar a coleta dos dados. Na realização de estudos dessa natureza é quase impossível obser- var todos os elementos da população em estudo, principalmente pelo tem- po e o custo operacional. Portanto, tendo que trabalhar com uma amostra, deve-se escolher uma amostra que seja representativa da população. Assim, escolhendo-se criteriosamente as unidades amostrais teremos se- gurança para usar a inferência estatística e generalizar os resultados obti- dos da amostra para a população. 26 1.6.1 Fontes de dados As fontes de dados podem ser primárias e secundárias: Fontes primárias: Dizemos que a fonte é primária quando o pró- prio pesquisador gera a informação. A fonte primária mais utilizada é a observação direta de um fenômeno, por ser um método clássico na pes- quisa de campo, baseado ou não em um instrumento de pesquisa usado para levantamento de dados. Tais como, temperatura média diária em uma determinada região ou o índice de inflação mensal de certo país. Fontes secundárias: São bancos de dados ou arquivos previamente exis- tentes, onde estão armazenadas as informações que serão utilizadas no levantamento, ou seja, os dados já existem e o pesquisador irá lançar mão deles para desenvolver seu estudo. As fichas de cadastro de estudantes ou de clientes de uma loja de departamentos são exemplos de fontes de dados secundária. 1.6.2 Construção do instrumento de pesquisa O instrumento de pesquisa é o objeto que reúne um conjunto de questões para gerar um documento padrão onde serão coletados e regis- trados os dados da pesquisa. O instrumento precisa ser bem adequado e direcionado aos objetivos da pesquisa. Para o êxito do instrumento de pesquisa devemos levar em conta que: • As questões devem ser formuladas de forma mais simples possí- vel; • Devemos facilitar as respostas dos entrevistados; • Demos elaborar as perguntas de forma clara para facilitar a com- preensão do respondente; • Devemos estimular a memória do sujeito entrevistado; • Devemos evitar a realização de cálculos; 26 27 • Devemos evitar palavras técnicas no instrumento; • Devemos evitar perguntas dúbias; • Devemos evitar perguntas sugestivas; • Devemos evitar grande número de questões em questionário; • Devemos evitar questões com respostas abertas, mas podemos permitir a existência de espaço para uma resposta adicional. 1.6.3 Amostra piloto ou pré-teste Após a aprovação do projeto de pesquisa em um Comitê de Ética em Pesquisa, é importante efetuar uma amostra piloto para testar, pre- viamente, esse instrumento, pois, somente com aplicação efetiva do ins- trumento é que poderemos detectar falhas, e, com isso, corrigi-las. E se constitui naquilo que denominamos de pré-teste. Em sua aplicação, as falhas poderão ser detectadas. Nesse momen- to, poderemos detectar: a ambigüidade de questões; necessidade de novas questões; respostas que não haviam sido previstas; entre outras. O pré- -teste ainda possibilita a estimativa do tempo de aplicação do instrumento, assim como a atualização do número de elementos da amostra. 1.6.4 Recursos Computacionais Como nós indicamos, no início deste livro, o avanço computacio- nal foi fundamental para o crescente uso da Estatística. Cálculos cansati- vos agora são realizados apenas com um clique no mouse. Pacotes esta- tísticos como Minitab, Statistica e SPSS, são bastante interativos e de fácil manuseio, mas em geral, o custo de uma permissão de uso é muito alto. Um pacote estatístico de uso livre e bastante utilizado pelos esta- tísticos e usuários da estatística é o chamado R, encontrado em (http:// www.r-project.org). A planilha eletrônica Excel (Microsoft® Office Excel 2003) tem 28 Exercício do capítulo 1 1) Escreva a unidade de medida e faça a classificação das variáveis conforme as legendas: Quantitativa Contínua – QTC; Quantitati- va Discreta – QTD; Qualitativa Ordinal – QLO; Qualitativa No- minal – QLN. a) Peso de um pirarucu pescado com arpão (kg) b) Desperdício de alimento ao final da merenda escolar por turno (em kg) c) Temperatura (em grau Celsius) d) Medição da pressão arterial sistólica (mg/ml) e) Número de ligações telefônicas recebidas ao dia f) Duração de uma chamada telefônica (min) g) Hierarquia em uma empresa h) Hierarquia militar i) Peso de bagagem (em kg) j) Desperdício de alimento ao final da merenda escolar por turno (em kg) k) Regiões do Brasil (centro-oeste, nordeste, norte, sudeste e sul) l) Time de futebol em São Gabriel da Cachoeira m) Temperatura (em grau Celsius) n) Escolaridade o) Medição da pressão arterial sistólica (mg/ml) p) Número de acidentes de trânsito 2) O que você entende por população, amostra e censo? 3) Em uma cidade foram arroladas 68 casas comerciais que vendem o produto P, numeradas de 1 a 68 em uma listagem. Como es- colher sistemática e aleatoriamente uma amostra de tamanho 20 28 29 dessas casas de comércio? 4) Considere que a rede pública municipal do ensino fundamental de um município tem 3500 alunos matriculados e distribuídos em 12 escolas. Suponha que o objetivo da pesquisa seja estudar o perfil dos alunos. a) Qual é a população? b) Determine o tamanho da amostra com erro de 5% e intervalo de confiança de 95%; c) Que tipo de amostragem você usaria? 5) Com base na tabela a seguir, use amostragem aleatória estratifica- da. Determine o tamanho total da amostra e o tamanho da amos- tra em cada bairro. Considere erro de 5% e intervalo de confiança de 95%. Tabela 1 Número de famílias nos bairros mais populosos de uma cidade X. Bairros Número de famílias Compensa 142 Alvorada 89 Japiim 113 Flores 89 Cidade Nova 97 São José Operário 79 Total 609 30 30 31 várias ferramentas estatísticas e será utilizada no desenvolvimento deste curso. Mas é necessário que se tenha a clareza de que o computador rea- liza as tarefas que você ordena. Portanto, é imprescindível que o adminis- trador, ou qualquer profissional, tenha o conhecimento das ferramentas estatísticas, para usar com propriedade os recursos computacionais dispo- níveis para a análise de dados. Capítulo 2 Organização de dados 2.1 Apresentação de Dados em Tabelas A apresentação de tabelas permite a condensação de dados de modo a torná-los de fácil compreensão. Os dados devem ser apresentados em tabelas de acordo com normas técnicas estabelecidas pela Fundação Instituto Brasileiro de Geografia e Estatística (IBGE, 1993). 2.2 Componentes das tabelas As tabelas têm título, corpo, cabeçalho e coluna indicadora. O títu- lo explica o que contém a tabela. O corpo é formado pelas linhas e colunas de dados da tabela. O cabeçalho da tabela especifica o conteúdo das colu- nas e a coluna indicadora especifica o conteúdo das linhas. A fonte indica o local de onde foram retirados (Tabela 2). Tabela 2. População por bairro, na cidade de São Gabriel da Cachoeira, no ano de 2003. Bairro População Areal 3.119 Boa Esperança 992 Centro 1.306 Dabaru 3.425 Fortaleza 1.629 Graciliano 632 Nova Esperança 815 Padre Cícero 795 Praia 892 São Jorge 187 Total 13.792 Fonte: ISA 2004 Título Coluna indicadora Corpo Cabeçalho 32 Toda tabela dever ser delimitada por traços horizontais. Podem ser feitos traços verticais para separar as colunas, mas não devem ser feitos traços verticais para delimitar a tabela. O cabeçalho é separado do corpo por um traço horizontal. As tabelas podem apresentar as freqüências absolutas, as freqüên- cias relativas e o total. Para obter a freqüência relativa de uma categoria, divide-se a freqüência dessa categoria pelo total, isto é, asoma das fre- qüências. O total da coluna é escrito entre traços horizontais. As tabelas podem conter fonte, notas e chamadas. A fonte dá indicação da entidade, ou do pesquisador, ou dos pesquisadores que pu- blicaram ou forneceram os dados. Como exemplo, na tabela 2 a fonte é o ISA - Instituto Socioambiental, (Azevedo, 2004). As notas e chamadas devem esclarecer aspectos relevantes do levantamento dos dados ou da apuração; quando existentes, devem ser apresentadas após a fonte. 2.3 Tabelas de Dupla entrada Muitas vezes os elementos da amostra ou da população são classificados com mais de um fator. Os dados devem então ser apresen- tados em tabela de contingência, isto é, em tabelas de dupla entrada, cada entrada referente a um dos fatores. Como exemplo, veja a Tabela 3, que apresenta o número de nascidos vivos registrados. Note que eles estão classificados por dois fatores: o ano de registro e o sexo. Tabela 3 Nascidos vivos registrados por sexo e o ano de registro, 1988. Ano de registro Sexo Total Masculino Femenino 1984 1.307.758 1.251.280 2.559.038 1985 1.339.059 1.280.545 2.619.604 1986 1.418.050 1.361.203 2.779.253 32 33 2.4 Tabelas de distribuição de freqüên- cias A partir de dados brutos (tendo estes dados uma grande variação dos seus valores), podemos construir uma tabela com as informações resu- midas e mais informativas possível, para cada variável do estudo. Como exemplo do Quadro 1. Quadro 2 Dados brutos da variável peso de crianças ao nascer (kg). As tabelas com grande número de dados (muita informação) são cansativas e não dão ao leitor uma visão rápida e global do fenômeno es- tudado, ou seja, deixa sem resposta, as questões de interesse, como pode ser observado na tabela 3. Essa tabela (denominada de tabela de distribuição de freqüência), como o nome indica, conterá os valores da variável e suas respectivas contagens, sendo denominada freqüência absoluta, ou simplesmente fre- qüência. Existem dois tipos de tabelas de distribuição de freqüências: dis- tribuição de freqüência pontual e distribuição de freqüência em classes. DADOS BRUTOS 2,522 3,200 1,900 4,100 4,600 3,400 2,720 3,720 3,600 2,400 1,720 3,400 3,125 2,800 3,200 2,700 2,750 1,570 2,250 2,900 3,300 2,450 4,200 3,800 3,220 2,950 2,900 3,400 2,100 2,700 3,000 2,480 2,500 2,400 4,450 2,900 3,725 3,800 3,600 3,120 2,900 3,700 2,890 2,500 2,500 3,400 2,920 2,120 3,110 3,550 2,300 3,200 2,720 3,150 3,520 3,000 2,950 2,700 2,900 2,400 3,100 4,100 3,000 3,150 2,000 3,450 3,200 3,200 3,750 2,800 2,720 3,120 2,780 3,450 3,150 2,700 2,480 2,120 3,155 3,100 3,200 3,300 3,900 2,450 2,150 3,150 2,500 3,200 2,500 2,700 3,300 2,800 2,900 3,200 2,480 - 3,250 2,900 3,200 2,800 2,450 - 34 2.5 Tabela de distribuição de freqüência pontual A apresentação da tabela de freqüência sem intervalos de clas- ses, isto é, uma tabela de distribuição de freqüência pontual, na tabela 4. Lembrando que todo título de tabela deve conter a localização e a data do fenômeno. Tabela 4 Número de domicílios por bairros e região de nascimento do responsável em São Gabriel da Cachoeira/AM, 2003. Bairros Local de Nascimento Total SGC Região Fora da Região Areal 95 340 142 577 Boa Esperança 18 102 53 173 Centro 67 88 141 296 Dabaru 75 329 190 594 Fortaleza 144 86 157 387 Graciliano 22 61 30 113 Nova Esperança 14 88 22 124 Padre Cícero 15 90 19 124 Praia 47 62 40 149 São Jorge 3 17 2 22 Total 500 1263 796 2559 Fonte: ISA (2003) Nota: Levantamento Preliminar de origem preliminar dos responsáveis pelo domicílio 34 35 Tabela 5 Níveis de escolaridade da Empresa X, no Polo Industrial de Manaus, 2010. 2.6 Tabelas de distribuição de freqüên- cias em classes Imagine que, para dar uma idéia geral sobre o peso ao nascer de nascidos vivos, o pesquisador irá apresentar não os pesos observados, mas o nú- mero de nascidos vivos por faixa de peso. Deve-se, então, construir uma tabela de distribuição de freqüências. 2.7 Construção de uma tabela de distribuição de freqüência em classes 1o PASSO: Organizamos todos os dados em ordem crescente ou decres- cente. Quadro 3 Dados em ordem crescente da variável peso de crianças ao nascer (kg) Níveis de Escolaridade Número de Empregados Porcentagem Fundamental 12 33,33 Médio 18 50,00 Superior 06 16,67 Total 36 100,00 1,570 2,480 2,780 3,000 3,200 3,550 1,720 2,480 2,800 3,000 3,200 3,600 1,900 2,500 2,800 3,100 3,200 3,600 2,000 2,500 2,800 3,100 3,200 3,700 2,100 2,500 2,800 3,110 3,200 3,720 2,120 2,500 2,890 3,120 3,220 3,725 2,120 2,500 2,900 3,120 3,250 3,750 2,150 2,522 2,900 3,125 3,300 3,800 2,250 2,700 2,900 3,150 3,300 3,800 2,300 2,700 2,900 3,150 3,300 3,900 2,400 2,700 2,900 3,150 3,400 4,100 2,400 2,700 2,900 3,150 3,400 4,100 2,400 2,700 2,900 3,155 3,400 4,200 2,450 2,720 2,920 3,200 3,400 4,450 2,450 2,720 2,950 3,200 3,450 4,600 2,450 2,720 2,950 3,200 3,450 - 2,480 2,750 3,000 3,200 3,520 - 36 1,570 2,480 2,780 3,000 3,200 3,550 1,720 2,480 2,800 3,000 3,200 3,600 1,900 2,500 2,800 3,100 3,200 3,600 2,000 2,500 2,800 3,100 3,200 3,700 2,100 2,500 2,800 3,110 3,200 3,720 2,120 2,500 2,890 3,120 3,220 3,725 2,120 2,500 2,900 3,120 3,250 3,750 2,150 2,522 2,900 3,125 3,300 3,800 2,250 2,700 2,900 3,150 3,300 3,800 2,300 2,700 2,900 3,150 3,300 3,900 2,400 2,700 2,900 3,150 3,400 4,100 2,400 2,700 2,900 3,150 3,400 4,100 2,400 2,700 2,900 3,155 3,400 4,200 2,450 2,720 2,920 3,200 3,400 4,450 2,450 2,720 2,950 3,200 3,450 4,600 2,450 2,720 2,950 3,200 3,450 - 2,480 2,750 3,000 3,200 3,520 - 2o Passo: Verificar a Amplitude Total ( tA ) A amplitude total é a diferença entre o maior valor observado e o menor valor observado. Neste caso, será 030,3570,1600,4 =−=tA . 3o Passo: Definir o Número de classes (faixas) (K ) O número de classe pode ser definido pelo pesquisador. Uma maneira de encontrar o número de classes pode ser definida pela fórmula de Sturges. A fórmula de Sturges, )log(32,31 nK , em que n é o tamanho da amostra. Com base aos dados anteriores, 100=n , calculando K : 744,744,61222,31)100log(22,31 ≈=+=×+=×+=K . Ou seja, vamos usar inicialmente 7=K classes. OBSERVAÇÃO: É importante deixar claro que o resultado obtido por esta fórmula pode ser usado como referência, mas cabe ao pesquisador determinar o número de classes em que pretende organizar seus dados. Quando se constrói uma tabela de distribuição de freqüências, é melhor usar, como limites (extremos) de classes, números fáceis de trabalhar. 36 37 4o Passo: Amplitude das Classes ( h ) Assim como no caso do número de classes ( K ), a amplitude das classes ( h ) é, na maioria das vezes, trabalhada em relação ao maior inteiro, isto é, dependendo da natureza dos dados. Para calcular a amplitude de classes, utiliza-se a seguinte fórmula: t A h t= Então, a amplitude de classes para os dados em questão será: 5,043,0 7 03,3 h 5o Passo: Limites das classes Existem diversas maneiras de expressar os limites das classes. Por exemplo: a) 10 12 compreendem todos os valores entre 10 e 12; b) 10 ¾ 12 compreendem todos os valores de 10 a 12, excluindo o 12; c) limite aparente 10 ¾ 12; limite real 9,5 – 11,5; d) 10 ¾12 compreendem todos os valores, excluindo o 10. Nota: Usualmente se utiliza o intervalo do exemplo b, que também será utilizado na tabela de distribuição de freqüências que construiremos. 6o Passo: Construção da tabela de distribuição de freqüências, tabela 6. 38 Tabela 6 Nascidos vivos segundo o peso ao nascer, em quilogramas. Observação: A tabela distribuição de freqüência deve ter uma formata- ção adequada de acordo com as normas vigentes. Na coluna das classes, em relação à primeira classe onde o intervalo de classe é 1,570 ¾ 2,070, trabalhou-se com a menor observação sendo o limite inferior (1,570) e o limite superior (1,570 + 0,5 = 2,070) é a soma do limiteinferior com a amplitude de classes ( h ). 2.8 Tipos de freqüências Numa distribuição de freqüência pode-se trabalhar com alguns ti- pos de freqüência, discriminados a seguir: Freqüência absoluta ( fi ) – é o número de vezes que o elemento aparece na amostra, ou número de elementos pertencentes a uma classe. Classes de peso Frequência 1,570 2,070 04 2,070 2,570 20 2,570 3,070 29 3,070 3,570 33 3,570 4,070 09 4,070 4,570 04 4,570 5,070 01 TOTAL 100 38 39 Freqüência relativa ( rfr ) – é o valor da freqüência absoluta divi- dido pelo número total de observações, ou seja, n ffr ii . Freqüência acumulada ( ifa ) – é a soma das freqüências absolu- tas até a classe i . Freqüência relativa acumulada ( ifra ) – é o valor da freqüência acumulada dividido pelo número total de observações, ou seja, n frfra ii . 2.9 Medidas de posição para dados agrupados Tem por objetivo descrever um conjunto de dados de forma orga- nizada e compactada que possibilite a visualização do conjunto estudado por meio de suas estatísticas. 2.9.1 Média aritmética ( X ) para dados agrupados Sem intervalo de classe - Consideremos a distribuição de freqüência abaixo, para o número de famílias com filhos do sexo masculino em 34 famílias com até quatro filhos. Vamos determine a média de meninos por família. 40 Tabe;la 7 Número de famílias com filhos do sexo masculino Como as freqüências são os números de vezes em que cada valor da variável aparece, elas funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada, dada pela fórmula: 1 . 78 2,29. 34 n i i i i x f X f == = = ∑ ∑ Portanto, há uma média de dois filhos do sexo masculino por família, aproximadamente. COM INTERVALOS DE CLASSE - Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio e determinamos a média aritmética ponderada por meio da fórmula: ∑ ∑ == i n i ii f fx X 1 . , onde: if é freqüência da classe i e ix é o ponto médio da classe i . Exemplo: Calcular a estatura média de crianças em uma creche, conforme a tabela abaixo. Aplicando a fórmula acima temos: 2440 61 40 X cm= = , as crianças têm em média 61 centímetros de altura.. Número de filhos homens ( ix ) Frequência ( if ) ii xf 0 02 0 1 06 6 2 10 20 3 12 36 4 04 16 Total 34 78 40 41 Tabela 8 Estatura média de crianças em uma creche. 2.9.2 Mediana - dM A mediana de um conjunto de valores, dispostos segundo uma ordem (crescente ou decrescente), é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos. SEM INTERVALOS DE CLASSE: Neste caso, é o bastante identificar a freqüência acumulada imediatamente superior à metade da soma das freqüências. A mediana será aquele valor da variável que corresponde a tal freqüência acumulada. Exemplo: Conforme tabela a seguir: Tabela 9 Número de banheiros por domicílios Estatura (cm) Frequência ( if ) Ponto médio ( ix ) . ii xf . 50 54 04 52 208 54 58 09 56 504 58 62 11 60 660 62 66 08 64 512 66 70 05 68 340 70 ├74 03 72 216 Total 40 - 2.440 Número de banheiros ( iX ) Frequência ( if ) Frequência acumulada ( ifa ) 0 02 02 1 06 08 2 09 17 3 13 30 4 05 35 Total 35 - 42 Quando o número de elementos na amostra ( n ) for ímpar, o valor mediano será o valor dos dados ordenados que ocupe a ordem dada pela fórmula 2 1+n , ou seja, .18 2 135 Será, portanto, o décimo oitavo elemento (180). Para identificá-lo, localiza-se o 180 elemento na freqüência acumulada, neste exemplo 3,dM = isto é, a mediana é igual a 3. Calcule a mediana da tabela, a seguir: Tabela 10 Crianças e adolescentes em uma escola Quando o somatório das freqüências for par, o valor mediano será a mé- dia entre os elementos de ordem 2 n e 1 2 + n , ou seja, 4 2 8 = e 51 2 8 =+ . Identificam-se o 4o e 5o elementos na freqüência acumulada, que corres- pondem, respectivamente, aos elementos 15 e 16. Portanto a média dos elementos é a mediana 15 16 31 15,5 2 2d M anos+= = = . Idade (anos) ( iX ) Frequência ( if ) Frequência acumulada ( ifa ) 12 1 1 14 2 3 15 1 4 16 2 6 17 1 7 20 1 8 Total 8 - 42 43 COM INTERVALOS DE CLASSE: Neste caso, devemos seguir os seguintes passos: 10) passo: Determinamos as freqüências simples if ; 20) passo: Calculamos as freqüências acumuladas ifa ; 30) passo: Marcamos a classe correspondente à freqüência acumulada imediatamente superior a 2 n . Tal classe será a classe mediana; 40) passo: Calculamos a Mediana pela seguinte fórmula:. 12 i d i i i n fa M l h f − − = + × onde: ii = é o limite inferior da classe que contém a mediana; 1ifa = é a freqüência acumulada da classe anterior à classe mediana; if = é a freqüência da classe que contém a mediana; ih = é a amplitude da classe que contém a mediana. Tabela 11 Distribuição das estaturas das crianças. Estaturas (cm) Crianças ( if ) Freqüência acumulada ( ifa ) 50 54 4 4 54 58 9 13 58 62 11 24 62 66 8 32 66 70 5 37 70 74 3 40 Total 40 - 44 10) passo: 202 40 2 n logo a classe mediana será 58¾ 62. 20) passo: Identificação dos elementos para calcular o valor da mediana na fórmula: il = 58; 1ifa = 13; if = 11; e ih = 4. Substituindo esses valores na fórmula, obtemos: 54,60 11 28584 11 132058 dM Emprego da Mediana • Quando desejamos obter o ponto que divide a distribuição em duas partes iguais. • Quando há valores extremos que afetam de maneira acentuada a média aritmética. 2.9.3 Moda - oM A moda é o valor que ocorre com maior freqüência em um conjunto de dados. Exemplo: O salário modal dos empregados de uma fábrica é o salário mais comum, isto é, o salário recebido pelo maior número de empregados dessa fábrica. 44 45 A MODA PARA DADOS AGRUPADOS: Moda sem intervalos de classe: Uma vez agrupados os dados, é possível determinar imediatamente a moda: basta fixar o valor da variável de maior freqüência. Quadro 4 Qual a temperatura mais comum medida no mês. Resposta: a 0 2M = , isto é, a temperatura modal é 2º C, pois ocorreu com maior freqüência. Moda com intervalos de classe: A classe que apresenta a maior fre- qüência é denominada classe modal. Pela definição, podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os limites da classe modal. Tabela 12 A estatura modal conforme a tabela a seguir. Temperaturas Dias (f i) 0º C 3 1º C 9 2º C 12 3º C 6 Estaturas (cm) Crianças ( if ) 50 54 4 54 58 9 58 62 11 62 66 8 66 70 5 70 74 3 Total 40 46 Método utilizando a fórmula de CZUBER: iio hlM ×∆+∆ ∆ += 21 1 il = limite inferior da classe modal; 1∆ = é a diferença entre a freqüência da classe modal e a freqüência da classe imediatamente anterior à da classe modal; 2∆ = é a diferença entre a freqüência da classe modal e a freqüência da classe imediatamente posterior à da classe modal; ih = amplitude da classe modal. 6,594 )811)(911( 91158 oM OBS: A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição ou quando a medida de posição deva ser o valor mais típico da distribuição. 2.10 Medidas de dispersão ou variabilidade Para a descrição adequada de um fenômeno, necessitamos da medida de tendência central – média. Utilizamos também as medidas de dispersão que representam as oscilações em torno de um valor central, os desvios em relação a este valor central. 46 47 2.10.1 Amplitude total É a única medida de dispersão que não tem na média o ponto de referência. Quando os dados não estão agrupados, a amplitude total é a diferença entre o maior e o menor valor observado: minmax XXAt −= Exemplo: Para os valores 40, 45,48, 62 e 70. Calcule a amplitude total: 304070 tA Quando os dados estão agrupados sem intervalos de classe ainda temos, como exemplo: Tabela 13 Dados estão agrupados sem intervalos de classe tA = minmax XX − tA = 81220 . COM INTERVALOS DE CLASSE A AMPLITUDE TOTAL - é a diferença entre o limite superior da última classe e o limite inferior da primeira classe. Idade ( iX ) Frequência ( if ) 12 1 14 2 15 1 16 2 17 1 20 1 Total 8 48 Exemplo: Tabela 14 Dados de estatura (em cm) agrupados em intervalos de classe A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série. Faz-se uso da amplitude total quando se quer determinar a amplitude da temperatura em um dia, no controle de qualidade ou como uma medida de cálculo rápido sem muita exatidão. 2.10.2 Variância ( 2S ) A variância é uma medida que tem pouca utilidade na estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de amostras. Calculada pela soma ao quadrado das dife- renças das classes. Estaturas (cm) Frequência ( if ) 50 54 04 54 58 09 58 62 11 62 66 08 66 70 05 70 74 03 Total 40 tA = max min 74 50 24 .X X cm n fxx S i k i i 2 12 ou 1 2 11 2 2 n fxfx S k i iii k i i 48 49 2.10.3 Desvio padrão ( ) É a medida de dispersão que geralmente é mais empregada, pois leva em consideração a totalidade dos valores da variável em estudo. É um indicador de variabilidade bastante estável. O desvio padrão baseia-se nos desvios em torno da média aritmética e a sua fórmula básica pode ser traduzida como: a raiz quadrada da média aritmética dos quadrados dos desvios e é representada por . DESVIO PADRÃO PARA DADOS NÃO AGRUPADOS E SEM RE- PETIÇÕES Para uma amostra: Exemplo: Dada uma amostra: 2, 3, 4, 5. Calcule o desvio padrão. Solução: Precisamos calcular a média primeiramente. Exemplo: Calcule o desvio padrão populacional para os dados: 3, 6, 12, 7. Para o cálculo do desvio padrão populacional, utilizamos a seguinte fór- mula: 2S 2S 1 )( 2 1 n xx S n i i 5,3 4 14 x 14 )5,35()5,34()5,33()5,32( 2222 S 3 )5,1()5,0()5,0()5,1( 2222 S 3 25,225,025,025,2 S 3 00,5 S 67,1S 29,1S 50 N xx S n i i 2 1 )( 7 4 28 x 4 )77()712()76()73( 2222 S 4 )0()5()1()4( 2222 S 4 42 S 5,10S 24,3S DESVIO PADRÃO PARA DADOS AGRUPADOS- DISTRIBUIÇÃO DE FREQUÊNCIA PONTUAL Utilizando a Tabela abaixo (Tabela 6), calcule o desvio padrão. Idade (xi) Alunos (fi) xifi xi2fi 12 1 12x1= 12 122x1= 144 14 2 14x2= 28 142x2= 392 15 1 15x1= 15 152x1= 225 16 2 16x2= 32 162x2=512 17 1 17x1 = 17 172x1= 289 20 1 20x1 = 20 202x1= 400 Total 8 124 1.962 n i n i ii ii n fx fx n S 1 2 12 1 1 8 124962.1 18 1 2S 40 7 1 S 71,5S 39,2S anos. 50 51 DESVIO PADRÃO PARA DADOS AGRUPADOS-DISTRIBUIÇÃO EM CLASSES A seguir, temos a distribuição de frequência dos tempos de atendimento (em minutos) de um caixa de banco de uma amostra de 15 clientes. *No cálculo do desvio padrão usaremos a mesma fórmula anterior, sendo que xi a ser trabalhado será o ponto médio entre cada intervalo, ou seja, o ponto médio do primeiro intervalo será a média dos intervalos. Aplicando a fórmula: 2.11 Medidas de dispersão relativa 2.12 Coeficiente de variação de Pearson - CV(%) Na estatística descritiva o desvio padrão por si só tem grandes limitações. Assim, um desvio padrão de duas unidades pode ser considera- do pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média for igual a 20, o mesmo não poderia ser dito. Observa-se o fato de o desvio padrão ser expresso na mesma unidade de medida dos dados. Por outro lado quando os dados são expressos em unidades dife- rentes, limita-se o emprego do coeficiente de variação - CV: Coeficiente de Variação de Pearson (é a razão entre o desvio padrão e a média referente a dados de uma mesma série). Medida essa denominada de: Faixa de tempo Clientes (fi) (xi)* xifi xi2fi 0 4 3 2 2x3= 6 (2)2x3= 12 4 8 7 6 6x7 = 42 (6)2x7= 252 8 12 5 10 10x5= 50 (10)2x5= 500 Total 8 - 98 764 15 98764 115 1 2S 73,123 14 1 S 84,8S 87,2S minutos. 100 X SCV 52 O resultado neste caso é expresso em percentual, entretanto pode ser expresso também através de um fator decimal, desprezando assim o valor 100 da fórmula. Exemplo: Tomemos os resultados das estaturas e dos pesos de um mesmo grupo de indivíduos no quadro a seguir: Quadro 5 Estaturas e pesos de um grupo de indivíduos. Qual das medidas (Estatura ou Peso) possui maior homogeneidade? Cálculo dos Coeficientes de Variação Teremos que calcular os coeficientes de variação das variáveis Estatura e Peso. O coeficiente de menor valor será o de maior homogeneidade, isto é, o que tem a menor dispersão ou variabilidade dos dados. Estatura: Peso: Logo, nesse grupo de indivíduos, a variável estatura apresenta menor grau de dispersão nos dados que a variável peso. VARIÁVEL M É D I A DESVIO PADRÃO Estatura 175 cm 5,0 cm Peso 68 kg 2,0 kg %85,2100)175/5((%) CV %94,2100)68/2((%) CV 52 53 Exercício do capítulo 2 1) Os dados da tabela abaixo são de títulos negociados. Calcule o valor médio dos títulos negociados. 2) Observe o número de divórcios na cidade, de acordo com a duração do casamento, na tabela abaixo. a) Qual a duração média e mediana dos casamentos? b) Encontre a variância e o desvio padrão da duração dos casa- mentos. 3) A distribuição de freqüência do salário anual dos moradores do bairro A que têm alguma forma de rendimento é apresentada na tabela a seguir: a) Qual a média e o desvio padrão da variável salário? Valor dos Títulos (R$) Número de Títulos 2.000 18 500 08 200 02 Total 28 Anos de casamento Número de divórcios 0 6 2.800 6 12 1400 1218 600 18 24 150 2430 50 Total 5.000 54 b) Um bairro B apresentou, para a mesma variável, uma média de 7,2 e um desvio padrão de 15,1. Em qual dos bairros a população é mais homogênea quanto à renda? 4) Uma pesquisa com usuários de transportes coletivos na cidade X indagou sobre os diferentes tipos usados nas suas locomoções diárias. Dentre ônibus, moto e taxi, o número de diferentes meios de transporte utilizados foi: 2; 3; 2; 1; 2; 1; 2; 1; 2; 3; 1; 1; 1; 2; 2; 3; 1; 1; 1; 1; 2, 1; 1; 2; 2; 1; 2; 1; 2 e 3. a) Organize uma distribuição de freqüência. b) Faça uma representação gráfica. c) Calcule todas as medidas de tendência e variabilidade que você conhece. d) Admitindo que essa amostra represente bem o comportamento do usuário desta cidade pesquisada, você acha que a porcentagem dos usuários que utilizam mais de um tipo de transporte é grande? 5) A distribuição de freqüência abaixo indica o número de aciden- tes ocorridos com motoristas de uma empresa de ônibus em determinado ano: a) Determine a freqüência acumulada absoluta e a freqüência re- lativa (%); Faixa salarial Número de moradores 0 2 10.000 2 4 3.900 4 6 2.000 6 8 1.100 8 10 800 1012 700 1214 2.000 Total 20.500 54 55 b) Calcule a média, mediana e moda; c) Calcule a amplitude total, variância, desvio padrão. 6) (Bussab e Morettin, 2005) Para facilitar um projeto de ampliação da rede de esgoto de uma região de uma cidade, as autoridades tomaram uma amostra de tamanho 50 dos 270 quarteirões que compõem a região, e foram encontrados os seguintes números de casas por quarteirão: Quadro 6. Número de casas por quarteirão Faça uma análise descritiva destes dados: a) Construa uma distribuição de freqüênciamais adequada para estes dados; b) Calcule a média, mediana e moda; c) Calcule a amplitude total, variância e desvio padrão. 7) Os dados da tabela abaixo, retirados de Magalhães e Lima (2001), são informações de um questionário aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes informações: Id: identificação do aluno. Turma: turma a que o aluno foi alocado (A ou B). Sexo: F de feminino, M de masculino. Idade: idade em anos. Alt: altura em metros. Peso: peso em quilogramas. Filhos: número de filhos na família. Fuma: hábito de fumar, sim ou não. Toler: tolerância ao cigarro: (I) indiferente, (P) incomoda pouco e (M) incomoda muito. Física: horas de atividade 2 2 3 10 13 14 15 15 16 16 18 18 20 21 22 22 23 24 25 25 26 27 29 29 30 32 36 42 44 45 45 46 48 52 58 59 61 61 61 65 66 66 68 75 78 80 89 90 92 97 Número de Acidentes Número de Motoristas 2 16 3 09 4 06 5 05 6 03 Total 39 56 física por semana. Cine: número de vezes em que vai ao cinema por se- mana. OpCine: opinião a respeito das salas de cinema na cidade: (B) re- gular a boa e (M) muito boa. TV: horas gastas assistindo TV por semana. OpTV: opinião a respeito da qualidade da programação na TV: (R) ruim, (M) média, (B) boa e (N) não sabe. Faça uma análise descritiva dos dados apresentados acima. Id Turma Sexo Idade Alt Peso Filhos Fuma Toler Física Cine OpCine TV OpTV 1 A F 17 1,60 60,5 2 NAO P 0 1 B 16 R 2 A F 18 1,69 55,0 1 NAO M 0 1 B 7 R 3 A M 18 1,85 72,8 2 NAO P 5 2 M 15 R 4 A M 25 1,85 80,9 2 NAO P 5 2 B 20 R 5 A F 19 1,58 55,0 1 NAO M 2 2 B 5 R 6 A M 19 1,76 60,0 3 NAO M 2 1 B 2 R 7 A F 20 1,60 58,0 1 NAO P 3 1 B 7 R 8 A F 18 1,64 47,0 1 SIM I 2 2 M 10 R 9 A F 18 1,62 57,8 3 NAO M 3 3 M 12 R 10 A F 17 1,64 58,0 2 NAO M 2 2 M 10 R 11 A F 18 1,72 70,0 1 SIM I 10 2 B 8 N 12 A F 18 1,66 54,0 3 NAO M 0 2 B 0 R 13 A F 21 1,70 58,0 2 NAO M 6 1 M 30 R 14 A M 19 1,78 68,5 1 SIM I 5 1 M 2 N 15 A F 18 1,65 63,5 1 NAO I 4 1 B 10 R 16 A F 19 1,63 47,4 3 NAO P 0 1 B 18 R 17 A F 17 1,82 66,0 1 NAO P 3 1 B 10 N 18 A M 18 1,80 85,2 2 NAO P 3 4 B 10 R 19 A F 20 1,60 54,5 1 NAO P 3 2 B 5 R 20 A F 18 1,68 52,5 3 NAO M 7 2 B 14 M 21 A F 21 1,70 60,0 2 NAO P 8 2 B 5 R 22 A F 18 1,65 58,5 1 NAO M 0 3 B 5 R 23 A F 18 1,57 49,2 1 SIM I 5 4 B 10 R 24 A F 20 1,55 48,0 1 SIM I 0 1 M 28 R 25 A F 20 1,69 51,6 2 NAO P 8 5 M 4 N 26 A F 19 1,54 57,0 2 NAO I 6 2 B 5 R 27 B F 23 1,62 63,0 2 NAO M 8 2 M 5 R 28 B F 18 1,62 52,0 1 NAO P 1 1 M 10 R 29 B F 18 1,57 49,0 2 NAO P 3 1 B 12 R 30 B F 25 1,65 59,0 4 NAO M 1 2 M 2 R 31 B F 18 1,61 52,0 1 NAO P 2 2 M 6 N 32 B M 17 1,71 73,0 1 NAO P 1 1 B 20 R 33 B F 17 1,65 56,0 3 NAO M 2 1 B 14 R 34 B F 17 1,67 58,0 1 NAO M 4 2 B 10 R 35 B M 18 1,73 87,0 1 NAO M 7 1 B 25 B 36 B F 18 1,60 47,0 1 NAO P 5 1 M 14 R 37 B M 17 1,70 95,0 1 NAO P 10 2 M 12 N 38 B M 21 1,85 84,0 1 SIM I 6 4 B 10 R 39 B F 18 1,70 60,0 1 NAO P 5 2 B 12 R 40 B M 18 1,73 73,0 1 NAO M 4 1 B 2 R 41 B F 17 1,70 55,0 1 NAO I 5 4 B 10 B 42 B F 23 1,45 44,0 2 NAO M 2 2 B 25 R 43 B M 24 1,76 75,0 2 NAO I 7 0 M 14 N 44 B F 18 1,68 55,0 1 NAO P 5 1 B 8 R 45 B F 18 1,55 49,0 1 NAO M 0 1 M 10 R 46 B F 19 1,70 50,0 7 NAO M 0 1 B 8 R 47 B F 19 1,55 54,5 2 NAO M 4 3 B 3 R 48 B F 18 1,60 50,0 1 NAO P 2 1 B 5 R 49 B M 17 1,80 71,0 1 NAO P 7 0 M 14 R 50 B M 18 1,83 86,0 1 NAO P 7 0 M 20 B 56 57 Id Turma Sexo Idade Alt Peso Filhos Fuma Toler Física Cine OpCine TV OpTV 1 A F 17 1,60 60,5 2 NAO P 0 1 B 16 R 2 A F 18 1,69 55,0 1 NAO M 0 1 B 7 R 3 A M 18 1,85 72,8 2 NAO P 5 2 M 15 R 4 A M 25 1,85 80,9 2 NAO P 5 2 B 20 R 5 A F 19 1,58 55,0 1 NAO M 2 2 B 5 R 6 A M 19 1,76 60,0 3 NAO M 2 1 B 2 R 7 A F 20 1,60 58,0 1 NAO P 3 1 B 7 R 8 A F 18 1,64 47,0 1 SIM I 2 2 M 10 R 9 A F 18 1,62 57,8 3 NAO M 3 3 M 12 R 10 A F 17 1,64 58,0 2 NAO M 2 2 M 10 R 11 A F 18 1,72 70,0 1 SIM I 10 2 B 8 N 12 A F 18 1,66 54,0 3 NAO M 0 2 B 0 R 13 A F 21 1,70 58,0 2 NAO M 6 1 M 30 R 14 A M 19 1,78 68,5 1 SIM I 5 1 M 2 N 15 A F 18 1,65 63,5 1 NAO I 4 1 B 10 R 16 A F 19 1,63 47,4 3 NAO P 0 1 B 18 R 17 A F 17 1,82 66,0 1 NAO P 3 1 B 10 N 18 A M 18 1,80 85,2 2 NAO P 3 4 B 10 R 19 A F 20 1,60 54,5 1 NAO P 3 2 B 5 R 20 A F 18 1,68 52,5 3 NAO M 7 2 B 14 M 21 A F 21 1,70 60,0 2 NAO P 8 2 B 5 R 22 A F 18 1,65 58,5 1 NAO M 0 3 B 5 R 23 A F 18 1,57 49,2 1 SIM I 5 4 B 10 R 24 A F 20 1,55 48,0 1 SIM I 0 1 M 28 R 25 A F 20 1,69 51,6 2 NAO P 8 5 M 4 N 26 A F 19 1,54 57,0 2 NAO I 6 2 B 5 R 27 B F 23 1,62 63,0 2 NAO M 8 2 M 5 R 28 B F 18 1,62 52,0 1 NAO P 1 1 M 10 R 29 B F 18 1,57 49,0 2 NAO P 3 1 B 12 R 30 B F 25 1,65 59,0 4 NAO M 1 2 M 2 R 31 B F 18 1,61 52,0 1 NAO P 2 2 M 6 N 32 B M 17 1,71 73,0 1 NAO P 1 1 B 20 R 33 B F 17 1,65 56,0 3 NAO M 2 1 B 14 R 34 B F 17 1,67 58,0 1 NAO M 4 2 B 10 R 35 B M 18 1,73 87,0 1 NAO M 7 1 B 25 B 36 B F 18 1,60 47,0 1 NAO P 5 1 M 14 R 37 B M 17 1,70 95,0 1 NAO P 10 2 M 12 N 38 B M 21 1,85 84,0 1 SIM I 6 4 B 10 R 39 B F 18 1,70 60,0 1 NAO P 5 2 B 12 R 40 B M 18 1,73 73,0 1 NAO M 4 1 B 2 R 41 B F 17 1,70 55,0 1 NAO I 5 4 B 10 B 42 B F 23 1,45 44,0 2 NAO M 2 2 B 25 R 43 B M 24 1,76 75,0 2 NAO I 7 0 M 14 N 44 B F 18 1,68 55,0 1 NAO P 5 1 B 8 R 45 B F 18 1,55 49,0 1 NAO M 0 1 M 10 R 46 B F 19 1,70 50,0 7 NAO M 0 1 B 8 R 47 B F 19 1,55 54,5 2 NAO M 4 3 B 3 R 48 B F 18 1,60 50,0 1 NAO P 2 1 B 5 R 49 B M 17 1,80 71,0 1 NAO P 7 0 M 14 R 50 B M 18 1,83 86,0 1 NAO P 7 0 M 20 B 8) Um órgão do governo do estado (Bussab e Morettin, 2005) está inte- ressado em determinar padrões sobre o investimento em educação, por habitante, realizado pelas prefeituras. De um levantamento de dez cidades, foram obtidos os valores (codificados) da tabela abaixo: Nesse caso, será considerada como investimento básico a média final das observações, calculada da seguinte maneira: a) Obtém-se uma média inicial. b) Eliminam-se do conjunto aquelas observações que forem su- periores à média inicial mais duas vezes o desvio padrão, ou inferiores à média inicial menos duas vezes o desvio padrão. c) Calcula-se a média final com o novo conjunto de observações. d) Qual o investimento básico que você daria como resposta? Cidades A B C D E F G H I J Investimento 20 16 14 8 19 15 14 16 19 18 58 58 59 Capítulo 3 Correlação Em muitos estudos, o principal objetivo é descrever a associação existente entre as variáveis, isto é, avaliar o grau de dependência entre elas, de modo a prever o resultado mais aproximado de uma delas quando se conhece a realização da outra. Para verificar se existe relação entre duas variáveis quantitativas, o coeficiente de correlação é uma medida adequa- da. Usualmente, devemos determinar o coeficiente de correlação para uma amostra, pois desconhecemos este valor na população. Um procedimento bastante útil para se verificar a associação entre variáveis quantitativas, é por meio do diagrama de dispersão. 3.1 Diagrama de Dispersão No estudo da relação entre duas variáveis, o diagrama de disper- são representa um importante passo preliminar antes da análise estatística formal. O diagrama de dispersão dos dados permite dar uma idéia, da relação existente, entre as variáveis. Para fazer o gráfico de dispersão, representa-se cada ponto pelo par de valores X (abscissa) e Y (ordenada) num sistema cartesiano. Na Figura 1 estão representados os pares ),( YX observados na Tabela 17. 60 Diagrama de Dispersão 0 0.5 1 1.5 2 2.5 3 0 10 20 30 40 Figura 1 Diagrama de dispersão da quantidade de nicotina e alcatrão em cigarros. Tabela 15 Quantidades de nicotina e alcatrão em 12 marcas de cigarros. Observação Alcatrão em mg ( X ) Nicotina em mg ( Y ) 1 1 0,1 2 3 0,3 3 6 0,3 4 9 0,6 5 12 0,9 6 15 0,5 7 18 1,3 8 21 1,4 9 24 1,6 10 28 1,7 11 30 2,1 12 35 2,4 60 61 Figura 2 Representação da correlação positiva. 3.2 Correlação linear Observada uma associação entre as variáveis quantitativas X e Y , é muito útil quantificar esta associação. Apresentaremos a seguiro tipo de associação mais simples – a linear. Verificada por meio da nuvem de ponto estabelecida pelo diagrama de dispersão, vamos encontrar uma medida que possa quantificar o quanto o gráfico se aproxima de uma reta. Esta quantificação é conhecida como o coeficiente de correlação linear e será denotado por r . Quando duas variáveis crescem no mesmo sentido, dizemos que en- tre elas existe uma correlação positiva. Quando duas variáveis crescem em sentidos opostos, dizemos que entre elas existe uma correlação negativa. 62 3.3 Como se mede correlação linear? Para medir o grau de correlação linear entre duas variáveis, calcula- -se o coeficiente de correlação r . Dada uma amostra de um par de variáveis ( , ), 1, 2, ,i iX Y i n= o coeficiente de correlação entre as variáveis é calculado como segue: Exemplo: No estudo de cigarros da Tabela 15, com uma amostra de ta- manho 12n = marcas de cigarros, foram avaliadas: variáveis Nicotina (Y ) e Alcatrão ( X ), encontrando os seguintes valores: Figura 3 Representação da correlação negativa. 1 1 1 2 2 2 21 1 1 1 n n i in i i i i i n n i in ni i i i i i X Y X Y nr X Y X Y n n 62 63 Neste caso temos O coeficiente de correlação varia entre –1 e +1, ou seja, . A relação é mais próxima de uma reta, à medida que r se aproxima de –1 ou +1. A relação será uma reta perfeita se . 3.4 Teste de significância sobre r. Muitas vezes, temos o interesse em testar a existência de corre- lação entre duas variáveis X e Y , a partir de uma amostra. Neste caso, além de mensurar o grau de correlação observado nos dados, queremos, também, testar as seguintes hipóteses relativas à população em estudo. 0H : As variáveis X e Y são não correlacionadas; 1H : As variáveis X e Y são correlacionadas. Ou equivalentemente, 0 : 0H ρ = versus 0:1 ≠ρH Supondo que a amostra vem de uma população com correlação nula, a estatística de teste, tem distribuição -Student com graus de liberdade. Para o exemplo acima encontramos 12 1 312,30i i i X Y , 12 1 202i i X , 12 2 1 4746i i X , 12 1 13,20i i Y e 12 2 1 20,88i i Y . 2 2 202 13,2312,30 90,1012 0,9739 92,51(202) (13,2)4746 20,88 12 12 r 1 1r 1r ou 1r 2 2 1c nt r r 64 2 12 20,9739 13,569 1 (0,9739)c t E agora, como vamos decidir se existe correlação significativa en- tre alcatrão e nicotina? A regra de decisão depende da hipótese alternativa e é apresentada na Tabela B. Tabela 16 Regra de decisão sob a hipótese nula Continuando nosso exemplo, consultando a Tabela B, em anexo, da distribuição t -Student, encontra-se o grau de liberdade, com 2 10n − = e / 2 0,025α = , 10,2,5% 2,228t = . Comparando com o valor obtido da es- tatística 13,569ct = , devemos rejeitar a hipótese nula, pois (10; 2,5%)ct t> ou seja, existe uma correlação positiva entre nicotina e alcatrão ao nível de 5% de probabilidade. Hipóteses Regra de decisão: 0:0 H Não Rejeito 0H se, e somente se, ( 2, )nt t 1 : 0H Rejeito 0H se, e somente se, ( 2; )2 | | n t t 64 65 Exercício 1. O primeiro estudo de regressão foi realizado por Galton, por volta de 1885. O problema que gerou este estudo consistia em compreender se existia relação entre a altura dos filhos (Y) em função da altura média dos pais (X) medidas em centímetros. a) Faça o diagrama de dispersão; b) Calcule a correlação; c) Teste a correlação 0,05α = ; d) Conclua. X Y X Y X Y X Y 164 166 164 168 166 166 166 168 166 171 166 173 169 166 169 168 169 171 169 173 171 166 171 168 171 171 171 173 171 176 173 168 173 171 173 176 173 178 176 171 176 173 176 176 178 176 178 178 66 66 67 Capítulo 4 Regressão linear simples 4.1 Introdução No estudo de regressão linear simples, o objetivo é construir um modelo estatístico que possa ser utilizado para prever os valores da variá- vel resposta ou variável dependente Y , com base nos valores da variável regressora ou variável independente X . O modelo de regressão linear é dito simples, porque utiliza apenas uma variável independente. O primeiro passo, na análise, é construir o diagrama de dispersão. Ele ajuda na escolha da forma relacional entre as variáveis. Essa relação pode ser descrita por uma função linear ou por uma função linearizável. 4.2 Modelo Estatístico Assumimos que cada resposta iY está relacionada com o valor iX da variável independente por meio da equação: onde: (1) 1 2,, , nX X X são os valores da variável controlada X , que o experimentador selecionou para o estudo. (2) 1 2, , , nε ε ε , são erros desconhecidos que afetam a verdadeira relação linear. São variáveis aleatórias não observáveis, as quais assumimos serem independentes, normalmente distribuídas com média zero e variância constante 2σ , constante e desconhecida, isto é 2(0, )i Nε σ� . (3) α e β são parâmetros desconhecidos e devem ser estimados a , 1,2, ,i i iY X i n 68 partir dos dados. α e β representam o intercepto e a inclinação da reta, respectivamente. 4.3 O método dos Mínimos Quadrados Este método consiste em determinar os valores dos parâmetros e que minimizam a soma dos quadrados dos erros, a qual é definida por: onde a e b são chamados de estimadores de mínimos quadrados de α e b, respectivamente. 4.4 Notação básica 4.5 Reta de Mínimos Quadrados Com a notação acima e usando resultados do cálculo, encontra- mos, para a e b , o seguinte resultado, respectivamente: A reta de regressão ou de mínimos quadrados é dada então por: 2 2 1 1 ˆ( ) ( ) n n i i i i i i SQE Y Y Y a bX 1 1 n i i X X n 1 1 n i i Y Y n 1 1 cov( , ) ( )( ) n n i i i i i i X Y X X Y Y X Y nXY 2 22 2 1 1 ( ) n n X i i i i S X X X nX 2 22 2 1 1 ( ) n n Y i i i i S Y Y Y nY XbYa e 2 cov( , ) X X Yb S . ˆ , 1,2, ,i iY a bX i n 68 69 Exemplo Para os dados de nicotina e alcatrão, vamos determinar a reta de regressão para descrever a quantidade de Nicotina em função da quanti- dade de Alcatrão. A tabela 17 auxilia os cálculos: Tabela 17 Cálculos para análise de regressão: Nicotinas (Y) e Alcatrão (X) em mg. Neste caso encontramos, i iX iY 2 iX 2 iY i iX Y 1 1 0,1 1 0,01 0,1 2 3 0,3 9 0,09 0,9 3 6 0,3 36 0,09 1,8 4 9 0,6 81 0,36 5,4 5 12 0,9 144 0,81 10,8 6 15 0,5 225 0,25 7,5 7 18 1,3 324 1,69 23,4 8 21 1,4 441 1,96 29,4 9 24 1,6 576 2,56 38,4 10 28 1,7 784 2,89 47,6 11 30 2,1 900 4,41 63,0 12 35 2,4 1225 5,76 84,0 Total 202 13,2 4746 20,88 312,3 1 1 202 16,83 12 n i i X X n e 1 1 13,2 1,10 12 n i i Y Y n . 22 2 2 1 47416 12 (16,83) 1347,01 n X i i S X nX Ou 2 2 2 1 1 / 1347,01 i n n X i i i S X X n 22 2 2 1 20,88 12 (1,10) 6,36 n Y i i S Y nY ou 2 2 2 1 1 / 6,36 i n n Y i i i S Y Y n 1 1 ( )( ) 312,30 12 16,83 1,10 90,14 n n XY i i i i i i S X X Y Y X Y nXY ou 1 1 1 cov( , ) / 90,14 n n n i i i i i i i X Y X Y X Y n 70 As estimativas dos parâmetros são dadas por Portanto, o modelo é estimado por: O modelo estima que, quando aumenta 1mg de alcatrão, aumenta 0,0669mg de nicotina. Figura 4 Representação da reta de regressão e dos pontos observados. 4.6 Análise de Variância Uma vez estimada a reta de regressão, devemos verificar se ela representa satisfatoriamente a relação entre as variáveis em estudo, cuja tendência foi observada pelo conjunto de dados. Desse modo, é necessário conhecer
Compartilhar