Baixe o app para aproveitar ainda mais
Prévia do material em texto
www.esab.edu.br Probabilidade e Estatística Probabilidade e Estatística Vila Velha (ES) 2014 Escola Superior Aberta do Brasil Diretor Geral Nildo Ferreira Diretora Acadêmica Beatriz Christo Gobbi Coordenadora do Núcleo de Educação a Distância Beatriz Christo Gobbi Coordenadora do Curso de Administração EAD Rosemary Riguetti Coordenador do Curso de Pedagogia EAD Claudio David Cari Coordenador do Curso de Sistemas de Informação EAD David Gomes Barboza Produção do Material Didático-Pedagógico Delinea Tecnologia Educacional / Escola Superior Aberta do Brasil Diretoria Executiva Charlie Anderson Olsen Larissa Kleis Pereira Margarete Lazzaris Kleis Conteudista Michele Andreia Borges Coordenação de Projeto Patrícia Battisti Líderança Técnica Design Educacional Renata Oltramari Líderança Técnica Revisão Gramatical Tiago Costa Pereira Supervisão de Design Gráfico Laura Martins Rodrigues Design Educacional Aline Batista Revisão Gramatical Bárbara Seger Zeni Daniela Piantola Hellen Melo Pereira Laís Gonçalves Natalino Michela Silva Moreira Design Gráfico Fernando Andrade Neri Gonçalves Ribeiro Diagramação Grazielle Xavier Equipe Acadêmica da ESAB Coordenadores dos Cursos Docentes dos Cursos Copyright © Todos os direitos desta obra são da Escola Superior Aberta do Brasil. www.esab.edu.br Av. Santa Leopoldina, nº 840 Coqueiral de Itaparica - Vila Velha, ES CEP 29102-040 Apresentação Caro estudante, Seja bem-vindo à disciplina de Probabilidade e Estatística. Estamos ingressando em um campo de conhecimento que tem grande importância na tomada de decisão nas mais diversas situações e áreas de conhecimento. A estatística e a probabilidade nos dão suporte a decisões como a de realizar, por exemplo, uma cirurgia cuja probabilidade de sucesso é apenas de 30%, a decisão de lavar o carro sabendo que há 85% de chances de chover, entre outras situações. Por isso, convidamos você a mergulhar nos estudos da probabilidade e da estatística. Nesse módulo, trabalharemos principalmente com base nos autores Magalhães e Lima (2005), Bussab e Morettin (2002) e Bisquerra, Martínez e Sarriera (2004). Uma de nossas expectativas na disciplina é proporcionar a você um conhecimento estatístico passível de aplicação em seu curso. Esperamos que esteja animado para fazer este percurso. Convidamos você a iniciar os estudos. Bom estudo! Objetivo Conhecer os conceitos e cálculos estáticos, para compreender e aplicar esses conhecimentos nas mais diversas áreas de atuação profissional ou acadêmica. Habilidades e competências • Compreender o conceito de estatística. • Conhecer as medidas descritivas. • Conhecer as distribuições de probabilidade. • Apresentar os dados estatísticos em tabelas e gráficos. • Descrever os dados estatísticos por meio de medidas de tendência central e dispersão. • Calcular a probabilidade de determinados eventos ocorrerem. Ementa Conceitos preliminares. Noções de amostragem. Apresentação de dados. Medidas de tendência central e de dispersão. Probabilidade, variáveis aleatórias. Distribuição de probabilidades. Amostragem e estimativa de parâmetros. Sumário 1. Conceitos preliminares ....................................................................................................7 2. Planejamento de uma pesquisa estatística ...................................................................11 3. Noções de amostragem .................................................................................................16 4. Outros tipos de amostragem aleatória ..........................................................................22 5. Apresentação dos dados: tabelas e gráficos ..................................................................27 6. Tipos de gráficos estatísticos ........................................................................................33 7. Tabelas e gráficos ..........................................................................................................40 8. Exercícios resolvidos ......................................................................................................47 9. Distribuição de frequência ............................................................................................53 10. Intervalo de classe e ponto médio .................................................................................59 11. Medidas de tendência central .......................................................................................65 12. Moda, média e mediana para dados agrupados ............................................................71 13. Média geométrica e média harmônica ..........................................................................80 14. Medida de dispersão .....................................................................................................86 15. Variância e desvio-padrão para dados agrupados .........................................................93 16. Exercícios resolvidos ......................................................................................................99 17. Separatrizes e gráfico boxplot......................................................................................107 18. Medidas de assimetria e curtose .................................................................................113 19. Variável bidimensional ................................................................................................119 20. Diagrama de dispersão e coeficiente de correlação .....................................................125 21. Regressão linear simples .............................................................................................133 22. Probabilidade: conceito e axiomas ..............................................................................140 23. Probabilidade condicional e teorema de Bayes ...........................................................149 24. Teorema do produto ....................................................................................................155 25. Exercícios resolvidos ....................................................................................................161 26. Variável aleatória discreta ...........................................................................................166 27. Distribuição de Bernoulli .............................................................................................173 28. Distribuição binomial ..................................................................................................178 29. Distribuição de Poisson ...............................................................................................186 30. Variáveis aleatórias contínuas .....................................................................................191 31. Distribuição normal ....................................................................................................198 32. Exercícios resolvidos ...................................................................................................204 33. Aproximação normal à binomial .................................................................................211 34. Amostragem e inferência estatísticas ..........................................................................217 35. Distribuições amostrais ...............................................................................................222 36. Estimação: conceitos e propriedades ...........................................................................232 37. Estimadores de mínimos quadrados e máxima verossimilhança .................................239 38. Exercícios resolvidos ....................................................................................................245 39. Intervalos de confiança ...............................................................................................250 40. Teste de hipóteses: introdução ....................................................................................25741. Etapas para realizar um teste de hipótese ...................................................................263 42. Testes bilaterais e unilaterais ......................................................................................269 43. Teste de hipótese para média e teste para proporção ..................................................277 44. Exercícios resolvidos ....................................................................................................286 45. Teste t-Student ............................................................................................................294 46. Teste Qui-Quadrado ....................................................................................................302 47. Exercícios resolvidos ....................................................................................................311 48. Exercícios resolvidos ....................................................................................................321 Glossário ............................................................................................................................330 Referências ........................................................................................................................336 www.esab.edu.br 7 1 Conceitos preliminares Objetivo Introduzir os conceitos de estatística, amostra e população e apresentar as etapas de uma pesquisa estatística e a classificação das variáveis. Muitas vezes, quando ouvimos falar em estatística, logo imaginamos tabelas, gráficos e cálculos. No entanto, o “pensamento estatístico” pertence ao nosso cotidiano, é usado de forma intuitiva para tomar decisões a respeito de várias situações do dia a dia. Uma situação trivial, por exemplo, é quando vamos sair de casa para o trabalho ou para a faculdade. Sabemos que normalmente levamos em média 20 minutos (por exemplo) para realizar o trajeto. Como fazemos essa dedução? Conforme nossas experiências em realizar esse percurso, reparamos que chegamos ao trabalho em aproximadamente de 20 minutos após termos saído de casa. Dependendo do trânsito, levamos mais ou menos tempo. Mas, com a informação do tempo médio, conseguimos tomar a decisão a respeito do horário em que devemos acordar para nos arrumar e, assim, não chegar todos os dias atrasados ou antecipados em nosso destino. Em nenhum momento utilizamos um cálculo matemático formal, fizemos a nossa análise estatística de maneira intuitiva. Porém, se tivermos situações mais complexas, vamos necessitar de métodos e técnicas formais para resolver o problema. Se fizermos valer o pensamento estatístico sempre de forma intuitiva, poderemos ser induzidos ao erro em situações mais complexas. Assim, o estudo sistemático da estatística contribui para solucionar diversos problemas, de modo a auxiliar nas tomadas de decisão. Diante do emprego intuitivo da estatística em nosso cotidiano, podemos nos perguntar: mas o que vem a ser, de fato, a estatística? www.esab.edu.br 8 Segundo Magalhães e Lima (2005, p. 1), a estatística é “(...) como um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área de conhecimento”. 1.1 Conceitos básicos de estatística Para Magalhães e Lima (2005), o estudo da estatística é dividido basicamente em três grandes áreas: Estatística descritiva: encarrega-se das etapas iniciais da análise dos dados. Em outras palavras, seu propósito é descrever e resumir a informação daquele determinado conjunto de dados, de forma a obter conclusões sobre as principais características de interesse. Por exemplo: em um fichário com informações de pacientes doadores de sangue, descrever quantos têm o tipo sanguíneo AB positivo. Probabilidade: podemos pensar em probabilidade como um ramo matemático que estuda a incerteza proveniente de fenômenos aleatórios. Por exemplo: a probabilidade de chover em certo dia é de 75%. Inferência estatística: é o estudo de técnicas que nos permitem tirar conclusões a partir de uma parcela (subconjunto) de valores do conjunto original (total) de dados. Esse procedimento se faz necessário em muitos estudos e experimentos por razões de natureza econômica, ética e física ou, até mesmo, pela impossibilidade de acesso a todos os dados. Em estudos mais complexos, geralmente são utilizadas as três áreas da estatística. Você reparou que na descrição da área de inferência estatística nós falamos em conjunto de dados total e em subconjunto desses dados? Esses termos nos apresentam a dois grandes conceitos em estatística: população e amostra. • População: é o conjunto total de dados que engloba a característica que nos interessa estudar. Exemplos: o conjunto de habitantes de determinado bairro de uma cidade, o conjunto de alunos matriculados em uma determinada turma etc. www.esab.edu.br 9 • Amostra: é um subconjunto ou uma parte da população. Por exemplo: para verificar o grau de instrução dos moradores de determinado bairro, a amostra consistirá em pesquisar apenas alguns moradores desse bairro, e não a população total que ali residente. Veja na figura a seguir essa relação entre os dois conceitos: População Amostra Figura 1 – População versus amostra. Fonte: Elaborada pela autora (2013). Agora, observe a resolução da atividade a seguir para a fixação dos conceitos de população e amostra. Nas situações a seguir, vamos identificar quando se referem a população e quando se referem a uma amostra. a. Uma empresa possui 9.863 funcionários. Uma pesquisa, para levantar as necessidades da empresa com relação aos aspectos ergonômicos, foi aplicada a 1000 funcionários e detectou a necessidade da implantação de novos sistemas de iluminação nos ambientes. b. Um paciente realizou uma coleta de sangue para verificar os níveis de colesterol. c. Uma empresa confeccionou 1.800 peças de certo produto; contudo, os testes refinados de qualidade foram feitos em 80 peças. www.esab.edu.br 10 Solução a. A população é o conjunto total de indivíduos que temos interesse em analisar. Nesse caso a população é os 9.863 funcionários da empresa. Já a amostra é uma parcela dessa população; sendo assim, a amostra foi composta por 1000 funcionários. b. Nessa situação, o sangue do paciente é a população de interesse. Para verificar o nível de colesterol de um indivíduo, basta coletar apenas um pouco de sangue, isto é, uma amostra de sangue. c. A população, nessa situação, são as 1.800 peças de certo produto, e a amostra coletada para os testes de qualidade foram as 80 peças desse produto. Antes de concluirmos esta unidade, é importante você saber que para utilizarmos a estatística como instrumento de tomada de decisão em um determinado problema, precisamos compreender a sequência de algumas etapas. Saiba mais Veja como a estatística é utilizada para responder questões como: quantos somos? Quem vai vencer a eleição para prefeito na capital do meu estado? Quantas escolas municipais há no Brasil? Clique aqui. Nesta unidade compreendemos os conceitos básicos de estatística, e na próxima unidade você conhecerá as etapas que fazem parte do processo de uma pesquisa estatística. Até lá. http://www.uff.br/cdme/pesqest/pesqest-html/pesqest01.html http://www.cdme.im-uff.mat.br/pesqest/pesqest-html/pesqest01.html www.esab.edu.br 11 2 Planejamento de uma pesquisaestatística Objetivo Conhecer a etapa de planejamento de uma pesquisa estatística. Agora que já vimos alguns conceitos básicos em estatística, vamos nos concentrar no planejamento de uma pesquisa estatística. Seja qual for a pesquisa, sempre teremos um objetivo a ser alcançado ou comprovado. Com a pesquisa estatística não é diferente. Dessa forma, para executá-la, o primeiro passo é fazer um planejamento dessa pesquisa, que consiste em primeiramente determinar o tema, o problema de pesquisa e os objetivos a serem alcançados. Para tanto,é conveniente fazer uma boa revisão de literatura (evitando refazer o trabalho de outros autores) para compreender melhor o tema em questão e delimitar até onde sua pesquisa vai se aprofundar. Vejamos um exemplo de tema e problema de pesquisa. • Tema: perfil dos estudantes de graduação em Administração e Sistemas de Informação de uma Instituição de Ensino Superior (IES). • Problema de pesquisa: Qual o perfil dos estudantes de graduação em Administração e Sistemas de Informação de uma IES? Após a definição do tema, devemos traçar os objetivos, bastante claros, que irão nortear a pesquisa. Temos sempre o objetivo geral e os específicos. O objetivo geral da pesquisa é a principal meta que se deseja alcançar. Ele está totalmente interligado ao tema e ao problema de pesquisa. Já os objetivos específicos são as etapas para se chegar ao objetivo geral. Vejamos como ficariam os objetivos, seguindo o mesmo tema do exemplo anterior. www.esab.edu.br 12 Objetivo geral: conhecer o perfil dos estudantes de graduação dos cursos de Administração e Sistemas de Informação de uma IES. Objetivos específicos: a. conhecer as características individuais dos alunos; b. avaliar o nível de satisfação dos alunos com o curso; c. verificar se existe associação entre o nível de satisfação do aluno e o seu rendimento escolar. Perceba que o tema, o problema de pesquisa e o objetivo geral estão relacionados entre si; dessa forma, para expressar o problema de pesquisa, pegamos o tema e inserimos uma indagação no início (qual, como, por que, quantos etc.). No caso do objetivo, pegamos o tema e inserimos um verbo, isto é, uma ação que se deseja alcançar (verificar, analisar, estudar, desenvolver, mapear etc.). Agora, retorne aos exemplos citados anteriormente e observe como eles procedem dessa forma. Após estabelecidos o tema, o problema, os objetivos gerais e específicos, que fazem parte do planejamento de uma pesquisa, devemos pensar de que forma coletar os dados para que possamos atingir os resultados. 2.1 Coleta de dados Na etapa de coleta de dados, antes de colocar a “mão na massa”, é preciso entender alguns conceitos e fazer a opção por um deles. Para começar, devemos optar pelo tipo de pesquisa: direta e/ou indireta A pesquisa direta, chamada também de primária, é um documento ou qualquer fonte cuja origem remonta, de forma geral, à época que se está pesquisando, frequentemente, produzida pelas próprias pessoas estudadas. A pesquisa indireta, chamada também de secundária, consiste em todo o trabalho que se baseia em outro, este sendo a fonte de origem ou primária. Tem como característica o fato de não produzir uma informação original, mas sobre ela trabalhar, procedendo a análise, ampliação, comparação etc. (SOUZA; FIALHO; OTANI, 2007, p. 36) www.esab.edu.br 13 Outro fator-chave para a coleta de dados é a escolha das variáveis de interesse da pesquisa. As variáveis são as características que podem ser observadas (ou medidas) em cada elemento da população (MAGALHÃES; LIMA, 2005). Voltando ao nosso exemplo, na população dos estudantes de Administração de uma IES, podemos definir as seguintes variáveis, com base no objetivo específico (conhecer as características individuais dos alunos): estado civil, idade, número de filhos etc. As variáveis são classificadas em qualitativas (nominais e ordinais) e quantitativas (discretas e contínuas). Exemplo: estado civil: solteiro, casado, divorciado. Exemplo: satisfação no atendimento: bom, regular, ruim. Exemplo: número de �lhos: 0, 1, 2,.. Exemplo: renda mensal: de 600 a 1.051,51 reais. Contínuas: podem assumir in�nitos valores. Discretas: podem assumir apenas alguns valores. Ordinais: é possível ordenar as categorias Nominais: apenas identi�ca as categorias. QUALITATIVAS: suas realizações são atributos dos elementos pesquisados. QUANTITATIVAS (intervalares): suas realizações são números resultantes de contagem ou mensuração. NÍVEL DE MENSURAÇÃO Figura 2 – Classificação das variáveis em termos do nível de mensuração. Fonte: Elaborada pela autora (2013). www.esab.edu.br 14 Com as variáveis em mãos, deve-se pensar em como serão coletados os dados: por meio de entrevista, questionário ou outros. Vamos apresentar aqui como elaborar um questionário, ferramenta usualmente utilizada para coletar dados. A elaboração de um questionário deve ser feita com muita cautela. A proposta da pesquisa, isto é, os objetivos, a população a ser estudada, tudo isso deve estar bem claro. Veja a seguir um exemplo de questionário para levantar dados sobre o perfil dos alunos de Administração e Sistemas de Informação de uma IES. 1) Informe qual é o seu sexo: ( ) Feminino ( ) Masculino 2) Qual a sua idade? __________ (anos). 3) Você possui quantos filhos? __________. 4) Qual a fase predominante em que você se encontra no curso? __________. 5) Qual o nível de escolaridade de sua mãe? ( ) Sem escolaridade ( ) Ensino Fundamental ( ) Ensino Médio ( ) Ensino Superior ( ) Pós-graduado 6) Dê uma nota de 1 (um) a 5 (cinco), sendo o nível mínimo 1 e o nível máximo 5, para as seguintes características relacionadas com você e seu curso. a) Didática dos professores de seu curso: __________ (1 2 3 4 5). b) Nível de conhecimento dos professores: __________ (1 2 3 4 5). c) Satisfação com o curso, num sentido geral: __________ (1 2 3 4 5). 7) Como você avalia seu rendimento no curso? ( ) Ótimo ( ) Bom ( ) Regular ( ) Ruim ( ) Péssimo www.esab.edu.br 15 Nesse questionário foram apresentadas algumas perguntas para coletar os dados. Observe que temos várias formas de categorizar a resposta às perguntas. Nas perguntas 2, 3 e 4 deixamos espaços livres para que os entrevistados respondam. Já nas demais perguntas, acrescentamos algumas opções de respostas. Note que na pergunta 6 solicitamos que o entrevistado dê uma nota de 1 a 5, o que nos leva ao conhecimento da escala de Likert, na qual as respostas para cada item variam segundo o grau de intensidade. Estudo complementar Compreenda melhor a intervenção de escalas, como a escala de Likert, para a construção de um questionário. Para tanto, faça a leitura do artigo “A escala Likert – coisas que todo o pesquisador deveria saber”. Disponível aqui. Com o questionário pronto, temos de analisar a viabilidade de se coletar os dados na população total ou apenas em uma parcela dela, ou seja, em uma amostra. Assim, na nossa próxima unidade apresentaremos a noção de amostragem. Dica Para auxiliar no processo de construção de um questionário, alguns procedimentos devem ser levados em consideração. Para tanto, leia o tópico 1.5 da unidade I do material disponível aqui. disponível aqui. https://www.netquest.com/blog/br/blog/br/a-escala-likert-coisas-que-todo-pesquisador-deveria-saber https://www.ufrgs.br/probabilidade-estatistica/extra/material/apostila_de_estatistica_basica.pdf www.esab.edu.br 16 3 Noções de amostragem Objetivo Apresentar a diferença entre amostragem aleatória e não aleatória e amostragem simples, tamanho de uma amostra e cálculo do erro amostral. Caro aluno, você está lembrando que, como vimos na unidade 1, uma amostra é uma parte da população? Então, para determinar uma amostra significativa de dada população, existem técnicas que chamamos de técnicas de amostragem. Elas são o processo de seleção de uma amostra, que possibilita o estudo das características desconhecidas da população. As principais técnicas de amostragem são subdividas em amostragem aleatória e não aleatória. • Aleatória simples. • Estrati�cada proporcional. • Sistemática. • Por conglomerados. • Intencional: ocorre quando o pesquisador seleciona intencionalmente os componentes da amostra. • Voluntária: ocorre quando o componente da população se oferece voluntariamente para participar da amostra independentemente do julgamento do pesquisador. TÉCNICAS DE AMOSTRAGEM Aleatória Não aleatória Figura 3– Principais técnicas de amostragem. Fonte: Elaborada pela autora (2013). Nesta unidade veremos com mais detalhes a técnica de amostragem aleatória simples. Mas quais os motivos que nos levam a optar por uma amostragem, ao invés de uma população? www.esab.edu.br 17 Os motivos encontrados na literatura sobre estatística são basicamente: a economia, pois com o número reduzido de elementos (ou pessoas) a serem pesquisados aumenta a viabilidade financeira de se aplicar a pesquisa; o tempo, pois é um fator decisivo em muitas pesquisas que necessitam obter os resultados rapidamente, como as pesquisas eleitorais; a operacionalidade, pois com um número reduzido de indivíduos a serem pesquisados é mais fácil efetuar as operações necessárias para levantar os dados da pesquisa; e a confiabilidade, pois a verificação e o acompanhamento dos dados é mais simples. Vale ressaltar que quando a população é pequena, ou com características de fácil mensuração, ou com necessidade de alta precisão, como nas pesquisas censitárias, então é viável realizar a pesquisa na população de interesse. 3.1 Amostragem aleatória simples Segundo Magalhães e Lima (2005) e Bussab e Morettin (2002), a amostragem aleatória simples é um método para selecionar, sem reposição, n elementos de uma população de tamanho N, em que todos têm a mesma probabilidade de ser escolhidos para a amostra. Esse tipo de amostragem é equivalente a um sorteio lotérico e pode ser realizada numerando-se a população de 1 a N. Sorteiam-se, por meio de um dispositivo aleatório qualquer, n números dessa população, que corresponderão aos elementos pertencentes à amostra. Quando o número de elementos da amostra é muito grande, podemos utilizar uma tabela de números aleatórios, isto é, números que não obedecem a uma sequência padrão. Existem diversos geradores computacionais de números aleatórios, um deles é a planilha eletrônica que costumamos utilizar em nossos computadores. www.esab.edu.br 18 Vejamos um exemplo: O objetivo da pesquisa é estudar algumas características dos funcionários de certa empresa. A lista com os dados dos funcionários da empresa segue abaixo. Nome Idade Gênero 1 Bárbara 28 Feminino 2 Cristiano 32 Masculino 3 Otávio 41 Masculino 4 Marcelo 39 Masculino 5 Sofia 29 Feminino 6 Maria Júlia 21 Feminino 7 João 32 Masculino 8 Carlos 34 Masculino 9 Maria Clara 26 Feminino 10 Ingrid 37 Feminino 11 Laura 30 Feminino 12 Daniel 30 Masculino 13 Rafael 33 Masculino 14 Simone 28 Feminino 15 Felipe 27 Masculino Quadro 1 – População de funcionários de uma empresa. Fonte: Elaborado pela autora (2013). Agora, vamos extrair uma amostra aleatória simples de 5 funcionários. Para isso, vamos utilizar uma tabela contendo 5 números aleatórios (gerados em uma planilha eletrônica). Os números gerados foram: 5, 15, 11, 2 e 10. Buscando esses números na tabela da população, vamos ter os respectivos funcionários selecionados (em ordem crescente). www.esab.edu.br 19 2 Cristiano 32 Masculino 5 Sofia 29 Feminino 10 Ingrid 37 Feminino 11 Laura 30 Feminino 15 Felipe 27 Masculino Quadro 2 – Amostragem de funcionários de uma empresa. Fonte: Elaborado pela autora (2013). Você deve ter observado que estimamos uma amostragem de tamanho 5 para uma população de 15 funcionários. Essa estimação foi feita sem nenhum cálculo, pois trata-se de uma população pequena. Contudo, se nos depararmos com uma população grande, devemos utilizar um cálculo para estimar um tamanho relevante para a amostra. Na sequência veremos esse cálculo. 3.2 Tamanho de uma amostra simples e erro amostral Para estimar o tamanho de uma amostra, é necessário especificar o erro amostral tolerável, ou seja, o quanto se admite errar na avaliação dos parâmetros (medida que descreve certa característica dos elementos da população) de interesse. Para ficar mais claro, pense o seguinte: você já deve ter observado que em pesquisas eleitorais é divulgado que certo candidato tem, por exemplo, 31% das intenções de voto, com uma margem de erro de 2% para mais ou para menos. Essa margem de erro de 2% refere-se ao erro amostral, isto é, o quanto a pesquisa tolera errar. Assim, a preferência do eleitorado por certo candidato fica em um intervalo de 29% a 33% (ou seja, 31%– 2% = 29% ou 31% + 2% = 33%) Agora que já compreendemos a noção de erro amostral, vamos apresentar como é feito esse cálculo do tamanho de uma amostra por meio da fórmula: 0 0 1 ( )² n E = www.esab.edu.br 20 Em que: • n0 é uma primeira aproximação para o tamanho da amostra; • E0 é o erro amostral tolerável. Se população for 20 vezes maior que o valor calculado n0, então se pode tomar a amostra com esse valor (isto é, com n0). Caso contrário, deve-se fazer a seguinte correção (BARBETTA, 2011): 0 0 N n n N n ⋅ = + Em que: • N é o tamanho (número de elementos) da população; • n é o tamanho (número de elementos) da amostra. Vamos ver um exemplo: Se selecionarmos uma amostra aleatória simples de uma população de 1000 indivíduos, admitindo um erro amostral tolerável de 5%, qual o tamanho mínimo da amostra? Resolução: 1º passo – descrever os dados fornecidos pelo problema: • E0 = 5% = 0,05 • N = 1000 • n0 = ? 2º passo – calcular n0: 0 0 0 0 1 ( )² 1 (0,05)² 400 n E n n = = = www.esab.edu.br 21 Como a população N = 1000 não é muito grande, então vamos efetuar o cálculo de correção: 0 0 1000 400 1000 400 285,7 N n n N n n n ⋅ = + ⋅ = + = Assim, fazendo o arredondamento de n = 285,7 para o inteiro maior, devemos utilizar uma amostra de 286 elementos. Fórum Caro estudante, dirija-se ao Ambiente Virtual de Aprendizagem da Instituição e participe do nosso Fórum de discussão. Lá você poderá interagir com seus colegas e com seu tutor de forma a ampliar, por meio da interação, a construção do seu conhecimento. Vamos lá? www.esab.edu.br 22 4 Outros tipos de amostragem aleatória Objetivo Apresentar outros tipos de amostragem aleatória. Na unidade 3 apresentamos a diferença entre amostragem aleatória e não aleatória. Na amostragem aleatória, observamos que temos algumas técnicas de amostragem, mas a ênfase foi na amostragem aleatória simples. Agora, nesta unidade, vamos apresentar outras técnicas de amostragem aleatória, com base nos autores Magalhães e Lima (2005). 4.1 Amostragem estratificada proporcional A amostragem estratificada caracteriza-se pela escolha de uma amostra de cada subgrupo (estratos) da população considerada. Os estratos podem ser o sexo, a idade, a classe social, cargos que ocupam em uma determinada indústria etc. Por exemplo: um grupo de 80 alunos, dos quais 51 são do sexo masculino e 29 do sexo feminino. Vamos obter uma amostra estratificada proporcional. Isto é, obter dois estratos (sexo masculino e sexo feminino) de uma amostra de 10% da população. Assim, observe a tabela a seguir: www.esab.edu.br 23 Tabela 1– Exemplo de amostragem estratificada proporcional. Sexo População 10% da população Amostra (arredondada) Masculino 51 (10 51) 5,1 100 ⋅ = 5 Feminino 29 (10 29) 2,9 100 ⋅ = 3 Total 80 (10 80) 8 100 ⋅ = 8 Fonte: Elaborada pela autora (2013). A Tabela 1 nos indica que 10% dos 51 alunos do sexo masculino equivale a uma amostra de 5 alunos, ou seja, devem ser extraídos 5 alunos do sexo masculino para compor o desenvolvimento da pesquisa. Com relação ao sexo feminino, 10% do total de 29 alunas equivale a uma amostra de 3 alunas para compor a pesquisa. Assim, o total de alunos (sexo feminino e masculino) que irá fazer parte da amostragem é 8. 4.2 Amostragem sistemática Trata-se de uma variação da amostragem aleatória simples, conveniente quando a população está ordenada segundo algum critério, como fichas em um fichário, listas telefônicas etc. Em suma, a amostragem sistemática consiste em selecionarmos os indivíduos de forma predeterminada (MAGALHÃES; LIMA, 2005). Desse modo, podemos definir algumas regras ou padrões para selecionar os indivíduos.Na sequência, apresentaremos uma regra prática: Considerando N o tamanho da população e n o tamanho da amostra, calcula-se o intervalo de amostragem N n aproximando-o para o inteiro mais próximo: a. Sorteia-se um número x entre 1 e a, formando-se a amostra dos elementos correspondentes aos números x, x + a, x + 2a, ... www.esab.edu.br 24 Exemplo Seja N = 1000, n = 200. Então, o intervalo de amostragem 1000 5. 200 Na n = = = Agora imagine que o número sorteado x (entre 1 e a = 5) seja 3. Assim, o primeiro elemento da população a ser considerado à pesquisa será o elemento x = 3. Os outros elementos a serem selecionados à pesquisa seguirão uma sequência sistemática, a partir do elemento inicial e do intervalo de amostragem a = 5 (x, x + a, x + 2a, ...), até completar o número de elementos da população pesquisada. Veja o esquema abaixo: 3, 3 5 8, 2 3 2 5 13, ..., 199 3 199 5 998 x x a x a x a = + = + = + = + ⋅ = + = + ⋅ = Portanto, a amostra irá conter, para a pesquisa, os elementos da população de números: 3, 8, 13, ..., 998. 4.3 Amostragem por conglomerados A amostragem por conglomerados é uma técnica utilizada normalmente em amostragens de grandes populações. Alguns exemplos de conglomerados são: o conjunto de empresas dos mais diversos ramos, o conjunto de residências em um bairro. Para aplicar essa técnica, devemos primeiramente dividir a população, através de uma seleção aleatória, em conglomerados heterogêneos. Ao contrário dos estratos, espera-se que os conglomerados sejam quase tão heterogêneos quanto a população toda. Em uma segunda etapa, devemos selecionar, também aleatoriamente, elementos de cada conglomerado elegido na primeira etapa. Assim, obtemos uma amostra via técnica de amostragem por conglomerados. www.esab.edu.br 25 Veja a aplicação dessa técnica no seguinte exemplo: Coletar dados em uma amostra de trabalhadores de diversos ramos empresariais. A figura a seguir ilustra a população e a sequência de etapas da técnica de amostragem por conglomerados. População Amostra 1ª etapa: seleção aleatória por conglomerados. 1ª etapa: seleção aleatória de elementos. Figura 4 – Representação de uma amostragem por conglomerados. Fonte: Elaborada pela autora (2013). Exemplo Em determinado bairro B, deseja-se levantar a quantidade de moradores por domicílio. Esse bairro é composto de cinco quarteirões Q, isto é, B = {Q1, Q2, Q3, Q4, Q5}. Abaixo é apresentada a quantidade de domicílios por quarteirão. Q1 = 30, Q2 = 27, Q3 = 38, Q4 = 14, Q5 = 18. www.esab.edu.br 26 Selecionam-se três quarteirões por sorteio, obtendo-se como resultado os quarteirões Q2, Q4 e Q5. A Figura 5 ilustra esses quarteirões. 1 3 5 6 26 2 8 10 94 23 25 24 7 27 11 13 15 14 12 16 18 17 21 22 Quarteirão 2 19 20 1 3 5 6 2 8 10 94 7 11 13 15 14 12 16 18 17 Quarteirão 4 1 3 5 6 2 8 10 94 7 11 13 14 12 Quarteirão 5 Figura 5 – Ilustração dos quarteirões de determinado bairro. Fonte: Elaborada pela autora (2013). Devemos agora selecionar, também por seleção aleatória, dez domicílios para consultar a quantidade de moradores neles. O resultado dessa seleção foi a relação dos domicílios abaixo: 4 2 4 5 2 5 5 2 2 5 14, 18, 8, 1, 25, 6, 8, 15, 27, 9 Q Q Q Q Q Q Q Q Q Q − − − − − − − − − − Com esse resultado podemos levantar a quantidade de moradores dos domicílios sorteados. Você viu nesta unidade outras técnicas de amostragem aleatória, opções à técnica de amostragem aleatória simples (unidade 3). A escolha por uma dessas técnicas na condução de uma pesquisa vai depender de vários fatores como o objetivo da pesquisa, os parâmetros que se deseja estimar etc. www.esab.edu.br 27 5 Apresentação dos dados: tabelas e gráficos Objetivo Representar e interpretar um conjunto de dados em tabela e gráficos. Nas primeiras unidades vimos que em uma pesquisa estatística o primeiro passo é o planejamento da pesquisa e o entendimento do tema em que se está trabalhando. Após isso são coletados os dados, normalmente por meio de um questionário, aplicado a uma população ou amostra específica. Com esses dados em mãos, é preciso organizá-los para posteriormente extrair algumas conclusões. Uma forma de organizar esses dados é por meio de uma tabela. Provavelmente, você já deve ter visto tabelas em jornais, livros ou revistas. O objetivo de representar dados em uma tabela é facilitar a sua interpretação e gerar informação útil. Uma tabela possui linhas e colunas nas quais inserimos os dados coletados de forma organizada. A figura a seguir apresenta um exemplo de tabela. www.esab.edu.br 28 Per�l dos estudantes do curso de Administração e Sistemas de Informação de uma IES Fonte: Elaborado pela autora 1 3 5 6 2 4 7 M M M M F F F 19 Variáveis: características observadas. Cabeçalho da tabela: apresentar o título com infrmações relevantes da pesquisa. Corpo da tabela: contém os dados. Rodapé da tabela: contém a fonte. Aluno Pergunta 1 (sexo) Pergunta 2 (idade) 21 20 20 21 21 22 Figura 6 – Apresentação dos dados em tabela. Fonte: Elaborada pela autora (2013). Podemos observar na Figura 6 os componentes de uma tabela. Ela deve conter cabeçalho com título que evidencie o que está sendo abordado na pesquisa. Na primeira linha da tabela, é necessário constar as variáveis que são trabalhadas na pesquisa. As linhas subsequentes deverão conter os dados da pesquisa. Por fim, abaixo da tabela, é preciso citar a fonte da pesquisa. No corpo da tabela, campos em que se encontram os dados coletados relacionados às respectivas variáveis, note que, na variável “Idade”, os dados não estão ordenados. Isto é, são os dados brutos: resultados numéricos não organizados obtidos da observação direta de um fenômeno. Para facilitar a interpretação dos dados, fazemos a ordenação deles colocando-os em ordem crescente ou decrescente. Chamamos o corpo desses dados ordenados de rol. www.esab.edu.br 29 Tabela 2 – Exemplo de dados brutos e rol. Dados brutos da variável “Idade” Rol da variável “Idade” 19 19 20 20 20 20 21 21 22 21 21 21 21 21 21 22 Fonte: Elaborada pela autora (2013). Além disso, vale ressaltar que nenhuma célula da tabela deve ficar em branco, elas devem sempre conter um número ou sinal. Para isso, existem alguns símbolos estabelecidos por convenção internacional. Vejamos alguns exemplos: • - (hífen), quando o valor numérico é nulo; • ... (reticências), quando não se dispõe do dado; • x (letra x), quando o dado foi omitido a fim de evitar individualização da informação; • 0; 0,0; 0,00 (zero), dado numérico igual a zero. Na sequência, veremos alguns tipos de tabelas denominadas de séries estatísticas. www.esab.edu.br 30 5.1 Séries estatísticas Uma série estatística é um conjunto de dados ordenados, apresentados em uma tabela ou gráfico, em função de características como tempo, espaço ou espécie. Assim, chamamos de série temporal, ou cronológica, toda série em que os dados fazem correspondência com o fator época. Veja o exemplo que segue: Tabela 3 – Projeção da população no Brasil. Ano População estimada 2008 189.612.814 2009 191.480.630 2010 193.252.604 2011 194.932.685 2012 196.526.293 2013 198.043.320 2014 199.492.433 2015 200.881.685 2016 202.219.061 2017 203.510.422 2018 204.759.993 2019 205.970.182 2020 207.143.243 Fonte: IBGE (2008). A tabela anterior se caracteriza como uma série temporal, pois apresenta uma projeção da população brasileira pelo tempo em anos. A série espacial, ou geográfica, é a série em que os dados fazem correspondência com o fator geográfico. www.esab.edu.br 31 Exemplo: Tabela 4 – Nascidos vivos e registrados no ano de 2002. Região Ano (2002) Norte 190.117 Nordeste 706.688 Sudeste 1.118.971 Sul 374.404 Centro-Oeste 194.363 Fonte: IBGE (2002). A tabela anterior retrata uma série espacial (ou geográfica), pois apresenta os dados de nascimento no Brasil, no ano de 2002, pelasregiões geográficas brasileiras. Por fim, temos a série por espécie ou categoria, que corresponde à qualidade ou aos atributos de determinado objeto pesquisado. Veja o exemplo que segue: Tabela 5 – Preço da tabela FIPE para automóveis em 27 de janeiro de 2013. Carro – GM – Chevrolet Preço Celta 1.0/ Super 1.0 MPFI VHC 8v 5p, modelo 2005 a gasolina R$ 14.613,00 Corsa Hat. Joy 1.0/ 1.0 FlexPower 8V 5p, modelo 2005 a gasolina R$ 16.861,00 Fonte: FIPE (2013). A tabela anterior evidencia uma série por categorias de carro da marca Chevrolet com relação ao seu preço. O tempo e o espaço se mantêm constantes (fixados), isto é, tempo: em 27 de janeiro de 2013; espaço: Brasil. www.esab.edu.br 32 Vimos até o momento a representação dos dados organizados em uma tabela, mas também podemos apresentar os dados em um gráfico. Veja o exemplo que segue: Norte Nordeste Sudeste Sul Centro-Oeste 1.118.971 374.404 706.688 190.117194.363 Figura 7 – Gráfico de nascidos vivos e registrados no ano de 2002. Fonte: Elaborada pela autora (2013). A figura anterior ilustrou, por meio de um gráfico chamado gráfico de setores, os dados da Tabela 4, de registro civil do IBGE. Assim, o gráfico nos transmite a quantidade da população de nascidos vivos e registrados no ano de 2002, por região. Na unidade a seguir, estudaremos com mais detalhes os tipos de gráficos estatísticos. www.esab.edu.br 33 6 Tipos de gráficos estatísticos Objetivo Apresentar, reconhecer e interpretar os tipos de gráficos estatísticos. Os gráficos constituem um importante instrumento de análise e interpretação de um conjunto de dados. A importância dos gráficos está ligada, sobretudo, à facilidade e rapidez na absorção e interpretação das informações por parte do leitor e também às inúmeras possibilidades de ilustração e resumo dos dados apresentados. Para isso, um gráfico deve ser atraente, simples, claro, verdadeiro e preciso. A seguir serão apresentados alguns tipos de gráficos estatísticos. 6.1 Gráfico de setores O gráfico de setores, conhecido popularmente como “gráfico de pizza”, é indicado para representar variáveis qualitativas nominais. Também é útil para comparar intensidade de partes em relação ao total (100%) e representá-las em valores absolutos ou percentuais. Recomenda-se seu uso para o caso em que o número de categorias de determinada variável não seja muito extenso, prejudicando a leitura do gráfico. www.esab.edu.br 34 Por exemplo, a variável “gênero” de um indivíduo é uma variável qualitativa nominal que possui duas categorias (classes): feminino e masculino. Assim, podemos representá-las através do gráfico de setores. Feminino Masculino 59% 147,06º 41% Figura 8 – Gráfico de setores para a variável gênero masculino e feminino. Fonte: Elaborada pela autora (2013). Observe que a medida do ângulo de cada setor circular é proporcional ao número de elementos de cada categoria. No caso da figura anterior, a medida do ângulo é proporcional ao número de pessoas nas categorias gênero feminino e gênero masculino. Sabe-se que o ângulo total de uma circunferência é 360°, então temos a seguinte relação, via regra de três simples: 41% 360 100% 41% 360 100% 147,6º ⋅ ° = ⋅ ⋅ ° = = x x x 41% 100%360° x Da mesma forma, podemos encontrar o outro ângulo para a categoria gênero masculino (59%) utilizando também a regra de três simples. www.esab.edu.br 35 6.2 Gráficos de barras horizontais ou verticais O gráfico de barras horizontais ou verticais é indicado, normalmente, para representar variáveis qualitativas ordinais. Esse tipo de gráfico é recomendado quando as variáveis possuem muitas categorias e para indicar a relação de ordem entre uma categoria e outra. Assim, barras horizontais devem ser desenhadas observando-se a sua ordem de grandeza (preferencialmente crescente). Por exemplo: Uma pesquisa avaliou o grau de satisfação dos clientes com relação ao atendimento. Foram estabelecidas as seguintes categorias: bom, regular e ruim. Observe que, na variável de interesse, queremos estimar o grau de satisfação com relação ao atendimento a clientes, que se caracteriza como uma variável qualitativa ordinal. Nesse caso, podemos representá-la por meio do gráfico de barras. 20 6040 0 Bom Regular Ruim 35 52 4 Figura 9 – Gráfico de barras horizontais que representa o grau de satisfação no atendimento ao cliente. Fonte: Elaborada pela autora (2013). Note que representamos os dados anteriores em um gráfico de barras horizontais. Mas podemos representar, também, em um gráfico de barras verticais. www.esab.edu.br 36 10 20 30 40 50 52 35 4 60 0 Bom Regular Ruim Figura 10 – Gráfico de barras verticais que representa o grau de satisfação no atendimento ao cliente. Fonte: Elaborada pela autora (2013). Na sequência estudaremos sobre o gráfico de barras múltiplas. 6.3 Gráfico de barras múltiplas O gráfico de barras múltiplas é utilizado para comparar entre si as intensidades de cada subdivisão da modalidade do atributo e possibilitar que se tenha ideia da intensidade total de cada modalidade. Para compreender melhor, veja o exemplo que segue. Comparar o grau de escolaridade (nenhum, fundamental e médio) dos moradores dos bairros Encosta do Morro, Parque da Figueira e Monte Verde. Encosta do Morro Parque da Figueira Monte Verde 5 10 15 25200 Médio Fundamental Nenhum Figura 11 – Gráfico de barras múltiplas para o grau de escolaridade dos moradores dos bairros Encosta do Morro, Parque da Figueira e Monte Verde. Fonte: Barbetta (2011, p. 70). www.esab.edu.br 37 Assim, com base no gráfico anterior, podemos verificar que no Bairro Monte Verde temos uma quantidade mais elevada de moradores com Ensino Médio. Além disso, entre os três bairros, Monte Verde é o que se destaca com maior nível de escolaridade perante os demais bairros. 6.4 Gráfico de linhas, ou poligonal O gráfico de linhas, ou poligonal, é utilizado normalmente para analisar tendências ao longo do tempo. Sua construção é feita colocando-se no eixo vertical (y) a mensuração da variável em estudo e no eixo horizontal (x), as unidades da variável em uma ordem crescente. Esse tipo de gráfico permite representar séries longas, o que auxilia a detectar suas flutuações e tendências. Por exemplo: representar a variação percentual do PIB no Brasil nos anos de 1991 a 1998. 5 2 1 7 4 3 6 0 -1 199519931992 5,85 4,22 3,68 0,15 4,92 1,03 -0,54 2,76 1991 1994 1998*1996 1997 No ta : * O va lor do PI B e m 19 98 fo i d e 9 01 bi lh õe s d e r ea is. Figura 12 – Exemplo de gráfico de linhas para a variação percentual do PIB no Brasil. Fonte: IBGE (1999). Na sequência veremos o nosso último e importante gráfico estatístico, o histograma. www.esab.edu.br 38 6.5 Histograma O histograma é utilizado para representar variáveis quantitativas. São retângulos justapostos, feitos sobre as classes da variável em estudo. Esse tipo de gráfico será muito utilizado em nossos estudos daqui para frente, pois em situações práticas é comum trabalharmos com variáveis quantitativas. O histograma é o mais indicado para representar esse tipo de variável, pois há uma continuidade nos valores, análoga ao conceito de reta real visto na unidade 35 da disciplina de Matemática. Exemplo: representar as idades de uma turma de alunos. 10 2 12 4 8 6 0 38-4328-3323-28 Idade Frequência 18-23 33-38 Figura 13 – Histograma da variável idade. Fonte: Elaborada pela autora (2013). Vimos nesta unidade os principais gráficos estatísticos comumente utilizados em estudos e pesquisas. Esses gráficos nos auxiliam na interpretação das variáveis em estudo, de forma atraente, para que seja possível uma tomada de decisão. Na próxima unidade você irá aprender como construir tabelas e gráficos na planilha eletrônica Excel, da Microsoft. Esse é um importante instrumento de trabalho estatístico. Bons estudos! www.esab.edu.br 39 Resumo Olá, estudante! Ingressamosno estudo da estatística nas unidades 1 a 6. Vimos que em nosso dia a dia costumamos efetuar cálculos estatísticos de forma intuitiva, mas que em problemas com um grau de complexidade maior precisamos de um estudo sistemático e formal para solucioná-los de forma adequada. A estatística é uma ferramenta útil nas mais diversas áreas de conhecimento, como Administração, Saúde, Economia, auxiliando nas tomadas de decisão. Para tanto, é necessário fazer um planejamento, definir bem os objetivos, utilizar instrumentos de coleta de dados e organizar os dados coletados em tabelas e/ou gráficos para extrair informação relevante. Esses aspectos mencionados fizeram parte de seu estudo ao longo das unidades 1 a 6. Agora, dirija-se às Atividades de Aprendizagem e coloque em prática o que foi visto até o momento. Sucesso! www.esab.edu.br 40 7 Tabelas e gráficos Objetivo Desenvolver tabelas e gráficos estatísticos em planilhas eletrônicas. Nesta unidade vamos aprender a desenvolver tabelas e gráficos estatísticos na planilha eletrônica Microsoft Excel 2010. Você também pode utilizar outras planilhas eletrônicas dependendo do seu sistema operacional, por exemplo, StarOffice e LibreOffice. O nosso objetivo aqui é desenvolver de forma básica esses requisitos da estatística, sem avançar no mérito informático. Para melhor compreender, abra no seu computador o programa e crie a sua planilha eletrônica para ir acompanhando. Observe o exemplo: Uma pesquisa realizada com 300 pessoas, tinha como pergunta principal: “Qual a funcionalidade que você mais utiliza em seu celular?” Das 300 pessoas, 170 responderam que faziam mais uso da telefonia, 80 que enviavam mais torpedos, 45 responderam que utilizavam mais o serviço de internet e 5 assinalaram a opção “outros” Com base nas informações desse exemplo, vamos organizar os dados expostos em uma tabela do Microsoft Excel 2010. Como vimos na unidade 5, uma tabela (seja ela eletrônica ou manual) é composta por linhas e colunas. Na primeira linha inserimos as variáveis com que estamos trabalhando na pesquisa. Seguindo os dados do nosso exemplo, podemos inserir na primeira linha da primeira coluna da planilha as funcionalidades do celular. Assim, vamos chamar a variável apenas de “funcionalidade”. Ainda na primeira linha, porém na coluna ao lado (2ª coluna), vamos destacar o número de pessoas, ou seja, a quantidade de pessoas que informou a principal funcionalidade que utiliza no celular. Para compreender melhor, veja a figura que segue. www.esab.edu.br 41 Figura 14 – Exemplo de construção de tabela no Microsoft Excel 2010. Fonte: Elaborada pela autora (2013). Repare que na primeira coluna foram colocadas abaixo da primeira linha as categorias de “funcionalidade”: telefonia, torpedo, internet e outros. Na coluna ao lado, foram colocados os números de pessoas correspondentes a cada categoria da variável “funcionalidade”. Vale salientar que cada “quadradinho” da planilha eletrônica é chamado de célula. As colunas são nominadas pelas letras do nosso alfabeto e as linhas são numeradas. Assim, podemos dizer que na célula A4 temos a categoria “internet” e na célula B4 temos o respectivo número de pessoas, 45, que utiliza como principal funcionalidade do celular a internet. De posse dessas informações dispostas na tabela, podemos criar um gráfico. Para esse exemplo, um gráfico indicado é o de setores, pois a variável “funcionalidade” é uma variável qualitativa nominal (reveja unidade 6). Assim, selecionamos as informações da tabela que elaboramos na planilha eletrônica (Figura 14). Na aba “Inserir” da planilha aparecerá às opções de gráfico, conforme destaque da Figura 15: www.esab.edu.br 42 Figura 15 – Iniciando construção de gráfico. Fonte: Elaborada pela autora (2013). Note que temos várias opções de gráficos estatísticos que aprendemos na unidade 6. Os gráficos de colunas e de barras são respectivamente os que chamamos de gráficos de barras verticais e horizontais. Temos também o gráfico de linhas (ou poligonal) e o gráfico de setores (pizza) – o que desejamos criar para esse exemplo. Ao selecionarmos o tipo de gráfico (no caso o de pizza) aparecerão algumas possibilidades: em duas dimensões e em três dimensões. Figura 16 – Selecionando o gráfico de pizza. Fonte: Elaborada pela autora (2013). www.esab.edu.br 43 Observe na Figura 16 que, ao passar o mouse pelas opções de gráfico de pizza, aparece uma caixa de diálogo explicando para qual série de dados aquele tipo de gráfico de pizza é mais indicado. Selecionando aquela primeira opção (em 2D), temos o gráfico de pizza para o exemplo dado. O gráfico é gerado automaticamente com base nas informações da tabela que criamos anteriormente. Figura 17 – Gráfico modelo pizza no Microsoft Excel 2010. Fonte: Elaborada pela autora (2013). Finalmente, temos o gráfico de pizza, conforme a Figura 17. Note que ao criar um gráfico abrem-se novas abas, que são ferramentas para incrementá-lo. www.esab.edu.br 44 Agora vamos exemplificar para você como construir um gráfico histograma simples. Conforme visto na unidade 5, o histograma é um gráfico apropriado para representar variáveis quantitativas. Ele é composto de barras horizontais justapostas (isto é, juntas, grudadas). Observe a construção desse gráfico na Figura 18 que segue: Figura 18 – Construindo o gráfico histograma. Fonte: Elaborada pela autora (2013). www.esab.edu.br 45 Selecionando os dados da tabela sobre peso e as respectivas frequências, vamos em direção à aba “Inserir” e dentro da opção “gráficos” escolhemos a primeira opção, “gráfico de colunas”, e então temos o respectivo gráfico. Porém, repare que o gráfico apresenta as colunas verticais separadas umas das outras. Nesse caso, precisamos juntá-las. Para isso dê um clique em cima das barras verticais, pressione o botão direito do mouse e logo aparecerá uma caixa de diálogo com opções de formatação das barras. Veja a figura a seguir: Figura 19 – Formatando o gráfico. Fonte: Elaborada pela autora (2013). www.esab.edu.br 46 Repare que na opção “Formatar Série de Dados...”, da cascata que se forma ao clicarmos com o botão direto do mouse, abre-se uma janela com “Opções de Série”. Nesse ambiente há duas opções: “Sobreposições de Séries” e “Largura do Espaçamento”. É essa última opção que você reduzirá a 0%; dessa forma, as barras ficarão justapostas no histograma, conforme a Figura 20. Figura 20 – Histograma. Fonte: Elaborada pela autora (2013). Estudo complementar Vimos nesta unidade dois exemplos simples de construção de gráficos no Excel 2010 da Microsoft. Agora aprenda com mais detalhes a elaboração de gráficos no Microsoft Excel 2010 assistindo aos vídeos “Montando nossa primeira tabela”, clicando aqui, e “Gráficos”, disponível aqui. http://srtutorial.com.br/curso-excel-2010-aula-02/ http://srtutorial.com.br/curso-excel-2010-aula-02/ http://srtutorial.com.br/curso-excel-2010-aula-17/ www.esab.edu.br 47 8 Exercícios resolvidos Objetivo Apresentar exercícios resolvidos sobre tabelas e gráficos estatísticos. Nesta unidade, vamos apresentar alguns exercícios resolvidos relacionados à interpretação de tabelas e gráficos estatísticos. Vamos começar? Exercício 1 (UFG - 2004) Uma pesquisa mostrou que a uma semana das inscrições para os principais vestibulares, muitos candidatos ainda estavam indecisos em relação ao curso pretendido, como mostra a tabela a seguir: Tabela 6 – Decisões sobre cursos. Forma de decisão sobre o curso Respostas % Já decidiu 86,6 Pesquisando melhor sobre cursos 4,9 Não sabe 4,0 Decidirá na hora da inscrição 1,3 Teste vocacional (aptidão) 1,3 Pesquisando mercado de trabalho 0,9 Decidirá em conjunto com os pais 0,4 Guia do vestibulando 0,4 Fonte: Adaptada do jornal O Popular, Goiânia, 15/09/2003. 86,8 www.esab.edu.br 48 De acordo com os dados, o número de candidatos que decidirão pelo curso por meio do teste vocacional representa, entre os indecisos: a. 1,3% b. 9,85%c. 10,15% d. 11,9% e. 13,2% Resolução A tabela nos informa que 86,8% dos candidatos já decidiram sobre o curso. As demais categorias da tabela (“pesquisando melhor sobre o curso”, “não sabe” etc.) são os indecisos. Assim, os indecisos somam 13,2% do total de candidatos pesquisados, isto é: 4,9 + 4,0 + 1,3 + 1,3 + 0,9 + 0,4 + 0,4 = 13,2 A problemática da questão é saber, dentre os 13,2% de candidatos indecisos, o quanto representam (em percentual) os candidatos que decidirão pelo teste vocacional. Assim, temos agora que 13,2 é o valor que representa 100% dos candidatos indecisos. Precisamos saber, então, o quanto 1,3% representa dos candidatos que decidirão pelo teste vocacional. Aplicando uma regra de três simples, temos a seguinte relação: 13,2 ---- 100% 1,3 ---- x 13,2 1,3 100 130 13,2 9,85% x x x = ⋅ = = Portanto, 9,85% dos candidatos indecisos realizarão um teste vocacional para ajudar na decisão. A resposta correta é a letra “b”. www.esab.edu.br 49 Exercício 2 (Enem – MEC – 2002) No gráfico estão representados os gols marcados e os gols sofridos por uma equipe de futebol nas dez primeiras partidas de um determinado campeonato. 5 2 1 4 3 6 0 28/1 04/2 18/2 11/304/3 25/311/2 25/2 18/3 01/4 Gols sofridos Gols marcados Data da Partida Nú m er o d e g ols Figura 21 – Gráfico de linhas para os gols marcados e sofridos por uma equipe de futebol. Fonte: Adaptada de Iezzi, Hazzan e Degenszajn (2004). Considerando que, nesse campeonato, as equipes ganham 3 pontos para cada vitória, 1 ponto por empate e 0 ponto em caso de derrota, a equipe em questão, ao final da décima partida, terá acumulado um número de pontos igual a: a. 15 b. 17 c. 18 d. 20 e. 24 Resolução Para resolver este problema precisamos encontrar os pontos acumulados nas 10 partidas, ou seja, nas partidas dos dias 28/1 a 1/4. Observando o gráfico, temos a seguinte relação de pontos: www.esab.edu.br 50 • No dia 28/1 o time venceu com 2 gols (2 x 0). Logo, recebeu 3 pontos. • No dia 4/2 o time perdeu com 3 com gols de diferença (4 x 1). Logo, recebeu 0 ponto. • No dia 11/2 o time empatou com 3 gols (3 x 3). Logo, recebeu 1 ponto. • No dia 18/2 o time perdeu com 5 gols de diferença (5 x 0). Logo, recebeu 0 ponto. • No dia 25/2 o time venceu com 1 gol de diferença (2 x 1). Logo, recebeu 3 pontos. • No dia 4/3 o time venceu com 2 gols de diferença (3 x 1). Logo, recebeu 3 pontos. • No dia 11/3 o time empatou com 2 gols (2 x 2). Logo, recebeu 1 ponto. • No dia 18/3 o time venceu com 1 gol de diferença (1 x 0). Logo, recebeu 3 pontos. • No dia 25/3 o time empatou com 0 gol (0 x 0). Logo, recebeu 1 ponto. • No dia 1/4 o time venceu com 3 gols de diferença (3 x 0). Logo, recebeu 3 pontos. Portanto, o time acumulou nas 10 partidas: 3 + 0 + 1 + 0 + 3 + 3 + 1 + 3 + 1 + 3 = 18 pontos Portanto, a resposta correta é a letra “c”. www.esab.edu.br 51 Exercício 3 O histograma seguinte mostra os gastos dos clientes de uma loja de tecnologia registrados em um caixa expresso durante o um dia. 2 29 7 15 5 50 100 150 200 250 300 6 3 Gastos (em reais) Número de clientes Figura 22 – Histograma dos gastos (em reais) pelo número de clientes. Fonte: Elaborada pela autora (2013). a. Que total de clientes gastou pelo menos 200 reais? b. Que total de clientes gastou menos de 100 reais? Resolução a. Os clientes que gastaram pelo menos 200 reais, ou seja, no mínimo esse valor, são os clientes representados nas colunas de 200 a 250 e de 250 a 300 reais. Portanto: 3 + 2 = 5 clientes b. Os clientes que gastaram menos de 100 reais foram os clientes representados nas colunas de 5 a 50 e de 50 a 100 reais. Logo: 29 + 7 = 36 clientes www.esab.edu.br 52 Apresentamos até aqui alguns exercícios resolvidos com o objetivo de aprimorar a sua aprendizagem e ativar seu raciocínio lógico com relação à interpretação de dados e às informações dispostas em tabelas e gráficos estatísticos. Agora aproveite o embalo e siga com seus estudos! Tarefa dissertativa Caro estudante, convidamos você a acessar o Ambiente Virtual de Aprendizagem e realizar a tarefa dissertativa. www.esab.edu.br 53 9 Distribuição de frequência Objetivo Determinar as distribuições de frequência – frequência absoluta, relativa e acumulada. Vimos até o momento as etapas de planejamento, coleta de dados e apresentação dos dados (em tabelas e gráficos). Nesta unidade, vamos aprender um importante conceito da estatística que nos permite extrair as primeiras informações dos dados coletados e apresentados de forma bruta em uma tabela. O conceito ao qual nos referimos é o de distribuição de frequência. Antes de explicitarmos esse conceito a você, veja a tabela a seguir, que apresenta alguns dados brutos. Tabela 7 – Pesquisas estatísticas. Gênero Idade Animal preferido Gênero Idade Animal preferido 1 Feminino 28 Cachorro 16 Feminino 45 Cachorro 2 Masculino 32 Cachorro 17 Masculino 40 Gato 3 Feminino 41 Cachorro 18 Feminino 36 Cachorro 4 Masculino 39 Cachorro 19 Feminino 31 Gato 5 Feminino 29 Gato 20 Masculino 25 Gato 6 Feminino 21 Cachorro 21 Feminino 33 Cachorro 7 Masculino 32 Gato 22 Feminino 26 Cachorro 8 Masculino 34 Gato 23 Masculino 29 Cachorro 9 Feminino 26 Cachorro 24 Feminino 34 Gato 10 Feminino 37 Gato 25 Feminino 29 Cachorro 11 Feminino 30 Gato 26 Masculino 40 Cachorro 12 Masculino 30 Gato 27 Masculino 38 Gato 13 Masculino 33 Gato 28 Masculino 35 Cachorro 14 Feminino 28 Gato 29 Feminino 28 Gato 15 Masculino 27 Cachorro 30 Feminino 37 Gato Fonte: Elaborada pela autora (2013). www.esab.edu.br 54 Observando a Tabela 7, não é possível de imediato dizer se a população pesquisada gosta mais de cachorro ou de gato. Por isso entramos com a ideia de distribuição de frequência, que consiste em construir uma nova tabela com a informação resumida, isto é, quantificando a ocorrência (frequência) das pessoas que afirmaram gostar mais de cachorros, assim como das pessoas que afirmaram gostar mais de gatos. Em outras palavras, a distribuição de frequências compreende a organização dos dados de acordo com as ocorrências dos diferentes resultados observados. Assim, para a variável “animal preferido”, nas categorias cachorro e gato, tem-se a tabela de distribuição de frequência a seguir: Tabela 8 – Distribuição de frequência para a variável “animal preferido”. Animal preferido Frequência Cachorro 15 Gato 15 Total 30 Fonte: Elaborada pela autora (2013). Essa forma de organização dos dados facilita a observação de cada categoria da variável. Assim, é possível verificar mais facilmente que, das 30 pessoas pesquisadas, metade (15 pessoas) gosta de cachorro e a outra metade (15 pessoas) gosta de gato. Se não tivéssemos organizado os dados dessa forma, estaríamos sujeitos a apostar que a maioria dos pesquisados gosta mais de cachorro do que de gato. De acordo com a tabela de distribuição de frequências, constatamos a quantidade correta em cada uma das categorias. O registro das ocorrências ou frequências, que realizamos na tabela anterior, com base nos dados brutos da Tabela 7, é um tipo de distribuição de frequência que se chama frequência absoluta (fi ) de um conjunto de dados. Muitas vezes você verá que a representaremos apenas por frequência. Assim, para cada variável (xi ) estudada, a frequência absoluta (fi ) é o número de vezes que ocorre cada um de seus valores (ou realizações). www.esab.edu.br 55 Vejamos outro exemplo: A frequência absoluta para a variável “gênero” da Tabela 7 é distribuída da seguinte forma: Tabela 9 – Distribuição de frequência para a variável “gênero”. Gênero ( xi ) Frequência absoluta ( fi ) Feminino 17 Masculino 13 Total 30 Fonte: Elaborada pela autora (2013). A partir de agora representaremos a frequência absoluta em uma tabela pela sua sigla (fi ). Vejamos agora a frequência relativa (fri ). Como o próprio nome sugere, é relativa a alguma coisa, nesse caso: para cada valor assumido por uma variável x, afrequência relativa (fri ) é a razão entre a frequência absoluta (fi ) e o número total de dados (n). Matematicamente: i i f fr n = Para você compreender melhor esse conceito, vamos tomar o exemplo da Tabela 9, abrindo uma coluna ao lado da coluna (fi ): Tabela 10 – Frequência relativa: variável “gênero”. Gênero ( xi ) ( fi ) ( fri ) Feminino 17 17 0,57 30 = Masculino 13 13 0,43 30 = Total 30 1 Fonte: Elaborada pela autora (2013). www.esab.edu.br 56 Agora, temos os dados absolutos com relação ao total de pessoas pesquisadas, que nominamos de frequência relativa. A fri será sempre um valor compreendido entre 0 e 1, portanto, na linha do total, a soma da fri tem de resultar 1 (um). Esse valor numérico (1) corresponde à população total, que em frequência absoluta é 30. Logo, o total da fi = 30 está relacionado ao total da fri = 1. Para auxiliar na interpretação do resultado da fri , podemos transformá-lo em valor percentual. Para isso, basta multiplicar cada resultado da fri por 100. Veja a tabela a seguir: Tabela 11 – Frequência relativa em percentual: variável “gênero”. Gênero ( xi ) ( fi ) fri fri (%) Feminino 17 17 0,57 30 = 57% Masculino 13 13 0,43 30 = 43% Total 30 1 100% Fonte: Elaborada pela autora (2013). Então, podemos afirmar que 57% dos pesquisados são do sexo feminino. A frequência relativa é uma importante mensuração de dados, pois ao submetermos novamente o mesmo experimento, no entanto com um número maior (ou menor) de n elementos, é possível extrair algumas relações. Outra frequência que podemos efetuar é a frequência acumulada (faci), que é a soma das frequências dos valores anteriores. Podemos calcular a frequência acumulada das frequências absolutas e das frequências relativas. Esse cálculo é importante quando queremos saber não a quantia exata de uma categoria, mas os valores acumulados abaixo dela. www.esab.edu.br 57 Exemplo Uma pesquisa realizada com funcionários de uma empresa fez um levantamento da quantidade de filhos que cada funcionário possui. A tabela a seguir apresenta a frequência absoluta da variável “número de filhos”. Tabela 12 – Frequência absoluta para a variável “número de filhos”. Nº de filhos ( xi ) ( fi ) 0 3 1 2 2 3 3 2 4 1 Total 11 Fonte: Elaborada pela autora (2013). Para encontrar a frequência acumulada do exemplo anterior, observe a tabela que segue: Tabela 13 – Frequência acumulada para a variável “número de filhos”. Nº de filhos ( )ix ( )if Frequência acumulada ( )ifac 0 3 3 1 2 2 + 3 = 5 2 3 3 + 5 = 8 3 2 2 + 8 = 10 4 1 1 + 10 = 11 Total 11 – Fonte: Elaborada pela autora (2013). A sequência de cálculos que executamos para encontrar a frequência acumulada foi: na primeira linha da frequência acumulada tomamos o valor da frequência absoluta (que se encontra na mesma linha). Na segunda linha tomamos o resultado da frequência absoluta (que se encontra na segunda linha) e somamos com o resultado da frequência acumulada da linha anterior e assim sucessivamente, até completar os dados da tabela. www.esab.edu.br 58 De posse da frequência acumulada, podemos constatar que 8 pessoas possuem dois, um ou nenhum filho. Na próxima unidade estudaremos outra forma de resumir os dados. Vamos em frente! Atividade Chegou a hora de você testar seus conhecimentos em relação às unidades 1 a 9. Para isso, dirija-se ao Ambiente Virtual de Aprendizagem (AVA) e responda às questões. Além de revisar o conteúdo, você estará se preparando para a prova. Bom trabalho! www.esab.edu.br 59 10 Intervalo de classe e ponto médio Objetivo Representar um conjunto de dados por intervalos de classe e determinar o ponto médio. Na unidade anterior aprendemos a resumir os dados brutos em tabelas de distribuição de frequência. Os exemplos abordados apresentaram variáveis com poucas categorias (classes), tais como gênero (feminino ou masculino) e animal preferido (cachorro ou gato). Todavia, as variáveis quantitativas costumam apresentar uma quantidade grande de classes distintas, isto é, não existe praticamente repetição (coincidência) de valores. Para compreender melhor, observe o exemplo a seguir. Observe a relação das idades de 30 funcionários de uma empresa. 21 25 26 26 27 28 28 28 29 29 29 30 30 31 32 32 33 33 34 34 35 36 37 37 38 39 40 40 41 45 Dessas 30 idades, 19 delas são diferentes: 21; 25; 26; 27; 28; 29; 30; 31; 32; 33; 34; 35; 36; 37; 38; 39; 40; 41; e 45 anos. Embora essa redução de 30 para 19 idades seja significativa, o número de classes (19) ainda é bastante grande. Aconselha-se, quando o número de resultados distintos é superior a 8, agrupar os dados por intervalos de classes. Assim, intervalo de classe é o agrupamento dos valores assumidos pela variável. Logo, podemos distribuir as idades da forma a seguir: www.esab.edu.br 60 Tabela 14 – Intervalo de classe para a variável “idade”. 21 |- 27 27 |- 33 33 |- 39 39 |- 45 45 |- 51 1 12 9 4 4 30Total Idades FA ( )ilLimite inferior ( )slLimite superior Intervalo de clases Fonte: Elaborada pela autora (2013). Cada linha da tabela representa um intervalo de classe, ou seja, em cada classe da tabela, temos um intervalo que vai de um limite inferior (li ) a um limite superior (ls ). O espaçamento entre esses limites de cada classe é o mesmo. Observe que entre a idade 21 e 27 temos uma diferença de 6 anos de idade. Entre as idades 27 e 33, também temos uma diferença de 6 anos de idade, e assim por diante. A esse “espaçamento” chamamos de amplitude de intervalo (h). O símbolo |- significa que o intervalo de classe é fechado à esquerda (isto é, inclui o valor à esquerda) e aberto à direita (isto é, exclui o valor à direita). Dessa forma, no primeiro intervalo de classe (21 |- 27), quem tem 27 anos não é contabilizado e, mais explicitamente, nesse intervalo estarão incluídas somente as pessoas com idade 21, 22, 23, 24, 25 ou 26 anos. No próximo intervalo de classe (27 |- 33), a idade 27 será contabilizada, já a idade 33 só será contabilizada no intervalo seguinte, e assim sucessivamente. Você deve estar se perguntando: como se define o intervalo de classes para um conjunto de dados? Podemos separá-los de qualquer forma? A quantidade de intervalos de classe não pode ser escolhida aleatoriamente, é necessário utilizar alguma regra para que os dados sejam separados uniformemente. Duas principais regras, comumente utilizadas na estatística, são: www.esab.edu.br 61 • Critério da raiz: para definir a quantidade de intervalos de classe (i) segundo esse critério, devemos extrair a raiz quadrada dos n elementos da amostra. Matematicamente: i n= O valor de i é sempre arredondado para o inteiro mais próximo. • Critério de Sturges: para determinar o número de intervalos de classe (i) por esta regra, utilizamos a fórmula a seguir: i = 1 + (3,3 . log n) Em que: • i é o número de classes; • n = número de elementos; • log é o logaritmo na base 10. O valor de i é sempre arredondado para o inteiro mais próximo. Para o exemplo da Tabela 14, aplicamos o critério da raiz, em que encontramos o número de intervalo de classes i = 5. Observe: Critério da raiz: 30 5,48 5i = = Se utilizássemos o critério de Sturges no exemplo da Tabela 14, encontraríamos i = 6 intervalos de classe. Critério de Sturges: 1 (3,3 log ) 1 (3,3 log 30) 5,87 6i n= + ⋅ = + ⋅ = Note que o número de intervalos de classe não foi o mesmo encontrado em cada um dos critérios. Isso pode ocorrer, pois o critério da raiz é mais recomendado quando temos no máximo 25 elementos distintos em uma amostra. Em nosso exemplo, existem 19 elementos distintos. Para finalizarmos a construção de uma tabela por intervalos de classe, precisamos calcular a amplitude do intervalo h (o espaçamento entre os limites inferior e superior de cada classe). Para tanto, precisamos extrair as seguintes informações: www.esab.edu.br 62 valor mínimo: o menor valor numérico da amostra (conjunto de dados); valormáximo: o maior valor numérico da amostra; amplitude amostral (AA): a diferença entre o valor máximo e o valor mínimo da amostra. Vamos aplicar ao nosso exemplo (idade de 30 funcionários de certa empresa): Valor mínimo = 21 anos. Valor máximo = 45 anos. AA = 45 – 21 = 24 anos (ou seja, a diferença de idade entre o funcionário mais velho e o mais novo é de 24 anos). Amplitude dos intervalos (h): já sabemos que todos os intervalos devem ter a mesma amplitude h, ou seja, o mesmo tamanho, de modo que a amplitude amostral (AA = 24 anos) deve ser distribuída igualmente por todas as cinco classes (i = 5, pelo critério da raiz). Então, matematicamente a amplitude dos intervalos é descrita como: AAh k = Portanto: 31 6,2 6 5 AAh k h = = = Para organizar os intervalos das classes, é preciso lembrar que cada intervalo é composto de dois extremos, que chamaremos de limites: o inferior – li (à esquerda) e o superior – ls (à direita). www.esab.edu.br 63 Em cada classe ls = li + h. Assim, cada classe tem seu próprio limite inferior e superior, isto é, cada valor da variável só pertence a um único intervalo. O primeiro intervalo tem início com o valor mínimo, no caso em estudo, 21 anos. Sabendo que h = 6, então: 21 6 27 primeiro intervalo de classe 27 6 33 segundo intervalo de classe 33 6 39 terceiro intervalo de classe 39 6 45 quarto intervalo de classe 45 6 51 quinto intervalo de classe s i s s s s s l l h l l l l l = + = + = = + = = + = = + = = + = As frequências absolutas, relativas e acumuladas, estudadas na unidade 9, são calculadas da mesma forma que nas situações em que os dados não estão organizados em intervalos de classe. Por fim, a nossa tabela de intervalo de classe e sua distribuição de frequência ficará assim: Tabela 15 – Distribuição de frequência para intervalo de classe. Idades ( xi ) ( fi ) ( faci ) i i f fr n = fri (%) 21 |- 27 4 4 4 0,13 30 = 13 27 |- 33 12 12 + 4 =16 12 0,40 30 = 40 33 |- 39 9 9 + 16 = 25 9 0,30 30 = 30 39 |- 45 4 4 + 25 = 29 4 0,13 30 = 13 45 |- 51 1 1 + 29 = 30 1 0,03 30 = 3 Total 30 – 1 100 Fonte: Elaborada pela autora (2013). www.esab.edu.br 64 Vimos na Tabela 15 a distribuição de frequência das idades dos 30 funcionários de certa empresa. Outra medida que podemos acrescentar à tabela de distribuição de frequência quando os dados estão por intervalo de classe é o chamado ponto médio. O ponto médio (pmi ) é uma medida que divide o intervalo em duas partes exatamente iguais. Essa medida é muito importante quando trabalhamos com dados agrupados por intervalos de classe, pois o ponto médio será a representação de cada classe do intervalo. Matematicamente, temos: 2 i sl lpm + = Assim, o ponto médio dos intervalos de classe da Tabela 16 é: Tabela 16 – Ponto médio. Idades ( xi ) ( pmi ) ( fi ) ( faci ) i i f fr n = ( fi ) (%) 21 |- 27 21 27 24 2 + = 4 4 4 0,13 30 = 13 27 |- 33 27 33 30 2 + = 12 12 + 4 =16 12 0,40 30 = 40 33 |- 39 33 39 36 2 + = 9 9 + 16 = 25 9 0,30 30 = 30 39 |- 45 39 45 42 2 + = 4 4 + 25 = 29 4 0,13 30 = 13 45 |- 51 45 51 48 2 + = 1 1 + 29 = 30 1 0,03 30 = 3 Total - 30 - 1 100 Fonte: Elaborada pela autora (2013). Até o momento você estudou como extrair as primeiras informações de um conjunto de dados a partir da distribuição de frequência. Contudo, existem outras medidas interessantes que nos proporcionam a análise dos dados. Conheça-as na próxima unidade. www.esab.edu.br 65 11 Medidas de tendência central Objetivo Compreender e desenvolver os cálculos de moda, mediana e média. Nas unidades 9 e 10, aprendemos que um conjunto de dados pode ser resumido através de uma distribuição de frequência e que esta pode ser representada por meio de uma tabela ou de um gráfico. Se o conjunto refere-se a uma variável quantitativa, há uma terceira maneira de resumi- lo: através das medidas de tendência central. A medida de tendência central, ou medida de centralidade, é útil para representarmos um conjunto de dados por um valor único central. As principais medidas de centralidade são: média aritmética, moda e mediana. Vamos dar início ao conhecimento da média? Média aritmética Provavelmente você já ouviu falar em média aritmética, ou apenas média. Por exemplo: a média de gastos mensais com supermercado, a média de notas de uma determinada disciplina, a estatura média da população brasileira etc. A média é uma importante medida para representar um conjunto de dados, pois com base na observação dos dados podemos estimar um único valor que os represente. Mas como efetuamos o cálculo da média? Acompanhe o exemplo a seguir. Em uma turma, 10 alunos obtiveram as seguintes notas na primeira prova da disciplina de português: 7,0 – 7,5 – 9,0 – 10,0 – 5,0 – 8,5 – 2,0 – 4,0 – 8,0 – 7,0 Qual foi a média aritmética da turma na primeira prova? www.esab.edu.br 66 Vamos chamar de x1, x2, x3, ..., xn = 10 as notas da prova, sendo n = 10 a quantidade de alunos que realizaram a prova. A média aritmética das notas da prova será a soma das notas, x1 + x2 + x3 + ... + x10, dividida por n. Isto é: 7,0 7,5 9,0 10,0 5,0 8,5 2,0 4,0 8,0 7,0 68 6,8 10 10 + + + + + + + + + = = =µ De maneira genérica, temos que a média aritmética de um conjunto de dados é: 1 2 3 10 1 1 2 3 10 1 ... ou ... n i i n i i x x x x x n n x x x x x x n n = = + + + + = = + + + + = = ∑ ∑ µ Em que µ representa a média aritmética de uma população e x a média aritmética de uma amostragem. Moda O entendimento da moda (Mo) em estatística é semelhante ao que utilizamos no cotidiano para designar que tal roupa, por exemplo, está na moda, ou seja, uma determinada roupa está na moda quando a maioria da população a utiliza. Portanto, em estatística a moda é o valor que ocorre mais vezes em um conjunto de dados. Assim, tomando o exemplo das notas novamente: 7,0 – 7,5 – 9,0 – 10,0 – 5,0 – 8,5 – 2,0 – 4,0 – 8,0 – 7,0 A moda será: Mo = 7,0 Afinal, a nota 7,0 aparece duas vezes e as demais uma única vez. Assim, chamamos a nota 7,0 de valor modal, ou unimodal. www.esab.edu.br 67 Se acrescentarmos mais uma nota, por exemplo, a nota 8,0, temos duas notas distintas que ocorrem com a mesma frequência. 7,0 – 7,5 – 9,0 – 10,0 – 5,0 – 8,5 – 2,0 – 4,0 – 8,0 – 7,0 – 8,0 Assim, Mo = 7,0 e Mo = 8,0, que chamaremos de valor bimodal. Caso um conjunto de dados possua 3 valores distintos que apareçam com a mesma frequência, não utilizaremos a moda como medida de análise dos dados. Por outro lado, podemos encontrar um conjunto de dados em que todos os valores aparecem uma única vez. 7,0 – 7,5 – 9,0 – 10,0 – 5,0 – 8,5 – 2,0 – 4,0 – 8,0 Para esse caso, como não há valores repetidos, dizemos que conjunto de dados é amodal. Mediana A mediana (Md) é uma medida de tendência central que indica exatamente o valor central de uma amostra de dados – esse valor divide o conjunto de dados em duas partes iguais. Levando em consideração o exemplo das notas da disciplina de português, para determinar a mediana precisamos primeiramente ordenar os dados brutos. Dados brutos: 7,0 – 7,5 – 9,0 – 10,0 – 5,0 – 8,5 – 2,0 – 4,0 – 8,0 – 7,0 Rol: 2,0 – 4,0 – 5,0 – 7,0 – 7,0 – 7,5 – 8,0 – 8,5 – 9,0 – 10,0 A mediana será o valor que se encontra no meio da distribuição de dados, ou seja, que divide o conjunto de dados em duas partes. www.esab.edu.br 68 1 2 3 4 5 6 7 8 9 10 2,0 – 4,0 – 5,0 – 7,0 – 7,0 – 7,5 – 8, 0 – 8,5 – 9,0 – 10,0 x x x x x x x x x x 7,25 Rol: 5 elementos à direita da mediana. 5 elementos à esquerda da mediana. O valor que divide o rol em duas partes iguais é a mediana, Md = 7,25. Se tivermos um conjunto de dados com o número de elementos n grande, o uso de fórmula facilita o encontro da mediana. Contudo, temos duas fórmulas possíveis. Quando n é par: se o conjunto tiver uma quantidade par de dados, então a mediana será calculada por meio da fórmula a seguir: 1 2 2Md 2
Compartilhar