Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Unidade I Estatística 2 Unidade I Estatística Gestão da Educação a Distância Cidade Universitária – Bloco C Avenida Alzira Barra Gazzola, 650, Bairro Aeroporto. Varginha /MG ead.unis.edu.br 0800 283 5665 Todos os direitos desta edição ficam reservados ao Unis –MG. É proibida a duplicação ou reprodução deste volume (ou parte do mesmo), sob qualquer meio, sem autorização expressa da instituição. 3 Unidade I Estatística Doutora em Educação com na área de concentração da Teoria Crítica com foco no uso das tecnologias. Mestre em Tecnologias da Informação e Comunicação na Formação em EaD com ênfase em ambientes virtuais para formação de professores. Licenciada em Matemática, com habilitações em Física e Desenho Geométrico. Pós- graduada em Educação Matemática, Redes de Computadores, Informática na Educação e Design Instrucional para EaD Virtual. Atua como professora universitária e supervisora na Unidade de Gestão da Educação a Distância do Unis-MG. Currículo Lattes:http://lattes.cnpq.br/5950462827823117 Prof. Dra. Simone de Paula Teodoro Moreira Autoria MOREIRA, Simone de Paula Teodoro. Guia de Estudo – Estatística. Varginha: GEaD-UNIS/MG, 2017. xx p. 1. Estatística. 2. Probabilidade. 3. Coleta de dados. Adaptado de: FELIX, Nidia Miriam Rocha. Guia de Estudo – Estatística Aplicada à Educação. Varginha: GEaD-UNIS/MG, 2007. http://lattes.cnpq.br/5950462827823117 4 Unidade I Estatística Caríssimo(a), Que bom ter você nessa disciplina! É importante você saber que, no mundo moderno, todas as pessoas têm alguma necessidade de conhecer sobre os conceitos estatísticos. É comum a veiculação de informações que envolvem estatística em jornais, revistas, rádio e TV. A economia do país e o sistema financeiro são retratados para o leitor comum por meio de gráficos e tabelas; os resultados obtidos por bancos, pelo comércio e pela indústria são expressos mediante conceitos variados, tais como: coleta de dados, dados brutos, tratamento estatístico, porcentagem, índices, coeficientes, médias etc. De acordo com Bussab (2006) em alguma fase do seu trabalho você vai deparar com um problema que necessita desse tipo análise e entendimento de um conjunto de dados relevantes. Você vai precisar trabalhar esses dados para transformá-los em informações, para compará-los com outros resultados, ou ainda para julgar sua adequação à alguma teoria. Dentro deste processo temos sempre as incertezas, algumas vezes porque a informação não é completa ou porque é apenas parte de um todo ou ainda porque é de natureza indireta. Estas incertezas são quantificadas através da teoria das probabilidades que tem assim como objetivo a formulação de modelos de fenômenos naturais em que intervém o acaso (NATARIO, 2006). A maior parte dos fenômenos tratados pela Estatística são aleatórios ou probabilísticos. O conhecimento dos aspectos fundamentais do cálculo das probabilidades é uma necessidade essencial para o estudo da Inferência Estatística. Agora que você já entendeu, em curtas palavras, a relação da estatística com a probabilidade e já teve apontado alguns pontos importantes desse conteúdo para o seu curso e para o seu dia a dia, vamos em frente. Que nossa vontade de aprender seja o limite das possibilidades! Contem comigo! Sempre! Abraços, Profª Simone de Paula Teodoro Moreira. "Há três tipos de mentiras: mentiras, mentiras terríveis e estatísticas”. Benjamin Disraeli 5 Unidade I Estatística Conceitos Fundamentais e Teoria da Amostragem. Distribuições de Frequências. Principais Gráficos da Estatística. Medidas de Centralidade e Propriedades. Medidas de Dispersão e Propriedades. Teoria das Probabilidades e Resultados Associados. Ver Plano de Estudos da disciplina, disponível no Ambiente Virtual. Estatística. Probabilidade. Coleta de dados. Ementa Orientações Palavras-chaves 6 Unidade I Estatística EMENTA __________________________________________________________________ 5 ORIENTAÇÕES _____________________________________________________________ 5 PALAVRAS-CHAVES _________________________________________________________ 5 UNIDADE I – INTRODUÇÃO À ESTATÍSTICA E COLETA DE DADOS _________________ 10 1. INTRODUÇÃO À ESTATÍSTICA __________________________________________________ 11 1.1 HISTÓRICO _______________________________________________________________ 14 1.2 VOCABULÁRIO _____________________________________________________________ 15 1.3 FUNÇÕES DA ESTATÍSTICA _____________________________________________________ 20 1.3.1 FUNÇÃO DESCRITIVA _______________________________________________________ 20 1.3.2 FUNÇÃO INDUTIVA E INFERENCIAL _______________________________________________ 21 1.4 ALGUNS INDICADORES EDUCACIONAIS _____________________________________________ 22 1.4.1 ÍNDICES, COEFICIENTES E TAXAS ________________________________________________ 23 2. COLETA E ORGANIZAÇÃO DE DADOS______________________________________________ 24 2.1 COLETA DE DADOS __________________________________________________________ 25 2.1.1 QUESTIONÁRIOS __________________________________________________________ 27 2.2 SÉRIES E TABELAS ___________________________________________________________ 28 2.2.1 TABELAS _______________________________________________________________ 28 2.2.1.1 ESTRUTURAÇÃO DAS TABELAS ________________________________________________ 29 2.2.2 SÉRIES ESTATÍSTICAS _______________________________________________________ 30 2.2.2.1 SÉRIES CRONOLÓGICAS OU HISTÓRICAS __________________________________________ 30 2.2.2.2 SÉRIES GEOGRÁFICAS ______________________________________________________ 31 2.2.2.3 SÉRIES CONJUGADAS OU MISTAS ______________________________________________ 32 3. AMOSTRAGEM ___________________________________________________________ 33 3.1 CONCEITOS FUNDAMENTAIS ____________________________________________________ 34 3.1.1 TIPOS DE COMPOSIÇÃO DAS AMOSTRAS NÃO-PROBABILÍSTICAS ____________________________ 35 3.1.1.1 AMOSTRAGEM ACIDENTAL __________________________________________________ 36 3.1.1.2 AMOSTRAGEM INTENCIONAL (OU POR JULGAMENTO) ________________________________ 36 3.1.1.3 AMOSTRAGEM DE CONVENIÊNCIA (OU ACIDENTAL) __________________________________ 36 3.1.1.4 AMOSTRAGEM POR QUOTAS ________________________________________________ 36 3.1.2 TIPOS DE COMPOSIÇÃO DAS AMOSTRAS PROBABILÍSTICAS _______________________________ 37 3.1.2.1 AAS – AMOSTRAGEM ALEATÓRIA SIMPLES _______________________________________ 38 3.1.2.2 AS – AMOSTRAGEM SISTEMÁTICA _____________________________________________ 40 3.1.2.3 AMOSTRAGEM POR CONGLOMERADOS (OU CLUSTERS) _______________________________ 42 3.1.2.4 AAE – AMOSTRAGEM ALEATÓRIA ESTRATIFICADA __________________________________ 43 file:///C:/Users/simonejurandir/Dropbox/Autoria%20Simone/Estatística/Guia%20Estatística%20-%20Unidades%20I,%20II,%20III%20e%20IV%20-%20ementa%20correta.docx%23_Toc505551908 file:///C:/Users/simonejurandir/Dropbox/Autoria%20Simone/Estatística/Guia%20Estatística%20-%20Unidades%20I,%20II,%20III%20e%20IV%20-%20ementa%20correta.docx%23_Toc505551909 file:///C:/Users/simonejurandir/Dropbox/Autoria%20Simone/Estatística/Guia%20Estatística%20-%20Unidades%20I,%20II,%20III%20e%20IV%20-%20ementa%20correta.docx%23_Toc505551910 file:///C:/Users/simonejurandir/Dropbox/Autoria%20Simone/Estatística/Guia%20Estatística%20-%20Unidades%20I,%20II,%20III%20e%20IV%20-%20ementa%20correta.docx%23_Toc505551911 7 Unidade I Estatística UNIDADE II – DISTRIBUIÇÃO DE FREQUÊNCIA E REPRESENTAÇÃO GRÁFICA DE VARIÁVEIS ________________________________________________________________________ 48 4. INTRODUÇÃO _______________________________________________________________49 4.1 CLASSIFICAÇÃO DE DADOS E VARIÁVEIS ALEATÓRIAS _____________________________________ 50 4.2 DISTRIBUIÇÃO DE FREQUÊNCIA __________________________________________________ 56 4.2.1 ELABORAÇÃO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA __________________________________ 60 5. REPRESENTAÇÃO GRÁFICA DAS VARIÁVEIS QUANTITATIVAS ________________________________ 62 5.1 GRÁFICOS DE DISTRIBUIÇÃO DE FREQUÊNCIA _________________________________________ 63 5.2 OS VARIADOS TIPOS DE GRÁFICOS ________________________________________________ 67 UNIDADE III - MEDIDAS DE CENTRALIDADE ____________________________________ 81 6.1 MÉDIA ARITMÉTICA OU MÉDIA - X __________________________________________ 82 6.2 PROPRIEDADES DA MÉDIA ARITMÉTICA: ________________________________________ 87 6.3 MÉDIA PONDERADA _____________________________________________________ 87 6.4 MODA (MO) __________________________________________________________ 89 6.4.1 MODA PARA DADOS EM ROL: _______________________________________________ 91 6.4.2 MODA PARA DADOS TABULADOS: ____________________________________________ 91 6.4.3 MODA PARA DADOS AGRUPADOS POR CLASSE: ___________________________________ 92 6.5 MEDIANA (MD) E AS MEDIDAS SEPARATRIZES ____________________________________ 94 6.6 MEDIANA PARA O ROL: __________________________________________________ 101 6.7 MEDIANA PARA DADOS TABULADOS __________________________________________ 102 6.8 MEDIANA PARA AGRUPADOS EM CLASSE _______________________________________ 105 UNIDADE IV - MEDIDAS DE DISPERSÃO E ASSIMETRIA ___________________________ 111 7 MEDIDA DE TENDÊNCIA DE DISPERSÃO (VARIABILIDADE) _________________________________ 112 7.1 AMPLITUDE TOTAL _____________________________________________________ 114 7.2 DESVIO MÉDIO ________________________________________________________ 115 7.3 DESVIO MÉDIO PARA DADOS AGRUPADOS _____________________________________ 117 7.4 VARIÂNCIA___________________________________________________________ 122 7.5 DESVIO PADRÃO _______________________________________________________ 125 7.6 USO DO DESVIO PADRÃO _________________________________________________ 126 7.7 COMPARAÇÃO ENTRE AMPLITUDE TOTAL, DESVIO MÉDIO E DESVIO PADRÃO _______________ 129 8 MEDIDA DE ASSIMETRIA E CURTOSE ____________________________________________ 132 8.1 MEDIDAS DE ASSIMETRIA (OU DE ENVIESAMENTO) ________________________________ 132 8.2 MEDIDAS DE CURTOSE ___________________________________________________ 135 UNIDADE V - PROBABILIDADE E INDEPENDÊNCIA DE EVENTOS __________________ 137 9 INTRODUÇÃO À PROBABILIDADE __________________________________________________ 138 9.1 EXPERIMENTO ____________________________________________________________ 139 9.1.1 EXPERIMENTOS DETERMINÍSTICOS _____________________________________________ 140 9.1.2 EXPERIMENTOS ALEATÓRIOS _________________________________________________ 140 9.2 ESPAÇO AMOSTRAL ________________________________________________________ 142 9.3 CONJUNTOS E EVENTOS _____________________________________________________ 146 file:///C:/Users/simonejurandir/Dropbox/Autoria%20Simone/Estatística/Guia%20Estatística%20-%20Unidades%20I,%20II,%20III%20e%20IV%20-%20ementa%20correta.docx%23_Toc505551942 file:///C:/Users/simonejurandir/Dropbox/Autoria%20Simone/Estatística/Guia%20Estatística%20-%20Unidades%20I,%20II,%20III%20e%20IV%20-%20ementa%20correta.docx%23_Toc505551942 file:///C:/Users/simonejurandir/Dropbox/Autoria%20Simone/Estatística/Guia%20Estatística%20-%20Unidades%20I,%20II,%20III%20e%20IV%20-%20ementa%20correta.docx%23_Toc505551951 file:///C:/Users/simonejurandir/Dropbox/Autoria%20Simone/Estatística/Guia%20Estatística%20-%20Unidades%20I,%20II,%20III%20e%20IV%20-%20ementa%20correta.docx%23_Toc505551963 file:///C:/Users/simonejurandir/Dropbox/Autoria%20Simone/Estatística/Guia%20Estatística%20-%20Unidades%20I,%20II,%20III%20e%20IV%20-%20ementa%20correta.docx%23_Toc505551975 8 Unidade I Estatística 9.4 EVENTOS _______________________________________________________________ 147 9.4.1 EVENTOS ESPECIAIS _______________________________________________________ 149 9.5 CÁLCULO DA PROBABILIDADE DE UM EVENTO _______________________________________ 151 9.5.1 PROBABILIDADE DE UMA UNIÃO _______________________________________________ 158 9.5.2 PROBABILIDADE DE UMA INTERSEÇÃO ___________________________________________ 159 9.6 REVISÃO DE ANÁLISE COMBINATÓRIA ____________________________________________ 161 10 PROBABILIDADES: CLÁSSICA OU FREQUENCIAL, CONDICIONAL E INDEPENDÊNCIA DE EVENTOS ________ 170 10.1 PROBABILIDADE FREQUENCIAL ________________________________________________ 170 10.2 PROBABILIDADE CONDICIONAL ________________________________________________ 175 10.2.1 PROPRIEDADES DA PROBABILIDADE CONDICIONAL __________________________________ 183 10.2.2 TEOREMA DE BAYES ______________________________________________________ 184 10.3 INDEPENDÊNCIA DE EVENTOS _________________________________________________ 185 REFERÊNCIAS BIBLIOGRÁFICAS ______________________________________________ 188 9 Unidade I Estatística 10 Unidade I Estatística - Introduzir o conteúdo de Estatística. - Trabalhar com conceitos de população, amostra, fonte de dados, séries, tabelas e distribuição de frequência, índices, coeficientes, variáveis e taxas. - Entender a estruturação de tabelas e as formas de organização e coleta de dados. - Conhecer as técnicas de amostragem Introdução à Estatística Distribuição de Frequência Amostragem Unidade I – Introdução à Estatística e Coleta de Dados Objetivos da Unidade Plano de Estudos I 11 Unidade I Estatística 1. Introdução à Estatística Para iniciar esse nosso percurso no entendimento da Estatística, vou me valer das palavras de Charles Wheelan, em seu livro “Estatística: O que é, para que serve, como funciona” (Editora Zahar, 2016). Ele diz que O paradoxo da Estatística é que ela está em toda parte – desde médias de rebatias até pesquisas presidenciais -, embora a disciplina em si seja considerada desinteressante e inacessível. Muitos livros e aulas de estatística são excessivamente carregados de matemática e jargão. Acredite, os detalhes técnicos são cruciais (e interessantes), mas é apenas grego se você não entender intuitivamente. E você pode nem dar importância para a intuição se não estiver convencido de que existe um motivo para aprendê-la. (WHEELAN, 2015, p. 10) Bem, é isso! Às vezes, não gostar de matemática ou gostar muito não será suficiente para definir sua relação com a estatística. O importante é saber, antes de tudo, para que esse conhecimento lhe servirá. Qual é importância de saber ou não saber um dado conteúdo. O que dificulta ou facilita o processo de entendimento de um conteúdo não sua complexidade ou simplicidade e sim não ver sentido para o que está estudando. E a Estatística está muito longe disso! “Ela pode ser usada para explicar tudo, desde testes de DNA até a idiotice de jogar na loteria. A estatística pode nos ajudar a descobrir os fatores associados a doenças cardíacas e câncer, bem como identificar fraudes em testes padronizados. A estatística pode até nos ajudar a ganhar jogos de programas de TV” (WHEEKAN, 2015, p. 9) Veremos ao longo dessa disciplina que saber ler e interpretar dados é muito importante, pois dados fracos ou interpretação inadequada podem nos levar a conclusões desastrosas e irreparáveis. E por falar em dados... 12 Unidade I Estatística Os dados numéricos utilizados em Estatística para previsão, estimativa ou tomada de decisão são chamados Dados Estatísticos. Eles podem se referir a todos os elementos de um conjunto (população) ou apenas a uma parcela típica dos elementos desse conjunto (amostra). Se uma amostra for representativa de uma população, conclusões importantes sobre a população podemser inferidas de sua análise. A parte da Estatística que trata das condições sobre as quais essas inferências são válidas chama-se Estatística Indutiva ou Inferência Estatística. Como essa inferência não pode ser absolutamente certa, a linguagem de probabilidade é, muitas vezes, usada no estabelecimento das conclusões. A parte da Estatística que procura somente descrever e analisar certo grupo, sem tirar quaisquer conclusões ou inferências sobre um grupo maior, é chamada de Estatística Dedutiva ou Estatística Descritiva. Somos cientistas que diariamente tentamos prever fatos relacionados a acontecimentos futuros em nossas vidas, a fim de prever o que acontecerá em novas situações ou experiências, confirmando ou sustentado ideias, como investimentos em bolsas de valores, voto em algum candidato que promete resolver os problemas nacionais, jogar nos cavalos, caracterizar o perfil de clientes, tentar adivinhar o que o professor irá pedir em uma prova. Estatística pode ser definida como: a ciência que se preocupa com a coleta, análise, interpretação e apresentação dos dados e tem como objetivo fundamental o estudo de uma ou mais populações. 13 Unidade I Estatística APLICAÇÃO PROFISSIONAL Contabilidade: A área da contabilidade usa procedimento de amostragem estatística quando realiza auditorias. Por exemplo, suponha que uma firma de contabilidade queira determinar se a quantidade de contas mostrada em um balancete representa honestamente a quantidade real de contas a pagar. Nesse caso, a equipe de auditores pode selecionar um subconjunto de contas, chamado amostra. Depois de analisar a precisão das contas amostradas, faz-se uma conclusão, determinando se a quantidade de contas a pagar é aceitável. Finanças: Os consultores financeiros utilizam uma série de informações estatísticas para gerar suas recomendações de investimentos. No caso das ações, os consultores reveem diversos dados financeiros, incluindo relações preço/ganhos e rendimento de dividendos. Marketing: Leitoras ópticas estão sendo utilizadas para coletar dados para uma série de aplicações em pesquisas de mercado. Elas passam as informações colhidas e processadas aos fabricantes, vendendo-as. Além disso, os fabricantes também compram dados e sumários estatísticos sobre as promoções, os preços especiais, o uso de painéis eletrônicos no interior de lojas. Dessa forma, faz-se uma análise entre as atividades promocionais e o que está vendendo. Essas análises ajudarão em futuras “jogadas” de marketing para os produtos. Economia: Os economistas frequentemente são solicitados a fornecer previsões sobre o futuro da economia ou de algum aspecto dela. Eles usam uma série de informações estatísticas ao fazer tais previsões. Por exemplo, ao prever taxas de inflação, os economistas usam a informação estatística de indicadores como o índice de preços ao produtor, a taxa de desemprego e a utilização da capacidade de produção. Frequentemente esses indicadores estatísticos são inseridos em modelos de previsão computadorizados que automaticamente calculam as taxas de inflação. 14 Unidade I Estatística 1.1 Histórico Embora a ciência estatística ainda não existisse por volta de 3.000 anos a.C., há indícios de que, nessa época, já se faziam censos na Babilônia, China e Egito, com o objetivo de taxação e cobrança de impostos. A própria Bíblia leva-nos a essa recuperação histórica: o Livro quarto do Velho Testamento começa com uma instrução de Moisés: Fazer um levantamento dos homens de Israel que estivessem aptos a guerrear. O Imperador César Augusto ordenou para que se fizesse o censo em todo o império romano (a palavra “censo” significa “taxar”). Em 1085, Guilherme, o Conquistador, mandou fazer um levantamento Estatístico da Inglaterra. Esse levantamento deveria incluir informações sobre terras, proprietários, uso da terra, empregados, animais e serviria também de base para o cálculo de impostos. Tal Produção: Outra aplicação da estatística é na produção, com ênfase na qualidade. Podem ser utilizados gráficos de barras, por exemplo, para monitorar um processo de produção. Suponha que uma máquina está sendo usada para encher recipientes de 360 ml de uma marca de refrigerante. Periodicamente, uma amostra de recipiente é selecionada e o conteúdo médio do recipiente da amostra é calculado. Essa média é situada em um gráfico. Um valor situado acima do limite superior de controle no gráfico indica um sobreenchimento, e um valor abaixo do limite inferior de controle indica um subenchimento. Diz-se que o processo está “sob controle” e pode continuar quando os valores estiverem entre os limites superior e inferior do gráfico. Dessa forma, podemos perceber que um gráfico de barras pode ajudar no processo de produção e determinar possíveis correções. 15 Unidade I Estatística levantamento originou um volume intitulado “DOMESDAY BOOK” (Dia do juízo Final). A partir do século XVI, as primeiras análises sistemáticas de fatos sociais surgiram. Temos como exemplos os batizados, casamentos, funerais etc. No século XVIII, com o advento do cálculo das probabilidades, tais estudos vão ganhando, aos poucos, feição verdadeiramente científica, e Godofredo Acmenwall batiza a nova ciência de Estatística. Então, deixa de ser simples catalogação de dados numéricos para se tornar o estudo de como chegar à conclusão sobre o todo (população), partindo da observação de partes desse todo (amostras). 1.2 Vocabulário O tempo todo somos atropelados por informações estatísticas. Elas são apresentadas de forma descritiva, gráfica ou em tabelas. E acabamos por interpretá- las, na maioria das vezes, sem ao menos percebermos que são dados estatísticos. O termo estatística provém da palavra Estado e foi utilizado originalmente para denominar levantamento de dados, cuja finalidade era orientar o estado em suas decisões. A estatística é um conjunto de métodos e processos que serve para estudar e medir os fenômenos coletivos, ou seja, através dela pode-se estudar e conhecer as coisas como um todo. 16 Unidade I Estatística Vejam os exemplos a seguir, citados por Larson e Farber (2015, p. 2-3): 17 Unidade I Estatística Fonte: LARSON e FARBER, 2015, p. 2-3 Todas as informações acima, seja na forma gráfica ou descritiva, são resultantes de dados. No quadro a seguir você conhecerá alguns conceitos e linguagens mais usuais dentro do conteúdo de estatística. Dados São informações que provem de contagem, observações, medições. Os dados podem aparecer em formas de conjuntos: população ou amostra. Dados Poluçaão Amostra 18 Unidade I Estatística População É o conjunto de elementos que têm, em comum, determinada característica. Ex.1: Conjunto de alunos de uma escola X Ex.2: Conjunto de professores da 6ª série Ex.3: Conjunto de conteúdos de uma disciplina Y População finita é aquela população em que é possível enumerar todos os seus elementos componentes. Ex.: Idade dos alunos do Curso; as notas dos alunos da disciplina de Estatística. População infinita é aquela população em que não é possível enumerar todos os seus elementos componentes. Ex.: O número de astros do universo. Para certas finalidades, as populações finitas muito grandes são consideradas infinitas. Por exemplo, considere as pessoas do sexo masculino com mais de 35 anos de idade, residentes em São Paulo. O número dessas pessoas é matematicamentefinito, mas tão grande que o pesquisador, ao analisar uma amostra de 500 pessoas, pode considerar a população como infinita. Amostra É a parte retirada da população para estudo, ou seja, é um subconjunto não vazio da população. Quando são coletadas informações de toda a população, diz-se que foi feito um recenseamento. Ex1: População: Conjunto de alunos de uma escola X Amostra: Alguns alunos da escola X Ex2: População: Conjunto de conteúdos de uma disciplina Y Amostra: Prova, teste. 19 Unidade I Estatística Características de uma amostra: Atributos são todas as características de uma população que não podem ser medidas. Ex.: Cor, religião, estado civil, sexo, etc. Variáveis É o conjunto de resultados possíveis de um dado fenômeno. Dividem-se em: discretas e contínuas. Variáveis Fenômenos em estudo em uma pesquisa. Ex.: O que queremos saber dos alunos de uma escola X? Conforme vimos anteriormente, as variáveis podem ser classificadas como: Qualitativas (categorias) - Ex: sexo, raça, religião, conceito escolar, opinião, etc. Quantitativas (medidas) - Ex: nota, estrutura, peso, idade, etc. As variáveis quantitativas são classificadas em: Variáveis discretas São aquelas que nós podemos contar. Variável que só pode existir em determinados valores específicos, permitindo-nos construir um conjunto enumerável. Ex.: Número de alunos existente numa sala de aula, número de filhos pertencentes a uma família, etc. Variáveis contínuas São aquelas que podem ser medidas e assumem qualquer valor entre dois limites de um conjunto. Ex.: Peso (kg), temperatura, estatura, etc. Amostragem É o procedimento de retirar uma amostra da população em estudo. 20 Unidade I Estatística 1.3 Funções da Estatística Conforme mencionado inicialmente, a Estatística divide-se em: Estatística Descritiva e Inferência Estatística. A seguir uma breve diferencial essas duas funções da Estatística. 1.3.1 Função descritiva A função descritiva da estatística, também chamada de dedutiva, compreende a organização, o resumo, a simplificação das informações fornecidas por uma base de dados, por meio da construção de tabelas, gráficos e do cálculo de números descritivos. A finalidade é tornar as coisas mais fáceis de entender, de relatar e de discutir. É aquela função que tem por objetivo descrever e analisar determinada amostra sem pretender tirar conclusões de caráter mais genérico. “No futuro, o pensamento estatístico será tão necessário para a cidadania eficiente como saber ler e escrever.” H.G Wells (Autor de “A Guerra dos Mundos” e “A Máquina do Tempo”). Estatística Descritiva Inferencial 21 Unidade I Estatística 1.3.2 Função indutiva e inferencial Também chamada de amostral ou indutiva, a função inferencial da Estatística é a parte da estatística que se propõe a tirar conclusões úteis a respeito de um conjunto denominado população com base na amostra. Para utilização da inferência estatística, é necessário o trabalho com a probabilidade, já que estaremos trabalhando com incerteza. Os modelos probabilísticos são as formas encontradas pelo estatístico para traduzir a incerteza. Baseando-se em resultados obtidos da análise de uma amostra, procura inferir, induzir ou estimar as leis de comportamento da população da qual a amostra foi retirada. Em linguagem técnica, fazemos INFERÊNCIA. Em linhas gerais, vejamos exemplos quem usa a estatística descritiva e a inferência estatística (LARSON; FARBER, 2015, p. 6): 1. Uma grande amostra de homens com 48 anos de idade foi estudada durante 18 anos. Observa-se na figura que, para os solteiros, aproximadamente 70% estavam vivos aos 65 anos, e para os casos, 90%. (Fonte: The Journal of Family Issues). 2. Em uma amostra de analistas de Wall Street, a porcentagem dos que previram incorretamente os lucros de empresas de alta tecnologia em um ano recente foi de 44%. (Fonte: Bloomberg News.) 22 Unidade I Estatística 1.4 Alguns Indicadores Educacionais A estatística é usada, nos sistemas educacionais, para uma grande variedade de fins. O diagnóstico escolar, o conhecimento dos problemas, a proposta de soluções No 1º exemplo temos a estatística descritiva que envolve afirmações tais como “Para os solteiros da grande amostra de homens, aproximadamente 70% estavam vivos aos 65 anos” e “Para os casados, 90% ainda estavam vivos aos 65 anos”. A figura também representa o ramo descritivo da estatística. Uma inferência possível tirada do estudo é que estar casado está associado a uma vida mais longa para os homens. No 2º exemplo, a parte do estudo que representa o ramo descritivo da estatística envolve a afirmação “A porcentagem [da amostra de analistas de Wall Street] que previram incorretamente os lucros de empresas de alta tecnologia em um ano recente foi de 44%.” Uma inferência possível com base no estudo é que o mercado de ações é difícil de ser previsto, até mesmo para os profissionais. Fonte: Larson; Farber, 2015, p. 6 Percebam que sempre partimos da estatística descritiva para caminhamos para inferências 23 Unidade I Estatística e a ação conveniente devem basear-se na análise e interpretação dos dados estatísticos. A maioria desses dados refere-se a fenômenos educacionais universais: matrícula, idade, notas, escolaridade, aprovação, série escolar, nível econômico, condições físicas da escola etc.. 1.4.1 Índices, coeficientes e taxas a) Índice: é a comparação entre duas grandezas independentes. Ex1: Q. I = Idade.mental Idade.Cronológica ; Índice Densidade aluno professor = 𝑛º 𝑎𝑙𝑢𝑛𝑜𝑠 𝑛º 𝑑𝑜𝑐𝑒𝑛𝑡𝑒𝑠 b) Coeficiente: é a comparação entre duas grandezas em que uma está contida na outra. Ex: Coef.de.aproveitamento.escolar = 𝑛º 𝑑𝑒 𝑎𝑝𝑟𝑜𝑣𝑎𝑑𝑜𝑠 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑎𝑙𝑢𝑛𝑜𝑠 c) Taxa: é a mesma coisa que o coeficiente, apenas apresentando- se multiplicada por 10n (10, 100, 1.000 etc.) para tornar mais inteligível o fator. Taxa = Coeficiente x 10n Ex: matrícula 4º ano (M) = 800 ; Recuperação (R) = 300 Coef. de recuperação = Taxa de recuperação = Coef. x 100 = 0,375 x 100 = 37,5% Taxa de recuperação = Coef. x 1000 = 0,375 x 1000 = 375 Significado: em cada 1.000 alunos matriculados, 375 estão em recuperação. 24 Unidade I Estatística 2. Coleta e organização de dados São várias as formas de organizamos um conjunto de dados. É importante nessa organização que saibamos identificar o centro, a variabilidade (ou dispersão) e forma. Essa organização é necessária para que possamos identificar algum padrão. Os dados são então organizados em intervalos (classes) e formam uma distribuição de frequência. Quando analisamos alguns dados, podemos apresentá-los sob a forma de séries, tabelas e gráficos. Séries estatísticas são tabelas que apresentam a distribuição de um conjunto de dados em função da época, do local ou da espécie. As tabelas são usadas para representar as séries estatísticas e obedecem a certas normas em sua construção, devendo possibilitar a compreensão do que se propõe. Deve apresentar como estrutura: cabeçalho, corpo e rodapé. No cabeçalho, deve conter o suficiente para responder às questões: o que está representado, onde ocorreu e quando ocorreu. Já a representação gráfica tem por objetivo representar os resultados obtidos, permitindo que se chegue a conclusões sobre o assunto. Pode-se representar de Uma distribuição de frequência é uma tabela que mostra classes ou intervalos dos valores com a contagem do númerode ocorrências de cada classe ou intervalo. A frequência f de uma classe é o número de ocorrências de dados na classe. Fonte: Larson; Farber, 2015, p. 37) 25 Unidade I Estatística várias formas. A escolha do gráfico mais apropriado ficará a critério do analista. No entanto, quando elaboramos um gráfico, devemos levar em conta a simplicidade, a clareza e a veracidade. 2.1 Coleta de Dados Um estudo estatístico é necessário para coletar dados, analisar a informação e tomar decisões. Quando os dados coletados não são seguros, o resultado e a tomada de decisões podem ser comprometidos. Atualmente vários são os recursos tecnológicos para coleta e organização de dados e mesmo que você nunca tenha que organizar essas informações, certamente, em algum momento de sua vida, terá que interpretar algum resultado e para isso é fundamental que saiba julgar se os dados são confiáveis. Por isso, é importante saber como organizar um estudo estatístico. PLANEJAMENTO Qual a população? O que será pesquisado? (variáveis) Definição de Objetivos Onde será feita a pesquisa? Qual o tempo de pesquisa? Qual o custo previsto? Será utilizada amostra ou será censo? 26 Unidade I Estatística Preparação do Plano Como os dados serão coletados? O estudo estatístico, de acordo com Larson e Farber (2015, p. 17), pode ser: Observação direta (ficha) Entrevista (questionário) Auto-entrevista (questionário) Estabelecer a estratégia que possibilitará a obtenção dos resultados, e que deverá seguir o seguinte lema: “Máximo de informes com um mínimo de erros e despesas”. •O pesquisador aplica o tratamento antes de observar as respostas. •Aplicado em uma parte da população (grupo de tratamento) e as respostas são observadas. E depois em outra parte da população (grupo controle), sem nenhum tratamento. Comparam-se e estudam-se as respostas. Experimental •O pesquisador não infliencia as respostas. •O pesquisador observa e mede as características de interesse de parte de uma populãção, mas não muda as condições existentes. Observacional 27 Unidade I Estatística Sabendo-se do tipo de estudo que será realizado, existem duas formas de coletar dados: por simulação ou por pesquisa. A simulação faz uso de um modelo matemático ou físico para reproduzir uma situação ou processo, normalmente envolvendo computadores. A pesquisa é uma investigação, frequentemente envolvendo pessoas, por meio de perguntas, que podem ser feitas por entrevista, telefone, internet etc. O questionário deve ser cuidadosamente elaborado, por isso, o tópico seguinte discutirá esse item com mais detalhamento. Em se tratando de uma pesquisa essa poderá ser realizada com a população ou com uma amostra da população. As técnicas de amostragem serão apresentadas um pouco mais a frente. 2.1.1 Questionários Para a entrevista e a auto entrevista o acessório principal é o questionário. Um bom questionário deve ser: a) Completo - conter todas as informações que pretendemos obter. b) Concreto - perguntas formuladas de forma clara e objetiva. c) Secreto - não conter identificação (em geral). d) Discreto - não conter perguntas que possam ferir suscetibilidade do pesquisado. A estruturação do questionário varia de acordo com os tipos de questões. Veja: Questão Aberta: Ex: Que marca de automóvel você prefere? Resp: ______________ 28 Unidade I Estatística Questão Fechada Ex: Que marca de automóvel você prefere? ( ) Volks ( ) Ford ( ) Fiat ( ) Outros Questão Filtro EX: Você já teve carro marca Fiat? ( ) Sim ( )Não No caso afirmativo, o pesquisado deve responder a questão relativa ao sim. No caso negativo, a questão relativa ao não. Questão por que? EX: Por que nunca teve carro Fiat? ( ) Não conhece ( ) Não muda de marca ( ) Teve opinião contrária. Questão Intensidade EX: Quantos carros marca Fiat você tem? Resp: _______ carros. 2.2 Séries e Tabelas Trataremos aqui de outros dois conceitos importantes que precisamos entender e saber classificar quando falarmos de distribuição de frequência e organização de dados estatísticos. 2.2.1 Tabelas Resume um conjunto de dados dispostos segundo linhas e colunas de maneira sistemática. A representação dos dados que geralmente é feita através de tabelas. De acordo com a Resolução 886 do IBGE, nas casas ou células da tabela devemos colocar: um traço horizontal ( - ) quando o valor é zero; três pontos ( ... ) quando não temos os dados; zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada; um ponto de interrogação ( ? ) quando temos dúvida quanto à exatidão de determinado valor. 29 Unidade I Estatística 2.2.1.1 Estruturação das tabelas Veja como se estrutura uma tabela: Não se preocupe! O quadro abaixo poderá, em um primeiro momento, ser muito abstrato. Mas, logo adiante, você terá oportunidade de ver outros exemplos que facilitarão a sua compreensão. Para os dois modelos, este cabeçalho é igual: Título O quê? (Fato) Onde? (Lugar) Quando? (Tempo, época) 1. Entrada Simples (uma variável) Ex: Título ........................ CABEÇALHO Fonte: ...................................... 2. Entrada Dupla (duas variáveis) Ex: .............................................. TOTAL TOTAL Fonte: ...................................... 30 Unidade I Estatística 2.2.2 Séries Estatísticas São assim chamadas as tabelas nas quais existe um critério distinto que as especifica e diferencia. Em toda série estatística, três elementos devem ser observados: tempo, espaço e espécie. Segundo esse critério, podemos ter: séries cronológicas ou histórias; geográficas; conjugadas ou mistas. 2.2.2.1 Séries cronológicas ou históricas É a série estatística em que os dados são observados segundo a época de ocorrência. Esta série também é chamada de histórica ou evolutiva. Nesse tipo de série local e fato são fixos (estudo ao longo do tempo). Vejamos alguns exemplos em que se apresentam as vendas em um período do ano. Unidades escolares de ensino fundamental – 2012 /2016 Cronológica Anos Quant. 2012 133.900 2013 168.100 2014 176.908 2015 180.456 2016 198.345 Fonte: SEDUC – Secretária de educação e cultura ABC VEÍCULOS LTDA. Vendas no 1º bimestre de 2015 Período Unidades Vendidas* Jan/2015 20 Fev/2015 10 Total 30 * Em mil unidades 31 Unidade I Estatística 2.2.2.2 Séries geográficas Também conhecida como série de localização é a série em que os dados estão relacionados ao local onde ocorreu. Nesse tipo de série fato e tempo são fixos (estudo do espaço). Unidades escolares do Ensino Fundamental - segundo áreas metropolitanas - 2016 Geográfica Áreas Metropolitanas Quant. Belém 1.500 Fortaleza 1.000 Recife 2.000 Salvador 4.000 Belo Horizonte 10.000 Rio de Janeiro 80.000 São Paulo 60.000 Curitiba 5.000 Porto Alegre 3.000 Fonte: MEC / BRASILIA ABC VEÍCULOS LTDA. Vendas no 1º bimestre de 2016 Filiais Unidades Vendidas * São Paulo 13 Rio de Janeiro 17 Total 30 * Em mil unidades 32 Unidade I Estatística 2.2.2.3 Séries conjugadas ou mistas Também chamadas detabelas de dupla entrada. São apropriadas à apresentação de duas ou mais séries de maneira conjugada, havendo duas ordens de classificação: uma horizontal e outra vertical. Matrículas do Ensino Superior/Brasil 2005 Por área de ensino Específica Áreas de Ensino Quant. Ciências Biológicas e Programa de Saúde 45.109 Ciências Exatas e Tecnológicas 75.949 Ciências Agrárias 3.419 Ciências Humanas 176.842 Letras 14.883 Artes 8.464 Duas ou mais áreas 16.323 Fonte: Serviço de Estatística MEC / Brasília Processos de Desquite, segundo a Natureza, Regiões do Brasil – 2006 Regiões Total Natureza Amigável Litigioso Norte 450 304 46 Nordeste 1.786 1.387 399 Sudeste 14.783 12.856 1.927 Sul 4.071 3.521 550 Centro-oeste 1.126 903 223 Brasil 22.216 18.971 3.145 Fonte: Divisão de estatística da sec. geral do Ministério da Justiça 33 Unidade I Estatística 3. Amostragem Na realização de qualquer estudo, quase nunca é possível examinar todos os elementos da população de interesse. Temos usualmente de trabalhar com uma amostra da população. A inferência estatística nos dá elementos para generalizar, de maneira segura, as conclusões obtidas da amostra para a população. É errôneo pensar que, caso tivéssemos acesso a todos os elementos da população, seríamos mais precisos. Os erros de coleta e manuseio de um grande número de dados são maiores do que as imprecisões a que estamos sujeitos quando generalizamos, via inferência, as conclusões de uma amostra bem selecionada. Ao fazer uma pesquisa, existem vários tipos de amostragem para determinarmos os elementos de nosso estudo. Em se tratando de amostra, a preocupação central é que ela seja representativa, significativa e imparcial. Assim que decidimos obter informações por meio de um levantamento amostral, temos imediatamente dois problemas: Definir cuidadosamente a população de interesse. Selecionar a característica que iremos pesquisar. Importância da Amostragem Economia de tempo e dinheiro – numa pesquisa eleitoral não há tempo, nem dinheiro para ouvir toda a população. Valor científico da amostra. Usando técnicas de amostragem probabilística garantimos que o erro possível do uso de amostragem seja controlado. 34 Unidade I Estatística 3.1 Conceitos fundamentais Apesar de não estarmos trabalhando com inferência ainda (nosso foco aqui será a Estatística Descritiva) é importante conhecermos as técnicas de amostragem, pois é muito mais comum o trabalho com uma amostra do que com uma população. Para que possamos fazer inferências válidas sobre a população a partir de uma amostra, é preciso que esta seja representativa. Uma das formas de se conseguir representatividade é fazer com que o processo de escolha da amostra seja, de alguma forma, aleatório. Além disso, a aleatoriedade permite o cálculo de estimativas dos erros envolvidos no processo de inferência. Quanto à extração dos elementos, as amostras podem ser: Com reposição - quando um elemento sorteado puder ser sorteado novamente. Sem reposição - quando o elemento sorteado puder figurar uma única vez na amostra. O conceito de população é intuitivo; trata-se do conjunto de indivíduos ou objetos que apresentam em comum determinadas características definidas para o estudo. Amostra é um subconjunto da população. Amostragem são procedimentos para extração de amostras que representem bem a população. Riscos é a margem de erro motivado pelo fato de investigarmos parcialmente (amostras) o universo (população). A população-alvo é a população sobre a qual vamos fazer inferências baseadas na amostra. 35 Unidade I Estatística Na teoria da amostragem, são consideradas duas dimensões: a) Dimensionamento da amostra b) Composição da amostra Definida a população e o tamanho da amostra é preciso estabelecer a técnica de amostragem, isto é, o procedimento que será adotado para escolher os elementos que irão compor a amostra. Existem dois tipos de amostragem (formas de composição da amostra): a probabilística e a não-probabilística, que se subdividem em várias. Citaremos algumas a seguir. 3.1.1 Tipos de composição das amostras não-probabilísticas A amostragem não-probabilística é um processo subjetivo e seu rendimento depende do conhecimento do pesquisador a respeito das populações. Não é muito utilizada, mas pode ser empregada quando os efeitos de sua utilização puderem ser considerados equivalentes aos de uma amostragem probabilística. Os métodos de extração das amostras não-probabilísticas são: Amostragem Acidental; Amostragem Intencional; Amostragem de conveniência; Amostragem por Quotas. 36 Unidade I Estatística 3.1.1.1 Amostragem Acidental É formada por elementos que vão aparecendo, que são possíveis de se obter até completar o número de elementos da amostra. Ex: Pesquisa de opinião, em que os entrevistados são acidentalmente escolhidos. 3.1.1.2 Amostragem intencional (ou por julgamento) É formado por elementos escolhidos por determinado critério, é escolhido intencionalmente um grupo de elementos que irão compor a amostra. Os elementos da amostra são julgados como adequados baseado em escolhas de casos específicos, na população onde o pesquisador está interessado. 3.1.1.3 Amostragem de conveniência (ou acidental) Como o próprio nome diz, é a mais conveniente entre todas, visto que, utilizam-se dados já conhecidos. É mais prático e econômico, mas em muitos casos pode ser tendenciosa. 3.1.1.4 Amostragem por Quotas Classificação da população em termos de propriedades que se sabe serem relevantes para a característica a ser estudada. Determinação da proporção da população para cada característica com base na constituição conhecida, ou estimada da população. Fixação de quotas para cada observador ou entrevistador a quem Ao fazer uma pesquisa sobre pessoas canhotas, seria conveniente um estudante pesquisar seus próprios colegas de classe, porque estão ao seu alcance imediato (resultados podem ser bem satisfatórios). 37 Unidade I Estatística caberá a responsabilidade de selecionar interlocutores ou entrevistados, de modo que a amostra total observada ou entrevistada contenha a proporção de cada classe. 3.1.2 Tipos de composição das amostras Probabilísticas O método de amostragem probabilística exige que cada elemento da população possua determinada probabilidade de ser selecionado. Normalmente possuem a mesma probabilidade. Assim, se N for o tamanho da população, a probabilidade de cada elemento será 1/N. Este método garante cientificamente a Para conhecermos as características de uma população é comum que analisemos as características de uma amostra dessa população e a partir desses dados obtermos estimativas da população. Por mais bem escolhida que seja uma amostra ela nunca será a representação perfeita de uma população. Isso poderá ocasionar que algumas interpretações sobre a amostra podem não condizer com as interpretações da população. E é ai que a Estatística age, assegurando que esses erros e enganos sejam raros e não tragam consequências desastrosas. Por esse motivo faz-se necessário adotar uma metodologia adequada para definição dos elementos de uma amostra de tal forma que essa amostra seja a mais representativa possível e que as análises a partir dela sejam confiáveis para se deduzir a população. 38 Unidade I Estatística aplicação das técnicas estatísticas de inferências ou deduções sobre a população a partir do conhecimento da amostra. Os métodos de extração das amostras probabilísticas são: Amostragem Aleatória Simples; Amostragem Sistemática; Amostragem por Conglomerado; Amostragem Aleatória Estratificada. 3.1.2.1 AAS – Amostragem Aleatória Simples A amostragem aleatória simples é maneira mais fácil para selecionarmos uma amostra probabilística de uma população. Esse tipo de amostragem consiste em escolher uma amostra de uma população de tal forma que qualquer item dessa população tenha as mesmas condições de ser selecionado. Tem-se, portanto que: cada variável aleatória Xi tem a mesma distribuição de X; as variáveis aleatórias X1,X2, ...,X6 são independentes (seleção aleatória de dados - a seleção de um dado não tem influência na seleção de qualquer outro). Os valores observados das variáveis aleatórias x1,x2, ...,xn, numa amostra concreta são apresentados por letras minúsculas: x1,x2, ...,xn 39 Unidade I Estatística No entanto, o exemplo descrito acima é pouco viável quando estamos trabalhando com populações muito grandes. Nesse caso então usa-se um processo alternativo no qual os elementos são enumerados e em seguida sorteados por uma tabela de número aleatórios (ver anexo 1) ou por meio do uso de computadores, que podem gerar números aleatórios. Para Lucas (2008), quando a população é finita obtém-se uma amostra aleatória se a seleção dos elementos para a amostra é feita com reposição, pois neste caso as sucessivas extrações são independentes. Isto assegura que as variáveis aleatórias identicamente distribuídas x1,x2, ...,xn sejam independentes. Muitas vezes, no entanto, a seleção dos elementos para uma amostra é feita sem reposição. Neste caso as variáveis aleatórias x1,x2, ...,xn não serão independentes pois os valores que os primeiros elementos da amostra tomam condicionam os seguintes. Para uma amostragem de uma população finita, podemos ter: Imaginemos um grupo de 30 pessoas funcionários de uma empresa A. Iniciamos por listar todos os n itens que compõem essa população, ou seja, todas as 30 pessoas funcionárias dessa empresa. Para obtermos uma amostra dessa população, escrevemos em um papel cada nome de cada uma das 30 pessoas e misturamos todos em uma caixa. Se quisermos uma amostra de 10 pessoas, vamos retirando um nome por vez da caixa. Se a cada extração de um nome o mesmo não for retornado na caixa para a próxima extração, estaremos realizando uma AAS sem reposição. Se a cada extração esse nome for anotado e devolvido a caixa para ser misturado novamente, estaremos realizando uma AAS com reposição. 40 Unidade I Estatística Porém, se a amostra é pequena relativamente à população, a diferença entre reposição e não reposição é atenuada, já que a retirada de alguns elementos não altera drasticamente composição da população e por isso a não reposição do item examinado terá efeito desprezível. Na pratica, quando é feita amostragem sem reposição é usual assumir a independência entre as variáveis aleatórias x1,x2, ...,xn se a amostra não exceder 5 % do tamanho da população. Assim, se, ao contrário, a amostra exceder 5% do tamanho da população deve-se fazer amostragem com reposição. Do que foi dito podemos concluir que quando a população é infinita é indiferente fazer ou não reposição; a amostra recolhida será sempre aleatória. A amostragem feita sem reposição é o caso mais comum. 3.1.2.2 AS – Amostragem Sistemática É chamada de Amostragem Sistemática aquela amostragem obtida selecionando-se aleatoriamente um elemento entre os K primeiros elementos de um sistema de referência. Obter uma amostra representativa para a pesquisa da estatura de noventa alunos de uma escola. 1. Numeramos os alunos de 01 a 90. 2. Escrevemos os números, de 01 a 90, em pedaços iguais de um mesmo papel, colocando-os dentro de uma caixa. Agita-se a caixa para misturar os pedaços de papel e retiramos, um a um, nove números que formarão a amostra. Neste caso, 10% da população. 41 Unidade I Estatística É uma variação da amostragem aleatória simples, conveniente quando a população está ordenada segundo algum critério, como fichas em um fichário, listas telefônicas, peças em uma linha de produção, os prédios de uma rua, prontuários médicos de um hospital. Assim, no caso de uma linha de produção, podemos, a cada dez itens produzidos, retirar um para pertencer a uma amostra em 10% da população. Algumas razões para empregar a amostragem sistemática ao invés da amostragem aleatória simples são: é mais fácil de executar e, por isso, está menos sujeita a erros de entrevistador do que a aleatória simples; frequentemente proporciona mais informações por custo unitário do que a aleatória simples. No caso de uma linha de produção, amostragem para um turno de produção pode ser feita nas unidades produzidas na linha de produção. Um procedimento simples é amostrar a cada dez unidade produzidas. Esta amostra é extraída antes que a população de interesse seja formada. Se for retirada uma amostra de 1000 peças de uma população de 5000 peças, pode-se retirar sistematicamente, uma peça a cada cinco peças (5000/1000 = 5). Fonte: Junior, 2006, p. 6 42 Unidade I Estatística 3.1.2.3 Amostragem por conglomerados (ou clusters) Nesse caso, começamos dividindo a área da população em seções (ou conglomerados), em seguida escolhemos algumas destas seções e finalmente, 1- Num processo de fabricação contínuo, pode-se, a cada 20 peças produzidas, retirar uma peça para pertencer a uma amostra da população diária. 2- Se a Motorola quisesse fazer uma pesquisa sobre seus 107.000 empregados, poderia partir de uma relação completa dos mesmos e selecionar cada 100o empregado, obtendo uma amostra de 1070 elementos. 3- Suponhamos uma rua contendo novecentos prédios, dos quais desejamos obter uma amostra de cinqüenta prédios. Podemos, neste caso, usar o seguinte procedimento: como 900 / 50 = 18, escolhemos por sorteio casual um número de 1 a 18 (inclusive), o qual indicaria o primeiro elemento sorteado para a amostra; os demais elementos seriam periodicamente considerados de 18 em 18. Assim, se o número sorteado fosse o 4, tomaríamos, pelo direito da rua, o 4º prédio, o 22º, o 40º etc., até voltarmos ao início da rua, pelo lado esquerdo. 43 Unidade I Estatística tomamos todos os elementos das seções escolhidas. Muito usada pelo governo e por organizações particulares de pesquisa. 3.1.2.4 AAE – Amostragem Aleatória Estratificada Para o caso de uma população heterogênea, não podemos utilizar uma AAS (Amostragem Aleatória Simples) devido à baixa precisão das estimativas obtidas. Nesse caso deve-se dividir a população em subpopulações – estratos - de forma que dentro dessas haja homogeneidade e selecionando-se independentemente uma amostra aleatória simples de cada estrato. A amostra obtida nesse caso, chama-se amostra aleatória estratificada. Considerando que os h estratos estejam devidamente organizados, pode-se considerar a seguinte notação: hN número de elementos da população no estrato h; hn número de elementos da amostra no estrato h; 1- Em uma pesquisa pré-eleitoral, na qual escolhemos aleatoriamente 30 zonas eleitorais e pesquisamos todos os elementos de cada uma das zonas escolhidas. . 44 Unidade I Estatística H h hNN 1 tamanho da população H h hnn 1 tamanho da amostra Em cada estrato, trabalha-se como se o processo envolvesse uma amostra aleatória simples. Assim, para o estrato h, o estimador da média populacional h é: .1 h nh i hi h n X X O estimador da variância do estrato h é dado por: . 1 )( 1 2 2 h nh i hhi h n XX s O estimador da média da população , chamada média estratificada, é obtido ponderando-se as medias dos extratos, pelo número de elementos do estrato, ou seja: .1 N XN X H h hh est 45 Unidade I Estatística Será admitida uma amostra aleatória estratificada (n=25) sorteada de uma população (N=194), composta por 5 diferentes fornecedores (estratos) de aços utilizados na fabricação de molas, sendo a variável medida, a dureza HB de molas de aços produzidas por uma indústria de autopeças (tabela 1). Tabela 1: Medidas de dureza de molas estratificadas por fornecedor Estrat o Amostra 1 60 5 1,6 1,0 3,7 2,4 1,8 - 2,10 1,05 2 49 6 8,9 7,3 8,2 4,5 5,9 7,6 7,07 2,59 3 35 6 12,2 17,8 15,0 11,4 14,0 14,6 14,17 5,13 4 30 4 35,3 29,7 27,0 22,0 - - 28,5 30,73 5 20 4 82,0 62,0 75,0 54,0 - - 68,25 158,92 194 25 16,43 ... Neste exemplo, fica claro que a estratificação permitiu o reconhecimento de uma importante característica do problema vivenciado pela indústria e o direcionamento do estudo das medidas corretivas que deverão ser adotados para sua solução. Na etapa de identificação do problema foi definido o seguinte problema: aumento do número de molas devolvidas por apresentarem dureza fora da especificação. Além das diferenças de médias, percebe-se também a grande diferença de variabilidade entre os estratos: Fonte: Junior, 2006, p. 7 46 Unidade I Estatística Exemplo 1 Supondo uma amostra representativa para a pesquisa da estatura de noventa alunos de uma escola, onde 54 sejam meninos e 36 sejam meninas, vamos obter a amostra proporcional estratificada. São, portanto, dois estratos (sexo masculino e sexo feminino) e queremos uma amostra de 10% da população. Logo, temos: a) SEXO POPULAÇÃO 10% AMOSTRA M 54 10x54 = 5,4 100 5 F 36 10x36 =3,6 100 4 Total 90 10x90= 9,0 100 9 b) Numeramos os alunos de 01 a 90, sendo que de 01 a 54 correspondem meninos e de 55 a 90, meninas. Tomando na tabela de números aleatórios a primeira e a segunda coluna da esquerda, de cima para baixo, obtemos os seguintes números: 57 28 92 90 80 22 56 79 53 18 53 03 27 05 40 Temos, então: 28 22 53 18 03 – para os meninos; 57 90 80 56 – para as meninas. Exemplo 2 Dividir o curso de Agronomia por sexo, cada sexo seria um estrato, e a partir desses estratos (masculino e feminino), extrai-se a amostra. Exemplo 3 Para obtermos uma amostra de pessoas de Varginha, dividimos por bairro (estrato) e a partir daí extrai-se amostras para a pesquisa. 47 Unidade I Estatística Relembrar para guardar Dessa unidade é muito importante que você: Saiba definir estatística. Seja capaz de distinguir população de amostra. Conheça as diferenças entre estatística descritiva e estatística inferencial. Conheça as técnicas de amostragem. 48 Unidade I Estatística Compreender as primeiras noções de distribuição de Frequência. Apresentar as diferentes formas de representação de gráficos, tabelas e dados estatísticos. Construir uma distribuição de frequência, informando limites, ponto médio e frequências de cada classe. Construir gráficos a partir de dados estatísticos, sabendo ler e diferenciar seus tipos e aplicações. Distribuição de frequência. Representação gráfica das variáveis. II Unidade II – Distribuição de Frequência e Representação Gráfica de Variáveis Objetivos da Unidade Plano de Estudos 49 Estatística 4. Introdução Já sabemos que são muitas as maneiras de obtermos dados para uma pesquisa e que em alguns casos não é possível investigarmos a população toda durante essa pesquisa, sendo assim, fazemos uso de amostras que representam a população em questão. Mas, e depois de coletados os dados? O que fazer com eles? Isso é o que vamos discutir nessa unidade de estudos: como organizar e descrever um conjunto de dados de tal forma que eles sejam facilmente entendidos e descrevam tendências e variações. Nesse momento iniciamos o estudo da distribuição de frequência e da representação gráfica das variáveis observadas na pesquisa. Quando organizamos os dados, algumas características importantes devem ser consideradas, entre elas: o centro (medidas de centralidade), a variabilidade (medidas de dispersão) e a forma. Esses pontos serão tratados na unidade 3 desse guia de estudos. Interessa-nos, nesse momento, compreender a organização dos dados. Quando o conjunto de dados observado possui muitos valores fica complicado percebermos padrões para traçarmos algumas conclusões ou considerações. Dessa forma, recorremos ao agrupamento dos dados na forma de intervalos que são chamados de classes e que formam a distribuição de frequência. Distribuição de frequência (LARSON e FARBER, p. 37, 2015): é uma tabela que mostra classes e intervalos dos valores com a contagem do número de ocorrências em cada classe ou intervalo. A frequência f de uma classe é o número de ocorrências de dados da classe. 50 Estatística Antes de descrevermos as formas de apresentação para distribuição de frequência, precisamos conhecer os tipos de variáveis que estarão envolvidas. 4.1 Classificação de dados e variáveis aleatórias Ocorre frequentemente, em probabilidade, que os eventos nos quais estamos interessados envolvem a contagem ou a medida de algo, como, por exemplo, o número de vezes em que aparece “cara” quando estamos jogando uma moeda, ou o número que aparece quando jogamos um par de dados. Nesses casos, é mais simples falar de variáveis aleatórias do que de espaços de probabilidades e eventos. Se X é o número de caras que aparece quando jogamos uma moeda três vezes, então X é uma variável aleatória. Um evento aleatório é algo que não sabemos ao certo se ocorrerá, mas cuja probabilidade de ocorrência podemos calcular. De acordo com Natário (2006) a forma de analisar os dados depende, em primeira instância, da sua natureza. Para determinarmos qual o procedimento estatístico vamos utilizar em uma pesquisa é necessário, antes, saber que tipo de dado está envolvido. Por sua vez, os dados surgem naturalmente das variáveis. Dessa forma, ao classificarmos as variáveis estamos também classificando os dados envolvidos na pesquisa. Não se preocupe com o assunto de probabilidades nesse momento. Ele será abordado posteriormente. Interessa-nos agora apenas o conceito e classificação das variáveis. 51 Estatística Os dados se classificam em dois grupos, de acordo com a sua escala de medição: qualitativo e quantitativo. Abaixo o esquema que representam essa classificação: Os dados nominais não são na verdade dados numéricos, mas apenas etiquetas ou valores atribuídos que designam uma classe, não havendo uma relação de ordem entre as classes. Provém de variáveis nominais que envolvem categorias. Dados qualitativos: são atributos, rótulos, entradas não numéricas. Exemplo: estado civil, sexo, nível de ensino etc.. Esses dados não permitem realização de cálculos matemáticos. Podem ser nominais ou ordinais. Dados quantitativos: são medidas numéricas possíveis de serem contatadas. Exemplos: idade, peso, velocidade, quantidade de pessoas etc.. Podem ser discretos ou contínuos. Dados Qualitativos Nominal Ordinal Quantitativos Discreto Contínuo 52 Estatística Quando aplicadas (variáveis nominais) a uma população ou amostra, é possível atribuir cada item a uma classe. Por exemplo: 15 graduadosem matemática, 20 graduados em computação, 10 graduados em administração e 8 graduados em economia. Resumindo, os dados nominais surgem quando se definem categorias e se conta o número de observações pertencentes a cada categoria. Observações: 1) Em algumas situações podemos atribuir valores numéricos às várias qualidades (ou atributos) de uma variável qualitativa, desde que o procedimento seja passível de interpretação. Por exemplo: quanto a variável sexo: Masculino – 1, Feminino – 0. 2) Existe um tipo de variável quantitativa para a qual essa quantificação é muito útil: a chamada variável dicotômica. Para tal, só podem resultados (fracasso ou sucesso). Ex: estado civil (casado, solteiro). Os dados ordinais referem-se a dados do tipo dos nominais, com a diferença que para estes se estabelece uma relação de ordem entre as classes. Provém de variáveis que se referem tipicamente a avaliações subjetivas, quando se dispõem os itens segundo preferência ou desempenho. Dados Nominais A situação em que os dados se referem à cor dos olhos de um conjunto de indivíduos (preto, castanho, azul, verde, cinzento); sexo (masculino ou feminino); campo de estudo (matemática, administração, computação, economia), etc. 53 Estatística Os dados quantitativos são aqueles em que a sua característica de interesse é intrinsecamente numérica. Dividem-se em dados com escala intervalar ou com escala absoluta, residindo a distinção no fato de estes últimos terem a si associado uma origem definida. Para decidir se determinado tipo de dados está em qual das escalas pergunte a si próprio se o dobro do valor do que está estudando corresponde ao dobro de intensidade. Por exemplo, 20º C é duas vezes mais quente que 10º C? A resposta é não e, por isso, dados deste tipo são de escala intervalar. Agora um campo com 4 hectares é o dobro de outro com 2 hectares? Sim, por isso temos dados de escala absoluta. Notamos que as técnicas estatísticas não fazem distinção entre estes dois tipos de dados. Os dados discretos referem-se a valores formados por um conjunto finito ou enumerável (contagem) com determinada característica. Entenda aqui números inteiros. Dados Ordinais As classificações de cada aluno num determinado teste dadas por ”Ótimo”, ”Muito Bom”, ”Suficiente” e “Ruim”; classe social (alta, média, baixa); grau de instrução (fundamental, médio, superior), nos concursos de culinária, de beleza, de flores e de cães, os elementos se classificam como primeiro, segundo, terceiro etc.. Dados discretos: A organização dos alunos por idade, número de filhos das famílias de uma determinada cidade; número de candidatos inscritos no processo seletivo para uma vaga de emprego; número de livros em uma biblioteca; o número diário de clientes de uma agência dos correios; o número de defeitos num carro novo; o número de acidentes em uma fábrica etc. 54 Estatística Os dados contínuos referem-se a valores que pertencem a um intervalo de números reais e que resultam de uma mensuração. Podem assumir qualquer valor num intervalo de valores. Entenda aqui números decimais. Ao descrever um experimento não especificamos que um resultado individual necessariamente seja um número. De fato, em vários casos os resultados do experimento não são quantidades numéricas. Contudo, em muitas situações experimentais, estaremos interessados na mensuração de alguma coisa e no seu registro como um número. Mesmo nos exemplos mencionados acima, podemos atribuir um número a cada resultado (não numérico) do experimento. Por exemplo, poderemos atribuir o valor um às peças perfeitas e o valor zero às defeituosas. Poderemos registrar a temperatura máxima do dia, ou a temperatura mínima, ou a média das temperaturas máxima e mínima. Por exemplo, ao descrever uma peça produzida em uma linha de produção podemos empregar apenas as categorias “defeituosas” e “não defeituosas”. Também, ao observar a temperatura durante o período de 24 horas, podemos simplesmente registrar a curva traçada pelo termógrafo. Dados contínuos: A estatura dos alunos de uma classe; o peso de um grupo de atletas; a distância entre as principais capitais do país; a quantidade de café vendida por dia (variável: peso); a quantidade de gasolina vendida por hora (variável: volume); o tempo de duração de uma dada reação química etc.. 55 Estatística Vamos então formular uma definição provisória para variável aleatória, que mais tarde, quando estudarmos probabilidade, voltaremos a formular considerando novos conceitos. Exemplo de aplicação: A mesma população pode originar diferentes tipos de dados: Populações Contínuo Discreto Nominal Ordinal Alunos do 2º Grau idades, pesos nº da classe Feminino/masculino 2º Grau Automóveis km/h nº de defeitos por carro cores limpeza Venda de Imóveis valor R$ Nº de ofertas acima do preço dispêndio alto Chegou a hora de treinarmos um pouco. Vamos ver se entenderam o conteúdo. 1) Classifique as seguintes variáveis: a) Número de unidades exportadas de determinado produto. b) Tempo para realizar uma tarefa. c) Altura de um grupo de pessoas. d) Número de clientes de um estabelecimento. 2) Qual processo estatístico de abordagem você utilizaria em sua cidade para medir a satisfação dos clientes de sua empresa (censo ou amostra)? Explique. Variável aleatória é uma variável tal que não sabemos ao certo que valor tomará, mas para a qual podemos calcular a probabilidade de tomar determinado valor. 56 Estatística 4.2 Distribuição de Frequência A distribuição de frequência é um caso particular, de uma série específica, em que a variável é sempre quantitativa e de nomenclaturas próprias. Temos duas formas de apresentação para a distribuição de frequência: 1º Caso: com dados isolados ou discretos Distribuição de idades dos alunos Escola ABC - Varginha/2016 em uma tabela de frequência. i xi (Idade) fi (quantidade) 1 2 3 4 5 6 8 9 10 11 12 13 14 18 12 14 13 13 84 A tabela seguinte representa a “Idade da Escola ABC - Varginha/2016” Relação das idades dos 84 alunos da Escola ABC 8 8 9 10 11 12 13 8 8 9 10 11 12 13 8 9 9 10 11 12 13 8 9 9 10 11 12 13 8 9 9 10 11 12 13 8 9 9 10 11 12 13 8 9 9 10 11 12 13 8 9 9 10 11 12 13 8 9 10 11 11 12 13 8 9 10 11 11 12 13 8 9 10 11 12 12 13 8 9 10 11 12 13 13 57 Estatística 2º Caso: Com dados agrupados em classes. Distribuição de notas de estatística - Colégio LX - RS – 2016 i Classe fi quantidade 1 2 3 4 5 6 0 |– 2 2 |– 4 4 |– 6 6 |– 8 8 |– 10 10 |–| 12 02 05 06 10 07 02 32 1. Qual o “SOMATÓRIO” de alunos da distribuição? Resp.: f1 = 84 = total 2. Qual a quantidade de alunos com 8 anos? Resp.: Equivalência i = 1 f1 = 14 alunos 3. Qual a idade mais frequente? Resp.: A maior quantidade é 18. Essa quantidade equivale a x2. x2 = 9 anos Significado dos símbolos utilizados: i = sequência da distribuição (equivalência). xi = são os valores que repetem. fi= quantidade de vezes que os valores aparecem. = resultado da soma dos valores de i. Classes de frequências são intervalos de variação da variável. As classes são representadas simbolicamente por “i”, sendo i = 1, 2, 3,..., k, onde k é o número total de classes. Para cada classe, temos: Limite Inferior |– Limite Superior Denomina-se limites de classe os extremos de cada classe. LIi: limite inferior da classe i LSi: limite superior da classe i 58 Estatística LEITURAI - Primeira Classe => 0 |– 2 5 - Quinta Classe => 8 |– 10 Limites: Ex.: LI2 |– LS2 => 2 I– 4 Observações: 1. Na leitura do intervalo, preste atenção ao seguinte: o valor “0” é incluído, mas o valor “2” não é incluído nesse intervalo. Ex.: inclusive 0 |– 2 exclusive Agora, atente que na última classe os dois limites são inclusive. Ex.: inclusive 10 |–| 12 inclusive 2. Intervalo e Amplitude de classe (h): Intervalo de Classe é qualquer subdivisão de uma série estatística. O intervalo de classe que tem a maior frequência é denominado de intervalo de classe modal (que veremos posteriormente). Amplitude de um intervalo de classe é a medida do intervalo que define a classe. No ex: LS1 – LI1 ou LS2 – LI2 ou LS3 – LI3 0 |– 2 ; 2 |– 4 ; 4 |– 6 h = 2 – 0 = 4 – 2 = 6 – 4 = 2 h = 2 É melhor quando todas as classes têm a mesma amplitude. Normalmente, usamos o valor mínimo para o limite inferior da 1ª classe. Às vezes, será mais conveniente escolher um valor um pouco menor que o mínimo. 3. Amplitude total da distribuição (AT) É a diferença entre o limite superior da última classe (limite superior máximo) e o limite inferior da primeira classe (limite inferior mínimo). AT = Lk – li 1 No exemplo: AT = 12 – 0 = 12 59 Estatística 4. N0 de Classes = k Em uma distribuição de frequência uma das primeiras preocupações está relacionada ao número de classes e consequentemente aos limites dos intervalos de cada classe. Não existe uma regra fixa para determinar o número de classes exato em uma distribuição, mas muito comumente é utilizado a regra de Sturges, permitindo determinar o número de classes em função do número de valores da variável, de acordo com a equação abaixo: K = 1 + 3,322 . log n • K = é o número de classes; • n = Numero total de dados; No exemplo de nossa tabela de “Distribuição de Notas de Estatística” teríamos, segundo a regra de Sturges: K = 1 + 3,322 . log n, para n = 32 K = 1 + 3,322 x log 32 K = 1 + 3,322 x 1,51 K = 1 + 5,02 = 6,02 = 6 Seguindo a regra teríamos 6 classes k = 6, confirmando então a distribuição e o intervalo adotados para a tabela anterior. O número de classes situa-se usualmente entre 5 e 20, permitindo assim que seja estabelecido um padrão para os estudos dos dados. 5. Total de Notas = f1 No ex: f1 = 32 60 Estatística 4.2.1 Elaboração de uma distribuição de frequência A seguir um exemplo de distribuição de frequências. Dados coletados na secretaria da Escola XX. Renda Familiar em R$ 500,00 1.300,00 1.250,00 800,00 800,00 1.500,00 2.500,00 600,00 750,00 750,00 2.300,00 750,00 500,00 600,00 400,00 900,00 350,00 900,00 750,00 800,00 1º passo) Colocar os dados em ordem crescente: 350 600 800 1250 400 750 800 1300 500 750 800 1500 500 750 900 2300 600 750 900 2500 2º passo) Calcular o número de classes: k = 1 + 3,322 x log n, para n = 20 k = 1 + 3,322 x 1,3 = 1 + 4,3 = 5,3 k = 5 (arredondamento para um número inteiro) 3º passo) Calcular h (intervalo de classe): h = AT / K 21503502500A 2500 350 T if f i LL L L h = 2150 / 5 = 430 i Classe fi fr fi% fi acum xi (Ponto Médio) 1 2 3 4 5 350 |– 780 780 |– 1210 1210 |– 1640 1640 |– 2070 2070 |–| 2500 10 05 03 00 02 10/20=0,5 5/20=0,25 3/20=0,15 0/20=0 2/20=0,1 50 25 15 0 10 10 15 18 18 20 (350+780)/2= 565 995 1425 1855 2285 20 1,0 100 61 Estatística Onde: Coluna Descrição Como identificar? f1 Frequência absoluta simples (quantidade) Contar o número de elementos da distribuição com essa característica. fri Frequência Absoluta Relativa (proporção / coeficiente). É a proporção de dados que está nessa classe. Dividir o valor de fi da classe pelo somatório da distribuição. fri = f1% Frequência Absoluta Percentual (porcentagem / taxa percentual) Mesmo valor obtido em fri, aogra multiplicado por 100. fi% = fri x 100 ou fi% = x 100 fac Frequência Acumulada. É a soma das frequências dessa classe com todas as anteriores. A frequência acumulada da última classe é igual ao tamanho n da amostra. São os subtotais da fi. Ir somando, classe por classe, os valores de fi das classes anteriores. Temos fac de baixo para cima e de cima para baixo. xi Ponto Médio de Classe É o somatório do limite inferior da classe com o limite superior da classe, dividido por dois. 𝑥𝑖 = 𝐿𝐼𝑖 + 𝐿𝑆𝑖 2 62 Estatística 5. Representação Gráfica das Variáveis Quantitativas De acordo com Crespo (2005, p 215): O gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir, no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápido à compreensão que as séries. Portanto, os gráficos estatísticos podem ser representados tanto por tabelas, quadros de distribuição ou por frequência, como por gráficos, sendo que estes permitem uma visualização mais rápida do fenômeno estudado. Crespo (2005), ainda, informa que para tornarmos possível uma representação gráfica, devemos estabelecer uma correspondência entre os termos da série (tabela de dados) e determinada figura geométrica (gráficos), de tal modo que cada elemento da série seja representado por uma figura proporcional. Agora, é importante que você saiba que a representação gráfica de um fenômeno deve obedecer a certos requisitos que visam a sua utilidade, veja o quadro a seguir: 1. Simplicidade: O gráfico deve ser destituído de detalhes de importância secundária, assim como de traços desnecessários que possam levar o observador a uma análise morosa ou com erros. 2. Clareza: O gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em estudo. 3. Veracidade: O gráfico deve expressar a verdade sobre o fenômeno em estudo. 63 Estatística 5.1 Gráficos de Distribuição de Frequência Quando organizamos os dados e queremos partir para uma análise dos mesmos, podemos utilizar a construção de gráficos. Podemos utilizar o gráfico de barras (horizontais e verticais) e o gráfico de pizza, que são os que mais são usados na descrição de dados. Eles mostram as frequências de cada nível (ou categoria) da variável que se deseja descrever. Os softwares estatísticos têm comandos específicos para a construção desses tipos de gráficos. A tabela de dados é uma forma de observamos os dados da pesquisa. Partimos de uma tabela de dados para a construção de gráficos que será outra maneira de observarmos e analisarmos os dados de uma pesquisa. Vamos construir os gráficos de colunas, barras e pizza para os dados da tabela. Vendas da empresa X: janeiro/agosto 2016(em R$) Mês Quantidade vendida Janeiro 87000 Fevereiro 65000 Março 78000 Abril 86000 Maio 92000 Junho 90000 Julho 96000 Agosto 97500 64 Estatística Esse processo é para a montagem no manual (à mão). No entanto, podem-se fazer os gráficos usando-se, por exemplo, uma planilha eletrônica com o programa Microsoft Excel. Para a construção do gráfico de colunas horizontais, utiliza-se o eixo das ordenadas (y) para o período de vendas e o eixo das abscissas(x) para os valores das vendas. Vejamos agora como ficam os gráficos de colunas, barras e setores
Compartilhar