Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 ESTATÍSTICA MÓDULO 1 0,0% 0,7% 0,0% 2,8% 11,7% 11,0% 35,2% 15,9% 11,0% 6,9% 4,8% 0% 5% 10% 15% 20% 25% 30% 35% 40% Nã o r es po nd eu 0,0 a 1 ,0 1,1 a 2 ,0 2,1 a 3 ,0 3,1 a 4 ,0 4,1 a 5 ,0 5,1 a 6 ,0 6,1 a 7 ,0 7,1 a 8 ,0 8,1 a 9 ,0 9,1 a 1 0 y = 0,25x - 3,69 R² = 0,38 0 2 4 6 8 10 12 14 15 20 25 30 35 40 0,0 2,0 4,0 6,0 8,0 10,0 12,0 2010T4 2011T1 2011T2 2011T3 2011T4 6,0 5,3 3,4 0,3 2,2 5,3 4,2 3,3 2,1 1,4 10,3 5,3 4,3 2,9 2,7 7,5 4,2 3,8 3,2 2,7 PROFESSOR: Reinaldo Carvalho de Morais 2 Programa da Disciplina....................................................................................................................................................................4 Ementa.....................................................................................................................................................................................................4 Carga Horária.......................................................................................................................................................................................4 Objetivos.................................................................................................................................................................................................4 Currículo resumido do professor.................................................................................................................................................4 Metodologia...........................................................................................................................................................................................4 Bibliografia Recomendada..............................................................................................................................................................5 Capítulo 1 Introdução a Estatística.............................................................................................................................................6 1.1 O que é Estatística?........................................................................................................................................................6 1.2 Importância da Estatística como instrumento...................................................................................................7 1.3 Aplicações da estatística em áreas do conhecimento.....................................................................................8 1.4 Divisão de conteúdos......................................................................................................... ........................................11 Capítulo 2 Análise Exploratória de Dados: Gráficos e Tabelas e Frequência.........................................................13 2.1 Algumas definições.......................................................................................................................................................16 2.1.1 População x Amostra.................................................................................................... ................................16 2.1.2 Tipos de variáveis........................................................................................................ ..................................16 2.2 Apresentação dos dados............................................................................................................................................18 2.2.1 Gráfico de setores (gráfico de pizza).....................................................................................................18 2.2.2 Gráfico de colunas (gráfico de barras)..................................................................................................19 2.2.3 Gráfico de linhas...................................................................................................... .......................................21 2.3 Distribuição de frequência............................................................................................... .........................................23 SUMÁRIO 3 Capítulo 3 Análise Exploratória de Dados: Medidas de Tendência Central e Dispersão..................................30 3.1 Medidas de Tendência Central................................................................................................................................31 3.1.1 Média Aritmética Simples..........................................................................................................................31 3.1.2 Moda....................................................................................................................................................................33 3.1.3 Mediana..............................................................................................................................................................34 3.1.4 Média Geométrica..........................................................................................................................................37 3.1.5 Média Aritmética Ponderada....................................................................................................................40 3.1.6 Assimetria............................................................................................................. ............................................41 3.2 Medidas de Dispersão.................................................................................................................................................43 3.2.1 Amplitude..........................................................................................................................................................43 3.2.2 Desvio Médio Absoluto (DMA).................................................................................................................45 3.2.3 Variância e Desvio Padrão.........................................................................................................................46 3.2.4 Coeficiente de Variação de Pearson.......................................................................................................50 3.3 Quartis e percentis........................................................................................................................... .............................52 Capítulo 4 Análise de dados com duas variáveis: Tabulação cruzada, Regressão e Correlação....................57 4.1 Distribuição de duas variáveis categórica..........................................................................................................57 4.2 Descrevendo duas variáveis quantitativas........................................................................................................66 4.2.1 Diagrama de dispersão................................................................................................................................66 4.2.2 Correlação.........................................................................................................................................................69 4.2.3 Análise de Regressão................................................................................................... .................................74 4.3 Variável categórica x Variáveis quantitativa.....................................................................................................834.3.1 Comparando distribuições através do histograma tridimensional.........................................83 4.3.2 Comparando distribuições através do gráfico de caixas (boxplot)..........................................84 4.3.3 Correlação por grupo...................................................................................................................................86 Respostas dos exercícios..............................................................................................................................................................87 Anexos..................................................................................................................................... ..............................................................96 Referências.................................................................................................................................................................................... ...100 4 Séries estatísticas. Medidas de posição, dispersão e assimetria. Correlação e análise de regressão. Introdução à probabilidade. Distribuições mais utilizadas. Inferência e testes de hipóteses. 60 horas/aula Apresentar os fundamentos estatísticos básicos necessários à formação do Gestor Público. Habilitar o aluno a compreender a metodologia estatística empregada em trabalhos técnicos e científicos, visando a sua aplicabilidade na resolução de problemas práticos nas áreas de gestão. Aplicar corretamente as funções estatísticas na estimação e inferência, auxiliando no processo de tomada de decisão. Aulas expositivas com apoio de Datashow. Exercícios em sala de aula. Atividades complementares: exercícios fora de sala. Atividades no laboratório de informática. Reinaldo Carvalho de Morais é mestre em Administração Pública pela Fundação João Pinheiro. Bacharel em Administração Pública pela mesma instituição. Graduado em Estatística pela Universidade Federal de Minas Gerais. Especialista em Gestão Financeira pela Faculdade Pitágoras. Sua experiência inclui participação em pesquisas sobre a economia mineira e finanças públicas mineiras, bem como docência nas disciplinas de estatística, economia, engenharia econômica, matemática financeira e administração da produção. PROGRAMA DA DISCIPLINA EMENTA CARGA HORÁRIA OBJETIVOS METODOLOGIA Currículo Resumido do Professor 5 COOPER, Donald R., and SCHINDLER, Pamela S. Métodos de Pesquisa em Administração. 10ª Edição. Bookman, 2011. DEVORE, Jay L. Probabilidade e Estatística para Engenharia e Ciências, 2006. DOANE, David P, SEWARD, Lori E.. Estatística Aplicada à Administração e à Economia. ArtMed, 2014. FREUND, John E. e SIMON, Gary A. Estatística Aplicada - Economia, Administração e Contabilidade. 9 Ed. Porto Alegre: Bookman, 2007. GRIFFITHS, Dawn. Use a cabeça! Estatística. Rio de Janeiro: Altabooks, 2009. KAZMIER, Leonard J. Estatística Aplicada à Administração e Economia. Bookman, 2007. LEVINE, D. M.; BERENSON, M. L.; STEPHAN, D. Estatística: teoria e aplicações - usando o Microsoft Excel em português. 6ª Edição. LTC, 2011, 812 p. MAGALHÃES, Marcos Nascimento, LIMA, Antônio Carlos Pedroso de. Noções de Probabilidade e Estatística. 6º. Edusp, 2007. McCLAVE, James T. BENSON, Estatística Aplicada - Economia, Administração e Contabilidade. 10ª Edição. São Paulo: Person Prentice Hall, 2009. MOORE, David S. A estatística básica e sua prática. Rio de Janeiro. LTC, 2014. MOORE, David. S, McCABE, George P., DUCKWORTH, William M., SCLOVE, Stanley L. A Prática da Estatística Empresarial. Como Usar Dados para Tomar Decisões. Rio de Janeiro: LTC, 2006. SHARP. Norean R., DE VEAUX. Richard. D., VELLEMAN. Paul F. Estatística Aplicada - Administração, Economia e Negócios. Porto Alegre: Bookman, 2011. STEVENSON, William J. Estatística Aplicada à Administração. Edição 2001. São Paulo.: Harbra, 1981. TRIOLA, Mário F. Introdução à Estatística. LTC. 10a edição 2008. 722p. WALPOLE, Ronald. E. Probabilidade e estatística para engenharia e ciências. São Paulo: Pears BIBLIOGRAFIA RECOMENDADA 6 Uma das principais virtudes de um bom profissional passa pela capacidade de tomar boas decisões de acordo com o contexto. 1 Dentre as várias formas de se tomar decisões, o profissional pode se valer de fatos e dados. O uso de planilhas eletrônicas e a exploração do máximo possível de informações vêm aumentando no decorrer dos anos nas organizações. Por exemplo: quando um banco necessita tomar a decisão sobre conceder ou não um empréstimo para determinado cliente, podem ser avaliados diversos dados desse cliente, como por exemplo: o tempo de conta, a idade, o estado civil, a profissão, a renda, etc. Dessa forma torna-se possível avaliar o risco desse cliente quitar a dívida proposta, tendo por base as informações acerca do perfil do candidato ao empréstimo. Dentro do contexto de tomada de decisões, as técnicas estatísticas emergem como ferramenta extremamente útil para profissionais de diversas áreas. Com a notável evolução da informática, tais técnicas têm sido cada vez mais utilizadas nas empresas e órgãos públicos para auxiliar os gestores a racionalizar o uso de informações em benefício do processo de tomada de decisões. Esses avanços têm contribuído de forma significativa para aumentar tanto a quantidade quanto a qualidade dos dados disponíveis. A estatística pode ser definida como: a ciência de coletar, organizar e interpretar dados. Diariamente somos bombardeados com diversos dados. Pela mídia, recebemos informações sobre: Índice de popularidade do presidente da república. Temperatura média para determinado dia. Venda de veículos no mês passado. Previsão para a inflação. Número de veículos comercializados num determinado mês, dentre outros. Outra definição de estatística: “Estatística se refere ao conjunto de técnicas usadas na coleção, organização e interpretação de dados. Estes podem ser quantitativos, com valores expressos numericamente, ou qualitativos, representados por características tais quais as preferências dos consumidores obtidas em uma pesquisa.” 1 A habilidade de tomar boas decisões pode ser desenvolvida de várias formas, como por exemplo, pela prática do dia- a-dia das empresas. O conhecimento teórico adquirido frequentando a faculdade e lendo artigos e revistas científicas também são formas de obtenção de conhecimentos. O processo de formação profissional passa pelas diversas possibilidades de aprendizado. Recomenda-se que sejam aproveitadas todas as oportunidades de aprender com as várias situações que a vida proporciona, tanto do ponto de vista pessoal, quanto profissional. CAPÍTULO 1 INTRODUÇÃO À ESTATÍSTICA 1.1 O que é Estatística? 7 A análise estatística é utilizada para auxiliar na tomada de decisões mediante a compreensão das fontes de variação e a identificação de padrões e relacionamentos nos dados. Wapole (2009) define estatística como “... a ciência de coletar, analisar, interpretar e retirar conclusões a partir de dados”. Nos debates públicos sobre economia, educação e políticas sociais, todas as partes envolvidas utilizam dados em seus argumentos. Você vai ao médico e com base no que é relatado são solicitados determinados exames. Com base nos dados dos exames, determinado tratamento é indicado. Você vai ao mecânico e relata certo ruído. Com base nisso são testados determinados equipamentos. Portanto, o uso de informações aumenta a chance de tomar decisões mais eficientes.Em síntese, pode-se afirmar que a estatística tem como objetivo a tomada de decisões através dos dados (figura 1). Figura 1- Objetivo da estatística A Estatística surge como um rico instrumento para auxiliar o tomador de decisões através de critérios objetivos. Especificamente utilizando números e raciocínio lógico. Ou seja: não cabem “achismos”. O dia a dia das organizações envolve a constante tomada de decisões, que podem se dar por critérios objetivos (conhecimento teórico ou tácito) ou subjetivos. O objetivo da estatística é obter compreensão a partir dos dados. Para conseguirmos isso, frequentemente trabalhamos com um conjunto de números. Os dados não são somente números sem significado. São números dentro de um contexto. Por exemplo: Você ouve dizer que a taxa de desemprego na região metropolitana de Belo Horizonte foi de 10% no mês passado. E daí? Esse número é grande? Depende da base de comparação, que pode ser geográfica ou temporal. Pode ser que historicamente seja um valor alto, mas na comparação com outras regiões metropolitanas seja um número favorável. Empresas, governo e indivíduos tomam decisões com base em determinados indicadores. Exemplos: taxa de desemprego, taxa de juros do cartão de crédito, taxa de inflação. Quando você resolver problemas estatísticos pense no contexto do problema e formule as conclusões obtidas na situação específica. Lembre-se de que o objetivo da estatística não é o cálculo em si, mas o ganho de compreensão a partir dos dados. A utilização de dados estatísticos pode auxiliar um analista a responder determinadas perguntas de pesquisa, como por exemplo: 1.2 Importância da Estatística como instrumento 8 Fumar causa câncer de pulmão? Qual o efeito da publicidade nas vendas? Qual a relação entre a localização da prateleira e a venda de cerveja no supermercado? Qual o perfil dos prefeitos dos municípios do sul de Minas Gerais? Conforme argumenta SHARPE (2011): 2 Nossa habilidade em responder perguntas como essas e tirar conclusões dos dados dependem, em grande parte, da nossa habilidade de entender a variação. A chave para aprender a partir dos dados é entender a variação que está à nossa volta. Os dados variam, as pessoas são diferentes. O mesmo acontece com as condições econômicas mês a mês. Não podemos ver tudo nem mensurar tudo. Mesmo o que mensuramos, o fazemos de maneira imperfeita. Assim, os dados que acabamos analisando e nos quais baseamos nossas decisões fornecem, na melhor das hipóteses, um quadro imperfeito do mundo. A variação é o ponto principal da estatística, e entende-la é o grande desafio da disciplina. Por quê estudar estatística? Conhecer estatística ajudará você a: Interpretar melhor os dados disponíveis. Planejar a produção de dados para a tomada de decisões. Diminuir a chance de ser enganado com dados distorcidos e argumentos pouco fundamentados. Contribuir para melhorar a gestão da organização na qual você trabalha. Individualmente, o profissional que sabe analisar dados estatísticos pode ser visto como diferenciado. Uma das principais características da estatística consiste no seu papel de “ciência da variação” (ou variabilidade). Como existe variabilidade em todos os campos do conhecimento, a estatística vem sendo utilizada nas mais diversas áreas. ESTATÍSTICA NA EDUCAÇÃO FÍSICA O que determina o desempenho dos atletas em determinada prática esportiva? Certamente várias são as teorias desenvolvidas por pesquisadores acerca do assunto. Para otimizar a decisão em relação à aceitação ou rejeição de hipóteses sobre o assunto vários modelos e testes estatísticos podem ser desenvolvidos. Como exemplo, suponha que um pesquisador esteja interessado em determinar qual a melhor combinação de exercícios físicos que determinado atleta deve fazer para maximizar seu desempenho numa determinada modalidade. 2 SHARPE, Norean, De VEAUX, Richard D., and VELLEMAN, Paul F.. Estatística Aplicada: Administração, Economia e Negócios. Bookman, 2011. 1.3 Aplicações da estatística em áreas do conhecimento 9 Pode-se elaborar um modelo que relacione o desempenho (Y) com outras variáveis (X1, X2, ... , X8): Matematicamente, pode-se afirmar que, o desempenho de um corredor de longa distância, por exemplo seja função das variáveis listadas abaixo: 𝒀 = 𝒇(𝑿𝟏, 𝑿𝟐 , 𝑿𝟑 , 𝑿𝟒 , 𝑿𝟓 , 𝑿𝟔, 𝑿𝟕, 𝑿𝟖) Onde: Y = Desempenho (em quilômetros por hora, por exemplo) X1 - Ingestão diária de carboidratos X2 - Número de horas de sono diárias X3 - Tempo de experiência na prática do referido esporte X4 - Idade em que o atleta iniciou as atividades X5 - Concentração de colesterol no sangue X6 - Tipo sanguíneo X7 - Prática ou não de outras atividades X8 - Fumante ou não Figura 2- Determinantes do desempenho de atletas de corrida Dessa forma, ao elaborar uma equação relacionando as variáveis propostas é possível identificar qual (quais) fator (fatores) exercem maior influência no desempenho do atleta. ESTATÍSTICA NA MEDICINA A Estatística aplica-se à área médica em qualquer situação que envolva o planejamento, coleta e análise de dados. Problemas como testar a eficácia de determinado medicamento em relação a uma doença, bem como a criação de índices que classifiquem as doenças pelo nível de gravidade são alguns 10 exemplos. Outro exemplo é a elaboração de políticas de prevenção e combate a doenças, baseada em dados sobre a população de interesse. Verificar se determinada variável patológica constitui uma endemia, uma epidemia, ou ainda uma pandemia. Planejamento de saúde pública para determinada área de abrangência. ESTATÍSTICA NA ECONOMIA Otimização de Carteiras de Investimentos: Para investir no mercado de capitais necessita-se da obtenção da melhor combinação de risco e retorno possível. As melhores estimativas para tais parâmetros são a chave para a construção de modelos mais realistas. O volume de dados disponíveis para a realização dessa análise é considerável. Entretanto depende da habilidade de extrair dos números as melhores informações para a tomada de decisões. Finanças governamentais: O governo necessita das melhores projeções possíveis em relação à arrecadação de impostos para saber quanto terá de recursos no próximo ano para realizar despesas com saúde, educação, segurança, gestão de pessoas, etc. Indicadores econômicos: Prever com certa precisão o Índice de Inflação, por exemplo, pode ser de fundamental importância para uma determinada empresa que deseja se expandir. A compra de máquinas através de financiamento deve considerar a taxa de juros cobrada, assim como a expectativa inflacionária. ESTATÍSTICA NA GESTÃO Métodos de Previsão: A compra de determinados insumos utilizados na fabricação de produtos exige um planejamento eficiente. Adquirir quantidades menores que o necessário pode resultar em falta de produtos. Por outro lado, comprar muito acima do necessário pode deixar o capital da empresa ocioso. Assim, uma boa solução para o problema é utilizar métodos de previsão com base em variáveis que estejam relacionadas à venda do produto. Controle de estoque: A empresa deve manter um nível de estoque capaz de atender suas demandas. Se faltar insumos, pode prejudicar o processo de produção. O acúmulo de estoques envolve custos. Amostragem: Quantas peças devem ser inspecionadas para sabermos o índice de defeitos? Ou quantos eleitores devem ser entrevistados para numa determinada pesquisa de intenção de votos numa eleição? Planejamento de experimentos industriais: Quala melhor temperatura para retirar determinada peça do forno? 11 Para efeitos didáticos a Estatística básica pode ser dividida em 3 blocos: [1] Estatística descritiva (ou análise exploratória de dados).3 [2] Probabilidade. Tem como objetivo a estimativa do grau de incerteza na ocorrência de um evento, ou seja, na chance de que determinado evento ocorra. 4 [3] Inferência. Nessa etapa utilizam-se dados de amostras para extrair conclusões acerca da população de interesse.5 As primeiras aplicações da estatística estavam voltadas para as necessidades de Estado, na formulação de políticas públicas, fornecendo dados demográficos e econômicos à administração pública. A abrangência da estatística aumentou no começo do século XIX para incluir a acumulação e análise de dados de maneira geral. Hoje, a estatística é largamente aplicada nas ciências naturais, e sociais, inclusive na administração pública e privada. Seus fundamentos matemáticos foram postos no século XVII com o desenvolvimento da teoria das probabilidades por Pascal e Fermat, que surgiu com o estudo dos jogos de azar. O método dos mínimos quadrados foi descrito pela primeira vez por Carl Friedrich Gauss cerca de 1794. O uso de computadores modernos tem permitido a computação de dados estatísticos em larga escala e também tornaram possível novos métodos antes impraticáveis. O termo estatística deriva do neolatimstatisticumcollegium ("conselho de Estado") e do Italiano statista ("estadista" ou "político"). O alemão Statistik, introduzido pelo primeira vez por GottfriedAchenwall (1749), designava originalmente a análise de dados sobre o Estado, significando a "ciência do Estado" (então chamada aritmética política (politicalarithmetic) em inglês). A palavra adquiriu o significado de coleta e classificação de dados em geral através de Sir John Sinclair. Assim, o propósito original da Statistik era fornecer os dados a serem usados pelo governo e outras organizações. A coleta de dados sobre estados e localidades continua, em grande parte através de órgãos estatísticos nacionais e internacionais. Em particular, os censos fornecem informação regular sobre as populações. Fonte: Wikipédia. 3Estatística descritiva consiste no uso de gráficos, tabelas e medidas resumo (principalmente média e desvio padrão) para a realização de uma síntese do que os dados indicam. 4Probabilidade pode ser definida como uma medida de incerteza. Sua importância no estudo da estatística passa pela medida do risco na tomada de decisões utilizando amostras. Isso significa que ao analisar dados que gerados através de processos amostrais pode-se controlar o grau de incerteza nas decisões. 5A Inferência se utiliza das propriedades probabilísticas para a construção de testes de hipóteses sobre determinado fenômeno. Por exemplo, suponha que o pesquisador acredite que as mulheres têm uma tendência maior a votar também em mulheres, em comparação aos homens. Após colher uma amostra, as técnicas de inferência estatística podem ser usadas para concluir se essa hipótese é verdadeira ou falsa, do ponto de vista estatístico. 1.4 Divisão do conteúdo HISTÓRIA DA ESTATÍSTICA 12 [1.1] Qual a melhor forma de aprender estatística? Cada estudante utiliza determinada estratégia para aprender algum conteúdo. De qualquer forma, seguem algumas dicas para que seu aprendizado na disciplina de ESTATÍSTICA seja mais efetivo: Trazer a apostila para a sala de aula. Evitar faltar de aula por motivo fútil. Perguntar (em público ou individualmente) quando não tiver entendido alguma explicação. Fazer o máximo possível de exercícios durante a aula e também fora do horário. Qualquer processo de aprendizagem passa pela repetição. Evitar o uso do celular na sala aula. Estudar em grupo. [1.2] Quais as principais habilidades de um bom analista de dados? Um bom analista de dados deve: Conhecer o máximo de planilhas eletrônicas (principalmente o Microsoft Excel). Transformar dados estatísticos em informações relevantes para a tomada de decisões. Conhecer a linguagem e simbologia básicas da estatística. Utilizar a criatividade para explorar dados. Ser cuidadoso na redação de relatórios técnicos. Não ser prolixo, ou seja, não colocar no relatório de pesquisa análises desnecessárias. Ser honesto no que se refere ao que os dados podem oferecer. DICAS E ESTRATÉGIA DE ESTUDOS 13 Para realizar uma pesquisa, uma das etapas consiste no levantamento dos dados. Dentre as forma de produção de dados, podemos utilizar um questionário. 6 Após o preenchimento do questionário, as informações podem ser tabuladas numa planilha. Como exemplo de pesquisa, os estudantes de uma determinada turma de estatística responderam às perguntas do questionário abaixo: 1 – Qual seu gênero? [ ] Feminino [ ] Masculino 2 – Qual sua data de nascimento? ____/____/19___ 3 – Em média, quantas horas você trabalha por semana? [ ] Não trabalho [ ] Até 20 horas [ ] De 21 a 30 horas [ ] De 31 a 40 horas [ ] Mais de 40 horas 4 – Qual sua altura?______ centímetros 5 – Qual seu peso?______ quilos 6 – Você nasceu numa capital? [ ] Sim [ ] Não Qual a cidade? _______________________ 7 – Você tem quantos(as) irmãos(ãs)? ______ 8 – Seu pai teve quantos(as) irmãos(as)?______ 9 – Sua mãe teve quantos (as) irmãos(as)? ______ 10 – Na maioria das vezes, como você se desloca para a faculdade? [ ] Ônibus [ ] A pé [ ] Carro [ ] Motocicleta [ ] Van [ ] Outro (Qual?________________) 11 – Qual seu estado civil? [ ] Solteiro [ ] Casado [ ] Separado [ ] Viúvo 12 – Você gosta de Matemática? [ ] Sim [ ] Não 13 – Você gosta de Novela? [ ] Sim [ ] Não 14 – Você gosta de Futebol? [ ] Sim [ ] Não 15 – Qual o seu grau de conhecimento em Excel? [ ] Alto [ ] Médio [ ] Baixo [ ] Nenhum 6 Em outro capítulo serão tratadas com maiores detalhes outras formas de produzir dados além do questionário. CAPÍTULO 2 ANÁLISE DE DADOS COM UMA VARIÁVEL: GRÁFICOS E TABELAS DE FREQUÊNCIA 14 Foi utilizada uma planilha em Excel para a tabulação dos dados. O quadro abaixo apresenta os dados de 40 estudantes que participaram da pesquisa: QUADRO 2.1: Banco de dados ALUNOS A maneira mais comum de armazenar dados estatísticos é através de linhas e colunas. Os dados acima foram tabulados numa planilha eletrônica. Cada linha representa um estudante que respondeu à pesquisa conforme o questionário mostrado. Em estatística, denominamos cada linha como indivíduo(ou sujeito). Cada coluna representa uma característica de cada indivíduo, denominada tecnicamente de variável. A imagem abaixo representa um “pedaço” do banco de dados ALUNOS em apenas 10 linhas. V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 GÊNERO IDADE JORNADA ALTURA PESO CAPITAL IRMÃOS I_PAI I_MÃE DESLOCAMENTO EST_CIVIL MAT FUT NOV EXCEL 1 FEMININO 40 MAIS DE 40 159 76 SIM 4 4 3 ÔNIBUS CASADO NÃO NÃO SIM BAIXO 2 MASCULINO 42 NÃO TRABALHA 172 82 NÃO 7 7 8 ÔNIBUS CASADO SIM SIM NÃO NENHUM 3 FEMININO 28 MAIS DE 40 165 54 NÃO 3 7 6 CARRO CASADO SIM SIM SIM MÉDIO 4 MASCULINO 25 31 A 40 170 70 NÃO 4 0 4 ÔNIBUS SOLTEIRO SIM SIM NÃO MÉDIO 5 MASCULINO 34 MAIS DE 40 174 73 NÃO 3 7 4 A PÉ CASADO NÃO SIM NÃO MÉDIO 6 MASCULINO 19 31 A 40 169 62 SIM 1 6 5 ÔNIBUS SOLTEIRO NÃO SIM SIM ALTO 7 FEMININO 20 MAIS DE 40 16354 SIM 4 9 3 ÔNIBUS SOLTEIRO SIM NÃO SIM BAIXO 8 MASCULINO 19 MAIS DE 40 176 64 SIM 3 9 8 A PÉ SOLTEIRO SIM SIM NÃO MÉDIO 9 FEMININO 39 MAIS DE 40 155 50 NÃO 2 0 10 CARRO CASADO SIM NÃO NÃO MÉDIO 10 MASCULINO 20 31 A 40 170 65 NÃO 6 3 10 ÔNIBUS SOLTIRO NÃO SIM NÃO MÉDIO 11 MASCULINO 17 MAIS DE 40 176 64 SIM 1 4 4 ÔNIBUS SOLTEIRO NÃO SIM SIM MÉDIO 12 FEMININO 23 MAIS DE 40 153 50 NÃO 1 4 1 ÔNIBUS SOLTEIRO NÃO NÃO SIM MÉDIO 13 FEMININO 23 NÃO TRABALHA 172 78 NÃO 2 0 6 ÔNIBUS SOLTEIRO SIM SIM NÃO NENHUM 14 FEMININO 19 MAIS DE 40 176 84 SIM 1 9 8 VAN SOLTEIRO NÃO NÃO SIM MÉDIO 15 FEMININO 23 MAIS DE 40 165 64 NÃO 1 10 7 ÔNIBUS SOLTEIRO SIM NÃO NÃO MÉDIO 16 MASCULINO 29 MAIS DE 40 170 69 SIM 2 3 2 VAN CASADO NÃO SIM NÃO MÉDIO 17 FEMININO 27 31 A 40 160 52 NÃO 2 6 4 VAN SOLTEIRO NÃO SIM SIM BAIXO 18 MASCULINO 20 MAIS DE 40 191 74 SIM 2 9 7 ÔNIBUS SOLTEIRO SIM SIM SIM BAIXO 19 FEMININO 22 31 A 40 170 80 SIM 3 7 1 CARRO SOLTEIRO NÃO NÃO NÃO BAIXO 20 FEMININO 33 31 A 40 156 65 NÃO 3 7 1 CARRO CASADO SIM NÃO SIM MÉDIO 21 MASCULINO 22 31 A 40 180 82 NÃO 2 9 11 ÔNIBUS CASADO SIM NÃO SIM MÉDIO 22 MASCULINO 29 MAIS DE 40 182 88 SIM 1 4 8 ÔNIBUS SOLTEIRO NÃO SIM NÃO BAIXO 23 MASCULINO 27 MAIS DE 40 171 89 SIM 2 1 8 A PÉ CASADO SIM NÃO NÃO MÉDIO 24 FEMININO 18 31 A 40 173 83 SIM 0 3 7 VAN SOLTEIRO SIM SIM SIM MÉDIO 25 FEMININO 24 NÃO TRABALHA 158 48 NÃO 2 4 5 ÔNIBUS SOLTEIRO SIM SIM SIM MÉDIO 26 MASCULINO 19 MAIS DE 40 180 81 NÃO 1 6 8 ÔNIBUS SOLTEIRO SIM SIM NÃO MÉDIO 27 MASCULINO 26 MAIS DE 40 173 80 NÃO 2 8 7 ÔNIBUS SOLTEIRO SIM SIM SIM MÉDIO 28 FEMININO 17 ATÉ 20 168 62 SIM 1 4 7 VAN SOLTEIRO SIM SIM NÃO MÉDIO 29 FEMININO 24 MAIS DE 40 160 51 NÃO 1 12 8 CARRO SOLTEIRO SIM NÃO SIM MÉDIO 30 FEMININO 35 31 A 40 168 55 NÃO 5 10 12 CARRO CASADO NÃO NÃO NÃO BAIXO 31 FEMININO 17 NÃO TRABALHA 162 42 NÃO 1 9 10 VAN SOLTEIRO SIM SIM SIM MÉDIO 32 MASCULINO 46 MAIS DE 40 170 71 NÃO 7 11 10 ÔNIBUS CASADO SIM SIM NÃO BAIXO 33 MASCULINO 41 MAIS DE 40 186 98 NÃO 4 3 5 CARRO CASADO NÃO SIM NÃO MÉDIO 34 MASCULINO 29 MAIS DE 40 178 88 SIM 7 7 9 MOTOCICLETA CASADO NÃO NÃO NÃO MÉDIO 35 FEMININO 24 NÃO TRABALHA 171 68 NÃO 4 9 2 VAN SOLTEIRO SIM SIM NÃO MÉDIO 36 FEMININO 28 31 A 40 154 55 SIM 1 7 5 ÔNIBUS SOLTEIRO NÃO NÃO NÃO MÉDIO 37 FEMININO 23 MAIS DE 40 163 59 NÃO 6 3 5 MOTOCICLETA SOLTEIRO SIM SIM NÃO ALTO 38 FEMININO 22 NÃO TRABALHA 165 57 SIM 1 5 3 ÔNIBUS SOLTEIRO SIM SIM SIM BAIXO 39 MASCULINO 25 MAIS DE 40 173 110 SIM 2 6 4 CARRO SOLTEIRO SIM NÃO NÃO MÉDIO 40 FEMININO 27 ATÉ 20 160 63 SIM 1 4 5 CARRO SOLTEIRO NÃO NÃO NÃO NENHUM COD 15 Na linha quatro podem-se observar informações de um estudante com as seguintes características: GÊNERO: MASCULINO IDADE: 25 anos. JORNADA DE TRABALHO: 31 a 40 horas semanais. ALTURA: 170 centímetros. PESO: 70 quilos. CAPITAL: Não nasceu numa capital. IRMÃOS: 4 irmãos. IRMÃOS DO PAI: O pai não teve irmãos. IRMÃOS DA MÃE: A mãe teve 4 irmãos. DESLOCAMENTO: Se desloca para a faculdade na maioria das vezes de ônibus. ESTADO CIVIL: Solteiro. MATEMÁTICA: Gosta de matemática. FUTEBOL: Gosta de futebol. NOVELA: Não gosta de novela. EXCEL: Declarou que o nível de conhecimento em Excel é MÉDIO. No que se refere às colunas, pode-se destacar: [1] A primeira coluna não se refere a uma variável, e sim a um código. Dessa forma, não fazemos nenhum tipo de análise com os números, uma vez que não faz sentido nenhum algum tipo de análise numérica. Utilizam-se códigos para diversos objetivos, como por exemplo, em placas de automóveis, em camisas de um time de futebol, em números de celulares, no código de endereçamento postal (CEP). Por exemplo: qual o sentido de tirar a média do número das casas de um determinado quarteirão? [2] Foi destacada a coluna relacionada à variável JORNADA. Como o questionário tem 15 perguntas, foi necessária a utilização de 15 colunas para as características de cada estudante, ou mais tecnicamente, podemos afirmar que temos 40 indivíduos e 15 variáveis no banco de dados em estudo. Dessa forma, pode-se destacar que a quarta coluna representa a jornada de trabalho dos estudantes. O conjunto de dados acima apresenta várias informações que poderão ter maior utilidade se forem resumidas. Mas como podemos fazer essa síntese? O ramo da estatística conhecido como Análise Exploratória de Dados (AED) tem como objetivo fornecer opções de ferramentas de análise 16 para lidar com a necessidade de conhecer melhor os dados. Dessa forma, podemos utilizar tabelas, gráficos, médias, correlações, etc. O objetivo é responder à seguinte questão: o que dizem os dados? Cada variável deve ser resumida separadamente num primeiro momento. Quando fazemos a análise exploratória de uma variável separadamente damos o nome de análise univariada. Após a obtenção dos dados tabulados, a análise dos mesmos torna-se possível. Para isso, podemos utilizar o próprio Excel ou algum software estatístico. Geralmente tais softwares são relativamente caros. Alguns deles são adquiridos somente por grandes empresas ou organizações de pesquisa. Lembre-se que o objetivo não é apenas construir um gráfico ou tabela, mas interpretar o que os dados têm a dizer. Um dos grandes objetivos é saber como os dados se distribuem. Fazemos isso ao construir distribuições de frequência. Ao realizar uma pesquisa, na maioria das vezes é inviável consultar todos os elementos de interesse. Um exemplo clássico nesse sentido é a pesquisa eleitoral. Na época das eleições deseja-se saber a preferência do eleitorado sobre os candidatos ao pleito. No Brasil, país com mais de 200 milhões de habitantes, temos mais de 120 milhões de eleitores. É pouco viável perguntar a todos esses indivíduos quais as intenções de voto. Para ter uma noção de como se distribuem os eleitores por candidato nas pesquisas, faz-se necessário utilizar uma amostra da população de eleitores. Dessa forma, se o número de eleitores for 120 milhões e a amostra utilizada na pesquisa for de 2.000 pessoas, qual o tamanho da população e qual o tamanho da amostra? Na medicina, o uso de amostras é muito claro. Quando uma pessoa fica doente e os médicos necessitam verificar as características do sangue dela, é impossível pesquisar todo o sangue da pessoa. O procedimento consiste na simples coleta de uma pequena amostra de sangue. Avaliando-se essa pequena amostra são tiradas conclusões acerca de todo o sangue do corpo. Nesse caso a população seria o volume total de sangue. Na engenharia, suponha que no processo de fabricação de determinada peça seja necessário avaliar o diâmetro da mesma. Como é inviável inspecionar todas as peças, torna-se interessante a utilização da pesquisa por amostragem. Em geral, quanto maior o tamanho da amostra, maior a probabilidade de ela refletir o tamanho da população inteira. Por exemplo: suponha que estejamos interessados em pesquisar o perfil dos alunos dos cursos de Engenharia de uma faculdade. Se houver 1.000 alunos matriculados, pode ser inviável entrevistar todos. Nesse contexto faz-se necessário realizar a pesquisa por amostragem tomando um subconjunto da população. Podemos pesquisar apenas 100 alunos. Alguns cálculos estatísticos são necessários para medir a precisão da referida amostra. 2.1 Algumas definições 2.1.1 População x Amostra 17 Quando realizamos uma pesquisa, a mesma geralmente contém um conjunto de perguntas. A pesquisa realizada com os alunos de estatística contém perguntas sobre altura, peso, idade, forma de deslocamento para a faculdade, etc. Geralmente, cada pergunta feita no questionário pode ser considerada uma variável. Por exemplo, se for perguntado no questionárioqual a cor preferida, esta pode variar entre azul, vermelho, verde, etc. Se for perguntada a altura do estudante, a mesma pode variar entre 140 e 210 centímetros, por exemplo. Temos que fazer a distinção entre os tipos de variáveis. Basicamente as variáveis podem ser divididas entre VARIÁVEIS QUANTITATIVAS ou VARIÁVEIS CATEGÓRICAS. As QUANTITATIVAS podem ser discretas ou contínuas. As CATEGÓRICAS podem ser ordinais ou nominais. Observe a figura abaixo. As variáveis categóricas são denominadas assim pois envolvem categorias. Exemplo: Estado civil (solteiro, casado, separado, viúvo). Como não há ordenação entre as 4 categorias temos uma variável categórica nominal. Se houver hierarquia (ordenação) entre as categorias, trata-se de uma variável categórica ordinal. Exemplo: Considere a variável: “Conhecimento de Excel”. Suponha que seja possível marcar: alto, médio, baixo ou nenhum. Nesse caso são 4 categorias, mas, quem marca médio considera que tem mais conhecimento do que quem marca baixo. Outro exemplo: Escolaridade (Fundamental, Médio, Superior, Pós-graduação). As variáveis quantitativas discretas estão associadas a contagens e geralmente assumem valores inteiros. Exemplos: “Número de automóveis fabricados por dia”, “Número de irmãos”. Geralmente esse tipo de variável é denominada com a expressão “Número de ...”. As variáveis quantitativas contínuas estão associadas a uma medida numérica, mas podem assumir infinitos valores num determinado intervalo. Exemplo: altura (1,57 metros ou 170,5 centímetros), peso (75,41 quilogramas), voltagem (10,33 volts), diâmetro (5,11 milímetros). 2.1.2 Tipos de variáveis 18 Exercício 2.1 Classifique as seguintes variáveis: a - ALTURA [ ]Quantitativa discreta [ X ]Quantitativa contínua [ ]Categórica nominal [ ]Categórica ordinal b – NÚMERO DE IRMÃOS [ ]Quantitativa discreta [ ]Quantitativa contínua [ ]Categórica nominal [ ]Categórica ordinal c – ESTADO CIVIL [ ]Quantitativa discreta [ ]Quantitativa contínua [ ]Categórica nominal [ ]Categórica ordinal d - PESO [ ]Quantitativa discreta [ ]Quantitativa contínua [ ]Categórica nominal [ ]Categórica ordinal e - DESLOCAMENTO [ ]Quantitativa discreta [ ]Quantitativa contínua [ ]Categórica nominal [ ]Categórica ordinal f – CONHECIMENTO EM EXCEL [ ]Quantitativa discreta [ ]Quantitativa contínua [ ]Categórica nominal [ ]Categórica ordinal Após a realização de determina pesquisa ou levantamento de dados, uma das etapas mais importantes do processo é a forma como os dados são apresentados. Geralmente são utilizados gráficos e tabelas. Para cada situação existe determinado gráfico mais apropriado. Levando-se em consideração que as decisões nas empresas podem ser tomadas com maior precisão através de informações confiáveis, a forma como tais informações são organizadas pode ser um diferencial da instituição em relação aos concorrentes. Para cada variável é possível construir uma distribuição de frequência e/ou um gráfico. No caso das variáveis categóricas os gráficos mais utilizados são o de barras (ou colunas) e o de pizza (ou setores). Ao analisarmos o banco de dados ALUNOS podemos construir a seguinte tabela relativa à variável “DESLOCAMENTO”. Tabela 2.1 Distribuição por deslocamento Fonte: Banco de dados ALUNOS 2.2 Apresentação dos dados 2.2.1 Gráfico de setores (gráfico de pizza) DESLOCAMENTO Frequência Porcentagem Ônibus 19 47,5% Carro 9 22,5% Van 7 17,5% A pé 3 7,5% Motocicleta 2 5,0% TOTAL 40 100,0% 19 Algumas observações são de grande importância em relação à Tabela 2.1. O título deve ser posicionado acima da tabela e abaixo dela deve constar a fonte, que consiste de onde os dados foram obtidos. No caso do exemplo em questão os dados vieram da pesquisa sobre os alunos de uma determinada turma de estatística. Outra forma de apresentar os dados acima é através do gráfico de setores – também conhecido como “gráfico de pizza”: Gráfico 2.1: Distribuição por deslocamento Fonte: Banco de dados ALUNOS Observe que o gráfico apresenta valores em porcentagem. O número de alunos (n) é 40. O gráfico poderia ser construído com valores absolutos. No entanto, fica mais didático o uso de porcentagens. Para a variável acima, também pode ser utilizado um gráfico de barras. A vantagem é que ele oferece uma precisão visual um pouco melhor. O gráfico de barras pode representar a distribuição de uma variável categórica e ainda pode comparar conjuntos numéricos que estejam na mesma unidade de medida. Cada barra representa uma categoria. A altura da barra mostra o número de elementos que se enquadra naquela situação ou a porcentagem. Gráfico 2.2: Distribuição por deslocamento Fonte: Banco de dados ALUNOS 47,5% 22,5% 17,5% 7,5% 5,0% Ônibus Carro Van A pé Motocicleta 2.2.2 Gráfico de colunas (gráfico de barras) 19 9 7 3 2 0 2 4 6 8 10 12 14 16 18 20 Ônibus Carro Van A pé Motocicleta 20 Exercício 2.2 [a] Construa uma distribuição de frequência para a variável: “EXCEL”. [b] Faça um gráfico de barras vertical para o a tabela acima. Exercício 2.3 [a] Construa uma distribuição de frequência para a variável: “ESTADO CIVIL”. [b] Faça um gráfico de barras vertical para o a tabela acima. 21 CUIDADO COM A ESCALA É muito importante ter atenção com a escala dos gráficos. Observe a figura: Qual a diferença entre os dois gráficos? Observe que os valores para as taxas de desemprego para os dois períodos são as mesmas. Porém, uma mudança na escala do gráfico no eixo das ordenadas (no caso eixo do percentual de desemprego) distorceu fortemente o aspecto visual da situação. Podemos fazer um gráfico de linhas para a variável: DESLOCAMENTO, conforme mostrado na figura abaixo: Gráfico 2.4: Distribuição da variável DESLOCAMENTO Fonte: Banco de dados ALUNOS Entretanto, conforme discutido anteriormente, para esse tipo de variável (categórica), os gráficos de barras ou de setores são os mais indicados. O gráfico de linhas é bastante utilizado para o uso de séries temporais. O gráfico abaixo representa a evolução do número de pedidos de férias em duas empresas no decorrer do ano de 2010: 10,5% 11,0% 0,0% 2,0% 4,0% 6,0% 8,0% 10,0% 12,0% 2007 a 2010 2011 a 2014 TAXA DE DESEMPREGO 10,5% 11,0% 10,2% 10,4% 10,6% 10,8% 11,0% 11,2% 2007 a 2010 2011 a 2014 TAXA DE DESEMPREGO 2.2.3 Gráfico de linhas 19 9 7 3 2 0 2 4 6 8 10 12 14 16 18 20 Ônibus Carro Van A pé Motocicleta 22 Gráfico 2.5: Evolução do número de pedidos de férias na empresa ABC Exercício 2.4 O quadro abaixo apresenta a evolução do número de acidentes numa determinada empresa. Façaumgráficodelinhapararepresentarosdados. 0 5 10 15 20 25 30 35 40 45 Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Filial 1 Filial 2 Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez 15 13 11 8 4 5 3 6 10 8 11 12 23 Exercício 2.5 Assinale a opção correta. Para resumir uma variável categórica a melhor decisão é construir: [a] Um histograma ou um gráfico de linha. [b] Um gráfico de barra, mas não um gráfico de setores. [c] Um gráfico de setores, mas não um gráfico de barras. [d] Um gráfico de setores ou um gráfico de barras. O banco de dados ALUNOSapresenta informações de altura dos estudantes. Como resumir esses dados? Podemos construir uma Distribuição de Frequência. Uma Distribuição de Frequência é uma tabela na qual os valores de uma variável são agrupados em classes e a quantidade de valores observados em cada classe é registrada. Dados organizados em distribuições de frequência também são chamados dados agrupados. Podemos construir distribuições de frequência tanto pra variáveis quantitativas quanto para variáveis categóricas. A seguir, mostraremos os passos para construir uma distribuição de frequência para uma variável quantitativa. O quadro abaixo apresenta os dados da variável ALTURA dos 40 alunos do banco de dados ALUNOS. PASSOS PARA A CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA Vamos construir uma distribuição de freqüência para a variável ALTURA do banco de dados ALUNOS. 1º PASSO: Ordenar os dados 2º PASSO:Calcular a amplitude Amplitude = Maior valor – Menor valor: 191– 153 = 38 3º PASSO: Calcular o número de classes: Nº de classes = √𝑛 = √40 = 6,3 ≅ 𝟕 Digite a equação aqui. Obs: n = tamanho da amostra. Como o banco de dados possui informações da altura de 40 estudantes, esse é o tamanho da amostra. O número de classes ser arredondado sempre para cima (pois assim corremos menor risco de deixar algum elemento fora do conjunto). 2.3 Distribuição de frequência 153 154 155 156 158 159 160 160 160 162 163 163 165 165 165 168 168 169 170 170 170 170 170 171 171 172 172 173 173 173 174 176 176 176 178 180 180 182 186 191 24 4º PASSO: Calcular a amplitude de classes: Amplitude de Classes = AC = Amplitude ÷ Número de classes 𝐴𝐶 = 𝐴𝑀𝑃𝐿𝐼𝑇𝑈𝐷𝐸 𝑁º 𝐷𝐸 𝐶𝐿𝐴𝑆𝑆𝐸𝑆 = 38 7 = 5,4 ≈ 6 5º PASSO: Definir o limite inferior da primeira classe: 153 6º PASSO: Definir os intervalos (extremos) das classes (na tabela abaixo): 7º PASSO: Construir a freqüência em cada classe e calcular a porcentagem. 8º PASSO: Calcular a frequência acumulada e a porcentagem acumulada. Nesse caso, apesar de termos calculado que seriam necessárias 6 classes, houve um valor que “ficou de fora”: 191. Para resolver o problema basta criar mais uma classe. Observação: Na prática, ao construirmos uma distribuição de frequência podemos ser menos rígidos e definir o tamanho da categoria de acordo com alguma lógica. Por exemplo: no caso da variável altura em análise, poderíamos começar a primeira classe por 150 e trabalhar de cinco em cinco unidades. A técnica acima foi mostrada apenas para se ter algum critério que auxilie o pesquisador no processo de construção da tabela de frequência. Por que eu preciso disso tudo? Estamos aprendendo a resumir os dados de uma pesquisa. Uma das formas de fazer isso é através de distribuições de frequência. Na “vida real” a construção de uma distribuição de frequência é uma pouco mais simples quando usamos computadores. Uma forma de visualizar os dados da distribuição de frequência é através do gráfico conhecido como HISTOGRAMA. A figura abaixo mostra um histograma construído no EXCEL. 25 Gráfico 2.7: Distribuição da variável ALTURA Fonte: Banco de dados ALUNOS Exercício 2.6 Construa uma distribuição de frequência e um HISTOGRAMA para a variável PESO. 1º PASSO: Calcular a amplitude: 2º PASSO: Calcular o número de classes: 3º PASSO: Calcular a amplitude de classes: 4º PASSO: Preencher a tabela: 5 7 11 11 4 1 1 0 2 4 6 8 10 12 153 a 158 159 a 164 165 a 170 171 a 176 177 a 182 183 a 188 189 ou mais 42 48 50 50 51 52 54 54 55 55 57 59 62 62 63 64 64 64 65 65 68 69 70 71 73 74 76 78 80 80 81 82 82 83 84 88 88 89 98 110 Frequencia Porcentagem Acumulada Acumulada TOTAL Frequência Porcentagem 26 5º PASSO: Construir o histograma Exercício 2.7 Construa uma distribuição de frequência e um HISTOGRAMA para a variável “NÚMERO DE MULTAS” nos últimos 50 dias. 1º PASSO: Calcular a amplitude: 2º PASSO: Calcular o número de classes: 3º PASSO: Calcular a amplitude de classes: 4º PASSO: Preencher a tabela: 2 4 5 5 6 7 7 7 8 8 8 8 9 9 9 9 10 10 10 11 12 12 13 13 13 14 14 14 14 15 16 16 17 17 17 17 17 18 18 18 19 20 20 21 22 23 25 26 28 30 27 5º PASSO: Construir o histograma Exercício 2.8 Construa uma distribuição de frequência e um HISTOGRAMA para a variável abaixo (TEMPO DE ESPERA). 1º PASSO: Calcular a amplitude: 2º PASSO: Calcular o número de classes: 3º PASSO: Calcular a amplitude de classes: 4º PASSO: Preencher a tabela: 4 5 6 6 9 10 12 12 14 15 16 17 18 19 19 22 22 25 26 30 30 31 33 35 38 39 40 40 50 51 Frequencia Porcentagem Acumulada Acumulada TOTAL Frequência Porcentagem 28 5º PASSO: Construir o histograma [2.1] Qual a diferença entre o HISTOGRAMA e o GRÁFICO DE BARRAS? Os histogramas se parecem bastante com os gráficos de barras. Entretanto existem duas diferenças principais: (1) Nos histogramas as barras geralmente são grudadas. (Há situações onde isso não ocorre quando a frequência for zero). (2) O histograma é indicado para variáveis quantitativas agrupadas e os gráficos de barras são indicados para variáveis categóricas. [2.2] Podemos utilizar histogramas para variáveis categóricas? Sim, mas para representar categorias o gráfico de barras é mais indicado. [2.3] Como interpretar um HISTOGRAMA? Segundo MOORE (2011), “Em qualquer gráfico de dados, procure pelo padrão geral e por desvios notáveis desse padrão. Você pode descrever o padrão geral de um histograma por sua forma, centro e dispersão. Um tipo importante de desvio é um valor atípico, 7 um valor individual que está fora do padrão geral.” [2.4] O que devo colocar acima das barras do histograma, a freqüência ou a porcentagem? Geralmente essa escolha é feita pelo analista de dados, entretanto é indicado que a porcentagem seja utilizada quando o conjunto de dados for acima de 50. [2.5] Uma variável categórica pode ser analisada como quantitativa? Se for ordinal e a escala for com muitos números sim. [2.6] Os bancos de dados sempre são dispostos em linhas e colunas? Não necessariamente. Mas na nossa disciplina de estatística sim. 7 Também conhecido como outlier ESTATÍSTICA EM PERGUNTAS E RESPOSTAS 29 [2.7] As variáveis categóricas sempre são representadas por palavras? Nem sempre. Dependendo do programa computacional, é comum utilizar um código numérico para cada categoria da variável. [2.8] Uma variável quantitativa pode ser transformada em categórica? Sim. Lembrar do exemplo do conceito acadêmico e reprovação aprovação, e ainda escolaridade. [2.9] O que é Análise Exploratória de Dados (AED)? Pode-se afirmar que seja um ramo da estatística com o objetivo de descrever os dados através de gráficos, distribuições de frequência e medidas numéricas, como média, por exemplo. [2.10] Para a mesma variável devo colocar tanto o gráfico, quanto a tabela num relatório de pesquisa? Não necessariamente. A escolha de um ou de outro vai depender principalmente dos objetivos da pesquisa bem como do público que vai ler o relatório. Conforme MOORE (2014): Embora uma tabela que contenha as categorias e os percentuais forneça a mesma informação que um gráfico de barras, a vantagem substancial do gráfico de barras sobre a apresentação tabular é que ele nos permite comparar visualmente os percentuais entre todas as categoriassimultaneamente, através das alturas das barras. [2.11] Quando devo utilizar gráfico de barra ou histograma? O gráfico de barras é indicado para variáveis categóricas, enquanto o histograma é indicado para variáveis quantitativas. [2.12] Por que devo me preocupar com o grau de simetria de uma distribuição de dados quantitativos? Segundo (MOORE, 2014) “O centro do histograma nos diz sobre o valor de uma observação “típica” dessa variável, enquanto a dispersão nos dá uma ideia de quão próximas as observações estão desse valor. Outras características interessantes são a presença de valores atípicos (outliers) e a forma geral do gráfico”. [2.13] O que são valores atípicos? São observações que se encontram fora do padrão geral dos dados, ou seja, valores muito altos ou muito baixos. Também são conhecidos como valores discrepantes ou outliers. [2.14] Dados são sempre informações numéricas? Não, pois podemos ter dados vindos de variáveis categóricas. [2.15] Realmente é importante saber classificar uma variável? Sim, pois para cada tipo de variável ou conjunto de variáveis determinado tipo de técnica estatística é mais indicada. 30 CAPÍTULO 3 ANÁLISE DE DADOS COM UMA VARIÁVEL: MEDIDAS DE TENDÊNCIA CENTRAL E DE DISPERSÃO Uma das formas de explorar um conjunto de dados é através do uso de tabelas e gráficos. Além disso, podemos utilizar algumas estatísticas conhecidas como medidas-resumo, que se dividem em: medidas de tendência central, medidas de dispersão e medidas de posição relativa. O presente capítulo tem por objetivo o estudo delas. A tabela abaixo representa um banco de dados de acidentes de trânsito. BANCO DE DADOS ACIDENTES O banco de dados ACIDENTES conta com 36 ocorrências de trânsito, representadas pelas 36 linhas. Além disso, apresenta nove variáveis, representadas pelas colunas. A primeira coluna é a única que não representa uma variável, pois trata-se de um código para identificar cada um dos acidentes. O quadro abaixo descreve cada variável: V1 V2 V3 V4 V5 V6 V7 V8 V9 GRAVIDADE MOT_ALCOOL VÍTIMA DIA DISTÂNCIA TEMPO_CHEGADA NUM_VEÍCULOS TEMPO_ATENDIMENTO TURNO 1 ALTA SIM NÃO FIM-DE-SEMANA 3,7 10 2 49 NOITE 2 MÉDIA SIM NÃO FIM-DE-SEMANA 2,1 2 2 35 MADRUGADA 3 BAIXA NÃO NÃO DURANTE A SEMANA 1,3 16 3 44 NOITE 4 BAIXA NÃO NÃO DURANTE A SEMANA 3,8 57 2 30 TARDE 5 MÉDIA NÃO NÃO DURANTE A SEMANA 3,3 42 2 36 NOITE 6 MÉDIA SIM NÃO FIM-DE-SEMANA 3,8 4 1 26 NOITE 7 MÉDIA NÃO SIM DURANTE A SEMANA 1,1 18 1 30 NOITE 8 BAIXA SIM NÃO DURANTE A SEMANA 2,2 30 2 34 NOITE 9 BAIXA NÃO NÃO DURANTE A SEMANA 2,7 22 1 23 TARDE 10 ALTA SIM SIM DURANTE A SEMANA 3,9 19 2 58 NOITE 11 MÉDIA NÃO SIM FIM-DE-SEMANA 4,5 5 2 44 MADRUGADA 12 BAIXA SIM NÃO FIM-DE-SEMANA 4,6 9 2 37 TARDE 13 MÉDIA NÃO NÃO DURANTE A SEMANA 4,0 45 2 46 TARDE 14 BAIXA NÃO NÃO DURANTE A SEMANA 4,3 55 2 40 TARDE 15 BAIXA NÃO SIM FIM-DE-SEMANA 5,9 12 2 52 NOITE 16 MÉDIA NÃO NÃO DURANTE A SEMANA 4,7 31 2 48 NOITE 17 BAIXA SIM SIM FIM-DE-SEMANA 6,3 6 2 53 NOITE 18 BAIXA NÃO NÃO DURANTE A SEMANA 2,3 35 2 41 MANHÃ 19 BAIXA NÃO NÃO DURANTE A SEMANA 5,5 30 2 41 MANHÃ 20 MÉDIA NÃO NÃO DURANTE A SEMANA 5,5 26 3 68 TARDE 21 ALTA SIM SIM FIM-DE-SEMANA 6,9 14 2 59 MANHÃ 22 MÉDIA NÃO NÃO DURANTE A SEMANA 6,2 38 4 52 NOITE 23 MÉDIA NÃO NÃO DURANTE A SEMANA 6,3 40 1 29 NOITE 24 BAIXA NÃO NÃO DURANTE A SEMANA 6,8 41 2 42 MANHÃ 25 BAIXA NÃO NÃO DURANTE A SEMANA 6,9 36 3 58 MANHÃ 26 BAIXA NÃO NÃO DURANTE A SEMANA 7,8 55 3 34 MADRUGADA 27 BAIXA NÃO NÃO DURANTE A SEMANA 8,0 62 2 44 MANHÃ 28 MÉDIA NÃO NÃO DURANTE A SEMANA 9,3 42 1 30 NOITE 29 ALTA SIM SIM FIM-DE-SEMANA 7,9 16 3 87 MADRUGADA 30 MÉDIA NÃO NÃO DURANTE A SEMANA 9,7 46 2 43 TARDE 31 BAIXA NÃO NÃO DURANTE A SEMANA 10,0 40 2 55 MANHÃ 32 MÉDIA NÃO NÃO FIM-DE-SEMANA 9,3 19 3 80 NOITE 33 BAIXA NÃO NÃO DURANTE A SEMANA 10,1 48 1 25 TARDE 34 MÉDIA SIM SIM FIM-DE-SEMANA 11,3 23 3 80 MANHÃ 35 BAIXA NÃO NÃO DURANTE A SEMANA 10,7 33 2 66 TARDE 36 BAIXA NÃO NÃO DURANTE A SEMANA 11,3 35 3 70 NOITE OCORRÊNCIA 31 V1: GRAVIDADE Trata-se da gravidade do acidente, que pode ser classificada como: ALTA, MÉDIA, OU BAIXA. V2: MOT_ALCOOL Variável categórica que pode ser classificada como: {SIM, NÃO}, caso o motorista envolvido no acidente esteja ou não alcoolizado. V3: VÍTIMA Indica se naquela ocorrência teve ou não vítima fatal: {SIM, NÃO}. V4: DIA Indica quando foi o acidente: {FIM-DE-SEMANA, DURANTE A SEMANA} V5: DISTÂNCIA Indica a DISTÂNCIA percorrida do posto de resgate até o local do acidente (em quilômetros). V6: TEMPO_CHEGADA Indica o TEMPO em minutos que o resgate demorou a chegar ao local. V7: NUM_VEÍCULOS Indica o NÚMERO de veículos envolvidos no acidente. V8: TEMPO_ATENDIMENTO Indica o TEMPO DE ATENDIMENTO da ocorrência em minutos. V9: TURNO Indica o TURNO, podendo ser: {MADRUGADA, MANHÃ, TARDE, NOITE}. O diagrama abaixo lista as principais medidas resumo: 32 As principais medidas de tendência central são: Média Mediana Moda A média aritmética simples é uma das medidas de tendência central mais utilizadas no dia-a-dia. A mesma é calculada conforme a fórmula abaixo: �̅� = ∑ 𝑥𝑖 𝑛 𝑖=1 𝑛⁄ = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑛 onde n representa o número de observações ou tamanho da amostra. A média aritmética simples geralmente é representada pela letra x com uma barra sobre a mesma. No numerador aparece um símbolo de somatório indicando que todas as unidades observacionais devem ser somadas. O somatório deve ser dividido pelo número de observações. Exemplo 3.1 O quadro abaixo mostra quatro valores referentes ao TEMPO DE ATENDIMENTO em acidentes em acidentes que ocorreram na MADRUGADA. A média aritmética simples pode ser calculada da seguinte forma: �̅� = ∑ 𝑥𝑖 𝑛 𝑖=1 𝑛⁄ = 34 + 35 + 44 + 87 4 = 50 O resultado da fórmula mostra uma média de 50 minutos. Esse valor pode ser calculado no Excel utilizando a fórmula: 3.1 Medidas de Tendência Central 3.1.1 Média aritmética simples 34 35 44 87 33 Exercício 3.2 Calcule a MÉDIA para o tempo de atendimento dos acidentes que ocorreram pela MANHÃ. A média é ___________ A Moda é simplesmente o valor que mais aparece. Geralmente é mais útil para variáveis nominais (ou categóricas). A função utilizada no EXCEL para o cálculo da moda é: MODO (DADOS) Exemplo 3.3 Suponha que a idade dos alunos de uma determinada turma seja: 17,17,18,18,19,19,19,19,20,20,21,22,23,23,24,25,27,28,28,29,31,35. A moda da variável IDADE É 19, pois é o número que mais apareceu: 4 vezes. Um conjunto de dados relativos a uma variável pode apresentar as seguintes situações no que se refere à MODA: Nenhuma MODA AMODAL Uma MODA UNIMODAL Duas MODAS BIMODAL Mais de duas MODAS MULTIMODAL Exercício 3.4 Qual a MODA da variável “NÚMERO DE VEÍCULOS ENVOLVIDOS”? A moda é __________ V9 V8 TURNO TEMPO_ATENDIMENTO MADRUGADA 34 MADRUGADA 35 MADRUGADA 44 MADRUGADA 87 MANHÃ 41 MANHÃ 41 MANHÃ 42 MANHÃ 44 MANHÃ 55 MANHÃ 58 MANHÃ 59 MANHÃ 80 NOITE 26 NOITE 29 NOITE 30 NOITE 30 NOITE 34 NOITE 36 3.1.2 Moda 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 4 34 Exercício 3.5 Qual a MODA do conjunto de dados a seguir? Exercício 3.6 Qual a MODA do conjunto de dados a seguir? Exercício 3.7 Qual a MODA do conjunto de dados a seguir? Quando temos um conjunto de dados que apresentam valores discrepantes, podemos utilizar outra medida para resumir os dados: a MEDIANA. O cálculo é feito tomandoo valor do meio, após os dados terem sido colocados em ordem crescente. Observe o conjunto de dados a seguir: Para encontrar a mediana desses dados, devemos inicialmente colocá-los em ordem crescente. O próximo passo consiste em encontrar a “posição que divide os dados ao meio”. Nesse caso a mediana é 25, pois encontra-se na metade do conjunto de dados. Existem três valores antes e três valores após o 25. Se tivéssemos 3 valores, a mediana estaria na posição referente ao 2º valor: Se tivéssemos 9 valores a posição seria referente ao 5º valor: Quando a quantidade de dados é par, a MEDIANA corresponde ao ponto médio relativo aos dois valores que dividem os dados ao meio: 3 4 5 6 7 8 3 4 5 5 6 6 4 4 5 5 6 6 3.1.3 Mediana 16 17 22 25 30 31 33 16 17 22 16 17 22 25 30 31 33 33 35 35 Como temos 4 valores, devemos escolher a posição referente ao 2,5º valor. Para isso basta encontrar o “valor do meio” entre 17 e 19, portanto MEDIANA = 18 (basta calcular o ponto médio entre 17 e 19). No Excel, basta utilizar a função: = MED(dados) Portanto, se você tiver, por exemplo, 3 valores, a mediana é o valor que encontra-se na posição 2. Se tiver 4 valores, a mediana é o valor que se encontra na posição 2,5 (entre os números de posição 2 e 3). E se você tiver n números? 2 passos para achar a mediana: 1 – Organize os números em ordem crescente. 2 – Some 1 ao tamanho da amostra (n) e depois divida por dois. A mediana será o valor correspondente à posição calculada (n+1)/2. Por exemplo, o número de observações no banco de dados de acidentes de trânsito é 36. Dessa forma, a MEDIANA consiste no valor que ocupa a posição 18,5º, ou seja, (36 + 1)/2. Observe que a fórmula (n+1)/2 não fornece a MEDIANA, e sim a posição em que o valor dela se encontra. Lembre-se que o objetivo é encontrar a posição que divide os dados em duas metades. O objetivo da mediana é o mesmo que o da média: fornecer uma medida que possa resumir o conjunto de dados em análise. Exercício 3.8 Encontre a mediana para a variável DISTÂNCIA para os acidentes que ocorreram de MANHÃ. A mediana é ___________ MANHÃ MANHÃ MANHÃ MANHÃ MANHÃ MANHÃ MANHÃ MANHÃ 8,0 6,9 6,8 11,3 2,3 5,5 6,9 10,0 36 Exercício 3.9 Para uma amostra de 15 estudantes numa lanchonete, os seguintes valores de vendas, agrupados em ordem crescente são observados: Calcule: [a] Média: [b] Mediana: [c] Moda Exercício 3.10 Com base no banco de dados ACIDENTES, calcule: [a] MÉDIA do TEMPO DE ATENDIMENTO durante a semana. [b] MÉDIA do TEMPO DE ATENDIMENTO no fim- de-semana. Exercício 3.11 Com base no banco de dados ACIDENTES, calcule: [c] MEDIANA do TEMPO DE ATENDIMENTO durante a semana [d] MEDIANA do TEMPO DE ATENDIMENTO no fim-de-semana. 2,50 3,50 4,00 4,00 4,50 5,00 5,50 6,00 6,00 7,00 7,00 7,00 7,50 8,00 9,00 37 O uso da mediana se torna interessante quando existem valores extremos no conjunto de dados. O conjunto de dados abaixo representa a renda mensal de cinco pessoas nos grupos A e B, respectivamente: A renda média no conjunto A é R$ 2.000,00, e no conjunto B é R$ 4.000,00. No entanto, a mediana para os dois grupos é igual a R$ 2.000, ou seja, o fato de mudar o último valor de R$ 3.000,00 para R$ 13.000,00 não influenciou no valor da mediana. Portanto, podemos afirmar que a mediana é pouco sensível a valores extremos (ou valores discrepantes). Exercício 3.12 (TRIOLA, 2013) Para cada um dos seguintes conjuntos de dados, identifique a principal razão pela qual a média e a mediana não são estatísticas que façam sentido. [a] Códigos postais: 12601, 90210, 02116, 76177, 19102. [b] Respondentes de uma sondagem são codificados como 1(Democrata), 2(Republicano), 3(Liberal), 4(Conservador) ou 5(qualquer outro partido político). A Média Geométrica é consiste na raiz enésima do produtório de n valores. Assim, 𝐺 = √𝑥1 × 𝑥2 × … × 𝑥𝑛 𝑛 Observe o seguinte conjunto de dados: A média geométrica é: 𝐺 = √1 × 2 × 6 3 = √12 3 = 2,29 1 2 6 38 A grande utilidade da média geométrica ocorre quando queremos encontrar a taxa média de crescimento numa série de tempo, onde a fórmula é: G = √ 𝑥𝑛 𝑥1 𝑛 − 1 Exemplo 3.13 A Tabela abaixo mostra o número de imóveis comercializados por uma construtora durante 5 anos. G = √ 288 245 × 302 288 × 359 302 × 417 359 4 − 1 = √ 417 245 4 − 1 = √1,7020 4 − 1 = 1,1422 − 1 = 0,1422 = 14,22% G = √1,1755 × 1,0486 × 1,1887 × 1,1616 4 − 1 = √1,7020 4 − 1 = 1,1422 − 1 = 0,1422 = 14,22% Portanto, o número de imóveis comercializados cresceu em média 14,22% ao ano entre 2007 e 2011. Se tomarmos o valor do primeiro ano e aplicarmos mais 14,22% até chegar ao ano de 2011, vamos obter o valor do último ano. Observe: 245 × 1,1422 = 279,84 279,84 × 1,1422 = 319,63 319,63 × 1,1422 = 365,04 365,08 × 1,1422 = 417 Exemplo 3.14 A tabela abaixo refere-se ao número de veículos comercializados nos últimos anos numa determinada concessionária: ANO Nº DE IMÓVEIS 2007 245 2008 288 2009 302 2010 359 2011 417 ANO Nº DE VEÍCULOS 2002 1.253 2003 1.425 2004 1.486 2005 1.589 2006 1.650 2007 1.793 2008 1.805 2009 1.653 2010 1.822 2011 1.915 2012 2.053 2013 1.927 2014 1.756 39 Qual o crescimento médio do número de veículos da concessionária? G = √ 1756 1253 12 − 1 = √1,4014 4 = 1,0285 − 1 = 0,285 = 2,85% Portanto, o número de veículos comercializados cresceu em média 2,85% ao ano. O gráfico abaixo apresenta os valores da série histórica e as projeções anuais com base no crescimento médio. Exercício 3.15 Um administrador resolveu acompanhar a evolução do desempenho de determinado funcionário novato que começou a trabalhar num guichê de atendimento ao público há um ano, conforme quadro abaixo: Levando em consideração o primeiro mês de trabalho, qual a média de crescimento do número de atendimentos do funcionário? Exercício 3.16 O número de acidentes numa determinada rodovia evolui conforme o quadro abaixo. Qual o crescimento médio no período? 1.253 1.425 1.486 1.589 1.650 1.793 1.805 1.653 1.822 1.915 2.053 1.927 1.756 1.000 1.200 1.400 1.600 1.800 2.000 2.200 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 Nº DE VEÍCULOS PROJEÇÃO MÉDIA Janeiro Fevereiro Março Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro Janeiro 100 96 125 136 111 146 133 118 129 148 162 154 150 2007 2008 2009 2010 2011 2012 2013 2014 70 48 62 65 82 88 93 95 40 A média aritmética ponderada difere-se da média aritmética simples pelo fato de levar em consideração o “peso” de cada unidade em relação ao total. Suponha que num exame de proficiência de estudantes do ensino médio cada uma de quatro escolas de um município obteve as seguintes notas: Observe que a média aritmética simples seria igual e 75. No entanto, numa situação como essa devemos levar em consideração a quantidade de estudantes de cada escola que realizou o exame, como no quadro abaixo: Observe que a soma do número de estudantes que realizou o exame é igual a 1000. Desse total, 10% são da escola A, 20% da escola B, 30% da escola C e 40% da escola D. Podemos calcular o escore médio do municípiolevando em consideração o “tamanho” da escola através da proporção de estudantes: 𝑀É𝐷𝐼𝐴 𝑃𝑂𝑁𝐷𝐸𝑅𝐴𝐷𝐴 = 70 × 100 1000 + 90 × 200 1000 + 80 × 300 1000 + 60 × 400 1000 𝑀É𝐷𝐼𝐴 𝑃𝑂𝑁𝐷𝐸𝑅𝐴𝐷𝐴 = (70 × 0,1) + (90 × 0,2) + (80 × 0,3) + (60 × 0,4) 𝑀É𝐷𝐼𝐴 𝑃𝑂𝑁𝐷𝐸𝑅𝐴𝐷𝐴 = 7 + 18 + 24 + 24 = 73 Portanto, fórmula da MÉDIA PONDERADA é: �̅�𝒑 = 𝒑𝟏𝒙𝟏 + 𝒑𝟐𝒙𝟐 + ⋯ + 𝒑𝒏𝒙𝒏 𝒑𝟏 + 𝒑𝟐 + ⋯ + 𝒑𝒏 = ∑ 𝒑 × 𝒙 ∑ 𝒑 Exercício 3.17 Calcule a média ponderada da nota como no exercício anterior a partir dos dados abaixo: ESCOLA A B C D NOTA 70 90 80 60 ESCOLA A B C D NOTA 70 90 80 60 NÚMERO DE ESTUDANTES 100 200 300 400 TURMA NOTA Nº DE ALUNOS A 8 40 B 9 30 C 6 80 D 7 50 41 Exercício 3.18 Um determinado batalhão de polícia é composto de quatro companhias (A,B,C e D). A tabela abaixo apresenta as notas obtidas no Acordo de Resultados por cada uma delas. Calcule a média de todo o batalhão. PONTOS FORTES E FRACOS DE CADA MEDIDA DE TENDÊNCIA CENTRAL DOANE (2010) apresenta alguns prós e contras de algumas medidas de tendência central: ESTATÍSTICA PRÓS CONTRAS Média Familiar e usa toda a informação da amostra. Influenciada por valores extremos. Mediana Robusta quando existem valores extremos nos dados. Ignora valores extremos e pode ser afetada por lacuna nos valores dos dados. Moda Útil para dados por categóricos ou dados discretos com um intervalo de variação pequeno. Pode não ser única e não é útil para dados contínuos. Média Geométrica Útil para taxas de crescimento e atenua a influência de valores extremos altos. Menos familiar e requer dados com valores positivos. Ao analisar o formato de uma distribuição de dados quantitativos podemos utilizar a média, a mediana a e moda. De acordo com tais valores, podemos inferir acerca do grau de assimetria da distribuição. Uma distribuição pode apresentar: Assimetria negativa (dados assimétricos à esquerda): os dados têm uma cauda maior à esquerda, e a média e mediana ficam à esquerda da moda. Assimetria positiva (dados assimétricos à direita): os dados têm uma cauda maior à direita, e a média e mediana ficam à direita da moda. Companhia NOTA Nº DE MILITARES Companhia A 80 175 Companhia B 77 250 Companhia C 91 330 Companhia D 85 425 3.1.6 Assimetria 42 Conforme TRIOLA (2013): Uma distribuição de dados é assimétrica quando se estende mais para um lado do que para o outro. (Uma distribuição de dados é simétrica se a metade esquerda de seu histograma for praticamente uma imagem espalhada de sua metade direita). [3.1] Quando é interessante utilizar a moda para resumir dados de uma variável? Quando um conjunto de dados quantitativos discretos apresentar poucos valores (lembre-se da variável NÚMERO DE VEÍCULOS envolvidos do banco de dados ACIDENTES). Além disso, a moda é a única medida de centro que pode ser usada com dados no nível nominal de mensuração. (Relembre que o nível nominal de mensuração se aplica a dados que consistem em nomes, rótulos, ou categorias apenas.) [3.2] Qual a diferença entre a média e a mediana? A média representa o “centro de massa” dos dados, enquanto a mediana é o ponto que divide os dados ao meio. Além disso, a mediana é robusta a valores extremos. [3.3] Quando é mais interessante utilizar a mediana ao invés da média? Quando os dados apresentarem valores discrepantes (outliers) ou a distribuição dos mesmos apresentar forte assimetria. ESTATÍSTICA EM PERGUNTAS E RESPOSTAS 43 Lembre-se que o nosso propósito ao estudar as medidas-resumo passa por descrever os dados de forma que os mesmos possam ser interpretados da melhor maneira possível. Ao utilizar a média, mediana ou moda estamos fornecendo um número que exerce essa função de resumir os dados. No entanto, por serem medidas de tendência central elas não fornecem uma ideia do grau de espalhamento dos dados. Para isso, faz-se necessário o estudo das medidas de dispersão ou variabilidade. A seguir serão apresentadas as seguintes medidas de dispersão: amplitude, desvio médio absoluto, variância, desvio padrão e coeficiente de variação. A amplitude consiste na diferença entre o maior e o menor valor num conjunto de dados, conforme a fórmula abaixo: Amplitude = MAIOR VALOR – MENOR VALOR O quadro abaixo apresenta valores relativos a dois conjuntos de dados: A e B. A amplitude dos dois conjuntos de dados é: Amplitude = 12 – 8 = 4 No entanto, a referida medida apresenta limitações, pois retrata apenas os valores extremos do conjunto de dados, desconsiderando o que ocorre entre o maior e o menor valor. Podemos ilustrar tal argumento construindo um histograma para cada grupo com base nos dados das distribuições de frequência, conforme os quadros a seguir. 3.2 Medidas de Dispersão 3.2.1 Amplitude A B 8 8 9 10 9 10 10 10 10 10 10 10 11 10 11 10 12 12 VALOR FREQUÊNCIA 8 1 9 2 10 3 11 2 12 1 GRUPO A VALOR FREQUÊNCIA 8 1 9 0 10 8 11 0 12 1 GRUPO B 44 Observe que a amplitude só descreve a largura dos dados e não como eles são dispersos (espalhados) entre os limites. Dessa forma ela não reflete como os dados estão dispostos entre os extremos. Os dois conjuntos de dados acima têm a mesma amplitude, mas os valores são distribuídos de forma diferente. O segundo conjunto tem valores discrepantes (valores extremos altos e baixos). Aparentemente, a amplitude pode medir até que ponto os valores estão dispersos, mas é difícil ter uma ideia real de como os dados são distribuídos. O PROBLEMA COM VALORES DISCREPANTES A amplitude é uma forma simples de dizer qual é a dispersão de um conjunto de dados, mas, muitas vezes, não é a melhor maneira de medir como os dados são distribuídos dentro do conjunto. Se os dados tiverem valores discrepantes, o uso da amplitude para descrever como os valores são dispersos pode ser bastante enganoso, devido à sensibilidade a números que fogem do padrão dos demais. Suponha que tenhamos o seguinte conjunto de dados: Aqui, os números estão razoavelmente distribuídos uniformemente entre o limite inferior e o limite superior, e não há nenhum valor discrepante. Qual a amplitude desse conjunto de dados? Amplitude = 5 – 1 = 4 Mas o que acontece se introduzirmos um valor discrepante, como o número 10? Amplitude = 10 – 1 = 9 Nosso limite inferior é o mesmo, mas o limite superior aumentou para 10, nos dando uma nova amplitude igual a 9. A amplitude aumentou em 5 unidades, apenas porque acrescentamos um número diferente do padrão geral. Sem o valor discrepante, os dois conjuntos de dados seriam idênticos; então, por que há uma diferença tão grande na forma em que descrevemos como os dados estão distribuídos? 45 O DMA consiste na média dos desvios em relação à média. Exemplo 3.19 O quadro abaixo apresenta as notas de cinco estudantes de três turmas numa determinada prova: Note que a média das notas das três turmas é a mesma: 6. Podemos notar uma limitação da média: não fornece informação sobre como os dados se distribuem. Uma forma de solucionar o problema é através do DMA. Vamos calcular o DMA das notas da turma A: Exercício 3.20 Calcule o Desvio médio absoluto dos conjuntos de dados B e C, abaixo: Qual dos dois conjuntos de dados (B, C) apresenta maior dispersão? 3.2.2 Desvio médio absoluto (DMA)
Compartilhar