Baixe o app para aproveitar ainda mais
Prévia do material em texto
Alessandra Negrini Dalla Barba Élida Maiara Velozo de Castro RACIOCÍNIO ANALÍTICO E QUANTITATIVO 1 © Universidade Positivo 2019 Rua Prof. Pedro Viriato Parigot de Souza, 5300 – Campo Comprido Curitiba-PR – CEP 81280-330 *Todos os gráficos, tabelas e esquemas são creditados à autoria, salvo quando indicada a referência. Informamos que é de inteira responsabilidade da autoria a emissão de conceitos. Nenhuma parte desta publicação poderá ser reproduzida por qualquer meio ou forma sem autorização. A violação dos direitos autorais é crime estabelecido pela Lei n.º 9.610/98 e punido pelo artigo 184 do Código Penal. Imagens de ícones/capa: © Thinkstock / © Shutterstock. Presidente da Divisão de Ensino Reitor Direção Acadêmica Gerente de Educação à Distância Coordenação de Metodologia e Tecnologia Autoria Parecer Técnico Supervisão Editorial Projeto Gráfi co e Capa Prof. Paulo Arns da Cunha Prof. José Pio Martins Prof. Roberto Di Benedetto Rodrigo Poletto 2 Profa. Roberta Galon Silva Profa. Alessandra Negrini Dalla Barba Profa. Élida Maiara Velozo de Castro Prof. Cristian Schmit Felipe Guedes Antunes Regiane Rosa Dados Internacionais de Catalogação na Publicação (CIP) Biblioteca da Universidade Positivo – Curitiba – PR DTCOM – DIRECT TO COMPANY S/A Análise de Qualidade, Edição de Texto, Design Instrucional, Edição de Arte, Diagramação, Design Gráfico e Revisão. 2 Sumário CAPÍTULO 1 - FUNDAMENTOS DA ESTATÍSTICA, ETAPAS DO ESTUDO ESTATÍSTICO, AMOSTRAGEM E INTERPRETAÇÃO DOS RESULTADOS 7 Objetivos do capítulo 12 Tópicos de estudo 12 Contextualizando o cenário 13 1.1 Aspectos introdutórios da Estatística 13 1.1.1 Notas históricas e importância 13 1.1.2 A Importância da Estatística no Meio Empresarial e o Processo Decisório 15 1.1.3 Conceitos Fundamentais 16 1.1.4 Etapas de uma pesquisa 18 1.2 Processos estatísticos de abordagem e técnicas de amostragem 19 1.2.1 Levantamento por recenseamento e levantamento por amostragem 19 1.2.2 Amostragem probabilística e não probabilística 20 1.2.3 Principais tipos de amostragem probabilística 21 1.3 Variáveis, dados e erros 21 1.3.1 Tipos de variáveis 21 1.3.2 Tipos de Dados 23 1.3.3 Tipos de erros 24 1.4 Representação tabular e representação gráfica de dados 25 1.4.1 Tabelas de distribuição de frequências 25 1.4.2 Principais tipos de gráficos 27 Proposta de atividade 30 Recapitulando 30 Referências 31 CAPÍTULO 2 - MEDIDAS DESCRITIVAS 32 Objetivos do capítulo 33 Tópicos de estudo 33 Contextualizando o cenário 33 2.1 Medidas de centralidade 33 2.1.1 Média aritmética, média ponderada e média geométrica 34 2.1.2 Média Harmônica e Média Quadrática 37 2.1.3 Mediana e Moda 39 2.1.4 Cálculo das Medidas de Centro para Dados Agrupados em Classes 41 2.2 Medidas Separatrizes 48 2.2.1 Quartis 49 2.2.2 Decis 49 2.2.3 Percentis 50 2.3 Medidas de Dispersão 52 2.3.1 Variabilidade 52 2.3.2 Variância e Desvio Padrão 52 2.3.3 Coeficiente de Variação de Pearson e Erro Padrão 55 2.3.4 Escore padronizado e outliers 56 Proposta de atividade 58 Recapitulando 58 Referências 59 CAPÍTULO 3 - ANÁLISE COMBINATÓRIA 60 Objetivos do capítulo 61 Tópicos de estudo 61 Contextualizando o cenário 61 3.1 Aspectos introdutórios da análise combinatória 61 3.1.1 Introdução à análise combinatória 62 3.1.2 Princípio fundamental da contagem 62 3.1.3 Técnicas de contagem 66 3.2 Permutações 66 3.2.1 Notação fatorial 67 3.2.2 Permutações simples 68 3.2.3 Permutações com repetição 69 3.2.4 Aplicações envolvendo permutações 70 3.3 Arranjos e combinações 72 3.3.1 Arranjos Simples 73 3.3.2 Combinações Simples 74 3.3.3 Aplicações envolvendo arranjos e combinações 75 Proposta de atividade 78 Recapitulando 78 Referências 78 CAPÍTULO 4 - PROBABILIDADE 79 Objetivos do capítulo 80 Tópicos de estudo 80 Contextualizando o cenário 80 4.1 Introdução a teoria de probabilidades 80 4.1.1 Conceitos básicos 81 4.1.2 Regras básicas e teorema de Bayes 85 4.1.3 Distribuições de probabilidades 88 4.2 Variáveis aleatórias 89 4.2.1 Aspectos introdutórios 89 4.2.2 Função densidade de probabilidade 91 4.2.3 Função distribuição cumulativa 92 4.2.4 Tipos de variáveis aleatórias 92 4.3 Variáveis aleatórias contínuasl 93 4.3.1 A curva normal de Gauss 93 4.3.2 A Distribuição normal padronizada 96 4.4 Variáveis aleatórias discretas 99 4.4.1 Distribuição binomial e medidas características 99 4.4.2 Aplicações diversas envolvendo a distribuição binomial 100 Proposta de atividade 103 Recapitulando 104 Referências 104 RACIOCÍNIO ANALÍTICO E QUANTITATIVO CAPÍTULO 1 - FUNDAMENTOS DA ESTATÍSTICA, ETAPAS DO ESTUDO ESTATÍSTICO, AMOSTRAGEM E INTERPRETAÇÃO DOS RESULTADOS Alessandra Negrini Dalla Barba 7 Compreenda seu livro: Metodologia Caro aluno, A metodologia da Universidade Positivo apresenta materiais e tecnologias apropriadas que permitem o desenvolvimento e a interação entre alunos, docentes e recursos didáticos e tem por objetivo a comunicação bidirecional entre os atores educacionais. O seu livro, que faz parte dessa metodologia, está inserido em um percurso de aprendizagem que busca direcionar a construção de seu conhecimento por meio da leitura, da contextualização teórica-prática e das atividades individuais e colaborativas; e fundamentado nos seguintes propósitos: • valorizar suas experiências; • incentivar a construção e a reconstrução do conhecimento; • estimular a pesquisa; • oportunizar a reflexão teórica e aplicação consciente dos temas abordados. Compreenda seu livro: Percurso Com base nessa metodologia, o livro apresenta os itens descritos abaixo. Navegue no recurso para conhecê-los. 1. Objetivos do capítulo Indicam o que se espera que você aprenda ao final do estudo do capítulo, baseados nas necessidades de aprendizagem do seu curso. 2. Tópicos que serão estudados Descrição dos conteúdos que serão estudados no capítulo. 3. Contextualizando o cenário Contextualização do tema que será estudado no capítulo, como um cenário que o oriente a respeito do assunto, relacionando teoria e prática. 4. Pergunta norteadora Ao final do Contextualizando o cenário, consta uma pergunta que estimulará sua reflexão sobre o cenário apresentado, com foco no desenvolvimento da sua capacidade de análise crítica. 5. Pausa para refletir São perguntas que o instigam a refletir sobre algum ponto estudado no capítulo. 6. Boxes São caixas em destaque que podem apresentar uma citação, indicações de leitura, de filme, apresentação de um contexto, dicas, curiosidades etc. 7. Proposta de atividade Sugestão de atividade para que você desenvolva sua autonomia e sistematize o que aprendeu no capítulo. • • • • 8 8. Recapitulando É o fechamento do capítulo. Visa sintetizar o que foi abordado, retomando os objetivos do capítulo, a pergunta norteadora e fornecendo um direcionamento sobre os questionamentos feitos no decorrer do conteúdo. 9. Referências bibliográficas São todas as fontes utilizadas no capítulo, incluindo as fontes mencionadas nos boxes, adequadas ao Projeto Pedagógico do curso. Boxes Navegue no recurso abaixo para conhecer os boxes de conteúdo utilizados. Afirmação Citações e afirmativas pronunciadas por teóricos de relevância na área de estudo. Assista Indicação de filmes, vídeos ou similares que trazem informações complementares ou aprofundadas sobre o conteúdo estudado. Biografia Dados essenciais e pertinentes sobre a vida de uma determinada pessoa relevante para o estudo do conteúdo abordado. Contexto Dados que retratam onde e quando aconteceu determinado fato; demonstram a situação histórica, social e cultural do assunto. Curiosidade9 Informação que revela algo desconhecido e interessante sobre o assunto tratado. Dica Um detalhe específico da informação, um breve conselho, um alerta, uma informação privilegiada sobre o conteúdo trabalhado. Esclarecimento Explicação, elucidação sobre uma palavra ou expressão específica da área de conhecimento trabalhada. Exemplo Informação que retrata de forma objetiva determinado assunto abordando a relação teoria-prática. Apresentação da disciplina Em nossa vida estamos constantemente em contato com informações provenientes das mais variadas fontes, como jornais, televisão, , entre outros, e com o desenvolvimento tecnológico a velocidade com que elas sãoInternet transmitidas é maior a cada dia. Por isso, cada vez mais os cidadãos precisam desenvolver um olhar crítico frente a todos esses dados, interpretando-os e utilizando-os, por exemplo, nas tomadas de decisão. Nos ambientes de trabalho, essa situação é ainda mais evidente, pois as tomadas de decisões não são mais dependentes apenas de intuição, cada vez mais as empresas buscam estratégias para escolherem as melhores opções de modo a favorecer os processos e otimizar os lucros obtidos, o que exige dos profissionais uma formação que permita a eles lidar com as informações, organizando-as, interpretando-as e construindo análises que possam contribuir com sua atuação nas mais diversas áreas. Diante desse contexto, a proposta de estudos nessa disciplina envolve um campo associado à Matemática e que pode contribuir com as ações já citadas, chamado de Estatística, em conjunto com a Probabilidade. Assim, os estudos serão direcionados aos fundamentos dos estudos estatísticos, dentre os quais podemos destacar a representação e análise de dados, além do estudo de tópicos de Análise Combinatória e Probabilidade que podem contribuir com a formação profissional por meio do desenvolvimento de competências e habilidades essenciais ao exercício da profissão escolhida. 10 A autoria Alessandra Negrini Dalla Barba Mestra em Matemática Aplicada e Computacional pela Universidade Estadual de Londrina (Paraná), especialista em Educação Matemática pela mesma instituição. Graduada em Bacharelado e Licenciatura em Matemática pela Universidade Estadual de Londrina (Paraná). Currículo Lattes: < >.http://lattes.cnpq.br/8799959526076750 Dedico esse material, primeiramente, a Deus, pois sem Ele não seria possível alcançar nenhuma vitória. Dedico também essa produção para toda a minha família, agradecendo-a pelo apoio que recebo a cada dia e pelo incentivo em todos os trabalhos realizados. Élida Maiara Velozo de Castro Mestre em Ensino de Ciências Naturais e Matemática pela Universidade Estadual do Centro-Oeste do Paraná (UNICENTRO). Especialista em Ensino de Matemática pela Faculdade Guairacá e em Educação e Formação Empreendedora pela UNICENTRO. Graduada em Matemática pela Faculdade Guairacá. Professora de Estatística Aplicada à Educação na Universidade Estadual do Paraná (UNESPAR). Currículo Lattes: < >http://lattes.cnpq.br/2160978984706438 11 Em agradecimento aos professores que passaram pela minha trajetória acadêmica e aos alunos com quem tanto aprendo durante minha trajetória profissional. Objetivos do capítulo Ao final deste capítulo, você será capaz de: • Construir e interpretar gráficos e tabelas. • Aplicar as técnicas de construção de gráficos com e sem intervalos de classe. • Aplicar a distribuição de frequência na representação de dados. Tópicos de estudo • Aspectos introdutórios da Estatística. • Notas históricas e importância. • A Importância da Estatística no meio empresarial e o processo decisório. • Conceitos fundamentais. • Etapas de uma pesquisa. • Processos estatísticos de abordagem e técnicas de amostragem. • Levantamento por recenseamento e levantamento por amostragem. • Amostragem probabilística e não probabilística. • Principais tipos de amostragem probabilística. • Variáveis, dados e erros. • Tipos de variáveis. • Tipos de dados. • • • • • • • • • • • • • • • 12 • Tipos de erros. • Representação tabular e representação gráfica de dados. • Tabelas de distribuição de frequências. • Principais tipos de gráficos. Contextualizando o cenário Com o desenvolvimento tecnológico que vem ocorrendo em nossa sociedade, as informações estão cada vez mais presentes em nosso cotidiano. Por isso, precisamos desenvolver competências e habilidades que permitam a interpretação, bem como o julgamento em relação à validade e à aplicabilidade dessas informações. Sendo assim, as tomadas de decisões que envolvem os diferentes setores não podem mais ser baseadas apenas em intuição. Assim, a Estatística configura-se como um campo de conhecimentos que pode contribuir com essas situações por dispor de técnicas e de ferramentas que podem ser interessantes no levantamento e na análise de dados para, por exemplo, tomadas de decisões e execução de ações direcionadas. Diante desse contexto, surge o seguinte questionamento: de que forma a Estatística pode contribuir para as tomadas de decisões e quais métodos e técnicas desse campo de conhecimentos podem auxiliar na interpretação das situações presentes em nosso cotidiano? 1.1 Aspectos introdutórios da Estatística A Estatística é uma ciência relacionada à Matemática que está presente nos mais diversos setores da sociedade. Quando destacamos as pesquisas eleitorais, as pesquisas de opinião ou os censos demográficos, por exemplo, temos fenômenos que envolvem conceitos estatísticos, pois, referem-se a procedimentos relativos à Estatística, como a coleta e a análise dos dados, entre outros. Além disso, a Estatística é uma área que contribui para a formação cidadã dos sujeitos, por fornecer ferramentas que possibilitam a interpretação e a avaliação crítica das informações (NOVAES; COUTINHO, 2013), o que viabiliza a tomada de decisão frente às diferentes situações. Diante disso, é importante conhecer algumas notas histórias e a importância delas. Acompanhe! 1.1.1 Notas históricas e importância Desde a Antiguidade, existem registros históricos do uso de pesquisas de caráter estatístico por diferentes civilizações. Por exemplo, no Antigo Egito, os faraós se utilizaram de de cunho estatístico, assim comoinformações as civilizações pré-colombianas maias, astecas e incas (POMPEU, 2004). Assim, essa preocupação com as coletas de informações foi manifestada pelos diferentes setores da sociedade, o que é evidente pela própria origem do termo , cuja etimologia tem como base o termo , do latim,estatística status que pode ser interpretado, nesse contexto, como a ciência que trata de dados de interesse do Estado ou comunidade (BECKER, 2015). • • • • 13 Assim, desde a Antiguidade, a humanidade vê a necessidade de fazer levantamentos de dados a respeito dos fenômenos e das situações que a cercam, o que favoreceu o desenvolvimento da Estatística enquanto ciência e sua aplicação no cotidiano. Fonte: © Artist_R / / Shutterstock. Logo, na atualidade, podemos interpretar a Estatística como a ciência que visa estudar o modo como as informações podem ser empregadas na reflexão e ação associadas a situações práticas, envolvendo incertezas, estudando números atrelados a contextos (NOVAES; COUTINHO, 2013). Mas, e a importância da Estatística no meio empresarial? Isto é o que veremos a seguir. CURIOSIDADE A estatística está presente na Bíblia. No novo testamento, no evangelho de Lucas, capítulo 2, versículos de 1 a 7, são apresentadas informações tais como a de o imperador romano César Augusto ter sido o responsável por ordenar a realização do primeiro censo demográfico desse Império. 14 1.1.2 A Importância da Estatística no Meio Empresarial e o Processo Decisório Suponha que o diretor comercial de uma empresa deseja fazer um levantamento a respeito dos itens defeituosos produzidos para buscar umaalternativa de reparação das perdas. Para isso, os conhecimentos da Estatística podem contribuir para as tomadas de decisões correspondentes. Fonte: © wellphoto / / Shutterstock. Assim, a pode fornecer ferramentas para a coleta e a análise de informações provenientes de diferentesEstatística tipos de contextos, possibilitando a tomada de decisões com uma melhor fundamentação, baseada em um panorama geral construído a partir dos dados coletados. Desse modo, no meio empresarial, um campo de estudos que vem se destacando é a análise de negócios, baseada em dados, análises quantitativas e estatísticas, entre outros, visando a tomada de decisões e as ações a serem executadas (LEVINE; STEPHAN; SZABAT, 2017). Com isso, cada vez mais as ações executadas pelos gestores deixam de ser meramente intuitivas para se tornarem fundamentadas em análises e observações realizadas com auxílio da Estatística. Mas, para isso, é importante que os profissionais conheçam os conceitos básicos da Estatística e as ferramentas correspondentes. Vamos lá? PAUSA PARA REFLETIR Em que situações específicas do seu dia a dia, a Estatística poderia lhe ajudar na tomada de decisões? 15 1.1.3 Conceitos Fundamentais A Estatística compreende um conjunto de métodos e processos de natureza quantitativa que visam estudar e mensurar fenômenos coletivos (SILVA ., 2018). Assim, dependendo do tipo de pesquisa, é inviável consultaret. al todos os integrantes do conjunto, como as pesquisas de intenção de votos, por exemplo. Como os resultados devem ser obtidos rapidamente, não é possível consultar todos os eleitores envolvidos. Logo, para compreender esse tipo de processo, faz-se necessário diferenciar os conceitos de população e de amostra. Fonte: © CSA Images / / iStock. A por exemplo, corresponde a todos os integrantes do conjunto de interesse no estudo de fenômenospopulação, coletivos, de modo que os integrantes apresentem certa característica em comum (TRIOLA, 2017). 16 Fonte: © Bakhtiar Zein / / Shutterstock. Por outro lado, uma corresponde a qualquer subconjunto não vazio da população (TRIOLA, 2017). Noamostra caso da pesquisa de intenção de votos, por exemplo, em geral, a população consiste em todos os eleitores, enquanto a amostra corresponde apenas àqueles que participam da pesquisa. Por meio da inferência estatística, podemos analisar apenas uma amostra e construir afirmações referentes a toda a população, conforme esquema a seguir. Processo de inferência estatística Conforme ilustrado no esquema acima, a inferência estatística corresponde ao processo de, partindo de informações coletadas em uma amostra, construir afirmações a respeito da população correspondente (LOCK . et al ., 2017). No entanto, para que o processo de inferência seja válido, é necessário que essa amostra seja escolhidaestatística de forma criteriosa. 17 Sendo assim, a diferenciação entre população e amostra é essencial para a estruturação da pesquisa estatística, influenciando o tipo de pesquisa que pode ser realizada e os métodos e etapas que devem ser aplicados em cada situação, como veremos a diante. 1.1.4 Etapas de uma pesquisa Um estudo estatístico pode ser organizado, basicamente, a partir da execução de três etapas: , preparação análise e , nessa ordem. Clique nos termos para saber mais.conclusão Preparação A fase de preparação envolve a identificação do objetivo da pesquisa, o contexto na qual ela está inserida, a delimitação da população e, se necessário, a seleção da amostra, além da coleta de dados propriedade dita. Análise Na fase de análise, as informações coletadas são exploradas e tratadas utilizando as diferentes formas de representação, como tabelas e gráficos, por exemplo, além de serem submetidas aos métodos estatísticos necessários. Conclusão A fase de conclusão objetiva analisar as informações já organizadas e previamente analisadas pelas ferramentas estatísticas, observando a relevância desse estudo no contexto correspondente. Além disso, verifica as conclusões que podem ser obtidas, para se realizar as tomadas de decisões e/ou executando as ações necessárias. PAUSA PARA REFLETIR Você destacaria outro exemplo de pesquisa estatística que pode ser desenvolvida no cotidiano, identificando qual é a população correspondente e os tipos de amostras a serem selecionadas? 18 Fonte: © BlueSkyImage / / Shutterstock. Para que possamos compreender e aplicar esse processo, precisamos conhecer as principais ferramentas e métodos estatísticos aplicados em cada uma dessas etapas, assunto que trataremos no próximo tópico. 1.2 Processos estatísticos de abordagem e técnicas de amostragem Para a realização de uma pesquisa estatística precisamos, inicialmente, identificar o tema da pesquisa e a população correspondente, como avaliar o perfil dos consumidores de determinado produto, ou de analisar o tempo de duração de certo objeto produzido por uma indústria, por exemplo. O processo de coleta de informações e o método adotado precisam ser determinados com base na intenção e no tipo de pesquisa a ser realizada, além de dependerem do tempo e dos recursos disponíveis. Assim, vamos investigar alguns procedimentos que podem ser empregados na primeira etapa de uma pesquisa estatística, mais especificamente no processo de coleta de informações. 1.2.1 Levantamento por recenseamento e levantamento por amostragem As coletas de informações que envolvem toda a população são caracterizadas como levantamentos por , que apresentam características como participação de toda a população, confiabilidade de 100%,recenseamento processo caro e quase sempre desatualizado e, por ser lento, nem sempre é viável. EXEMPLO Um tipo de levantamento por recenseamento é utilizado nos censos demográficos, pois a proposta nesse tipo de pesquisa é investigar características de toda a população, de modo que todos os habitantes da região delimitada para a pesquisa possam participar. 19 No caso do levantamento por amostragem, a proposta é realizar um estudo indireto da população por meio de uma amostra representativa da população, ou seja, que reflita as características predominantes da população. As características principais desse levantamento são a utilização de uma amostra da população; a confiabilidade menor que 100%; processo barato e atualizado e, por ser ágil, é sempre viável. E por isso, geralmente, é o mais utilizado. Porém, para que gere resultados confiáveis, as amostras devem ser selecionadas a partir de estratégias específicas e coerentes com os objetivos do estudo. A seguir, compreenderemos como realizar amostragem probabilística e não probabilística. 1.2.2 Amostragem probabilística e não probabilística A amostragem consiste no processo de seleção de uma amostra, a partir de uma população predeterminada. Para isso, é necessário escolher os tipos de critérios a serem adotados na seleção da amostra, conforme os objetivos da pesquisa. A primeira etapa em um processo de amostragem é a identificação das características da população cuja amostra será identificada, para evitar erros como a exclusão de grupos ou parcelas da população, por exemplo. Em seguida, temos o processo de seleção das amostras, probabilísticas ou não probabilísticas. Fonte: © Oleksandr_Delyk / / Shutterstock. Em uma amostra não probabilística, os indivíduos são selecionados sem que haja um conhecimento a respeito das probabilidades de escolha em relação a cada grupo que pode compor a população. Algumas das vantagens desse tipo de escolha são: conveniência, velocidade e baixo custo (LEVINE; STEPHAN; SZABAT, 2017). Apesar das vantagens desse tipo de amostragem, em um processo no qual será aplicada a inferência estatística não podemos aplicá-lo. Para isso, precisamos adotar a amostragem probabilística, na qual a amostra é selecionada com base em probabilidades previamente conhecidas. Além disso, a amostragemnão probabilística pode gerar resultados não confiáveis, os quais podem ser provenientes de um estudo baseado em uma amostra escolhida por conveniência, por exemplo, a qual pode não refletir as características da população em estudo. Por isso, veremos na sequência, uma outra estratégia para a seleção da amostra, a qual pode produzir resultados mais confiáveis, a amostragem probabilística. 20 1.2.3 Principais tipos de amostragem probabilística Na amostragem probabilística, temos alguns tipos específicos de estratégias para a seleção das amostras. Clique nos termos para conhecê-las. • Amostra aleatória simples Selecionada de modo que todos os elementos que integram a população tenham uma mesma probabilidade de participarem da amostra. • Amostra sistemática Construída a partir de uma regra específica, buscando uma amostra que seja aleatória e representativa da população, como, por exemplo, tomar o 1º, o 5º, o 10º elemento, e assim sucessivamente. • Amostra estratificada A população deve ser organizada em estratos, ou grupos, cada qual formado por indivíduos com características comuns, de modo que, dentro de cada estrato, os indivíduos que comporão a amostra sejam escolhidos de forma aleatória. • Amostra por conglomerado ou agrupamento Considera-se os grupos que são naturalmente formados a partir dos indivíduos da população, de modo que a amostra seja composta por todos os elementos de um ou mais grupos, sem envolver toda a população. Além disso, precisamos também saber quais são as variáveis (dados e erros), em todo esse processo. Continue acompanhando! 1.3 Variáveis, dados e erros No desenvolvimento de um estudo estatístico, os dados e as variáveis consistem em conceitos essenciais para a organização, a execução e a interpretação das informações coletadas e analisadas a partir das ferramentas estatísticas. Logo, para que possamos compreender como são realizadas as pesquisas e assimilar como podemos empregá-las nas tomadas de decisão, vejamos agora como podemos definir um dado e uma variável, no contexto da Estatística, e quais são os erros que podem estar associados a essas informações. 1.3.1 Tipos de variáveis No contexto da Estatística, uma é caracterizada como qualquer característica que pode ser avaliada diantevariável de uma população ou de uma amostra, podendo ser representada a partir de diferentes informações, como atributos, resultante de contagem, de medição, entre outras. • • • • 21 Assim, considere as variáveis sexo, grau de instrução, número de filhos e salário. Note que sexo e grau de instrução são variáveis associadas a uma qualidade, ou atributo, do indivíduo que está sendo pesquisado, enquanto salário e número de filhos estão atrelados a números resultantes de contagem ou mensuração. Logo, sexo e grau de instrução podem ser classificados como variáveis qualitativas, enquanto idade e número de filhos são variáveis .quantitativas Temos ainda as subcategorias correspondentes, conforme esquema a seguir. Classificação das variáveis. No esquema acima, é possível visualizarmos a classificação de diferentes variáveis. Além disso, temos algumas categorias específicas. Clique nos ícones para conhecê-las. Variável qualitativa nominal EXEMPLO Tipos de produtos em estoque, dimensões dos produtos e valor unitário são variáveis que podem ser estudadas, por exemplo, em um contexto industrial. PAUSA PARA REFLETIR Que outros exemplos de variáveis qualitativas e quantitativas você poderia destacar, além das que já foram apresentadas? 22 Não é possível adotar ordenação para os resultados possíveis. Exemplo: sexo. Variável qualitativa ordinal É possível ordenar os resultados possíveis. Exemplo: grau de instrução. Variáveis quantitativas discretas Os possíveis resultados compõem um conjunto finito ou enumerável e, em geral, resultam de contagem. Exemplo: número de filhos. Variáveis quantitativas contínuas Associadas a resultados que pertencem a intervalos de números reais e/ou a medições. Exemplo: altura. Agora, é preciso também conhecer os tipos de dados que podem ser colhidos no contexto da Estatística. 1.3.2 Tipos de Dados Dados correspondem às coleções de observações, os quais podem estar associados aos valores possíveis de serem assumidos pelas variáveis em estudo. Considerando as possíveis classificações para as variáveis, os dados podem ser categorizados de forma semelhante. Fonte: © Modella / / Shutterstock. 23 Observe que a Estatística dispõe de um conjunto de técnicas e de métodos para a realização das coletas de dados, conforme os objetivos centrais das pesquisas, sendo dividida em dois tipos. Clique nos termos e conheça-os. Estatística descritiva Visa descrever os dados observados. Estatística inferencial Objetiva obter conclusões e gerar informações para toda a população a partir das amostras correspondentes via probabilidade. Veja que o processo de um estudo estatístico vai além de uma coleta de dados, é essencial analisar as informações com base nos métodos e técnicas corretos, considerando os possíveis erros que possam surgir no processo. 1.3.3 Tipos de erros Um tipo de erro que pode ocorrer consiste em fazer o levantamento de dados por amostragem não probabilística e aplicar a inferência estatística, o que não é possível, pois as inferências são aplicadas apenas a amostras probabilísticas. Fonte: © antb / / Shutterstock. Além desse, temos alguns outros erros possíveis. Clique e conheça-os. Cobertura Associado ao processo de seleção da amostra, que pode ser ocasionado pela exclusão de certos grupos do processo de amostragem. Por falta de resposta Pode ser ocasionado pelo fato de indivíduos selecionados para a amostra se recusarem a participar da pesquisa. 24 Amostragem Relativo às variações entre amostras, de acordo com as probabilidades de seleção de determinados indivíduos. Medição Relacionado aos possíveis erros nas respostas provenientes dos próprios integrantes da amostra. Assim, no momento de organizar uma pesquisa estatística, é necessário organizar todas as etapas de modo a minimizar os erros, considerando também as questões éticas envolvidas. Assim, constrói-se uma pesquisa confiável, cujos resultados podem se aproximar da realidade, representando adequadamente a situação em estudo. Agora, como faremos essa representação? Isto é o que veremos a seguir. 1.4 Representação tabular e representação gráfica de dados De posse dos dados coletados mediante um processo adequado, com base, por exemplo, em um levantamento por amostragem aleatória simples, a etapa seguinte consiste na representação adequada das informações. Fonte: © RomanR / / Shutterstock. Para isso, podemos construir tabelas e gráficos, por exemplo, sendo necessário conhecer as classificações dos dados a serem analisados de modo a identificar o tipo de representação mais adequada para as informações a serem organizadas. No tópico a diante, conheceremos sobre tabelas de distribuição de frequências. 1.4.1 Tabelas de distribuição de frequências As informações provenientes de uma coleta de dados, em uma pesquisa estatística, correspondem aos dados não , ou dados brutos.agrupados 25 Quando organizamos os dados de forma ordenada, construímos o chamado rol de dados. Veja que em uma turma em uma escola de idiomas, em uma turma de inglês o rol é dado por: 18, 18, 18, 18, 21, 21, 21, 25, 25, 28, 28, 32, 32, 35, 41. Analisando novamente o conjunto de dados do exemplo citado, observe que na turma considerada existem quatro alunos com idade igual a 18 anos. Por isso, podemos afirmar que a frequência da idade 18, nesse conjunto, é igual a 4. Assim, a frequência está associada ao número de elementos que atendem à certa característica em um conjunto de dados, como é o caso da idade 18 anos no exemplo em estudo. Para a melhor organização dessesdados, podemos empregar uma distribuição de frequências, ou também chamada de tabela de frequências, utilizada para evidenciar como o conjunto de dados é organizado nas diferentes categorias, associando-as com as frequências. Podemos, nesse caso, construir tabelas com e sem intervalos de classes. Vejamos, inicialmente, a construção de tabelas sem intervalos de classes, considerando a descrição de variáveis qualitativas e quantitativas discretas. Para isso, consideremos novamente os dados da escola de idiomas, que dizem respeito a uma variável quantitativa discreta. A frequência simples ou absoluta corresponde à quantidade de ocorrências de um dado evento, em que no caso da escola de idiomas, temos a frequência absoluta associada à idade de 18 anos igual a 4. Assim, a soma das frequências envolvendo todos os eventos possíveis resulta no número total de observações . A frequência relativa consiste na razão entre a frequência simples e o número total de observações Para a escola de idiomas, a frequência absoluta da idade de 18 anos é igual a 4 e a quantidade de observações é 15, então a frequência relativa é dada por 4/15. Veja a seguir a distribuição de frequências correspondente. Idades dos alunos de uma turma de certa escola de idiomas. EXEMPLO Considere que uma escola de idiomas fez uma pesquisa sobre as idades dos alunos de uma turma de inglês, obtendo os seguintes dados: 21, 35, 18, 41, 32, 28, 25, 25, 28, 21, 18, 32, 18, 21 e 18. Esses são os dados não agrupados correspondentes a essa pesquisa. 26 Na tabela acima, na coluna da frequência, temos a indicação da quantidade de alunos que possui cada uma das idades presentes na primeira coluna, que são as categorias. Uma construção semelhante poderia ser realizada no estudo de variáveis qualitativas, desde que não tenhamos muitas categorias diferentes. Para variáveis contínuas, precisamos considerar intervalos de classe. Para isso, considere o conjunto de dados: 9,3; 7,2; 5,5; 6,0; 9,1; 7,3; 8,5; 8,5; 7,2; 6,0; 3,2; 10,0; 8,0; 2,4; 5,0; 3,2; 3,5; 2,5; 4,0; 8,3, o qual é composto por vinte valores, o que inviabiliza a construção de uma distribuição de frequências conforme apresentado anteriormente. Por isso, vamos trabalhar com dados agrupados na forma de classes, ou seja, de intervalos de valores. A amplitude dos dados é definida como a diferença entre o maior e menor valor do conjunto, e no exemplo é . Para determinar o número de classes, podemos escolher de acordo com o objetivo da pesquisa ou por meio de fórmulas. Se o número de dados no conjunto for , uma previsão para o número de classes ( ) é dadai por , por possibilitar a identificação de uma quantidade adequada de classes, correspondente ao tamanho do conjunto de dados em estudo. No caso do exemplo, como então . Assim, podemos tomar um inteiro próximo e obter o número de classes sendo igual a 5. Para o comprimento de cada classe basta dividir a amplitude pelo número de classes, e para o exemplo: . Para identificar as classes, veja que o primeiro dado do conjunto é 2,4, mas pelo comprimento de classe vamos tomar 2 como uma escolha conveniente para o limite inferior da primeira classe para que o limite superior da última classe seja 10. Assim, partindo de 2, temos as cinco classes: 2,0 a 3,6; 3,6 a 5,2; 5,2 a 6,8; 6,8 a 8,4; 8,4 a 10,0. Além disso, adotemos que o limite superior sempre pertencerá à classe em questão, então, 5,2 pertencerá apenas à segunda classe, mesmo sendo o limite inferior da terceira, por exemplo. E, para evidenciar esse fato temos a notação para a segunda classe, o que significa que o intervalo é fechado à direita e aberto à esquerda. Segue a tabela de distribuição de frequências associada. Tabela de distribuição de frequências Como apresentado na tabela, devemos identificar cada classe e a frequência correspondente. Agora, é importante salientar que há alguns tipos de gráficos que nos permitem representar dados. 1.4.2 Principais tipos de gráficos Além da representação em tabelas, os dados também podem ser organizados a partir de gráficos, de acordo com a natureza dos dados e a intencionalidade com a representação gráfica. Uma opção de representação gráfica são os gráficos de colunas ou barras verticais, em que o eixo horizontal representa as categorias e o eixo vertical, as frequências ou as frequências relativas, de modo que todas as colunas tenham a mesma largura e as alturas variem em função da frequência correspondente. Esse tipo de gráfico é empregado, principalmente, na descrição de variáveis qualitativas ou quantitativas discretas. O exemplo a seguir 27 corresponde aos times de preferência de funcionários de uma empresa com as frequências associadas. Além disso, esse modelo recebe o nome de gráfico ou diagrama de Pareto. Times de preferência dos funcionários da empresa No gráfico, as barras estão ordenadas em função das frequências correspondentes, quando isso acontece, o gráfico recebe o nome de gráfico ou diagrama de Pareto. Além desse, outro gráfico que tem relação com os de colunas são os de barras horizontais, os quais são construídos de forma análoga aos primeiros. O gráfico de setores, conhecido popularmente como gráfico de Pizza, é empregado na descrição de variáveis qualitativas e quantitativas discretas, e na comparação de parte com todo, o qual envolve poucas categorias diferentes. Nesse modelo, cada categoria é representada por um setor circular de tamanho proporcional à frequência correspondente. A seguir, temos o exemplo de tipos de planos de telefonia contratados pelos moradores de uma cidade. 28 Planos de telefonia contratados em determinada cidade. No gráfico acima os ângulos internos associados a cada setor são proporcionais às frequências absolutas ou relativas. Além disso, a soma das frequências relativas percentuais sempre deve totalizar 100%. Já para a descrição das variáveis quantitativas contínuas podemos empregar os Histogramas, os quais são compostos por barras verticais construídas lado a lado, as quais têm largura igual ao comprimento da classe correspondente, e cuja altura diz respeito à frequência da classe, logo, tem por base a tabela de distribuição de frequências correspondente. Vejamos, a seguir, um histograma associado a variáveis contínuas. Histograma para descrição de variáveis quantitativas contínuas. No caso do histograma anterior, temos seis classes descritas pelas colunas, cujas alturas indicam as frequências de cada classe. 29 Considerando o último exemplo apresentado na seção anterior, também podemos construir um histograma associado, conforme apresentado no que segue. Histograma associado à distribuição de frequências construída Note que no eixo horizontal, temos a indicação dos intervalos de classe, no eixo vertical as frequências possíveis, sendo as relações apresentadas por meio das colunas, todas com mesma largura e alturas correspondentes às frequências associadas. Assim, para fechar os nossos estudos, cabe enfatizar que Estatística serve como elemento norteador no levantamento de dados os quais auxiliam em diferentes áreas nas tomadas de decisões. Proposta de atividade Agora é a hora de recapitular tudo o que você aprendeu nesse capítulo! Elabore uma apresentação em PowerPoint destacando as principais ideias abordadas ao longo do capítulo. Ao produzir sua apresentação, considere as leituras básicas e complementares realizadas. Procure evidenciar, nessa apresentação, quais foram os principais conceitos discutidos no capítulo, identificando as relações que podem ser estabelecidas entre eles e exemplos que ilustrem cada um dos conceitos principais. Recapitulando No estudo da Estatística, precisamos conhecer os principais conceitos, métodos e técnicas, bem como as etapas que caracterizam o desenvolvimento de uma pesquisa estatística. Esse processo envolve a identificação do objetivo, da população, da amostra, quando necessário, alémdos procedimentos de coleta de dados e, posteriormente, de tratamento e de análise dessas informações. Neste sentido, a amostragem é uma das etapas essenciais para grande parte das pesquisas, devido à dificuldade em realizar determinadas pesquisas com toda a população. Vimos também que diversas situações do cotidiano envolvem pesquisas estatísticas, como o número de acessos em páginas da Internet, a quantidade de pessoas que frequentam determinados locais, entre outros. Por isso, é importante que possamos compreender como esses processos são desenvolvidos, como podemos caracterizar as variáveis e representá-las. Nesse último caso, podemos adotar tanto as representações em tabelas 30 de distribuição de frequências como em gráficos, desde que avaliemos cada variável de forma independente e considerando as possíveis categorias associadas a elas. Assim, uma pesquisa estatística pode ser empregada para tomadas de decisões bem fundamentadas, auxiliando na identificação das melhores opções em cada situação, desde que cada etapa desse processo seja realizada de forma criteriosa e seguindo todos os conceitos e princípios correspondentes. Referências BECKER, J. L. Transformando Dados em Informação. Porto Alegre: Bookman, 2015.Estatística Básica: HORIGUTI, A. M.; DONADEL, J. . São Paulo:Matemática Comercial e Financeira e Fundamentos de Estatística Érica, 2014. LEVINE, D. M.; STEPHAN, D. F.; SZABAT, K. A. : Teoria e Aplicações Usando o Microsoft® Excel emEstatística Português. 7. ed. Rio de Janeiro: LTC, 2017. LOCK, R. H. et. al. Estatística: Revelando o Poder dos Dados. Rio de Janeiro: LTC, 2017. LUCAS. Português. In: . Tradução da Conferência Nacional dos Bispos do Brasil. São Paulo: EditoraBíblia Sagrada Canção Nova, 2012. p. 1271. Bíblia. N. T. MEMÓRIA, J. M. P. . Brasília, DF: Embrapa Informação Tecnológica, 2004.Breve História da Estatística MORETTIN, P. A.; BUSSAB, W. O. . 8. ed. São Paulo: Saraiva, 2013.Estatística Básica NOVAES, D. V.; COUTINHO, C. Q. S. . 2. ed. São Paulo: Atlas,Estatística para Educação Profissional e Tecnológica 2013. SHARPE, N. R.; DE VEAUX, R.; VELLEMAN, P. F. Administração, Economia e Negócios. PortoEstatística Aplicada: Alegre: Bookman, 2011. SILVA, E. M. . . 5. ed. São Paulo: Atlas, 2018.et al Estatística TRIOLA, M. F. . 12. ed. Rio de Janeiro: LTC, 2017.Introdução à Estatística VIEIRA, S. . São Paulo: Cengage Learning, 2015.Estatística Básica 31 RACIOCÍNIO ANALÍTICO E QUANTITATIVO CAPÍTULO 2 - MEDIDAS DESCRITIVAS Élida Maiara Velozo de Castro 32 Objetivos do capítulo Ao final deste capítulo, você será capaz de: • Interpretar e aplicar as principais medidas descritivas na resolução de problemas práticos do meio empresarial. Tópicos de estudo • Medidas de centralidade. • Média aritmética, média geométrica e média ponderada. • Média harmônica e média quadrática. • Mediana e moda. • Cálculo das medidas de centro para dados agrupados em classes. • Medidas separatrizes. • Quartis. • Decis. • Percentis. • Medidas de dispersão. • Variância e desvio padrão. • Coeficiente de variação de Pearson e erro padrão. • Escore padronizado e outliers. Contextualizando o cenário Você já deve ter ouvido falar, em diversos canais de comunicação, sobre algumas medidas de tendência central ou medidas de posição. Alguns exemplos são: brasileiros consomem em média 817 xícaras de café por ano; a maioria dos carros vendidos no Brasil, em 2009, eram da cor branca; resultado do Enem mostra que metade dos candidatos não seria aprovada no ano letivo. Essas afirmações, possivelmente, são resultado de pesquisas e tratamento de dados estatísticos. As medidas resumo ou medidas descritivas podem ser utilizadas para representar um conjunto de dados de maneira mais sintetizada, permitindo, assim, uma melhor leitura desses dados. A importância das medidas descritivas está associada ao fato de permitirem olhar para um conjunto de dados de maneira concisa de modo a tomar decisões fundamentadas em poucos valores que representam o conjunto como um todo. Diante disso, surge a seguinte questão: como essas medidas podem ser utilizadas para resolver problemas práticos? 2.1 Medidas de centralidade Para apresentar, de forma mais sintética, o conjunto de dados observados da variável em estudo, utilizamos medidas de centralidade, que se caracteriza por um número representativo, ou , em torno do qual os dadoscentral se concentram. Essas medidas são conhecidas também como medidas de posição ou medidas de tendência central. • • • • • • • • • • • • • • 33 De acordo com o objetivo da pesquisa, o nível de mensuração e o aspecto ou forma de distribuição de dados, as medidas de centralidade mais conhecidas podem ser expressas a partir da média, da moda ou da mediana. 2.1.1 Média aritmética, média ponderada e média geométrica A é valor que representa o ou (AZEVEDO; CAMPOS; 1987).média ponto de equilíbrio uniformização do conjunto • Média aritmética De modo geral, podemos definir a como resultado da divisão do somatório dos valoresmédia aritmética observados pelo número de valores contidos no conjunto. Fonte: © Andrey_Popov / / Shutterstock. Veja que a média populacional representa a média de todos os elementos do conjunto que estamos estudando. Entretanto, devemos levar em consideração o fato de que nem todos os elementos podem ser medidos, ou seja, podemos medir apenas uma parte deles. Por isso, de modo geral, somente uma amostra de todos elementos pode ser conhecida e, de modo geral, a média baseada nesta amostra será usada para estimar a média populacional . Assim, utilizamos a média aritmética simples, quando os dados estão isolados e são organizados em rol ( em um conjunto que contém elementos: ou Por exemplo: a conta de energia elétrica do último semestre de 2018, de uma residência, teve os seguintes valores (em reais): • 34 Desse modo, qual foi a média (em reais) do consumo de energia elétrica nessa residência? Efetuamos a soma de todos os valores referentes à conta de energia elétrica e dividimos pelo total de , ou seja, de meses analisados (n=6).contas Ao dizer que a média de consumo de energia elétrica foi de 109, 27 reais no último semestre de 2018, é como se afirmássemos que todos os meses desse semestre foram gastos 109,27 reais na conta. • Média ponderada Quando nos referimos à valores organizados de acordo com a frequência (também é comumente chamada de peso) em que aparecem no conjunto de dados ( aparece vezes no conjunto), utilizamos a .média ponderada ou Vejamos o exemplo. No quadro abaixo, temos a relação da quantidade de filhos dos trabalhadores de uma empresa: Observe que há uma frequência para o número de filhos, por exemplo, 4 trabalhadores não tem filhos ( , 11 trabalhadores têm apenas um filho ( , e assim por diante. Por isso, para calcularmos a média neste caso, procedemos da seguinte maneira: Assim, a média é de aproximadamente 2 filhos por trabalhador. • Média Geométrica Quando os dados apresentam uma distribuição que não é simétrica, fazemos uso da . Pormédia geométrica apresentar menor variância, a média geométrica, reduz o impacto de valores individuais elevados. Ela é obtida extraindo-se a raiz-enésima (sendo o número de elementos do conjunto) do produto dos dados ( ). Para calcular a média geométrica simples, utilizamos: ou • • 35 Para calcular a média geométrica ponderada, extraímos a raiz-enésima (sendo o número de elementos do conjunto) do produto dos dados ( ), como visto anteriormente, entretanto neste caso elevamos cada um dos dados à sua frequência/peso ( ). ou Atenção: a notação matemática para diferenciar média populacional de amostral é: a letra (mi) para designar a média populacional e para média amostral. A forma de calcular é a mesma para ambas, apenas a representação é quese altera. Vamos acompanhar um exemplo prático para o emprego da média geométrica. Com a especulação imobiliária em alta, o aluguel de um apartamento que custava R$ 600,00 sofreu quatro aumentos consecutivos em um período de 12 meses. Fonte: © Andrii Yalanskyi / / Shutterstock. Os aumentos foram de 15%, 10%, 12% e 6% respectivamente. Qual o valor do aluguel depois desses reajustes? 600,00 + 10,7015% = 664,21 664,21+ 10,7015% = 735,29 735,29 + 10,7015% = 813,97 813,97 + 10,7015% = 901,07 Observe que os aumentos de 15%, 10%, 12% e 6% foram sucessivos, em que o 15% era sobre o valor inicial, o 10% era sobre o valor inicial mais o reajuste de 15% que havia sofrido, o 12% sobre o valor inicial com os reajustes de 15% e 10% sucessivamente. Ou seja, a taxa de aumento incidiu sempre sobre o valor inicial e o aumento sofrido no (s) período(s) anterior. Assim, a média aritmética não seria suficiente por considerar que a média das taxas sempre incidiria sobre o valor inicial. 36 A média aritmética é utilizada com mais frequência, embora para alguns casos específicos ela não seja satisfatória, como quando trabalhamos com dados em progressão geométrica, utilizamos aí, a média geométrica. Isso porque os valores aumentam de forma contínua e sucessiva (um sobre o outro). Também nos casos em que os dados aparecem em tabelas de frequência, torna-se mais prático, rápido e eficaz o cálculo pela fórmula da média ponderada. Além disso, existem outros tipos de média: a harmônica e a quadrática, as quais são apresentadas na seção a seguir. 2.1.2 Média Harmônica e Média Quadrática Quando trabalhamos com grandezas inversamente proporcionais, a média que melhor representa o conjunto de dados é a .média harmônica Ela é obtida a partir do cálculo do quociente entre o número de dados do conjunto e a soma dos seus inversos, considerando que todos os dados do conjunto são diferentes de zero. Assim, podemos calcular a média harmônica pelas seguintes fórmulas: Média harmônica simples: ou Média harmônica ponderada: ou No exemplo a seguir, podemos observar a aplicação da média harmônica para resolver um problema prático. Um automóvel parte do Rio de Janeiro com destino a São Paulo desenvolvendo uma velocidade média de 70 Km/h, voltando no dia seguinte ao ponto de partida com uma velocidade média de 90 Km/h. Qual a velocidade média para a viagem completa (ida e volta)? (AZEVEDO; CAMPOS, 1987). PAUSA PARA REFLETIR Em situações problema envolvendo a progressão geométrica dos dados, você entende que por meio da média geométrica o resultado pode ser calculado com mais facilidade e eficácia? 37 Fonte: © Ollyy / / Shutterstock. Como estamos trabalhando com grandezas inversamente proporcionais, quanto maior a velocidade menor o tempo, temos que: n = 2 (duas velocidades) = 70 km/h = 90 km/h = = Na divisão entre números racionais (fração) conservamos o dividendo (2) e multiplicamos pelo inverso do divisor (se o divisor é , seu inverso é ). = = 78,75 km/h Assim, a velocidade média do percurso total foi de 78,75 Km/h • Média Quadrática Quando desejamos conhecer média quadrática, precisamos calcular o resultado da raiz quadrada da média aritmética dos quadrados dos dados do conjunto. PAUSA PARA REFLETIR Por que a média aritmética não fornece um resultado satisfatório em situações como essa? • 38 Média quadrática simples: ou Média quadrática ponderada: ou Podemos usar a média quadrática, na Estatística, para obter o desvio padrão da população, quando o conjunto de valores utilizado é o quadrado da diferença de cada elemento com a média aritmética do conjunto. Além disso ela é muito utilizada na Física, para cálculos de Tensão RMS. Embora a média seja a medida de posição mais conhecida e utilizada para fazer inferências, existem alguns casos que não é possível sua utilização ou ela não retrata satisfatoriamente o conjunto de dados observados. Por exemplo, quando os dados são qualitativos ou quando os elementos extremos do conjunto são muito distantes. Nesses casos, podemos recorrer às medidas denominadas mediana e moda, como veremos a seguir. 2.1.3 Mediana e Moda Mediana refere-se ao elemento da série ordenada, assim, em um conjunto de números ela é maior quedo meio uma metade dos valores e menor que a outra metade. Por isso, os dados devem estar organizados em rol, ou seja, os números devem ser organizados em ordem crescente. Assim, se a quantidade de dados de um conjunto for ímpar, a mediana é o termo central. Ex.: 4, 6, 7, , 8, 9, 118 Md = 8 Caso seja uma quantidade par, calcula-se a mediana por meio da média aritmética dos dois termos centrais. Ex.: 4, 5, 6, , 8, 9, 117, 8 Md = Md = 7,5 O símbolo da mediana é dado por Md ou , e a sua posição é dada por meio do da expressão: Quando falamos em moda, logo imaginamos algo que é tendência, está em alta, que a está usando.maioria 39 Fonte: © FashionStock.com / / Shutterstock. Não muito distante desse conceito, a Moda, em estatística, pode ser definida como a medida de centralidade em que identificamos o elemento que aparece com mais frequência no conjunto de dados. Em relação à moda, um conjunto de dados pode ser classificado como apresentado nos itens a seguir. Clique para ler. Unimodal Quando possui apenas um elemento considerado moda. Multi modal (ou plurimodal) Quando o conjunto possui mais de uma moda. Amodal Quando não há elementos que se repetem com maior frequência, ou seja, quando não há moda. 40 Tomemos como exemplo o seguinte conjunto de dados, que representa as horas de sono que um grupo de estudantes dorme por dia. 4, 5, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 9, 9, 10 – Mo = 7, que é o elemento que aparece com mais frequência, ou seja, o maior número de pessoas dorme 7 horas por dia. Caso houvesse mais uma pessoa no grupo, que dorme 6 horas por dia, qual seria a moda? 4, 5, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 9, 9, 10 - Mo = 6 e 7, dizemos que o conjunto é bimodal (duas modas) ou multi modal. É importante compreender que, em situações práticas, podemos usar qualquer uma das medidas de centralidade vistas até o momento (média, moda e mediana) para leitura, análise e inferências acerca de um conjunto de dados observados. Entretanto, vale lembrar que a escolha sobre qual utilizar, deve estar atrelada ao cuidado de que as medidas escolhidas não distorçam a realidade e possam acrescentar informações relevantes para a tomada de decisão. 2.1.4 Cálculo das Medidas de Centro para Dados Agrupados em Classes Em algumas situações, os dados apresentam-se agrupados em classes. Para ilustrar os conceitos que estudaremos agora, leia atentamente o exemplo a seguir: em um hotel, que serve café da manhã aos seus hóspedes, uma toxina no presunto usado no preparo de uma omelete servida no café da manhã em um hotel provocou uma intoxicação alimentar nos hóspedes. Apenas dois hóspedes não adoeceram. O quadro a seguir mostra o tempo em horas, após a ingestão do café da manhã, que os restantes dos 192 hóspedes do hotel adoeceram. ESCLARECIMENTO Existem alguns materiais que trazem classificações específicas para duas modas (bimodal) e três modas (trimodal). 41 Quando os dados estão dispostos em grupos de intervalos de classes, em quadros, tabelas ou gráficos, podemos obter as médias por meio das seguintes fórmulas: Média ponderada: ou Média harmônica: ou Média quadrática: ou No exemplo da intoxicação por presunto, podemos calcular a média ponderada dos dados. Para isso, calculamos a média de cada intervalo de classe, somando o limite inferior com o limite superior e dividindo por dois. Em seguida, multiplicamos a média do intervalo pela sua frequência: 42 Somando todos os e dividindo pelo total de , temos: horas em média para que os hóspedes adoecessem. Em casos como esse, em que osdados estão agrupados em classes, também é possível encontra a mediana, seja o intervalo ao qual ela pertence ou o próprio valor que a representa. Para encontrarmos o intervalo que contém a mediana, precisamos conhecer a frequência acumulada das classes. No exemplo dado, temos: 43 Como são 192 dados, não teremos apenas um elemento central, mas um par. Como 192 dividido por 2 é igual a 96, temos que os elementos centrais são os que estão na posição 96 e 97. Obtemos a mediana fazendo a média entre eles, ou seja, = 96,5. Essa posição está no intervalo de [2,5; 3,0[que contém até o 127º elemento. Não pode pertencer a classe anterior ([2,0; 2,25[) pois ela contém apenas até o 92º elemento. Mas se queremos um valor pontual para a Mediana, procedemos da seguinte forma: Onde: li: limite inferior da classe mediana; n: número total de elementos; fant: frequência acumulada anterior à classe mediana; fmed: frequência absoluta da classe mediana; c: amplitude da classe mediana. No exemplo citado, temos: Portanto, no exemplo, o termo de posição central, que divide o conjunto em duas partes iguais é, aproximadamente, 2,5157 horas. Quando nos referimos à moda, nesses casos, podemos obter a classe modal ou o elemento que representa a moda. Se observarmos o quadro da intoxicação por ingestão de presunto, vemos que o intervalo de tempo que mais aconteceram casos de adoecimento foi entre 2,5 e 3,0 horas, portanto essa é a classe modal. 44 Para dados agrupados em intervalos de classes, você pode calcular a moda por meio do método de Czuber, que se baseia na influência das classes adjacente na moda deslocando-se no sentido da classe de maior frequência. A expressão que você utilizará é: Onde: Li: limite inferior da classe modal; d1: diferença entre a frequência da classe modal e a imediatamente anterior; d2: diferença entre a frequência da classe modal e a imediatamente posterior; c: amplitude da classe modal. Voltando ao exemplo: Continue observando: 45 Portanto, a moda, ou seja, o elemento que aparece com mais frequência no exemplo dado foi, aproximadamente, 2,763 horas. Vamos ver como podemos aplicar tais conceitos na prática. Observe o exemplo: uma marca de celular realizou um levantamento sobre a vida útil da bateria dos aparelhos fabricados, obtendo a seguinte distribuição vista no gráfico e na tabela: 46 Vida útil da bateria de celulares Vamos entender as informações dadas! O ponto médio da classe xi é o resultado da soma entre os extremos dos intervalos dividido por dois, ou seja, a média do intervalo. A multiplicação (Fi). (xi) fornece resultado do produto da média da classe pela sua frequência ou peso. Já a frequência acumulada Facum é dada pela soma (ou o total corrente) de todas as frequências até o ponto presente no conjunto de dados. Por exemplo, na primeira classe, temos apenas 3, ou seja, a frequência que essa classe aparece. Na segunda classe, temos 45 que é resultado da soma entre a frequência da segunda classe mais a primeira. Para calculamos a média será dada por meio da definição de média ponderada, onde multiplicamos os pesos de cada classe pela média do intervalo de classe: Como são dados na tabela, apenas realizamos a substituição e as devidas operações: = 19,2 Ou seja, a vida útil das baterias é em média 19,2 meses. Para a obtenção da Mediana: Como a mediana divide o conjunto de dados ao meio, e 330 é par, portanto, precisamos considerar o termo de posição 165 e 166, ou seja, no intervalo [18, 24[. Aqui podemos notar com qual finalidade obtemos a frequência acumulada nesse caso. Agora sabemos que a posição entre 165 e 166 está no quarto intervalo de classe, pois considerando que o anterior contém até 131 dados e ele contém até 258, concluímos que a mediana pertence ao quarto intervalo dessa distribuição. Entretanto, para definirmos o valor pontual que descreve a mediana, podemos fazer o cálculo usando a fórmula: Md = 18 + 6 Md = 18 + 1,606 = 19,606 47 Portanto, o valor central dessa amostra é 19,606 meses de vida útil da bateria do celular. Para definirmos a Moda, podemos selecionar o intervalo modal que, neste caso, é o quarto intervalo ([18, 24[) que possui a maior frequência, ou fazê-lo por meio da fórmula: Mo = 18 + = 21,9 O valor de 21,9 obtido para moda, está no intervalo de [18, 24[que é o intervalo com maior frequência. Portanto, média, moda e mediana correspondem respectivamente a 19,2; 19,606 e 21,9 meses de vida útil das baterias. Assim, podemos concluir que as medidas de centralidade, em acordo com Novaes e Coutinho (2013), dependem dos objetivos que se tem com a pesquisa e da forma como os dados se apresentam. A média só pode ser obtida sobre variáveis quantitativas, a mediana é mais apropriada quando existe uma grande variabilidade dos dados e a moda nos possibilita colocar um valor em destaque diante dos demais. A seguir, veremos as medidas separatrizes. 2.2 Medidas Separatrizes As separatrizes, embora não sejam medidas de centralidade, nos permitem a separação do conjunto de dados ordenados em partes iguais que apresentam o mesmo número de valores. Fonte: © nanmulti / / Shutterstock. 48 As principais são os quartis, os decis e os percentis, assim como a mediana que separa o conjunto em duas partes que apresentam o mesmo número de valores. Começaremos os estudos a partir dos quartis. 2.2.1 Quartis Denominamos quartis a divisão do conjunto de dados em quatro grupos iguais, ou seja, os três valores Q1, Q2 e Q3, dividem a distribuição em grupos com cerca de 25% dos valores em cada um. Sendo assim, a posição do elemento que fará essa divisão é dada pelo elemento quartil. Podemos calcular a posição do elemento quartil por meio da fórmula: , para (i = 1, 2, 3) Veja que: Q1 - Separa os 25% inferiores dos 75% superiores dos valores ordenados. Q2 - O mesmo que a mediana (separa os 50% valores ordenados inferiores dos 50% superiores). Q3 - Separa os 75% inferiores dos 25% superiores dos valores ordenados. Assim como os quartis, outras separatrizes podem ser utilizadas para dividir o conjunto de dados, em dez (decis) ou cem (percentis) grupos iguais, como veremos a seguir. 2.2.2 Decis Os decis são valores que dividem, em dez grupos iguais, um conjunto de dados ordenados. Precisamos de nove decis (D1, D2,...,D9) para dividir o conjunto em dez grupos iguais, deixando assim, cada grupo com 10% dos valores. Assim, utilizamos uma fórmula análoga ao caso dos quartis para calcular a posição do elemento decil: , para (i = 1, 2, 3,..., 9) AFIRMAÇÃO A regra para obtenção dos valores dos quartis, a partir da posição encontrada, será: quando n é ímpar, o arredondamento deve ser para cima da posição encontrada; e quando n é par, devemos fazer a média do valor encontrado e do subsequente. 49 É possível observar os 9 decis, separando o conjunto em 10 grupos iguais. E quanto às medidas que dividem um conjunto ordenado? Como ficam? É o que veremos a seguir. 2.2.3 Percentis Os percentis ou centis são medidas que dividem um conjunto de dados ordenados em cem grupos com a mesma quantidade de elementos em cada grupo. Para tanto, são necessários, noventa e nove percentis representados por P1, P2, P3,..., P98, P99. Dessa forma, os percentis são utilizados quando se deseja analisar uma parte qualquer de dados compreendidos entre 1% e 100% A fórmula para cálculo da posição do elemento percentil é dada por: , para (i = 1, 2, 3,..., 99) Podemos perceber que, cada uma das cem partes do conjunto representa 1% dos valores. De modo geral, é importante evidenciarmos que para o cálculo das separatrizes para dados agrupados em classes de frequência, pode ser utilizada a formula geral dada por: Onde: Se = separatriz desejada; Li = limite inferior da classe que contém a separatriz; ‘Fa = frequência acumulada da classe vizinhaanterior à classe que contém a ordem da separatriz; F = frequência da classe que contém a separatriz; h = amplitude da classe que contém a separatriz. Nesse sentido, podemos concluir, amparado em Novaes e Coutinho (2013, p. 52) que as separatrizes nos permitem “uma rápida visualização de como os dados estão distribuídos, onde existe maior concentração os dispersão”. Acabamos de estudar as separatrizes mais usuais, entretanto, outras poderiam ser deduzidas. Em uma situação prática, podemos utilizar as separatrizes como no exemplo: No gráfico a seguir, observamos um levantamento realizado em uma academia sobre a quantidade de dias da semana que seus clientes frequentam o estabelecimento. 50 Utilização de separatrizes A academia resolve premiar os 10% dos clientes que são mais assíduos. Quantos dias, no mínimo o cliente deve frequentar a academia para que esteja entre os premiados? D9 = , ou seja, a partir do dado de posição 90 Calculando a frequência acumulada, vemos que a posição 90 está na classe de , portanto, a academia pode4 dias premiar os alunos que fazem a partir de 5 dias, já que a partir da posição 90 estão os clientes que frequentam a academia 5 dias por semana, ou seja, os 10% que mais frequentam. Cálculo da frequência acumulada Até o momento estudamos as medidas de centralidade (médias, mediana e moda) e como esses dados podem ser agrupados (separatrizes). Estudaremos agora sobre a variabilidade dos elementos de um conjunto de dados em relação ao seu , ou seja, em relação à média, por meio das medidas de dispersão.ponto de equilíbrio 51 2.3 Medidas de Dispersão As medidas de centralidade, que representam a síntese dos dados de um conjunto por meio de um único valor, embora sejam importantes para reconhecermos a tendência central do conjunto, não nos informam sobre a dispersão ou variabilidade dos dados. Assim, para realizar uma leitura, análise e considerações mais precisas, acerca das informações presentes em um conjunto de dados, necessitamos de medidas complementares sobre a dispersão ou homogeneidade dos dados do conjunto. Essas informações sobre a variabilidade dos dados são obtidas com base nas medidas de dispersão, que nos permitem analisar o quão distantes os dados do conjunto estão das medidas de centralidade, ou seja, observar como esses dados se comportam em torno da medida de posição em questão, conforme descrito abaixo. 2.3.1 Variabilidade A variabilidade, ou dispersão, indica a variação da distribuição de um conjunto de dados em torno da média, ou seja, o quanto esses dados se distanciam ou se aproximam entre si. Uma análise estatística mais completa depende de informações sobre a variabilidade dos dados observados. As principais medidas de variabilidade são a variância e o desvio padrão, como estudaremos na sequência. 2.3.2 Variância e Desvio Padrão A variância é uma medida de dispersão das variáveis que mede o quadrado da distância entre uma observação e sua média. Variância Populacional: ou Variância Amostral: ou 52 Observe que para a variância amostral, a soma do quadrado dos desvios é dividida por , onde n corresponden – 1 número de observações. Esse valor n – 1 (tamanho da amostra menos um) é denominado .grau de liberdade O grau de liberdade é a diferença entre o número de determinações independentes (dimensão da amostra) e o número de parâmetros estatísticos a serem avaliados na população. Os graus de liberdade representam a quantidade de informação que seus dados fornecem e você pode usar para estimar os valores de parâmetros populacionais desconhecidos, além de calcular a variabilidade dessas estimativas. Quanto maior for a amostra, teremos mais informações sobre a população e consequentemente um grau de liberdade maior. Outro aspecto ressaltado por Novaes e Coutinho (2013) acerca da variância, é o fato de ela ser obtida elevando ao quadrado a diferença entre cada um dos elementos e a média dos dados. Isso porque, ao elevar ao quadrado, evitamos que valores negativos sejam descontados dos positivos e com isso impedimos que a soma dos desvios seja nula. Por consequência, isso é importante porque, extraindo-se a raiz quadrada da variância, obtemos o desvio padrão. Utilizamos o desvio padrão para conhecer a variação entre os valores, do conjunto de dados. Quanto maior for o desvio padrão, “maior será a heterogeneidade entre os valores que estão sendo analisados” (PEREIRA, 2004, p. 23). Isto é, quanto maior for o desvio padrão, maior será a variação entre os valores, quanto menor for o desvio padrão, menor será a variação entre os valores. Podemos calcular o desvio padrão em relação à população ou a amostra. Desvio Padrão Populacional: ou Desvio Padrão Amostral: ou Novamente, temos que, para o desvio padrão amostral, o quociente entre a soma dos quadrados dos desvios e (n- 1), devido ao grau de liberdade, ou seja, quanto maior for a amostra, maior será o grau de liberdade porque apresenta maiores informações sobre a população. Observe o exemplo em uma situação prática: As idades dos membros de uma família são representadas na tabela a seguir: CURIOSIDADE O conceito de medida de dispersão foi criado por Abraham de Moivre, em 1718. O termo desvio padrão foi pontualmente usado pela primeira vez por Karl Pearson, em 1894. Em 1908, William Gosset definiu o desvio padrão empírico de uma amostra, distinguindo-o de desvio padrão populacional. 53 Calcular a variância e o desvio padrão amostral desses dados, pois é apenas uma parte de uma família que serve de amostra de uma população que pode ser maior. Ou seja, essa família pode ter outros membros que não foram enumerados aqui. Primeiro, calculando a média aritmética, obtemos: Segundo, calculamos a variância: Agora, como o desvio padrão é a raiz quadrada da variância, temos que: Portanto, se a média é 22 anos, os demais dados se dispersam da média em 21,2 anos para mais ou para menos. Quanto maior o desvio padrão, mais “espalhados” os dados estão da média. É importante ressaltar que a variância e o desvio padrão serão úteis apenas nos casos em que se deseja comparar a variabilidade de dois ou mais conjuntos de dados quando a média, o número de observações e as unidades analisados forem os mesmos. Devido ao fato de o desvio padrão e a variância serem medidas de dispersão absolutas, ou seja, são expressos na mesma unidade de dados, evidencia-se a necessidade de medidas que considerem dados que não apresentam tal comportamento. Para isso recorremos ao coeficiente de variação e medida de erro padrão, conforme segue abaixo. DICA Você pode usar a calculadora científica para realizar todos esses cálculos de variância e desvio padrão, de forma rápida e prática. 54 2.3.3 Coeficiente de Variação de Pearson e Erro Padrão Se temos intenção de analisar a variabilidade dos dados em termos relativos a seu valor médio quando dois ou mais elementos do conjunto apresentam unidades de medida diferentes, podemos usar o Coeficiente de Variação . Dessa forma, podemos definir coeficiente de variação como uma forma de descrever a dispersão ou homogeneidade dos dados utilizando por parâmetro o grau de concentração em torno da média em distribuições distintas. Coeficiente de variação populacional: Onde: CV = coeficiente de variação; = desvio padrão populacional; = média populacional. Coeficiente de variação amostral: Onde: CV = coeficiente de variação; s = desvio padrão amostral; = média amostral. Novaes e Coutinho (2009) lembram que é importante, ao analisar os valores do CV, considerar que quando há uma variação acima de 50% o grau de dispersão é considerado alto, pois indica que há uma baixa representatividade da média na distribuição observada. Assim, segundo as autoras, o intervalo entre [ (no caso da amostra, por exemplo) tem uma amplitude muito alta se comparado à amplitude totaldo conjunto. Observe o exemplo na prática: Fonte: © smolaw / / Shutterstock. 55 Em um concurso público municipal, foi aplicada uma mesma prova para os cargos Adm1 e Adm2. A média dos candidatos ao cargo Adm1 foi de 7,00 com desvio padrão 1,0. A média dos candidatos ao cargo Adm2 foi de 6,00 com desvio padrão de 0,5. Calcular o coeficiente de variação em cada caso e analisar seu significado. Utilizaremos o coeficiente de variação populacional, pois conhecemos os dados de todos os elementos de uma população (nota de todos os candidatos que fizeram o concurso). Candidatos Adm1: Candidatos Adm2: Isso nos leva a concluir que os candidatos a Adm2, embora tenham apresentado a média menor que o Adm1, as notas apresentaram menor dispersão em relação à média. Quando buscamos uma medida para nos referir à variação de uma média amostral em relação à média da população, utilizamos o . Ele ajuda a verificarerro padrão a confiabilidade da média amostral calculada e representa a medida de quão representativa a amostra poderá ser da população. Em outras palavras, o erro padrão mede variabilidade entre as médias de diferentes amostras, ou seja, podemos estimar a probabilidade de que a média populacional pertença a um intervalo de valores médios. Onde: = erro padrão; s = desvio padrão da amostra; n = número de dados observados. O erro padrão, de modo geral, serve para estimar um intervalo de confiança para a média populacional a partir da média amostral calculada. Assim, enquanto o coeficiente de variação é recomendado para analisar a dispersão de conjuntos heterogêneos e com ordem de grandezas diferenciadas dos seus elementos, o erro padrão permite a análise da amostra em relação à população. Todavia, se desejamos quantificar as dispersões do conjunto nos deparamos com o que chamamos de escore padronizado. Como veremos a seguir, juntamente com a definição de outlier. 2.3.4 Escore padronizado e outliers Um escore padronizado (ou escore z) nos permite saber quantos desvios padrão, de determinado valor , se situam acima ou abaixo da média. Escore padronizado populacional: Onde: = escore padronizado; = determinado valor no conjunto de dados; = desvio padrão populacional; = média populacional. Escore padronizado amostral: 56 = escore padronizado; = determinado valor no conjunto de dados; = desvio padrão amostral; = média amostral. Os escores padronizados são utilizados com muita frequência para comparar a posição relativa da medida de um elemento dentro do grupo ao qual pertence, por isso é muito aplicado em situações que envolvem medida de avaliação de desempenho, por exemplo. Quando obtemos resultados de escore negativos, podemos concluir que os valores estão abaixo da média, ao contrário, quando os resultados dos escores são positivos sinalizam que os valores estão acima da média. Entretanto, se em uma amostra identificarmos um único valor localizado muito distante da maioria dos outros valores do conjunto de dados, denominamos de Um é um valor que foge da normalidade e queoutliers. outlier pode causar irregularidades nos resultados obtidos por meio de medidas estatísticas. Fonte: © marekuliasz / / Shutterstock. Note que eles podem ocorrer devido à variabilidade dos dados observados ou podem simplesmente indicar um erro experimental. Desse modo, as medidas de dispersão ou variabilidade têm como principal finalidade quantificar a dispersão ou homogeneidade dos elementos do conjunto de dados. Ainda, conforme Novaes e Coutinho (2009), ao olhar com PAUSA PARA REFLETIR Você acha que um deve ser descartado do conjunto de dados ou ele pode representaroutlier algo importante para a análise estatística desse conjunto? 57 atenção para as regularidades ou tendências e desvios ou variabilidade, podemos, para além de extrair informações, gerar novas hipóteses para o estudo. Proposta de atividade Agora é a hora de recapitular tudo o que você aprendeu nesse capítulo! Elabore um levantamento de dados sobre a altura de 15 a 20 pessoas da sua convivência e faça uma interpretação do conjunto de dados, destacando as principais ideias abordadas ao longo do capítulo. Ao produzir seu levantamento de dados, considere as leituras básicas e complementares realizadas. Recapitulando De modo geral, neste capítulo estudamos sobre as medidas estatísticas descritivas. Começamos falando sobre as medidas de centralidade as quais nos permitem sintetizar um conjunto de dados em um valor central, podendo ser ele obtido pela média, moda ou mediana. A média, uma das medidas mais utilizadas para fazermos inferências estatísticas, pode ser classificada como aritmética, geométrica, quadrática, harmônica ou ponderada. Por isso, é importante olhar para o contexto em que ela será utilizada. Você lembra a diferença entre elas? A média aritmética é dada pelo quociente entre soma de todos os valores do conjunto de dados e o número de dados do conjunto, quando se conhece cada um dos dados finitos do conjunto. A média geométrica, por sua vez, é calculada por meio da raiz enésima do produto entre os n elementos do conjunto de dados, utilizada em casos que os dados apresentam valores que aumentam de forma sucessiva. A média quadrática é calculada por meio da soma de cada um dos elementos do conjunto ao quadrado dividida pelo número total de elementos desse conjunto. Já a média harmônica pode ser obtida a partir da divisão do número de elementos (todos diferentes de zero) do conjunto e a soma dos seus inversos. Ela é utilizada em caso de grandezas inversamente proporcionais, enquanto a média ponderada é a relação entre a soma dos produtos de cada valor pela sua frequência e a soma das frequências, essas frequências também são chamadas .pesos Outra medida de posição ou centralidade é a moda. Você lembra o que ela retrata? Pois bem, a moda, na estatística, pode ser resumida como o elemento que aparece com mais frequência no conjunto de dados. Vimos também que a outra medida de centralidade é a mediana, que se refere ao valor que está dano meio distribuição dos dados organizados em rol. Ela divide o conjunto em duas partes iguais, cada uma com 50% dos valores do conjunto. E quando os dados estão organizados em intervalos de frequência de classes, ou seja, não conhecemos cada um dos dados, mas um intervalo ao qual eles pertencem, como procedemos para obter essas medidas de centralidade? Bom, podemos obter a média pela soma de todos os termos médios de intervalo multiplicado pela frequência e dividido pela soma das frequências. Existem também alguns métodos para se obter a moda, dentre eles uma forma é o método de Czuber. A mediana, para os dados organizados em intervalos de classes, também pode ser obtida por uma fórmula específica que indica à que intervalo o valor pertence. Neste caso,do meio obtemos a frequência acumulada para facilitar nossas análises. Também estudamos um pouquinho sobre as separatrizes, que não são medidas de centralidade, mas possibilitam que realizemos interpretações sobre um conjunto de dados a partir de divisões dos dados desse conjunto em grupos (quartis em 4 partes, decis em 10 partes e percentis em 100 partes) com quantidades iguais de dados e facilitam interpretações e conclusões sobre a questão em estudo. Vimos ainda as medidas de dispersão ou variabilidade, as quais permitem conhecermos os dados do conjunto considerando o quanto esses dados se dispersam de um termo central (normalmente representada pela média). 58 Dentre essas medidas de dispersão destaca-se o uso da variância, do desvio padrão e do coeficiente de variação. Vamos lembrar resumidamente o que cada um significa? A variância, como estudamos, é dada pelo quociente entre a soma dos quadrados dos desvios dos elementos do conjunto, tomados em relação à sua média aritmética e o número de elementos do conjunto. Já o desvio padrão é o cálculo da raiz quadrada
Compartilhar