Prévia do material em texto
ESTATÍSTICA ESTATÍSTICA Edina Domingues José Tadeu de Almeida José André Mota de Queiroz Rafael Botelho Barbosa © Copyright 2017 da Dtcom. É permitida a reprodução total ou parcial, desde que sejam respeitados os direitos do Autor, conforme determinam a Lei n.º 9.610/98 (Lei do Direito Autoral) e a Constituição Federal, art. 5º, inc. XXVII e XXVIII, “a” e “b”. Dados Internacionais de Catalogação na Publicação (CIP) (Ficha catalográfica elaborada pela Dtcom. Bibliotecária – Andrea Aguiar Rita) D671e Domingues, Edina Estatística/ Edina Domingues, José Tadeu de Almeida, José André Mota de Queiroz, Rafael Botelho Barbosa. – Curitiba: Dtcom, 2017. 158 p. ISBN: 978-85-93685-07-1 1. Análise. 2. Estatística. 3. Censo CDD 653.314 Reitor Prof. Celso Niskier Pro-Reitor Acadêmico Maximiliano Pinto Damas Pro-Reitor Administrativo e de Operações Antonio Alberto Bittencourt Coordenação do Núcleo de Educação a Distância Viviana Gondim de Carvalho Redação Dtcom Análise educacional Dtcom Autoria da Disciplina Edina Domingues, José Tadeu de Almeida, José André Mota de Queiroz, Rafael Botelho Barbosa Validação da Disciplina Manuel Martins Designer instrucional Milena Rettondini Noboa Banco de Imagens Shutterstock.com Produção do Material Didático-Pedagógico Dtcom Sumário 01 Estatística descritiva e indutiva e conceitos básicos ........................................................ 7 02 Método estatístico e técnicas de amostragem ...............................................................14 03 Apresentação de dados estatísticos ..................................................................................22 04 Distribuição de frequências por intervalo e pontos .........................................................29 05 Histogramas e polígonos ......................................................................................................36 06 Medidas de tendência central: média, moda e mediana ................................................44 07 Medidas de posição: separatrizes .......................................................................................51 08 Medidas de dispersão: desvio médio e desvio padrão ...................................................59 09 Coeficiente de variação e propriedades .............................................................................67 10 Assimetria ................................................................................................................................74 11 Experimentos aleatórios, espaço amostral e evento.......................................................83 12 Probabilidade: eventos complementares, eventos independentes, eventos mutuamente exclusivos ........................................................................................................90 13 Probabilidade condicional e regra do produto, regra da adição ....................................97 14 Variáveis aleatórias e distribuições de probabilidade .................................................. 105 15 Distribuição normal da probabilidade.............................................................................. 113 16 Correlação linear simples e coeficiente de correlação e covariância ....................... 122 17 Regressão linear .................................................................................................................. 130 18 Amostragem ......................................................................................................................... 139 19 O uso das tecnologias como ferramenta da estatística .............................................. 146 20 Aplicação da estatística em diferentes setores ............................................................ 153 Estatística descritiva e indutiva e conceitos básicos Édina Domingues e José Tadeu de Almeida Introdução Você sabia que a Estatística vai muito além das representações de tabelas e gráficos? Nesta aula, você ampliará seus conhecimentos sobre o tema. Para isso, estudaremos a definição de Estatística, seus aspectos históricos e conceitos fundamentais. Objetivos de aprendizagem Ao final desta aula, você será capaz de: • conhecer os conceitos básicos de Estatística; • diferenciar a Estatística Descritiva da Indutiva. 1 Introdução à Estatística A Estatística é uma ciência que se utiliza de metodologias para explicar fenômenos. Por meio dela, dados pesquisados e coletados permitem a comparação, analise e interpretação de diferen- tes situações, que contribuem para a compreensão de um determinado evento. Segundo Crespo (2011, p. 03), “a Estatística é uma parte da Matemática Aplicada que fornece métodos para a coleta, organização, descrição, análise e interpretação de dados e para a utilização dos mesmos para tomada de decisões”. Figura 1 – Estatística Fonte: TaLaNoVa/Shutterstock.com – 7 – TEMA 1 EXEMPLO Ao pesquisar preços, condições de pagamento e taxas de juros para a compra de um bem, você coleta dados, analisa, compara e, assim, toma sua decisão, certo? Estas ações fazem parte das técnicas da Estatística. 2 Aspectos históricos A história da Estatística acompanha a evolução do homem. No Império Romano, por exemplo, eram realizados levantamentos sobre a população. Porém, apenas no século XVIII a Estatística passou a ser considerada como ciência, quando o matemático Godofredo Achenwall (1710-1772) sistematizou processos para organizar os bens e cidadãos de um Estado, e organizou-os para criar um novo ramo científico, com o nome Staatenkunde, que mais tarde passou a ser conhecida por Statistic (em portu- guês, Estatística), determinando seus objetivos e suas relações com as ciências (MEMÓRIA, 2004). FIQUE ATENTO! Note que o termo Estatística tem uma raiz no latim status, ou seja, Estado. Neste sentido, temos que sua vocação inicial em termos de uma disciplina analítica pos- sui raízes na coleta e sistematização de dados para a organização do Estado e seu controle, por meio dos sistemas de governo. Figura 2 – Censos Demográficos Fonte: Festa/Shutterstock.com FIQUE ATENTO! Em países e locais onde o registro dos habitantes não era feito por meio civil, como nos cartórios, o número era calculado a partir do registro de batismos das igrejas (FERREIRA & OLIVEIRA, 2013). ESTATÍSTICA – 8 – Atualmente, a Estatística desempenha um papel fundamental para tomada de decisões e estudo de fenômenos, tanto no âmbito empresarial quanto político, social, entre outros, sobretudo na administração pública. No Brasil, a contagem da população, por meio do Censo, é feita desde o Século XIX (BOTELHO, 2005). SAIBA MAIS! Para aprofundar seus conhecimentos sobre o Censo no Brasil, com informações históricas e dados sobre o último Censo, de 2010, acesse: <http://7a12.ibge.gov.br/ sobre-o-ibge/o-que-e-censo.html>. 3 Conceitos A Estatística faz parte do nosso cotidiano. Assim, os estatísticos utilizam conceitos e termos específicos, apresentados no quadro a seguir, com importantes temas discutidos pela Estatística moderna. Tabela 1 – Conceitos fundamentais de Estatística Termo Conceito Exemplo Universo ou população estatística Conjunto formado por todos os elementos que possuem uma determinada caraterística a ser catalogada e analisada. Ao realizarmos uma pesquisa em uma escola, o universo será todos os alunos que estudam na escola, pois possuem a caraterística ou condi- ção de serem alunos da escola. Amostra É um subconjunto do conjunto universo, ou seja, é uma fração da população estatística, que ser- ve como parâmetro para deduzir o comporta- mento de toda a população. Em uma pesquisa envolvendo alu- nos do Ensino Médio brasileiro, como trata-se de um número muito vasto de alunos, opta-se por pesqui- sar grupos representativos de estu- dantes, ou seja, por uma amostra. Fenômeno estatístico É qualquer evento que se pretenda analisar, cujo estudo seja passível da aplicação de uma técnica estatística,como médias gerais e por população. O número total de presidiários e o número de presidiários por grupo de cem mil habitantes no Brasil. Dados estatísticos São as informações coletadas durante a realiza- ção de uma pesquisa. Para o exemplo anterior, calcula-se o número total de presidiários e o número total de habitantes do Brasil. ESTATÍSTICA – 9 – Termo Conceito Exemplo Variável Dados coletados que podem ser classificados de acordo com seus atributos, isto é, podem ser clas- sificados em variáveis qualitativas (que não são expressas numericamente, baseando-se em ca- racterísticas da amostra) e quantitativas (que po- dem ser descritas numericamente pela amostra). Qualitativas: gênero; cor de cabelo; religião etc. Quantitativas: quantidade de filhos; quantidade de geladeiras que pos- sui cada família; idade; peso etc. Censo É o levantamento e análise de dados estatísti- cos relacionados a uma determinada popula- ção (não necessariamente humana). Censo demográfico; Censo escolar; Censo Agropecuário. Fonte: adaptado de BUSSAB & MORETTIN (2010). Como podemos observar, há diferentes categorias e elementos que compõem uma análise estatística. No quadro, vimos apenas alguns conceitos e técnicas aplicadas pela Estatística para observação, análise e avaliação de um fenômeno estatístico e da evolução das populações. 4 Estatística Descritiva A Estatística pode ser classificada em dois blocos de pesquisa, no que diz respeito à obser- vação dos fenômenos estatísticos, da avaliação das amostras e deduções gerais: a Estatística Descritiva e a Estatística Indutiva. Esta divisão nos permite realizar análises de diferentes tipos de populações e amostras, visando obter referências sobre o fenômeno estatístico a ser discutido. A Estatística Descritiva permite a realização da descrição dos fenômenos de forma resumida. Ela é considerada como a etapa inicial de uma pesquisa, tendo como meta observar e descrever fenômenos da mesma natureza, coletando, organizando e classificando dados numéricos, apresentado gráficos e tabelas dos dados observáveis e realizando cálculos de coeficientes (BUSSAB & MORETTIN, 2010). Segundo Crespo (2011), a Estatística Descritiva é composta das seguintes fases: • definição do problema: o pesquisador definirá o problema a ser estudado e analisará outros estudos realizados sobre o tema. Caso não existam, o pesquisador deverá for- mular o problema com base em seu conhecimento; EXEMPLO Uma empresa que produz cerâmicas percebe que a cada 10 mil peças produzidas, 10% apresentam falhas. Assim, para analisar todas as etapas da produção e en- contrar as possíveis causas dos erros, a empresa contratou um pesquisador. Neste caso, o erro na produção das cerâmicas é o problema a ser identificado. ESTATÍSTICA – 10 – • planejamento: nesta fase, determina-se o procedimento necessário para resolver o pro- blema, obtendo-se informações sobre o objeto de estudo e verificando quais os cami- nhos a seguir para obter informações sobre o objeto de estudo. Aqui, organiza-se o cronograma de atividades, estipulando prazos e selecionando as fontes bibliográficas; • coleta de dados: este passo é considerado como operacional, pois envolve a coleta das informações e o registro sistemático dos dados primários (informações obtidas pelo próprio pesquisador) ou secundários (dados provenientes de outras fontes ou pesquisadores). A coleta de dados pode ocorrer de duas maneiras diferentes: direta ou indireta. A coleta direta é gerada a partir de uma fonte direta de pesquisa, como no caso do Censo (entrevistas rea- lizadas junto aos indivíduos). Já a coleta indireta é realizada por dados de outras pesquisas; • apuração de dados: nesta etapa, o pesquisador realiza a tabulação dos dados brutos, ou seja, conta e organiza os dados coletados; • apresentação de dados: os dados deverão ser organizados em tabelas e gráficos: • apresentação tabular: os dados são organizados em linhas e colunas, de forma orde- nada, de acordo com normas fixadas pelo Conselho Federal de Estatísticas (CONFE); FIQUE ATENTO! O Conselho Nacional de Estatística (CONFE) regulamenta a profissão de estatístico. • Apresentação gráfica: os dados são sistematizados de forma a gerarem diferentes cate- gorias de análise (para o caso da população, por exemplo, categorias como habitantes de zero a cinco anos, de cinco a dez anos etc.), possibilitando, assim, serem descritos de maneira ilustrativa, por meio de diferentes tipos de gráficos (barras, colunas, linhas etc.); Figura 3 – Gráficos Fonte: Scanrail1/Shutterstock.com ESTATÍSTICA – 11 – SAIBA MAIS! As técnicas da Estatística são aplicadas em outras áreas do conhecimento. Confira o trabalho de Carlos Augusto de Medeiros, do Ministério da Educação (MEC), acesse: <http://portal.mec.gov.br/seb/arquivos/pdf/profunc/estatistica.pdf>. Portanto, a Estatística Descritiva representa a etapa inicial da análise, objetivando a descrição dos dados coletados e utilizando tabelas e gráficos para apresentar os resultados analisados. 5 Estatística Indutiva A Estatística Indutiva refere-se ao processo de generalização das conclusões que o pesquisa- dor faz a partir dos resultados obtidos, ou seja, ele infere as propriedades da parte para o todo, da amostra à população (BUSSAB & MORETTIN, 2010). O processo da indução não é exato, pois o pesquisador pode cometer erros ao selecionar uma amostra. Para a Estatística Indutiva, recomenda-se que o pesquisador use técnicas de amostragem, para que as amostras garantam a representatividade da população estudada. Estas técnicas são: • amostragem não probabilística: a seleção de amostra baseia-se nas decisões do pesquisador; • amostragem probabilística: a seleção de amostra não depende do pesquisador e é aleató- ria. Por exemplo, quando um pesquisador decide investigar quantas vezes o valor “quatro” é obtido em uma série de lançamentos de dados, cujos resultados serão catalogados. 6 Diferenças entre a Estatística Descritiva e a Indutiva A Estatística Descritiva opera com dados e observações bem determinadas, visando estabe- lecer relações e aplicações de técnicas de pesquisa sobre estes dados, como médias, distribuição por classes, entre outros. Para a Estatística Indutiva, o foco reside sobre o tipo e a qualidade da amostra, para que se possa fazer um esforço de análise desta amostra para a população geral, que não pode ser visualizada naquele momento. Por exemplo, o IBGE (Instituto Brasileiro de Geografia e Estatística) realiza Censos de toda a população a cada dez anos. Porém, este órgão acompanha, anualmente, a evolução da população e outras características (emprego, renda, padrões de consumo), por meio da PNAD (Pesquisa Nacio- nal por Amostra de Domicílios), que coleta informações sobre uma fração da população geral. ESTATÍSTICA – 12 – Fechamento Nesta aula, você teve a oportunidade de: • conhecer o termo Estatística; • conhecer os principais conceitos utilizados na Estatística; • compreender o que é a Estatística Descritiva e Indutiva. Referências BOTELHO, Tarcísio. Censos e construção nacional no Brasil Imperial. Tempo Social, v. 17, n. 1, p. 321- 341, 2005. Disponível em: <http://www.scielo.br/pdf/ts/v17n1/v17n1a13.pdf>. Acesso em: 10 jan 2017. BRASIL. Instituto Brasileiro de Geografia e Estatística (IBGE). O que é Censo. Disponível em <http://7a12.ibge.gov.br/sobre-o-ibge/o-que-e-censo.html>. Acesso em: 10 jan 2017. BUSSAB, Wilton de Oliveira; MORETTIN, Pedro Alberto. Estatística Básica. 6. ed. São Paulo: Saraiva, 2010. CHAER, Galdino; DINIZ, Rafael Rosa Pereira; RIBEIRO, Elisa Antônia. A técnica do questionário na pesquisa Educacional. Evidência. v. 7, n. 7, Araxá, 2011. p.251-266. Disponível em:<http://www. uniaraxa.edu.br/ojs/index.php/evidencia/article/view/201/187>. Acesso em 10 jan 2017. COSTA NETO, Pedro Luiz. Estatística. 3.ed. São Paulo: Blucher, 2002. CRESPO, Antônio Arnot. Estatística Fácil. São Paulo. Saraiva: 2011.LARSON, Ron. Estatística aplicada. 2. ed. São Paulo: Prentice Hall, 2007. MEDEIROS, Carlos Augusto de. Estatística Aplicada à Educação. Brasília: Universidade de Bra- sília, 2007. Disponível em <http://portal.mec.gov.br/seb/arquivos/pdf/profunc/estatistica.pdf>. Acesso em 10 jan 2017. MEMÓRIA, José Maria Pompeu. Breve História da Estatística (Texto para Discussão 21). Brasília: Embrapa Informação Tecnológica, 2004. Disponível em: <https://www.ime.usp.br/~rvicente/JMP- Memoria_Historia_Estatistica.pdf>. Acesso em: 10 jan 2017. FERREIRA FILHO, Aurelino José; OLIVEIRA FILHO, Pedro Affonso. Registros eclesiásticos e car- toriais, fontes e documentação: possibilidades, perspectivas e desafios para as pesquisas em escravidão no Brasil – Triângulo Mineiro – MG. Anais do XXVII Simpósio Nacional de História da ANPUH (Associação Nacional de Pós-Graduação em História), Natal, 2013. Disponível em: <http://www.snh2013.anpuh.org/resources/anais/27/1370111961_ARQUIVO_REGISTROSECLE- SIASTICOSECARTORIAIS.pdf>. Acesso em: 10 jan 2017. TOLEDO, Geraldo; OVALLE, Ivo Izidro. Estatística Básica. São Paulo: Atlas, 2014. ESTATÍSTICA – 13 – Método estatístico e técnicas de amostragem Édina Domingues e José Tadeu de Almeidaa Introdução A observação e a coleta de informações a partir de fenômenos são ações inerentes à Esta- tística. Elas são utilizadas para resolver problemas e para compreender fenômenos, portanto, a Estatística exerce um papel fundamental para todas as áreas do conhecimento. Nesta aula, estudaremos técnicas que permitem a manipulação dos dados relacionados a um fenômeno estatístico e como estes dados permitem a dedução, por meio da análise estatís- tica, dos resultados de uma pesquisa. Objetivos de aprendizagem Ao final desta aula, você será capaz de: • conhecer os métodos estatísticos e suas fases; • identificar as técnicas de amostragem e de arredondamento. 1 Método estatístico No âmbito dos métodos científicos, entendidos como um conjunto de meios para se obter um resultado (CRESPO, 2011), podemos enfatizar dois tipos: o método experimental e o método estatístico. O método experimental consiste na aplicação de uma série de procedimentos, que ocorrem geralmente em laboratórios, cujo objetivo é realizar o controle dos referenciais de pes- quisa envolvidos e suas variações. SAIBA MAIS! O método experimental é muito utilizado na área da saúde, em que se elege uma referência de pesquisa (comportamento de cobaias mediante o uso de uma determinada medicação). Já no método estatístico os procedimentos estão pautados nas Teorias das Probabilidades, que estabelecem relações de causa e efeito de diferentes situações da sociedade, ou de uma população qualquer, registrando possíveis variações e probabilidades de ocorrência de certos eventos. Assim, coletam-se dados que representam uma população, e, a partir desta amostra, são obtidos resultados e possíveis variações de resultados que passam por análises. – 14 – TEMA 2 Figura 1 – Pesquisador Fonte: Pressmaster/Shutterstock.com EXEMPLO Quando o seu médico lhe pede um hemograma, o técnico de laboratório retira uma pequena fração do seu sangue e envia para análise. Assim, os resultados obtidos são analisados pelo médico. 1.1 Fases do método estatístico De acordo com Crespo (2011), as fases do método estatístico são compostas por: • definição do problema: ocorre ao se estabelecer um problema, uma hipótese de pesquisa; • planejamento: dado pela escolha das técnicas de pesquisa e ferramentas apropriadas para a obtenção dos indicadores pretendidos (como médias, por exemplo); • coleta de dados: envolve o levantamento de informações que serão posteriormente catalogadas e serão a base para uma pesquisa. • apuração dos dados: separação e catalogação em variáveis específicas, como faixas etárias de uma população, por exemplo; • apresentação dos dados: dá-se por meio da catalogação dos dados apurados em tabelas e gráficos; • análise e interpretação dos dados: ocorre mediante o cálculo de coeficientes e indica- dores necessários ao esforço de pesquisa. ESTATÍSTICA – 15 – Figura 2 – Base de dados Fonte: kuruneko/Shutterstock.com O método estatístico pressupõe a coleta de dados, cuja finalidade é de estabelecer uma base para estudo e descrição das variáveis que compõem uma análise. 2 Coleta de dados A coleta de dados consiste na pesquisa de informações necessárias para análise e estudo de um determinado problema. Para efetivar uma coleta de dados adequada, deve-se definir o tipo de variável a ser estudada. Uma variável é o referencial que representa uma característica proemi- nente da base de dados de uma pesquisa. FIQUE ATENTO! A variável de pesquisa é definida pelo agente observador, o próprio pesquisador, a partir de um problema, uma pergunta que ele deseja responder. Os tipos de coleta de dados são: • coleta direta: obtida diretamente a partir da fonte da pesquisa, dividindo-se em: • coleta direta contínua: quando a coleta de dados se dá de forma continua, sem interrupções, em um determinado período (durante um ano, por exemplo, para o cálculo da pluviosidade mensal de uma região); • coleta direta periódica: quando a coleta de dados ocorre em épocas determinadas (como o Censo, no Brasil, que ocorre a cada 10 anos); • coleta direta ocasional: quando a coleta de dados ocorre de forma casual, aten- dendo a um estudo de uma situação (como o levantamento dos casos de epidemia do vírus Ebola, na África); ESTATÍSTICA – 16 – • Coleta de dados indireta: obtida por meio de fontes e bases de dados já registradas em revistas, jornais, livros, documentos, entre outros. Divide-se em: • por analogia: ocorre a partir de outros estudos já realizados, nos quais o pesquisador identifica e relaciona aspectos de causalidade entre a sua pesquisa; • por proporcionalização: quando a coleta ocorre por meio de uma amostra de uma população, permitindo posteriores generalizações; • por indícios: ocorre a partir de situações não factuais, ou seja, pela via de indícios que levam ao estudo pretendido; • por avaliação: ocorre por meio de informações autênticas ou de estimativas cadas- trais. Assim, a partir destas informações, estima-se a relação quantitativa de um fenô- meno (CRESPO, 2011). A coleta de dados é uma das primeiras fases da análise estatística. Com ela, podemos obter as bases de dados necessárias para um estudo, por meio de amostras ou pelo exame de toda uma população. FIQUE ATENTO! A chamada Estatística Indutiva estuda as características de uma população a partir de uma amostra, ou seja, permite a generalização por meio de fenômenos observa- dos na amostra escolhida. 3 Apuração A apuração de dados associada a uma variável, sobretudo para as variáveis quantitativas, que podem ser numericamente ordenadas, é o processo por meio do qual o pesquisador irá contar, manualmente ou por softwares, o número de vezes que a variável pesquisada assumiu um deter- minado valor, inserindo este determinado número dentro de uma série de dados. EXEMPLO Em uma pesquisa para verificar o tamanho da População Economicamente Ativa (PEA) de um país, ou seja, o número de indivíduos em potencial condição de traba- lhar, após os dados serem coletados, há a apuração e separação por faixas etárias, conforme o conceito da PEA deste país: idade - 0 a 18 anos; 18 a 65 anos (PEA); 65 anos em diante (LAMEIRAS, 2013). A apuração permite que calculemos as porcentagens, as participações de cada variável, em termos do número de dados observados, em relação à população total. Por exemplo, nas eleições, os votos são apurados, ou seja, contados e distribuídos entre cada um dos candidatos a um cargo eletivo (CRESPO, 2011). ESTATÍSTICA – 17 – FIQUE ATENTO! A porcentagem de observações em relação ao total da amostra analisada também é denominada por frequência (relativa). 4 Técnicas de amostragem A amostragem é o processo pela qual é determinada a amostra de uma população,uma vez que quando uma população é composta por um número elevado de elementos, é impossível a coleta de dados envolvendo todos os seus indivíduos. Esta amostra deve possuir as caracte- rísticas exigidas na pesquisa para que o estudo torne-se viável (por exemplo, “homens acima de quarenta anos e de pele clara”, para verificar a incidência de câncer de próstata nesta população), ou seja, uma amostra deve ser uma parte representativa da população que a originou e a respeito da qual desejamos realizar inferências. Há dois métodos para composição de uma amostragem: probabilísticos e não probabilísticos. Figura 3 – Coleta de dados Fonte: violetkaipa/Shutterstock.com • Métodos probabilísticos: são técnicas de amostragem nas quais os dados são selecio- nados de maneira totalmente aleatória, de modo que cada unidade da população anali- sada tenha igual probabilidade de ser escolhida. Por exemplo, um sorteio de 1% da popu- lação do Brasil pelos dois algarismos finais do seu Cadastro de Pessoas Físicas (CPF). ESTATÍSTICA – 18 – • Métodos não probabilísticos: cada elemento do conjunto universo não possui a mesma oportunidade de escolha, pois dependem do critério e seleção do pesquisador e do perfi l da pesquisa (como no caso da seleção de homens de pele clara acima de 40 anos, para verifi car a porcentagem de portadores de câncer de próstata nesta população específi ca) (CRESPO, 2011). SAIBA MAIS! O IBGE (Instituto Brasileiro de Geografi a e Estatística) realiza a PNAD (Pesquisa Nacional por Amostras de Domicílios), que, pela seleção de uma amostra da população brasileira, permite avaliar a evolução de seu padrão de vida (ocupação, renda, consumo etc.) a cada trimestre. Para aprofundar seu conhecimento sobre a PNAD, acesse: <http://www.ibge.gov.br/home/estatistica/pesquisas/pesquisa_ resultados.php?id_pesquisa=40>. A compreensão das técnicas de amostragem é importante para a análise estatística, a fi m de que se componham bases de dados confi áveis para a elaboração dos estudos e pesquisas desejados. Entender estas técnicas permite que os métodos sejam aplicados com precisão, gerando análises efi cientes. 5 Técnicas de arredondamento Ao realizarmos cálculos estatísticos, é comum encontrarmos valores com diversas casas decimais, até mesmo milhares ou infi nitas; ou as chamadas dízimas periódicas, que são valores que apresentam uma série infi nita de algarismos na mesma disposição (como a fração =1 0,333...3 ). Figura 4 – O número “pi” contém trilhões de casas decimais Fonte: tschitscherin/Shutterstock.com ESTATÍSTICA – 19 – O conceito de casas decimais, embora usual, não é costumeiramente aplicado em Estatís- tica. Usa-se o termo algarismo significativo, que consiste no algarismo (ou uma série deles) que se segue após a vírgula e é diferente de zero, ou seja, o número 3,008, por exemplo, possui um algarismo significativo após a vírgula. O arredondamento de dados pode acontecer quando: • o número tem mais de dois algarismos significativos, se o algarismo do lado posterior for maior que 5, o arredondamento será feito somando mais uma unidade ao número da esquerda. Por exemplo, se a dízima periódica (D) for 0,678678..., temos que seu arredondamento (A) = 0,68; • o número for menor que 5, o arredondamento será desprezando os números posterio- res. Por exemplo, D = 0,12345345..., temos que A = 0,12. Porém, se o algarismo de referência for 5, as regras mudam: • caso qualquer algarismo que venha após o algarismo 5 for diferente de zero, acrescen- ta-se uma unidade ao algarismo à esquerda. Por exemplo: 0,8250002, torna-se 0,83. • se ao algarismo 5 não seguirem outros algarismos, ou eles forem zero, só se aumenta uma unidade ao algarismo à esquerda do algarismo 5 se ele for ímpar. • Exemplos: • 25,650000 passa a 25,6; • 78,750000 passa a 78,8. As técnicas de arredondamento permitem uma descrição de dados mais resumida e efi- ciente, tornando menos exaustiva a sua apresentação final, e permitem que os cálculos matemá- ticos sejam, quando possível, simplificados, disponibilizando apenas as informações necessárias à pesquisa em seu estágio final (CRESPO, 2011). Fechamento Nesta aula, você teve a oportunidade de: • verificar que o método estatístico propõe o planejamento e a coleta de dados visando sua apuração, análise e interpretação; • compreender como são realizadas as técnicas de obtenção de amostras de uma população; • conhecer os métodos para arredondamento de valores com muitos algarismos. ESTATÍSTICA – 20 – Referências BRASIL. Instituto brasileiro de geografia e estatística (IBGE). Pesquisa Nacional por Amostras de Domicílios (PNAD). Disponível em: <http://www.ibge.gov.br/home/estatistica/pesquisas/ pesquisa_resultados.php?id_pesquisa=40.>. Acesso em: 11 jan. 2017. CRESPO, Antônio Arnot. Estatística Fácil. São Paulo. Saraiva: 2011. LAMEIRAS, Maria Andréia Parente. Efeitos da população economicamente ativa sobre a taxa de desemprego. Carta de Conjuntura – Instituto de Pesquisa Econômica Aplicada (ipea). dez. 2013. Disponível em: <http://repositorio.ipea.gov.br/bitstream/11058/4309/1/Carta_Conjuntura_n21_ efeitos.pdf.>. Acesso em: 17 jan. 2017. ESTATÍSTICA – 21 – Apresentação de dados estatísticos José André Mota de Queiroz Introdução Nesta aula, estudaremos as formas de apresentação dos dados estatísticos mais usuais. Para isso, conheceremos como organizar os dados na forma de tabelas, seja na forma bruta, em porcentagem ou na forma de intervalos com frequências, ou em gráficos, que podem ser de linhas, colunas, barras, setores, entre outros. Objetivo de aprendizagem Ao final desta aula, você será capaz de: • conhecer quais são as diferentes maneiras de apresentar os dados estatísticos. Bons estudos! 1 Apresentação de dados estatísticos A apresentação de dados estatísticos é uma ferramenta aplicada para o resumo das informa- ções contidas nestes dados, evidenciando seus aspectos mais importantes (MARTINEZ, 2015). Para isso, é indispensável que o pesquisador faça a descrição completa das características mais marcantes dos dados, para, depois, tomar a decisão de qual ferramenta utilizará no tratamento estatístico. Assim, cabe ao pesquisador identificar se os dados são variáveis quantitativas, variáveis “numéricas”, ou seja, que expressam grandezas matemáticas (que podem ser contínuas ou discre- tas) ou variáveis qualitativas, que descrevem classificações, atributos ou qualidades (divididas em ordinal ou nominal) (MARTINEZ, 2015). FIQUE ATENTO! Os dados estatísticos podem ser classificados em variáveis quantitativas contínuas ou discretas e em variáveis qualitativas ordinal ou nominal. Para classificar as variáveis quantitativas em discretas ou contínuas, basta identificar se o valor que pode ser contado (variável quantitativa discreta) ou medido (variável quantitativa contínua). Por exemplo, a quantidade de livros em uma estante é uma variável quantitativa discreta; já a medição dos níveis de colesterol em dado grupo de pessoas será uma variável quantitativa contínua. – 22 – TEMA 3 Já para diferenciar as variáveis qualitativas em nominal ou ordinal, é necessário identificar se a ordem dos dados faz diferença. Por exemplo, ao classificar um grupo em fumantes ou não fumantes, ou se são do sexo masculino ou feminino, ou, ainda, no caso de peças de uma fábrica, em defeituosas ou não defeituosas chamamos de variável qualitativa nominal; porém, quando classificamos as pessoas de determinada cidade em classe A, B ou C, ou quanto ao salário que ganham podemos chamar de variável qualitativa ordinal. Depois de identificar a natureza dos dados, cabe ao pesquisador organizar os dados brutos. 1.1 Dados brutos Os dados brutos são aqueles que acabaram de ser coletados, porém, ainda não passaram por nenhum tratamento estatístico, nem foram organizados para serem apresentados de uma maneira mais didática, ou seja, de uma forma que facilite a interpretação do leitor das caracterís-ticas mais marcantes dos dados. Por exemplo, a quantidade de pessoas que moram nas casas de uma determinada rua foram assim coletadas: Quadro 1 – Dados brutos 4 3 2 4 6 2 1 0 4 5 2 3 6 4 3 6 2 1 0 3 1 2 3 4 0 5 0 2 1 0 Fonte: elaborado pelo autor, 2017. Assim, poderíamos representar os dados brutos em forma de rol (dados apresentados seguindo uma ordem do menor para o maior – crescente - ou do maior para o menor - decres- cente). O rol facilita que o menor e maior valor e a amplitude do intervalo dos dados (amplitude é a diferença do maior para o menor valor do intervalo de dados) seja visualizado na tabela. Quadro 2 – Dados na forma de rol 0 0 0 0 0 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 4 4 4 4 4 5 5 6 6 6 Fonte: elaborado pelo autor, 2017. Depois de identificar a natureza e computar os dados brutos, cabe ao pesquisador organi- zá-los em uma tabela. ESTATÍSTICA – 23 – 1.2 Organização em tabelas Na tabela, os dados podem ser inseridos em ordem crescente ou decrescente, o que for mais conveniente para o pesquisador. Quando se trata de uma série de dados em que sua ordem é definida pelo tempo, como a quantidade de chuva mensal em uma cidade ao longo do ano, a organização deve seguir uma ordem cronológica. Além disso, os dados podem ser trabalhados por porcentagens. Algumas vezes, é útil conhecer a proporção dos valores situados em um determinado inter- valo de uma distribuição de frequências em vez do número absoluto. A frequência relativa para um intervalo é a proporção do número total de observações que nele aparece. Ela é calculada ao divi- dir-se o número de valores dentro de um intervalo pelo número total de valores na tabela (PAGANO; GAUVREAU, 2012). Assim, em uma tabela, os dados podem ser apresentados com a frequência absoluta e a frequência relativa. No exemplo da pesquisa da quantidade de pessoas que moram em casas de uma determinada rua, os dados seriam apresentados conforme tabela a seguir. Tabela 1 – Quantidade de moradores nas casas da rua x Número de pessoas Frequências absolutas Frequências relativas 0 5 16,7% 1 4 13,3% 2 6 20% 3 5 16,7% 4 5 16,7% 5 2 6,6% 6 3 10% Total 30 100% Fonte: elaborado pelo autor, 2017. FIQUE ATENTO! Dados na forma relativa são as variáveis apresentadas na forma de porcentagem, muito utilizada em tabelas e gráficos. Além disso, podemos ter uma tabela de dupla entrada, com duas variáveis sendo apresenta- das. Com a organização dos dados em uma tabela, podemos ter a dimensão de como representar em um gráfico. ESTATÍSTICA – 24 – EXEMPLO Na autoavaliação do estado de saúde de pessoas que praticam atividade física (es- portistas) e de pessoas que não praticam nenhum esporte (sedentários), temos uma variável qualitativa nominal (esportista, sedentário) e uma variável qualitativa ordinal (bom, regular e ruim). Assim, os dados seriam apresentados conforme ta- bela a seguir. Tabela 2 – Autoavalição do estado de saúde Bom Regular Ruim Total Condição número % número % número % número % Esportista 20 80% 9 90% 0 0% 29 71% Sedentário 5 20% 1 10% 6 100% 12 29% Total 25 100% 10 100% 6 100% 41 100% Fonte: elaborado pelo autor, 2017. 1.3 Gráficos estatísticos Os gráficos estatísticos são ferramentas poderosas para descrição de dados, uma vez que possuem a capacidade de transmitir várias informações ao leitor, em apenas uma figura. Além disso, quando o gráfico é bem construído, o leitor entenderá as principais características dos dados com rapidez. Os gráficos mais utilizados são: • Linhas e curvas São indicados para representar variáveis ao longo do tempo. Para exemplificar, observe a figura a seguir, que apresenta a quantidade da venda de um carro em cada mês do ano. Figura 1 - Vendas do carro X em 2016 Fonte: elaborado pelo autor, 2017. ESTATÍSTICA – 25 – Com os gráficos de linhas, o pesquisador observa os períodos de crescimento e decresci- mento da série de dados ao longo do tempo, fato que pode ser importante para sua pesquisa. • Barras, colunas e de setores Os gráficos de barras são usados para exibir uma distribuição de frequências para os dados nominais e ordinais. Neles, as várias “categorias”, nas quais as observações são classificadas, estão apresentadas ao longo de um eixo horizontal. Além disso, a barra vertical represente a frequência, ou a frequência relativa, das observações dentro daquela classe. As barras devem ser de igual largura e separadas uma da outra de modo a não implicar continuidade (PAGANO; GAUVREAU, 2012). Figura 2 – Gráfico de colunas Fonte: elaborada pelo autor, 2017. Há, ainda, uma variação do gráfico de barras, no qual o eixo é das categorias aparece na ver- tical, conforme figura a seguir. Figura 3 – Gráfico de barras Fonte: elaborada pelo autor, 2017. ESTATÍSTICA – 26 – O gráfi co de setores descreve uma variável qualitativa, de preferência nominal. Ele tem a forma de um círculo dividido em setores, sendo que cada área representa uma classe da variável de interesse. A área de cada setor é proporcional à frequência relativa da classe que ele representa (MARTINEZ, 2015). Figura 4 – Gráfi co de setor Fonte: elaborado pelo autor, 2017. FIQUE ATENTO! Para um mesmo conjunto de dados, podemos construir gráfi cos de colunas, barras ou setores. Porém, para uma variável qualitativa ordinal, o mais indicado é o gráfi co de barras, pois possibilita observar a ordem das categorias. Nos gráfi cos há, ainda, a possibilidade do pesquisador trabalhar com os valores relativos, ou seja, em porcentagem. Para a transformação dos dados reais em valores relativos, basta fazer uma regra de três simples. EXEMPLO Nos valores reais representados nos gráfi cos da classifi cação do peso (subpeso, peso normal, sobrepeso e obesidade) de 960 alunos de uma escola, vimos: subpe- so (130); peso normal (430); sobrepeso (330); obesidade (70); e total (960). Assim, para encontrar a porcentagem dos dados, como “subpeso (130)” do total (960), bas- ta dividir. Veja: 130 430subpeso = = 14% peso normalsubpeso = = 14% peso normal130 430subpeso = = 14% peso normal130 430 = = 45% = = 45%130 430 = = 45%130 430 960 960 subpeso = = 14% peso normal 960 960 subpeso = = 14% peso normal 330 70sobrepeso = = 34% obesidade = sobrepeso = = 34% obesidade = sobrepeso = = 34% obesidade = 330 70sobrepeso = = 34% obesidade = 330 70 = 7% 960 960 sobrepeso = = 34% obesidade = 960 960 sobrepeso = = 34% obesidade = ESTATÍSTICA – 27 – SAIBA MAIS! No link a seguir, você encontrará uma ferramenta que permite a visualização de gráficos de barras e de setores: <http://m3.ime.unicamp.br/recursos/1222> Os gráficos podem, ainda, serem feitos em 3D. Há vários programas, gratuitos e pagos, que constroem os gráficos a partir da inserção de dados. Uma das opções é o Excel, da Microsoft Office (que também funciona como uma planilha de cálculo). Como opções gratuitas, há o Calc da Open Office, que funciona em plataforma Linux e Windows, e o R, modelo mais complexo que os outros, porém mais completo. SAIBA MAIS! Para saber mais sobre o programa R, como instalar e tutoriais visite: <https://www.r-project.org/>. Fechamento Nesta aula, você teve a oportunidade de: • conhecer a classificação de variáveis estatísticas: qualitativa e quantitativa; • conhecer a diferença de dados brutos e rol; • conhecer várias formas de representação gráfica de um conjunto de dados. Referências CRESPO, Antônio. Estatística fácil. 18. ed. São Paulo: Editora Saraiva, 2005. LAPPONI, Juan Carlos. Estadística usando Excel. 4. ed. Rio de Janeiro: Elsevier, 2008. LEVINE, David et al. Estatística. Teoria e Aplicações. 6. ed. São Paulo: LTC, 2008. MARTINEZ, Edson Zangiacomi. Bioestatística para cursos de graduação da área da Saúde. São Paulo: Blucher, 2015. PAGANO, Marcello; GAUVREAU, Kimberlee. Princípios de Bioestatística. 2. ed. SãoPaulo: Cen- gage Learning, 2012. SPIEGEL, Murray R. Estatística. 3. ed. São Paulo: Makron Books, 2004. STEVENSON, William J. Estatística Aplicada à Administração. São Paulo: Editora Harbra, 2007. TOLEDO, Geraldo; OVELLE, Ivo. Estatística Básica. 2. Ed. São Paulo: Editora Atlas, 2011. ESTATÍSTICA – 28 – Distribuição de frequências por intervalo e pontos José Tadeu de Almeida Introdução Nesta aula, estudaremos conceitos relacionados à manipulação e distribuição de dados de uma pesquisa. Para isso veremos, por meio das noções de frequência e classe, como os dados podem ser organizados de modo a viabilizar análises e gerar maior precisão na apresentação e possíveis deduções decorrentes de uma análise estatística. Objetivos de aprendizagem Ao final desta aula, você será capaz de: • entender como é realizada a distribuição de dados por intervalos e pontos. 1 Distribuição de Frequência A coleta de dados para pesquisa gera informações que precisam ser adequadamente trata- das, a fim de que seja possível realizar uma análise estatística adequada. Um destes mecanismos é a separação dos dados coletados por intervalos, agrupando dados com as mesmas característi- cas dentro de um determinado grupo. FIQUE ATENTO! Uma pesquisa estabelece uma hipótese, uma pergunta, que gera uma variável, que consiste em um conjunto de possíveis resultados de um fenômeno estatís- tico (CRESPO, 2005). A partir desta variável, coletam-se os dados pertinentes à análise pretendida. Para esta aula, adotaremos um exemplo de aplicação. Suponha que foram coletados dados relacionados ao peso (nossa variável de estudo) de quarenta funcionários de uma empresa, de maneira aleatória. Os dados foram computados sem organização inicial, gerando a chamada tabela primitiva. – 29 – TEMA 4 Tabela 1 – Peso dos funcionários Peso dos funcionários 72 60 89 80 87 61 90 74 80 76 63 82 98 65 56 86 82 89 64 59 83 67 72 85 77 74 73 76 68 75 79 68 74 73 96 71 68 78 89 60 Fonte: elaborada pelo autor, 2017. Organizando os dados de maneira simples, ou seja, em função de algum critério específico, teremos o rol. Neste caso, os pesos dos funcionários foram organizados em ordem crescente. Acompanhe! Tabela 2 – Rol de peso dos funcionários Rol de peso dos funcionários 56 67 73 78 86 59 68 74 79 87 60 68 74 80 89 60 68 74 80 89 61 71 75 82 89 63 72 76 82 90 64 72 76 83 96 65 73 77 85 98 Fonte: elaborada pelo autor, 2017. FIQUE ATENTO! Em um rol, os dados estão organizados para facilitar sua visualização e permitir algumas considerações iniciais. Esta organização pode ser por ordem crescente ou decrescente, por exemplo. Assim, é possível estabelecer alguns referenciais a respeito dos dados coletados. Por exem- plo, podemos observar que o funcionário de menor peso tem 50 kg e o de maior peso, 98 kg. A diferença, em quilos, do funcionário de maior peso para o de menor é 98-50 = 48kg. Percebemos, ainda, que há oito funcionários pesando entre 50 e 59kg, outros oito pesando entre 60 e 69 kg, oito pesando entre 70 e 79kg, oito com 80 a 89 kg e mais oito com 90 a 99 kg. ESTATÍSTICA – 30 – A nossa variável de pesquisa, no exemplo, é o peso dos funcionários. Neste sentido, podemos estabelecer as frequências associadas aos dados, ou seja, o número de vezes que um dado (ou uma série deles) é observada em função de uma variável. Por exemplo, a frequência de funcioná- rios com o peso de 50 kg tem valor 2, enquanto que o peso de 85 kg tem valor 1. Vejamos, na tabela a seguir, a distribuição de frequências do peso dos funcionários. Tabela 3 – Distribuição de frequências de peso Distribuição de frequências de peso Peso Freq. Peso Freq. Peso Freq. Peso Freq. 56 1 67 1 76 2 85 1 59 1 68 3 77 1 86 1 60 2 71 1 78 1 87 1 61 1 72 2 79 1 89 3 63 1 73 2 80 2 90 1 64 1 74 3 82 2 96 1 65 1 75 1 83 1 98 1 Fonte: elaborada pelo autor, 2017. Há distribuições em que as frequências se associam aos valores observados na variável de estudo. A tabela anterior demonstra o conceito de distribuição de frequências por pontos. Neste caso, cada frequência, um número inteiro, está ligada a uma das observações da variável de estudo (por exemplo, há frequência 3 para o peso de 68 kg, e 2 para o peso de 80 kg). Na figura a seguir, podemos verificar a distribuição de frequência por pontos dos dados da tabela anterior. Figura 1 – Distribuição de frequências por pontos dos dados 4 3 2 1 0 56 59 60 61 63 64 65 67 68 71 72 73 74 75 76 77 78 79 80 82 83 85 86 87 89 90 96 98 Fonte: elaborada pelo autor, 2017. ESTATÍSTICA – 31 – Pode-se também agrupar os dados por intervalos, sobretudo em situações nas quais as amostras são grandes. No exemplo, podemos agrupar os funcionários por faixas de peso, como entre 50 e 59 kg, 60 e 69 kg e assim por diante, até o maior valor visualizado em nossa amostra. Tabela 4 – Frequência por intervalos Frequência por intervalos Peso Frequência 50 a 59 2 60 a 69 10 70 a 79 14 80 a 89 11 90 a 99 3 Fonte: elaborada pelo autor, 2017. Em algumas situações, torna-se conveniente estabelecer intervalos relacionados às frequ- ências para a melhor visualização do comportamento dos dados relacionados a uma variável. Por exemplo, identificar que há um funcionário com 51 kg e um com 54 kg é importante, mas, para o pesquisador, pode ser mais útil saber que oito funcionários pesam de 50 a 59 kg. Este julga- mento é feito pelo pesquisador na análise estatística. A tabela anterior, portanto, mostra uma distribuição de frequências por intervalos, associada a uma variável contínua: o peso dos funcionários. No intervalo “60 a 69 kg”, há infinitas possibi- lidades de resultados que podem ser incluídos. Assim, as frequências podem ser divididas em absolutas e relativas. As frequências absolutas dizem respeito aos dados brutos relacionados à variável de estudo, como na tabela anterior, que apresenta o número de observações associadas a cada intervalo de classe: a frequência de funcionários com peso entre “70 a 79 kg” é igual a 14, por exemplo Já as frequências relativas consistem na divisão percentual dos dados de cada classe em relação ao total de observações/frequências. Na tabela anterior, podemos verificar as frequências relativas, uma vez que, na primeira classe, há uma frequência no valor 2 em relação ao total de 40. Logo, a frequência relativa da primeira classe é de 2/40 = 5%. A segunda classe, por sua vez, tem frequência relativa de 25%, e a terceira, quarta e quinta classes, respectivamente, têm frequências relativas de 35%, 27,5% e 7,5%, totalizando 100% das observações. 2 Classe Quando separamos os dados coletados para uma pesquisa, definimos a variável (como no exemplo dos pesos dos funcionários) por intervalos e verificamos as frequências, assim, encon- tramos as classes de frequência (ou classes), que são os intervalos de variação da variável ana- ESTATÍSTICA – 32 – lisada. No caso do exemplo estudado, observamos que o intervalo ‘50 a 59 kg’ é uma classe, e assim por diante. A notação para a classe é a letra i, sendo que i = 1,2,3...k (com k representando a última classe de uma variável) (CRESPO, 2005). No exemplo, temos 5 classes, logo, a última classe é dada por i = 5. EXEMPLO Uma pesquisa salarial da população de uma cidade do interior teve os dados se- parados, pelo pesquisador, por classes, da seguinte forma: trabalhadores que ga- nham ‘de um a dois salários mínimos (SM)’; ‘de dois a três SM’, ‘de três a cinco SM’; ‘de cinco a dez SM’; ‘de dez a 50 SM’; e uma classe ‘de 50a 200SM’; Neste caso, temos seis classes, sendo a última classe representada por i = 6 2.1 Limites de classe Os limites de classe podem ser entendidos como os pontos extremos de cada classe de uma variável (CRESPO, 2005). Assim, são definidos pelos pontos mínimo e máximo, respectivamente, li e Li, para uma classe i. No exemplo que estamos trabalhando no decorrer da aula, que analisa o peso de um grupo de pessoas (tabelas 1 a 4), a terceira classeda distribuição de frequências tem o valor l3 = 70 e L3 = 79. SAIBA MAIS! Dependendo da variável, o limite superior pode tender ao infinito. Se a última classe do exemplo mencionado nas tabelas 1 a 4, fosse ‘mais de 90 kg’, o limite superior da classe tenderia ao infinito, pois não haveria um limite superior da classe. Assim, caberiam funcionários que pesassem 100 kg, 130 kg, 180kg, 454 kg, ou até o limite da resistência humana. 2.2 Determinando a amplitude de um intervalo de classe A amplitude de um intervalo de classe pode ser compreendida pela diferença entre os pontos máximo e mínimo de um intervalo de classe. Assim, hi = Li – li; em que hi representa a amplitude de intervalo da classe i. Recorrendo ao exemplo da tabela de frequências por intervalos, vemos que a segunda classe tem amplitude igual a 9(69 – 60 = 9). O mesmo ocorre, neste exemplo, para as demais classes, pois como elas foram divididas de maneira igual, todas com a mesma distribuição de faixas de peso (50 a 59kg, 60 a 69 kg...), terão amplitude igual a 9. ESTATÍSTICA – 33 – FIQUE ATENTO! Nem sempre as classes de dados possuem a mesma amplitude. É comum que pesquisas tragam classes com amplitudes diferenciadas, de acordo com o com- portamento da amostra. Por exemplo, se analisarmos a renda per capita dos bra- sileiros, algumas classes terão amplitude maior que outras, para que se observe melhor a dinâmica dos dados. Convém, por exemplo, usar classes como ‘de zero a meio salário mínimo (SM)’, ‘de meio a um SM’, ‘de um a dois SM’, ‘de dois a cinco SM’, ‘de cinco a 10 SM’ e assim por diante. Como boa parte da população estará na categoria ‘entre zero e dois SM’, os dados serão melhor visualizados, ainda que as classes não possuam igual amplitude. A PNAD de 2015 mostra que 76,57% da po- pulação em condições de trabalhar, a chamada População Economicamente Ativa, recebe de zero a dois salários mínimos, ou não possui rendimentos, incluindo-se nesta base aqueles que recebem algum tipo de auxílio do governo, como o Progra- ma Bolsa Família (IBGE, 2016). 3 Calculando a amplitude total da frequência de dados Podemos verificar a amplitude total de uma distribuição de frequência observando o ponto mínimo da primeira classe e o ponto máximo da última classe. Neste caso, a amplitude total (AT) obedece à seguinte equação: AT = Lmáx k – lmin1 Assim, a amplitude total é obtida quando subtraímos do limite máximo da última classe, k, o limite mínimo da primeira classe. Para o nosso exemplo, temos: AT = 99 – 50 = 49. EXEMPLO Com base em uma situação hipotética, na qual o pesquisador coletou dados rela- cionados à renda dos habitantes de uma cidade do interior, e verificou que poderia estabelecer uma distribuição de frequências baseadas em seis classes: ‘de um a dois salários mínimos (SM)’; ‘de dois a três SM’, ‘de três a cinco SM’; ‘de cinco a dez SM’; ‘de dez a 50 SM’; e uma classe, com frequência igual a 1, ‘de 50 a 200SM’, observaremos que a Amplitude Total da frequência de dados é dada por: AT = Lmáx 6 – lmin1 = 200 – 1 – 199 Agora, passaremos ao cálculo do ponto médio do intervalo de classe. ESTATÍSTICA – 34 – 4 Ponto médio do intervalo de classe É possível defi nir o ponto médio (xi) de um intervalo de classe no ponto onde a classe é divi- dida em duas partes iguais, como se segue: xi = Li + li 2 Retomando o exemplo da pesquisa sobre o peso dos funcionários de uma empresa, vamos calcular o ponto médio da quarta classe, que contém as frequências dos trabalhadores que pos- suem entre 80 e 89 kg. Assim, temos que: x4 = (80 + 89) = 169 = 84,5. 2 2 SAIBA MAIS! Um exemplo de aplicação dos conceitos desta aula, no campo de estudos das Ciências da Saúde, pode ser encontrado no segundo capítulo (em especial, o tópico 2.1) do trabalho de Luís Guillermo Coca Velarde (UFF), acesse: <http://www.uff.br/ poscienciasmedicas/images/arquivos/apostila_estatistica.pdf.>. Fechamento Nesta aula, você teve oportunidade de: • verifi car como os dados coletados em uma pesquisa podem ser separados em frequências; • compreender que frequências podem ser organizadas em classes; • conhecer alguns índices de cálculo sobre frequências, como amplitude de classe, limites de classe, amplitude total e ponto médio de um intervalo de classe. Referências BRASIL. Instituto Brasileiro De Geografi a e Estatística (IBGE). Síntese de Indicadores da Pesquisa Nacional por Amostra de Domicílios (PNAD). 2015. Disponível em: <http://www.ibge.gov.br/home/ estatistica/populacao/trabalhoerendimento/pnad2015/sintese_defaultxls.shtm>. Acesso em: 17 jan. 2017. CRESPO, Antônio. Estatística fácil. 18. ed. São Paulo: Editora Saraiva, 2005. VELARDE, Luís Guillermo Coca. Noções de Bioestatística. Universidade Federal Fluminense (UFF), s.d. Disponível em: <http://www.uff.br/poscienciasmedicas/images/arquivos/apostila_estatistica. pdf>. Acesso em: 15 jan. 2017. ESTATÍSTICA – 35 – Histogramas e polígonos José Tadeu de Almeida Introdução Nesta aula, descreveremos algumas formas de apresentação gráfica de dados. A Estatística Descritiva, por meio de suas metodologias de análise, tem por objetivo realizar deduções e con- clusões a respeito de determinados fenômenos e sua ocorrência. Assim, a forma correta de sua expressão torna viável a compreensão precisa de eventos estatísticos. Estudaremos, dentre estas apresentações, os histogramas e polígonos de frequências. Objetivos de aprendizagem Ao final desta aula, você será capaz de: • entender o que são histogramas e polígonos de frequências. 1 Histograma Nesta aula, utilizaremos um referencial de aplicação para os estudos que desenvolveremos. Para isso, suponha que estamos verificando a altura de um grupo de cinquenta alunos de uma escola. A partir destes dados, elaboramos uma tabela de distribuição de frequências, que nos mostra o número de vezes que cada dado é observado dentro de uma classe, sendo a classe definida pelo intervalo de variação de uma variável (CRESPO, 2005): Tabela 1 - Frequência por intervalos Altura Frequência 110 ˫ 114 6 115 ˫ 119 11 120 ˫ 124 6 125 ˫ 129 5 130 ˫ 134 3 135 ˫ 139 5 140 ˫ 144 7 145 ˫ 149 7 Fonte: elaborada pelo autor, 2017. – 36 – TEMA 5 O histograma pode ser definido como uma forma de apresentação gráfica de dados, organi- zadas em um conjunto de retângulos dispostos em um gráfico de colunas, de modo que a altura destes retângulos corresponda à frequência, e os pontos médios coincidam com os pontos médios dos intervalos de classe. 2 Representação de um histograma O histograma associado à tabela de frequências por intervalos (ilustrada na figura anterior) pode ser visualizado a seguir. Figura 1 – Histograma 6 11 6 5 3 5 7 7 0 2 4 6 8 10 12 14 110 ˫ 114 115 ˫ 119 120 ˫ 124 125 ˫ 129 130 ˫ 134 135 ˫ 139 140 ˫ 144 145 ˫ 149 Fr eq uê nc ia Classes Fonte: elaborada pelo autor, 2017. Você pode perceber que, no histograma, normalmente as classes possuem a mesma ampli- tude (na figura 1, todas são iguais a 4: 110 a 114, 115 a 119...), de modo que a altura de cada retân- gulo é proporcional à sua frequência em relação àquela classe. Um histograma permite verificar com precisão a distribuição de frequências associadas a uma variável, identificando tendências sobre os dados coletados. No histograma ilustrado, vemos que a amplitude total da frequência de dados, calculada pela diferença entre o limite superior da última classe e o limite inferior da primeira classe, tem valor 149 – 110 = 39. SAIBA MAIS! Para aprofundar seus conhecimentos, leia o artigo “Utilizando o histograma como uma ferramenta estatística de análise da produção de água tratada de Goiânia”, dis- ponível em: <http://estprob.pbworks.com/w/file/fetch/53332540/artigo-histograma- -capacidade-proc.pdf>. Por consequência, o ponto que divide as classes em duas partes iguais, com a mesma amplitude, é dado por ( )149 - 110 2 = 129,5. Observamos que mais da metade dos dados estálocalizada no “lado esquerdo” do histograma, demonstrando que, dentro da amplitude total da distribuição de frequências, há mais alunos com menos da metade da altura máxima, definida pelo limite superior da última classe, uma vez que há 28 alunos com menos de 129,5 cm, e apenas 22 com mais de 129,5 cm. ESTATÍSTICA – 37 – 3 Polígono de frequência O polígono de frequência é uma forma de apresentação gráfica de dados que permite ao pesquisador observar a frequência de dados de uma variável, por meio de um gráfico em linha. Ele é obtido na ligação dos pontos formados pelo ponto médio dos intervalos de classe, no eixo horizontal e as frequências observadas (no eixo vertical) (CRESPO, 2005). A partir desta avaliação, pode-se também visualizar o comportamento dos dados associados à variável; se eles tendem mais para a esquerda, para as classes inferiores, ou para a direita nas classes superiores, ou se são distribuídos proporcionalmente à média das classes, por exemplo. Um polígono de frequência, ainda, permite a observação da amplitude total da distribuição de frequências. É importante enfatizar que, para que o polígono (que é uma figura fechada) seja visualizado, é feito um ‘arremate’ nos seus limites inferior e superior, por meio da ligação dos pontos extremos das linhas obtidas aos pontos médios das classes anterior à primeira e posterior à última, ou seja, são clas- ses que não existem em sua tabela, mas são usadas para viabilizar a análise, criando-se o polígono. FIQUE ATENTO! Não traz impacto à análise atribuir, nos pontos extremos dos limites das classes, duas classes que possuam frequência zero, uma vez que uma classe que não exis- te não tem nenhuma frequência. 4 Representação de um polígono de frequência Um polígono de frequência associado à tabela de frequências por intervalo (citada no início da aula) pode ser visualizado na figura a seguir, na qual os pontos médios são representados no eixo horizontal e as frequências no eixo vertical. Figura 2 – Polígono de frequência 0 2 4 6 8 10 12 107 112 117 122 127 132 137 142 147 152 Fonte: elaborada pelo autor, 2017. ESTATÍSTICA – 38 – Um polígono de frequência permite analisar as tendências de distribuição dos dados e frequências associados a uma variável de estudo; podemos verificar que os dados coletados concentram-se na metade inferior (ou esquerda) do plano de frequências, indicando que há uma concentração de dados abaixo da média relacionada à variável de pesquisa. 5 Polígono de frequência acumulada Um polígono de frequência acumulada mede as chamadas frequências acumuladas de dados associados a uma variável, que são a soma das frequências associadas a uma variável de maneira acumulada, ou seja, trata-se de somas que vão sendo realizadas à medida que são adicio- nadas classes a este somatório. EXEMPLO Utilizando o exemplo que estamos estudando, a frequência associada à primeira classe (consulte a tabela 1) tem o valor seis. Assim, a frequência acumulada das classes 1 e 2 é dada por 6 + 11 = 17. Para a terceira classe, o valor da frequência acumulada é de 17 + 6 = 23, e assim por diante, até que a frequência acumulada da última classe atinja 100% dos dados, ou seja, 50. Observe a tabela: Tabela 2 - Frequências acumuladas Altura Frequência acumulada 109 0 114 6 119 17 124 23 129 28 134 31 139 36 144 43 149 50 Fonte: elaborada pelo autor, 2017. O polígono de frequências acumuladas tenderá ao valor máximo no ponto relacionado à última classe, pois a frequência acumulada será correspondente ao total das frequências, ou 100% de frequência acumulada. Observe a figura a seguir, relativo ao nosso exemplo. ESTATÍSTICA – 39 – Figura 3 – Gráfi co de frequências acumuladas 0 10 20 30 40 50 60 109 114 119 124 129 134 139 144 149 Frequência acumulada Fonte: elaborada pelo autor, 2017. SAIBA MAIS! Quando há um certo número de classes à direita, com uma frequência baixa, veremos que o polígono de frequências exibirá uma tendência de tornar-se uma reta. Isto é comum, por exemplo, quando analisamos os salários da população: como a parcela de pessoas que ganham altos salários é muito pequena, estas classes têm uma frequência bastante pequena em relação às classes de salários menores. A apresentação do polígono de frequências acumuladas é útil para verificarmos as concentrações das frequências em torno de determinadas classes. 6 Curvas de frequências Quando analisamos um polígono de frequências, observamos que ele nos traz os dados brutos associados às frequências. Para amostras e classes pequenas, como as que estamos utilizando, a tendência é que este polígono apresente arestas bem defi nidas. Porém, à medida que a amostra se amplia, estes ‘lados’ do polígono vão tendendo a tornarem-se mais oblíquos, formando curvas – as chamadas curvas de frequências. A curva de frequências mostra uma imagem tendencial da série de dados, enquanto o polígono de frequências mostra a imagem real dos mesmos (CRESPO, 2005). Esta operação de ‘polimento’ dos dados, ou seja, de remoção das ‘arestas’, é dada adicio- nando-se frequências àquelas observadas na tabela de distribuição de frequências, conhecidas como frequências calculadas, que se localizam nos pontos médios das frequências observadas, de acordo com a equação: i-1 i i+1 i f + 2f + fi-1 i i+1f + 2f + fi-1 i i+1fc =ifc =i 4 Em que: fci corresponde à frequência calculada da classe i; fi–1 é a frequência da classe imediata- mente anterior à classe i, dada por fi; e fi +1 é a frequência da classe imediatamente posterior à classe i. ESTATÍSTICA – 40 – Assim, estamos dividindo quatro frequências por 4, identifi cando o ponto médio, que corres- ponde à frequência acumulada. EXEMPLO Vamos calcular a frequência calculada da primeira classe (fc1) do exemplo estuda- do nesta aula (da altura dos cinquenta alunos de uma escola), dada por: ( )0 1 2 1 0 + 6 × 2 + 11(0 + 6 × 2 + 11( )0 + 6 × 2 + 11)f + 2f + f0 1 2f + 2f + f0 1 2 23fc = = = = 5, 75fc = = = = 5, 75(fc = = = = 5, 75( )fc = = = = 5, 75)fc = = = = 5, 75fc = = = = 5, 750 1 2fc = = = = 5, 750 1 21fc = = = = 5, 751 0 + 6 × 2 + 11 fc = = = = 5, 75 0 + 6 × 2 + 11(0 + 6 × 2 + 11(fc = = = = 5, 75(0 + 6 × 2 + 11( )0 + 6 × 2 + 11)fc = = = = 5, 75)0 + 6 × 2 + 11)f + 2f + ffc = = = = 5, 75f + 2f + f0 1 2f + 2f + f0 1 2fc = = = = 5, 750 1 2f + 2f + f0 1 2 23fc = = = = 5, 7523 4 4 4 fc = = = = 5, 75 4 4 4 fc = = = = 5, 75 Transpondo-se estes cálculos para todas as classes do nosso exemplo, temos a tabela a seguir. Tabela 2 - Frequências calculadas (fc) e reais (f) fc1 5,75 f1 6 fc2 8,50 f2 11 fc3 7,00 f3 6 fc4 4,75 f4 5 fc5 4.00 f5 3 fc6 5,00 f6 5 fc7 6,50 f7 7 fc8 5,25 f8 7 Fonte: elaborada pelo autor, 2017. A partir desta tabela, podemos verifi car a curva de frequência associada à série de classes. Figura 4 – Curva de frequência 2 3 4 5 6 7 8 9 10 11 12 100 110 120 130 140 150 160 Freq. reais Freq. calculadas Fonte: elaborada pelo autor, 2017. ESTATÍSTICA – 41 – Como o nosso exemplo apresenta uma distribuição de frequências com valores menores nas classes centrais e maiores nas classes menores e maiores, observa-se que a curva de frequência apresenta um comportamento em onda, com dois pontos ‘de pico’, um modelo conhecido como bimodal. Caso os valores mais altos associados às frequências estivessem nas classes centrais, o gráfico tenderia a ser semelhante a um ‘sino’, com um ponto máximo, apenas. Observe: Figura 5 – Modelos de curvas de frequência 1 2 3 4 5 6 7 Fonte: elaborada pelo autor, 2017. Para simplificar nossa análise, colocamos os diferentes modelos de curvas de frequência em um mesmo plano. O modelo 1 é chamado de curva simétrica, ou seja, todas as frequências estão distribuídas de forma equidistante em relação ao ponto máximo. As curvas 2 e 3 são chamadas de curvas assimétricas, pois as frequências estão distribuídas de forma diferente ao longo da curva em relação ao ponto de máximo.Neste caso, o sentido do alongamento da curva determina o viés que ela assume. Dizemos que acurva 2 é enviesada à direita, e a 3 à esquerda. As curvas 4 e 5 são chamadas ‘em formato de J’, e resumem distribuições de frequências muito assimétricas. FIQUE ATENTO! Curvas em formato de J são muito usadas na Economia para associar relações como preços e demanda por mercadorias, por exemplo. No caso, a curva5 ilustra esta situação, pois quanto maior o preço, no eixo vertical, menor será o consumo, no eixo horizontal. A curva 6 configura a chamada ‘curva em U’, que ocorre quando a distribuição de frequências tem pontos de máximo nas extremidades da curva. FIQUE ATENTO! Curvas em U são costumeiramente associadas a equações do 2º grau. Além disso, elas são utilizadas em Economia, sobretudo para a determinação de certos custos de produção de bens. ESTATÍSTICA – 42 – Por fim, a curva 7 configura a chamada distribuição retangular, que ocorre quando todas as frequências são absolutamente iguais. Nesse caso, a razão que demonstra a frequência observada será sempre uma constante. Fechamento Nesta aula, você teve oportunidade de: • conhecer alguns métodos de organização de dados por frequências, como histogramas e polígonos de frequência; • entender que a frequência acumulada é dada pela soma das frequências de diferentes classes, e conhecer as frequências calculadas, como forma de obter uma curva de frequência. Referências CRESPO, Antônio. Estatística fácil. 18. ed. São Paulo: Saraiva, 2005. KUROKAWA, Edson; BORNIA, Antonio Cesar. Utilizando o histograma como uma ferramenta esta- tística de análise da produção de água tratada de Goiânia. In: Anais do XXVIII Congresso Interame- ricano de Engenharia Sanitária e Ambiental, Cancún (México), out. 2002. Disponível em: <http:// estprob.pbworks.com/w/file/fetch/53332540/artigo-histograma-capacidade-proc.pdf>. Acesso em: 24 jan. 2017. ESTATÍSTICA – 43 – ESTATÍSTICA – 44 – Medidas de tendência central: média, moda e mediana Rafael Botelho Barbosa Introdução As medidas de posição são utilizadas para representar e descrever um conjunto de dados. Elas são divididas em duas categorias: medidas de tendência central e separatrizes. Nesta aula, estuda- remos as principais medidas de tendência central: média (simples ou ponderada); moda; e mediana. Objetivos de aprendizagem Ao final desta aula, você será capaz de: • identificar as principais medidas de tendência central; • entender como calcular as principais medidas de tendência. 1 Medidas de tendência central De acordo com Medri (2011), as medidas de tendência central produzem um valor, e, em torno deste valor, as observações distribuem-se. Assim, os valores das medidas de tendência cen- tral são utilizados para sintetizar um conjunto de dados. As principais medidas de tendência central são: média (simples e ponderada); moda; e mediana. A seguir, estudaremos sobre cada uma das medidas. Acompanhe! 1.1 Média A média é a soma dos valores de um conjunto de dados dividido pelo número de dados somados. Ela pode ser dividida em média simples e ponderada. • Média simples De acordo com Duquia e Bastos (2006), a média simples – também chamada de média aritmética – é a medida de tendência central mais utilizada e melhor compreendida por todos, devido sua facilidade de cálculo e à utilização em inúmeras situações do coti- diano. Para calcular a média aritmética, basta somar todos os valores de um conjunto de dados e dividir pelo número de valores somados. TEMA 6 ESTATÍSTICA – 45 – A expressão geral para o cálculo da média simples é: = ∑ n i i 1=i 1= X X n Em que: X é a média simples ou aritmética; n i i 1 X i 1=i 1 ∑ é o somatório dos valores X, com X variando de 1 a n, ou seja, estamos somando todos os valores de X; n é o número de dados em análise. EXEMPLO No conjunto de dados (2, 2, 2, 4, 5), a média simples será calculada somando todos os valores (2 + 2 + 2 + 4 + 5 = 15) e dividindo pelo número de valores somados (5). Logo 15/5 = 3. Assim, podemos dizer que a média simples ou aritmética desse conjunto de dados é 3. • Média ponderada A média ponderada deve ser utilizada quando os dados não possuem a mesma proba- bilidade de ocorrência, ou seja, é quando há diferenças de pesos (ou frequências) entre os valores que queremos analisar. FIQUE ATENTO! Imagine duas frequências: F1 > F2. Neste caso, a probabilidade de ocorrência do dado referente a F1 é maior que a probabilidade de ocorrência do dado referente a F2. Assim, caso tenhamos uma observação que se repita 5 vezes e outra se repita 10 vezes, temos que a probabilidade de ocorrência da segunda observação é maior que a da primeira. A expressão geral para o cálculo da média ponderada é: n i i i 1 P n i i 1 X .fi iX .fi i X fifi i 1=i 1 i 1=i 1 = ∑ ∑ Em que: PX é a média ponderada; ESTATÍSTICA – 46 – ∑ n i i i 1=i 1= X fi iX fi i é o somatório dos produtos de cada valor pela respectiva frequência, com i variando de 1 a n. n é o número de dados em análise; ∑ n i i 1=i 1= fifi é o somatório das frequências, variando de 1 a n. EXEMPLO No conjunto de dados (2, 2, 2, 4, 5), para calcular a média ponderada deve-se mul- tiplicar cada valor pela sua repetição, e dividir pela soma das frequências. Assim, tem-se (2 x 3) + (4 x 1) + (5 x 1) = 15. A soma das frequências é dada por 3 + 1 + 1 = 5. Logo, a média ponderada é 15/5 = 3. Duquia e Bastos (2006) afi rmam que a média apresenta algumas vantagens e desvantagens. Entre as vantagens estão: o fato de que ela considera todos os valores estudados; que é utilizada, na maioria dos casos, para entender as diferenças entre dois conjuntos de dados; e que é uma medida de tendência central de fácil entendimento. A desvantagem é que a média é infl uenciada por valores extremos (valores muito acima ou muito abaixo da média dos dados). Assim, quando há valores muito discrepantes, ela não é a medida adequada para representar o conjunto de dados. Por exemplo, no conjunto (1, 10, 100), a média dos dados é 37. Note que este não é um bom valor para representar os dados, pois existem dois valores muito distantes (1 e 100). Além disso, a média é recomendada, preferencialmente, quando a distribuição dos dados é simétrica. 1.2 Mediana A mediana é o valor em que metade (50%) dos dados está abaixo dela e metade (50%) está acima. Assim, para descobrir a mediana, deve-se colocar os dados em ordem crescente, o ele- mento que ocupar a posição central é a mediana. Quando o número total de dados é par, a mediana é dada pela média aritmética dos dois elementos centrais Por exemplo, no conjunto de dados (1, 2, 3, 4), como o número de dados é par, a mediana é dada pela média dos elementos centrais. Logo, (2+3)/2 = 2,5. Assim, a mediana é 2,5. Porém, quando o número total de dados é ímpar, a mediana é o elemento central do conjunto de dados organizados de maneira crescente. Caso uma amostra contenha muitos dados, basta esco- lhermos o elemento que ocupa a posição ((n+1)/2). Por exemplo, no conjunto de dados (1, 2, 3, 4, 5), como o número de dados é ímpar, a mediana é o valor 3, pois é o valor central do conjunto de dados. A fi gura a seguir mostra como é o comportamento das medidas de tendência central (média, mediana e moda) quando a distribuição é simétrica ou assimétrica. A distribuição é simétrica quando existe uma divisão de um conjunto de dados em duas partes iguais, em relação a um ponto central; e é assimétrica quando estas duas partes não possuem a mesma quantidade de dados. ESTATÍSTICA – 47 – Figura 1 – Distribuição simétrica e assimétrica Média = Mediana = Moda Frequência DadosMédia Moda Dados Frequência Mediana Fonte: elaborado pelo autor, 2016. A vantagem da mediana é que não é influenciada por valores extremos (valores muito distan- tes da média) e pode ser utilizada tanto para distribuições simétricas quanto assimétricas. Entre as desvantagens, está o fato de elaser de difícil compreensão e não ser considerada em grande parte dos testes estatísticos (DUQUIA E BASTOS, 2006). FIQUE ATENTO! Lembre-se de que, para calcular a mediana, devemos sempre utilizar os dados em ordem crescente. A mediana sempre tenderá a ocupar uma posição central de um conjunto de dados, diferente da média. Observe a figura a seguir, que apresenta um histograma para uma distribuição simétrica. Figura 2 – Histograma para distribuição simétrica De ns ity Média e mediana Peso dos sacos de arroz 1000 2000 3000 4000 5000 0 2. 0e -0 4 4. 0e -0 4 6. 0e -0 4 8. 0e -0 4 00 1 Fonte: Duquia e Bastos, 2006, p. 191. ESTATÍSTICA – 48 – Na figura, percebemos que há uma distribuição simétrica. Neste caso, a média, mediana e moda apresentam os mesmos valores. Agora, observe a figura 3, em que a distribuição é assimétrica. Figura 3 – Histograma para distribuição assimétrica De ns i Média Peso dos sacos de arroz 0 2000 4000 6000 8000 0 2. 0e -0 4 4. 0e -0 4 6. 0e -0 4 8. 0e -0 4 10000 Mediana Fonte: Duquia e Bastos, 2006, p. 191. No caso da figura 3, temos uma distribuição assimétrica positiva, assim a média é maior do que a mediana. SAIBA MAIS! Para aprofundar seus conhecimentos sobre a assimetria, leia o tópico 6.4 do tex- to “Análise Exploratória de Dados”, do Professor Dr. Waldir Medri (UEL). Acesse: <http://www.uel.br/pos/estatisticaeducacao/textos_didaticos/especializacao_es- tatistica.pdf>. 1.3 Moda A moda é o elemento que mais se repete, ou seja, que possui a maior frequência no conjunto de dados. É possível que um conjunto de dados tenha uma moda (unimodal), duas modas (bimo- dal), três ou mais modas (multimodal), ou nenhuma moda (amodal). Para compreender melhor o que é a moda, atende aos exemplos: • no conjunto de dados (2, 2, 2, 4, 5), a moda é o elemento que mais se repete. Observe que o elemento 2 se repetiu 3 vezes, logo ele é a moda. Aqui, então, temos uma única moda; ou seja, o conjunto de dados é unimodal; ESTATÍSTICA – 49 – • no conjunto de dados (1, 1, 2, 2, 5), há duas modas, ou seja, dois elementos repetidos. Logo, é um conjunto bimodal; • no conjunto de dados (1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 5), temos três modas (1, 2 e 3), uma vez que os números foram repetidos três vezes. Logo, trata-se de um caso multimodal (ou polimodal); • no conjunto de dados (2, 4, 5), não há moda, pois nenhum elemento se repetiu mais que os demais. Trata-se de um conjunto de dados amodal; FIQUE ATENTO! A moda considera apenas a frequência de ocorrência das observações. Sendo as- sim, em geral, não é uma boa medida para se representar um conjunto de dados. A figura a seguir traz um histograma que mostra a distribuição de um conjunto de dados em função da frequência. Assim, na figura, o elemento que possui a maior frequência será conside- rado a moda. Figura 4 – Histograma de dados Dados Fr eq uê nc ia 8 9 10 11 12 0,0 0,5 1,0 1,5 2,0 2,5 3,0 Fonte: elaborado pelo autor, 2016. Neste caso, identificamos que a moda do conjunto de dados é 10, pois é o elemento que possui a maior frequência na figura. ESTATÍSTICA – 50 – 2 Comparações entre medidas de tendência central Para decidir qual medida de posição tendência central é mais adequada para um conjunto de dados, é bastante importante fazer a representação gráfica deste conjunto. Esta representação pode ser por meio de um histograma, no qual consegue-se verificar se a distribuição é simétrica ou assimétrica. Caso a distribuição seja simétrica, tanto a média quanto a mediana quanto a moda apre- sentarão o mesmo valor. Dessa forma, podemos usar qualquer uma das medidas de posição de tendência central para representar um conjunto de dados. No entanto, é muito comum que a distribuição não seja simétrica, e sim assimétrica. Nestes casos, a média é um valor que sofre grandes influências de valores extremos, assim, não é capaz de representar de maneira satisfatória um conjunto de dados. Uma alternativa para este caso é utilizar a mediana, que sempre tende a assumir um valor central de um conjunto de dados (como observamos na figura 2). SAIBA MAIS! Das páginas 82 a 96 do link a seguir, você pode aprofundar seus conhecimentos so- bre a média, mediana e moda para distribuições simétricas e assimétricas. Acesse: <http://portal.mec.gov.br/seb/arquivos/pdf/profunc/estatistica.pdf>. Fechamento Nesta aula, você teve a oportunidade de: • conhecer as principais medidas de tendência central; • observar como é o comportamento destas medidas para distribuições simétricas e assimétricas. • aprender a calcular cada uma das medidas de tendência central. Referências BRASIL. Ministério da Educação. Estatística aplicada à educação. Brasília, 2007. Disponível em: <http://portal.mec.gov.br/seb/arquivos/pdf/profunc/estatistica.pdf>. Acesso em: 07 dez. 2016. MEDRI, Waldir. Análise exploratória de dados. Universidade Federal de Londrina, Londrina, 2011. Disponível em: <http://www.uel.br/pos/estatisticaeducacao/textos_didaticos/especializacao_ estatistica.pdf>. Acesso em: 07 dez. 2016. DUQUIA, Rodrigo Pereira; BASTOS, João Luiz Dornelles. Medidas de tendência central: onde a maior parte dos indivíduos se encontra? Scientia Medica, 2006. Medidas de posição: separatrizes Rafael Botelho Barbosa Introdução As medidas de posição têm por finalidade representar um conjunto de dados por meio de um valor. Nesta aula, conheceremos as medidas de posição chamadas separatrizes, bem como suas principais classificações. Objetivos de aprendizagem Ao final desta aula, você será capaz de: • identificar as medidas separatrizes. Bons estudos! 1 Medidas de posição Por meio da análise das medidas de posição, conseguimos verificar como é a distribuição de um determinado conjunto de dados. Estas medidas são divididas em medidas de tendência e sepa- ratrizes. Nesta aula, aprofundaremos nosso conhecimento sobre as separatrizes. Acompanhe! 2 Separatrizes As separatrizes são medidas de posição que separam um conjunto de dados em “n” partes. Cada uma destas partes deve conter a mesma quantidade de dados. Assim, caso façamos uma divisão de um conjunto de 40 dados em 4 partes, cada parte terá 10 dados. FIQUE ATENTO! A mediana é uma das separatrizes, visto que separa um conjunto de dados em duas partes com exatamente a mesma quantidade de dados. A classificação e nomenclatura das separatrizes dão-se com base no número de divisões fei- tas. As separatrizes mais conhecidas são: quartil (divisão de um conjunto de dados em 4 partes), decil (divisão em 10 partes) e percentil (divisão em 100 partes). – 51 – TEMA 7 SAIBA MAIS! Na seção 4 (p. 109) do texto “Estatística aplicada à educação”, do Ministério da Educação, você pode aprofundar seus conhecimentos sobre o tema desta aula. Acesse: <http://portal.mec.gov.br/seb/arquivos/pdf/profunc/estatistica.pdf>. 2.1 Quartil No quartil, a série de dados será dividida em quatro partes iguais (cada parte contém a mesma quantidade de dados). Temos, então, 3 quartis denominados 1 2 3Q ,Q ,Q1 2 3Q ,Q ,Q1 2 3 . Assim, podemos dizer que 25% dos dados estão presentes dentro de cada quartil; e que 50% dos dados situam-se até o valor do quartil 2Q (note que o quartil 2Q é a mediana); 75% dos dados situam-se até o valor do quartil 3Q . Stevenson (2001, p. 22) afi rma que os quartis dividem conjuntos ordenados em 4 partes iguais: 25% dos valores serão inferio- res ao primeiro quartil ( 1Q ), 50% serão inferiores ao segundo quartil ( 2Q mediana2Q mediana2Q mediana=Q mediana ), 75% serão inferiores ao terceiro quartil ( 3Q ) e 25% serão superiores ao terceiro quartil. De acordo com Crespo (2005), os quartis são valores (o valor de um quartil pode não coincidir com um valor observado) que dividem o conjunto de dados em quatro partes iguais, conforme fi gura a seguir. Figura 1 – Representação das divisões dos quartis Q1 Q2 Q3 0% 25% 50% 75% 100% Fonte: elaborada pelo autor, 2016. Os quartis