Baixe o app para aproveitar ainda mais
Prévia do material em texto
E-BOOK 1 EPIDEMIOLOGIA E BIOESTATÍSTICA MÓDULO 1. INTRODUÇÃO À ESTATÍSTICA Autora: Profa. Thays Souza OBJETIVOS DE APRENDIZAGEM: • Compreender a importância da Estatística. • Entender como transformar os dados em informação por meio das ferramentas estatísticas. • Representar os dados de forma gráfica. INTRODUÇÃO Neste módulo, estudaremos o que diz respeito especificamente à disciplina Probabilidade e Estatísticas, bem como de que modo podemos utilizar as ferramentas estatísticas no nosso dia a dia. Por essa razão, podemos dizer que abordaremos os seguintes tópicos: • Conceitos estatísticos e suas aplicações. • Medidas de localização e dispersão. • Frequências e classes. • Representação de dados em gráficos. • Medidas de associação. Sabe-se que a Estatística é uma área extremamente importante; assim, perceberemos, ao final deste módulo, que ela não é um bicho de sete cabeças! Notaremos também que já estamos a par de alguns conhecimentos estatísticos, os quais são usados no nosso cotidiano, mas que ainda não nos demos conta disso. Então, mãos à obra e vamos começar! CONCEITOS BÁSICOS SOBRE ESTATÍSTICA AFINAL, O QUE É ESTATÍSTICA? ELABORAÇÃO DE CONTEÚDO 2 A esse respeito, Bonafini (2015) informa que, embora a Estatística seja tão temida pelos alunos e muitas vezes muito complexa, ela não é nada mais do que a ciência que trabalha com os dados dos quais dispomos e a partir dos quais interpretamos. Por sua vez, Larson e Farber (2016) definem a Estatística como a ciência que trata da coleta, organização, análise e interpretação de dados para a tomada de decisões. Temos, ainda, a definição de Costa Neto (2002), que considera a Estatística uma ciência cuja preocupação é a organização, descrição, análise e interpretação dos dados experimentais, visando à tomada de decisões. Em síntese, foi dito que a estatística é uma ciência cujo principal objeto de estudo são os dados. Esses dados são colhidos, analisados e interpretados por meio de ferramentas estatísticas. Após o uso da estatística, somos capazes de tomar as decisões necessárias com base na interpretação correta dos dados. A Estatística é uma ferramenta importante para a tomada de decisões, dado que não deve ser considerada um fim para isso, mas o meio, um instrumento capaz de fornecer as informações que darão subsídios para que tomemos as melhores decisões com bases em fatos e dados (COSTA NETO, 2002). O autor reforça sua ideia, ao afirmar que a Estatística é uma ciência-meio, ou seja, uma ciência de apoio para outros campos do conhecimento. Em outras palavras, a Estatística nunca deve ser considerada uma ciência-fim. Em relação à essência da Estatística, pode-se dizer que [...] é a observação e que seu objetivo básico é a inferência, que pode ser dedutiva (na qual se argumenta das premissas às conclusões) ou indutiva (por meio da qual se vai do específico ao geral) (BUSSAB; MORETTIN, 2010, p. 1). Nas definições anteriores, falou-se muito sobre dados. Mas o que, de fato, são esses dados que foram mencionados em todas as definições apresentadas? Os dados são informações provenientes de observações, contagens, medições ou respostas. No geral, trabalhamos com dois tipos de dados na Estatística (LARSON; FABER, 2016, p. 3): I. População ou universo: coleção de todos, resultados, medições ou contagens que são do nosso interesse. II. Amostra: subconjunto ou parte de uma população. ELABORAÇÃO DE CONTEÚDO 3 Na Tabela 1, temos exemplos de população e amostra: População Amostra Conjunto de 200 moradores de um edifício com 50 apartamentos Amostra de 6 moradores de 6 apartamentos que possuem dois carros Conjunto com os alunos da FAM de todos os cursos, um total de aproximadamente 6 mil alunos Amostra com 10 alunos do curso de Medicina Conjunto de 1 mil funcionários de uma empresa de tecidos Amostra de 16 funcionárias com idade menor do que 30 anos de idade Conjunto de todas as escolas de ensino infantil da cidade de São Paulo Amostra com 50 escolas públicas do ensino infantil, sendo que 10 escolas são do centro de São Paulo, 10 escolas são da Zona Sul, 10 escolas são da Zona Leste, 10 escolas são da Zona Norte e 10 escolas são da Zona Oeste Conjunto de todas as microempresas brasileiras na modalidade tipo MEI (microempreendedor individual) Amostra com 100 empresas tipo MEI que são das áreas de estética e saúde Tabela 1. Exemplos de população e amostra. Fonte: Elaborada pela autora (2020). Deve ficar claro também que a Estatística é dividida em duas partes a fim de facilitar os estudos (BUSSAB; MORETTIN, 2010; COSTA NETO, 2002): • Estatística Descritiva: sua preocupação é descrever e organizar os dados experimentais. • Estatística Indutiva: sua finalidade é cuidar da análise e interpretar os dados. A Figura 1 mostra a relação entre os dois tipos de estatística: Figura 1. Relação entre os ramos da Estatística. ELABORAÇÃO DE CONTEÚDO 4 Fonte: Adaptado de Costa Neto (2002, p. 4). Com base nessa figura, podemos dizer que coletamos amostras de uma população, nosso objeto de estudo. Feito isso, usamos a estatística descrita, que nada mais é do que “o ramo da estatística que envolve a organização, o resumo e a representação dos dados” (LARSON; FARBER, 2016, p. 6). Após darmos o tratamento da estatística descritiva aos dados amostrados, fazemos uso da estatística indutiva, a qual “consiste em um ramo da estatística que envolve o uso de uma amostra para chegar a conclusões sobre uma população” (LARSON; FARBER, 2016, p. 6). Assim, a estatística indutiva utiliza-se de uma ferramenta muito importante: o cálculo de probabilidades (Figura 1). O cálculo de probabilidades será mais bem desenvolvido posteriormente. Por ora, devemos ressaltar apenas que é uma ferramenta essencial para a Estatística Indutiva. EXEMPLOS DE ESTATÍSTICAS Vamos abordar, neste tópico, alguns exemplos de pesquisas estatísticas mais recentes, que tratam de assuntos cotidianos que nos cercam. Segundo a Época Negócios (2019), o Brasil é o segundo país onde as pessoas passam mais tempo conectados às redes sociais. Em média, os brasileiros costumavam ficar 219 minutos (3 horas e 39 minutos) interagindo por meio de redes Estatística indutiva Cálculo de probabilidades Amostragem Estatística Descritiva ELABORAÇÃO DE CONTEÚDO 5 sociais durante o ano de 2018; em 2019, os brasileiros passaram, em média, 225 minutos (3 horas e 45 minutos) conectados. A Tabela 2 mostra o ranking dos países em que os usuários de redes sociais gastam mais tempo realizando suas atividades: Ranking País Minutos (2019) Minutos (2018) 1 Filipinas 241 248 2 Brasil 225 219 3 Colômbia 216 214 4 Nigéria 216 206 5 Argentina 207 197 6 Indonésia 195 203 7 Emirados Árabes 191 180 8 México 190 194 9 África do Sul 190 178 10 Egito 186 185 12 Arábia Saudita 186 172 13 Turquia 185 172 18 Rússia 148 141 19 Índia 145 148 22 China 139 120 25 EUA 117 125 Tabela 2. Ranking dos países que mais usam as redes sociais: tempo médio gasto. Fonte: GlobalWebIndex (2019 apud ÉPOCA NEGÓCIOS, 2019). Outro exemplo de pesquisa estatística importante foi feito pela TIC Domicílios (PORTAL G1, 2019) sobre o uso da internet no Brasil. Segundo essa pesquisa, 70% da população brasileira tem acesso à internet, o que equivale a 126,9 milhões de pessoas. Os resultados revelaram que 97% dos usuários têm acesso à internet por meio do celular; apenas 30% possuem Smart TV; e 51% de usuários utilizam o computador para acessar a internet (Figura 2): Figura 2. O Brasil na internet. ELABORAÇÃO DE CONTEÚDO 6 Fonte: TIC Domicílios (2019 apud PORTAL G1, 2019). Vamos a um último exemplo de pesquisa estatística. Todos nós sabemos que o Sistema Único de Saúde (SUS) apresenta problemasdecorrentes da superlotação dos hospitais e postos de saúde. Mas qual será o nível de satisfação dos usuários do SUS? Dados levantados pela Pesquisa Nacional de Saúde revelaram que 82,6% estão satisfeitas com os serviços de internação hospitalar do SUS; 80,2% dos usuários dos serviços de emergência estão satisfeitos com os tratamentos que foram prestados pelo SUS. Cabe ainda explicar que 71,1% da população brasileira utiliza o SUS, e 47,9% dessa população faz uso das Unidades Básicas de Saúde. Com base nessa pesquisa, podemos dizer que, apesar dos problemas existentes no SUS, ele ainda tem um serviço de qualidade reconhecida. ELABORAÇÃO DE CONTEÚDO 7 FIQUE ATENTO Procure mais pesquisas estatísticas nas mídias. Pode ser qualquer pesquisa que você ache interessante: as melhores empresas para se trabalhar, as melhores universidades para um determinado curso, pesquisas de opinião sobre um determinado serviço ou sobre estabelecimentos comerciais, pesquisas eleitorais etc. Vamos começar a nos familiarizar com os termos estatísticos a partir de agora. MEDIDAS DE LOCALIZAÇÃO E DISPERSÃO Neste item, vamos estudar as medidas de localização e de dispersão; sejam três conjuntos de dados quantitativos: Conjunto 1 17 17 17 17 17 Conjunto 2 7 10 17 22 29 Conjunto 3 0 13 17 25 30 Tabela 3. Conjunto de dados para cálculo de medidas de localização e dispersão. Fonte: Elaborada pela autora (2020). Assim, temos a seguinte definição de medidas de localização: Medidas de localização de uma amostra (ou coleção) de dados de tipo quantitativo são estatísticas que resumem a informação da amostra, dando indicação quer do centro da distribuição dos dados, de que são exemplos a média e a mediana, quer de outros pontos importantes dessa distribuição, de que são exemplos os quartis (MARTINS, 2015a). Segundo Bonafini (2015, p. 22), “média, mediana e moda são chamadas de medidas de tendência central que servem como símbolo de um conjunto de dados”. Essas medidas representam os dados como um todo. Vamos obter, então, a média para os três conjuntos (Tabela 3). A média aritmética para cada conjunto é obtida pela somatória dos elementos de cada conjunto dividida pelo número total de elementos. Matematicamente, nós temos o seguinte (BUSSAB; MORETTIN, 2010, p. 33): 1 n i i x media n == (1) ELABORAÇÃO DE CONTEÚDO 8 Para essa equação, xi corresponde a cada elemento do conjunto de dados. O termo n corresponde ao total de elementos no conjunto de dados. E o termo 1 n i i x = corresponde à somatória de todos os elementos do conjunto de dados. Para o conjunto de dados (1), obtém-se a média aritmética do seguinte modo: 1 1 1 17 17 17 17 17 5 85 5 17 m m m + + + + = = = Para o conjunto de dados (2), obtém-se a média aritmética do seguinte modo: 2 2 2 0 13 17 25 30 5 85 5 17 m m m + + + + = = = Para o conjunto de dados (3), obtém-se a média aritmética do seguinte modo: 3 3 3 7 10 17 22 29 5 85 5 17 m m m + + + + = = = Os três conjuntos têm a mesma média aritmética; ainda assim, não podemos concluir nada sobre eles, por enquanto. Vamos então à definição de moda. “A moda é uma medida de localização, definida como sendo a realização mais frequente do conjunto de valores observados” (BUSSAB; MORETTIN, 2010, p. 35). Traduzindo, a moda é o valor que mais se repete em uma sequência de dados. Para o Conjunto 1, a moda será igual a 17. Os conjuntos 2 e 3 não têm moda, pois os cinco valores aparecem o mesmo número de vezes. Quanto à mediana, esta é “uma medida de localização, que ocupa a posição central da série de observações, quando os dados desta série estão ordenados em ordem crescente” (BUSSAB; MORETTIN, 2010, p. 35). Para o Conjunto 1, com 5 elementos, a mediana é o elemento que está na 3° posição; logo, a mediana é o número 17. O mesmo raciocínio aplica-se aos Conjuntos 2 e 3, que têm cinco elementos. A mediana encontra-se na 3° posição. Para os conjuntos 2 e 3, a mediana também é igual a 17. ELABORAÇÃO DE CONTEÚDO 9 Observe que os conjuntos estudados têm um número ímpar de elementos, e a mediana está na posição do meio para tais conjuntos. Mas e se tivéssemos 1 conjunto com 6 elementos, como calcularíamos a mediana? Vamos a um exemplo de conjunto com 6 elementos (Tabela 4): Conjunto 4 12 13 17 18 20 22 Tabela 4. Conjunto de dados com 6 elementos. Fonte: Elaborada pela autora (2020). A média para o Conjunto 4 é calculada assim: 3 3 3 12 13 17 18 20 22 6 102 6 17 m m m + + + + + = = = Costumamos usar o símbolo x quando nos referimos à média. Esse conjunto não tem moda, pois todos os elementos se repetem com a mesma frequência. Para o Conjunto 4, obtém-se a mediana somando o elemento que está na posição 2 n com o elemento que se encontra na posição 1 2 n + . Para esse conjunto, teremos o elemento que ocupa a 3ª posição somado com o elemento que ocupa a 4ª posição, pois temos 6n = . O cálculo da mediana para o conjunto de dados com 6 elementos fica assim: 17 18 2 35 2 17,5 mediana mediana mediana + = = = Conforme observamos nos exemplos estudados para os conjuntos 1 a 4, o cálculo da mediana para uma variável X é definido, portanto, como (BUSSAB; MORETTIN, 2010, p. 36): 𝑚𝑑(𝑋) = { 𝑥 ( 𝑛+1 2 ) , 𝑠𝑒 𝑛 í𝑚𝑝𝑎𝑟 𝑥 ( 𝑛 2 ) +𝑥 ( 𝑛 2 +1) 2 , 𝑠𝑒 𝑛 𝑝𝑎𝑟 (2) ELABORAÇÃO DE CONTEÚDO 10 Embora os Conjuntos 1, 2 e 3 tenham a mesma média e a mesma mediana, têm um aspecto bem diferente no que diz respeito à variabilidade ou à dispersão (Figura 3): Figura 3. A variabilidade dos dados dos conjuntos 1, 2 e 3. Fonte: Elaborada pela autora (2020). Segundo Martins (2015b), como as medidas média e mediana não falam nada sobre a variabilidade dos dados; assim, para estudarmos esses conjuntos de dados, é necessário definir antes outras medidas, denominadas medidas de dispersão. A autora define ainda medidas de dispersão como medidas que medem a variabilidade dos dados ou a dispersão presente nos dados. Sobre a relação entre as medidas de localização e as medidas de dispersão, temos uma colocação extremamente interessante: A informação fornecida pelas medidas de posição necessita em geral ser complementada pelas medidas de dispersão. Estas servem para indicar o quanto os dados se apresentam dispersos em torno da região central. Caracterizam, portanto, o grau de variação existente no conjunto de valores. As medidas de dispersão que nos interessam são a amplitude, a variância, o desvio-padrão e o coeficiente de variação (COSTA NETO, 2002, p. 24). Vamos estudar cada uma das medidas de dispersão mencionadas a saber: amplitude, variância, desvio-padrão e coeficiente de variação. Bonafini (2015) e Costa Neto (2002) definem a amplitude como a diferença existente entre o maior e o menor valor entre os dados que nos foram apresentados. Em conformidade com esses autores, representamos a amplitude matematicamente assim: minmáxR x x= − (3) Onde temos: R = amplitude. x máx = valor máximo da série de dados. x mín = valor mínimo da série de dados. ELABORAÇÃO DE CONTEÚDO 11 Façamos o cálculo da amplitude para os 3 conjuntos de 5 elementos. Com isso, para o Conjunto 1 temos: 1 min 1 1 17 17 0 máxR x x R R = − = − = Para o Conjunto 2 temos: 2 min 2 2 29 7 22 máxR x x R R = − = − = Para o conjunto 3 temos: 3 min 3 3 30 0 30 máxR x x R R = − = − = Com base nos cálculos anteriores, podemos dizer que o Conjunto 3 apresentou a maior amplitude em seus dados. Passamos então à definição de variância, que usamos “para saber como a distribuição de valores ocorre em uma amostra ou na população como um todo” (BONAFINI, 2015, p. 29). A fórmula para a variância de uma amostra está descrita na equação (4);a fórmula para a população, na equação (5): ( ) 2 2 1 1 n i i x x s n = − = − (4) ( ) 2 2 1 1 n i i x x s n = − = − (5) Vamos, antes, considerar os Conjuntos 1, 2 e 3 como três amostras de uma população qualquer; então, calculamos a variância para os três conjuntos por meio da equação (4). O cálculo para os três conjuntos consta na Tabela 5: ELABORAÇÃO DE CONTEÚDO 12 Conjunto 1 - 17x = Conjunto 2 - 17x = Conjunto 3 - 17x = ix ix x− ( ) 2 ix x− ix ix x− ( ) 2 ix x− i x ix x− ( ) 2 ix x− 17 17-17=0 02 = 0 7 (7-17) = (-10) (-10)2=100 0 (0-17) = (-17) (-17)2=289 17 17-17=0 02 = 0 10 (10-17) = (-7) (-7)2=49 13 (13-17) = (-4) (-4)2=16 17 17-17=0 02 = 0 17 (17-17) = 0 (0)2=0 17 (17-17) = 0 (0)2=0 17 17-17=0 02 = 0 22 (22-17) = (5) (5)2=25 25 (25-17) = (8) (8)2=64 17 17-17=0 02 = 0 29 (29-17) = (12) (12)2=144 30 (30-17) = (13) (13)2=169 ( ) 5 2 1 i i x x = − 0 319 538 1 4n− = 1 4n− = 1 4n− = ( ) 5 2 1 4 i i x x = − 0 0 4 = 319 79,75 4 = 538 134,5 4 = Tabela 5. Cálculo da variância para dados amostrais. Fonte: Elaborada pela autora (2020). Considerando os Conjuntos 1, 2 e 3 como três populações, o cálculo da variância para é demonstrado na Tabela 6: Conjunto 1 - 17x = Conjunto 2 - 17x = Conjunto 3 - 17x = ix ix x− ( ) 2 ix x− ix ix x− ( ) 2 ix x− i x ix x− ( ) 2 ix x− 17 17-17=0 02 = 0 7 (7-17) = (-10) (-10)2=100 0 (0-17) = (-17) (-17)2=289 17 17-17=0 02 = 0 10 (10-17) = (-7) (-7)2=49 13 (13-17) = (-4) (-4)2=16 17 17-17=0 02 = 0 17 (17-17) = 0 (0)2=0 17 (17-17) = 0 (0)2=0 17 17-17=0 02 = 0 22 (22-17) = (5) (5)2=25 25 (25-17) = (8) (8)2=64 17 17-17=0 02 = 0 29 (29-17) = (12) (12)2=144 30 (30-17) = (13) (13)2=169 ( ) 5 2 1 i i x x = − 0 319 538 5n = 5n = 5n = ( ) 5 2 1 5 i i x x = − 0 0 5 = 319 63,68 5 = 538 107,6 5 = Tabela 6. Cálculo da variância para as três populações. Fonte: Elaborada pela autora (2020). Como a variância é uma medida de dispersão que analisa quanto os dados estão variando com relação à média, ao analisarmos as Tabelas 5 e 6, notamos que ELABORAÇÃO DE CONTEÚDO 13 o Conjunto 3 apresentou a maior variância, indicando que seus dados estão mais dispersos ou mais distantes da medida de localização central: a média. Lembre-se de que a média para os três conjuntos é igual a 17x = . Com base nos cálculos da variância mostrados nas Tabelas 5 e 6, percebemos que a maior variabilidade dos dados é apresentada pelo conjunto nos dois casos. Assim, a variância é expressa na unidade da variável elevada ao quadrado. Vamos então à definição da medida de dispersão chamada de desvio-padrão. “O desvio-padrão é definido como a raiz quadrada positiva da variância” (COSTA NETO, 2002, p. 27). A fórmula para o cálculo do desvio-padrão é: 2s s= + (6) Vamos calcular o desvio-padrão para os Conjuntos 1 a 3 com os dados das Tabelas 5 e 6 da seguinte forma: Variância da amostra Desvio-padrão da amostra Variância da população Desvio-padrão da população Conjunto 1 0 0 0 0 Conjunto 2 79,75 8,93 63,68 7,97 Conjunto 3 134,5 11,59 107,6 10,37 Tabela 7. Cálculo do desvio-padrão para os três conjuntos de dados. Fonte: Elaborada pela autora (2020). O desvio-padrão informa, na verdade, o quanto os dados estão longe da média. No caso do Conjunto 1, os dados são iguais à média 17; no Conjunto 2, os dados estão a 8,93 unidades da média para a amostra e 7,97 unidades da média para a população; no Conjunto 3, os dados encontram-se a uma distância de 11,59 unidades da média para a amostra e 10,37 unidades da média para a população. Passemos à definição do último conceito importante para nós: o coeficiente de variação, que é definido como o quociente entre o desvio-padrão s e a média x . É um número adimensional que costumamos multiplicar por 100 para tê-lo em porcentagem. O coeficiente de variação (CV) nos mostra o quanto os dados têm variado em relação à média em termos relativos (COSTA NETO, 2002). Em termos matemáticos, escreve-se o CV assim: s CV x = (7) ELABORAÇÃO DE CONTEÚDO 14 Vamos calcular agora o coeficiente de variação para o caso de considerarmos os conjuntos de dados como amostras e para o caso de considerarmos os conjuntos de dados enquanto populações. Desvio- padrão da amostra Média da amostra Coeficiente de variação da amostra Desvio- padrão da população Média da população Coeficiente de variação da população Conjunto 1 0 17 0 0 17 0 Conjunto 2 8,93 17 52,52% 7,97 17 46,88% Conjunto 3 11,59 17 68,17% 10,37 17 61,00% Tabela 8. Cálculo do coeficiente de variação para os três conjuntos de dados. Fonte: Elaborada pela autora (2020). Observando essa tabela, percebemos que os dados apresentam maior coeficiente de variação quando consideramos os três conjuntos de dados como amostras. Vamos resumir as medidas de localização e de dispersão que obtivemos para os conjuntos, considerando-os apenas como dados amostrais (Tabela 9): Conjunto 1 Conjunto 2 Conjunto 3 Média 17 17 17 Moda 17 — — Mediana 17 17 17 Variância 0 79,75 134,5 Desvio-padrão 0 8,93 11,59 Coeficiente de variância 0 52,52% 68,17% Tabela 9. Sumário estatístico para os três conjuntos de amostras. Fonte: Elaborada pela autora (2020). A Tabela 10 contém o sumário estatístico para os três conjuntos considerados como três populações distintas: Conjunto 1 Conjunto 2 Conjunto 3 Média 17 17 17 Moda 17 — — Mediana 17 17 17 Variância 0 63,68 107,6 Desvio-padrão 0 7,97 10,37 Coeficiente de variância 0 46,88% 61,00% Tabela 10. Sumário estatístico para os três conjuntos de populações. Fonte: Elaborada pela autora (2020). ELABORAÇÃO DE CONTEÚDO 15 Neste ponto, finalizamos nosso estudo sobre as medidas de localização e de dispersão. FREQUÊNCIAS E CLASSES Neste tópico, daremos continuidade ao estudo de um conjunto de dados brutos. Os dados referem-se ao nível de glicose de 60 crianças (Tabela 11): 56 61 57 77 62 75 63 55 64 60 60 57 61 57 67 62 69 67 68 59 65 72 65 61 68 73 65 62 75 80 66 61 69 76 72 57 75 68 83 64 69 64 66 74 65 76 65 58 65 64 65 60 65 80 66 80 68 55 66 71 Tabela 11. Nível de glicose de 60 crianças. Fonte: USFJ (s. d.). Esses dados estão desordenados, vamos precisar colocá-los em ordem crescente. Após a ordenação, os dados ficam assim: 55 55 56 57 57 57 57 58 59 60 60 60 61 61 61 61 62 62 62 63 64 64 64 64 65 65 65 65 65 65 65 65 66 66 66 66 67 67 68 68 68 68 69 69 69 71 72 72 73 74 75 75 75 76 76 77 80 80 80 83 Tabela 12. Dados ordenados do nível de glicose de 60 crianças. Fonte: Elaborada pela autora (2020). REFLITA Para praticar mais um pouco as medidas de localização e dispersão, será que você consegue calcular todas as medidas que apresentamos no Módulo 1? Vamos deixar você praticando sozinho as medidas aprendidas como lição de casa. Que interpretação você daria a esses dados brutos? ELABORAÇÃO DE CONTEÚDO 16 Para o estudo dos níveis de glicose das crianças, deseja-se saber quais são os níveis de glicose mais frequentes entre as crianças. Para isso, precisamos obter a distribuição de frequências das taxas de glicose. Segundo Bonafini (2015, p. 12), “a distribuição de frequências nada mais é do que uma tabela simples que nos mostra como a variável se dissipa de acordo com as divisões por nós estabelecidas”. Visando a elaborar uma tabela de frequência, seguiremos o roteiro proposto por Bonafini (2015, p.13): • Calculamos a amplitude dos dados: min 83 55 28máxR x x= − = − = . • Vamos escolher um número de classes maior que 5 e menor que 20. Escolheremos 14 classes porque é um número divisível pela amplitude que é igual a 28. • A largura de cada classe será igualà amplitude total dos dados divididos pelo número de classes, o que nos dá 28 dividido por 14 que é igual a 2. A largura de cada classe será igual a 2. • Depois, determinaremos os limites inferior e superior para cada classe. • Finalmente, contaremos quantas ocorrências temos em cada classe com base nos dados ordenados apresentados na Tabela 12. Observe o que fizemos na Tabela 13: Classe Frequência 55-57 3 57-59 5 59-61 4 61-63 7 63-65 5 65-67 12 67-69 6 69-71 3 71-73 3 73-75 2 75-77 5 77-79 1 79-81 3 81-83 1 somatória 60 Tabela 13. Distribuição de Frequência para os níveis de glicose Fonte: Elaborada pela autora (2020). ELABORAÇÃO DE CONTEÚDO 17 É importante explicar que, na primeira classe, pusemos a contagem dos valores maiores ou iguais a 55 e menores que 57. Na segunda classe, pusemos a contagem dos valores maiores ou iguais a 57 e menores que 59. E assim por diante. Somente na última classe colocamos os valores a contagem dos valores maiores ou iguais a 81 e menores ou iguais a 83 para ficarmos com um total de 14 classes. A somatória das frequências tem que ser igual ao número total de dados dos quais dispomos. Costumamos expressar a frequência em termos de porcentagem, mas também expressamos em forma de frequência acumulada. Ao fazê-lo com os dados da Tabela 14, obteremos os seguintes resultados: Classe Frequência Frequência acumulada Frequência em porcentagem Frequência em porcentagem acumulada 55-57 3 3 5% 5% 57-59 5 8 8,3% 13,3% 59-61 4 12 6,7% 20% 61-63 7 19 11,7% 31,7% 63-65 5 24 8,3% 40% 65-67 12 36 20% 60% 67-69 6 42 10% 70% 69-71 3 45 5% 75% 71-73 3 48 5% 80% 73-75 2 50 3,3% 83,3% 75-77 5 55 8,3% 91,6% 77-79 1 56 1,7% 93,3% 79-81 3 59 5% 98,3% 81-83 1 60 1,7% 100% somatória 60 100,00% Tabela 14. Distribuição de Frequência para os níveis de glicose. Fonte: Elaborada pela autora (2020). As frequências acumuladas são calculadas ao se somar a frequência da classe atual com a frequência da classe posterior. O mesmo raciocínio se aplica à frequência acumulada em forma de porcentagem. Não calculamos as frequências à toa. Quando observamos a Tabela 13, podemos concluir que a taxa de glicose das crianças mais frequente está na classe 65-67. Basta checarmos os dados brutos ordenados da Tabela 12. Construímos a tabela de frequências sempre com o intuito de estudarmos quais os valores mais frequentes para as variáveis que estamos estudando. Quais as notas mais frequentes de cálculo em um curso de Engenharia? Quais os salários mais frequentes para um profissional da informática? Quais os pesos mais frequentes dos funcionários de uma empresa? E assim por diante. ELABORAÇÃO DE CONTEÚDO 18 SAIBA MAIS Construir tabelas de frequências pode ser uma tarefa mais fácil quando feita em uma planilha, como o Excel. Você pode fazer o cálculo ou usar a função FREQUENCY do programa. Saiba como usá-la consultando o suporte: https://support.office.com/pt- br/article/freq%C3%9C%C3%8Ancia-fun%C3%A7%C3%A3o-freq%C3%9C%C3%8Ancia- 44e3be2b-eca0-42cd-a3f7-fd9ea898fdb9. REPRESENTAÇÃO DE DADOS EM GRÁFICOS Para representarmos os dados da nossa Tabela 14 na forma de gráficos, precisamos calcular o ponto médio de cada classe de frequência, conforme consta na Tabela 15: Classe Ponto médio da classe Frequência Frequência acumulada Frequência em porcentagem Frequência em porcentagem acumulada 55-57 56 3 3 5% 5% 57-59 58 5 8 8,3% 13,3% 59-61 60 4 12 6,7% 20% 61-63 62 7 19 11,7% 31,7% 63-65 64 5 24 8,3% 40% 65-67 66 12 36 20% 60% 67-69 68 6 42 10% 70% 69-71 70 3 45 5% 75% 71-73 72 3 48 5% 80% 73-75 74 2 50 3,3% 83,3% 75-77 76 5 55 8,3% 91,6% 77-79 78 1 56 1,7% 93,3% 79-81 80 3 59 5% 98,3% 81-83 82 1 60 1,7% 100% somatória 60 100,00% Tabela 15. Tabela Completa Distribuição de Frequência para os níveis de glicose. Fonte: Elaborada pela autora (2020). No software MS-Excel, foi feito o gráfico de frequência absoluta para cada classe. Confira o resultado na Figura 4: Figura 4. Nível de glicose versus frequência absoluta. https://support.office.com/pt-br/article/freq%C3%9C%C3%8Ancia-fun%C3%A7%C3%A3o-freq%C3%9C%C3%8Ancia-44e3be2b-eca0-42cd-a3f7-fd9ea898fdb9 https://support.office.com/pt-br/article/freq%C3%9C%C3%8Ancia-fun%C3%A7%C3%A3o-freq%C3%9C%C3%8Ancia-44e3be2b-eca0-42cd-a3f7-fd9ea898fdb9 https://support.office.com/pt-br/article/freq%C3%9C%C3%8Ancia-fun%C3%A7%C3%A3o-freq%C3%9C%C3%8Ancia-44e3be2b-eca0-42cd-a3f7-fd9ea898fdb9 ELABORAÇÃO DE CONTEÚDO 19 Fonte: Elaborada pela autora (2020). O gráfico da frequência acumulada consta na Figura 5: Figura 5. Nível de glicose versus frequência absoluta acumulada. Fonte: Elaborada pela autora (2020). O gráfico da frequência absoluta para o ponto médio do nível de glicose de cada classe é mostrado na figura a seguir: Figura 6. Ponto médio de cada classe de nível de glicose versus frequência absoluta. 0 2 4 6 8 10 12 14 Fr eq u ên ci a A b so lu ta Nível de Glicose Gráfico de Frequência Absoluta 0 10 20 30 40 50 60 70 F re q u ê n c ia a c u m u la d a Classe de nível de glicose Frequência acumulada para cada classe ELABORAÇÃO DE CONTEÚDO 20 Fonte: Elaborada pela autora (2020). Foi construído também o gráfico da frequência acumulada para o ponto médio de cada classe (Figura 7): Figura 7. Ponto Médio de cada classe de nível de glicose versus frequência absoluta acumulada. Fonte: Elaborada pela autora (2020). Por último, vamos mostrar os gráficos para a frequência relativa e para a frequência relativa acumulada tanto para as classes de nível de glicose quanto para o ponto médio das classes nas figuras a seguir: Figura 8. Classes de nível de glicose versus frequência relativa. 0 2 4 6 8 10 12 14 56 58 60 62 64 66 68 70 72 74 76 78 80 82 F re q u ê n c ia A b s o lu ta Ponto médio do nível de glicose de cada classe Frequência absoluta para o ponto médio de cada classe 0 10 20 30 40 50 60 70 56 58 60 62 64 66 68 70 72 74 76 78 80 82 F re q u ê n c ia a c u m u la d a Ponto médio de cada classe Frequência acumulada para o ponto médio de cada classe ELABORAÇÃO DE CONTEÚDO 21 Fonte: Elaborada pela autora (2020). Figura 9. Classes de nível de glicose versus frequência relativa acumulada. Fonte: Elaborado pela autora (2019). Figura 10. Ponto médio de cada classe de nível de glicose versus frequência relativa. 0 0,05 0,1 0,15 0,2 0,25 F re q u ê n c ia r e la ti v a Classes Polígono de Frequências 0% 20% 40% 60% 80% 100% 120% F re q u ê n c ia s r e la ti v a s a c u m u la d a s Classes Frequência em porcentagem acumulada ELABORAÇÃO DE CONTEÚDO 22 Fonte: Elaborado pela autora (2020). Figura 11. Ponto médio de cada classe de nível de glicose versus frequência relativa acumulada. Fonte: Elaborada pela autora (2020). 0% 5% 10% 15% 20% 25% 56 58 60 62 64 66 68 70 72 74 76 78 80 82 F re q u ê n c ia r e la ti v a Ponto médio de cada classe Frequência relativa para o médio de cada classe 0% 20% 40% 60% 80% 100% 120% 56 58 60 62 64 66 68 70 72 74 76 78 80 82 F re q u ê n c ia r e la ti v a a c u m u la d a Pontos médios das classes Frequência relativa acumulada ELABORAÇÃO DE CONTEÚDO 23 Há tantos modelos de gráficos de frequência possíveis de serem feitos neste caso que poderíamos passar uma disciplina inteira estudando gráficos de frequências e classes. Tais gráficos são muito bons, porque nos permitem interpretar mais facilmente como se encontram distribuídos ao longo das classes que criamos. Convidamos você a testar outros modelos e tipo de gráfico no Excel ou no software de planilha que você se sente à vontadede usar. Nesses exemplos, usamos 14 classes de dados. Fique à vontade para usar menos classes de dados ou até um número maior de classes que seja menor ou igual a 20. Mãos à obra! Deixamos para que você faça o exercício de classes e frequências sozinho e com o número de classes que desejar. O objetivo deste item foi mostrar o quanto é importante visualizar os dados de frequências absolutas e relativas por meio de gráficos, pois ficam mais fáceis de interpretar do que as tabelas que fizemos. MEDIDAS DE ASSOCIAÇÃO As medidas de associação mais importantes são a covariância e a correlação entre duas variáveis x e y. “A correlação é definida como uma relação entre duas variáveis. Sua base de referência é o par ordenado: uma ocorrência na qual se calculam dois valores” (BONAFINI, 2015, p. 136). Calcula-se o coeficiente de Pearson por meio das equações (7), (8) e (9): ( )( ) ( ) ( ) 1 2 2 1 1 n i i i n n i i i i x x y y r x x y y = = = − − = − − (7) onde: 1 n i i x x n == (8) O termo x é a média aritmética da primeira variável x. 1 n i i y y n == (9) O termo y é a média aritmética da primeira variável y. ELABORAÇÃO DE CONTEÚDO 24 Se r for positiva, isso significa que quando x se eleva, y também se eleva. Se r for negativo, isso significa que quando x aumenta, a variável y diminui, se x diminui a variável y aumenta. Para r igual a zero, não há correlação linear entre as variáveis, pois r é um coeficiente de correlação linear (BONAFINI, 2015). Passemos, agora, à definição de covariância. “A covariância amostral entre duas variáveis, de tipo quantitativo, descreve a direção e o grau com que as variáveis se associam linearmente” (MARTINS, 2018). Segundo essa autora, a equação que nos permite calcular a covariância é: ( ) ( )( ) 1 1 ov , 1 n i i i C x y x x y x n = = − − − (10) onde: 1 n i i x x n == (8) O termo x é a média aritmética da primeira variável x. 1 n i i y y n == (9) Nessas equações, repetiram-se os números, dado que as equações foram definidas igualmente para o cálculo do coeficiente de correlação r. Vamos abordar um exemplo, com o qual podemos calcular a correlação e a covariância entre as variáveis x e y. Na Tabela 16, são dadas as notas de cálculo e física de oito alunos de Engenharia. Aluno Cálculo (xi) Física (yi) 1 4,5 3,5 2 6 4,5 3 3 3 4 2,5 2 5 5 5,5 6 5,5 5 7 1,5 1,5 8 7 6 Tabela 16. Variáveis x e y. Notas de cálculo e física de oito alunos. https://wikiciencias.casadasciencias.org/wiki/index.php/Vari%C3%A1vel_(Estat%C3%ADstica) ELABORAÇÃO DE CONTEÚDO 25 Fonte: Costa Neto (2002, p. 222). Os resultados do cálculo do coeficiente de correlação estão na Tabela 17: ix iy ix x− i y y− ( )( )i ix x y y− − ( ) 2 ix x− ( ) 2 iy y− 4,5 3,5 0,125 -0,375 -0,046875 0,015625 0,140625 6 4,5 1,625 0,625 1,015625 2,640625 0,390625 3 3 -1,375 -0,875 1,203125 1,890625 0,765625 2,5 2 -1,875 -1,875 3,515625 3,515625 3,515625 5 5,5 0,625 1,625 1,015625 0,390625 2,640625 5,5 5 1,125 1,125 1,265625 1,265625 1,265625 1,5 1,5 -2,875 -2,375 6,828125 8,265625 5,640625 7 6 2,625 2,125 5,578125 6,890625 4,515625 4,375x = 3,875y = ( )( ) 1 20,375 n i i i x x y y = − − = ( ) 2 1 24,875 n i i xx = − = ( ) 2 1 18,875 n i i y y = − = Tabela 17. Memorial de cálculo para o coeficiente de correlação r. Fonte: Elaborada pela autora (2020). Com base nessa tabela, o cálculo do coeficiente de correlação r fica: ( )( ) ( ) ( ) 1 2 2 1 1 n i i i n n i i i i x x y y r x x y y = = = − − = − − ( )( ) 20,375 24,875 18,875 20,375 469,515 20,375 21,668 0,94 r r r r = = = = Agora, vamos colocar o memorial de cálculo para a covariância (Tabela 18): ix iy ix x− iy y− ( )( )i ix x y y− − 4,5 3,5 0,125 -0,375 -0,046875 6 4,5 1,625 0,625 1,015625 3 3 -1,375 -0,875 1,203125 ELABORAÇÃO DE CONTEÚDO 26 2,5 2 -1,875 -1,875 3,515625 5 5,5 0,625 1,625 1,015625 5,5 5 1,125 1,125 1,265625 1,5 1,5 -2,875 -2,375 6,828125 7 6 2,625 2,125 5,578125 4,375x = 3,875y = ( )( ) 1 20,375 n i i i x x y y = − − = Tabela 18. Memorial de cálculo para a covariância ( )ov ,C x y . Fonte: Elaborada pela autora (2020). Então, com base no memorial de cálculo da tabela 17, a covariância entre as variáveis x e y ficará igual a: ( ) ( )( ) 1 1 ov , 1 n i i i C x y x x y x n = = − − − ( ) ( ) ( ) ( ) ( ) 1 ov , 20,375 8 1 20,375 ov , 7 ov , 2,910 C x y C x y C x y = − = = O coeficiente de correlação 0,94r = significa que, quando as notas de cálculo dos alunos aumentam, as notas de física também aumentam. Quando as notas de cálculo diminuem, as notas de física também diminuem. Quanto ao valor da covariância ( )ov , 2,910C x y = , este significa que as notas de cálculo e física apresentam uma dispersão entre si igual a 2,910. Terminamos o estudo sobre medidas envolvendo as variáveis. Começamos com as medidas de localização e de dispersão que envolvem apenas uma variável x. Por fim, estudamos as medidas de associação entre duas variáveis x e y. Ao praticarmos os conceitos através de exercícios, ficaremos craques em obter essas medidas para quaisquer conjuntos de dados. FIQUE ATENTO No MS-Excel, você tem dois comandos disponíveis para o cálculo da correlação e da covariância. O comando CORREL (matriz1; matriz2) calcula a correlação entre os dados de uma população. O comando COVAR (matriz1; matriz2) calcula a covariância entre os dados de uma população. Lembre-se de que, para a população, considera-se n em vez de n na divisão. ELABORAÇÃO DE CONTEÚDO 27 CONSIDERAÇÕES FINAIS Neste módulo, tivemos o primeiro contato com os conceitos estatísticos. Ainda assim, já somos capazes de transformar dados brutos de conjuntos de dados amostrais em dados de populações em medidas de localização e de dispersão. Foi possível entender como os dados se comportam em torno dos valores médios obtidos para os conjuntos. Em seguida, foi possível também transformar dados brutos em classes e frequências. Por meio da classificação dos dados brutos em classes e frequências, já conseguimos gerar gráficos extremamente interessantes e, com isso, podemos compreender de que maneira são gerados os gráficos que aparecem em revistas, jornais e websites de pesquisas estatísticas. Por último, aprendemos a calcular a correlação e a covariância entre as duas variáveis. A correlação e a covariância são as medidas de associação entre variáveis mais importantes. REFERÊNCIAS BIBLIOGRÁFICAS & CONSULTADAS ALBULQUERQUE, J. P. A.; FORTES, J. M. P. FINAMORE, W. A. Probabilidades, variáveis aleatórias e processos estocásticos. 2. ed. Rio de Janeiro: Interciência: PUC-Rio, 2018 [Biblioteca Virtual]. BASSANEZI, R. C. Ensino-aprendizagem com modelagem matemática: uma nova estratégia. 4. ed. São Paulo: Contexto, 2014 [Biblioteca Virtual]. BASSANEZI, R. C. Modelagem matemática: teoria e prática. São Paulo: Contexto, 2015 [Biblioteca Virtual]. BONAFINI, F. C. Probabilidade e estatística. São Paulo: Pearson Education do Brasil, 2015 [Biblioteca Virtual]. BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 6. ed. São Paulo: Saraiva, 2010. CAMPOS, C. R.; WODEWOTZKI, M. L. L.; JACOBINI, O. R. Educação estatística: teoria e prática em ambientes de modelagem matemática. Belo Horizonte: Autêntica Editora, 2011 [Minha Biblioteca]. COSTA NETO, P. L. O. Estatística. 7. ed. São Paulo: Edgard Blücher, 2002. ELABORAÇÃO DE CONTEÚDO 28 ÉPOCA NEGÓCIOS. Brasil é o 2° em ranking de países que passam mais tempo em redes sociais. 06/set/2019. Disponível em: https://epocanegocios.globo.com/Tecnologia/noticia/2019/09/brasil-e-2-em-ranking- de-paises-que-passam-mais-tempo-em-redes-sociais.html.Acesso em: 17 nov. 2019. GÓES, A. R. T. Modelagem matemática: teoria, pesquisas e práticas pedagógicas. Curitiba: InterSaberes, 2016 [Biblioteca Virtual]. LARSON, R.; FARBER, B. Estatística Aplicada. 6. ed. São Paulo: Pearson, 2016. MARTINS, M. E. G. Covariância amostral. Revista de Ciência Elementar, Lisboa, v. 6, n. 1, 2018. p. 22. Disponível em: http://doi.org/10.24927/rce2018.022. Acesso em: 02 mar. 2020. MARTINS, M. E. G. Medidas de localização. Revista de Ciência Elementar, Lisboa, v. 3, n. 2, 2015a. p.125. Disponível em: http://doi.org/10.24927/rce2015.125. Acesso em: 02 mar. 2020. MARTINS, M. E. G. Medidas de dispersão. Revista de Ciência Elementar, Lisboa, v. 3, n. 2, 2015b. p.126. Disponível em: http://doi.org/10.24927/rce2015.126. Acesso em: 02 mar. 2020. MARTINS, M. E. G. Coeficiente de correlação populacional. Revista de Ciência Elementar, Lisboa, v. 2, n. 2, 2014. p. 69. Disponível em: https://www.fc.up.pt/pessoas/jfgomes/pdf/revistaCienciaElementar_v2n2.pdf Acesso em: 02 mar. 2020. MONTGOMERY, D. C.; RUNGER, G. C. Estatística Aplicada e Probabilidade para Engenheiros. 4. ed. Rio de Janeiro: Editora LTC, 2009. MORETTIN, L. G. Estatística básica: probabilidade e inferência. São Paulo: Prentice Hall, 2010 [Biblioteca Virtual]. PORTAL DE NOTÍCIAS G1. Uso da Internet no Brasil cresce, e 70% da população está conectada. Caderno Economia/tecnologia. 28/ago/2019. Disponível em: https://g1.globo.com/economia/tecnologia/noticia/2019/08/28/uso-da- internet-no-brasil-cresce-e-70percent-da-populacao-esta-conectada.ghtml. Acesso em: 17 nov. 2019. SILVA, O. H. M. da. Matemática e Física: aproximações. Curitiba: InterSaberes, 2017 [Biblioteca Virtual]. UFSJ. UNIVERSIDADE FEDERAL DE SÃO JOÃO DEL-REI. 1ª Lista de Exercícios de Estatística do Curso Administração – Integral e Noturno. Disponível em: https://ufsj.edu.br/portal2-repositorio/File/demat/PASTA-PROF/manoel/L1.pdf. Acesso em: 18 nov. 2019. https://epocanegocios.globo.com/Tecnologia/noticia/2019/09/brasil-e-2-em-ranking-de-paises-que-passam-mais-tempo-em-redes-sociais.html https://epocanegocios.globo.com/Tecnologia/noticia/2019/09/brasil-e-2-em-ranking-de-paises-que-passam-mais-tempo-em-redes-sociais.html http://doi.org/10.24927/rce2018.022 http://doi.org/10.24927/rce2015.125 http://doi.org/10.24927/rce2015.126 https://www.fc.up.pt/pessoas/jfgomes/pdf/revistaCienciaElementar_v2n2.pdf https://g1.globo.com/economia/tecnologia/noticia/2019/08/28/uso-da-internet-no-brasil-cresce-e-70percent-da-populacao-esta-conectada.ghtml https://g1.globo.com/economia/tecnologia/noticia/2019/08/28/uso-da-internet-no-brasil-cresce-e-70percent-da-populacao-esta-conectada.ghtml https://ufsj.edu.br/portal2-repositorio/File/demat/PASTA-PROF/manoel/L1.pdf
Compartilhar