Prévia do material em texto
Introdução Autoria: Joelma Iamac Nomura e Rafaela Rodrigues Oliveira Amaro Estatística Descritiva UNIDADE 1- CONCEITOS INICIAIS E MEDIDAS DE TENDÊNCIA CENTRAL É interessante observarmos que nossa vida é cercada por números e em diversas situações somos defrontados com grande quantidade de informações em formato numérico, ou seja, muitos dados. Contudo, a disposição e forma como esses dados são organizados interferem na eficiência da interpretação de tais informações. Seria possível encontrar uma maneira melhor de organizar esses dados, visando facilitar a leitura e identificação da possível relação entre eles? Você já ouviu falar sobre medidas de tendência central? Conhece média, moda e mediana? Se ainda não conhece, essa será a oportunidade de aprender sobre esses importantes conceitos que permeiam o estudo da estatística descritiva, o que permite entender as tendências ou padrões a partir de um conjunto de dados. Nesse sentido, estudaremos nesta unidade os principais conceitos que permeiam a estatística descritiva e veremos como podemos dispor os dados coletados em tabelas e representá-los a partir de gráficos. Você também aprenderá que os mesmos dados podem ser distribuídos de diferentes maneiras a partir de tabelas de distribuição de frequência e que essas distribuições levam a diferentes representações gráficas. Quando você adentrar no estudo de medidas de tendência central, aprenderá a calcular a média, mediana e moda de um conjunto de dados não agrupados e agrupados. Portanto, no decorrer do estudo desta unidade, você terá todas as respostas das indagações feitas anteriormente. Vamos começar? Bons estudos! 1.1 Introdução à estatística A estatística está presente em nossa vida em diversas situações, mas você pode se perguntar, onde? O que a estatística agrega para mim? Em quais contextos os conhecimentos que propõem a sistematização serão úteis em minha vida? Para começar nossa familiarização com os conceitos relacionados à estatística, considere as afirmativas a seguir, muito recorrentes em nosso cotidiano. [...] 29,8% dos brasileiros consomem refrigerantes pelo menos cinco vezes por semana. Fonte: Ministério da Saúde/jun. 2019. [...] as mulheres têm rendimento habitual médio mensal de todos os trabalhos no valor de R$ 1.764, enquanto os homens, R$ 2.306. Fonte: IBGE/ jun. 2019. Outra maneira de encontrar dados estatísticos é em formato de tabelas e/ou gráficos, como os apresentados a seguir. #PraCegoVer: tabela com duas colunas e seis linhas com distribuição em cinco classes salariais e suas respectivas frequências. #PraCegoVer: gráfico de linhas crescente com distribuição das porcentagens das médias salariais. [...] a cobertura vacinal na população com 65 anos ou mais é de 54,8%. Fonte: IA SAÚDE. IP- RAM/jun. 2019. Tabela 1 - Salários médios de 36 funcionários Fonte: Elaborada pela autora, baseada em MORETTIN; BUSSAB, 2010. Figura 1 - Porcentagens acumuladas dos salários médios Fonte: MORETTIN; BUSSAB, 2010, p. 31. E agora? Reconhece discursos semelhantes a esses? Com certeza a sua resposta será sim, pois é comum encontrar essas informações em relatórios, reportagens jornalísticas, informativos contidos em jornais e/ou revistas entre outras situações. Essa larga utilização da estatística é justificável, pois, por intermédio da coleta de dados é possível obter e relacionar informações como as citadas acima ou no contexto desejado, de maneira a facilitar a leitura e interpretação. Para conceituarmos, de maneira formal, conforme Larson e Farber (2016), a estatística consiste na ciência que coleta, organiza e interpreta dados para a tomada de decisões. Nesse contexto, dado é conceituado como qualquer informação obtida por meio de observações, contagens, medições ou respostas. Na descrição de Crespo (2019), a estatística descritiva consiste em métodos que descrevem os dados a partir de tabelas e gráficos, compreendendo o manejo desses dados para resumi-los e descrevê-los sem, no entanto, inferir algo que ultrapasse os limites dos próprios dados. Nesse sentido, a estatística pode ser classificada como descritiva ou indutiva. A estatística descritiva, que é objeto de estudo deste curso, também recebe o nome de dedutiva e trabalha com o objetivo de coletar e tabular dados. Assim, as informações são reduzidas de maneira a possibilitar uma clara interpretação dos dados. Já a estatística indutiva ou inferência estatística se baseia em resultados encontrados a partir do estudo de uma amostra da população, buscando induzir ou ponderar as normas habituais da população da qual a amostra pertence (CASTANHEIRA, 2013). A quantidade de dados analisados para um estudo estatístico varia conforma o contexto, assim, é possível trabalhar com todas as informações ou com parte delas. Assim, somos apresentados a dois conceitos fundamentais no estudo da estatística: população e amostra. Morettin e Bussab (2010) descrevem a população como o conjunto de todos os elementos ou resultados que estão sob investigação e amostra como o subconjunto ou parte dessa população. Como exemplo, podemos citar o estudo da proporção de indivíduos na cidade A que são a favor de certo projeto governamental. A população consiste em todos os moradores da cidade e a amostra consiste no total de pessoas selecionadas que farão parte dessa investigação. De maneira semelhante, Larson e Farber (2016) descrevem a população como o No Brasil, os dados oficiais sobre informações do país são encontrados no Instituto Brasileiro de Geografia e Estatística (http://www.ibge.gov.br) (IBGE), assim basta acessar o endereço eletrônico e pesquisar os dados desejados. Existem também dados em órgãos internacionais como a Organização (https://nacoesunidas.org/) (https://nacoesunidas.org/)das (https://nacoesunidas.org/) (https://nacoesunidas.org/)Nações Unidas (https://nacoesunidas.org/) (ONU). Você sabia? http://www.ibge.gov.br/ https://nacoesunidas.org/ https://nacoesunidas.org/ https://nacoesunidas.org/ https://nacoesunidas.org/ https://nacoesunidas.org/ conjunto de todos os dados, medições, respostas ou contagens que se desejam informações. Já amostra é um subconjunto da população, ou seja, uma parte do conjunto de todos os dados a serem analisados. Segundo Crespo (2019), os dados estatísticos constituem a matéria-prima das pesquisas estatísticas, sendo originários de mensurações ou observações. Nesse sentido, os dados estatísticos são constituídos de medidas, características pessoais, idade, altura, isto é, dados que, como você pode perceber, têm classificações diferentes. Esse é o tema de nosso próximo assunto. 1.1.1 Variáveis qualitativas e quantitativas Quando uma pesquisa estatística se inicia, normalmente, o pesquisador se encontra cercado de informações obtidas pela coleta de dados. Assim, é necessário organizar esse material para, então, conseguir elaborar um resumo e, consequentemente, ser possível analisar e interpretar as informações. Um fator importante a ser considerado é a natureza dos dados a serem estudados, pois é o que determinará a adoção da metodologia estatística mais adequada. A coleção de dados ou, simplesmente, as variáveis podem ser qualitativas quando estão associadas a situações como cor dos olhos, marca de biscoito, preferência artística, entre outros exemplos, logo, representam entradas não numéricas. De acordo com Morettin e Bussab (2010), para cada elemento investigado em uma pesquisa, associa-se um (ou mais) resultado(s), correspondendo à realização de uma (ou mais) característica(s) (ou variável). Nesse sentido, tais variáveis são formadas por atributos (ou características) do indivíduo pesquisado. Entre as variáveis qualitativas, encontram-se as variáveis nominais e ordinais, sendo que a diferença entre elas está, simplesmente, no fato de que, nas variáveis qualitativas nominais, não existe qualquer ordenação em seus resultados; nas variáveis qualitativas ordinais, existe. Como exemplo de variável qualitativa ordinal temos: o ensino fundamental, o médio e o superior correspondem a uma ordem,e as classes baixa, média e alta também correspondem a certa ordem. Ainda segundo Morettin e Bussab (2010), as variáveis como peso, idade, altura correspondem a possíveis realizações numéricas, resultantes de contagens ou mensurações, e são chamadas de variáveis quantitativas. Dessa maneira, as variáveis quantitativas consistem em contagens ou medidas numéricas e são traduzidas por valores numéricos. As variáveis quantitativas também podem ser subdivididas em discretas e contínuas, sendo que, nas primeiras, as informações são limitadas; nas segundas, as informações pertencem a um intervalo definido por infinitos valores. #PraCegoVer: imagem com a classificação da variável em qualitativa (nominal e ordinal) e quantitativa (discreta e contínua). No próximo tópico, estudaremos como podemos apresentar os dados de maneira condensada a partir de distribuições de frequência, que representam o método padrão de agrupamento. 1.1.2 Distribuição de frequência De maneira a tornar os dados mais fáceis de serem interpretados, é necessário aplicar técnicas para organizar um conjunto de informações, a fim de encontrar possíveis padrões. Agora, imagine que foi pesquisado em uma autoescola, durante uma semana, as idades das pessoas que conseguiram obter sua carteira de habilitação (sem distinguir a categoria). Observe a seguir o resultado da coleta de dados. 18, 23, 60, 20, 19, 35, 43, 20, 20, 21, 34, 54, 18, 24, 23, 28, 24, 25, 43, 19, 20, 28, 40, 31, 31, 39, 29, 23, 22, 22, 30, 29, 21, 34, 25, 19, 20, 23, 20, 29, 34, 30, 24, 22, 40. O que podemos concluir sobre essas informações? O que tais dados podem agregar para um possível estudo acerca da relação entre a idade e obtenção da habilitação? Bem, em uma rápida observação desses números, pouca ou nenhuma informação é transmitida, logo, se torna necessária a organização desse conteúdo, de forma a prover um entendimento possível de tais dados. Inicialmente, vamos ordenar esses valores, ou seja, colocá-los em ordem crescente ou decrescente para melhorar nossa percepção acerca dessas informações. 18, 18, 19, 19, 19, 20, 20, 20, 20, 20, 20, 21, 21, 22, 22, 22, 23, 23, 23, 23, 24, 24, 24, 25, 25, 28, 28, 29, 29, 29, 30, 30, 31, 31, 34, 34, 34, 35, 39, 40, 40, 43, 43, 54, 60. Figura 2 - Classificação de uma variável Fonte: MORETTIN; BUSSAB, 2010, p. 10. Teste seus conhecimentos (Atividade não pontuada) Houve melhora! Porém, ainda não é possível elaborar conclusões. O que mais seria possível fazer? Uma alternativa seria agrupar os valores iguais e, para isso, verificaremos em nosso conjunto de dados tal possibilidade. A quantidade de vezes que se repete um número é chamada de frequência (f). De acordo com Larson e Farber (2016), a frequência ou frequência absoluta de uma classe é o número de entrada de dados em uma classe. Assim, de acordo com os dados que estamos estudando, foi possível construir a tabela a seguir, que corresponde a um exemplo de distribuição de frequência, ou seja, é uma tabela na qual uma de suas colunas apresenta a frequência de cada entrada, que equivale à contagem respectiva de cada ocorrência (MORETTIN; BUSSAB, 2010). A pesquisa de Santos et al. (2016), tem por objetivo mostrar que é possível usar ferramentas estatísticas nos setores empresariais de maneira a auxiliar a tomada de decisão. No trabalho, a pesquisadora apresenta meios e métodos estatísticos, e destaca a importância do uso de dados e cálculos na pesquisa operacional, servindo de ferramentas para o melhor planejamento estratégico da organização. Acesse (https://www.aedb.br/seget/arquivos/artigos16/50241 02.pdf) Você quer ler? https://www.aedb.br/seget/arquivos/artigos16/5024102.pdf #PraCegoVer: tabela com duas colunas e vinte linhas, distribuindo as idades das pessoas e as suas respectivas frequências. Nesse momento, é possível tirar conclusões como: a menor idade foi de 18 anos; a maior idade foi de 60 anos; a idade de maior frequência, ou seja, a idade mais comum entre os alunos que obtiveram a habilitação foi de 20 anos. Tabela 2 - Frequência de alunos que obtiveram habilitação Fonte: Elaborado pela autora, 2020. Vamos dar atenção especial a essa tabela, pois ela nos servirá de base para a construção do histograma de frequência, assim como o polígono de frequência (ambos sobre dados não agrupados). #PraCegoVer: tabela com três colunas e vinte linhas, distribuindo as idades das pessoas, suas respectivas frequências e as frequências acumuladas. Por meio da frequência acumulada, é possível obter conclusões como: entre 18 e 21 anos, 13 pessoas obtiveram habilitação; de 18 a 34 anos, 37 alunos possuem sua licença. O percentual referente a cada resultado perante o todo recebe o nome de frequência relativa e é mais uma importante informação a ser acrescentada na tabela. Assim, para encontrar essa apuração, basta dividir a frequência da categoria pelo total de elementos, em seguida, multiplicar esse resultado por 100, dado que essa informação deve ser em percentagem. Figura 3 - Frequência acumulada dos alunos que obtiveram habilitação Fonte: Elaborado pela autora, 2020. Lambert Adolphe Jacques Quételet (1796-1874) foi um astrônomo, matemático, sociólogo e, sobretudo, estatístico- social, cujo trabalho inspirou dezenas de criminalistas. Sua pesquisa promoveu o crescimento da criminologia como ciência de aplicação da sociologia, tornando possível o entendimento das causalidades do crime a partir da aplicação de métodos estatísticos nos fenômenos sociais. Você o conhece? É importante salientar que o resultado, fruto das somas entre as frequências relativas, deve ser equivalente a 100% ou valor aproximado (VIEIRA, 2012). Teremos, na tabela a seguir, essa informação disponível. #PraCegoVer: tabela com três colunas e dezenove linhas, distribuindo as idades das pessoas, suas respectivas frequências e as frequências relativas em porcentagens. Por intermédio da frequência relativa, é possível obter implicações como: 8,89% dos alunos que obtiveram sua habilitação têm 23 anos; a porcentagem de alunos que alcançaram a carta de habilitação com 43 e 60 anos foi igual e equivalente a aproximadamente 2,22%. 1.1.3 Distribuição de frequência por intervalos de classe Ainda explorando o exemplo anterior, vamos tentar reduzir o tamanho da tabela, agrupando os resultados em faixas de valores, que recebem o nome de classes ou intervalos. Para realizar tal arranjo, utilizaremos o conceito de intervalos de classes, ou seja, iremos agrupar os dados dentro de um intervalo pré-determinado. Larson e Farber (2016) listam as etapas a serem executadas, de modo a construir uma distribuição de frequência, com base em um conjunto de dados. Segundo postulam, faz-se necessário determinar o número de classes e a amplitude ou largura de cada uma, obtida por meio da diferença entre o limite superior (maior número que pertence à classe) e o limite inferior (menor valor da classe). Vamos começar? Mãos à obra! Tabela 3 - Frequência relativa dos alunos que obtiveram habilitação Fonte: Elaborada pela autora, 2020. Determine o número de classes (k), pelo método de Sturges, em que: , sendo n o tamanho do conjunto a ser estudado. Para a tabela sobre a relação entre idade e obtenção da habilitação, estamos trabalhando com 45 dados, logo o número de classes será encontrado por: , ou seja, aproximadamente 7 classes. Agora, encontraremos a amplitude total: , esse valor deve ser dividido por 7, que representa o número de classes, logo, , ou seja, cada classe terá uma largura de 6. #PraCegoVer: tabela com duas colunas e sete linhas, distribuindo as idades em sete classes, com intervalo igual a seis, e suas respectivas frequências. De posse de uma distribuição de frequência com intervalos de classe, é possível ver os dados mais compactados, o que facilita a leitura e formulação de conclusões acerca das classes mais ou menos frequentes dentro da situação estudada. No exemplo explorado, inferimos que a classe mais comum das idades que conseguiram a habilitação é de 18 a 24 anos e a menos frequente foide 48 a 54 anos, com nenhuma entrada. Encontre a largura da classe, realizando a razão entre a amplitude total dos dados (maior valor — menor valor) e a quantidade de classes que foi encontrada anteriormente. Encontre os limites de classe, para isso, basta usar o menor número como limite inferior da primeira classe e adicionar a ele a largura de classe encontrada, as subsequentes serão encontradas partindo do maior valor da classe anterior e sempre adicionando a largura da classe. Realize a contagem referente aos dados que pertencem a cada classe. Tabela 4 - Distribuição de frequência dos alunos que obtiveram habilitação Fonte: Elaborada pela autora, 2020. Você sabia? A seguir, estudaremos algumas representações gráficas que têm a vantagem de facilitar a percepções de padrões de comportamento das variáveis. Entre as representações, apresentaremos os histogramas e os polígonos de frequência, no entanto, ressaltamos que existem outras diversas formas de representações gráficas. O símbolo l-- indica intervalo fechado para o limite inferior da classe e aberto para o limite superior, assim, por exemplo, na primeira linha, serão agrupadas idades entre 18 e 24 anos. No entanto, na prática, esse intervalo equivale a 18, 19, 20, 21, 22 e 23 anos, logo, 24 anos não está presente nesse intervalo, e sim no próximo. 1.2 Histograma e polígono de frequência A representação gráfica integra a representação de dados em tabelas, uma vez que facilita e concede uma imediata visualização dos dados estudados. Existe uma infinidade de gráficos que se distinguem de acordo com suas características, no entanto, os mais comuns no estudo da estatística são o histograma e o polígono de frequência. 1.2.1 Histograma Larson e Farber (2016) definem o histograma como um diagrama de barras que representa a distribuição de frequência de um conjunto de dados. Estipulam a ele as seguintes características. A escala horizontal é quantitativa e mede os valores dos dados. A escala vertical indica as frequências das classes. E como converteremos uma tabela em um histograma? O gráfico a seguir representa um histograma e a ele estão relacionados os dados da Tabela 2, que dispõe as frequências de idade. É possível construir histogramas e, consequentemente, polígonos de frequência manualmente ou por intermédio de softwares adequados como o Excel, que será utilizado como ferramenta para elaborar os histogramas que serão apresentados a seguir. #PraCegoVer: o histograma corresponde a um gráfico com dezenove colunas verticais. A leitura de um histograma consiste em identificar a frequência que será representada pela altura, no eixo vertical, em relação às idades que estão dispostas no eixo horizontal. O histograma anteriormente apresentado descreve um conjunto de dados discretos, não agrupados. Também é possível construir histogramas a partir de uma distribuição de frequência por intervalos de classe, ou seja, os dados passam a ser agrupados. É o que veremos no próximo gráfico. As barras consecutivas devem estar unidas umas às outras. Figura 4 - Histograma de frequência Fonte: Elaborada pela autora, 2020. #PraCegoVer: o histograma corresponde a um gráfico com seis colunas verticais. A seguir, estudaremos outra importante representação gráfica dos dados, os polígonos de frequência. 1.2.2 Polígonos de frequência Outra forma de representar uma distribuição de frequência é utilizando um polígono que une, por segmentos de reta, os pontos médios das bases superiores dos retângulos de um histograma. Larson e Farber (2016) ainda conceituam polígono de frequência como um gráfico de linhas que valoriza as alterações contínuas de frequência. O gráfico a seguir é denominado de polígono de frequência e foi construído de acordo com a distribuição de idades (dados não agrupados) da Tabela 2 que é um histograma. Observe que as informações são as mesmas, o que diferencia é a linha poligonal. Figura 5 - Histograma de frequência por intervalos de classe Fonte: Elaborada pela autora, 2020. No vídeo Estatística, do professor André Leme Fleury, são apresentadas algumas aplicações da estatística, evidenciando a construção dos principais tipos de tabelas e de gráficos como os de linha, de colunas, ou os polares, relacionados aos dados tabulados. Acesse (https://www.youtube.com/watch?v=- dJOxU9kPj0) Você quer ver? https://www.youtube.com/watch?v=-dJOxU9kPj0 #PraCegoVer: gráfico em linhas ascendentes e descendentes, que representa o polígono de frequência, cujo eixo horizontal representa as idades das pessoas e o eixo vertical, a frequência. Até aqui, estudamos que o resumo dos dados a partir de distribuições de frequência e representações gráficas expressam mais sobre o comportamento de uma variável que a mera apresentação a partir de sua tabela original. Para Morettin e Bussab (2010), de maneira a resumir ainda mais esses dados, é possível usar uma medida que expressa alguns valores representativos de toda a série de dados. Entre essas medidas encontramos as medidas de tendência central, também denominadas de medidas de posição ou de localização. Vamos ao seu estudo! Figura 6 - Polígono de frequência Fonte: Elaborado pela autora, 2020. 1.3 Medidas de tendência central para dados não agrupados Já somos capazes de sintetizar dados provenientes de pesquisas e representá-los graficamente, permitindo interpretar e descrever padrões estatísticos. Agora vamos resumir ainda mais esses dados, descobrindo um ou mais valores que sejam significativos para o estudo das informações estudadas. Denominam-se medidas de tendência central ou medidas de posição, os valores que representam uma entrada comum ou central do conjunto de dados (LARSON; FARBER, 2016). As medidas de tendência central mais comumente utilizadas e que serão abordadas nesse capítulo são: média aritmética, moda e mediana. Os métodos para obtenção de tais resultados diferenciam-se de acordo com a maneira em que as informações estão dispostas, ou seja, quando os dados não estão agrupados e quando são agrupados em tabelas de distribuição de frequência com classes. Morettin e Bussab (2010) definem média aritmética como a soma dos resultados obtidos dividida pela quantidade de resultados (n); mediana (md) como o valor que ocupa a posição central de um conjunto de dados ordenados e moda (mo) como a entrada de maior frequência. Basta agora aprender como calcular cada uma dessas medidas. É o que veremos a seguir! 1.3.1 Cálculo da média, moda e mediana Para exemplificar os conceitos apresentados anteriormente, suponha que você esteja gerenciando uma lanchonete e que mantenha o controle das vendas dos diversos tipos de pastéis diariamente. Assim, foram contabilizados os seguintes valores referentes às vendas diárias do pastel de carne, durante 8 dias: 41 57 39 61 59 50 50 49 Observe que essa é uma situação em que os dados não estão agrupados, e agora? Como encontrar a média aritmética, a moda e a mediana? Bem, iniciaremos pelo cálculo da média, que compreende o resultado do somatório dos dados dividido pelo total de elementos, assim, a relação é dada por: , logo, nesse estabelecimento são vendidos, em média, 51 pastéis de carne diariamente. De posse dessa informação, apresentamos a fórmula da média aritmética segundo Morettin e Bussab (2010): Já a moda é indicada pelo valor que mais se repete, ou seja, tem maior frequência. Como podemos observar, a moda é 50, pois aparece no conjunto de dados duas vezes. A estatística está presente nas mais diversas áreas do conhecimento, entre elas as áreas relacionadas às ciências biológicas, agrárias e da saúde. Uma das principais disciplinas que estuda os fenômenos dessas áreas relacionados à estatística é a bioestatística. Seu foco está na análise de dados coletados no contexto de testes químicos e ensaios biológicos, bem como o estudo de áreas como saúde pública e familiar, epidemiologia e política sanitária. Dessa maneira, a bioestatística é a estatística aplicada a dados biológicos, interessada na coleta, organização, resumo, apresentaçãoe análise dos dados. Em algumas situações a média aritmética não é recomendada, pois as observações têm graus de importância diferentes. Nesse caso, usamos a média ponderada que é calculada a partir da equação: Caso em que é o peso associado à i-ésima observação e xi é i- ésima observação. Veja o exemplo: Calcular a média final ponderada na disciplina bioestatística, considerando que a primeira prova tem peso igual a 4 e o aluno tirou 6,0; a segunda nota tem peso 5 e o aluno tirou 5,0; o trabalho final tem peso 1 e o aluno tirou 8,0. A média final ponderada é calculada por: E, por último, a mediana corresponde a um valor central e a maneira de encontrá-la difere se o tamanho do conjunto for par ou ímpar. O procedimento para um resultado par consiste em encontrar os números referentes às posições e e, em seguida, calcular a média aritmética entre os valores encontrados; é importante salientar que as posições permitem encontrar as posições dos números, uma vez que estes devem, obrigatoriamente, estar ordenados (ordem crescente ou decrescente). Após identificar posição, devemos encontrar qual número pertence a tal lugar e assim realizar a média. Para o conjunto de dados de tamanho ímpar, basta encontrar a posição , associá-lo ao número que pertence a tal lugar, e pronto! No cenário da lanchonete e do número de pastéis vendidos, inicialmente, é sempre necessário ordenar tais números, que ficarão da seguinte forma: 39, 41, 49, 50, 50, 57, 59, 61. Após a ordenação, vamos identificar a quantidade de elementos, observemos que são 8, logo, um algarismo par, assim, vamos encontrar as posições: e , temos que elemento e elemento que equivalem aos valores 50 e 50. Nesse sentido, concluímos que a mediana é o elemento 50. Observação: como os valores respectivos as posições das medianas foram iguais, não foi necessário calcular a média aritmética, uma vez que seria encontrado o mesmo número. Já em caso contrário, é obrigatória a realização de tal procedimento. A seguir, são sintetizados os métodos para encontrar as medidas de tendência central para dados não agrupados. e Média: Moda: número de maior frequência, que mais se repete. Mediana: se o total de elementos do conjunto for ímpar: encontrar as posições e calcular a média aritmética entre os elementos encontrados. Se o total de elementos do conjunto for par: encontrar a posição e associá-la ao elemento encontrado. Da mesma maneira como calculamos a média, moda e mediana para dados não agrupados é possível calcular essas medidas para dados agrupados em classes a partir de métodos bem diferentes. Vamos a eles! 1.4 Medidas de tendência central para dados agrupados Dados são agrupados em tabelas de distribuição de frequência em que há intervalos ou classes. Em situações como essa, geralmente, são estudadas grandes quantidades de informações, por isso, fica inviável determinar a média, moda e mediana do conjunto pelo método de dados não agrupados, assim, recorreremos a outras fórmulas que serão utilizadas para tal objetivo. 1.4.1 Cálculo da média, moda e mediana para dados agrupados Considere a situação hipotética de que uma construtora iniciará as obras de um condomínio e, para iniciar as obras, fez o levantamento das áreas dos 400 lotes que irão compor o empreendimento, esses valores estão dispostos na tabela a seguir. #PraCegoVer: tabela com duas colunas e nove linhas, com distribuição de frequência em intervalos de nove classes, com amplitude igual a 100 cada uma delas, e a frequência respectiva de cada classe. Tabela 5 - Frequência de áreas em um loteamento Fonte: Elaborado pela autora, 2020. Como agora será possível calcular as medidas de tendência central? Os métodos continuam os mesmos? A resposta é simples, não. Devido a quantidade de dados e por esses estarem agrupados em intervalos, as fórmulas para se obter tais resultados são diferentes. Para facilitar o cálculo dessas medidas, serão acrescentadas três colunas adicionais à tabela original, uma constará a frequência acumulada, outra o ponto médio de cada classe e a terceira corresponderá ao resultado do produto entre o ponto médio e sua respectiva frequência. Observe a tabela a seguir, já com as novas colunas e seus respectivos resultados. #PraCegoVer: tabela com cinco colunas e nove linhas, com distribuição de frequência em intervalos de oito classes, com amplitude igual a 100 cada uma delas, a frequência respectiva, a frequência acumulada, o ponto médio de cada classe e o produto do ponto médio pela frequência. A média é encontrada agora pelo somatório entre o ponto médio e sua respectiva frequência, dividido pelo total de elementos, logo: Assim, temos o seguinte resultado encontrado a partir da tabela anterior: Para o cálculo da moda, salientamos que existem outros métodos para encontrá-la, no entanto, nos basearemos no método de King que é expresso pela seguinte relação: em que: = limite inferior da classe modal; c = número de classes; = frequência da classe imediatamente posterior à classe modal; Tabela 6 - Frequência de áreas em um loteamento Fonte: Elaborada pela autora, 2020. = frequência da classe imediatamente anterior à classe modal. Em nosso exemplo anterior, temos que a classe modal é aquela que apresenta o maior número de elementos, portanto, é a 5ª classe. Os demais dados são: = 600; c = 8; = 62; = 68. Assim, substituindo os dados na relação, vem: Portanto, o valor da moda é igual a 604. Observe que o valor mais encontrado deve estar compreendido no intervalo de maior frequência. A mediana será determinada pela igualdade: em que: li: limite inferior da classe; fac(ant): frequência acumulada da classe imediatamente anterior à classe da mediana; fi: frequência simples da classe da mediana; h: amplitude da classe da mediana. Portanto, os dados do exemplo, nos levam aos valores: n=400; li=600; fac(ant) = 191; fi = 76 e h = 100. Assim, vem: Assim, o valor da mediana é igual a 611,84. Tenha o hábito de conferir se o número encontrado se aloja no intervalo que serviu de base para o cálculo, isso permite conferir se o resultado encontrado pode estar correto ou não. Recapitulando os métodos para encontrar as medidas de tendência central para dados agrupados em: Média: Moda: Mediana: Teste seus conhecimentos (Atividade não pontuada) Nessa primeira unidade, você teve a oportunidade de ser apresentado aos principais conceitos que norteiam a estatística descritiva, e verificar a necessidade de organizar um conjunto de dados em tabelas e gráficos, de modo a facilitar a identificação de padrões, leitura e posterior análise dos dados coletados. Nesta unidade, você teve a oportunidade de: Conclusão compreender os conceitos que fundamentam a estatística descritiva; entender o processo de coleta e organização de dados; conhecer e diferenciar as variáveis qualitativas e quantitativas; conhecer as definições de frequência absoluta, frequência acumulada e frequência relativa; representar e interpretar dados em tabelas de distribuição de frequência com dados agrupados ou não; e em gráficos estatísticos; construir e interpretar histogramas e polígonos de frequência; definir as medidas de tendência central (média, moda e mediana), para dados agrupados e dados não agrupados. CASTANHEIRA, N. P. Estatística aplicada a todos os níveis. Curitiba: Intersaberes, 2013. CRESPO. A. A. Estatística. 20. ed. São Paulo: Saraiva, 2019. ESTATÍSTICA – Aula 04. 2015. 1 vídeo (23 min). Publicado pelo canal UNIVESP. Disponível em: https://www.youtube.com/watch?v=- dJOxU9kPj0 (https://www.youtube.com/watch?v=-dJOxU9kPj0). Acesso em: 21 dez. 2020. FREUND, J. E., SIMON, G. A. Estatística Aplicada: economia, administração e contabilidade. São Paulo: Artmed, 2000. LARSON, R; FARBER, B. Estatística Aplicada. 6. ed. São Paulo: Pearson, 2016. MORETTIN, P. A.; BUSSAB, W. O. Estatística Básica, 8. ed. São Paulo: Saraiva, 2010. Referências https://www.youtube.com/watch?v=-dJOxU9kPj0 SANTOS, B. et al. A importância e o uso da estatística naárea empresarial: uma pesquisa de campo com empresas do município de Elói Mendes – MG. In: SIMPÓSIO DE EXCELÊNCIA EM GESTÃO E TECNOLOGIA – SEGeT, 13., 2016, Resende. Anais [...]. Resende: AEDB, 2016. VIEIRA, S. Elementos de Estatística. São Paulo: Atlas, 2012.