Prévia do material em texto
Indaial – 2020 Métodos Quantitativos Prof. Alexandre Luis Prim Prof. Péricles Ewaldo Jader Pereira 2a Edição Copyright © UNIASSELVI 2020 Elaboração: Prof. Alexandre Luis Prim Prof. Péricles Ewaldo Jader Pereira Revisão, Diagramação e Produção: Centro Universitário Leonardo da Vinci – UNIASSELVI Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri UNIASSELVI – Indaial. Impresso por: P952m Prim, Alexandre Luis Métodos quantitativos. / Alexandre Luis Prim; Péricles Ewaldo Jader Pereira. – Indaial: UNIASSELVI, 2020. 198 p.; il. ISBN 978-65-5663-224-7 ISBN Digital 978-65-5663-220-9 1. Estatística matemática. - Brasil. I. Pereira, Péricles Ewaldo Jader. II. Centro Universitário Leonardo Da Vinci. CDD 519.5 apresentação Olá, acadêmico! Seja bem-vindo à disciplina de Métodos Quantitati- vos. Este livro é importantíssimo para sua continuação no processo de for- mação educacional e profissional. O Livro Didático de Métodos Quantitati- vos foi elaborado de forma que seu conteúdo conceitual e prático esteja de acordo com os conceitos modernos de estatística, proporcionando qualidade nos seus estudos. Aqui, conheceremos os aspectos teóricos e práticos da es- tatística. Esse conhecimento nos deixará com uma base teórica e prática para continuarmos o restante do estudo. É importante destacarmos que a base teórica se torna necessária para fundamentar e dar suporte para a parte prá- tica aplicada, que usaremos tanto na vida acadêmica quando na profissional. Neste livro, veremos conceitos modernos, como o Big Data. Compre- enderemos e trabalharemos a aplicação dos métodos quantitativos, não só com aplicação de fórmulas, mas também sua interpretação. Aprenderemos a construir e interpretar os principais tipos de gráficos, além de conhecer e calcular as medidas de posição. Por fim, a última unidade deste livro é dedicada às medidas de disper- são, correlação e regressão, tão importantes no dia a dia das empresas atualmen- te. Teremos a oportunidade de praticar vários cálculos, entenderemos o motivo deles serem usados e conseguiremos fazer suas análises e interpretações. Acadêmico, aproveite! Esses assuntos, certamente, tornarão você um profissional qualificado para atuar no mercado de trabalho. Ótimos estudos! Prof. Péricles Ewaldo Jader Pereira Prof. Alexandre Luis Prim Você já me conhece das outras disciplinas? Não? É calouro? Enfim, tanto para você que está chegando agora à UNIASSELVI quanto para você que já é veterano, há novi- dades em nosso material. Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é o material base da disciplina. A partir de 2017, nossos livros estão de visual novo, com um formato mais prático, que cabe na bolsa e facilita a leitura. O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com nova diagra- mação no texto, aproveitando ao máximo o espaço da página, o que também contribui para diminuir a extração de árvores para produção de folhas de papel, por exemplo. Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações sobre o ambiente, apresenta também este livro no formato digital. Assim, você, acadêmico, tem a possibilida- de de estudá-lo com versatilidade nas telas do celular, tablet ou computador. Eu mesmo, UNI, ganhei um novo layout, você me verá frequentemente e surgirei para apresentar dicas de vídeos e outras fontes de conhecimento que complementam o assun- to em questão. Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas institucionais sobre os materiais impressos, para que você, nossa maior prioridade, possa continuar seus estudos com um material de qualidade. Aproveito o momento para convidá-lo para um bate-papo sobre o Exame Nacional de Desempenho de Estudantes – ENADE. Bons estudos! NOTA Olá acadêmico! Para melhorar a qualidade dos materiais ofertados a você e dinamizar ainda mais os seus estudos, a Uniasselvi disponibiliza materiais que possuem o código QR Code, que é um código que permite que você acesse um conteúdo interativo relacionado ao tema que você está estudando. Para utilizar essa ferramenta, acesse as lojas de aplicativos e baixe um leitor de QR Code. Depois, é só aproveitar mais essa facilidade para aprimorar seus estudos! UNI Olá, acadêmico! Iniciamos agora mais uma disciplina e com ela um novo conhecimento. Com o objetivo de enriquecer seu conhecimento, construímos, além do livro que está em suas mãos, uma rica trilha de aprendizagem, por meio dela você terá contato com o vídeo da disciplina, o objeto de aprendizagem, materiais complemen- tares, entre outros, todos pensados e construídos na intenção de auxiliar seu crescimento. Acesse o QR Code, que levará ao AVA, e veja as novidades que preparamos para seu estudo. Conte conosco, estaremos juntos nesta caminhada! LEMBRETE suMário UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA ........................................................ 1 TÓPICO 1 —CONCEITOS INICIAIS ................................................................................................ 3 1 INTRODUÇÃO .................................................................................................................................... 3 2 HISTÓRIA DA ESTATÍSTICA ......................................................................................................... 4 3 APLICAÇÃO DA ESTATÍSTICA ..................................................................................................... 6 4 O MÉTODO ESTATÍSTICO .............................................................................................................. 7 4.1 FASES DO MÉTODO ESTATÍSTICO ........................................................................................... 7 5 OS TIPOS DE ESTATÍSTICA ............................................................................................................ 8 5.1 ESTATÍSTICA DESCRITIVA OU DEDUTIVA ............................................................................ 9 5.2 ESTATÍSTICA INFERENCIAL OU INDUTIVA ....................................................................... 10 5.3 PROBABILIDADE ........................................................................................................................ 11 RESUMO DO TÓPICO 1..................................................................................................................... 14 AUTOATIVIDADE .............................................................................................................................. 16 TÓPICO 2 —POPULAÇÃO, AMOSTRA E CENSO ...................................................................... 19 1 INTRODUÇÃO .................................................................................................................................. 19 2 DIFERENÇA: POPULAÇÃO, CENSO E AMOSTRA ................................................................. 19 2.1 POPULAÇÃO ................................................................................................................................ 19 2.2 CENSO ............................................................................................................................................ 20 2.3 AMOSTRAGEM ............................................................................................................................ 21 3 MÉTODOS DE AMOSTRAGEM ................................................................................................... 23 3.1 AMOSTRAGEM PROBABILÍSTICA .......................................................................................... 23 3.1.1 Amostra causal simples ....................................................................................................... 23 3.1.2 Amostra estratificada .......................................................................................................... 243.1.3 Amostra sistemática ............................................................................................................. 25 3.2 AMOSTRAGEM NÃO PROBABILÍSTICA ............................................................................... 27 3.2.1 Amostra por quotas ............................................................................................................. 27 3.2.2 Amostra de voluntários ...................................................................................................... 28 3.2.3 Amostra intencional ou por conveniência ........................................................................ 28 4 ERROS DE AMOSTRAGEM ........................................................................................................... 28 4.1 ERROS AMOSTRAIS OU ALEATÓRIOS .................................................................................. 28 4.2 ERROS NÃO AMOSTRAIS OU SISTÉMICOS ......................................................................... 29 5 CÁLCULO AMOSTRAL ................................................................................................................... 30 5.1 FÓRMULA DO CÁLCULO AMOSTRAL ................................................................................. 31 RESUMO DO TÓPICO 2..................................................................................................................... 33 AUTOATIVIDADE .............................................................................................................................. 35 TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS ............................................. 39 1 INTRODUÇÃO .................................................................................................................................. 39 2 CONCEITO DE VARIÁVEL ............................................................................................................ 39 3 TIPOS DE VARIÁVEIS .................................................................................................................... 40 3.1 VARIÁVEIS QUALITATIVAS NOMINAIS ............................................................................... 40 3.2 VARIÁVEIS QUALITATIVAS ORDINAIS ................................................................................ 41 3.3 VARIÁVEIS QUANTITATIVAS DISCRETAS ........................................................................... 42 3.4 VARIÁVEIS QUANTITATIVAS CONTÍNUAS ........................................................................ 43 4 ESCALAS DE MEDIDA ................................................................................................................... 44 4.1 ESCALAS NOMINAIS ................................................................................................................. 45 4.2 ESCALAS ORDINAIS .................................................................................................................. 45 4.3 ESCALAS DE INTERVALOS ...................................................................................................... 46 4.4 ESCALAS DE RAZÃO ................................................................................................................. 47 5 SÉRIES ESTATÍSTICAS ................................................................................................................... 47 5.1 SÉRIES HISTÓRICAS OU TEMPORAIS ................................................................................... 48 5.2 SÉRIES GEOGRÁFICAS .............................................................................................................. 49 5.3 SÉRIES ESPECÍFICAS .................................................................................................................. 49 5.4 SÉRIES MISTAS ............................................................................................................................. 50 5.5 DISTRIBUIÇÃO DE FREQUÊNCIA .......................................................................................... 50 LEITURA COMPLEMENTAR ............................................................................................................ 52 RESUMO DO TÓPICO 3..................................................................................................................... 56 AUTOATIVIDADE .............................................................................................................................. 58 UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO ........................................... 61 TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA ............................. 63 1 INTRODUÇÃO .................................................................................................................................. 63 2 BIG DATA ........................................................................................................................................... 64 3 DADOS ESTRUTURADOS E NÃO ESTRUTURADOS ........................................................... 66 3.1 DADOS ESTRUTURADOS ......................................................................................................... 66 3.2 DADOS NÃO ESTRUTURADOS ............................................................................................... 67 4 ORGANIZAÇÃO DOS DADOS .................................................................................................... 68 5 DISTRIBUIÇÃO DE FREQUÊNCIA – ELEMENTOS E CONSTRUÇÃO .............................. 70 5.1 ANÁLISE ROL .............................................................................................................................. 70 5.2 NÚMERO OU INTERVALOS DE CLASSE ............................................................................... 72 5.3 AMPLITUDE TOTAL DA DISTRIBUIÇÃO .............................................................................. 72 5.4 AMPLITUDE DE UM INTERVALO DE CLASSE .................................................................... 73 5.5 TIPOS DE FREQUÊNCIA ............................................................................................................ 73 6 ANÁLISE DE FREQUÊNCIA COM MS EXCEL .......................................................................... 74 RESUMO DO TÓPICO 1..................................................................................................................... 83 AUTOATIVIDADE .............................................................................................................................. 84 TÓPICO 2 —TÍTULO DO TÓPICO 2 UNIDADE 1....................................................................... 87 1 INTRODUÇÃO .................................................................................................................................. 87 2 TIPOS DE GRÁFICOS ...................................................................................................................... 88 2.1 BARRAS OU COLUNAS ............................................................................................................. 89 2.2 LINHAS .......................................................................................................................................... 90 2.3 GRÁFICO DE PIZZA ................................................................................................................... 92 2.4 DISPERSÃO OU SCATTERPLOT............................................................................................... 93 2.5 DIAGRAMA DE CAIXAS OU BOXPLOT ................................................................................ 94 2.6 HISTOGRAMA ............................................................................................................................. 95 2.7 ÁREA .............................................................................................................................................. 97 2.8 RADAR ...........................................................................................................................................97 2.9 OUTROS TIPOS DE GRÁFICOS ............................................................................................... 98 3 ELABORAÇÃO DE GRÁFICOS EM MS EXCEL ...................................................................... 100 RESUMO DO TÓPICO 2................................................................................................................... 103 AUTOATIVIDADE ............................................................................................................................ 104 TÓPICO 3 —MEDIDAS DE POSIÇÃO ......................................................................................... 107 1 INTRODUÇÃO ................................................................................................................................ 107 2 MEDIDAS DE POSIÇÃO............................................................................................................... 107 2.1 MÉDIA ARITMÉTICA ............................................................................................................... 107 2.2 MEDIANA ................................................................................................................................... 109 2.3 MODA .......................................................................................................................................... 110 2.4 SEPARATRIZES .......................................................................................................................... 110 3 ANÁLISE DE DADOS EM MS EXCEL ....................................................................................... 114 RESUMO DO TÓPICO 3................................................................................................................... 118 AUTOATIVIDADE ............................................................................................................................ 119 UNIDADE 3 — MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO ................... 123 TÓPICO 1 — MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE ............................... 125 1 INTRODUÇÃO ................................................................................................................................ 125 2 MEDIDAS DE DISPERSÃO...........................................................................................................125 2.1 AMPLITUDE ............................................................................................................................... 126 2.2 VARIÂNCIA ................................................................................................................................ 128 2.3 DESVIO PADRÃO ...................................................................................................................... 132 5 ASSIMETRIA.................................................................................................................................... 133 6 CURTOSE .......................................................................................................................................... 135 RESUMO DO TÓPICO 1................................................................................................................... 137 AUTOATIVIDADE ............................................................................................................................ 138 TÓPICO 2 —CORRELAÇÃO ........................................................................................................... 141 1 INTRODUÇÃO ................................................................................................................................ 141 2 ENTENDENDO O SIGNIFICADO DE CORRELAÇÃO ......................................................... 141 3 DIAGRAMA DE DISPERSÃO ..................................................................................................... 142 4 TIPOS DE CORRELAÇÃO ............................................................................................................ 145 4.1 CORRELAÇÃO POSITIVA ........................................................................................................ 145 4.2 CORRELAÇÃO LINEAR NEGATIVA ..................................................................................... 146 4.3 CORRELAÇÃO NÃO LINEAR E CORRELAÇÃO NULA .................................................. 147 5 CÁLCULO DO COEFICIENTE DE CORRELAÇÃO ................................................................ 148 RESUMO DO TÓPICO 2................................................................................................................... 152 AUTOATIVIDADE ............................................................................................................................ 153 TÓPICO 3 —REGRESSÃO LINEAR .............................................................................................. 157 1 INTRODUÇÃO ................................................................................................................................ 157 2 REGRESSÃO LINEAR .................................................................................................................... 157 2.1 VARIÁVEL DEPENDENTE E INDEPENDENTE .................................................................. 158 2.2 COEFICIENTE ............................................................................................................................. 160 2.3 INTERVALO DE CONFIANÇA ............................................................................................... 162 2.4 RESÍDUOS ................................................................................................................................... 164 3 COEFICIENTE DE DETERMINAÇÃO ....................................................................................... 165 4 P-VALUE ............................................................................................................................................ 166 5 REGRESSÃO LINEAR COM EXCEL ........................................................................................... 167 RESUMO DO TÓPICO 3................................................................................................................... 172 AUTOATIVIDADE ............................................................................................................................ 173 TÓPICO 4 —REGRESSÃO MÚLTIPLA ......................................................................................... 175 1 INTRODUÇÃO ................................................................................................................................ 175 2 REGRESSÃO MÚLTIPLA .............................................................................................................. 175 3 REGRESSÃO MÚLTIPLA COM EXCEL ..................................................................................... 176 RESUMO DO TÓPICO 4................................................................................................................... 184 AUTOATIVIDADE ............................................................................................................................ 185 REFERÊNCIAS .................................................................................................................................... 186 1 UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA OBJETIVOS DE APRENDIZAGEM A partir do estudo desta unidade, você deverá ser capaz de: • conhecer a história da estatística; • entender onde a estatística é aplicada; • aprender sobre o método estatístico; • conhecer os tipos de estatística; • compreender a diferença de população, amostra e censo; • aprender sobre os tipos de amostra; • entender os conceitos de variável e escala; • descobrir os tipos de variáveis e escalas; • conhecer as séries estatísticas; • descobrir os tipos de séries estatísticas. 2 PLANO DE ESTUDOS Esta unidade está dividida em três tópicos. No decorrer da unidade você encontraráautoatividades com o objetivo de reforçar o conteúdo apresentado. TÓPICO 1 – CONCEITOS INICIAIS TÓPICO 2 – POPULAÇÃO, AMOSTRA E CENSO TÓPICO 3 – VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS Preparado para ampliar seus conhecimentos? Respire e vamos em frente! Procure um ambiente que facilite a concentração, assim absorverá melhor as informações. CHAMADA 3 TÓPICO 1 — UNIDADE 1 CONCEITOS INICIAIS 1 INTRODUÇÃO Nos dias atuais, está sendo exigido que os alunos no nível de graduação, de quase todas as áreas de estudo, cursem pelo menos uma disciplina relacionada com estatística. Dessa forma, o estudo dos métodos estatísticos tem alcançado um papel proeminente na formação educacional dos alunos que se originam de uma varieda- de de campos de conhecimento e áreas acadêmicas distintas (MANN, 2015). O autor também escreve que o estudo da estatística se tornou mais popular do que nunca ao longo das últimas quatro décadas, mais ou menos. Esse fato se deve a crescente disponibilidade de computadores e pacotes de software de estatís- tica que fez crescer o papel da estatística como ferramenta de pesquisas empíricas. Como resultado, a estatística é usada para pesquisas em quase todas as profissões, desde a medicina até o esporte. Quase todos os jornais e revistas, nos dias de hoje, contêm gráficos e relatos baseados em estudos estatísticos. Todo campo de estudos possui sua própria terminologia. A estatística não é uma exceção (MANN, 2015). Nesse sentido, o estudo da estatística torna-se necessário, visando contri- buir com todos aqueles que em algum momento necessitam tomar uma decisão, pois busca lançar alguma luz em muitos problemas de nosso dia a dia. Aproveite ao máximo esta unidade e lembre-se da pirâmide de Glasser (1925). FIGURA 1 – PIRÂMIDE DE APRENDIZAGEM DE GLASSER (1925) FONTE: <https://bit.ly/3l3p2NE>. Acesso em: 19 fev. 2020. UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA 4 William Glasser foi um psiquiatra americano que teve suas teorias aplicadas na educação. Segundo a pirâmide, nós aprendemos e assimilamos 10% quando lemos, 20% quando ouvimos, cerca de 30% quando observamos e 50% quando vemos e ouvimos o conteúdo. Porém, a efetividade aumenta cerca de 70% quando nós debatemos o conteúdo. Por isso, temos à disposição vários materiais para lhe auxiliar nessa ca- minhada, além da nossa central de atendimento. Lembre-se: não basta saber, é preciso saber fazer. Mãos à obra e Bons estudos! 2 HISTÓRIA DA ESTATÍSTICA Para entendermos a história, precisamos em um primeiro momento en- tender de onde vem a palavra estatística. Pois bem, a palavra estatística, derivada do termo latino status (estado), parece ter sido introduzida na Alemanha, em 1748, por Achenwall. Atualmente, a Estatística é reconhecida como uma ciência capaz de obter, sintetizar, prever e fazer inferências a partir de dados (PORTAL DA EDUCAÇÃO, 2019). Todavia, antes de se chegar a essa definição aconteceu muita coisa. Desde a remota antiguidade, os governos têm se interessado por informações sobre suas populações e riquezas, tendo em vista, principalmente, fins militares e tributários. O registro de informações perde-se no tempo. Na época do Imperador Confúcio, já existiam relatos de levantamentos feitos na China, há mais de 2000 anos antes da era cristã. No Antigo Egito, os faraós fizeram uso sistemático de informações de caráter estatístico, conforme evidenciaram pesquisas arqueológicas. A Bíblia também fala de aplicações estatísticas quando houve recenseamento dos judeus, ordenado pelo Imperador Augusto (MEMÓRIA, 2004). Os balancetes do império romano, o inventário das posses de Carlos Mag- no, registros que Guilherme o Conquistador, invasor normando da Inglaterra, no século XI, mandou levantar das propriedades rurais dos conquistados anglo-sa- xões para se inteirar de suas riquezas, são alguns exemplos anteriores à emergên- cia da estatística descritiva no século XVI, na Itália (MEMÓRIA, 2004). Essa prática tem sido continuada nos tempos modernos, por meio dos recenseamentos, dos quais temos um exemplo naquele que se efetua a cada de- cênio, em nosso país, pela Fundação IBGE, órgão responsável por nossas esta- tísticas (dados estatísticos) oficiais. Segundo Memória (2004), com o surgimen- to do renascimento, foi despertado o interesse pela coleta de dados estatísticos, NOTA TÓPICO 1 —CONCEITOS INICIAIS 5 principalmente por suas aplicações na administração pública. A obra pioneira de Francesco Sansovini (1521-1586), representante da orientação descritiva dos estatísticos italianos, publicada em 1561, é um exemplo dessa época. Deve ser mencionado ainda o reconhecimento por parte da Igreja Católica Romana da im- portância dos registros de batismos, casamentos e óbitos, tornados compulsórios a partir do Concílio de Trento (1545-1563). Ao longo da Idade Média e até ao século XVIII a estatística foi puramente descritiva, coexistindo duas escolas: a escola descritiva alemã, cujo representante mais conhecido é o economista G. Achenwall (1719-1772), professor na Univer- sidade de Gottingen, considerado pelos alemães como o pai da estatística, e a escola dos matemáticos sociais que procuravam traduzir por leis a regularidade observada de certos fenômenos, de carácter económico e sociológico (PORTAL DA EDUCAÇÃO, 2019). Embora essa escola procurasse fundamentar a formulação de previsões com base em leis sugeridas pela experiência, a estatística confundia-se, pratica- mente, com a demografia à qual fornecia métodos sistemáticos de enumeração e organização. Na realidade, a necessidade sentida em todas as épocas de se co- nhecer numérica e quantitativamente a realidade política e social tornou a análise demográfica uma preocupação constante. John Graunt (1620-1674), juntamente com William Petty (1623-1687), au- tor de Political Arithmetic, e o astrónomo Edmond Halley (1656-1742) são os prin- cipais representantes da escola inglesa, que dá um novo impulso à estatística, fazendo-a ultrapassar um estádio puramente descritivo: analisam-se os dados na procura de certas regularidades, permitindo enunciar leis e fazer previsões (POR- TAL DA EDUCAÇÃO, 2019). No entanto, a estatística para adquirir o status de disciplina científica no- motética, isto é, ter a capacidade de postular a verdade, e não puramente ideográ- fica ou descritiva, teve que esperar pelo desenvolvimento do cálculo das probabi- lidades, que lhe viria a fornecer a linguagem e o aparelho conceptual permitindo a formulação de conclusões com base em regras indutivas. Segundo o site Portal da Educação (2019), data-se dos fins do século XIX o desenvolvimento da estatística matemática e suas aplicações, com F. Galton (1822-1911), K. Pearson (1857-1936) e W. S. Gosset (1876-1936), conhecido sob o pseudónimo de Student, sendo lícito afirmar-se que a introdução sistemática dos métodos estatísticos na investigação experimental se fica a dever, fundamental- mente, aos trabalhos de K. Pearson e R. A. Fisher (1890-1962). A partir de Pearson e Fisher o desenvolvimento da estatística matemática, por um lado, e dos métodos estatísticos aplicados, por outro, têm sido tal que é praticamente impossível se referir a nomes em particular (PORTAL DA EDUCA- ÇÃO, 2019). Após conhecermos um pouco da história da estatística precisamos entender onde ela é aplicada atualmente. UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA 6 3 APLICAÇÃO DA ESTATÍSTICA Estatística “é a ciência que se dedica à coleta, análise e interpretação de dados numéricos para o estudo de fenômenos naturais, econômicos e sociais, utilizando-se das teorias probabilísticas para explicar a frequência da ocorrência de eventos” (MO- ORE et al., 2006, p. 5). Para Machado (2010, p. 12), estatística é a “ciência que dispões de processos para recolher, organizar, classificar, e apresentar conjuntos de dados”. A estatística tem como objetivo compreender uma realidade específica para to- mada de decisões. Nakamura (2017) escreve que a estatística tem aplicaçãonas mais di- versas áreas do conhecimento, pois diante do crescimento de setores como inteligência de mercado e Big Data nas empresas, a relevância da estatística aumenta ainda mais. Nas indústrias, a estatística tem muitas aplicações, desde os estudos para im- plantação de fábricas até a avaliação das necessidades de expansão industrial; na pesquisa e desenvolvimento de técnicas, produtos e equipamentos; nos testes de pro- dutos; no controle da qualidade e da quantidade; no controle de estoques; na avalia- ção de desempenho das operações; nas análises de investimentos operacionais; nos estudos de produtividade; na previsão de acidentes de trabalho; no planejamento de manutenção de máquinas e equipamentos de uma forma geral e específica (SAM- PAIO; DANELON, 2017). Os autores também colocam que na área social e administrativa a estatística tem grande aplicação nas mais diversas áreas, como nos recursos humanos, a estatís- tica encontra-se presente em pesquisas de compatibilização entre os conhecimentos e habilidades dos empregados; nos estudos salariais e necessidades de treinamentos: nas propostas de planos de avaliação de desempenho do quadro funcional; na elabo- ração de plano de previdência complementar e de fundos de pensão, e nos estudos de previsão de custos de seguridade social (SAMPAIO; DANELON, 2017). Sampaio e Danelon (2017) também destacam que no estudo de marketing e análise de mercado, a estatística oferece condições de se poder traçar um perfil adequado para se trabalhar na monitoração e análise de mercado, nos sistemas de in- formação de marketing, na prospecção e avaliação de oportunidades, na análise e de- senvolvimento de produtos, nas decisões relativas a preços, na previsão de vendas, na logística da distribuição e nas decisões de canais, no desenvolvimento e avaliação de campanhas publicitárias, e em estudos para analisar a desempenho político de candidatos em período eleitoral ou pré-eleitoral. Na área financeira, na avaliação e na seleção de investimentos, no estudo e no desenvolvimento de modelos financeiros, no desenvolvimento de informações gerenciais, na definição, na análise e no acompanhamento de carteiras de investi- mentos, nas análises de fluxo de caixa, na avaliação e na projeção de indicadores financeiros, na análise das demonstrações contábeis ou financeiras, no desenvol- vimento e no acompanhamento de produtos e serviços. Percebeu a ampla apli- cação da estatística na resolução de problemas reais? Interessante, não é? Vamos agora entender como funciona o método estatístico. TÓPICO 1 —CONCEITOS INICIAIS 7 4 O MÉTODO ESTATÍSTICO Método é uma palavra que tem derivação na língua grega – methodos. “Met” quer dizer “através de” ou “por meio de”, e “hodós” significa “caminho”. Portanto, a palavra método significa caminho para meta (MACHADO, 2010). Assim, sempre que você tiver uma meta precisará de um caminho, ou seja, de um método. O método sinaliza que as hipóteses para um problema ou para uma opor- tunidade precisam seguir um caminho que já esteja predeterminado para que se obtenham resultados seguros e confiáveis, embora, muitas vezes, esse caminho não possa por si só trazer garantias de que os resultados esperados serão realmente alcançados. O autor Machado (2010) elenca dois tipos de métodos, que fazem parte dos métodos científicos: • Método experimental: consiste em manter constante todas as variáveis (causas), exceto uma, que sofrerá variações para se observar os respectivos efeitos, caso existam. Esse método é mais usado em ciências como a física e a química. Exem- plo: para fazer café você usa 1/2 litro de água, 3 colheres de café, um coador, 4 co- lheres de açúcar. Se você repetir essa receita diversas vezes é provável que todas as vezes você tenha o mesmo tipo de resultado. Todavia, se for alterado algum dos fatores, como aumentar quantidade de água, por exemplo, o café ficará mais aguado, se aumentar o açúcar, ficará mais doce e assim por diante. • Método estatístico: diante da impossibilidade de manter as causas constantes (nas ciências sociais, por exemplo), admitem-se todas essas causas presentes, va- riando-as, registrando essas variações e procurando determinar, no resultado, que influências cabem a cada uma delas. Esse método é o mais utilizado em estatística. Exemplo: uma empresa teve uma queda nas vendas no mês de julho. Os estudos indicam que esse mês foi férias escolares, aumentou o fluxo de turis- tas na região, porém, foi mais frio, nosso concorrente baixou o preço dele, nosso produto perdeu em qualidade. Qual desses fatores poderia ter feito as vendas dessa empresa cair? 4.1 FASES DO MÉTODO ESTATÍSTICO Para que se consiga responder a uma pergunta, precisamos passar por algumas fases que o autor Machado (2010) descreve da seguinte forma: • Primeira etapa – definição do problema e/ou da oportunidade: saber exata- mente aquilo que se pretende pesquisar. • Segunda etapa – planejamento: como levantar informações? Que dados deve- rão ser obtidos? Qual levantamento deve ser utilizado? Qual é o cronograma de atividades? Quais são os custos envolvidos? Entre outros questionamentos. • Terceira etapa – coleta de dados: fase operacional. É o registro sistemático de dados, com um objetivo determinado. • Quarta etapa – apuração dos dados: resumo dos dados após contagem e agru- pamento. São a condensação e a tabulação de dados. UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA 8 • Quinta etapa – apresentação dos dados: há duas formas de apresentação, que não se excluem mutuamente: • Apresentação tabular: é uma apresentação numérica dos dados em linhas e colunas distribuídas de modo ordenado, segundo regras práticas fixadas pelo Conselho Nacional de Estatística. • Apresentação gráfica: constitui uma apresentação geométrica que permite uma visão rápida e clara do fenômeno. • Sexta etapa – análise e interpretação dos dados: a última fase do trabalho esta- tístico é a mais importante e delicada. Está ligada essencialmente ao cálculo de medidas e coeficientes cuja finalidade principal é descrever o fenômeno (esta- tística descritiva). Na estatística indutiva, a interpretação dos dados se funda- menta na teoria da probabilidade. Para um melhor entendimento do método, vejamos a figura a seguir, nas quais, as fases do método estatístico estão em forma de desenho para facilitar a compreensão. FIGURA 2 – FASES DO MÉTODO ESTATÍSTICO FONTE: Os autores Após verificarmos a história da estatística, sua aplicação, seu método, bem como as fases que compõe o método estatístico é necessário entendermos os tipos de estatística. 5 OS TIPOS DE ESTATÍSTICA Diariamente, tomamos decisões que podem ser de natureza pessoal (que roupa vestir, o que comer, como vou para o trabalho), relacionadas aos negócios (comprar ou vender, solicitar ou não um orçamento), ou ainda, de qualquer outra TÓPICO 1 —CONCEITOS INICIAIS 9 natureza. Muitas dessas decisões acabam sendo tomadas em condições de incer- teza. Muitas vezes, as situações ou os problemas que enfrentamos no mundo real não têm uma solução precisa ou definitiva. O método estatístico pode nos ajudar a tomar decisões científicas e inteli- gentes em tais situações. Decisões tomadas pela utilização de métodos estatísticos são chamadas de suposições fundamentadas. Decisões tomadas sem a utilização de métodos estatísticos (ou científicos) representam meras suposições e, por essa razão, podem se revelar não confiáveis. Por exemplo, a abertura de uma grande loja, com ou sem uma avaliação de sua necessidade, pode afetar o sucesso do empreendimento (MANN, 2015). Assim como quase todos os campos de estudo, a estatística apresenta dois aspectos: o teórico e o aplicado. A estatística teórica ou estatística matemática lida com o desenvolvimento, a derivação e a comprovação de teoremas estatísticos, fórmulas, regras e leis. A estatística aplicada envolve as aplicações desses teore- mas, fórmulas, regras e leis para resolver problemas da vidareal (MANN, 2015). Nesse sentido, a estatística se divide em dois tipos: a estatística descritiva (também conhecida como dedutiva) e a estatística indutiva (também conhecida como estatística inferencial). Entenderemos melhor a diferença entre as duas nos subtópicos a seguir. 5.1 ESTATÍSTICA DESCRITIVA OU DEDUTIVA Vários conjuntos de dados que estão em seus formatos originais são de- masiadamente extensos, especialmente aqueles coletados por órgãos federais, es- taduais, ou ainda, de empresas que operam na bolsa de valores. Uma consequência desse fato é que tais conjuntos de dados não são muito proveitosos no que diz respeito a extrair conclusões ou tomar decisões. É mais fácil tirar conclusões de diagramas e tabelas resumidas do que da versão original de um conjunto de dados. Dessa forma, torna-se necessário reduzir os dados a um tamanho adaptado, construindo tabelas, elaborando gráficos, ou calculando medidas resumidas, tais como médias. A parcela da estatística que auxilia a fazer esse tipo de análise estatística é chamada de estatística descritiva (MANN, 2015). Portanto, se chama estatística descritiva a parte da estatística que trabalha com a organização e apresentação dos dados. É a parte da estatística que pega os dados brutos de uma pesquisa e os deixa organizados, por exemplo: em ordem crescente ou decrescente. Se quisermos saber quanto as empresas gastaram em propaganda em um determinado ano, podemos resumir as informações em forma de um gráfico, con- forme o exemplo mostrado na Figura 3: UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA 10 FIGURA 3 – GASTO COM PROPAGANDA DE EMPRESAS AMERICANAS EM UM DETERMINADO ANO FONTE: Mann (2015, p. 3) O gráfico apresentado mostra os gastos incorridos por seis companhias com propaganda, em 2011. Como ilustra o gráfico, a AT&T gastou US$1924,6 mi- lhões com propaganda em 2011. Dessas seis empresas, a Procter & Gamble foi a que gastou mais com propaganda em 2011, US$2949,1 milhões. Esse gráfico descreve dados sobre os gastos dessas seis empresas com propaganda, em um determinado ano, tal qual foram coletados e, por conseguinte, corresponde a um exemplo de estatística descritiva. Memória (2004) escreve que estatística descritiva é a etapa inicial da análi- se utilizada para descrever e resumir os dados. A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigorou essa área da estatística. 5.2 ESTATÍSTICA INFERENCIAL OU INDUTIVA Uma parcela importante da estatística trata das tomadas de decisão, das infe- rências, previsões e prognósticos sobre populações, com base em resultados obtidos de amostras, essa área da estatística é conhecida como estatística indutiva ou inferen- cial (MANN, 2015). Segundo Memória (2004), é chamada estatística inferencial ou indutiva o con- junto de técnicas que são utilizadas para que se consiga identificar relações entre variáveis que representem ou não relação de causa ou efeito. Na estatística inferencial se pretende inferir, ou seja, deduzir as características de uma população partindo de dados que foram observados em uma amostra de indivíduos dessa população. TÓPICO 1 —CONCEITOS INICIAIS 11 As estatísticas inferenciais são valiosas quando não é conveniente ou pos- sível examinar cada membro de uma população inteira. Por exemplo, não seria prático medir o diâmetro de todos os pregos fabricados em uma fábrica, mas é possível medir o diâmetro de uma amostra representativa de pregos e usar essas informações para fazer generalizações sobre os diâmetros dos pregos produzidos. Tudo o que envolver descrição dos dados podemos chamar de estatística descritiva ou dedutiva. Tudo o que envolver a tomada de decisão chamamos de estatísti- ca indutiva ou inferencial. IMPORTANTE 5.3 PROBABILIDADE Vieira (2019) escreve que o estudo de probabilidades teve início com os jo- gos de azar. As pessoas queriam entender a “lei” desses jogos, para ganhar dinhei- ro nos cassinos. Contudo, os matemáticos acabaram descobrindo que não é possí- vel prever, por exemplo, se vai ocorrer a face 6 em determinado lançamento de um dado. Podemos apenas descobrir, por observação, que a face 6 ocorre 1/6 das vezes, no decorrer de muitas jogadas. Atualmente, o estudo de probabilidade vai além dos jogos de azar. Todos nós concordamos que jogar uma moeda para decidir quem começa um jogo de futebol evita o favoritismo. Pela mesma razão, os estatísticos recomendam escolher ao acaso as pessoas que vão responder às pesquisas de opinião (todos os elementos da população têm igual probabilidade de pertencer à amostra) (VIEIRA, 2019). A probabilidade é dada pelas possibilidades de um evento ocorrer levando em consideração o seu espaço amostral. Essa razão que é uma fração é igual ao número de elementos do evento (numerador) sobre o número de elementos do espaço amostral (denominador). Observe a fórmula da probabilidade a seguir (VIEIRA, 2019, p. 130): Em que: E é um evento. n(E) é o número de elementos do evento. S é espaço amostral. n(S) é a quantidade de elementos do espaço amostral. UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA 12 Para podermos calcular a probabilidade é necessário esclarecer alguns conceitos, como o espaço amostral. “Espaço amostral é a lista com todos os resul- tados possíveis de um procedimento” (VIEIRA, 2019, p. 130). Por exemplo: lançar um dado e anotar o número de pontos da face su- perior, o espaço amostral é: S = {1, 2, 3, 4, 5, 6}; retirar uma carta de um baralho comum de 52 cartas e anotar o naipe da carta selecionada, o espaço amostral é: S = {paus, copas, ouros, espadas}; e, lançar uma moeda e observar a face superior, o espaço amostral é: S = {cara-coroa}. Segundo Silva et al. (2018), os espaços amostrais podem ser finitos ou infi- nitos. Para evitar recursos matemáticos mais sofisticados, estudaremos apenas os espaços amostrais finitos. Já o conceito de “evento” é dado por Silva et al. (2018) como qualquer subconjunto do espaço amostral do experimento. Portanto, um evento é um conjunto de resultados (um subconjunto do espaço amostral) ao qual é associado um valor de probabilidade. Por exemplo: lançar uma moeda três vezes, teremos o seguinte evento: E = {Cara, Coroa, Cara}, esse evento é subconjunto do espaço amostral. Observe: ao lançarmos um dado com seis faces, qual a probabilidade de obtermos um número que seja múltiplo de 3? Espaço amostral: S = {1, 2, 3, 4, 5, 6}, logo: n(S) = 6. Evento: E = {3, 6}, logo: n(E) = 2. Aplicando a fórmula, teremos: Os estatísticos preferem expressar valores de probabilidade por números entre 0 e 1 porque em cálculos mais avançados isso é necessário. No entanto, na prática, é comum aparecer probabilidades em porcentagens. Se você quiser ex- pressar probabilidade em porcentagem, basta multiplicar o valor dado pela defi- nição por 100 e acrescentar o símbolo de porcentagem (%) ao resultado (conforme cálculo mostrado acima) (VIEIRA, 2019). TÓPICO 1 —CONCEITOS INICIAIS 13 Vamos ao segundo exemplo: ao lançarmos simultaneamente dois dados, qual a probabilidade de sair a soma 4? Espaço amostral: S = {6x6}, logo: n(S) = 36. Evento: E= {(1, 3), (3, 1), (2, 2)} considerando os eventos em que a soma seja qua- tro. Logo, n(E) = 3. Aplicando a fórmula teremos: A definição dada neste tópico não permite responder perguntas como: qual é a probabilidade de um vestibulando ser aprovado? Qual é a probabilidade de chover amanhã? Qual é a probabilidade de uma pessoa chegar aos 100 anos? Não se pode obter a probabilidade por conjeturas. É aí que entra a frequência relativa (VIEIRA, 2019). A frequência relativa fornece uma estimativa de probabilidade, mas, para isso, é preciso que o número de eventos observados possa crescer indefinidamen- te. E isso se torna impossível encaixar, dentro da ideia de probabilidade, afirma- tivas como “a probabilidade de o Brasil ganhar a próxima Copa é 0,95”. Nesses casos, é necessário usar a definição subjetiva de probabilidade. Vieira(2019) define probabilidade subjetiva como sendo um valor entre 0 e 1, que representa um ponto de vista pessoal sobre a possibilidade de ocor- rer determinado evento. Logo, probabilidade subjetiva é de enorme importância quando as informações são apenas parciais e é preciso intuição. 14 Neste tópico, você aprendeu que: • A estatística é uma palavra que deriva de um termo latino status que significa es- tado e, ao que tudo indica, foi introduzida na Alemanha em 1748, por Achenwall. • A estatística foi usada por grandes nomes da história como Confúcio, Carlos Magno, Guilherme o conquistador, entre outros. • Em todas as épocas da história se teve a necessidade de se quantificar e de se numerar. Contudo, só a partir do final do século XIX que houve o desenvolvi- mento da estatística matemática e suas aplicações. • Os principais nomes da estatística são Galton (1822-1911), Pearson (1857-1936), Gos- set (1876-1936) e Fischer (1890-1962), desses se destacam ainda Pearson e Fisher. • Estatística é “a ciência que se dedica à coleta, análise e interpretação de dados numéricos para o estudo de fenômenos naturais, econômicos e sociais, utili- zando-se das teorias probabilísticas para explicar a frequência da ocorrência de eventos” (MOORE et al., 2006, p. 5). • A estatística é aplicada nas mais diversas áreas desde a indústria com suas operações como nas áreas sociais, marketing, finanças e contabilidade. • Em ciência existe o método experimental e o estatístico, o primeiro aplicado mais na química e na física e o segundo também aplicado nas ciências sociais. • O Método Estatístico é composto de seis fases ou etapas: 1. Definição do Pro- blema; 2. Planejamento; 3. Coleta de Dados; 4. Apuração de Dados; 5. Apresen- tação de Dados; e 6. Análise e Interpretação dos Dados. RESUMO DO TÓPICO 1 15 Ficou alguma dúvida? Construímos uma trilha de aprendizagem pensando em facilitar sua compreensão. Acesse o QR Code, que levará ao AVA, e veja as novidades que preparamos para seu estudo. CHAMADA • Os tipos de estatística são a descritiva ou dedutiva; a indutiva ou inferencial e a probabilidade estatística que faz a ligação dos dois. • A probabilidade é dada pelas possibilidades de um evento ocorrer levando em consideração o seu espaço amostral. Aplica-se uma fórmula que é igual ao número de elementos do evento (numerador) sobre o número de elementos do espaço amostral. 16 1 A palavra estatística vem de um termo latino que significa estado. Assinale a alternativa CORRETA que apresenta esse termo: a) ( ) Status. b) ( ) Stotus. c) ( ) Strito. d) ( ) Store. 2 Como todas as ciências, a Estatística também tem uma história. Com relação à história da estatística, classifique V para as sentenças VERDADEIRAS e F para as FALSAS: ( ) Guilherme, o Conquistador, invasor normando da Inglaterra, no século XI, mandou levantar das propriedades rurais dos conquistados anglo- saxões para se inteirar de suas riquezas. ( ) Com o surgimento do Renascimento, foi despertado o interesse pela coleta de dados estatísticos, principalmente por suas aplicações na administração pública. ( ) Ao longo da Idade Média e até ao século XVIII a estatística não era conhecida. ( ) A partir de Pearson e Fisher o desenvolvimento da estatística matemática, por um lado, e dos métodos estatísticos aplicados, por outro, têm sido tal que é praticamente impossível se referir a nomes em particular. Assinale a sequência CORRETA: a) ( ) V – V – F – V. b) ( ) F – V – V – F. c) ( ) V – F – F – F. d) ( ) F – F – V – V. 3 Estatística “é a ciência que se dedica à coleta, análise e interpretação de dados numéricos para o estudo de fenômenos naturais, econômicos e sociais, utilizando-se das teorias probabilísticas para explicar a frequência da ocorrência de eventos” (MOORE et al., 2006, p. 5). Com base nessa definição, qual o objetivo da estatística? a) ( ) Compreender uma realidade específica para tomada de decisões. b) ( ) Compreender todos as realidades possíveis do mundo. c) ( ) Monitorar a variação dos custos para verificar a movimentação dos preços nos mercados mundiais. d) ( ) Satisfazer todas as necessidades matemáticas da ciência. AUTOATIVIDADE 17 4 Na área social e administrativa, a estatística tem grande aplicação. Nas mais diversas áreas, como nos recursos humanos, a estatística encontra-se presente em: a) ( ) Fazer logística da distribuição de produtos e serviços. b) ( ) Em pesquisas de compatibilização entre os conhecimentos e habilidades dos empregados. c) ( ) Em monitorar o mercado. d) ( ) Fazer avaliação e desenvolvimento dos mais diversos produtos. 5 Entre as alternativas apresentadas, qual delas define a palavra método? a) ( ) Caminho para a meta. b) ( ) Caminho específico nos preços de bens e serviços. c) ( ) Caminho na oferta de bens e serviços. d) ( ) Caminho para o aumento exagerado dos produtos importados. 6 O autor Machado (2010) elenca dois tipos de métodos que fazem parte dos métodos científicos. Com relação a esses métodos, classifique V para as sentenças VERDADEIRAS e F para as FALSAS: ( ) O método experimental é aquele que consiste em manter constante todas as variáveis (causas), exceto uma que sofrerá variações para se observar os respectivos efeitos, caso existam. ( ) O método estatístico é aquele que, diante da impossibilidade de manter as causas constantes (nas ciências sociais, por exemplo), admitem-se todas essas causas presentes, variando-as, registrando essas variações e procurando determinar, no resultado final, que influências cabem a cada uma delas. ( ) No método experimental se admite que todas essas causas presentes, variando-as, registrando essas variações e procurando determinar, no resultado final, que influências cabem a cada uma delas. ( ) Pelo método experimental se entende a lei da oferta e da procura. Assinale a alternativa CORRETA: a) ( ) F – F – V – F. b) ( ) V – F – F – V. c) ( ) V – V – F – F. d) ( ) F – V – V – V. 7 Com relação às etapas do método estatístico, relacionando às fases aos seus respectivos conceitos: (1) Definição do Problema ( ) É o registro sistemático de dados, com um objetivo determinado. (2) Planejamento ( ) Tabular e gráfica. (3) Coleta ( ) Saber exatamente aquilo que se pretende pesquisar. (4) Apuração ( ) São a condensação e a tabulação de dados. (5) Apresentação ( ) A última fase do trabalho estatístico. (6) Análise ( ) Como levantar informações? Que dados deverão ser obtidos? 18 8 No que o método estatístico pode nos ajudar? a) ( ) A fazer suposições não fundamentadas. b) ( ) Em nada, pois nossa vida não é ciência. c) ( ) A tomar decisões científicas e inteligentes em muitas situações. d) ( ) A fazer negociações sem base fundamentada. 9 Com relação à estatística descritiva, assinale a alternativa CORRETA: a) ( ) Parte da estatística que não organiza dados. b) ( ) Parte da estatística que é diferente da estatística dedutiva. c) ( ) É a mesma coisa que estatística inferencial. d) ( ) Parte da estatística que pega os dados brutos e organiza. 10 Considere o lançamento de um dado e responda: a) Qual a probabilidade de se obter um número par? b) Qual a probabilidade de sair um número primo? c) Qual a probabilidade de sair um número maior ou igual a 5? d) Qual a probabilidade de sair um número natural? TÓPICO 2 —POPULAÇÃO, AMOSTRA E CENSO 19 TÓPICO 2 — UNIDADE 1 POPULAÇÃO, AMOSTRA E CENSO 1 INTRODUÇÃO Imagine que uma empresa nova resolva se instalar em sua cidade, mas, antes de fazer isso, ela queira entender os hábitos de consumo dos habitantes dessa cidade. O que ela faz? Talvez você pense da seguinte maneira: a empresa pode fazer um questionário e perguntar os hábitos de consumo dos habitantes para cada um deles. Será que isso é possível? Analisaremos, agora, a situação exposta. Em primeiro lugar, pensaremos quantas pessoas precisariam ser contratadas e serem treinadas para entenderem o que a empresa quer, para só depois sair perguntando. Além disso, como seriapossível contratar todos os habitantes? Praticamente impossível, pois, dependen- do o tamanho da cidade, isso seria tremendamente custoso e muitas vezes invi- ável de ser realizado. Concorda? Todavia, existem estudos estatísticos que são feitos dessa maneira (porém nem todos). Neste tópico, entenderemos quando isso acontece e quando isso não acon- tece. O primeiro passo para entender isso é a partir de alguns conceitos. Vamos lá! 2 DIFERENÇA: POPULAÇÃO, CENSO E AMOSTRA Quando falamos em população, censo e amostra dentro da estatística es- tamos falando em conjuntos dos quais podemos obter informações. Essas dife- renças conceituais trataremos a partir de agora nos próximos subtópicos. 2.1 POPULAÇÃO Na linguagem comum do dia a dia, população significa o conjunto de ha- bitantes de um país, uma região, uma cidade. Em estatística, a palavra população tem significado mais geral. População é o conjunto de elementos sobre os quais o pesquisador quer informações (VIEIRA, 2019). A população pode ser finita ou infinita. Finita quando seus elementos po- dem ser contados, como é o caso de alunos matriculados em uma escola, palavras em um texto, carros que passam sobre uma ponte em determinado dia. E infinita quando não é possível contar seus elementos, como acontece com o número de 20 UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA grãos de areia em uma praia ou o número de habitantes do planeta. Portanto, na prática, populações muito grandes para serem contadas são consideradas infini- tas na estatística, embora sejam matematicamente finitas (VIEIRA, 2019). Para que consigamos entender melhor o conceito, pensamos em uma pes- quisa realizada numa sala de aula para descobrir quantos livros cada aluno lê por ano, digamos que, dentro dessa sala de aula, se encontram 200 alunos. Para saber essa informação, perguntaríamos a todos os alunos, a esse conjunto de alunos damos o nome de população. População também é conhecida como conjunto universo, pois é aquele conjunto do qual desejamos extrair a informação e cujos elementos têm, pelo me- nos, uma característica comum, a qual está inserida no contexto daquilo que de- sejamos analisar (CARVALHO; CAMPOS, 2016). Os autores ainda escrevem que o significado estatístico de população é diferente do seu significado geográfico. Se afirmarmos somente que população é um conjunto de pessoas, isso estará errado. Para que estivesse certo, seria preciso que desse conjunto nós desejássemos obter a informação objeto da pesquisa, e que essas pessoas que compõem o conjunto apresentassem ao menos uma carac- terística comum (CARVALHO; CAMPOS, 2016). Para que o entendimento fique mais claro vamos a um outro exemplo en- volvendo um time de futebol. Vamos supor que estamos interessados em estudar a altura dos jogadores de um determinado time de futebol. Para conhecermos essa característica, devemos medir a altura dos jogadores. Essas informações ob- tidas são chamadas de dados. Nesse caso, os dados são numéricos, como 1,66 m, 1,81 m, 1,55 m, 1,46 m etc. Como o interesse abrange somente um time de futebol, todos os jogadores desse time formam a população da pesquisa. Em estatística, o termo população não significa necessariamente um conjunto de pessoas, mas pode referir-se a con- juntos de quaisquer tipos de objetos ou itens, como carros, livros, casas, compu- tadores etc. (AKAMINE; YAMAMOTO, 2013). 2.2 CENSO Para se fazer um estudo estatístico, o Censo é uma das maneiras. Supo- nhamos os exemplos das salas de aula utilizadas anteriormente: na sala de aula onde queríamos pesquisar os quantos livros cada aluno lê por ano, tínhamos pre- cisamente 200 estudantes. Já com relação ao time de futebol que pretendíamos medir a altura, não falamos quantos jogadores tínhamos, mas vamos supor que tivéssemos 30 jogadores, entre titulares, reservas e ainda alguns machucados. Então, sabemos que a população da primeira sala de aula é de 200. Já a população do time de futebol é 30. TÓPICO 2 —POPULAÇÃO, AMOSTRA E CENSO 21 Se, em nossa pesquisa, resolvermos consultar todos os alunos, ou seja, todos os elementos da população, fazendo o questionamento a cada um deles, sem exceção, realizaremos um censo. O censo é o tipo de estudo estatístico que abrange todos os elementos da população. Os autores Akamine e Yamamoto (2013) escrevem que um levantamento estatístico que abrange todos os elementos de uma população é denominado cen- so. Temos, por exemplo, o censo demográfico para fazer o levantamento de dados de todos os habitantes de um país. No Brasil, os censos oficiais são feitos pelo Instituto Brasileiro de Geo- grafia e Estatística (IBGE), uma fundação pública de administração federal mais conhecida pela sigla IBGE, com sede na cidade do Rio de Janeiro. Os censos de- mográficos são planejados para serem executados nos anos de finais zero, ou seja, a cada dez anos. Foram feitos recenseamentos gerais em 1872, 1890, 1900, 1920, 1940, 1950, 1960, 1970, 1980, 1991, 2000 e 2010 (VIEIRA, 2019). Para melhor enten- dimento do que é censo vejamos o quadro a seguir, que mostra os tipos de censo realizados no Brasil segundo o IBGE. QUADRO 1 – TIPOS DE CENSO SEGUNDO O IBGE Censo Demográfico Levantamento de dados sobre pessoas. Censo Agropecuário Levantamento de dados sobre os estabelecimentos agropecuá- rios e as atividades neles desenvolvidas. Censo Industrial Levantamento de dados sobre as características estruturais e econômico-financeiras da atividade industrial. Censo Comercial Levantamento de dados sobre as características estruturais e econômico-financeiras da atividade comercial. FONTE: Os autores Para a realização do censo demográfico, os pesquisadores do IBGE visi- tam todos os domicílios do país. Aplicam um questionário e depois apuram os dados, organizam, analisam as informações coletadas e as publicam. Esses dados podem ser encontrados nas publicações do IBGE, informações sobre número de residentes no país por sexo e por grupo de idade, número de domicílios no país, distribuição das famílias segundo a renda, registros de nascimentos, óbitos, casa- mentos, divórcios etc. No entanto, nem sempre é possível fazer censo porque isso demora tempo e consome muito dinheiro. 2.3 AMOSTRAGEM Amostragem é o tipo de estudo estatístico que é o inverso do censo. Como o próprio nome sugere, quando se fala em amostra ou amostragem, está se falan- do de uma parte, um subconjunto da população, que terá a função de representar 22 UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA o conjunto inteiro. Para que se possa considerar uma parte da população como uma amostra, é preciso que esta parte seja representativa do todo. A característica principal de uma amostra é a representatividade. A amostra é uma parte da população (um subconjunto), a partir da qual se pode auferir conclusões acerca desta mesma população. Assim, se observa o ca- ráter de representatividade da amostra (CARVALHO; CAMPOS, 2016). A maior parte dos estudos estatísticos é geralmente feito por meio de amostras, uma vez que a maioria das populações é constituída por um número muito grande de ele- mentos (indivíduos ou objetos), resultando, consequentemente, em quantidade muito grande de dados. O processo de obter as amostras é denominado amos- tragem (AKAMINE; YAMAMOTO, 2013). A figura a seguir torna mais claro o entendimento de população e amostra: FIGURA 4 – POPULAÇÃO E AMOSTRA FONTE: Adaptado de <https://bit.ly/31UdGDW>. Acesso em: 31 jan. 2020. NOTA População é o conjunto de todos os elementos (indivíduos ou objetos) que tem pelo menos uma característica em comum, e que está sob investigação ou estudo. Amostra é qualquer subconjunto de uma população. TÓPICO 2 —POPULAÇÃO, AMOSTRA E CENSO 23 3 MÉTODOS DE AMOSTRAGEM É chamado método de amostragem os critérios que são necessários para selecionar os elementos que comporão uma amostra. Dependendo do critério adotado, se terá um tipo de amostra. Esses métodos também são chamados de técnicas de amostragemque se dividem em probabilística e não probabilística. 3.1 AMOSTRAGEM PROBABILÍSTICA Os métodos probabilísticos de amostragem baseiam-se em um princípio chamado equiprobabilidade, isto é, todos os indivíduos da população têm as mes- mas probabilidades de fazerem parte da amostra. É recomendado que, sempre que possível, seja utilizado os métodos probabilísticos, pois são os que mais garantem a representatividade da amostra (BISQUERRA; SARRIERA; MARTÍNEZ, 2009). Portanto, uma amostra probabilística é selecionada de tal maneira que cada item ou pessoa da população estudada têm uma probabilidade conhecida de ser in- cluída na amostra. A autora Vieira (2019) escreve que para obter uma amostra pro- babilística, precisamos da lista com a identificação de cada um dos “N” elementos que compõem a população. Depois, usamos algum tipo de procedimento aleatório para retirar, da população, os “N” elementos que comporão a amostra. Neste livro, abordaremos os tipos de amostra probabilísticas indicados por essa autora, que são: a casual simples, a sistemática e a estratificada. 3.1.1 Amostra causal simples Amostra casual simples ou amostra aleatória simples é a amostra consti- tuída por elementos retirados inteiramente ao acaso da população. Isso significa que todos os elementos da população têm a mesma probabilidade de ser selecio- nados para a amostra. Uma maneira de obter uma amostra aleatória simples é pelo método de loteria. Para isso, atribui-se um número a cada um dos N elementos da popula- ção. Os números são colocados em uma urna e bem misturados. Em seguida, um pesquisador de olhos vendados seleciona n < N números, ou seja, seleciona um número de elementos “n” que é menor do que o número total “N”, da população. Os membros da população que tiverem os números sorteados são incluídos na amostra (VIEIRA, 2019). A figura a seguir demonstra de maneira lúdica como funciona esse tipo de seleção. 24 UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA FIGURA 5 – SORTEIO DE UMA AMOSTRA CAUSAL SIMPLES FONTE: Vieira (2019, p. 9) Vejamos um exemplo: digamos que o gerente de um supermercado quer obter uma amostra de 2% dos 500 clientes cadastrados para entrevistá-los sobre a qualidade do atendimento da empresa. Para obter uma amostra casual simples de 2% dos 500 clientes, é preciso sortear 10 (500 x 2% = 10). Isso pode ser feito da maneira mais antiga e mais conhecida: o gerente escreve os nomes (ou os núme- ros) de todos os clientes em pedaços de papel, coloca todos os pedaços de papel em uma urna, mistura bem e retira um nome. O procedimento deve ser repetido até serem retirados os nomes dos 10 clientes que comporão a amostra. Ou então, com a ajuda de softwares de computadores que geram números aleatórios. DICAS Um exemplo de softwares de sorteios é o utilizado em promoções do Face- book ou Instagram, que pode ser acessado pelo link: https://sorteador.com.br. 3.1.2 Amostra estratificada Quando a população é composta por elementos que pertencem a cate- gorias distintas, uma amostra casual simples não representa bem a população. Nesses casos, é preciso obter uma amostra estratificada. Para isso, é necessário separar os elementos de categorias distintas em estratos e depois coletar, em cada estrato, uma amostra casual simples. O número de elementos retirados de cada estrato deve ser proporcional ao número deles na população. TÓPICO 2 —POPULAÇÃO, AMOSTRA E CENSO 25 A Figura 6 mostra uma população constituída por nove homens e doze mulheres. Nesse caso, temos um número maior de mulheres do que de homens, fazendo-se necessária a estratificação. Assim, a estratificação é feira levando em conta um terço dos homens (9/3) e um terço das mulheres (12/3), portanto, a amostra estratificada tem três homens e quatro mulheres. A amostra estratifica- da garante a representação de todos os estratos (as categorias) da população na amostra coletada. FIGURA 6 – AMOSTRA ESTRATIFICADA FONTE: Viera (2019, p. 9) Vamos a outro exemplo: o gerente de um supermercado quer obter uma amostra de 2% dos 500 clientes cadastrados para entrevistá-los sobre a qualidade do atendimento da empresa. Contudo, antes de obter a amostra, o gerente obser- vou que as mulheres despendem mais tempo do que os homens escolhendo as mercadorias e buscam mais por ofertas, além de comprar itens para toda a família, enquanto os homens tendem a comprar rapidamente apenas o que precisam. O gerente então estratificou os cadastros segundo o sexo e contou 300 mulheres e 200 homens. Depois, usou um gerador de números aleatórios para sortear seis mulhe- res e quatro homens, ou seja, 2% das mulheres e 2% dos homens. 3.1.3 Amostra sistemática Nos itens anteriores, ficou demonstrado que é fácil coletar amostras ca- suais simples e amostras estratificadas quando as populações são pequenas e as unidades estão claramente identificadas, como é o caso de alunos de uma escola, empregados de uma empresa, clientes de um serviço. No entanto, é extrema- mente complicado ou podemos dizer, impraticável, usar essa técnica para obter amostras de populações grandes como a dos moradores da cidade de São Paulo ou do Rio de Janeiro, por exemplo. Não existe uma lista com os nomes de todos os moradores de onde sortear a amostra. 26 UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA Para esses casos, podemos coletar uma amostra sistemática, ou seja, planejar um sistema que nos permita selecionar os elementos que construirão a amostra. Se quisermos coletar uma amostra de 25% das 16 pessoas que estão em uma fila, pode- mos sortear um número entre 1 e 4. Se sair o número 4, a quarta pessoa pertencerá à amostra. Depois, tomamos para a amostra a quarta pessoa de cada quatro e teremos, assim, 25% da população, a figura a seguir nos mostra de maneira mais clara. FIGURA 7 – AMOSTRA SISTEMÁTICA FONTE: Vieira (2019, p. 10) Se quisermos fazer uma pesquisa com domicílios ao invés de pessoas, podemos usar a mesma técnica. Por exemplo: em uma cidade toma-se um ponto de partida escolhido ao acaso (por exemplo, a igreja matriz ou a praça central). Depois, sorteia-se um número entre 1 e 6, por exemplo. Se sair o número 5 (a quinta casa), percorrem-se as ruas a partir daí, usando um sistema. Digamos que se queira 10% dos domicílios para a amostra. O tamanho da amostra será de apro- ximadamente um décimo dos domicílios, conforme demonstra a figura: FIGURA 8 – AMOSTRA SISTEMÁTICA DE DOMICÍLIOS FONTE: Vieira (2019, p. 12) TÓPICO 2 —POPULAÇÃO, AMOSTRA E CENSO 27 Notem que há 42 casas e foram selecionadas 4, ou seja, aproximadamente um décimo das casas ou 10%. Entendido as amostras probabilísticas estudaremos as não probabilísticas. 3.2 AMOSTRAGEM NÃO PROBABILÍSTICA Nem sempre se consegue fazer uma amostra probabilística, as vezes para que os custos sejam reduzidos, ou para que se tenha uma maior facilidade de se conseguir fazer a pesquisa, se usa o método não probabilístico, que selecionam os indivíduos por outros critérios. Os tipos de amostra não probabilísticas apre- sentadas neste livro são a amostra por quotas, a amostra por conveniência e a amostra de voluntários. 3.2.1 Amostra por quotas Uma amostra é coletada por quotas quando a população é composta por elementos que pertencem a categorias visivelmente diferentes e o fato de pertencer à determinada categoria afeta a informação que se busca. Nesse caso, não é feito o sorteio, ao contrário: são selecionadas as unidades que comporão a amostra por julgamento, pois são chamados para a amostra pessoas que o pesquisador entende como preenchendo os requisitos da quota. As quotas são planejadas antes de se fazer a amostragem e não precisam ser de tamanho proporcional ao que existe na população. Se um grupo é muito pequeno, deve entrar na quota (VIEIRA, 2019). A Figura 9 demonstra 28 pessoas: 15 mulheres negras, 1 mulher branca e 12 homens negros. Para selecionar ¼ da população, escolhem-se as primeiras três mulheres negras, a mulher branca e os primeiros três homensnegros. FIGURA 9 – AMOSTRA POR QUOTAS FONTE: Vieira (2019, p. 13) Esse método é muito utilizado em pesquisas de opinião e pesquisa de mer- cado por ter como grande vantagem o preço de se fazer uma pesquisa, pois uma amostra por quotas é barata (VIEIRA, 2019). Exemplo: se a população de uma cida- de é composta, de acordo com o Censo Demográfico, por 4/8 de jovens, 3/8 de adul- tos e 1/8 de idosos, descontadas as crianças. Você, como pesquisador, sai às ruas da 28 UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA cidade com a incumbência de entrevistar 400 pessoas selecionadas segundo a técni- ca de amostragem por quotas. Então entreviste: 200 jovens (4/8 de 400), 150 adultos (3/8 de 400) e 50 idosos (1/8 de 400), a sua escolha e conforme seu julgamento. 3.2.2 Amostra de voluntários A amostra de voluntários é composta por pessoas que se ofereceram para participar da amostra. Em geral, essas pessoas têm grande interesse no assunto. O critério para pertencer à amostra é do pesquisado, não do pesquisador. Por essa ra- zão, os resultados podem ser muito tendenciosos (VIEIRA, 2019). Por exemplo, se um professor pedir que três alunos se apresentem como voluntários para explicar uma atitude coletiva (como o fato de toda a classe ter se recusado a fazer uma prova), é provável que os líderes se apresentem, e não o rapaz tímido que queria fazer a prova. 3.2.3 Amostra intencional ou por conveniência Essa técnica é muito comum e consiste em selecionar uma amostra da população que seja acessível ao pesquisador. Portanto, os indivíduos que estarão nessa pesquisa são selecionados porque eles estão prontamente disponíveis e o pesquisador tem fácil acesso a eles e não porque eles foram selecionados por meio de um critério estatístico. Geralmente essa conveniência representa uma maior facilidade operacional e baixo custo de amostragem (OCHOA, 2015). A amostra intencional é constituída pelas unidades às quais o pesquisador tem fácil acesso. Por exemplo, o professor que toma os alunos de sua classe como amostra de toda a escola está usando uma amostra de conveniência (VIEIRA, 2019). 4 ERROS DE AMOSTRAGEM Em toda a pesquisa deve existir um cuidado para que o erro não ocorra. Quando se está trabalhando com amostras existem dois tipos de erros que podem ocorrer, os erros amostrais, também conhecidos como erros aleatórios e os erros não amostrais, também conhecidos como erros sistémicos. 4.1 ERROS AMOSTRAIS OU ALEATÓRIOS Os erros amostrais ou aleatórios ocorrem quando existe uma diferença entre o valor obtido na amostra e o parâmetro de interesse da população. Assim, o erro aleatório aparece porque os dados são coletados de uma amostra, e não de toda a população. Por puro acaso, o pesquisador pode tomar uma amostra que não é representativa da população que quer estudar. Não existe garantia de que TÓPICO 2 —POPULAÇÃO, AMOSTRA E CENSO 29 uma amostra de 1.000 ou 10.000 pessoas represente, verdadeiramente, a popula- ção de onde foi retirada. O erro aleatório é inerente ao processo de amostragem. Não existe maneira de evitá-lo (VIEIRA, 2019). 4.2 ERROS NÃO AMOSTRAIS OU SISTÉMICOS Os erros não amostrais ou sistémicos ocorrem quando os dados amostrais são coletados, registrados ou analisados de maneira errada, os erros sistemáticos são muitas vezes consistentemente repetidos ao longo do tempo. Esse tipo de erro deve poder ser minimizado, ou corrigido para que não aconteça. Um exemplo desse tipo de erro é uma balança que pese pessoas e esteja descalibrada, isto é, ela está registrando por exemplo um kg a mais. Nesse caso, as pesagens obtidas serão tendenciosas. Existem outros tipos de erros não amostrais ou sistémicos, bastante comuns, segundo Vieira (2019), são eles: 1. Falta de respostas: a amostra obtida pode não ser representativa da população sobre a qual o pesquisador quer informações – se faltarem muitos dados. No caso de questionários, os especialistas alertam sempre: quem responde é diferente de quem não responde. Recomendam então que a taxa de resposta seja de pelo me- nos 70%, isto é, pelo menos 70% dos amostrados deve responder às perguntas. 2. Viés na resposta: as pessoas às vezes dão resposta que não condiz com a ver- dade por conveniência (quando se pergunta sobre dinheiro), porque não se lembram (quando se pergunta a frequência de hábitos, como quantos cigarros fumaram na semana anterior), por timidez ou exibicionismo (perguntas sobre sexualidade), por ignorância (opinião sobre fatos políticos ou econômicos de que elas apenas têm noção, mas não têm opinião própria). É o que se chama viés na resposta. Difícil de detectar, o viés na resposta pode invalidar os resul- tados da pesquisa. 3. Maneira errada de perguntar: é preciso muito treino para saber perguntar. E é sur- preendentemente difícil formular questões de maneira clara. Às vezes, a maneira de perguntar maximiza um tipo de resposta. Por exemplo, a questão “o senhor é a favor da pena de morte para reduzir a violência?” possivelmente obterá mais respostas positivas do que a questão “o senhor é a favor da pena de morte?”. 4. Cobertura insuficiente: nem sempre todos os membros da população são ade- quadamente representados na amostra. Isso acontece quando o pesquisador coleta uma amostra fácil de obter, como as pessoas que circulam em um sho- pping. Elas não são representativas dos moradores da cidade. 30 UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA Tendência ou viés é a divergência consistente, persistente, da estatística de uma amostra em relação ao parâmetro que se quer estimar. NOTA 5 CÁLCULO AMOSTRAL Quando estamos falando em pesquisas estatísticas que trabalham com a amostra, já vimos anteriormente que muitos cuidados são necessários para que não se cometam erros. Pois, independentemente de nossa vontade, quando se busca representar uma população inteira, teremos desvios da realidade, erros de medida e outras imperfeições; isso acontece muito por conta do acaso. Ao tentarmos estimar o hábito de se exercitar entre os brasileiros, por exemplo, a nossa amostra poderá sofrer desvios caso tenhamos selecionado mais idosos que jovens, mais crianças do que adultos, de uma certa região para outra, e assim por diante (AQUARELA, 2018). Esses erros já foram explicados anteriormente, como também foi colocado que eles devem ser corrigidos ou minimizados. Talvez a principal dúvida de quem vai trabalhar com amostra é saber a quantidade necessária para que se represente uma população, a maneira de se aproximar da realidade da população é fazendo o cálculo amostral. Esse cálculo é um modelo estatístico, constituído pelos seguintes conceitos principais que são: • Margem de erro: é a diferença entre a média encontrada na amostra para a média da população. Dentro do cálculo de amostragem, a margem de erro en- tra como um dos parâmetros a serem inseridos. Podemos perceber uma rela- ção inversamente proporcional entre a margem de erro e o tamanho da amos- tra: quanto menor for a margem de erro máxima desejada, maior terá de ser a amostra. É o índice de variação dos resultados de uma pesquisa. Por exemplo, um erro amostral de 5% indica que o resultado poderá variar cinco pontos per- centuais para mais ou para menos em sua pesquisa (COMENTTO, 2019). • Aleatoriedade: para termos os resultados mais próximos da verdadeira popu- lação, a seleção da nossa amostra deve ser totalmente aleatória. Quanto menos presa a nossa amostra for a um determinado grupo ou categoria, melhor a nos- sa amostra representará a população como um todo. • População: neste livro, já explicamos o conceito de população. Relembrando: po- pulação, em termos estatísticos, nada mais é do que a totalidade de indivíduos que queremos analisar. Seja o total de pessoas que moram na região do nosso interesse, seja o total de organismos que vivem em determinado ecossistema. • Distribuição da População: é o grau de homogeneidade da população, consi- derando aspectos relevantes tais como nível sociocultural, gênero,idade, entre outros. Por exemplo, uma pesquisa realizada numa cidade inteira requer um tratamento mais heterogêneo que uma pesquisa realizada dentro de uma em- TÓPICO 2 —POPULAÇÃO, AMOSTRA E CENSO 31 presa, em que a população pode estar distribuída de forma mais homogênea. Na prática, quanto menos variada é a população, menor é a amostra necessária (COMENTTO, 2019). • Grau ou nível de confiança: o termo confiança, dentro das técnicas de amostra- gem, significa o quanto estamos dispostos a abrir mão de “certeza” para termos uma amostra mais eficiente. Podemos pensar em confiança como um intervalo de probabilidades, em que, quanto maior for o grau de confiança estabelecido, maior será o intervalo de resultados possíveis dentro de uma amostra. Deli- mitamos esse intervalo em desvios padrões, ou seja, o quanto a nossa amostra poderá se desviar da verdadeira média da população, com um determinado grau de confiança. O nível de confiança representa a probabilidade de uma pesquisa obter os mesmos resultados se outro grupo de indivíduos em uma mesma população fosse entrevistado (COMENTTO, 2019). Por exemplo, uma pesquisa com nível de confiança de 95% quer dizer que se a mesma pesquisa for repetida 100 vezes, em 95 delas o resultado obtido será o memo. 5.1 FÓRMULA DO CÁLCULO AMOSTRAL O cálculo amostral não é um cálculo simples de se fazer, por isso, vamos demonstrar a fórmula dele e o que cada item representa, bem como deixaremos calculadoras on-line para que possam ser acessadas. O intuito dessa seção é ape- nas apresentar o cálculo amostral, mas não necessariamente fazer com que você, acadêmico, saiba calcular o tamanho amostral manualmente. Para isso, há dispo- nível um conjunto de calculadoras on-line que facilitam o processo de identifica- ção do tamanho amostral, veja na seção seguinte. FIGURA 10 – FÓRMULA DO CÁLCULO AMOSTRAL FONTE: <https://bit.ly/3lKj3NZ>. Acesso em: 31 jan. 2020. Em que: N = tamanho da população; z = o desvio do valor médio que é aceito para se alcançar o nível de con- fiança desejado; e = margem de erro máxima admitida; p = a proporção que se espera encontrar. 32 UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA Como colocado anteriormente o objetivo deste livro não é fazer com que se calcule manualmente o tamanho de uma amostra e sim demonstrar os prin- cipais conceitos do modelo estatístico e fazê-los entender que, para se trabalhar com amostras, esse cálculo é de fundamental importância. DICAS Acadêmico, indicamos alguns links que possuem a calculadora on-line gratuita: • Survey Monkey: https://pt.surveymonkey.com/mp/sample-size-calculator/. • Aquarela: https://www.aquare.la/o-que-e-amostragem/. • Calcular e Converter: https://calculareconverter.com.br/calculo-amostral/. Nos links apresentados, basta você incluir os seguintes dados: tamanho da população, nível de confiança e margem de erro. Conforme exemplo apresentado na figura a seguir. FIGURA 11 – CÁLCULO ON-LINE DE AMOSTRA FONTE: <https://www.aquare.la/o-que-e-amostragem/>. Acesso em: 31 jan. 2020. Além desses, existem outros sites que podem ajudar a resolver o proble- ma do cálculo amostral. 33 RESUMO DO TÓPICO 2 Neste tópico, você aprendeu que: • Quando falamos em população, censo e amostra dentro da estatística estamos nos referindo a conjuntos dos quais podemos obter informações. • A palavra população em estatística é o conjunto de elementos sobre os quais o pesquisador quer obter informações. • A população pode ser finita quando os seus elementos podem ser contados e infinita quando essa contagem seja impossível. • Populações muito grandes, mesmo que a contagem seja matematicamente pos- sível, são consideradas infinitas. • Censo é um dos meios de se fazer um estudo estatístico. • O censo é o tipo de estudo estatístico que abrange todos os elementos da população. • No Brasil, temos os censos oficiais que são feitos pelo IBGE (Instituto Brasileiro de Geografia e Estatística). • Existem, no Brasil, o censo demográfico, agropecuário, industrial, comercial, entre outros. • Um estudo estatístico que é o inverso do censo é a amostragem. • Quando se fala em amostragem, está se falando de uma parte, um subconjunto da população. • Para que a amostra seja representativa ela necessariamente precisar represen- tar a população como um todo. • Existem métodos de amostragem chamados de probabilísticos e não probabi- lísticos. • Os probabilísticos seguem o princípio da equiprobabilidade, que diz que todos os indivíduos da população têm as mesmas probabilidades de fazerem parte da amostra. • Os métodos probabilísticos são recomendados sempre que possível, por garan- tirem a representatividade da amostra. 34 • Os tipos de amostras probabilísticas são: amostra causal simples, amostra es- tratificada e a sistemática. • Como tipos de amostras não probabilísticas tratadas neste livro temos a amostra por quotas, amostra de voluntários e a amostra intencional ou por conveniência. • Podem existir os erros de amostragem que são: os erros amostrais ou aleatórios e os erros não amostrais ou sistémicos. • Entre os erros não amostrais mais comuns temos os de falta de resposta, viés de resposta, maneira errada de perguntar e cobertura insuficiente. 35 1 Assinale a alternativa que corresponda a palavra que é entendida como o conjunto de elementos sobre os quais o pesquisador quer informações: a) ( ) População. b) ( ) Censo. c) ( ) Dados. d) ( ) Amostra. 2 Quando os dados de uma população podem ser contados, ela é uma população: a) ( ) Histórica. b) ( ) Finita. c) ( ) Linear. d) ( ) Estatística. 3 Com relação aos conceitos de população, censo e amostra, classifique V para as sentenças VERDADEIRAS e F para as FALSAS: ( ) Para que se possa considerar uma parte da população como uma amos- tra, é preciso que essa parte seja representativa do todo. ( ) O censo é o levantamento estatístico que abrange todos os elementos de uma população. ( ) Em estatística, o termo população significa necessariamente um conjunto de pessoas. ( ) A maior parte dos estudos estatísticos é feito por censo. Assinale a sequência CORRETA: a) ( ) V – V – F – F. b) ( ) F – V – V – F. c) ( ) V – F – F – F. d) ( ) F – F – V – V. 4 Os métodos probabilísticos de amostragem baseiam-se em um princípio que diz que todos os indivíduos da população têm as mesmas probabilida- des de fazerem parte da amostra. Como é o nome desse princípio? a) ( ) Probabilidade. b) ( ) Inferência. c) ( ) Dedução. d) ( ) Equiprobabilidade. AUTOATIVIDADE 36 5 Qual é a amostra constituída por elementos retirados inteiramente ao acaso da população? a) ( ) Distributiva. b) ( ) Causal simples. c) ( ) Causal complexa. d) ( ) Lotérica. 6 Quando a população é composta por elementos que pertencem a categorias distintas, uma amostra casual simples não consegue representar bem: a) ( ) A população. b) ( ) A estatística. c) ( ) O censo. d) ( ) A amostra. 7 Com relação à amostragem sistemática, classifique V para as sentenças VERDADEIRAS e F para as FALSAS: ( ) É o método mais indicado para qualquer tamanho de população. ( ) A amostra sistemática envolve o planejamento de um sistema que permi- ta selecionar os elementos que comporão a amostra. ( ) É método experimental de registro e influência amostral. ( ) É o método amostral mais simples existente. Assinale a alternativa CORRETA: a) ( ) F – F – V – V. b) ( ) V – F – F – V. c) ( ) F – V – F – F. d) ( ) V – V – V – V. 8 Com relação aos tipos de censo realizados pelo IBGE, faça a devida associa- ção. (1) Demográfico ( ) Levantamento de dados sobre os estabelecimentos agropecuários e as atividades neles desenvolvidas. (2) Agropecuário ( ) Levantamento de dados sobre as características estruturais e econômi- co-financeiras da atividade industrial. (3) Industrial ( ) Levantamento de dados sobre as características estruturais e econômi- co-financeiras da atividade comercial. (4) Comercial ( ) Levantamento de dados sobre pessoas.37 9 Como se faz uma pesquisa estatística quando não se tem dinheiro para fazer um método probabilístico? a) ( ) Não se pode fazer pesquisa estatística sem um método probabilístico. b) ( ) Utiliza-se o método sistemático. c) ( ) Utiliza-se um método não probabilístico. d) ( ) Nenhuma das alternativas. 10 Sobre o erro amostral, assinale a alternativa CORRETA: a) ( ) O erro amostral não faz parte do processo de amostragem. b) ( ) O erro amostral e o erro não amostral são a mesma coisa. c) ( ) O erro amostral ocorre porque os dados são retirados de toda a população. d) ( ) Não existe maneira de evitá-lo. 38 39 TÓPICO 3 — UNIDADE 1 VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS 1 INTRODUÇÃO Acadêmico, chegamos ao último tópico da primeira unidade deste livro didático. Neste tópico, entenderemos mais alguns conceitos importantes em es- tatística. A primeira coisa que veremos é o conceito de variável, quais os tipos de variáveis que existe, ou seja, descobriremos os grandes grupos de classificação e ainda as subdivisões dentro desse grupo. Ainda, descobriremos a importância das variáveis para a estatística. Posteriormente, veremos as escalas de medida, que são formas de repre- sentar o registro das ocorrências de uma pesquisa científica, de maneira que os acontecimentos ou os fenômenos sejam mostrados adequadamente. Também, neste tópico, entenderemos o que são as séries estatísticas, descobriremos como elas são classificadas, que elementos fazem parte de uma série estatística, bem como as diferenças de nomenclatura que existem entre elas. Finalizaremos o tó- pico com uma leitura complementar que mostra a importância da estatística para as empresas. Vamos lá? 2 CONCEITO DE VARIÁVEL Variável em uma pesquisa estatística é aquilo que se está investigando, ou seja, é o objeto da pesquisa. Por exemplo, se perguntarmos quantos livros alguém lê por ano, a variável será: o número de livros lidos por ano; mas se estivermos pesquisando a altura de determinado grupo de pessoas, a altura é que será a variável; outros tipos de variáveis podem ser pesquisadas como o nível de instrução, religião, cor dos olhos, peso, estado civil, nacionalidade, raça, número de habitantes de um bairro, número de pessoas que moram em determinado endereço etc. (CARVALHO; CAMPOS, 2016). Para os autores Silva, Grams e Silveira (2018), o significado de variável em estatística é: Uma variável em estatística é a observação de uma característica em uma amostra ou em uma população. É uma informação que pode variar de elemento para elemento. Essa observação pode ser um atributo, uma contagem, uma classificação ou uma medição. São essas características que definem os diferentes tipos de variáveis. Os autores ainda colocam que quando é feito um questionário para uma pesquisa, cada uma das perguntas realizadas no questionário será uma variável 40 UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA dessa pesquisa, pois cada uma delas será uma característica diferente da amostra ou da população; cada uma delas pode variar para cada um dos elementos da amostra ou da população (SILVA; GRAMS; SILVEIRA, 2018). 3 TIPOS DE VARIÁVEIS Inicialmente, existe uma divisão principal para as variáveis estatísticas, que consiste em dividi-las em dois grandes grupos chamados de variáveis quan- titativas e variáveis qualitativas (CARVALHO; CAMPOS, 2016). O primeiro é chamado de variáveis qualitativas, esse grupo de variáveis também é conhecido por variáveis categóricas, ou, ainda, variáveis por atributos. O segundo grupo é chamado de variáveis quantitativas (SILVA; GRAMS; SILVEIRA, 2018). Essa divisão facilita a nossa compreensão, pois quando estamos falando de variáveis qualitativas, estamos falando dos atributos observados, nos diversos exemplos de variáveis descritos anteriormente, podemos citar como exemplo de variáveis qualitativas, a cor dos olhos, a religião, a nacionalidade, a raça, entre ou- tros. As variáveis qualitativas são aquelas em que os atributos não são um número. Já quando estamos falando em variáveis quantitativas, estamos nos reme- tendo automaticamente a quantidade, por exemplo: número de carros, número de habitantes em uma cidade ou bairro, número de residentes em determinada casa e assim por diante. Esses dois grandes grupos que descrevemos aqui, ainda se dividem em subgrupos, em que são mais especificados. 3.1 VARIÁVEIS QUALITATIVAS NOMINAIS Lembrando que as variáveis qualitativas têm como resposta os atributos, elas se classificam em nominais e ordinais. As variáveis qualitativas nominais são aquelas em que não se consegue identificar uma ordem, uma hierarquia. São as de mensuração mais simples, pois são apenas um atributo associado a cada um dos resultados da variável (SILVA; GRAMS; SILVEIRA, 2018). São exemplos de variáveis qualitativas nominais: cor dos olhos, religião, raça, sexo. O quadro a seguir mostra um exemplo de questionário com variáveis qualitativas nominais: TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS 41 QUADRO 2 – QUESTIONÁRIO COM VARIÁVEIS QUALITATIVAS NOMINAIS FONTE: Os autores As variáveis qualitativas nominais, quando possuírem apenas duas op- ções de resposta, serão chamadas de variáveis qualitativas nominais dicotômi- cas, ou simplesmente dicotômicas ou binárias. São exemplos: sexo (masculino/ feminino); respostas a um questionamento (sim/não), entre tantas outras (SILVA; GRANS; SILVEIRA, 2018). 3.2 VARIÁVEIS QUALITATIVAS ORDINAIS As variáveis qualitativas ordinais serão consideradas dessa forma sempre que conseguir se estabelecer uma ordem, uma hierarquia entre as respostas obti- das, dessa forma, é o contrário das nominais. As variáveis qualitativas ordinais, como o próprio nome sugere, têm uma ordem nas respostas. Elas têm um atri- buto, assim como as qualitativas nominais, mas esse atributo possui uma ordem associada (SILVA; GRANS; SILVEIRA, 2018). Veremos alguns exemplos para que se facilite o entendimento. Digamos que a gente vá a um quartel do exército brasileiro para descobrirmos qual a pa- tente dos militares que ali trabalham, ou seja, queremos saber quantos são sol- dados, quantos são cabos, quantos são sargentos, quantos são capitães e assim por diante. Quando perguntarmos a esses militares qual sua patente, obviamente não responderão um valor numérico, portanto, já sabemos que é uma variável qualitativa, mas com base nas respostas conseguiremos montar uma ordem, tanto 42 UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA da menor patente para a maior quanto da maior para menor. Outro exemplo é se quisermos descobrir o porte das empresas de determinada região (pequena, média ou grande), ou ainda, se quisermos descobrir o nível de escolaridade das pessoas, também existe uma ordem. O Quadro 3 mostra um exemplo de questio- nário com variáveis qualitativas ordinais. QUADRO 3 – EXEMPLO DE QUESTIONÁRIO COM VARIÁVEIS QUALITATIVAS ORDINAIS FONTE: Os autores As variáveis qualitativas ordinais também podem ser classificadas com variáveis intervalares. Por exemplo, se, em uma pesquisa, em vez de perguntar- mos a idade perguntarmos a faixa etária, não saberemos quantas pessoas há em cada uma das idades, mas saberemos o intervalo em que cada um dos entrevista- dos está (SILVA; GRANS; SILVEIRA, 2018). 3.3 VARIÁVEIS QUANTITATIVAS DISCRETAS Para as variáveis quantitativas também temos uma subdivisão que são as variáveis quantitativas discretas e as variáveis quantitativas contínuas. A variável quantitativa discreta é aquela em que não se pode assumir qualquer valor, dentro de um intervalo de valores de resultados possíveis. Por exemplo, se perguntar- mos a uma mãe quantos filhos ela tem, ela jamais responderá que tem 2,75 filhos, ou que tenha 3,9 filhos, ela responderá que tem três filhos ou quatro filhos. As variáveis quantitativas discretas são variáveis que resultam de uma contagem, portanto, podem assumir apenas valores inteiros. Uma variável que assume um número contável de possíveis valores que podemser representados por um número inteiro é denominada discreta (SILVA; GRANS; SILVEIRA, 2018). TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS 43 Vejamos alguns exemplos: quantas pessoas moram em uma casa? Quantas car- ros você possui? Para que essas questões sejam respondidas, teremos que nos remeter a uma contagem. Portanto, estamos diante de uma variável quantitativa discreta. 3.4 VARIÁVEIS QUANTITATIVAS CONTÍNUAS Diferentemente das variáveis quantitativas discretas, as variáveis quantitativas contínuas são aquelas em que se podem assumir qualquer valor dentro de um intervalo de resultados possíveis (CARVALHO E CAMPOS, 2016). Já as variáveis quantitativas contínuas são resultantes de medição ou de opera- ções matemáticas. Nesse tipo de variável, podemos ter valores fracionados, a va- riável pode assumir qualquer valor em um intervalo numérico. O número de casas decimais dependerá no instrumento de medida uti- lizado para a mensuração da variável. Mesmo que os dados da variável sejam apresentados em forma de um número inteiro, precisamos analisar se a variável resultaria em uma medição, independentemente de o número ser apresentado inteiro, ele será considerado contínuo (SILVA; GRANS; SILVEIRA, 2018). Por exemplo, se for perguntado a determinadas pessoas quantos quilos elas pesam a resposta pode vir de algumas maneiras como 63,375 kg, 74,500 kg, mas também pode vir como 63 kg ou 74 kg. Se perguntarmos qual a temperatura no centro de uma determinada cidade podemos ter como resposta 27,6 graus, mas também 27 graus. Sempre quando temos uma variável quantitativa contínua estaremos fa- zendo uma medição. Quando temos uma variável quantitativa contínua estamos medindo algo. Alguns exemplos: quanto tempo demora para resolver uma prova? Qual a velocidade de um carro? Qual o valor de gastos feitos em determinado mês? Acadêmico, para que você entenda melhor as variáveis apresentadas neste tópico, observe a figura a seguir: 44 UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA FIGURA 12 – EXEMPLO DE VARIÁVEIS FONTE: <https://www.midomenech.com.br/lean-seis-sigma/images/artigos/dados-continuos-e- -atributo.jpg>. Acesso em: 30 set. 2019. Embora as medidas atributo (nominal) possam ser mais fáceis de obter, sempre que possível recomenda-se substituí-las por medidas contínuas. O maior motivo para isto é que estatisticamente os dados contínuos são muito mais informativos que os dados atributos; em outras palavras, o número de medidas necessárias para se chegar na mesma conclusão é muito maior com dados tipo atributo que com dados tipo variável (DOMENECH, [20--]). IMPORTANTE As variáveis quantitativas contínuas sempre refletem algum tipo de medição, quando falamos de variáveis quantitativas contínuas estamos medindo. 4 ESCALAS DE MEDIDA O registo das ocorrências de uma pesquisa científica necessita de formas para representar os acontecimentos e os fenômenos adequadamente, ou seja, formas de registar os dados, que são valores associados a cada variável. Esse registo de valores enquadra-se em escalas de medida. Essas escalas consistem em modos de expressar a qualidade ou a quantidade dos dados (MORAIS, 2005). TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS 45 O autor também escreve que para que as escalas utilizadas possam responder aos vários tipos de valores que os atributos assumem uma pesquisa, elas precisam de apresentar duas propriedades: • Exaustividade: abrangência que permite representar todos os dados possíveis. • Exclusividade: coerência para que qualquer dado ou acontecimento só possa ser representado de uma única forma (MORAIS, 2005). Existem quatro classificações para as escalas de medida que são: as nominais, as ordinais, as de intervalo e as de razão (BISQUERRA; SARRIERA; MARTÍNEZ, 2009). 4.1 ESCALAS NOMINAIS As escalas nominais são meramente classificativas, permitindo descrever as variáveis ou designar os sujeitos, sem recurso à quantificação. É o nível mais simples de representação, baseado no agrupamento e classificação de elementos para a formação de conjuntos distintos. As observações são divididas em catego- rias segundo um ou mais dos seus atributos (MORAIS, 2005). Nesse tipo de escala, dividem-se os indivíduos conforme sejam iguais ou não em relação a uma característica (BISQUERRA, SARRIERA E MARTÍNEZ, 2009). Exemplos de características definidas em escalas nominais são: religião, sexo, profissão, preferências, nacionalidade etc. Essa escala é bem simples, pois os números servem apenas para nomear, identificar e categorizar dados sobre pessoas, objetos ou fatos (MORAIS, 2005). Po- demos, por exemplo, nesse tipo de escala classificar as pessoas pela cor dos cabelos. 1 – Preto. 2 – Castanho. 3 – Loiro. 4 – Branco. A análise das respostas é feita pela contagem do número de ocorrências em cada categoria. 4.2 ESCALAS ORDINAIS Nas escalas ordinais, os indivíduos ou as observações distribuem-se se- gundo uma certa ordem, que pode ser crescente ou decrescente, permitindo esta- belecerem-se diferenciações. A escala ordinal é a avaliação de um fenômeno em termos da sua situação dentro de um conjunto de patamares ordenados, variando 46 UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA desde um patamar mínimo até um patamar máximo. Geralmente, designam-se os valores de uma escala ordinal em termos de numerais, sendo estes apenas mo- dos diferentes de expressar o mesmo tipo de dados (MORAIS, 2005). O que distingue uma escala nominal da ordinal é a possibilidade de se estabelecer ordem para as categorias nas quais os dados são classificados de acordo com uma sequência com significado. Exemplo: tamanho das empresas de determinada região. 1 – Microempresa. 2 – Empresa de pequeno porte. 3 – Empresa de médio porte. 4 – Empresa de grande porte. Essa ordenação pode acontecer do menor para o maior, bem como do maior para o menor, ou seja, ela pode ser feita da microempresa para empresa de grande porte ou da empresa de grande porte para a empresa de pequeno porte. Em pesquisas de opinião, uma escala muito utilizada é a escala Likert, criada em 1932 pelo americano Rensis Likert, essa escala mede as atitudes e o grau de conformidade com uma questão ou afirmação. Ao invés de responder sim ou não, ao dar uma resposta em uma escala, o respondente se mostra mais específico em o quanto ele concorda ou discorda de uma atitude ou ação, ou o quanto ele está satisfeito ou insatisfeito com um determinado produto. Por exemplo, podemos ordenar as respostas por meio da escala Likert de cinco pontos se perguntarmos se uma pessoa gosta do novo modelo de celular de uma determinada marca. 1 – Não gosta. 2 – Gosta pouco. 3 – Indiferente. 4 – Gosta. 5 – Gosta muito. Também podemos dividir uma escala ordinal dividindo uma escala contínua em múltiplos intervalos, por exemplo: idade dos jovens que preferem a internet à televisão. • Dos 6 a 12 anos. • Dos 12 a 15 anos. • Dos 15 aos 18 anos. 4.3 ESCALAS DE INTERVALOS Nas escalas de intervalo são atribuídos valores numéricos aos indivíduos. Nessa escala, a variável é utilizada para medir uma determinada característica, TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS 47 além de identificar a qual classe ela pertence, também pressupõe que as diferen- tes classes estão ordenadas sob um determinado critério. Cada observação faz a associação do indivíduo medido a uma determinada classe, sem, no entanto, quantificar a magnitude da diferença face aos outros indivíduos (MORAIS, 2005). Para Bizerra, Sarriera e Martínez (2009), a maioria das variáveis quantita- tivas em Ciências Sociais costuma ser medida em escala de intervalos, como por exemplo: o rendimento acadêmico, as notas de uma prova, o ano do calendário, e a escala de temperatura em graus celsius. 4.4 ESCALAS DE RAZÃO As escalas de razão são escalas de intervalo, mas que acrescentam a existência de um zero absoluto. Esse zero é considerado como a ausência total de qualidade de medida e, assim,é um valor que não pode ser rebaixado na parte inferior (BIS- QUERRA; SARRIERA; MARTINEZ, 2009). O valor mínimo de uma escala de razão é sempre zero, muitas variáveis quantitativas são medidas por meio dessa escala, como altura, idade, peso, dis- tância etc. Exemplo: vendo que agora são 11h30 você logo conclui “já estou na fila há 15 minutos!”. Quando começamos a pensar no tempo dessa maneira, pas- samos a utilizar dados segundo uma escala de razão e não mais de intervalo. A escala de razão é muito semelhante à escala de intervalos, porém apresenta uma diferença fundamental: o zero tem um significado intrínseco (zero minutos, zero pessoas na fila, zero produtos no carrinho de compras). Em todos esses casos, o zero significa a ausência de algo. IMPORTANTE Em uma escala de razão, o valor mínimo sempre será zero e essa é a principal diferença de uma escala de razão para uma escala de intervalos. 5 SÉRIES ESTATÍSTICAS As séries estatísticas nada mais são do que tabelas nas quais são expressos o resultado de um estudo estatístico. Quando se olha para essa tabela e se con- segue identificar três elementos que são: o objeto do estudo, o local e a época da pesquisa, se está diante de uma de uma série estatística. Uma série estatística é uma maneira de se apresentar os dados estatísticos de uma forma tabulada (CAR- VALHO; CAMPOS, 2016). 48 UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA Os autores ainda explicam os elementos de uma série estatística, sendo o primeiro um fato que é o fenômeno que foi investigado e cujos valores estão sendo apresentados na tabela; o segundo o local, indica o campo geográfico ou a região onde o fato aconteceu e o terceiro que é a época, que diz respeito ao período, data ou tempo, quando a variável foi investigada (CARVALHO; CAMPOS, 2016). Portanto, ao estarmos diante de uma série estatística, deveremos conse- guir responder as seguintes perguntas: o quê? Quando? Onde? Essas perguntas são respondidas pelos elementos: descrição do fato, época e local. Em uma série estatística sempre um elemento terá variação e dependendo do ele- mento que sofrer essa variação e dos elementos que permanecerem fixos, as séries terão uma classificação: histórica ou temporal, geográficas, específicas, mistas ou ainda distribuição de frequências (CARVALHO; CAMPOS, 2016). 5.1 SÉRIES HISTÓRICAS OU TEMPORAIS Além dos nomes históricas ou temporais, essas séries podem aparecer es- critas como séries cronológicas ou marchas. As séries históricas serão chamadas dessa maneira as séries que o elemento que sofrerá variação é o tempo, perma- necendo fixos o local e a descrição do fenômeno (CARVALHO; CAMPOS, 2016). Uma série histórica ou temporal é aquela que a informação é estudada em função do tempo (COSTA, 2015). TABELA 1 – PRODUÇÃO DE MINÉRIO DE FERRO NO BRASIL ENTRE 1999 E 2003 FONTE: Adaptado Carvalho e Campos (2016, p. 12) Olhando para a tabela anterior conseguimos saber qual fenômeno foi estu- dado, qual foi o local e a época da pesquisa. Conseguimos verificar que o objeto de estudo é fixo (produção de minério de ferro) o local é fixo (Brasil), porém, a época da pesquisa varia de 1999 até 2003, por isso se chama série histórica ou temporal. TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS 49 5.2 SÉRIES GEOGRÁFICAS As séries geográficas são aquelas cujo elemento que varia é o local, perma- necendo fixos o tempo e a descrição do fenômeno. As séries geográficas também são chamadas de séries espaciais, territoriais ou de localização (CARVALHO; CAMPOS, 2016). Vamos a um exemplo para facilitar o entendimento: TABELA 2 – PRODUTO INTERNO BRUTO DE ALGUNS PAÍSES EM 1999 FONTE: Adaptado Carvalho e Campos (2016, p. 12) Conseguimos facilmente verificar olhando para a tabela anterior que o fenômeno estudado é fixo (produto interno bruto) e a época da pesquisa é 1999. No entanto, o elemento local varia. Por isso, é uma série estatística geográfica. 5.3 SÉRIES ESPECÍFICAS As séries específicas são aquelas cujo a descrição fenômeno sofre variação e permanecem fixos os elementos tempo e local. Essas séries também são conhecidas como séries especificativas ou categóricas (CARVALHO; CAMPOS, 2016). Exemplo: número de alunos que concluíram cursos na Universidade ABC no ano de 2010, conforme a Tabela 3. TABELA 3 – NÚMERO DE ALUNOS CONCLUINTES NA UNIVERSIDADE ABC (2010) FONTE: Adaptado Carvalho e Campos (2016, p. 13) Podemos observar que permanecem fixos o local da pesquisa (Universi- dade ABC) e a época da pesquisa (2010). Contudo, existe variação em diversas categorias, por isso, nome séries categóricas. 50 UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA 5.4 SÉRIES MISTAS São aquelas séries estatísticas resultantes da combinação das séries esta- tísticas temporais, geográficas, especificativas ou entre distribuições de frequên- cias (CARVALHO; CAMPOS, 2016). As séries mistas também são chamadas de séries compostas, ou ainda, de séries de dupla entrada. Exemplo: taxas de analfabetismo de pessoas com 15 anos ou mais, segundo a cor, nos censos demográficos de 1991 e 2000. TABELA 4 – TAXA DE ANALFABETISMO NOS CENSOS DEMOGRÁFICOS DE 1991 E 2000 FONTE: Adaptado Carvalho e Campos (2016, p. 14) No caso das séries mistas se consegue notar que existe uma variação nos dois sentidos: na vertical pela cor da pele e por especificação do fenômeno que se observa e na horizontal: que são os anos de 1991 e 2000. 5.5 DISTRIBUIÇÃO DE FREQUÊNCIA Na distribuição de frequência, os dados são ordenados segundo um cri- tério de magnitude, em classes ou intervalos, permanecendo fixos o fato, o local e a época. Isso significa que apesar do fenômeno estudado ser único, este sofrerá uma subdivisão em suas classes (CARVALHO; CAMPOS, 2016). Exemplo: quere- mos saber a altura dos alunos do curso x em 1° de fevereiro de 2019. TABELA 5 – ALTURA DOS ALUNOS DO CURSO X EM 01 DE FEVEREIRO DE 2019 FONTE: Adaptado Carvalho e Campos (2016, p. 14) TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS 51 Nesse caso, o fenômeno estado é um só, a altura dos alunos, mas ele está subdividindo em várias classes. Temos a classe dos alunos com altura que varia de 1,50 até 1,60; a classe com variação de 1,60 até 1,70; a classe com variação de 1,70 até 1,80; e assim por diante. O objetivo aqui é somente demonstrar o que é uma série estatística distribuição de frequência, visto que essa é talvez a principal série estatística. A distribuição de frequência exige um maior aprofundamento. Esse aprofundamento será dado na Unidade 2 deste livro didático. 52 UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA ESTATÍSTICA NO MUNDO EMPRESARIAL Guilherme Gonçalves APLICAÇÕES EMPRESARIAIS Para um Executivo ou profissional nas áreas empresariais, raciocinar es- tatisticamente nos dias de hoje é tão necessário quanto a habilidade de comando. Com a evolução das informações nas empresas, a questão que se coloca hoje não se refere mais a sua escassez, mas como ler e interpretar as informações disponí- veis. As necessidades atuais estão requerendo: identificar situações problemáticas através de análise de clima organizacional; utilizar a montante de dados armaze- nados nos computadores de suas empresas para entender melhor o que acontece em seus negócios e melhorar a qualidade de suas decisões; entender o compor- tamento das vendas de produtos ou serviços; identificar causas de defeitos ou motivadoras da baixa qualidade; entender o comportamento dos clientes frente a empresa e aos seus produtos. Portanto, diante da necessidade de tomada de decisões diante de incertezas do mundo empresarial, coloca-se a Estatística como ferramenta importantíssima, talvez a que possa trazer melhores contribuições aos administradores ao lidarem com informações e com os mais diversos problemas encontrados nesse universo. Não é então de se surpreender que a Estatística seja largamente aplicável em praticamente todas as áreas das mais diversas atividades econômicas/empre- sariais e utilizadasna obtenção de conclusões válidas e na tomada de decisões razoáveis baseadas em análise e interpretação de dados. Entre as aplicações no campo da gestão podemos destacar: RESUMO A Estatística nos dias de hoje é uma ferramenta indispensável para qual- quer profissional que necessita analisar informações em suas tomadas de deci- sões diárias, seja no seu trabalho ou na sua vida pessoal. Atualmente, o ambiente que rodeia as decisões de carácter financeiro ou de gestão tendem a ser cada vez mais exigentes. Contudo, a utilização da estatística como suporte para a tomada de decisões é verificada também no mundo antigo, e indícios de sua utilização são encontrados até na Era antes de Cristo. LEITURA COMPLEMENTAR TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS 53 1 INTRODUÇÃO Atualmente, vivemos rodeados por uma quantidade de informações tão grande que não podemos deixar de pensar o quanto a Estatística nos é útil e o quanto esta ciência vem configurando-se como uma das competências mais im- portantes para quem precisa tomar decisões. O mundo moderno vem sendo objeto de profundas e aceleradas trans- formações econômicas, políticas e sociais que têm levado os Gestores a adotarem estratégias diferenciadas e criativas para elevar a qualidade de suas empresas. Essas transformações estão ocorrendo em escala mundial em um processo jamais visto de globalização dos mercados, de formação de blocos econômicos regionais, com uma rapidez de inovações tecnológicas que tudo somado, compõe um cenário extremamente desafiante para a competitividade das empresas. Esse trabalho tem por objetivo destacar a importância da estatística na gestão das empresas e no mundo globalizado. 2 DEFINIÇÃO Estatística é uma parte da Matemática Aplicada que fornece métodos para a coleta, a organização, a descrição, a análise e a interpretação de dados, visando à tomada de decisões. Na indústria e no comércio podem-se comparar produções e volumes de vendas em relação ao total por região, estudar a situação dos mercados e suas tendências. A Estatística é uma ciência que se dedica ao desenvolvimento e ao uso de métodos para a coleta, resumo, organização, apresentação e análise de dados (FARIAS SOARES; CÉSAR, 2003) A palavra estatística tem origem na palavra em latim status, traduzida como o estudo do Estado e significava, originalmente, uma coleção de informa- ção de interesse para o estado sobre população e economia. Essas informações eram coletadas objetivando o resumo de informações indispensáveis para os go- vernantes conhecerem suas nações e para a construção de programas de governo. 2.1 O QUE É ESTATÍSTICA? A palavra estatística tem origem na palavra em latim status, traduzida como o estudo do Estado e significava, originalmente, uma coleção de informa- ção de interesse para o estado sobre população e economia. Essas informações eram coletadas objetivando o resumo de informações indispensáveis para os go- vernantes conhecerem suas nações e para a construção de programas de governo. 54 UNIDADE 1 — CONCEITOS BÁSICOS DE ESTATÍSTICA Atualmente, vivemos rodeados por uma quantidade de informações tão grande que não podemos deixar de pensar o quanto a Estatística nos é útil e o quanto esta ciência vem configurando-se como uma das competências mais im- portantes para quem precisa tomar decisões. Não podemos escapar dos dados, assim como não podemos evitar o uso de palavras. Tal como as palavras, os dados não se interpretam a si mesmos, mas devem ser lidos com entendimento. Da mesma maneira que um escritor pode dispor as palavras em argumentos convincentes ou frases sem sentido, assim também os dados podem ser convincentes, enganosos ou simplesmente inócuos. A instrução numérica, a capacidade de acompanhar e compreender argumentos baseados em dados, é importante para qualquer um de nós. O estudo da estatís- tica é parte essencial de uma formação sólida (MOORE, 2000). 3 IMPORTÂNCIA DA ESTATÍSTICA A Estatística é a ciência que coleta, organiza e interpreta dados utilizando técnicas para lidar com a variabilidade, ou seja, é uma coleção de métodos utili- zados para converter dados brutos em informações que auxiliem na tomada de decisão, podendo resolver quase todos os problemas da vida real que envolvam conjuntos de dados. A Estatística é de suma importância para empresários, administradores, ges- tores, para comparar grupos de variáveis relacionadas entre si e obter um quadro simples e resumido das mudanças significativas nas áreas relacionadas como preços de matérias primas, cadastros, preços de produtos acabados, preço final de produtos, financeiro, marketing, volume físico dos produtos, controle de qualidade. O controle de qualidade de produtos não constitui novidade; é ele, de fato, tão antigo como a própria indústria. Durante muito tempo foi realizado sob a forma tradicional denominada "inspeção". Somente a partir de 1920, no entanto, é que se verificou o desenvolvimento do Controle Estatístico da Qualidade, cuja aplicação vem se tornando generalizada nos países industrializados. A grande contribuição da estatística não se baseia tanto no fato de levar um grupo de estatísticos altamente qualificados para uma indústria, mas no fato de criar uma geração de físicos, matemáticos e químicos com uma mentalidade estatística, os quais irão, de algum modo, dar uma ajuda no desenvolvimento e no direcionamento dos processos de produção no futuro (WALTER SHEWART, 1891-1967). A questão da competitividade é sobremaneira importante nos mais di- versos níveis com que pode ser analisada, ou seja, em nível de nação, de setor econômico e de empresas. Em particular, interessa a questão olhada sob a ótica das organizações que necessitam aprimorar a própria competitividade para so- breviver e vencer neste ambiente cada vez mais desafiador. TÓPICO 3 — VARIÁVEIS, ESCALAS E SÉRIES ESTATÍSTICAS 55 A necessidade de se oferecer um produto ou serviço pleno de condições competitivas surge como sendo vital para a sobrevivência de uma Empresa. Tal condição tem como princípio a gestão empresarial, baseando-se na gestão de pes- soas e processo em busca da qualidade total. A procura de clientes não mais se resume em ter um baixo preço, e sim produtos e serviços que forneça com quali- dade aquilo a que se propõe, e a aplicação da Estatística é primordial nestes casos. O conhecimento de estatística é fundamental no ambiente empresarial, seja na análise de conjunto de dados, seja na previsão de variáveis. 4 CONCLUSÃO Desejo demostrar a importância da estatística e como é importante o seu estudo e compreensão por parte dos empreendedores. Assim, não só a gestão empresarial, com a otimização dos fatores de produção, somados as ferramen- tas de qualidade e produtividade são suficientes, se estas não contarem com um suporte dos métodos estatísticos para controle e mensuração dos resultados e informações obtidas. Através disto, os administradores, tomam frente de novas situações de negócios e necessitam de tomadas de decisões rápidas, precisas, eficientes e efica- zes. Dá para até tomar nota da receita de como satisfazer clientes, e competir com empresas mundiais no mercado globalizado, cada indivíduo dentro da corpora- ção necessita de fatores determinantes de sucesso para sua carreira, para assim garantir seu sustento pôr muito mais tempo, e emprego efetivo ou não até o fim de sua vida. Já se dizia há um século que raciocinar estatisticamente será um dia tão necessário quanto à habilidade de ler e escrever. FONTE: GONÇALVES, G. Estatística no mundo empresarial. 2012. Disponível em: https://admi- nistradores.com.br/artigos/estatistica-no-mundo-empresarial. Acesso em: 31 jan. 2020. 56 RESUMO DO TÓPICO 3 Neste tópico, você aprendeu que: • A variável em uma pesquisa estatística é aquilo que se está investigando, ou seja, o objeto da pesquisa. • Uma variável em estatística é a observação de uma característica em uma amos- tra ou em uma população. É uma informação que podevariar de elemento para elemento. • Em um questionário cada uma das perguntas é uma variável. • As variáveis estatísticas são divididas em dois grandes grupos chamados de variáveis qualitativas e variáveis quantitativas. • As variáveis qualitativas estão ligadas a qualidade, categorias ou atributos. • Já as variáveis quantitativas estão ligadas a quantidade, ou seja, a números. • Dentro do grupo de variáveis qualitativas temos as nominais e as ordinais. • No grupo de variáveis quantitativas temos as discretas e as contínuas. • As escalas de medida são formas de representar o registro de ocorrências de uma pesquisa científica. Elas são divididas em escalas nominais, ordinais, de intervalos, e ainda, as escalas de razão. • As séries estatísticas nada mais são do que tabelas nas quais são expressos o resultado de um estudo estatístico. • Existem as séries estatísticas conhecidas como históricas ou temporais que tam- bém são chamadas de cronológicas ou de marchas. • As séries estatísticas chamadas de geográficas também são chamadas de séries espaciais, territoriais ou de localização. • Um outro tipo de séries estatísticas existentes são as específicas, que também são conhecidas como especificativas ou categóricas. 57 • Quando as séries estatísticas são combinadas, isto é, resultam de uma combina- ção das séries estatísticas temporais, geográficas, especificativas ou entre distri- buições de frequências são chamadas de séries mistas, compostas e de séries de dupla entrada. • Ainda existe a distribuição de frequência, série estatística mais importante em que os dados são ordenados por um critério de magnitude em classes ou intervalos. Ficou alguma dúvida? Construímos uma trilha de aprendizagem pensando em facilitar sua compreensão. Acesse o QR Code, que levará ao AVA, e veja as novidades que preparamos para seu estudo. CHAMADA 58 1 Em uma pesquisa estatística é tudo aquilo que se está investigando, ou seja, o objeto da pesquisa. Esse é o conceito de: a) ( ) Série. b) ( ) Investigação. c) ( ) Variável. d) ( ) Amostra. 2 Variável é uma informação que pode variar de elemento para elemento. Nesse sentido, os tipos diferentes tipos de variável são definidos pelo que? a) ( ) Pelas características, podendo ser um atributo, uma contagem, uma classificação ou medição. b) ( ) Pelas pesquisas, podendo ser um item, uma multiplicação, uma classi- ficação ou medição. c) ( ) Pelos questionários, podendo ser um resumo, um conto, ou medição. d) ( ) Pelas próprias variáveis, podendo ser um atributo, uma contagem, uma classificação ou medição. 3 Com relação aos dois grandes grupos de divisão principal das variáveis, classifique V para as sentenças VERDADEIRAS e F para as FALSAS. ( ) Os dois grandes grupos de classificação das variáveis são finitas e infinitas. ( ) As variáveis são divididas primeiramente em qualitativas e quantitativas. ( ) Quando estamos falando em variáveis qualitativas estamos nos referindo à quantidade. ( ) As variáveis quantitativas estão associadas a números. Assinale a sequência CORRETA: a) ( ) V – V – F – F. b) ( ) F – V – V – F. c) ( ) F – V – F – V. d) ( ) F – F – V – V. 4 As variáveis qualitativas têm como resposta os atributos, elas se classificam em: a) ( ) Nominais e cardinais. b) ( ) Ordinais e contínuas. c) ( ) Contínuas e discretas. d) ( ) Nominais e ordinais. AUTOATIVIDADE 59 5 Quando as variáveis qualitativas nominais têm só duas opções de resposta, elas são chamadas de variáveis: a) ( ) Ordinais. b) ( ) Discretas. c) ( ) Complementares. d) ( ) Dicotômicas. 6 Existe um tipo de variável que têm um atributo associado a uma ordem. Esse tipo de variável é chamado de: a) ( ) Ordinal. b) ( ) Dicotômica. c) ( ) Nominal. d) ( ) Amostra. 7 Com relação aos tipos as variáveis quantitativas, classifique V para as sen- tenças VERDADEIRAS e F para as FALSAS. ( ) As variáveis quantitativas não tem subdivisão como as variáveis qualitativas. ( ) As variáveis quantitativas discretas são variáveis que resultam de uma contagem. ( ) As variáveis quantitativas contínuas são resultantes de medição ou de operações matemáticas. ( ) As variáveis quantitativas estão associadas a números. Assinale a alternativa CORRETA: a) ( ) F – F – V – V. b) ( ) V – F – F – F. c) ( ) F – V – V – V. d) ( ) V – V – F – F. 8 Com relação às escalas de medida, faça a devida associação: (1) Escalas nominais ( ) O valor mínimo desse tipo de escala é sempre zero. (2) Escalas Ordinais ( ) São exemplos de utilização desse tipo de escala: o ano no calen- dário e a temperatura em graus centígrados (3) Escalas de Intervalos ( ) Esse tipo de escala é meramente classificativo, sem recurso de quantificação. (4) Escalas de Razão ( ) Geralmente nesse tipo de escala existe a possibilidade de se estabelecer uma ordem 60 9 Quando se olha para uma tabela e se consegue identificar o objeto do estu- do, o local e a época da pesquisa, se está diante: a) ( ) De uma tabela estatística. b) ( ) De uma tabela objetiva. c) ( ) De uma série estatística. d) ( ) De uma série numeral. 10 As séries estatísticas cujo elemento que varia é o local, é chamada de: a) ( ) Dupla entrada. b) ( ) Histórica. c) ( ) Específicas. d) ( ) Geográficas. 61 UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO OBJETIVOS DE APRENDIZAGEM PLANO DE ESTUDOS A partir do estudo desta unidade, você deverá ser capaz de: • identificar os tipos de dados existentes; • organizar e estruturar dados para análise gráfica; • representar dados de forma gráfica para auxílio na tomada de decisões; • realizar a leitura e interpretação visual e de gráficos; • analisar a descrição e frequência dos dados; • avaliar medidas de posição e suas implicações para modelos estatísticos. Esta unidade está dividida em três tópicos. No decorrer da unidade você encontrará autoatividades com o objetivo de reforçar o conteúdo apresentado. TÓPICO 1 – BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA TÓPICO 2 – GRÁFICOS ESTATÍSTICOS TÓPICO 3 – MEDIDAS DE POSIÇÃO Preparado para ampliar seus conhecimentos? Respire e vamos em frente! Procure um ambiente que facilite a concentração, assim absorverá melhor as informações. CHAMADA 62 63 UNIDADE 2 1 INTRODUÇÃO Olá, acadêmico! A partir de agora, abordaremos sobre os processos de coleta e análise dos dados. Além disso, aprenderemos sobre a elaboração e a in- terpretação gráfica dos dados e as diferentes formas de representação. Você já imaginou quantos dados históricos são armazenados para auxiliar os gestores na tomada de decisões no presente e com repercussões no furuto? Pois é. Há estudiosos que apontam um crescimento exponencial na criação e na utilização dos dados virtuais, de modo que, ao longo dos últimos dez anos, foram criados mais dados do que em toda a história humana. Sem dúvida, esse proces- so foi permitido devido ao avanço tecnológico em criação e armazenamento de dados virtualizados. Assim, organizações públicas e privadas se beneficiam desse volume de dados virtuais para agilizar processos administrativos. Com isso, essas organi- zações podem fazer uso dos dados para planejar, executar e tomar decisões mais assertivas quanto à oferta de produtos e serviços. A partir dessa necessidade, o armazenamento de dados vem sendo um tema amplamente discutido, de movo que não limite a operação de negócios. A partir disso, surgiu o termo Big Data (Grande Base de Dados). Por meio de um Big Data, empresas podem ter maiores evidências nos dados de comportamentos passados, fornecendo um suporte para os planos e de- cisões do presente de movo a influenciar o futuro. Para que se possa transformar dados e informações úteis para a tomada de decisão, faz-se necessário a organi- zação e a estruturação dos dados. Esses dados podem ser obtidos de diversas fon- tes, como preferências, gostos, comportamentos, disposição a pagar, entre outros fatores dos clientes e potenciais consumidores. Portanto, estetópico se apropria de termos discutidos na Unidade 1 para avançar com a discussão sobre a organização de dados, estutura, Big Data e dis- tribuição de frequência. Por isso, temos, à disposição, vários materiais para lhe auxiliar nesta caminhada, além da nossa central de atendimento. Lembre-se: não basta saber, é preciso saber fazer! Bons estudos! TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO 64 2 BIG DATA Big Data ou, em português, Grande Base de Dados, refere-se a um amplo conjunto de dados em constante crescimento, ou seja, uma base de dados que acu- mula informações ao longo do tempo. Isso abrange um amplo volume de informa- ções que são criadas e coletadas de diferentes origens, sendo, portanto, frequente- mente caracterizado por múltiplas fontes de diferentes formatos (SEGAL, 2019). A maioria dos dados são armazenadas em base de dados computacionais sendo analisadas com a utilização de um software específico que seja capaz de pro- cessar um grande volume de dados. Com os dados disponíveis, analistas ou profis- sionais especializados, como o caso de estatísticos, podem analisar as relações dos dados por padrões de comportamentos, tais como dados demográficos e histórico de compras, se fabrica interna ou externamente, dentre outras. Em síntese, esses dados permitem que empresas avaliem tendências para a tomada de decisão (SE- GAL, 2019). O conceito do Big Data pode ser avaliado dentro de uma terminologia chamada de 6 Vs (seis “V”) (NISHADI, 2018), conforme apresentado na Figura 1. Esse tema tem sido amplamente discutido na indústria da computação como fatores determinantes que definem o Big Data, no qual, inicialmente, o modelo foi criado com os termos volume, velocidade e variedade da informação. Posterior- mente, foram adicionados os termos de veracidade, variabilidade e valores dos dados como fatores de definição de um Big Data (LEE, 2017). Cada termo tem por significado: • Volume: refere-se ao montante de dados que um negócio cria, manipula e gerencia. • Velocidade: refere-se à velocidade no qual os dados são gerados e processados. • Variedade: abrange os diversos tipos de dados, como dados contínuos, intervalos entre outros. • Veracidade: consiste na acurácia (precisão) e confiabilidade dos dados. • Variabilidade: refere-se na variação existente dentro de uma variável. • Valor (value): aborda sobre o valor que os dados podem fornecer a um negócio, como ter acesso a informações para uma tomada de decisão (NISHADI, 2018). TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA 65 FIGURA 1 – MODELO DOS 6 Vs DO BIG DATA FONTE: Nishadi (2018, p. 1147) Os dados passam por um período de ciclo de vida. De acordo com a Fi- gura 2, os dados são coletados em um primeiro momento (coleta de dados). Na sequência, os dados devem ser armazenados em uma grande base de dados (ar- mazenamento de dados). Após, os dados são tratados e analisados (análise de dados). Por fim, esses dados permitem conclusões e criação de novos conheci- mentos (criação de conhecimento). FIGURA 2 – CICLO DE VIDA DOS DADOS FONTE: Nishadi (2018, p. 1147) Como destacado na figura anterior, os analistas de dados avaliam o rela- cionamento de um amplo conjunto de dados. Esses testes podem ser variados, mas, em síntese, buscam avaliar a correlação existente entre dados, possíveis tendências, grupos, similaridades, diferenças entre grupos, entre outros aspectos (SEGAL, 2019). Entretanto, para que todo esse processo possa gerar novos conhe- UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO 66 cimentos, faz-se necessário compreender os conceitos dos dois tipos de dados – dados estruturados e não estruturados na seção a seguir. 3 DADOS ESTRUTURADOS E NÃO ESTRUTURADOS De acordo com Lock, Lock e Lock (2017), estima-se que a quantidade de dados novos é dobrada a cada dois anos, ou seja, mais do que a soma de dados gerados ao longo dos últimos cinco mil anos. Um dos principais motivos é a dis- ponibilidade desses dados compartilhados na internet, mas, sobretudo, da cone- xão de dispositivos físicos – chamados de Internet das Coisas (ou Internet of things em inglês) com as redes virtuais. Por sua vez, a coleta e análise eficazes dos dados são ferramentas que po- dem levar organizações a obterem informações decisivas (LOCK; LOCK; LOCK, 2017). Os dados em si são chamados de precedentes a informação, ou seja, refe- rem-se a uma coleção de observações, sejam por meio de medidas, gêneros, res- postas de pesquisa etc. (TRIOLA, 2014). Os dados apresentam-se de forma bruta, sem qualquer significado aparente (LOCK; LOCK; LOCK, 2017). Para gerar alguma informação, os dados precisam ser coletados, organi- zados, tratados e analisados. Obviamente, os tipos de análise dependem do tipo de informação que se deseja gerar, entretanto, o processo de coleta, organização e tratamento ocorre de forma similar. Apenas com relação à origem dos dados, estes podem ser classificados em dados estruturados e não estruturados, como será visto no subtópico a seguir. 3.1 DADOS ESTRUTURADOS Os dados estruturados referem-se aos dados obtidos em fontes previa- mente organizadas e padronizadas. A formatação dos dados antes da coleta de dados é o que caracteriza essa classificação. A natureza destes dados é, geralmen- te, em ordem numérica (SEGAL, 2019). Esses dados podem ser obtidos por meio de relatórios de sistemas de gerenciamento de organizações (ERPs), dados de sistema, organização de planilhas entre outros. TABELA 1 – DADOS ESTRUTURADOS Código Nome Idade (anos) Grau 1 João 18 Bacharel 2 Davi 31 Doutor 3 Roberto 51 Doutor 4 Ricardo 26 Mestre 5 Maicon 19 Tecnólogo FONTE: Adaptado de Cardoso (2007) TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA 67 Como é possível perceber na Tabela 1, os dados estão organizados em um formato padronizado, caracterizando-o em uma classificação de dados es- truturados. Portanto, suponha que, mensalmente, uma organização consulta um relatório com os empregados, levando em conta que o software está programado para fornecer relatórios neste layout e que, em todas as situações, os relatórios apresentam o código de colaborador, nome, idade e formação. Apesar desse for- mato de dados fornecer informações prontas para análise, ele possui limitações de dados e uma geração limitada de informações quando comparados com a clas- sificação de dados não estruturados (LEE, 2017). 3.2 DADOS NÃO ESTRUTURADOS Por sua vez, os dados não estruturados referem-se a dados obtidos sem uma formatação pré-definida, ou seja, um conjunto de dados é obtido e requer uma “organização” ou “separação” dos dados úteis para análise. Esse conjunto de dados se diferencia do anterior por haver um conjunto de etapas adicionais na coleta, organização e preparação dos dados para a análise (LEE, 2017). Dessa maneira, os dados não estruturados requerem algumas etapas de organização de dados após a sua coleta. Veja como exemplo, a Tabela 2, na qual é apresentado um texto com dados sem qualquer padronização e formatação. Essa formatação pode ser classificada por meio de uma linguagem de programação computacional capaz de minimamente organizar os dados – chamado de dados semiestruturados (CARDOSO, 2007). TABELA 2 – DADOS NÃO ESTRUTURADOS Dados não estruturados Dados semiestruturados A universidade possui 5600 alunos. O número de identificação de João é o número 1, ele tem 18 anos e já é Bacharel. O número de identificação de Davi é o número 2, ele tem 31 anos e é Doutor. Roberto é o número 3, ele tem 51 anos e também possui o mesmo diploma que Davi. <Universidade> <Estudante ID=”1”> <Nome>João</Nome> <Idade>18</Idade> <Grau>Bacharel</Grau> </Estudante> <Estudante ID=”2”> <Nome>Davi</Nome> <Idade>31</Idade> <Grau>Doutor </Grau> </Estudante> … </Universidade> FONTE: Cardoso (2007, p. 11) Os dados não estruturados podemser coletados de diversas fontes, como redes sociais e outras páginas da web ao qual podem ser transformados em in- UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO 68 formações. Em geral, esse tipo de dados é recomendado para organizações que necessitam avaliar o comportamento dos seus clientes, como preferências, neces- sidades e desejos (SEGAL, 2019). Todavia, o que fazer com os dados coletados? Na sequência, abordaremos sobre a organização de dados. 4 ORGANIZAÇÃO DOS DADOS Após a coleta de dados, faz-se necessário a organização dos casos e variá- veis em uma base de dados. Entretanto, o que significa casos e variáveis? Os casos são os respondentes da pesquisa, ou seja, os dados que são obtidos a partir da aplicação de um instrumento de pesquisa. Por sua vez, as variáveis correspondem a uma característica registrada ou avaliada para cada caso (LOCK; LOCK; LOCK, 2017). DICAS Para tornar mais clara a diferença entre casos e variáveis, note o exemplo no Quadro 1. Perceba que existem cinco respondentes de uma pesquisa. Os dados apresentados estão em um quadro, em que há variáveis em cada coluna, enquan- to casos para denominar as linhas dos respondentes. Logo, no exemplo aplicado, os casos são as respostas fornecidas pelos respondentes, sendo apresentados na horizontal, enquanto as variáveis referem-se nas colunas. QUADRO 1 – EXEMPLO DE CASOS E VARIÁVEIS COM DADOS ESTRUTURADOS Sexo Idade (anos) Peso (kg) Respondente 1 Masc 18 105 Respondente 2 Fem 25 58 Respondente 3 Fem 21 56 Respondente 4 Masc 85 75 Respondente 5 Fem ? 77 FONTE: Os autores Exemplo de casos e variáveis com dados não estruturados: imagine o mesmo exemplo do Quadro 1, mas com texto corrido. Leve em conta que os cinco respondentes participaram de forma voluntária uma pesquisa. O primeiro res- pondente era homem, tinha 18 anos de idade e pesava 105 kg. O segundo era do TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA 69 sexo feminino, com 25 anos e 58 kg. Na sequência, uma outra respondente com 21 anos e 58 kg. O quarto respondente era um homem de 85 anos com 75 kg. Por último, uma mulher não revelou sua idade, mas indicou seu peso de 77 kg. Como analisar esses dados? Como perceber as variações existentes nos da- dos? Mesmo que esse exemplo apresente apenas cinco casos, isso pode levar a dificul- dades de interpretação. A partir dessa necessidade, a organização dos dados consiste em organizá-los em uma base de dados, quadro ou tabela, conforme apresentado no Quadro 1. Portanto, como primeira etapa do tratamento de dados, você deverá organizar seus dados em um formato que permita análises estatísticas. Usualmen- te, o Microsoft Excel e/ou similar são indicados para tal atividade uma vez que são ferramentas de fácil manipulação desses tipos de dados. Os formatos CVS e TXT são indicados para um futuro processo de importação em software de análise estatística. Após realizado a organização dos dados em bases de dados, deve-se pro- ceder uma análise unidirecional, ou seja, uma análise dos casos por variáveis. Os termos missing values e outliers são importantes neste momento. O que esses termos se referem? Enquanto o termo missing values refere-se aos valores não for- necidos pelo respondente (valores faltantes), os outliers representam os valores que estão fora de padrão (valores distorcidos) (HAIR et al., 2009). Vamos tomar o Quadro 1 para esclarecer esses conceitos. Note que há dois outliers, sendo um referente a idade – respondente 4 por ter idade muito acima dos demais (85 anos), enquanto o outro possui um peso relativamente acima dos demais – respondente 1 por seu peso (105 kg). Portanto, a depender do objetivo da pesquisa, sugere-se que esses outliers sejam removidos da amostra para asse- gurar dados normalizados. Caso essas variáveis não sejam determinantes para a pesquisa e não devem interferir nos resultados, esses casos podem ser mantidos. Independentemente do motivo, note que o quinto respondente não forne- ceu sua idade. Essa é uma situação de missings value (valor faltante). Essa situação remete a uma decisão referente a esse caso, sendo possível aplicar um conjunto de técnicas para tratar esses dados: • Excluir: consiste em excluir o respondente da amostra uma vez que não forne- ceu informações completas. Essa técnica é sugerida quando há falta de dados em várias variáveis. • Aplicar média: consiste em aplicar a média de todos os respondentes de uma variável para o caso com dados faltantes. A vantagem da técnica é de apro- veitamento de parte dos dados, porém, não se sabe exatamente o motivo da ausência de dados (que também pode revelar algum motivo oculto). A técnica é sugerida quando poucos dados estão faltantes (HAIR et al., 2009). UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO 70 5 DISTRIBUIÇÃO DE FREQUÊNCIA – ELEMENTOS E CONSTRUÇÃO A distribuição de frequência demonstra a distribuição de uma amostra em relação às classes ou grupos (CRESPO, 2017). Ou seja, quantos respondentes há em cada classe ou quantas respostas repetidas se encontram em uma determinada classe. Essa análise deve ser feita inicialmente para avaliar a distribuição por classes de um conjunto de dados, se, por exemplo, há algum viés ou tendência nos dados. Para iniciar essa discussão, vamos, primeiramente, abordar o conceito de tabela primitiva ROL a partir de um exemplo aplicado. Suponha a pesquisa vo- luntária abordada no subtópico anterior com cinco respondentes adicionais, con- forme Quadro 2. QUADRO 2 – DADOS DE PESQUISA VOLUNTÁRIA Sexo Idade (anos) Peso (kg) Respondente 1 Masc 18 105 Respondente 2 Fem 25 58 Respondente 3 Fem 21 56 Respondente 4 Masc 85 75 Respondente 5 Fem ? 77 Respondente 6 Masc 45 85 Respondente 7 Masc 29 76 Respondente 8 Masc 17 65 Respondente 9 Fem 53 59 Respondente 10 Fem 61 67 FONTE: Os autores Com base no quadro anterior, qual a menor idade? Qual a maior idade? Qual o menor peso? Qual o maior peso? Para responder essas questões você deverá pro- curar os valores dentro do quadro, e inclusive a probabilidade de erro na informação é relativamente alta. Essa análise se chama ROL e é apresentada na seção a seguir. 5.1 ANÁLISE ROL A tabela primitiva ROL considera a ordenação destes dados (seja crescen- te ou decrescente). Veja, por exemplo, o quadro a seguir: TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA 71 QUADRO 3 – QUADRO ROL REFERENTE DADOS DE IDADE E PESO Idade (anos) 17 18 21 25 29 45 53 61 85 ? Peso (kg) 56 58 59 65 67 75 76 77 85 105 FONTE: Os autores Como você pode perceber, o Quadro 3 apresenta os mesmos dados do Qua- dro 2, mas de forma ordenada por idade e peso. Note que essa ordenação denomi- nada ROL facilita a compreensão do valor mínimo, máximo e amplitude dos dados. Logo, torna-se mais fácil e assertiva responder as questões realizadas anteriormente: • Qual a menor idade? 17. • Qual a maior idade? 85. • Qual o menor peso? 56. • Qual o maior peso? 105. Além disso, é comum analisar a quantidade de indivíduos segundo uma variá- vel que, nesse caso, poderia ser idade ou peso, como exemplo. Denomina-se frequência o número de indivíduos que possui características de uma variável (CRESPO, 2017). Por exemplo, pode se elaborar um quadro com a distribuição de frequência: QUADRO 4 – DISTRIBUIÇÃO DE FREQUÊNCIA POR IDADE Idade (anos) Frequência 17 1 18 1 21 1 25 1 29 1 45 1 53 1 61 1 85 1 FONTE: Os autores Note que, nesse exemplo, há nove intervalos de classe, quando medidos pela idade do indivíduo. Mas, como fazer essa análise em um volume de dados maior? É possível classificar esses dados em intervalos de análise e, a partir disso, avaliar a distribuição por intervalos. No entanto, como calcular os intervalos de classe? É comum dividir os intervalos em grupos de mesmo tamanho, exceto se há algum interesse do pesquisador em avaliar algum intervalo em específico ou dar ênfase em algum grupo. Suponha que desejamos definir quatro classes de grupos de indivíduos. Isso pode levara duas maneiras de se estruturar os in- tervalos de classe, uma vez que há indivíduos em diferentes momentos de suas UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO 72 vidas, e considerando uma amostra com jovens, adultos, meia-idade e idosos. Para delimitar esses intervalos, será necessário calcular a amplitude total (AT) para obter a amplitude por classe (h), e a relação com o número de classes (k). Discutiremos essas etapas na sequência e, após, apresentaremos dois métodos de delimitação de intervalos de frequência. 5.2 NÚMERO OU INTERVALOS DE CLASSE “Classes de frequência ou, simplesmente, classes, são intervalos de va- riação da variável” (CRESPO, 2017, p. 32). Refere-se ao número de intervalos de classe que o pesquisador deseja delimitar sua amostra. O cálculo de intervalos de classe tem por objetivo reduzir a distribuição de frequência em grupos me- nores. Como no Quadro 4 apresenta-se nove intervalos de classe (k=9), suponha que o pesquisador deseja reduzi-lo para quatro intervalos (k=4) para facilitar a distribuição e compreensão da amostra. Por fim, a símbolo “k” é atribuído para representar o número de intervalos de classe. Esse cálculo é realizado apenas em variáveis contínuas e qualitativas (gê- nero, idade, cargo etc.) para delimitar intervalos de classificação dos responden- tes e seus respectivos perfis. As variáveis categóricas não necessitam desse trata- mento, pois já possuem intervalos pré-estabelecidos. NOTA Variáveis categóricas são medidas em uma escala nominal, no qual as cate- gorias identificam a sociedade da classe ou de grupo, como gênero e escolaridade. 5.3 AMPLITUDE TOTAL DA DISTRIBUIÇÃO A amplitude total (AT) refere-se na diferença entre o limite superior da últi- ma classe (limite superior máximo) e o limite inferior da primeira classe (limite infe- rior mínimo) (CRESPO, 2017). O cálculo é realizado por meio da seguinte fórmula: AT = L(máx) - l(mín). Suponha o exemplo de idade do quadro 4: AT = 85 – 17 anos. AT = 68 anos TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA 73 5.4 AMPLITUDE DE UM INTERVALO DE CLASSE A amplitude de um intervalo de classe (h) refere-se na medida do inter- valo que define a classe (CRESPO, 2017). Como o número de classes (k) desejado pelos pesquisadores é 4, a amplitude de cada classe (h) é de: h = AT / k. h = 68 / 4. h = 17 anos de idade. Logo, tem-se a seguinte distribuição por frequência: QUADRO 5 – DISTRIBUIÇÃO DE FREQUÊNCIA EM QUATRO INTERVALOS DE CLASSES Classe Frequência 17 - 34 5 34 - 51 1 51 - 68 2 68 - 85 1 FONTE: Os autores 5.5 TIPOS DE FREQUÊNCIA As frequências podem ser caracterizadas em simples (f) ou relativas (fr), e também frequência simples acumulada (F) e frequência relativa acumulada (Fr). Enquanto as frequências simples “são os valores que realmente representam o número de dados de cada classe”, as frequências relativas “são os valores das razões entre as frequências simples e a frequência total” (CRESPO, 2017, p. 35). Veja a aplicação desses dois conceitos no Quadro 6: QUADRO 6 – DISTRIBUIÇÃO POR FREQUÊNCIA SIMPLES E RELATIVA Classe f fr 17 - 34 5 0,55 34 - 51 1 0,11 51 - 68 2 0,22 68 - 85 1 0,11 Total T=9 T=1 FONTE: Os autores Perceba que o Quadro 6 demonstra a aplicação da distribuição por frequ- ência simples e frequência relativa. Para obter o valor da frequência relativa basta dividir o valor da frequência de uma classe pelo número total da amostra (9). Por UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO 74 exemplo, no cálculo da primeira classe obteve-se: 5 / 9 = 0,55. Por fim, a soma da frequência relativa deve-se obter o número inteiro 1, ou se transformado em per- centual deverá alcançar 100%. Por outro lado, a frequência acumulada (F) considera a soma dos valores ao longo das classes, enquanto a frequência acumulada agrupa os valores ao longo de cada classe. Veja a aplicação no Quadro 7: QUADRO 7 – DISTRIBUIÇÃO POR FREQUÊNCIA SIMPLES E RELATIVA Classe f fr F Fr 17 - 34 5 0,55 5 0,55 34 - 51 1 0,11 6 0,67 51 - 68 2 0,22 8 0,89 68 - 85 1 0,11 9 1 Total T=9 T=1 T=9 - FONTE: Os autores Essas técnicas podem ser utilizadas manualmente ou com o uso de algum software especializado. É comum utilizar o MS Excel para facilitar o manuseio de dados, vejamos no próximo subtópico. 6 ANÁLISE DE FREQUÊNCIA COM MS EXCEL O MS Excel pode facilitar o processo de análise de frequência. Esse sof- tware oferece um amplo conjunto de fórmulas que reduzem o tempo de conso- lidação de informações de uma amostra. A seguir, são destacadas algumas das funcionalidades do MS Excel: a) Contar valores: essa função é utilizada para verificar o número de respondentes (n). TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA 75 FIGURA 3 – FREQUÊNCIA COM MS EXCEL: N FONTE: Os autores b) Mínimo: apresenta o limite inferior, ou seja, o valor mais baixo da variável. FIGURA 4 – FREQUÊNCIA COM MS EXCEL: MÍNIMO FONTE: Os autores c) Máximo: apresenta o limite superior, ou seja, o valor mais alto da variável. UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO 76 FIGURA 5 – FREQUÊNCIA COM MS EXCEL: MÁXIMO FONTE: Os autores d) Frequência: indica a quantidade de casos de uma amostra a partir de um limite superior. Por exemplo, ao mencionar o valor 10, por exemplo, a fórmula ras- treia e indica quantos casos possuem valor até 10. Veja a aplicação a seguir: FIGURA 6 – FREQUÊNCIA COM MS EXCEL: FREQUÊNCIA ACUMULADA FONTE: Os autores TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA 77 O Excel indica apenas a frequência acumulada, ou seja, o valor máximo de cada classe é atribuído para obter o volume de casos em cada classe. Para identificar a frequência por classe basta calcular a diferença entre elas. Por fim, a frequência relativa e a frequência relativa acumulada são calculadas através da relação entre a frequência de uma classe pelo valor total. Veja essas etapas nas Figuras 7, 8 e 9: FIGURA 7 – FREQUÊNCIA COM MS EXCEL: FREQUÊNCIA RELATIVA ACUMULADA FONTE: Os autores FIGURA 8 – FREQUÊNCIA COM MS EXCEL: DISTRIBUIÇÃO DE FREQUÊNCIA FONTE: Os autores UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO 78 FIGURA 9 – FREQUÊNCIA COM MS EXCEL: FREQUÊNCIA RELATIVA FONTE: Os autores CASES DE EMPRESAS QUE USAM BIG DATA Veja exemplos reais de empresas que usam Big Data para sair na frente da concorrência! Empresas que usam Big Data com toda certeza pos- suem um grande diferencial. Não é de hoje que as empresas buscam cada vez mais tecnologias. Com tantos avanços, uma empresa deve estar antena- da se não quiser ficar obsoleta rapidamente. No entanto, o Big Data ainda é pouco explorado, especialmente no Brasil. Muitos nem sabem do que se trata. A verdade é: as poucas empresas que investiram no uso do Big Data tiveram resultados expressivos. Confira agora 5 cases incríveis! Eles deixam muito claro como o uso correto do Big Data pode ser uma enorme vantagem competitiva para uma empresa: 1 – TARGET TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA 79 A Target é a segunda maior retail store (rede de varejo) dos Estados Unidos, ficando atrás apenas do Walmart. O case dessa marca ficou extre- mamente conhecido por ter realizado algo incrível: prever quais clientes estavam grávidas. Até hoje, há um grande debate sobre privacidade e até onde é correto utilizar as informações dos clientes para tal ações. Contudo, é inegável a genialidade do uso do Big Data. A equipe de análise de dados da rede criou modelos para entender e conhecer a fundo os hábitos de com- pra de seus clientes. Dessa forma, foi possível criar perfis de comprador, baseando-se em suas compras e dados demográficos, idade e até a situação da vida pessoal da pessoa. Assim, a empresa poderia oferecer ofertas de produtos que cada perfil estava mais propenso a comprar. Foi assim que passaram a mapear quais clientes estavam grávidas, e até qual o mês da gestação, baseando-se nos hábitos de compra.Apesar de ter gerado muita polêmica, foi evidente o aumento da assertividade das ofertas e maior nú- mero de compras e fidelizações. 2 – AMERICAN EXPRESS A American Express, mais conhecida como Amex, é uma das mais famosas empresas de serviços financeiros dos Estados Unidos. Imagine a quantidade de dados que uma empresa desse nicho possui? Pensando em como tirar proveito disso, a empresa passou a utilizar a análise de dados e o machine learning (aprendizagem da máquina) para tomar importantes decisões. Uma das soluções alcançadas foi detectar fraudes com muito mais facilidade. Com esse recurso, eles percebem padrões que correspondem a transações fraudulentas, pensando em detectar rapidamente para minimizar perdas. Assim, os algoritmos, através do machine learning, aprendem o padrão de consumo de cada usuário. Sempre que há algum tipo de transação que foge do usual, o usuário e a empresa são notificados. UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO 80 Isso fez com que a empresa economizasse milhões! Mas eles não pararam por aí. Com o Big Data, viram uma grande oportunidade de di- versificar ainda mais os serviços oferecidos ao usuário, não se limitando ao crédito. Hoje, a empresa oferece um aplicativo que analisa os dados de compras anteriores e, em seguida, recomenda restaurantes na área que o usuário provavelmente desfrutará. Além disso, oferecem cupons e ofertas em outros estabelecimentos e produtos. 3 – AMAZON A Amazon é uma empresa transnacional de comércio dos Estados Unidos. Hoje, é uma empresa que vende de tudo um pouco. Ela tem se destacado cada vez mais pelo uso inteligente de tecnologia e Big Data. Re- centemente, se tornou a segunda empresa americana a alcançar o valor de mercado de US$ 1 trilhão, o que deixa claro sua força. E nada disso teria sido possível sem o uso dos dados. Os algoritmos criados pela Amazon possuem principalmente a função de levar as ofertas mais personalizadas possível para cada pessoa. Resultado: cliente satisfeito, empresa vendendo mais. Através de Machine Learning (aprendizagem da máquina) e do ar- mazenamento em cloud computing (computação nas nuvens), eles apren- dem como cada consumidor se comporta. É possível até prever que tipo de mercadoria o cliente poderia se interessar. No futuro, o objetivo é entregar ideias de produtos para os clientes sem que eles tenham sequer pedido! É interessante ressaltar que a Amazon tem investido também em disponibili- zar a mesma tecnologia que usam para outros e-commerces. Dessa maneira, comprovam sua eficácia em diversos níveis e mostram ainda como expan- dir a oferta de serviços com o Big Data. TÓPICO 1 — BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA 81 4 – DELTA AIRLINES No ramo da aviação, muitas vezes é difícil encontrar pontos que fa- çam uma empresa realmente se diferenciar da outra. Pensando em como ir além, a empresa Delta pensou em como resolver uma das maiores dores dos passageiros quando viajam: bagagem extraviada. Com uma solução simples, porém muito inteligente e eficaz, eles pensaram em um sistema que permite cada passageiro acompanhar onde está sua bagagem. Além de deixar as pes- soas mais tranquilas, ajudou a evitar grandes dores de cabeça para a empresa. Pode parecer simples, mas esse recurso é sim uma utilização muito inteligen- te do Big Data. São mais de 130 milhões de bagagens despachadas por ano, um grande volume de informações com cada uma delas. Isso mostra como o Big Data não está distante de nossa realidade: pode ser utilizado por qual- quer tipo de empresa, sem gastar milhões de reais. Uma solução barata e que diferenciou a Delta como uma empresa centrada no consumidor. 5 – SHELL UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO 82 Pra quem pensa que empresas que usam Big Data são apenas as mais novas ou muito ligadas ao digital, está muito enganado. A Shell, uma das maiores empresas petrolíferas do mundo passou a usar o Big Data para reduzir consideravelmente seus gastos de operação. Para perfurar um lo- cal para extração de petróleo, além de muito caro ocasiona em um grande impacto ambiental. Para minimizar os riscos e diminuir custos, é preciso estudar bem quais áreas estão propensas a entregarem melhor resultado. Assim, com a análise, a Shell monitora as ondas sísmicas de baixa freqüên- cia abaixo da superfície da Terra. Essas ondas se registram de maneira di- ferente nos sensores enquanto viajam pela crosta terrestre. Dessa forma, podem prever o tamanho provável dos recursos de petróleo e gás. FONTE: <https://resultys.com.br/cases-de-empresas-que-usam-big-data>. Acesso em: 1º dez. 2019. 83 Neste tópico, você aprendeu que: • O Big Data consiste em um grande base de dados onde são acumulados dados de múltiplas variáveis ao longo do tempo. O Big Data pode auxiliar empresas a tomarem decisões pautadas em dados históricos. • Uma base de dados pode ser formada com dados estruturados assim como não estruturados. Enquanto os dados estruturados são criados e armazenados de forma padronizada, os dados não estruturados são dados que precisam de etapas de tratamento e organização em base de dados para posterior análise. • A organização de dados torna-se fundamental para análise estatística posterior. Os conceitos de Outlier e Missing values foram apresentados como etapas de análise univariada, ou seja, para cada variável. Enquanto o outlier refere-se nos dados que fogem dos padrões normais, os missing values são os dados faltantes em casos. • A distribuição de frequência refere-se na distribuição de casos ou respondentes por intervalos de classes. Em caso de variáveis contínuas e qualitativas, torna-se necessário a definição de classes. Os conceitos de intervalos de classe, amplitude total, amplitude por intervalo de classe, e tipos de frequência foram discutidos. RESUMO DO TÓPICO 1 84 1 Qual é o conceito que se refere a um amplo conjunto de dados em constante crescimento? a) ( ) Big Bang. b) ( ) Planilha. c) ( ) Big Data. d) ( ) Grande planilha. 2 O termo Outlier é amplamente utilizado na área da estatística. Sobre o con- ceito do termo, assinale a alternativa CORRETA: a) ( ) Representam os valores que estão fora de padrão. b) ( ) Valores de casos não respondidos. c) ( ) Variáveis sem resposta. d) ( ) Valores dentro do desvio padrão. 3 O termo Missing value é amplamente utilizado na área da estatística. Sobre o conceito do termo, assinale a alternativa CORRETA: a) ( ) Dados faltantes em uma ou mais variáveis. b) ( ) Dados incorretos em uma ou mais variáveis. c) ( ) Valores preenchidos com omissão da verdade pelo respondente. d) ( ) Valores fora do padrão. 4 Há um tipo de dado que é obtido de diversas fontes e sem formatação pré- via. Sobre o exposto, assinale a alternativa CORRETA: a) ( ) Dados estruturados. b) ( ) Dados não estruturados. c) ( ) Dados organizados. d) ( ) Dados não organizados. 5 Com relação aos elementos de distribuição e frequência, classifique V para as alternativas verdadeiras e F para as falsas. a) ( ) Frequência refere-se ao número de variáveis existentes em um banco de dados. b) ( ) Amplitude total corresponde ao número de casos. c) ( ) Intervalo de classes consiste na variação existente de uma classe. d) ( ) Frequência relativa refere-se na razão entre a frequência de uma classe sobre o total. AUTOATIVIDADE 85 Assinale a alternativa CORRETA: a) ( ) F – F – V – V. b) ( ) V – F – F – V. c) ( ) F – V – V – F. d) ( ) V – V – F – F. 6 Com relação aos tipos de frequência, associe as assertivas a seguir: (a ) Frequência. (b ) Frequência relativa. (c ) Frequência acumulada. (d) Frequência relativa acumulada. ( ) São os valores das razões entre as frequências simples e a frequência total. ( ) Agrupa os valores ao longo de cada classe. ( ) São os valores que realmente representam o número de dados de cada classe. ( ) Considera asoma dos valores ao longo das classes. Assinale a alternativa CORRETA: a) ( ) a – b – c – d. b) ( ) b – d – a – c. c) ( ) b – c – a – d. d) ( ) d – a – b – c. 7 A análise de frequências pode ser estruturada no software MS Excel. Clas- sifique V para sentenças verdadeiras e F para as falsas: ( ) A função =FREQUENCIA() retorna o número de classes. ( ) A função =FREQUENCIA() retorna a frequência acumulada. ( ) A função =MAXIMO() retorna o maior valor absoluto de uma amostra. ( ) A função =MINIMO() retorna a frequência mínima de uma amostra. Assinale a alternativa CORRETA: a) ( ) F – F – V – V. b) ( ) V – F – F – V. c) ( ) F – V – V – F. d) ( ) V – V – F – F. 8 Qual é o nome do termo que se refere à medida do intervalo que define a classe? a) ( ) Amplitude máxima. b) ( ) Amplitude de um intervalo de classe. c) ( ) Amplitude total. d) ( ) Amplitude mínima. 86 9 O que o termo amplitude total indica? a) ( ) A diferença entre o limite superior da última classe e o limite inferior da primeira classe. b) ( ) A soma de frequência das classes. c) ( ) O número total das classes. d) ( ) A diferença entre o limite superior em relação ao limite inferior da pri- meira classe. 10 Qual é o nome do termo que considera a ordenação destes dados (seja cres- cente ou decrescente)? a) ( ) Análise ROA. b) ( ) Análise ROE. c) ( ) Análise ROCE. d) ( ) Análise ROL. 87 UNIDADE 2 1 INTRODUÇÃO Qual a importância de mostrar uma informação de forma gráfica? Talvez você já tenha se deparado com uma situação em que os dados aparentemente não mostravam claramente uma informação, seja por meio de tabelas, quadros ou sínte- se. Entretanto, ao apresentar uma informação de forma visual, como um gráfico, por exemplo, isso facilita a compreensão do receptor da informação. Dessa maneira, o propósito de um gráfico é auxiliar na compreensão dos dados (MOORE et al., 2006). Por exemplo, suponha que uma empresa está avaliando as vendas efetivadas em um determinado período de tempo. Para tanto, a notificação foi passada aos só- cios da empresa da seguinte maneira: o Produto A vendeu 1.000 unidades no período 1; 800 unidades no período 2; e 500 unidades no período 3. O Produto B vendeu 1.300 unidades no período 1; 1.500 no período 2; e 1.800 no período 3. Por fim, o Produto C vendeu 750 unidades no período 1; 700 no período 2; e 400 no período 3. Agora, suponha essa mesma informação pudesse ser comunicada aos só- cios de forma organizada e sumarizada da seguinte forma: FIGURA 10 – EXEMPLO REPRESENTAÇÃO GRÁFICA FONTE: Os autores TÓPICO 2 — GRÁFICOS ESTATÍSTICOS 88 UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO Qual das duas formas apresenta a informação de maneira mais comuni- cativa? Certamente, sua resposta será a representação gráfica. A construção de gráficos e tabelas auxilia na organização, sumarização, descrição e apresentação dos dados (MARTINS; DOMINGUES, 2011). A seguir, apresentaremos diferentes tipos de gráficos, suas interpretações, e a elaboração por meio do MS Excel. 2 TIPOS DE GRÁFICOS Conceitualmente, “o gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir, no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápido à compreensão que as séries” (CRESPO, 2017, p. 30). Os seguintes dados serão utilizados para explorar a aplicação em diferen- tes tipos de gráficos. Suponha que seis indivíduos fizeram parte de um experi- mento, fornecendo a idade, peso e Índice de Massa Corpórea (IMC) ao longo de três períodos. Veja dados no Quadro 8: QUADRO 8 – DADOS DOS ENTREVISTADOS Nome Gênero Altura Idade_1 Peso_1 Idade_2 Peso_2 Idade_3 Peso_3 IMC_1 IMC_2 IMC_3 Frida Fem 1,69 25 68 26 72 27 75 23,8 25,2 26,3 Maria Fem 1,74 30 65 31 66 32 68 21,5 21,8 22,5 Joana Fem 1,57 32 58 33 58 34 57 23,5 23,5 23,1 José Masc 1,87 40 83 41 85 42 88 23,7 24,3 25,2 Luiz Masc 1,71 25 91 26 98 27 105 31,1 33,5 35,9 Jessica Fem 1,72 20 54 21 53 22 52 18,3 17,9 17,6 FONTE: Os autores Note que, no exemplo anterior, o gênero é uma variável qualitativa, enquanto as demais são variáveis quantitativas contínuas (idade, peso, IMC). Além disso, as va- riáveis quantitativas contínuas são apresentadas em três horizontes de tempo. Devi- do aos dados serem logitudinais (em três séries de tempo), pode-se elaborar gráficos que mostram essa evolução no tempo, chamados de gráficos temporais. “Um gráfico temporal de uma variável mostra as observações em função do tempo em que elas foram medidas. Ponha sempre o tempo na escala horizontal do gráfico e a variável que você estiver medindo na vertical” (MOORE et al., 2006, p. 48). 89 TÓPICO 2 — GRÁFICOS ESTATÍSTICOSGRÁFICOS ESTATÍSTICOS 2.1 BARRAS OU COLUNAS Os gráficos de Barras ou Colunas mostram as frequências de observações para cada nível, ou classe, da variável em estudo (MARTINS; DOMINGUES, 2011). Baseado no método cartesiano, esses tipos de gráficos consideram a relação de duas variáveis – eixo x e y. Note que, na Figura 11, há um gráfico que avalia a relação entre os nomes dos indivíduos na horizontal (eixo x) com a idade (eixo y). FIGURA 11 – GRÁFICO DE COLUNAS FONTE: Os autores Conforme apresentado na Figura 11, é possível comparar a idade dos indivíduos que compõe a amostra. É possível interpretar que o José é o indivíduo mais velho da amostra, enquanto Jéssica a mais jovem. Também é possível verificar a variação da amostra por gêneros – masculino (25 a 40 anos) e feminino (20 a 32 anos), logo, as mulheres que participaram da pesquisa possuem maior homogeneidade quanto à idade. Por sua vez, o Gráfico de Barras apenas inverte os eixos x e y em relação ao Gráfico de Colunas. Note que, na Figura 12, tem-se a relação dos indivíduos com o peso no período 1. É possível interpretar que o Luiz é o mais pesado (91 kg), enquanto a Jéssica possui o menor peso (54 kg). Além disso, também é possível perceber que os homens são mais pesados do que as mulheres, apresentando uma variação de 83 a 91 kg, enquanto as mulheres de 54 a 68 kg. 90 UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO FIGURA 12 – GRÁFICO DE BARRAS FONTE: Os autores Os gráficos de colunas e barras são indicados para apresentação de dados de uma variável por indivíduos ou grupos de classes. Também são sugeridos em caso de apresentação de dados temporais, pois é possível criar colunas ou barras por períodos. NOTA Dados temporais são os dados apresentados em um horizonte de tempo, ou seja, de forma longitudinal. 2.2 LINHAS Um Gráfico de Linha “faz uso de duas retas perpendiculares; as retas são os eixos coordenados e os pontos de intersecção, a origem. O eixo horizontal é denominado eixo das abscissas (ou eixo dos x) e o vertical, eixo das ordenadas (ou eixo dos y)” (CRESPO, 2017, p. 31). TÓPICO 2 — GRÁFICOS ESTATÍSTICOS GRÁFICOS ESTATÍSTICOS 91 FIGURA 13 – GRÁFICO DE LINHAS FONTE: Os autores A Figura 13 indica o Índice de Massa Corpórea de seis indivíduos pesqui- sados aleatoriamente. A partir desse gráfico, é possível perceber os indivíduos que estão fora dos limites do IMC, bem como a evolução ao longo dos perío- dos. Conforme o índice de IMC disponível pela Organização Mundial da Saúde (OMS), é possível perceber com o gráfico de linhas, que o Luiz e a Jéssica estão fora dos limites de especificação. Além disso, ambos estão com tendência de piora ao longo dos três períodos apresentados. QUADRO 9 – TABELA PADRÃO IMC IMC Classificação Abaixo de 18,5 Baixo peso Entre 18,6 e 24,9 Peso Normal Entre 25 e 29,9 Sobrepeso Entre 30 e 34,9 Obesidade grau I Entre 35 e 39,9 Obesidade grau II Acima de 40 Obesidade grau III FONTE: Adaptado de Organização Mundial da Saúde (2019) 92 UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO Os gráficos de linhas são indicados para apresentação de dados temporais de uma ou mais variáveis.Desta forma, é possível avaliar tendências e projeções futuras. 2.3 GRÁFICO DE PIZZA O Gráfico de Pizza, também chamado de gráfico em setores, “é empregado sempre que desejamos ressaltar a participação do dado no total” (CRESPO, 2017, p. 35). Para elaborar um gráfico de pizza recomenda-se a criação de uma tabela auxiliar com dados resumidos de frequência. Por exemplo: 2 homens e 4 mulheres, ou seja, 33% homens e 67% mulheres, conforme apresentado a seguir. Note que os rótulos de dados estão sendo apresentados dentro do gráfico, neste caso. FIGURA 14 – GRÁFICO DE PIZZA FONTE: Os autores Conforme apresentado na Figura 14, é possível interpretar que 67% dos entrevistados foram mulheres, enquanto apenas 33% homens. Portanto, enquanto o círculo apresenta a amostra total, as divisões representam proporcionalmente a amplitude de cada categoria de uma variável. Esse tipo de gráfico é aplicado sempre que se busque compreender o perfil de uma amostra de dados, população, perfil do respondente, bem como aspectos pessoais. TÓPICO 2 — GRÁFICOS ESTATÍSTICOS GRÁFICOS ESTATÍSTICOS 93 2.4 DISPERSÃO OU SCATTERPLOT Os Gráficos de Dispersão, ou também conhecidos como Diagrama de Dis- persão ou Scatterplot, são representações gráficas de duas ou mais variáveis com base no plano cartesiano. Portanto, o gráfico de dispersão apresenta um conjunto de pontos e uma reta. Os pontos referem-se na intersecção entre as variáveis, enquanto a reta demonstra a tendência dos dados, ou seja, dado o conjunto de pontos, a linha de tendências apresentará uma projeção para comportamentos futuros com base nas variáveis em análise. FIGURA 15 – GRÁFICO DE DISPERSÃO FONTE: Os autores Conforme na Figura 15, perceba que, ao passo que aumenta a idade das pessoas entrevistadas, o peso também aumenta proporcionalmente. Dessa forma, é possível concluir que há uma tendência de pessoas aumentarem seus pesos com base em comportamentos históricos de outros indivíduos, certo? Tecnicamente, a linha de tendências apresenta a menor distância entre os pontos, ou melhor, o ponto ótimo em que a distância dos pontos se torna minimizada. Dessa forma, é possível ter consciência sobre o que os dados históricos estão apresentando. Também seria possível identificar os respondentes no gráfico em caso de valores distorcidos (outliers), entretanto, este não é o objetivo deste gráfico na sua essência. 94 UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO 2.5 DIAGRAMA DE CAIXAS OU BOXPLOT Um Gráfico de Caixas, Diagrama de Ações ou também conhecido como Boxplot, tem por finalidade apresentar a variação de uma ou mais variáveis. Um conjunto de elementos são fundamentais para compor um Gráfico de Caixas, conforme apresentado na Figura 16: • Máximo: apresenta o valor absoluto máximo da variável. • Q3: apresenta o terceiro quartil, ou seja, o número absoluto que representa 75% dos valores dos dados de uma variável. • Média: apresenta o valor médio de todos os casos da variável. • Mediana: apresenta o valor absoluto que está exatamente no centro de todos os casos de uma variável. • Q1: apresenta o primeiro quartil, ou seja, o número absoluto que representa 25% dos valores dos dados de uma variável. • Mínimo: apresenta o valor absoluto mínimo da variável. Suponha que um experimento foi realizado com uma cidadã chamada Frida por três períodos. O experimento consistiu na avaliação do impacto da dieta baseada em Fast-food. O peso da Frida era mensurado diariamente, e obteve-se o seguinte quadro resumo: QUADRO 10 – EXPERIMENTO FAST-FOOD – PESO DE FRIDA Peso_1 Peso_2 Peso_3 Máximo 72 75 81 Q3 70 74 77 Média 68 72 75 Mediana 68 71 73 Q1 66 70 70 Mínimo 64 67 67 FONTE: Os autores Na sequência, representaremos essas informações em um Gráfico Boxplot. Conforme apresentado na Figura 16, perceba que os extremos representam o peso má- ximo e mínimo da Frida em cada período. Por sua vez, a base do retângulo invertido consiste no primeiro quartil (Q1), enquanto a parte superior indica o terceiro quartil (Q3). Por fim, o ponto central indica a média do peso da Frida em cada período. TÓPICO 2 — GRÁFICOS ESTATÍSTICOS GRÁFICOS ESTATÍSTICOS 95 FIGURA 16 – GRÁFICO BOXPLOT FONTE: Os autores Esse tipo de gráfico pode ser interpretado por meio da comparação tem- poral dos cinco elementos supracitados – máximo, Q3, média, mediana, Q1, e mínimo. Dessa forma, levando em conta o exemplo aplicado de Frida, é possível perceber que após o consumo de Fast-food houve uma tendência crescente no peso de Frida, a partir da comparação da média, terceiro quartil, e máximo. Ain- da, também se percebe que o peso mínimo e o primeiro quartil aumentaram no segundo e no terceiro período se comparado ao terceiro. Outro ponto a ser considerado no exemplo de Frida é em relação à varia- ção de peso ao longo do tempo. Perceba que os valores de mínimo e máximo são menores no primeiro e no segundo período quando comparados com o terceiro. Ambas as informações interpretadas pelo gráfico também podem ser feitas de forma analítica pelo Quadro 10, afinal, o propósito de um gráfico é auxiliar na compreensão dos dados (MOORE et al., 2006). 2.6 HISTOGRAMA Os Histogramas correspondem na representação gráfica da tabela de distribuição de frequência de dados (MARTINS; DOMINGUES, 2011). De acordo com Crespo (2017, p. 61) “o histograma é formado por um conjunto de retângulos justapostos, cujas bases se localizam sobre o eixo horizontal, de tal modo que seus pontos médios coincidam com os pontos médios dos intervalos de classe”. 96 UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO O Histograma permite uma análise gráfica da distribuição dos dados de uma variável. Enquanto as colunas representam a soma das frequências, a linha no gráfico indica a curva de frequência. A distribuição pode ser representada visualmente em formato de sino (como apresentado na Figura 17) ao qual representa valores superiores nas classes da região central do gráfico. FIGURA 17 – HISTOGRAMA FONTE: Os autores O exemplo exposto na Figura 17 apresenta uma curva simétrica de dados, enquanto as curvas podem se caracterizar assimétricas quando há algum padrão de resposta em alguma classe da extremidade. IMPORTANTE A curva simétrica caracteriza-se por apresentar o valor máximo no ponto central e os pontos das extremidades por terem a mesma frequência. A curva assimétrica corresponde nas distribuições em que apresentam a cauda de um lado da ordenada mais longa que do ou- tro, ou seja, há um padrão de respostas em algum dos extremos das classes. TÓPICO 2 — GRÁFICOS ESTATÍSTICOS GRÁFICOS ESTATÍSTICOS 97 2.7 ÁREA Os Gráficos de Área são indicados quando pretende-se apresentar algum valor cumulativo ao longo do tempo. Ou, ainda, quando se pretende contrastar variações de uma ou mais variáveis em um ou mais períodos. FIGURA 18 – GRÁFICO DE ÁREA FONTE: Os autores A interpretação do gráfico ocorre como no Gráfico de Linhas, observando os pontos com menor e maior valor. Dessa maneira, note que, na Figura 18, o Luiz apresenta um valor acumulado de IMC acima dos demais, enquanto a Jessica, abaixo do esperado. 2.8 RADAR O Gráfico de Radar tem por objetivo apresentar um conjunto de multiva- riáveis, ou um conjunto de detalhes ou de respondentes de uma variável. Ainda utilizando o Quadro 8, por exemplo, suponha que gostaríamos de avaliar a ha- bilidade dos indivíduos pesquisados em relação à administração do seu IMC ao longo de três períodos. É possível avaliá-los conforme demonstra a Figura 19: 98 UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO FIGURA 19 – GRÁFICO DE RADAR FONTE: Os autores A interpretação do gráfico pode ser realizada por variáveis ou por res- pondentes. Perceba que, na Figura 19, Luiz obteve a maior variação de IMC nos três períodos. Por outro lado, note que a Maria, a Joana e o José que obtiveram níveis aceitáveis de IMC conformepadrão fornecido pela Organização Mundial da Saúde (ver Quadro 9). 2.9 OUTROS TIPOS DE GRÁFICOS Outros tipos de gráficos podem ser elaborados para representação visual de dados estatísticos, como, por exemplo, o Gráfico de Bolha, o Gráfico de Pareto, assim como o Gráfico Dinâmico. TÓPICO 2 — GRÁFICOS ESTATÍSTICOS GRÁFICOS ESTATÍSTICOS 99 FIGURA 20 – GRÁFICO DE BOLHAS FONTE: Os autores Conforme apresentado na Figura 20, perceba que o Gráfico de Bolhas considera o ponto de intersecção de duas variáveis (valor do IMC e período) assim como o Gráfico de Dispersão faz, bem como o tamanho da bolha refere-se no valor atribuído ao ponto de intersecção. 100 UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO FIGURA 21 – GRÁFICO DE PARETO FONTE: Os autores Por sua vez, o Gráfico de Pareto agrupa o Gráfico de Colunas e o Gráfico de Linhas em um único gráfico, em que as colunas representam valores de classes, enquanto a linha considera o valor cumulativo das classes (do maior para o menor). Por fim, o gráfico dinâmico é uma ferramenta do MS Excel que permite atualização automática do gráfico com a introdução de novos dados, assim como incluir, remover ou alterar variáveis. Essa ferramenta utiliza os procedimentos acima mencionados, porém, atualiza o gráfico a partir da inserção de novos dados, bem como é possível alterar alguma variável no gráfico sem a necessidade de criar um novo gráfico. 3 ELABORAÇÃO DE GRÁFICOS EM MS EXCEL Para criar um gráfico no MS Excel algumas etapas são mandatórias. Independentemente do gráfico a ser elaborado, abordaremos alguns passos para elaborar um gráfico: • Preparação dos dados: valide se os dados estão corretos e devidamente dispo- níveis em uma planilha do excel. • Selecionar as variáveis desejadas: selecione apenas as variáveis de interesse em um conjunto de dados (B1:C7). 101 TÓPICO 2 — GRÁFICOS ESTATÍSTICOS GRÁFICOS ESTATÍSTICOS FIGURA 22 – SELEÇÃO DE DADOS NO MS EXCEL FONTE: Os autores • Selecione o modelo de gráfico: clique em Inserir > Gráficos, e selecione a opção que desejar. Clique em OK. FIGURA 23 – SELEÇÃO DE GRÁFICO NO MS EXCEL FONTE: Os autores 102 UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO • Configurações: configure-o quanto os seus elementos, estilo e filtro. FIGURA 24 – CONFIGURAÇÃO DO GRÁFICO NO MS EXCEL FONTE: Os autores Nesta etapa, é possível configurar: • Elementos: eixos, títulos, rótulos, tabela de dados, barras de erros, linhas de grade, legenda, e linha de tendências. • Estilo: apresentação das cores do gráfico, linhas e fundo. • Filtro: adicionar ou remover variáveis. 103 RESUMO DO TÓPICO 2 Neste tópico, você aprendeu que: • Há diferentes estilos de gráficos, como: o gráfico de colunas e barras, o gráfico de linhas, o gráfico de pizza, o gráfico de dispersão ou scatterplot, o gráfico de caixas ou boxplot, o gráfico de histograma, o gráfico de área, o gráfico de radar, entre outros. • O gráfico de colunas e barras apresenta a frequência de observações para cada variável, classe ou respondente. • O gráfico de linhas apresenta a frequência de observações de uma ou mais vari- áveis em um plano cartesiano, em que o ponto representa a intersecção de duas variáveis enquanto a linha faz a ligação entre os pontos. • O gráfico de pizza busca ressaltar quanto um dado ou uma variável representa na participação total de uma amostra. • O gráfico de dispersão ou scatterplot apresenta a intersecção de pontos entre duas ou mais variáveis em um plano cartesiano. • O diagrama de caixas ou boxplot expõe a variabilidade de uma ou mais vari- áveis, por meio dos valores de máximo, terceiro quartil, média ou mediana, primeiro quartil e mínimo. • O histograma é um gráfico que apresenta a frequência de observações de uma variável por respostas padrões ou classes de frequência, bem como a respectiva distribuição de dados. • O gráfico de área tem por objetivo apresentar dados de forma cumulativa, seja por períodos diferentes, ou por variáveis de um mesmo respondente. • O gráfico de radar tem por objetivo apresentar um conjunto de multivariáveis, ou um conjunto de detalhes ou de respondentes de uma variável. • Os gráficos de bolhas e pareto são formas adicionais de representação gráfico. O gráfico dinâmico também foi apresentado como uma alternativa do MS Excel para automatização e maior velocidade na representação e cruzamento de dados. 104 1 Os gráficos estatísticos são amplamente utilizados em empresas e universi- dades. Afinal, qual é o propósito de um gráfico? a) ( ) Auxiliar na compreensão dos dados. b) ( ) Apontar a melhor decisão. c) ( ) Reduzir gastos. d) ( ) Fornecer dados para criação de tabelas e quadros. 2 O que consiste em um gráfico temporal? a) ( ) Apresenta dados climáticos. b) ( ) Apresenta informações ao longo do tempo. c) ( ) Indica a melhor data e horário. d) ( ) Aponta a projeção sobre condições climáticas. 3 Qual o tipo de gráfico mostra as frequências de observações para cada ní- vel, ou classe, da variável em estudo? a) ( ) Pizza. b) ( ) Dispersão. c) ( ) Radar. d) ( ) Colunas. 4 Os Gráficos de Colunas ou Barras são amplamente utilizados para repre- sentações estatísticas. Sobre o gráfico de colunas, classifique V para as sen- tenças verdadeiras e F para as falsas: ( ) Este gráfico mostra as frequências de observações para cada nível, ou classe, da variável em estudo. ( ) Baseia-se no plano cartesiano. ( ) Considera a intersecção entre pontos. ( ) A largura das colunas é estabelecida pelo valor dos dados. Assinale a alternativa CORRETA: a) ( ) F – F – V – V. b) ( ) V – F – F – V. c) ( ) F – V – V – F. d) ( ) V – V – F – F. AUTOATIVIDADE 105 5 Com relação aos tipos de gráficos, associe as assertivas a seguir: ( a ) Radar. ( b ) Bolhas. ( c ) Pizza. (d) Pareto. ( ) As colunas representam valores de classes enquanto a linha considera o valor cumulativo das classes. ( ) Tem por objetivo apresentar um conjunto de multivariáveis, ou um con- junto de detalhes ou de respondentes de uma variável. ( ) O tamanho refere-se no valor atribuído ao ponto de intersecção. ( ) É empregado sempre que deseja-se ressaltar a participação do dado no total. Assinale a alternativa CORRETA: a) ( ) a – b – c – d. b) ( ) b – d – a – c. c) ( ) b – c – a – d. d) ( ) d – a – b – c. 6 Qual é o objetivo de um gráfico? a) ( ) É uma forma de apresentação de dados estatísticos para convencer o leitor sobre uma melhor decisão. b) ( ) É uma forma de apresentação dos dados estatísticos, cujo objetivo é o de oferecer uma impressão mais rápida e viva do fenômeno em estudo. c) ( ) É uma forma de apresentação de dados para pessoas que não tem inte- resse pela leitura de texto extenso. d) ( ) Facilitar o entendimento de um texto incompreensível. 7 Qual é o gráfico que tem por tem por finalidade apresentar a variação de uma ou mais variáveis? a) ( ) Gráfico de Bolhas. b) ( ) Gráfico de Pareto. c) ( ) Diagrama de Caixas ou Boxplot. d) ( ) Gráfico de Greenwich. 8 O Gráfico de Pareto é utilizado em casos onde se busca ordenar aspectos ou classes. Sobre o Gráfico de Pareto, classifique V para as sentenças verdadei- ras e F para as falsas: ( ) Agrupa o gráfico de colunas e o gráfico de linhas em um único gráfico. ( ) Utiliza o gráfico de linhas de capricórnio para delimitar a frequência acu- mulada. ( ) Integra a frequência individual com a acumulada. ( ) Deve ser elaborado em ocasiões de ausência de informação. 106 Assinale a alternativa CORRETA: a) ( ) F – F – V – V. b) ( ) V – F – V – F. c) ( ) F – V – F – V. d) ( ) V – V – F – F. 9 Ordene a sequência para elaboração de um gráfico no software MS Excel: ( ) Seleção das variáveis com o cursor. ( ) Preparação e importação dos dados. ( ) Configuração do gráfico e seus aspectos. ( ) Seleção do modelo de gráfico pretendido. Assinale aalternativa CORRETA: a) ( ) 1 – 2 – 3 – 4. b) ( ) 2 – 1 – 4 – 3. c) ( ) 3 – 4 – 1 – 2. d) ( ) 4 – 3 – 2 – 1. 10 Um Histograma pode ser encontrado com representação simétrica e assi- métrica. Qual é o significado da curva assimétrica? a) ( ) Refere-se a um histograma com dados faltantes. b) ( ) Consistem em gráfico onde as curvas do gráfico não são homogêneas, ou seja, as curvas das barras não apresentam padronização no arredonda- mento das bordas. c) ( ) Corresponde nas distribuições em que apresentam a cauda de um lado da ordenada mais longa que do outro. d) ( ) Apresenta a distribuição normal de dados em um histograma. 107 UNIDADE 2 1 INTRODUÇÃO Suponha que você está sendo avaliado com relação ao seu desempenho acadêmico. Para tanto, você realizou entregas avaliativas e espera um retorno do docente quanto a nota e devolutiva das entregas realizadas. Quanto importaria para você o seu desempenho? E com relação ao seu desempenho comparado com os demais acadêmicos da mesma sala de aula? E, ainda, quanto importaria verificar a nota que mais se repetiu na sala? Você concorda que a resposta para essas questões são indicadores de desempenho acadêmico que podem auxiliar tanto o acadêmico quanto o professor na estratégia pedagógica? A partir desse contexto, estudaremos, neste tópico, as medidas de posição – também conhecidas como média, mediana, moda e separatrizes (também conhecidos como quartis como estudado no Tópico 2 desta unidade). As medidas de posição são técnicas estatísticas que permitem uma avaliação descritiva de um conjunto de dados de uma amostra (SILVA; GRAMS; SILVEIRA, 2018). Como estudado no Tópico 1, e em partes do Tópico 2, você pode perceber que há variáveis qualitativas (e também gráficos, como por exemplo o Histograma) que não tem a finalidade de verificar medidas de posição, mas apenas a frequência e sua distribuição de dados. Do contrário, as variáveis quantitativas permitem uma análise das características descritivas da amostra (CRESPO, 2017). 2 MEDIDAS DE POSIÇÃO As medidas de posição têm o propósito de avaliar os valores que ocupam as posições centrais de um rol de dados (CRESPO, 2017; SILVA; GRAMS; SILVEIRA, 2018). Para tornar mais clara a sua aplicação, sugerimos retornar no subtópico “2.5 Gráfico de Caixas ou Boxplot do Tópico 2” pois este integra todas as medidas de posição em uma representação gráfica. Na sequência, serão abordados a média arit- mética, mediana, moda e separatrizes como principais medidas de posição central. 2.1 MÉDIA ARITMÉTICA A média corresponde ao centro de um conjunto de dados. Como um dos principais tipos de média, a média aritmética considera a soma do conjunto de TÓPICO 3 — MEDIDAS DE POSIÇÃO 108 UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO dados de uma amostra ou variável pela divisão da soma da quantidade de dados do conjunto (ou número de casos). Para calcular a média aritmética utiliza-se a seguinte fórmula padrão: FIGURA 25 – FÓRMULA MÉDIA FONTE: Silva, Grams e Silveira (2018, p. 18) Em que: refere-se na média aritmética de um conjunto de dados; refere-se na soma do conjunto de dados de uma amostra; refere-se na quantidade de casos de uma amostra. Para aplicar esta fórmula, calcularemos a média de idade do conjunto de seis indivíduos: QUADRO 11 – IDADE DE ENTREVISTADOS Nome Idade_1 Frida 25 Maria 30 Joana 32 José 40 Luiz 25 Jessica 20 FONTE: Os autores Aplicando a fórmula: Média = (25 + 30 + 32 + 40 + 25 + 20) 6 Média = 28,67 anos Com esse resultado é possível interpretar que a idade média dos entrevis- tados é de 28 anos. Note que, ao passo que novos indivíduos forem adicionados na amostra, o valor da média vai se ajustando. Portanto, o valor da média aumen- ta quando inseridos indivíduos com idade acima de 29 anos, e abaixa quando a idade é inferior a 29 anos. TÓPICO 3 — MEDIDAS DE POSIÇÃO MEDIDAS DE POSIÇÃO 109 2.2 MEDIANA A mediana corresponde ao valor que se encontra na posição central de uma série ordenada de dados (CRESPO, 2017). Em outras palavras, “é uma me- dida de posição importante porque deixa 50% dos elementos da série abaixo do seu valor e 50% dos elementos da série acima do seu valor” (MARTINS; DOMIN- GUES, 2011, p. 72). O cálculo da mediana variará para número de casos quando ímpar e par. Para situações em que há um número ímpar de elementos, considera-se o elemen- to central; a fórmula a ser considerada é em que: n é o número de casos de um conjunto de dados (MARTINS; DOMINGUES, 2011). Por outro lado, para situações em que o número de elementos for par, en- tão, deve-se utilizar a média para obter o valor da mediana; neste caso, utiliza-se as fórmulas e + 1. Por fim, realiza-se a média dos dois valores (MARTINS; DOMINGUES, 2011). Para esclarecer a sua aplicabilidade, retomaremos os dados do Quadro 11: 25 30 32 40 25 20 O primeiro passo é ordenar os valores: 20 25 25 30 32 40 Na sequência, devido o número de casos ser par (n=6), aplica-se a fórmula e + 1 para cálculo da mediana. 1ª fórmula: 6 / 2 = 3ª posição. 2ª fórmula: 6 / 2 +1 = 4ª posição. 20 25 25 30 32 40 Por fim, calcule a média dos dois valores apontados como valores medianos. Dessa forma, (25 + 30 / 2) = 27,5. Portanto, para o exemplo supracitado, o valor da mediana corresponde a 27,5 anos. Agora, considerando a aplicação da fórmula com número de casos ímpar , suponha que os valores da amostra fossem os relatados abaixo. Qual é o valor da mediana? 20 25 30 32 40 Considerando que há cinco casos, então, o valor central seria o terceiro valor (5 + 1 / 2 = 3). Portanto, a mediana é de 30 anos de idade. 110 UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO 2.3 MODA Denomina-se moda “o valor que ocorre com maior frequência em uma série de valores” (CRESPO, 2017, p. 41). “É utilizada para destacar o elemento que mais se repete num conjunto de dados” (MARTINS; DOMINGUES, 2011, p. 48). Para esclarecer a sua aplicabilidade, retomaremos os dados do Quadro 11, já com os dados ordenados: 20 25 25 30 32 40 A moda correspondente no exemplo é de 25 anos de idade, pois é o valor que se repete em maior quantidade de vezes. Caso houvesse uma quantidade maior de dados, sugere-se a elaboração de uma tabela de frequência dos valores para verificar o valor que mais se repete ao longo de um conjunto de dados (MARTINS; DOMINGUES, 2011). 2.4 SEPARATRIZES Além das medidas de posição, há outras nomenclaturas importantes para a análise de um conjunto de dados. Essas medidas – quartis, percentis e decis – são conhecidas pelo nome genérico de separatrizes ou medidas de ordenação (CRESPO, 2017). As medidas de ordenação “são utilizadas para fazer cortes ordenados em uma série” visando obter informações de um conjunto de dados (MARTINS; DOMINGUES, 2011, p. 73). Essas medidas estão relacionadas com a mediana, uma vez que a mediana divide uma série em duas partes iguais (50% abaixo e 50% acima do seu valor). Veja essa representação na Figura 26: FIGURA 26 – MEDIANA FONTE: Martins e Domingues (2011, p. 41) Por sua vez, conforme apresenta Crespo (2017), os quartis, percentis e de- cis tem suas distinções como apresentado a seguir: TÓPICO 3 — MEDIDAS DE POSIÇÃO MEDIDAS DE POSIÇÃO 111 • Quartis: divide os valores de uma série em quatro partes iguais (quatro partes de 25% cada). FIGURA 27 – QUARTIS FONTE: Martins e Domingues (2011, p. 41) Há, portanto, três quartis: a) O primeiro quartil (Q1): valor situado em uma série de dados em que um quar- to dos valores (25%) é menor que ele e as demais três partes (75%) são maiores. b) O segundo quartil (Q2): coincide com a mediana (Q2 = Mediana). c) O terceiro quartil (Q3): valor situado em uma série de dados em que três quar- tos de um conjunto de valores (75%) são menores que ele, e uma quarta parte (25%) é maior. O cálculo da posição dos quartis é baseada nas fórmulas: FIGURA 28 – FÓRMULAS QUARTIS FONTE:<https://mixordiadeestatistica.weebly.com/uploads/2/9/0/5/29053731/656280. png?626>. Acesso em: 11 dez. 2019. Sendo: k o número do quartil. n o número de casos de uma amostra. 112 UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO O resultado dessas fórmulas apresentará a sua posição em uma série de da- dos, ok? Lembrando que as fórmulas se aplicam distintamente em situações onde o número de casos for par ou ímpar, assim como realizado no cálculo da mediana. • Decis: divide os valores de uma série em dez partes iguais (dez partes com 10 % cada). FIGURA 29 – DECIS FONTE: Martins e Domingues (2011, p. 41) O cálculo dos Decis é baseado na seguinte fórmula padrão: FIGURA 30 – FÓRMULA DECIS FONTE: Adaptado de Martins e Domingues (2011, p. 42) Em que: Di o número do decil. i o número desejado do decil. n o número de casos de uma amostra. O resultado dessas fórmulas apresentará a sua posição em uma série de dados • Percentil: divide os valores de uma série em cem partes iguais (cem partes com 1% cada). TÓPICO 3 — MEDIDAS DE POSIÇÃO MEDIDAS DE POSIÇÃO 113 FIGURA 31 – PERCENTIL FONTE: Martins e Domingues (2011, p. 42) O cálculo dos percentis é baseado na seguinte fórmula padrão: FIGURA 32 – FÓRMULA PERCENTIL FONTE: Adaptado de Martins e Domingues (2011, p. 42) Em que: Pi o número do percentil. i o número desejado do percentil. n o número de casos de uma amostra. O resultado destas fórmulas apresentará a sua posição em uma série de dados. Para facilitar a compreensão das técnicas de medidas de ordenação, vamos aplicá-las em uma situação real. Suponha que há duas bases de dados, em que uma vai de 1 a 99 (ímpar), e a outra de 1 a 100 (par). Cada número é apresentado apenas uma vez em cada base de dados. A seguir, são apresentadas perguntas e respostas como exemplo de aplicação dos conceitos acima expostos: a) Qual o primeiro quartil? Solução base ímpar (1-99) Solução base par (1-100) Q1 = (n + 1) / 4 Q1 = (99 + 1) / 4 Q1 = 25ª posição Q1 = (n + 2) / 4 Q1 = (100 + 2) / 4 Q1 = 25,5, ou seja, a média do valor correspondente entre a 25ª e 26ª posição 114 UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO b) Qual o segundo quartil (mediana)? Solução base ímpar (1-99) Solução base par (1-100) Q2 = (n + 1) / 2 Q2 = (99 + 1) / 2 Q2 = 50ª posição Q2 = n / 2 Q2 = 100 / 2 Q2 = 50ª posição c) Qual o terceiro quartil? Solução base ímpar (1-99) Solução base par (1-100) Q3 = 3 x [(n + 1) / 4] Q3 = 3 x [(99 + 1) / 4] Q3 = 3 x [25] Q3 = 75ª posição Q3 = (3n + 2) / 4 Q3 = (3 x 100 + 2) / 4 Q3 = 302 / 4 Q3 = 75,5, ou seja, a média do valor correspondente entre a 75ª e 76ª posição d) Qual o terceiro decil? Solução base ímpar (1-99) Solução base par (1-100) D3 = [i x (n + 1)] / 10] D3 = [3 x (99 + 1)] / 10] D3 = 300 / 10 D3 = 30ª posição D3 = [i x (n + 1)] / 10] D3 = [3 x (100 + 1)] / 10] D3 = 301 / 10 D3 = 30ª posição c) Qual o décimo quinto percentil? Solução base ímpar (1-99) Solução base par (1-100) P15 = (i x n) / 100 P15 = (15 x 99) / 100 P15 = 14,85 ou 15ª posição P15 = (i x n) / 100 P15 = (15 x 100) / 100 P15 = 15ª posição 3 ANÁLISE DE DADOS EM MS EXCEL Neste subtópico, abordaremos a aplicação dos conceitos de medida de posição no software MS Excel. Todo esse conteúdo foi visto nos tópicos anteriores, neste momento, você acompanhará a aplicação de tais fórmulas por meio do uso do software MS Excel. O MS Excel é um software amplamente utilizado para análises estatísticas, incluindo as análises de medidas de posição. A seguir, apresentaremos a aplicação dos conceitos a partir da seguinte série de dados: 5 10 15 20 25 30 35 40 45 50 TÓPICO 3 — MEDIDAS DE POSIÇÃO MEDIDAS DE POSIÇÃO 115 Por meio das fórmulas: • Mínimo: a fórmula utilizada para cálculo é =MINIMO(). Basta inseri-la em uma célula do MS Excel que desejar verificar o resultado. FIGURA 33 – CÁLCULO DO MÍNIMO NO MS EXCEL FONTE: Os autores • Primeiro quartil: a fórmula utilizada para cálculo é =QUARTIL(). Note que, para aplicar a fórmula, deve-se selecionar os dados da série, e na sequência informar o quartil desejado para cálculo (“1” neste caso). FIGURA 34 – CÁLCULO DO PRIMEIRO QUARTIL NO MS EXCEL FONTE: Os autores • Média aritmética: a fórmula utilizada para cálculo é =MÉDIA(). 116 UNIDADE 2 — DADOS, GRÁFICOS E MEDIDAS DE POSIÇÃO FIGURA 35 – CÁLCULO DA MÉDIA NO MS EXCEL FONTE: Os autores • Mediana (ou segundo quartil): a fórmula utilizada para cálculo é =MED(). FIGURA 36 – CÁLCULO DA MEDIANA NO MS EXCEL FONTE: Os autores • Terceiro quartil: a fórmula utilizada para cálculo é =QUARTIL(). Note que, para aplicar a fórmula, deve-se selecionar os dados da série, e na sequência informar o quartil desejado para cálculo (“3” neste caso). TÓPICO 3 — MEDIDAS DE POSIÇÃO MEDIDAS DE POSIÇÃO 117 FIGURA 37 – CÁLCULO DO TERCEIRO QUARTIL NO MS EXCEL FONTE: Os autores • Máximo: a fórmula utilizada para cálculo é =MAXIMO(). FIGURA 38 – CÁLCULO DO TERCEIRO QUARTIL NO MS EXCEL FONTE: Os autores Com a obtenção desses conceitos e aplicações, você estará apto para avan- çar seus estudos. Destacamos que esses conceitos e aplicações são fundamentais para os conceitos da próxima unidade, portanto, se necessário, volte algumas páginas para exercitar os conceitos de medidas de posição e análise gráfica, e suas aplicações. Bons estudos! 118 RESUMO DO TÓPICO 3 Neste tópico, você aprendeu que: • A média aritmética corresponde ao centro de um conjunto de dados. • A mediana corresponde ao valor que se encontra na posição central de uma série ordenada de dados. • A moda corresponde ao valor que ocorre com maior frequência em uma série de dados. • Os quartis são quatro partes iguais de um conjunto de dados. O primeiro quar- til refere-se a um valor superior, apenas 25% dos dados, enquanto a mediana corresponde aos 50% (segundo quartil), e o terceiro quartil revela um dado superior a 75% dos dados, porém abaixo de 25% dos valores. • Os decis correspondem a décima parte de um conjunto de dados, enquanto os percentis referem-se na centésima parte de um conjunto de dados. • Por fim, foram apresentadas fórmulas de cálculo no software MS Excel como meio para agilizar o processo de análise de medidas de posição. Ficou alguma dúvida? Construímos uma trilha de aprendizagem pensando em facilitar sua compreensão. Acesse o QR Code, que levará ao AVA, e veja as novidades que preparamos para seu estudo. CHAMADA 119 1 Qual é o conceito de média? a) ( ) É o centro de um conjunto de dados. b) ( ) É a posição central de um conjunto de dados. c) ( ) É o número que se repete com maior frequência. d) ( ) Corresponde ao valor superior a 75% dos dados. 2 Qual é o conceito de mediana? a) ( ) É o centro de um conjunto de dados. b) ( ) É a posição central de um conjunto de dados. c) ( ) É o número que se repete com maior frequência. d) ( ) Corresponde ao valor superior a 75% dos dados. 3 Qual é o conceito de moda? a) ( ) É o centro de um conjunto de dados. b) ( ) É a posição central de um conjunto de dados. c) ( ) É o número que se repete com maior frequência. d) ( ) Corresponde ao valor superior a 75% dos dados. 4 Qual é o conceito de terceiro quartil? a) ( ) É o centro de um conjunto de dados. b) ( ) É a posição central de um conjunto de dados. c) ( ) É o número que se repete com maior frequência. d) ( ) Corresponde ao valor superior a 75% dos dados. 5 Considere a seguinte série de dados 1, 2, 3, 4 e 5. Classifique V para as sentenças verdadeiras e F para as falsas: ( ) a média é 2. ( ) a mediana é 3. ( ) a moda é 5. ( ) o primeiro quartil é 1,5. Assinale a alternativa CORRETA: a) ( ) F – F – V – V. b) ( ) V – F – V – F. c) ( ) F – V – F – V. d) ( ) V – V – F – F. AUTOATIVIDADE 120 6 Considere a seguinte série de dados 1, 2, 3, 4 e 5. Classifique V para as sentenças verdadeiras e F para as falsas: ( ) A média é 3. ( ) A mediana é3. ( ) A moda é 1. ( ) O terceiro quartil é 1,5. Assinale a alternativa CORRETA: a) ( ) F – F – V – V. b) ( ) V – F – V – F. c) ( ) F – V – F – V. d) ( ) V – V – F – F. 7 Com relação às medidas de posição e ordenação, associe as assertivas a seguir: a) Média. b) Mediana. c) Moda. d) Primeiro quartil. ( ) Corresponde ao valor superior a 25% dos dados. ( ) É o centro de um conjunto de dados. ( ) É a posição central de um conjunto de dados. ( ) É o número que se repete com maior frequência. Assinale a alternativa CORRETA: a) ( ) a – b – c – d. b) ( ) b – d – a – c. c) ( ) b – c – a – d. d) ( ) d – a – b – c. 8 Com relação às medidas de ordenação, associe as assertivas a seguir: a) Primeiro quartil. b) Terceiro quartil. c) Decil. d) Percentil. ( ) corresponde ao valor superior a 75% dos dados. ( ) representa as noventa e nove partes que dividem uma série em 100 partes iguais. ( ) corresponde ao valor superior a 25% dos dados. ( ) representa as nove partes que dividem uma série em 10 partes iguais. 121 Assinale a alternativa CORRETA: a) ( ) a – b – c – d. b) ( ) b – d – a – c. c) ( ) b – c – a – d. d) ( ) d – a – b – c. 9 Qual o conceito de decil? a) ( ) Representa as dez partes que dividem uma série em 9 partes iguais. b) ( ) Representa as nove partes que dividem uma série em 10 partes iguais. c) ( ) Representa as noventa e nove partes que dividem uma série em 100 partes iguais. d) ( ) Representa uma parte da fração 9/9. 10 Qual é o conceito de percentil? a) ( ) Representa as cem partes que dividem uma série em cem partes iguais. b) ( ) Representa a fração 99/99. c) ( ) Representa as noventa e nove partes que dividem uma série em 100 partes iguais. d) ( ) Representa as nove partes que dividem uma série em 10 partes iguais. 122 123 UNIDADE 3 — MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO OBJETIVOS DE APRENDIZAGEM A partir do estudo desta unidade, você deverá ser capaz de: • conhecer as medidas de dispersão; • entender sobre amplitude, variância e desvio padrão; • aprender a distribuição dos dados; • conhecer a relação entre as variáveis; • compreender a diferença de correlação linear e não linear; • analisar a correlação com ajuda do Excel; • aprender sobre os métodos de regressão; • entender os conceitos de regressão linear; • descobrir a regressão múltipla; • entender a regressão linear com o Excel. 124 PLANO DE ESTUDOS Esta unidade está dividida em três tópicos. No decorrer da unidade você encontrará autoatividades com o objetivo de reforçar o conteúdo apresentado. TÓPICO 1 – MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE TÓPICO 2 – CORRELAÇÃO TÓPICO 3 – REGRESSÃO LINEAR TÓPICO 4 – REGRESSÃO MÚLTIPLA Preparado para ampliar seus conhecimentos? Respire e vamos em frente! Procure um ambiente que facilite a concentração, assim absorverá melhor as informações. CHAMADA 125 UNIDADE 3 1 INTRODUÇÃO Na Unidade 2, nós vimos sobre as medidas de posição média, mediana, moda, entre outras. Essas medidas descrevem apenas uma das características dos valores numéricos de um conjunto de observações. Não se consegue com nenhuma delas a informação sobre qual é o grau de variação ou dispersão dos valores observados. Nesse sentido, entra as medidas de dispersão que servem para avaliar o quanto os dados são semelhantes e descrever então o quão distantes estão esses dados do valor central. As medidas de tendência central que vimos na Unidade 2 são utilizadas para representar todos os números de uma lista. Já as medidas de dispersão são aplicadas para determinar o grau de variação dos números de uma lista em relação à média. As medidas de dispersão analisam a distância dos números de um conjunto de dados até a média desse conjunto. São elas: amplitude, variância e desvio padrão (SILVA, 2020). A seguir, conheceremos as medidas de dispersão. 2 MEDIDAS DE DISPERSÃO Você deve estar pensando: mas qual a necessidade de aprendermos as medidas de dispersão? Daremos um exemplo para ficar mais claro. Imagine que em determinada disciplina foram feitas quatro provas e um aluno foi aprovado com média 5. Há várias maneiras de se chegar à média 5. O aluno poderia ter obtido qualquer uma das seguintes combinações (ou outras) de notas: a) 5; 5; 5; 5. b) 10; 6; 4; 0. c) 0; 0; 10; 10. Observando as possibilidades mostradas aqui, um professor poderia dizer: • Se o aluno obteve apenas nota 5, parece que estuda só para ser aprovado. • Se o aluno obteve notas 10; 6; 4; 0, mostra que pode ter excelente desempenho, mas, aparentemente, abandonou os estudos. TÓPICO 1 — MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO 126 • É estranho um aluno ter notas 0; 0; 10; 10. É razoável ter uma conversa com ele. O conhecimento sobre a variabilidade dos dados complementa a informação dada pela média. Quaisquer que tenham sido as notas – com média 5 –, o aluno foi aprovado. No entanto, é a variabilidade das notas que ajuda o professor a formar uma opinião sobre o comportamento do aluno (VIEIRA, 2019). A partir deste tópico, serão descritas medidas de dispersão: amplitude, variância, desvio-padrão. 2.1 AMPLITUDE A amplitude de um conjunto, em Estatística, é a diferença entre o maior elemento desse conjunto e o menor. Em outras palavras, para encontrar a amplitude de uma lista de números, basta subtrair o menor elemento do maior elemento (SILVA, 2020). A amplitude é a medida de dispersão mais fácil de ser calculada e – por conta disso – mais utilizada. Representaremos amplitude por R (VIEIRA, 2019). Veja um exemplo: imagine que 10 alunos fizeram uma prova com 50 questões. Os números de respostas corretas, por aluno, foram respectivamente: 31; 27; 42; 35; 47; 28; 7; 45; 15; 20 A média é: Nesse caso, olhando para os valores anteriores, conseguimos identificar o maior número de acertos que no caso é 47, bem como também conseguimos iden- tificar o menor número de acertos que é 7. Com esses dois dados conseguimos calcular a amplitude. A amplitude é: R = 47 - 7 = 40 Nesse exemplo, quando calculamos a média e a amplitude temos uma visão de como esses dados estão distribuídos. Se um aluno que fez a prova sabe o seu número de acertos, facilmente identificará sua posição no grupo: acima da média, no topo da lista, no fim da fila etc. TÓPICO 1 – MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE 127 FIGURA 1 – POSICIONAMENTO DE MÉDIA EM RELAÇÃO A AMPLITUDE FONTE: Vieira (2019, p. 139) Não basta, porém, calcular a amplitude para bem descrever a variabilidade de um conjunto de dados. No cálculo da amplitude, são usados apenas os valores extremos (máximo e mínimo). Como os demais dados não são considerados, a amplitude pode dar ideia errada sobre a dispersão desses dados (VIEIRA, 2019). Se tivermos um grupo de pessoas com idades diferentes conforme segue: 4; 3; 4; 3; 4; 3; 21 Podemos calcular a média e a amplitude, note que faremos isso da mesma forma como fizemos nos cálculos das notas primeiramente calculamos a média somando todos os valores (4+3+4+3+4+3+21) e dividindo pela quantidade de ele- mentos disponíveis, no caso 7. Para calcular a amplitude verificamos o maior valor, no caso a maior ida- de que aqui é representada pelo número 21, ou seja, 21 anos e a menor idade que aqui é representada pelo número 3, isto é, 3 anos. A Figura 2 nos mostra como calculamos a média e a amplitude desses dados. FIGURA 2 – MÉDIA E AMPLITUDE FONTE: Vieira (2019, p. 140) Olhando apenas a média (6 anos) e a amplitude (18 anos), qualquer pes- soa diria que os dados são muito variáveis. Contudo, verifique a figura a seguir que apresenta os valores observados sobre um eixo. Os pontos estão concentra- dos em dois valores, 3 e 4, e há apenas um valor, 21, muito distante deles. Esse valor os estatísticos chamam de discrepante. UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO 128 FIGURA 3 – IDADES SOBRE UM EIXOFONTE: Vieira (2019, p. 141) O valor discrepante “puxa” a média para cima e torna a amplitude muito grande. No caso do exemplo, uma explicação para o dado discrepante poderia ser, por exemplo, que, para estudar as idades dos alunos de uma pré-escola, al- guém coletou a idade da professora também – o que estaria, evidentemente, er- rado. De qualquer modo, a probabilidade de ocorrer um valor discrepante é alta nas amostras muito grandes. NOTA Amplitude é a diferença entre o valor máximo e o valor mínimo de um con- junto de dados. 2.2 VARIÂNCIA Digamos que você necessite medir a variabilidade ou dispersão dos da- dos, mas somente com a amplitude não conseguiu uma resposta confiável, para isso é possível fazer o cálculo da variância. Quando temos um conjunto de dados a variância é uma medida de dispersão que mostra o quão distante cada valor desse conjunto está do valor central, ou seja, da média. Quanto menor for a variância mais próximos os valores estão da média, mas quanto maior ela é, mais os valores estão distantes da média (RIBEIRO, 2020). Consi- dere um conjunto de dados que vai de x1 até um número qualquer, o qual chamamos de xn. Perceba que x1, x2, …, xn são os n elementos de uma amostra em que x é a média aritmética desses elementos. O cálculo da variância amostral é dado por: TÓPICO 1 – MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE 129 Var. amostral = (x1 – x)² + (x2 – x)² + (x3 – x)² + ... + (xn – x)² ___________________________________ n – 1 Ou Se quisermos calcular a variância populacional, consideraremos todos os elementos da população, e não apenas de uma amostra. Nesse caso, o cálculo possui uma pequena diferença. Observe: Var. populacional = (x1 – x)² + (x2 – x)² + (x3 – x)² + ... + (xn – x)² _______________________________________ n Ou IMPORTANTE A única diferença que se têm na fórmula do cálculo da variância amostral, é que nesse caso a divisão é feita pelo (número de elementos – 1), ou, (n -1). Já na variância populacional a divisão é feita somente pelo (número de elementos). Fique sempre atento ao que é solicitado no enunciado, se é amostral ou populacional. Um exemplo, apresentado por Vieira (2019), ajuda a entender essa defi- nição: se um jogador de basquete tiver estatura x = 1,92 m e a média de estatura dos jogadores de seu time for x = 1,82 m, o desvio da estatura desse jogador em relação à média do time é: UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO 130 FIGURA 4 – DESVIO EM RELAÇÃO À MÉDIA FONTE: Vieira (2019, p. 142) Os desvios em relação à média medem a variabilidade dos dados. Quanto maiores os desvios, maior é a variabilidade dos dados. No entanto, para julgar o grau de variabilidade de todo o conjunto, é preciso uma só medida. Não podemos usar a média dos desvios como medida de dispersão porque a soma dos desvios é, necessariamente, igual a zero. Voltamos ao exemplo: se os jogadores tiverem estaturas 1,92; 1,72; 1,82; 1,80; 1,84, a média será: FIGURA 5 – MÉDIA DA ESTATURA DOS JOGADORES FONTE: Vieira (2019, p. 142) Os desvios em relação à média são: FIGURA 6 – DESVIO EM RELAÇÃO À MÉDIA DOS JOGADORES FONTE: Vieira (2019, p. 142) Verifique que a soma dos desvios é igual a zero: TÓPICO 1 – MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE 131 FIGURA 7 – SOMA DOS DESVIOS EM RELAÇÃO A MÉDIA DOS JOGADORES FONTE: Vieira (2019, p. 142) Isso não ocorre apenas em alguns exemplos, mas sempre. A soma dos desvios é igual a zero porque valores com sinal positivo anulam valores com sinal negativo. Então os desvios em torno da média têm soma igual a zero. Para evitar os sinais negativos, elevamos todos os desvios ao quadrado e usamos, como medida da variabilidade, a soma dos quadrados dos desvios. Ok, mas como fazemos isso? Vamos continuar no exemplo que Vieira (2019): A Tabela 1 mostra o procedimento para obter a soma dos quadrados dos desvios: primeiramente, devemos achar os desvios; verificar se a soma deles é zero (é só uma prova); calcule o quadrado de cada desvio; depois somamos os quadrados dos desvios. TABELA 1 – NÚMERO DO JOGADOR, ESTATURA, DESVIO EM RELAÇÃO À MÉDIA, QUADRADO DO DESVIO FONTE: Vieira (2019, p. 143) Para medir a variabilidade dos desvios em torno da média calculamos a variância. Para entender como se calcula a variância, reveja a Tabela 1 em que estão as estaturas (x) dos jogadores de um time de basquete, em metros, os desvios em relação à média x – x, e os quadrados dos desvios em relação à média, (x – x)2. Na última linha da tabela, estão a soma dos desvios e a soma dos quadrados dos desvios. Para obter a variância, basta calcular: UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO 132 FIGURA 8 – CÁLCULO DA VARIÂNCIA AMOSTRAL REPRESENTADA PELO ( ) FONTE: Vieira (2019, p. 143) Entendendo agora o que é variância e como é calculada, veremos o desvio padrão. 2.3 DESVIO PADRÃO A unidade e a magnitude da variância não correspondem à unidade e à magnitude dos dados. Quando isso acontece precisamos do desvio padrão. Isso está parecendo um pouco confuso, não é? Para entender essa ideia, continuaremos com o exemplo de Vieira (2019). Imagine que um professor registrou o tempo em que três alunos fizeram uma prova: o primeiro fez a prova em 40 minutos, o segundo em 45 e o terceiro em 50 (VIEIRA, 2019). A Figura 9 nos mostra a média e a variância FIGURA 9 – MÉDIA E VARIÂNCIA FONTE: Vieira (2019, p. 144) Esses resultados permitem afirmar que os alunos demoraram, em média, 45 minutos para fazer a prova, com variância de 25 minutos ao quadrado. Ora, “minutos ao quadrado” não têm qualquer sentido prático, mas essa unidade apa- receu porque elevamos os desvios ao quadrado. Não é, porém, difícil retornar à unidade original (minuto): é só calcular a raiz quadrada da variância. Você obtém o desvio-padrão, uma medida de TÓPICO 1 – MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE 133 variabilidade com a mesma unidade de medida dos dados (VIEIRA, 2019). No exemplo, os alunos demoraram, em média, 45 minutos para fazer a prova. O desvio-padrão é mostrado na Figura 10. FIGURA 10 – DESVIO PADRÃO DO TEMPO MÉDIO PARA FAZER A PROVA FONTE: Vieira (2019, p. 144) Dessa forma, conseguimos entender que o tempo médio para se fazer a prova medido pelo professor foi de 45 minutos com um desvio padrão de 5 mi- nutos. Ok, mas o que isso significa? Significa que o tempo médio para se fazer essa prova é de 45 minutos sen- do que todos os que fizeram a prova realizaram em um tempo não diferente de 5 minutos desse tempo, isto é, no exemplo que estudamos ninguém fez a prova em menos de 40 minutos, bem como, também, ninguém demorou mais do que 50 minutos para realizá-la. NOTA O desvio padrão é a raiz quadrada da variância. 5 ASSIMETRIA É o grau de desvio ou afastamento da simetria de uma distribuição. Quan- do a curva é simétrica, a média, a mediana e a moda coincidem, num mesmo ponto, havendo um perfeito equilíbrio na distribuição. Quando o equilíbrio não acontece, isto é, a média, a mediana e a moda recaem em pontos diferentes da distribuição esta será assimétrica; enviesada a direita ou esquerda (FONSECA, 2012). O coeficiente de assimetria permite distinguir as distribuições assimétricas. Um valor negativo indica que a cauda do lado esquerdo da função densidade de pro- babilidade é maior que a do lado direito. Um valor positivo para a assimetria indica que a cauda do lado direito é maior que a do lado esquerdo. Um valor nulo indica que os valores são distribuídos de maneira relativamente iguais em ambos os lados da média, mas não implica necessariamente, uma distribuição simétrica (PARENTI, 2017). UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO 134 Veremos isso por meio de figuras para que fique mais claro o entendimen- to. Na Figura 11 temos uma assimetria nula, isto é, a média é igual a modaque é igual a mediana. FIGURA 11 – MÉDIA = MODA = MEDIANA FONTE: Fonseca (2012, p. 148) Já na Figura 12 temos o que se chama de assimetria positiva, isto é, quando a curva da distribuição declina para a direita. FIGURA 12 – ASSIMETRIA POSITIVA FONTE: Fonseca (2012, p. 148) Ainda pode acontecer conforme mostrado na Figura 13, a assimetria ne- gativa, quando a curva da distribuição se declina para a esquerda. FIGURA 13 – ASSIMETRIA NEGATIVA FONTE: Fonseca (2012, p. 148) TÓPICO 1 – MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE 135 6 CURTOSE Quando analisamos a curtose estamos verificando apenas o grau de acha- tamento da curva de uma distribuição de dados. Curtose é o menor ou maior grau de “achatamento” da distribuição ou curva de frequência considerada em relação a uma curva normal representativa da distribuição (PARENTI, 2017). Muito embora seja comum explicar a curtose como o “grau de achata- mento” de uma distribuição de frequências, o que as medidas de curtose buscam indicar realmente é o grau de concentração de valores da distribuição em torno do centro desta distribuição. Numa distribuição uni modal, quanto maior for a concentração de valores em torno do centro dela mesma, maior será o valor da sua curtose. Graficamente, isso será associado a uma curva com a parte central mais afilada, mostrando um pico de frequência simples mais destacado, mais pontiagudo, caracterizando a moda da distribuição de forma mais nítida. Segundo Fonseca (2012), uma distribuição nem chata nem delgada (fina e verticalizada) se chama Mesocúrtica, já uma distribuição delgada se chama Lepto- cúrtica e uma distribuição achatada se chama Platicúrtica. A distribuição Leptocúr- tica apresenta uma curva de frequências mais fechada que a distribuição normal. A Figura 14 demonstra uma distribuição Leptocúrtica. FIGURA 14 – DISTRIBUIÇÃO LEPTOCÚRTICA FONTE: Fonseca (2012, p. 152) A distribuição Mesocúrtica apresenta uma curva de frequências idêntica à da distribuição normal. A Figura 15 demonstra uma distribuição Mesocúrtica. UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO 136 FIGURA 15 – DISTRIBUIÇÃO MESOCÚRTICA FONTE: Fonseca (2012, p. 153) A distribuição Platicúrtica apresenta uma curva de frequências mais aberta que a da distribuição Normal. A Figura 16 demonstra uma distribuição Platicúrtica. FIGURA 16 – DISTRIBUIÇÃO PLATICÚRTICA FONTE: Fonseca (2012, p. 153) Portanto, uma distribuição de frequências é: • Mesocúrtica: quando apresenta uma medida de curtose igual à da distribuição normal. • Platicúrtica: quando apresenta uma medida de curtose menor que a da distri- buição normal. • Leptocúrtica: quando apresenta uma medida de curtose maior que a da distri- buição normal. Após vermos as medidas de dispersão, os tipos de assimetria e os tipos de curtose, passaremos para o próximo tópico que é a correlação. Se você quiser entender um pouco mais sobre curtose, assista ao vídeo Cur- tose Estatística, no link: https://www.youtube.com/watch?v=fVKo7KtBgew. DICAS 137 Neste tópico, você aprendeu que: • Precisamos, além das medidas de posição, as medidas de dispersão para saber- mos a variação dos dados em relação à média. • Somente com as medidas de posição não conseguimos tirar conclusões sobre diversas possibilidades. • A amplitude que é a diferença entre o maior e o menor elemento em um con- junto de dados. • Para que se consiga medir a variabilidade ou dispersão dos dados, somente a amplitude não é suficiente. • A variância é uma medida de dispersão que mostra o quão distante cada valor de um conjunto de dados estão da média. • A diferença entre variância populacional e amostral. • Quando não conseguimos ter uma unidade e magnitude da variância corres- pondendo com à unidade e magnitude dos dados, utilizamos o desvio padrão. • A assimetria é o grau ou afastamento da simetria de uma distribuição. • Curtose é o menor grau de achatamento de uma distribuição. RESUMO DO TÓPICO 1 138 1 Já conhecemos as medidas de posição ou de tendência central. No entanto, se quisermos medir a dispersão dos dados em relação à média, precisamos de quais medidas? Assinale a alternativa CORRETA. a) ( ) Precisamos das medianas. b) ( ) Precisamos da moda. c) ( ) Precisamos das medidas de dispersão. d) ( ) Precisamos das medidas dos dados. 2 O que é amplitude? Assinale a alternativa CORRETA. a) ( ) É a diferença entre o maior elemento e o menor em um conjunto de dados. b) ( ) É a diferença entre a maior e menor distribuição dos dados. c) ( ) É a soma do menor e do maior elemento em um conjunto de dados. d) ( ) É a multiplicação de todos os dados da pesquisa. 3 Observando o conjunto de dados (3;5;12;2;8;9;15;1;6), calcule qual sua am- plitude? Assinale a alternativa CORRETA. a) ( ) 1. b) ( ) 7. c) ( ) 14. d) ( ) 20. 4 Se necessitarmos medir a variabilidade de um conjunto de dados e não conseguimos essa informação somente calculando a amplitude. O que po- demos usar? Assinale a alternativa CORRETA. a) ( ) A média. b) ( ) A mediana. c) ( ) A moda. d) ( ) A variância. 5 Se precisarmos calcular a variância populacional, o que devemos levar em conta? Assinale a alternativa CORRETA. a) ( ) Todos os elementos da população. b) ( ) Todos os dados disponíveis. c) ( ) Uma amostra da população. d) ( ) Os primeiros cinco elementos da população. AUTOATIVIDADE 139 6 Quando temos a média, a moda e a mediana iguais, temos que tipo de assi- metria? Assinale a alternativa CORRETA. a) ( ) Assimetria leve. b) ( ) Assimetria moderada. c) ( ) Assimetria nula. d) ( ) Assimetria poderosa. 7 Quando a curva da distribuição declina para a direita, temos que tipo de assimetria? Assinale a alternativa CORRETA. a) ( ) Assimetria positiva. b) ( ) Assimetria moderada. c) ( ) Assimetria nula. d) ( ) Assimetria negativa. 8 Quando a curva da distribuição declina para a esquerda, temos que tipo de assimetria? Assinale a alternativa CORRETA. a) ( ) Assimetria positiva. b) ( ) Assimetria moderada. c) ( ) Assimetria nula. d) ( ) Assimetria negativa. 9 O que é curtose? Assinale a alternativa CORRETA. a) ( ) Curtose é o menor ou maior grau de “achatamento” da distribuição. b) ( ) Curtose é o menor ou melhor grau de “achatamento” da distribuição. c) ( ) Curtose é o pior ou maior grau de “achatamento” da distribuição. d) ( ) Curtose é o pior ou melhor grau de “achatamento” da distribuição. 10 Fazendo uma relação entre uma distribuição Mesocúrtica e a curva da dis- tribuição normal o que conseguimos identificar? a) ( ) Que ela é parecida em relação à distribuição normal. b) ( ) Que ela é idêntica em relação à distribuição normal. c) ( ) Que ela negativa em relação à distribuição normal. d) ( ) Que ela é positiva em relação à distribuição normal. 140 141 UNIDADE 3 1 INTRODUÇÃO Em diversas investigações, deseja-se avaliar a relação entre duas medidas quantitativas. Por exemplo, estão as alturas de filhos relacionadas com as alturas dos seus pais? Está o aumento de peso relacionado com a idade da pessoa? É bastante comum investigar a existência de relação entre as variáveis en- volvidas para saber com precisão o quanto as alterações nos resultados de uma variável podem estar associadas à transformação nos resultados de outras variá- veis. Isso faz parte do dia a dia das empresas e do mundo acadêmico. Nesse tipo de investigação, podem ser usadas técnicas de análise de cor- relação e análise de regressão. Com a primeira, investiga-se a possibilidade de existência de associação, bem como seu sentido (direto ou inverso) e intensidade, enquanto, com a segunda, o relacionamento é descrito por meio de uma expres- são matemática. No Tópico 2, desta unidade, entenderemos um pouco melhor a correlação e, nos Tópicos 3 e 4, falaremos da regressão. Vamos lá? 2 ENTENDENDO O SIGNIFICADO DE CORRELAÇÃO Correlação significa uma semelhança ou relação entre duas coisas, pessoas ou ideias. É uma semelhança ou equivalência que existe entre duas hipóteses, situações ou objetos diferentes.Quando estamos no campo da estatística e da matemática a correlação se refere a uma medida entre duas ou mais variáveis que se relacionam. Segundo Mattos, Azambuja e Konrath (2017), o termo correlação significa relação nos dois sentidos e é utilizado na estatística para indicar a força que mantém unido dois conjuntos de valores. A constatação da existência e do grau de relação entre as variáveis é parte do estudo da correlação. Entretanto, essas técnicas avaliam apenas a possibilidade de existência de uma associação numérica entre os dados, não implicando uma relação de causa e efeito. Os métodos pertinentes à análise de correlação representam uma ferramenta essencial nas mais diversas áreas do conhecimento (MATTOS; AZAMBUJA; KONRATH, 2017). TÓPICO 2 — CORRELAÇÃO 142 UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO Antes de continuarmos, é importante escrever que a palavra correlação também pode ser encontrada em diversos materiais pelos seus sinônimos alguns deles são: relação, equiparação, nexo, correspondência, analogia e conexão. Sempre que se deparar com algumas dessas palavras verifique o contexto da frase. Enten- dida essa parte podemos ir para o próximo subtópico, o diagrama de dispersão. 3 DIAGRAMA DE DISPERSÃO O diagrama de dispersão ou também conhecido como gráfico de dispersão serve para avaliar a existência de correlação entre duas variáveis ou até mesmo verificar se ela pode ser linear ou não, e ainda ter uma ideia de sua intensidade e sentido. É possível recorrer a uma representação gráfica muito simples: os pares de observações das duas variáveis são plotados num diagrama cartesiano chamado “diagrama de dispersão” (MATTOS; AZAMBUJA; KONRATH, 2017). O gráfico de dispersão utiliza-se de coordenadas cartesianas para exibir va- lores de um conjunto de dados. Os dados são exibidos como uma coleção de pontos. Cada ponto determina o valor de uma variável, bem como sua posição no eixo hori- zontal junto com outra variável e sua posição no eixo vertical (PEREIRA, 2019). O diagrama de dispersão é construído em um sistema de eixos cartesianos, em que o eixo horizontal é o eixo da variável x e o eixo vertical é o eixo da variável y, e no qual cada dado (x, y) corresponde a um ponto (AKAMINE; YAMAMOTO, 2013). Segundo Pereira (2019), o gráfico de dispersão (XY) mostra a correlação entre duas variáveis, uma com os valores colocados em X e outra com os valores colocados em Y. Esse tipo de gráfico é usado quando se quer observar se existe alguma correlação entre duas variáveis. Por exemplo, quando se quer demonstrar que as vendas de sorvete aumentam no verão, ou então que as vendas de casaco aumentam no inverno. Nesse caso quanto mais calor faz (variável Y), maior a venda de sorvetes (variável X). Quanto mais frio faz (variável Y), maior a venda de casacos (variável X). O Gráfico 1 nos mostra um exemplo de diagrama de dispersão feito por meio das coordenadas cartesianas X e Y. TÓPICO 2 — CORRELAÇÃO 143 GRÁFICO 1 – DIAGRAMA DE DISPERSÃO FONTE: Fonseca (2012, p. 159) Conforme demonstrado no Gráfico 1. O Diagrama de Dispersão é uma ferramenta estatística que permite identificar, por meio de análises visuais gráficas, a possível relação existente entre duas variáveis quantitativas distintas. Por meio de coordenadas cartesianas, no qual o conjunto de dados são dispersos, pode- se verificar o grau de influência que uma variável dependente “X” influência a independente “Y”, ambas relacionadas a uma ou mais causas e efeitos em comum. Segundo Mattos, Azambuja e Konrath (2017), o gráfico de dispersão dá uma boa ideia de como as duas variáveis se relacionam. Para que entendamos melhor, vamos a um exemplo: queremos saber se existe alguma relação entre a idade e o tempo que a pessoa fica na frente de aparelhos eletrônicos diariamente. Primeiramente, precisamos fazer uma coleta de dados e colocarmos em uma tabela como aprendemos nas Unidades 1 e 2. Coletamos informações de dez indivíduos conforme demonstrados na Tabela 2. 144 UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO TABELA 2 – IDADE E TEMPO DE PERMANÊNCIA DIÁRIA EM FRENTE DE APARELHOS ELETRÔNICOS FONTE: Mattos, Azambuja e Konrath (2017, p. 175) Colocando os dados da tabela no diagrama de dispersão conseguimos visu- alizar como se dá a relação entre as variáveis, como podemos verificar no Gráfico 2. GRÁFICO 2 – Diagrama de dispersão Idade e tempo de permanência diário em frente de apare- lhos eletrônicos FONTE: Mattos, Azambuja e Konrath (2017, p. 175) Olhando para o diagrama, conseguimos identificar que quanto menor a idade maior o tempo de permanência em frente aos aparelhos eletrônicos. TÓPICO 2 — CORRELAÇÃO 145 4 TIPOS DE CORRELAÇÃO Como vimos anteriormente, o diagrama ou gráfico de dispersão mostra se existe correlação entre duas variáveis, o sentido desse relacionamento e se esse é linear ou não linear. Embora esse diagrama forneça uma ideia do relacionamento entre duas variáveis x e y, é interessante medir sua intensidade quantitativamente, o que pode ser feito por um coeficiente que expresse o grau de associação entre as variáveis (MATTOS; AZAMBUJA; KONRATH, 2017). A seguir, daremos uma olhada nos tipos de correlação. 4.1 CORRELAÇÃO POSITIVA Este tipo de correlação acontece quando há uma tendência crescente entre os pontos. Conforme uma variável aumenta, a outra variável também aumenta proporcionalmente. Uma correlação linear será considerada positiva se os valores crescentes que estiverem no eixo x estiverem associados aos valores crescentes no eixo y de forma linear, ou seja, se o coeficiente de correlação for maior que 0 e menor que 1. Escreve-se dessa forma: (0 < r < 1). Verificaremos, na Figura 17, como é uma correlação positiva. FIGURA 17 – CORRELAÇÃO LINEAR POSITIVA FONTE: EDTI (2020, s.p.) Na Figura 17, pode-se notar que quanto mais o coeficiente de correlação se aproxima de zero, mais forte essa correlação se torna. Nesse sentido, dizemos que quando temos um coeficiente de correlação ( r ) = 1,00 temos uma correlação positiva perfeita. Quando o coeficiente de correlação for de 0,75 até 0,99, a correlação positiva será forte. Quanto o coeficiente de correlação estiver entre 0,50 e 0,74 a correlação positiva é considerada média. 146 UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO Quando o coeficiente estiver de 0,25 até 0,49 a correlação positiva é considerada fraca. Abaixo de 0,25 a correlação é considerada muito fraca, chegando ao zero não existe correlação. TABELA 3 – TIPOS DE CORRELAÇÃO POSITIVA EM RELAÇÃO AOS SEUS COEFICIENTES Coeficientes de Correlação (r) Tipos de Correlação 1,00 Correlação Positiva Perfeita. 0,75 até 0,99 Correlação Positiva Forte. 0,50 até 0,74 Correlação Positiva Média. 0,25 até 0,49 Correlação Positiva Fraca. Abaixo de 0,25 Correlação Positiva Muito Fraca. 0 Não existe correlação/Correlação Nula. FONTE: Os autores 4.2 CORRELAÇÃO LINEAR NEGATIVA De modo contrário à correlação positiva, este tipo de correlação acontece quando há uma tendência decrescente entre os pontos. Conforme uma variável aumenta, a outra variável diminui proporcionalmente. Uma correlação linear será considerada negativa quando os valores crescentes da variável x estiverem associados a valores decrescentes da variável y ou valores decrescentes de x associados a valores crescentes de y. É considerada negativa quando o coeficiente de correlação estiver entre – 1 e zero, ou seja, (- 1 < r < 0). Verificaremos, na Figura 18, como é uma correlação negativa. FIGURA 18 – CORRELAÇÃO LINEAR NEGATIVA FONTE: EDTI (2020, s.p.) Na Figura 18, pode-se notar que quanto mais o coeficiente de correlação se aproxima de zero, mais forte essa correlação se torna, só que no sentido inverso da correlação positiva. TÓPICO 2 — CORRELAÇÃO 147 Nesse sentido, dizemos que quando temos um coeficiente de correlação ( r ) = - 1,00, temos uma correlação negativa perfeita. Quando o coeficiente de correlaçãofor de - 0,75 até – 0,99, a correlação negativa será forte. Quanto o coeficiente de correlação estiver entre - 0,50 e - 0,74, a correlação negativa é considerada média. Quando o coeficiente estiver de - 0,25 até - 0,49, a correlação negativa é considerada fraca. Abaixo de - 0,25 a correlação é negativa muito fraca, chegando ao zero não existe correlação. TABELA 4 – TIPOS DE CORRELAÇÃO NEGATIVA EM RELAÇÃO AOS SEUS COEFICIENTES Coeficientes de Correlação (r) Tipos de Correlação - 1,00 Correlação Negativa Perfeita. - 0,75 até - 0,99 Correlação Negativa Forte. - 0,50 até - 0,74 Correlação Negativa Média. - 0,25 até - 0,49 Correlação Negativa Fraca. Abaixo de - 0,25 Correlação Negativa Muito Fraca. 0 Não existe correlação/Correlação Nula. FONTE: Os autores 4.3 CORRELAÇÃO NÃO LINEAR E CORRELAÇÃO NULA A correlação não linear ocorre quando parece existir relação entre as vari- áveis x e y, e essa relação se dá em um formato tipo curva. O Gráfico 3 nos mostra uma correlação não linear. GRÁFICO 3 – CORRELAÇÃO NÃO LINEAR FONTE: EDTI (2020, s.p.) Na correlação não linear conforme demonstrada no Gráfico 3 existe uma relação entre as variáveis, mas se calcularmos o coeficiente de correlação linear de Pearson ficará muito próximo de zero, indicando que não existe correlação linear entre essas duas variáveis. 148 UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO Já na correlação nula os valores das variáveis x e y ocorrem independen- temente. Como o próprio nome diz não existe correlação entre elas, conforme demonstrada no Gráfico 4. GRÁFICO 4 – CORRELAÇÃO NULA FONTE: EDTI (2020, s.p.) Na correlação nula, quando a variável x aumenta ou diminui não existe nenhuma variação na variável y. IMPORTANTE O coeficiente de correlação de Pearson tem esse nome devido ao seu criador Karl Pearson que viveu no fim do Século XIX e início do Século XX. O pensamento de Karl Pearson fundamentou muitos dos métodos estatísticos que são de uso comum nos dias de hoje. 5 CÁLCULO DO COEFICIENTE DE CORRELAÇÃO Falamos, anteriormente, algumas vezes sobre os tipos de correlações pos- síveis e sempre colocamos como referência um valor. Esse valor é o coeficiente de correlação, como podemos notar, ele está sempre entre 0 e 1. Todavia, como calculamos esse valor? O grau de associação entre as variáveis pode ser avaliado por meio do Coeficiente de dispersão, também chamado coeficiente de Correlação, ou ainda, Coeficiente de Pearson (r). A partir deste, pode-se concluir se as interações apre- sentam tendências fortes (quando os pontos estão muito próximos um dos ou- tros, com r aproximadamente 1 ou -1), ou fracas (quando os pontos estão muito dispersos, com r próximo a 0), independentemente da forma de distribuição line- ar ou não (AKAMINE; YAMAMOTO, 2013) TÓPICO 2 — CORRELAÇÃO 149 Além disso, o diagrama de dispersão pode ser classificado em três cate- gorias distintas: correlação positiva; correlação negativa e correlação nula, além dessas três categorias é importante sabermos que pode não haver correlação entre as variáveis x e y. Todas essas categorias já vimos anteriormente. A seguir, apren- deremos a calculá-lo. O coeficiente de correlação linear ( r ) é dado pela fórmula mostrada na Figura 19, em que xi e yi são respectivamente o produto de ( xi, yi). FIGURA 19 – FÓRMULA DO CÁLCULO DO COEFICIENTE DE CORRELAÇÃO FONTE: Akamine e Yamamoto (2013, p. 242) Em que: r → é o coeficiente de correlação está sempre entre -1 e 1 n → é o número de observações xi e yi → são as observações de uma mesma linha Essa fórmula parece bastante complexa, mas se fizermos uma tabela como as da Unidade 2 e acrescentarmos três colunas tudo ficará mais fácil. Vamos a um exemplo, digamos que tenhamos o seguinte problema para resolver: o gerente de uma determinada loja quer saber se existe relação entre o investimento em propaganda e o número de clientes que ele recebe diariamente. Para tanto, ele coletou os seguintes dados: TABELA 5 – INVESTIMENTO EM RELAÇÃO AO AUMENTO DO NÚMERO DE CLIENTES Investimento (R$ 1000)* Número de clientes 10 15 12 18 14 20 16 26 18 29 20 35 *Para cada múltiplo de R$1.000,00 existe um aumento no número de clientes. FONTE: Os autores 150 UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO Primeiro passo: construir a tabela de cálculo como mostra a Tabela 6. TABELA 6 – CÁLCULO DA CORRELAÇÃO DE PEARSON i Xi Yi Xi * Yi Xi² Yi² 1 10 15 150 100 225 2 12 18 216 144 324 3 14 20 280 196 400 4 16 26 416 256 676 5 18 29 522 324 841 6 20 35 700 400 1225 Soma 90 143 2284 1420 3691 FONTE: Os autores Segundo passo: substituir os dados na fórmula. r = 0,9879 Com o resultado é possível comprovar que existe uma correlação positiva forte entre o investimento em propaganda e o número de clientes da loja. É possível também realizar esse tipo de cálculo utilizando softwares estatísticos ou mesmo o Excel. A Figura 20 mostra como realizar o cálculo no Excel. FIGURA 20 – CORRELAÇÃO DE PEARSON NO EXCEL FONTE: Os autores Note na Figura 21 que com a aplicação da fórmula é possível chegar ao resultado de r = 0,9879. TÓPICO 2 — CORRELAÇÃO 151 FIGURA 21 – RESULTADO CORRELAÇÃO DE PEARSON NO EXCEL FONTE: Os autores Agora que você aprendeu a calcular o coeficiente de correlação de Pearson, faça o teste e coloque em prática no seu dia a dia de trabalho ou estudos. 152 RESUMO DO TÓPICO 2 Neste tópico, você aprendeu que: • Para investigar a relação ou não entre variáveis utilizamos a correlação. • Os métodos pertinentes à análise de correlação representam uma ferramenta essencial nas mais diversas áreas do conhecimento. • O diagrama de dispersão também é conhecido como gráfico de dispersão. • O diagrama de dispersão é construído em um sistema de eixos cartesianos. • Na horizontal é o eixo da variável “x” e na vertical está o eixo “y”. • Diagrama de dispersão é uma ferramenta estatística que permite identificar, por meio de análises visuais gráficas, a possível relação existente entre duas variáveis quantitativas distintas. • Existem alguns tipos de correlação linear positiva, correlação linear negativa, correlação não linear e correlação nula. • O coeficiente de correlação está sempre entre -1 e 1. • O coeficiente de correlação é calculado pela seguinte fórmula: Em que: r → é o coeficiente de correlação está sempre entre -1 e 1 n → é o número de observações xi e yi → são as observações de uma mesma linha 153 1 Quando queremos investigar a possiblidade de existência de associação que técnica utilizamos? Assinale a alternativa CORRETA. a) ( ) Análise de correlação. b) ( ) Análise de médias. c) ( ) Análise de regressão. d) ( ) Análise de componentes. 2 O que significa o termo correlação? Assinale a alternativa CORRETA. a) ( ) Relação positiva. b) ( ) Relação negativa. c) ( ) Relação nula. d) ( ) Relação nos dois sentidos. 3 O diagrama de dispersão ou também conhecido como gráfico de dispersão serve para avaliar o que entre duas variáveis? a) ( ) Correlação. b) ( ) Regressão. c) ( ) Média. d) ( ) Desvio Padrão. 4 O diagrama de dispersão é construído em um sistema de eixos cartesianos, em que o eixo horizontal é também conhecido como? Assinale a alternativa CORRETA. a) ( ) O eixo da variável x. b) ( ) O eixo da variável y. c) ( ) O eixo da variável b. d) ( ) O eixo que mede x e y. 5 No diagrama de dispersão que é construído em um sistema de eixos car- tesianos cada ponto colocado no gráfico corresponde ao que? Assinale a alternativa CORRETA. a) ( ) A uma linha. b) ( ) A uma medida. c) ( ) A um dado. d) ( ) A um erro. AUTOATIVIDADE 154 6 Um pesquisador realizou seis experimentos para analisar a relação entre o tempo de exposição de um material à luz e o tempo de vida ou de resistên- cia desse material a luz e obteve os seguintes dados: Tempo exposição (horas) Tempo de vida (dias) 0,0 30 5,0 24 10,0 20,5 15,0 16,5 20,0 13,1 25,0 8 Calcule o coeficiente de correlação e assinale a alternativa CORRETA. a) ( ) 0,9872. b)( ) 0,9963. c) ( ) -0,9963. d) ( ) 0,9872. 7 No exercício anterior, em que o pesquisador analisou a relação entre o tem- po de exposição do material à luz e o tempo de vida desse material ele encontrou que tipo de correlação? Justifique sua resposta. 8 O gerente de uma loja recebeu a informação de que o seu lucro estaria re- lacionado diretamente com a quantidade de produtos distintos que a loja possui. Para analisar esta informação, o gerente coletou os seguintes dados: Quantidade de produtos Lucro (R$1000)* 20 11,5 30 12,2 40 15,2 50 24,1 60 25,2 70 26,8 *Múltiplo de R$ 1000,00 Com base nos dados anteriores, calcule o coeficiente de correlação e assinale a alternativa CORRETA. a) ( ) 0,9557. b) ( ) 0,9784. c) ( ) 0,8567. d) ( ) 0,9871. 155 9 No exercício anterior, em que o gerente de uma loja recebeu a informação de que o seu lucro estaria relacionado diretamente com a quantidade de produtos distintos que a loja possui foi encontrado algum tipo de correla- ção? Justifique sua resposta. 10 Em uma determinada pesquisa, o pesquisador verificando a relação entre duas variáveis encontrou um coeficiente de correlação r = 1,00. O que isso significa? Assinale a alternativa CORRETA. a) ( ) Uma correlação linear positiva fraca. b) ( ) Uma correlação linear negativa fraca. c) ( ) Uma correlação linear negativa perfeita. d) ( ) Uma correlação linear positiva perfeita. 156 157 UNIDADE 3 1 INTRODUÇÃO Neste tópico, será abordado sobre regressão linear e suas tipologias, as va- riáveis de entrada – dependente e independente, assim como analisar e interpre- tar os resultados da regressão. A regressão gera uma equação que indica a relação linear entre duas variáveis, ou seja, a equação considera o comportamento linear de uma variável em relação a outra. Com esta análise é possível confirmar hipó- teses e ainda predizer sobre um fenômeno com base no comportamento histórico. Por exemplo, suponha que um dono de um estabelecimento está analisando o comportamento dos atendentes em relação às vendas efetuadas. Desta maneira, ele se depara que um funcionário que recepciona os clientes de forma ríspida enquanto o outro apresenta maior atenção. Após coletar um amplo conjunto de dados, o proprie- tário percebe que existe uma correlação entre as variáveis “atendimento” e “vendas efetuadas”. Na sequência, ele realiza uma regressão e percebe que para cada nota de atendimento há um incremento de 12% na chance de vendas efetuadas. Além disso, essa curva se acentua mais nos extremos chegando a refletir até 20% nas vendas de- vido ao atendimento. Portanto, após esta análise, o proprietário decide investir em treinamento dos funcionários para predizer e maximizar as vendas. Diante do exemplo apresentado, perceba que a regressão pode ser utilizada para solucionar problemas do seu dia a dia, basta planejar, coletar, e analisar dados. No entanto, há um conjunto de detalhes que precisam ser discutidos para refinar seus conhecimentos como os métodos de regressão, tipologia de variáveis, intervalo de confiança, entre outros. Abordaremos esses conteúdos nos subtópicos seguintes. 2 REGRESSÃO LINEAR Diferentemente da correlação, a regressão linear consiste em uma equação para se estimar um valor de uma variável (y) a partir dos valores de outra variável (x) (MCCLAVE; BENSON; SINCICH, 2009). A equação é elaborada a partir de um plano cartesiano, considerando os valores lineares das variáveis em análise. Por sua vez, a linha de regressão consiste no menor valor da soma dos quadrados dos resíduos (ver imagem abaixo). Portanto, a linha reta perpassa no centro médio dos pontos quando indicados em um gráfico de dispersão (FAR- BER; LARSON, 2010). A regressão linear pode ser aplicada em situações onde deseja-se avaliar a relação entre duas variáveis. Portanto, delimitar uma equação TÓPICO 3 — REGRESSÃO LINEAR 158 UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO que demonstra quanto uma variável está relacionada a outra, bem como verificar a qualidade da linha de regressão; isto quer dizer, se é possível confirmar uma hipótese ou não com os resultados obtidos. GRÁFICO 5 – RETA DE REGRESSÃO FONTE: Farber e Larson (2010, p. 409) Para tanto, abordaremos, na sequência, os elementos que constituem uma re- gressão, assim como o processo de elaboração, análise e interpretação dos resultados. 2.1 VARIÁVEL DEPENDENTE E INDEPENDENTE Uma variável, como o próprio nome indica, é algo que muda de valor, que varia, é “tudo que pode assumir diferentes valores numéricos” (BUNCHAFT; KELLNER, 1998, p. 16). Portanto, uma variável corresponde a um conjunto de dados em comum sobre distintos respondentes. Por exemplo, é comum que ques- tionários que busquem coletar dados da percepção de um respondente possuam uma seção com dados do respondente (ou perfil do respondente), como idade, sexo, renda média, escolaridade entre outros. Cada uma dessas informações cor- responde a uma variável da pesquisa. Entretanto, quais os tipos de variáveis são utilizados em uma regressão? A formulação mais simples de uma hipótese é relacionada em apenas duas va- riáveis, chamadas de Variável Independente (VI) e Variável Dependente (VD). Enquanto a variável independente é controlada pelo pesquisador, seja por uma manipulação intencional ou seleção e mensuração dos valores a serem introduzi- dos no estudo, as variáveis dependentes são aquelas que variam de acordo com o manuseio das variáveis independentes (BUNCHAFT; KELLNER, 1998). Suponha que você está pesquisando os fatores que determinam a adoção de novas tecnologias organizacionais, e, portanto, você pressupõe pesquisar a percepção dos gestores de empresas uma vez que são eles os tomadores de deci- TÓPICO 3 — REGRESSÃO LINEAR 159 sões. Para iniciar a pesquisa você se pergunta: quais os fatores que podem levar as empresas a adotarem novas tecnologias? Sob o ponto da pesquisa, é necessário vasculhar a literatura vigente e entender o que já foi evidenciado a respeito da temática. Suponha que foram encontrados estudos que indiquem três fatores de- terminantes: percepção de baixa competitividade, e redução de custos, e melhoria da qualidade. Na sequência, poder-se-ia criar um questionário para verificar a percepção dos gestores organizacionais quanto a adoção de novas tecnologias, conforme sugestão de variáveis a seguir – note que os códigos da variável podem ser definidos pelo pesquisador: QUADRO 1 – VARIÁVEIS DE UMA PESQUISA Construto Variável Descrição da variável Percepção de baixa competitividade PER01 Minha empresa costuma entregar produtos ou serviços após o tempo previsto. PER02 Minha empresa possui resultado financeiro abaixo dos concorrentes nos últimos 3 anos. PER03 Minha empresa teve faturamento abaixo dos concorrentes nos últimos 3 anos. Redução de custos COS01 Novas tecnologias contribuem para redução de custos. COS02 Custos operacionais são reduzidos quando se implementa uma automação. COS03 Implementação de novas tecnologias sempre reduz custos operacionais. Melhoria da qualidade QUA01 Automação leva a padronização de processos. QUA02 Automação leva a padronização de produtos. QUA03 Automação leva a padronização de serviços. Adoção de novas tecnologias ADO01 Minha empresa sempre adotou tecnologias emergentes. ADO02 Minha empresa costuma ser uma das primeiras a adotar tecnologias disruptivas. ADO03 Minha empresa costuma desenvolver tecnologia e novas soluções para os produtos e serviços atuais. FONTE: Os autores NOTA Acadêmico, você conseguiu entender como foram criadas as siglas de cada variável? Exemplo: PER, é a abreviação de percepção. COS, é a abreviação de redução de custos e assim sucessivamente. 160 UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO Neste exemplo, quais as variáveis dependentes? E quais as variáveis inde- pendentes? Perceba que se deseja descobrir sobre a percepção de gestores quanto a adoção de novas tecnologias em organizações ok? Então, neste caso, asvariáveis de adoção de novas tecnologias (ADO01, ADO02 ou ADO03) são as variáveis dependentes, enquanto as demais são as variáveis independentes. Após coleta de dados, as informações do banco de dados devem ser importadas em uma plani- lha ou software estatístico para análise da regressão. IMPORTANTE Lembre-se que a regressão linear abrange a relação de apenas uma variável dependente e outra independente em uma única fórmula. Como mencionado anteriormente, a regressão linear consiste em uma fór- mula padrão entre uma variável dependente e outra independente. A fórmula considera a variável dependente (Y) como a soma da constante (a), a multiplica- ção de uma variável independente (B.x), e o erro amostral (e). A fórmula é apre- sentada a seguir: Y = a + Bx + e Essa fórmula é aplicada em todas as situações em que se deseja analisar a relação entre duas variáveis. Para situações em que há mais de uma variável independente – denominada como regressão múltipla, estas são adicionadas na fórmula Bx1, Bx2...Bxn. Esse conteúdo será abordado no Tópico 4 desta unidade. 2.2 COEFICIENTE Os coeficientes representam todos os números pertencentes a uma fórmu- la padrão, incluindo a constante e as variáveis independentes que serão direta- mente multiplicadas (CRESPO, 2009). Após aplicar a fórmula de regressão em al- guma situação, os resultados dos coeficientes podem ser positivos ou negativos, e, altos ou baixos. Quanto ao sinal do coeficiente, se este for positivo indica que uma vari- ável independente tem um efeito em favor da variável dependente; ou seja, que uma variável independente potencializa a variável dependente. Caso negativo, indica uma oposição a variável dependente. Por exemplo, suponha o exemplo anterior onde buscava-se avaliar a relação entre a percepção de fatores que levam TÓPICO 3 — REGRESSÃO LINEAR 161 empresas a adotarem novas tecnologias. Neste caso, avaliaremos a relação entre adoção de tecnologias (ado01) e a redução de custos devido adoção (cos01). Va- mos abordá-los o coeficiente positivo e negativo a seguir: Variáveis: ADO01 – Minha empresa sempre adotou tecnologias emergentes (dependente) COS01 – Novas tecnologias contribuem para redução de custos (independente) Coeficiente Positivo ado01 = 3,341 + 0,293 cos01 Sob o ponto de vista gráfico, o coeficiente positivo apresenta-se conforme gráfico a seguir (esta imagem foi gerada a partir do software estatístico Minitab): GRÁFICO 6 – SCATTERPLOT REGRESSÃO POSITIVA FONTE: Os autores Neste caso, quando a regressão aponta coeficientes positivos, a reta indica um aumento na adoção de novas tecnologias em função da percepção dos gesto- res quanto a redução de custos. Coeficiente Negativo ado01 = 4,712 - 0,7610 cos01 Sob o ponto de vista gráfico, o coeficiente negativo apresenta-se conforme gráfico a seguir (esta imagem foi gerada a partir do software estatístico Minitab): 162 UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO GRÁFICO 7 – SCATTERPLOT REGRESSÃO NEGATIVA FONTE: Os autores Por outro lado, a reta de regressão pode apresentar característica oposta, conforme apresentado no gráfico anterior. Nesta ocasião, a reta indica que quan- to maior percepção na redução de custos (cos01), menor será a adoção de novas tecnologias na percepção dos gestores entrevistados. Note que para estes casos, a variável independente (cos01) aparece com valor negativo na equação (ado01 = 4,712 - 0,7610 cos01). IMPORTANTE A reta de regressão pode ser positiva ou negativa, em que a denominação ocorre devido à relação entre a variável dependente e independente. Além disso, os valores dos coeficientes, se altos ou baixos, indicam a força da influência de uma variável indepen- dente sobre a variável dependente. 2.3 INTERVALO DE CONFIANÇA O intervalo de confiança, ou também conhecido como margem de erro, refere-se a uma estimativa de intervalo de parâmetro populacional desconhecido (FARBER; LARSON, 2010). Este representa o erro amostral contido nos dados de uma pesquisa. Normalmente, utiliza-se uma probabilidade de 95% como grau de confiança em que a amostra represente com precisão o comportamento da população. Desta forma, 5% dos dados seriam considerados como uma margem TÓPICO 3 — REGRESSÃO LINEAR 163 de erro proveniente da seleção da amostra. Por sua vez, quanto menor o interva- lo de confiança, maior segurança pode-se ter quanto os resultados reais de uma pesquisa ao replicá-lo ou generalizá-lo à uma população (MCCLAVE; BENSON; SINCICH, 2009). Para os coeficientes de regressão, os intervalos de confiança são elabora- dos a partir da suposição de normalidade, também chamado de Curva de Gauss. Em estatística, a distribuição normal, ou normalidade, representa uma represen- tação de dados com baixa variabilidade nas respostas. Dessa maneira, quanto maior a variabilidade dos dados de uma amostra, maior serão os limites do erro. Portanto, os intervalos de confiança fornecem estimativas dos parâmetros de li- mite inferior e superior caso um experimento seja realizado mais vezes (FARBER; LARSON, 2010). Por exemplo, suponha que a relação entre as variáveis ADO01 e COS02 indica um coeficiente de 0,833. O intervalo de confiança apontará o limite inferior: 0,451, e superior: 1,215 deste coeficiente, por exemplo. Esses valores são obtidos em relatórios de regressão como limites de 95% inferior e superior, conforme apresentado no exemplo a seguir (valores destacados em negrito). TABELA 7 – INTERVALO DE CONFIANÇA Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Constante 0,166667 0,862007 0,193347 0,848083 -1,59907 1,932407 COS01 0,833333 0,186339 4,472136 0,000117 0,451635 1,215031 FONTE: Os autores A margem de erro pode ser calculada por meio da fórmula: Em que: n = tamanho da amostra σ = desvio padrão da população z = escore z (conforme grau de confiança) A partir do cálculo da margem de erro é possível delimitar o intervalo para a população desconhecida a partir de uma amostra. O resultado do cálcu- lo da fórmula de margem de erro é apresentado em valor percentual, portanto, calcula-se a multiplicando a margem de erro cobre o coeficiente para delimitar o limite inferior e superior do intervalo de confiança. 164 UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO TABELA 8 – GRAU DE CONFIANÇA PARA CÁLCULO DA MARGEM DE ERRO Grau de confiança desejado Escore z 80% 1,28 85% 1,44 90% 1,65 95% 1,96 99% 2,58 FONTE: Adaptado de SurveyMonkey.com (2020) DICAS A margem de erro depende de alguns determinantes como tamanho da po- pulação, tamanho da amostra e grau de confiança. Você pode assumi-la como um valor padrão (5% por exemplo), ou calculá-la a partir dos dados existentes. Um exemplo seria utilizar uma calculadora on-line, acesse em: https://bit.ly/2DpEGBW. 2.4 RESÍDUOS Chama-se de resíduos as diferenças entre a reta de regressão estimada em relação aos valores observados (FARBER; LARSON, 2010). Por exemplo, suponha que uma reta passe pelo eixo X e Y em 4 e 5 respectivamente, caso um responden- te tiver apontado 3 e 4, isto indica que há um erro em relação a reta de regressão (resíduo= -1), e, portanto, isso é tratado como um resíduo. Da mesma forma como sugerida uma distribuição normal para os dados de uma regressão, os resíduos também devem seguir consequentemente o prin- cípio de normalidade. A análise dos resíduos é importante para se uma visão de quais respondentes indicaram valores que se distanciam da reta de regressão, e, portanto, pode haver algum comportamento não previsto na equação de regres- são, como fatores de contexto por exemplo. TÓPICO 3 — REGRESSÃO LINEAR 165 GRÁFICO 8 – PLOTAGEM DE RESÍDUOS FONTE: Os autores Como observado anteriormente, os resíduos são evidenciados a partir da relação entre os valores observados (apontados pelos respondentes) e a reta de re- gressão. Note que é possível identificar os valores observados que se distanciam em maior escala da reta de regressão – aqueles que possuemvalores mais extremos. 3 COEFICIENTE DE DETERMINAÇÃO O coeficiente de determinação (R²) representa um índice de qualidade da equação da regressão e é considerado a melhor maneira de interpretar o valor da medida de associação linear entre duas variáveis (FARBER; LARSON, 2010). O coeficiente de determinação é “definido como a relação que mede a proporção da variação total da variável dependente, que é explicada pela variação da variável independente” (LAPONNI, 2005, p. 405). O R² é um número que varia de 0 a 1, e o seu resultado indica quanto o modelo estatístico pode explicar os valores observados. Por exemplo, um modelo com R² = 0,705 significa que o modelo explica 70,5% da variância da variável de- pendente a partir das variáveis independentes incluídas no modelo linear. Na área de Ciências Sociais é comum que estimativas de regressão obte- nham valores de R² abaixo de 25%, sinalizando a ausência de regressores no mo- delo linear, como situações de contexto, como a estrutura organizacional, social, econômica entre outros fatores. Por outro lado, na área de Ciências da Saúde, regressões com R² abaixo de 0,90 podem não ser aceitos, uma vez que testes rela- cionados à saúde exigem uma variância mínima na variável dependente. 166 UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO Por outro lado, o R² deve ser utilizado com precaução por dois motivos principais: (a) o R² tende a aumentar ao passo que há poucos dados observados, e, (b) quando há valores crescentes de forma similar entre X e Y sem repetição tende a resultar em R² igual a 1. Esses aspectos devem ser levados em conta na avaliação do coeficiente de determinação. 4 P-VALUE O P-value (probability value) ou valor de probabilidade, refere-se à proba- bilidade de obter os resultados extremos do modelo estatístico dentro da nor- malidade com os dados observados. Isso indica sobre a similaridade nos dados e é amplamente utilizado para testar hipóteses. Desta forma, o p-value avalia a significância estatística de um conjunto de dados observados, e, se, obter valor abaixo de 0,05 indica que os dados possuem coerência e baixa variância nas extre- midades (CRESPO, 2009). Desta forma, o p-value representa uma forma de confirmar hipóteses. Note que na tabela a seguir há a relação entre as variáveis ADO01 e COS01. Conforme valor-P, pode-se confirmar a hipótese de que a redução de custos leva organiza- ções a adoção de novas tecnologias. TABELA 9 – TESTE DE HIPÓTESE Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Constante 0,166667 0,862007 0,193347 0,848083 -1,59907 1,932407 COS01 0,833333 0,186339 4,472136 0,000117 0,451635 1,215031 FONTE: Os autores NOTA Se p-value for menor que 0,05 confirma-se a hipótese em teste, caso contrá- rio, rejeita-se. TÓPICO 3 — REGRESSÃO LINEAR 167 Uma hipótese corresponde a uma alternativa testável que pode ser provada ou refutada como resultado de uma experimentação científica. NOTA 5 REGRESSÃO LINEAR COM EXCEL A regressão linear simples é um modelo matemático usado para descre- ver a relação entre duas variáveis com o objetivo de utilizar uma delas para se prever o valor da outra (MCCLAVE; BENSON; SINCICH, 2009). O objetivo da análise de regressão é determinar a relação existente entre uma variável depen- dente com outra independente (LAPPONI, 2005). Este subtópico tem por objetivo demonstrar a aplicação da técnica de re- gressão linear com o software Excel. Este software tem sido adotado em função da sua acessibilidade. Antes de iniciarmos a análise de regressão propriamente dita, vamos verificar as configurações do Excel: Etapa 1: acesse Opções > Suplementos > Selecionar ‘Suplementos do Ex- cel’ e clicar no botão “Ir…”. FIGURA 22 – ETAPA 1 CONFIGURAÇÃO EXCEL FONTE: Os autores Etapa 2: selecionar suplemento “ferramentas de análise” e clicar em OK. Note que um ícone foi criado na barra de ferramentas do Excel (Dados > análise > análise de dados). 168 UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO FIGURA 23 – ETAPA 2: CONFIGURAÇÃO EXCEL FONTE: Os autores Após o suplemento de análise de dados estiver ativo, vamos prosseguir com os passos para aplicação da regressão linear com o software Excel. Em um primeiro momento, deve-se criar ou importar uma base de dados ao Excel. Leve em consideração que a base de dados deverá estar livre de erros, como dados faltantes ou qualquer digitação incorreta. Passo 1: criar ou importar base de dados ao Excel. FIGURA 24 – PASSO 1 REGRESSÃO LINEAR COM EXCEL FONTE: Os autores TÓPICO 3 — REGRESSÃO LINEAR 169 Passo 2: acessar o painel de entrada de dados para regressão, em: Dados > Análise > Análise de dados. Selecionar “regressão” e clicar em OK. FIGURA 25 – PASSO 2: REGRESSÃO LINEAR COM EXCEL FONTE: Os autores Passo 3: selecionar dados de entrada para Y e X, nível de confiança (95%), e demais informações sobre resíduos e probabilidade normal. Deixar a apresen- tação de resultados em nova planilha. NOTA Lembrando que Y refere-se na variável dependente e X a variável independente. Ou seja, a variável dependente é a incógnita que o pesquisador está buscando respostas. 170 UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO FIGURA 26 – PASSO 3: REGRESSÃO LINEAR COM EXCEL FONTE: Os autores Passo 4: gerar o relatório de regressores e interpretar resultados. FIGURA 27 – PASSO 4: REGRESSÃO LINEAR COM EXCEL FONTE: Os autores Os relatórios de regressão são apresentados conforme figura anterior. A partir da relação entre as variáveis ADO01 e COS01, os resultados indicam (des- tacados na Figura 27): TÓPICO 3 — REGRESSÃO LINEAR 171 Coeficiente: 0,7941 R-quadrado: 0,4046 P-value: 0,00002 Intervalo de confiança: 0,4137 - 1,1746 De acordo com esses dados, é possível afirmar que a variável COS01 (No- vas tecnologias contribuem para redução de custos) é regressora de ADO01 (mi- nha empresa sempre adotou tecnologias emergentes). Desta forma, com este con- junto de dados, pode-se confirmar as hipóteses e concluir que a redução de custos é um fator determinante para adoção de tecnologias emergentes. Por fim, este tópico apresentou a regressão linear como uma técnica es- tatística amplamente utilizada em organizações ao avaliar o relacionamento de variáveis. No próximo tópico, abordar-se-á a regressão múltipla, uma técnica si- milar a regressão linear, porém considera-se no mínimo três variáveis. 172 RESUMO DO TÓPICO 3 Neste tópico, você aprendeu que: • A regressão linear consiste em uma equação para se estimar um valor de uma variável (y) a partir dos valores de outra variável (x). • A variável independente (x) é controlada pelo pesquisador. • A variável dependente (y) é influenciada por um ou mais regressores (variáveis independentes). • Os coeficientes representam todos os números pertencentes a uma fórmula pa- drão, gerados a partir de uma regressão. • O intervalo de confiança, ou também conhecido como margem de erro, refere- -se a uma estimativa de intervalo de parâmetro populacional desconhecido a partir de uma amostra pesquisada. • Resíduos correspondem a diferença dos valores empiricamente observados em relação à reta de regressão estimada. • O coeficiente de determinação (R²) representa como um índice de qualidade da equação da regressão, e o seu resultado indica quanto o modelo estatístico pode explicar os valores observados. • O p-value (probability value), ou valor de probabilidade, refere-se à probabili- dade de obter os resultados extremos do modelo estatístico dentro da normali- dade com os dados observados. 173 1 Quando queremos estimar uma variável a partir de outra, qual técnica uti- liza-se? Assinale a alternativa CORRETA. a) ( ) Análise de correlação. b) ( ) Análise de médias. c) ( ) Análise de regressão. d) ( ) Análise de componentes. 2 Quais as formas de regressão quanto ao sinal da equação? Assinale a alter- nativa CORRETA. a) ( ) Regressão positiva. b) ( ) Regressão negativa. c) ( ) Regressão nula. d) () Regressão nos dois sentidos. 3 Qual a sigla da variável dependente? Assinale a alternativa CORRETA. a) ( ) X. b) ( ) Y. c) ( ) W. d) ( ) Z. 4 Qual a sigla da variável independente? Assinale a alternativa CORRETA. a) ( ) X. b) ( ) Y. c) ( ) W. d) ( ) Z. 5 Em regressão, qual variável o pesquisador detém controle? a) ( ) Variável dependente. b) ( ) Variável alternativa. c) ( ) Variável Independente. d) ( ) Variável explícita. AUTOATIVIDADE 174 175 UNIDADE 3 1 INTRODUÇÃO A regressão múltipla é considerada uma das técnicas estatísticas mais uti- lizadas para solucionar problemas reais em organizações. Para tanto, abordar-se- -á essa técnica neste tópico, inclusive com a aplicação do Excel. Iniciaremos com uma questão: o que acontece se você perceber que há mais de uma variável que faça sentido como determinante de outra? Suponha o exemplo que foi tratado no subtópico anterior, pelo qual a pesquisa buscava ava- liar os fatores que levam organizações a adotarem tecnologias emergentes: quais fatores influenciam gestores a tomarem uma decisão em favor da aquisição de novas tecnologias? Sem dúvida sua resposta deve ser: MUITOS! No exemplo do tópico anterior, foi apresentada uma tabela contendo um conjunto de variáveis ao qual fazem uma indicação aos fatores determinantes da adoção de novas tecnologias. Em situações como essa, apenas a regressão múlti- pla pode fornecer elementos para confirmação de hipóteses uma vez que inclui três ou mais variáveis em um único modelo estatístico. 2 REGRESSÃO MÚLTIPLA A regressão múltipla envolve três ou mais variáveis sendo compreendida como uma extensão da regressão linear (MCCLAVE; BENSON; SINCICH, 2009). Há ainda uma única variável dependente, porém duas ou mais variáveis inde- pendentes. A regressão múltipla tem por objetivo estabelecer uma equação que possa ser usada para predizer valores de y para valores previamente estabeleci- dos nas variáveis independentes (STEVENSON, 1981). Essa técnica deve ser utilizada quando deseja-se incluir outras variáveis independentes no modelo com o objetivo de melhor explicar e prever o compor- tamento da variável dependente (MARTINS; DOMINGUES, 2011). Portanto, a única diferença para a regressão linear, corresponde-se na equação da regressão múltipla pelo qual possui no mínimo duas variáveis independentes. TÓPICO 4 — REGRESSÃO MÚLTIPLA 176 UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO A fórmula da regressão múltipla considera a variável dependente (Y) como a soma da constante (a), a multiplicação das variáveis independentes (Bx1, Bx2...Bxn), e o erro amostral (e). A fórmula é apresentada a seguir: Y = a + Bx1 + Bx2 + Bxn... + e Como a abordagem teórica segue o mesmo padrão da regressão linear, vamos, na sequência, aplicar a regressão linear múltipla com o uso do Excel. 3 REGRESSÃO MÚLTIPLA COM EXCEL As etapas para realizar uma regressão múltipla seguem passos similares aos da regressão linear. Vamos pressupor que você já tenha configurado o seu Excel e selecionado o suplemento de Ferramenta de análise. A seguir, são apre- sentados os passos para realizar a regressão múltipla: Passo 1: criar ou importar base de dados ao Excel. NOTA Lembre-se de que a base de dados deve estar previamente tratada, sem qual- quer erro ou inconsistência nos dados ao importar ou criar no Excel. TÓPICO 4 — REGRESSÃO MÚLTIPLA 177 FIGURA 28 – PASSO 1: REGRESSÃO MÚLTIPLA COM EXCEL FONTE: Os autores As variáveis que estão incluídas nesta base de dados são: ADO01 – Minha empresa sempre adotou tecnologias emergentes. COS01 – Novas tecnologias contribuem para redução de custos. QUA01 – Automação leva a padronização de processos. PER01 – Minha empresa costuma entregar produtos ou serviços após o tempo previsto. Passo 2: acessar o painel de entrada de dados para regressão, em: Dados > Análise > Análise de dados. Selecionar “regressão” e clicar em OK. 178 UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO FIGURA 29 – PASSO 2: REGRESSÃO MÚLTIPLA COM EXCEL FONTE: Os autores Passo 3: selecionar dados de entrada para Y (ADO01) e X (COS01, QUA01 e PER01), nível de confiança (95%), e demais informações sobre resíduos e proba- bilidade normal. Deixar a apresentação de resultados em nova planilha. NOTA Lembre-se de selecionar uma única variável dependente (Y), e demais vari- áveis independentes (X) como valores de entrada. Apenas valores numéricos devem ser selecionados. TÓPICO 4 — REGRESSÃO MÚLTIPLA 179 FIGURA 30 – PASSO 3: REGRESSÃO MÚLTIPLA COM EXCEL FONTE: Os autores Passo 4: gerar o relatório de regressores e interpretar resultados FIGURA 31 – PASSO 4: REGRESSÃO MÚLTIPLA COM EXCEL FONTE: Os autores Os relatórios de regressão são apresentados conforme figura anterior. A partir da relação entre as variáveis ADO01, COS01, QUA01 e PER01 indicam (destacados na Figura 31): 180 UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO COS01 > ADO01 Coeficiente: 0,7778 P-value: 0,0001 Intervalo de confiança: 0,6149 | 0,9406 QUA01 > ADO01 Coeficiente: 0,0097 P-value: 0,9068 Intervalo de confiança: -0,1584 | 0,1777 PER01 > ADO01 Coeficiente: -0,6957 P-value: 0,0001 Intervalo de confiança: -0,8204 | -0,5709 De acordo com esses dados, é possível afirmar que as variáveis COS01 (Novas tecnologias contribuem para redução de custos) e PER01 (Minha empresa costuma entregar produtos ou serviços após o tempo previsto) são regressoras de ADO01 (Minha empresa sempre adotou tecnologias emergentes) devido a signi- ficância estatística (p-value abaixo de 0,05). No entanto, a variável PER01 tem coeficiente negativo, indicando a ado- ção de tecnologias emergentes ocorre em direção a entrega no prazo, ou seja, quanto menor o processo de entrega maior será a percepção de valor dos gestores para adoção de novas tecnologias. Por último, a variável QUA01 não apresenta significância estatística suficiente para afirmar que a automação é um dos fatores que motivam gestores a adotarem tecnologias emergentes. Conforme apresentado na figura anterior, o R² apresenta-se com 0,9082 indicando que as variáveis selecionadas são capazes de explicar em 90,82% a va- riância da variável dependente ADO01 – Minha empresa sempre adotou tecnolo- gias emergentes. Este valor apresenta-se relativamente alto, e pode reduzir após inclusão de outras variáveis dependentes. TÓPICO 4 — REGRESSÃO MÚLTIPLA 181 LEITURA COMPLEMENTAR POR QUE A ESTATÍSTICA É TÃO IMPORTANTE? Estatística! Muita gente tem aversão a esse nome, e sente até arrepios. Associa rapidamente a palavra àqueles cálculos intermináveis, que no final das contas sempre dá 1 ou -1 (às vezes zero); e que gera tremenda dor de cabeça para alunos e profissionais que não são da área, mas precisam cumprir com o apren- dizado da disciplina. A verdade é que seremos cada vez mais dependentes dessa ciência; e sem dúvidas ela vai nortear a sua e a minha vida, praticamente em tudo o que formos fazer. Talvez você já enxergue isso, ou talvez não. Ao longo do texto, vamos dar exemplos práticos da influência da estatística no seu dia a dia. O CAMPO DA ESTATÍSTICA “A Estatística é uma ciência que aprende a partir dos dados”. Essa afirmação faz sentido para você? Embora a maioria da população, que teve contato com a estatística em al- gum momento da vida, ache que ela é um problema; eu a vejo como uma solução. Uma solução para melhorar a forma como vivemos; a maneira como consumi- mos; estabelecer melhores produtos ou serviços. Os estatísticos oferecem uma visão essencial para determinar quais da- dos são necessários para um estudo, e possuem habilidades e competências para afirmar o quão confiável são as suas conclusões. Solucionam problemas por meio de técnicas e métodos de forma investigativa, aplicando critérios estatísticos cor- retamente, e produzindo resultados precisos. Resultados gerados da incerteza do mundo real, acompanhados com uma certa dose de probabilidade de ocorrência. É muito importante aprender estatística porque muitasdas decisões que tomamos na vida cotidiana são baseadas em estatísticas. As pessoas podem não perceber, mas as estatísticas permeiam a maior parte da tomada de decisões que fazemos todos os dias. No fundo, todo mundo tem uma compreensão intuitiva dos princípios das estatísticas, mas ajuda muito entender os conceitos formal- mente. UM EXEMPLO PRÁTICO Imagine que você vai viajar e quer alugar um quarto de hotel. Com esse objetivo, você escolheu o Booking.com para ajudá-lo na escolha. Se você já utili- zou o serviço, certamente percebeu algumas mensagens, como por exemplo, “10 pessoas alugaram um quarto como esse na última hora”, “1.000 pessoas estão olhando esse quarto agora”, “temos apenas mais 1 vaga”; e aí você começa a ficar 182 UNIDADE 3 – MEDIDAS DE DISPERSÃO, CORRELAÇÃO E REGRESSÃO maluco. Todas essas mensagens são determinadas com base na sua utilização, em conjunto com outros consumidores, que norteiam como será seu consumo. Não vai me dizer que você nunca reservou um quarto em um hotel e depois se arrependeu porque achou outro melhor? São modelos estatísticos pressionando você para que escolha rápido ou não desista da compra. Por isso é tão importante você aprender ou ter pelo menos uma noção de estatística. Nem tudo é intuitivo, mas com um estudo simples, você terá a possi- bilidade de tomar decisões mais adequadas para sua vida. Mesmo que você não seja um estatístico, analista de dados, cientista de dados, whatever. Acredite, você precisará desenvolver esse conhecimento. A ESTATÍSTICA FAZENDO SENTIDO NO MUNDO Muito do que se fala hoje envolve estatísticas. Em algumas situações está evidente, mas em outras não; e mesmo que você não queira saber sobre o assunto, a estatística norteará cada vez mais a sua vida. Quer ver mais um exemplo simples? Basta acessar o aplicativo do tempo no seu smartphone para ele mostrar qual a probabilidade de chover hoje, e você em instantes, decidir se vai levar guarda-chu- va para o trabalho, ou mesmo se vai trocar aquela sua moto (que você comprou para driblar o trânsito) pelo carro, na chance de chegar menos molhado ao seu destino. FAZEMOS ESCOLHAS COM BASE NO TEMPO Esse é apenas um exemplo que você provavelmente usa no seu cotidiano, principalmente se mora em grandes cidades. A estatística é importante por vários motivos, e vou citar mais exemplos de como isso acontece: TÓPICO 4 — REGRESSÃO MÚLTIPLA 183 • Campanhas políticas: a cada ano eleitoral, mais uma eleição está por vir. Você provavelmente já conhece os estudos amostrais, a intenção de voto, e as mar- gens de erro (noticiário). Os modelos estatísticos são capazes de prever qual candidato tem mais chance de ganhar, e em quais lugares. • Seguro do seu carro: você não é obrigado a ter um seguro, mas é bom ter. O valor que você paga é precificado baseado em estatísticas de outros clientes. A Seguradora se baseia em estatísticas de idade, estado civil, cidade, modelo do veículo, local onde mora e trabalha, estacionamento, e muitas outras variáveis, que geram resultados com probabilidades de acontecer. • Testes de medicamentos: qualquer droga que esteja à venda em farmácias e drogarias, já foi testada estatisticamente, e validada a sua eficácia. Portanto, se você toma ou já tomou algum medicamento, a estatística já influencia sua vida. • Consumo de produtos: um supermercado que controla seu estoque com uso de estatísticas, é capaz de calcular o tempo certo de quando e quanto comprar. E até mesmo de escolher um determinado local para colocar seu produto, onde aumen- te a probabilidade de venda. Você já ouviu a história de um supermercado que colocou cervejas do lado de fraldas? Quando as mães pediam para seus maridos comprarem fraldas para os filhos, eles sempre voltavam com cervejas. Genial! • Mercado de ações: se você souber usar a estatística, a ponto de construir mo- delos, eles podem ajudar você a prever a economia, e quem sabe ser mais as- sertivo nas suas compras e vendas de ações daquelas empresas que você nunca sabe o que fazer com elas. O fato é: quando você aprende estatística, você passa a entender o mun- do de outra forma. Quando você se baseia em dados, você começa a entender o significado mais profundo das coisas, que podem ser explicadas por meio de números. Você passa a questionar mais os fatos. E agora, com a popularização do big data, a inserção do cientista de dados e o aumento gradativo da internet das coisas, a estatística nunca ficou tão ativa, como nos últimos anos. Praticamente utilizada por todas as esferas da sociedade, passando desde políticos a empresários, de engenheiros a biólogos. Você sabia que em alguns países, as escolas já começaram a ensinar estatística e linguagens de programação, ainda na fase inicial de aprendizado? E isso é necessário! Como disse Denise Britz, em uma entrevista ao IBGE: “as pessoas precisarão ser alfabetizadas em Estatística para poder compreender o mundo”. E ela está comple- tamente certa! FONTE: <https://oestatistico.com.br/por-que-estatistica-importante/>. Acesso em: 24 fev. 2020. 184 RESUMO DO TÓPICO 4 Neste tópico, você aprendeu que: • A regressão múltipla envolve três ou mais variáveis sendo compreendida como uma extensão da regressão linear. • A regressão múltipla contém uma única variável dependente, porém duas ou mais variáveis independentes. • A diferença para a regressão linear corresponde-se na equação da regressão múltipla pelo qual possui no mínimo duas variáveis independentes. • O intervalo de confiança delimita os parâmetros superior e inferior para uma população desconhecida com base em uma amostra conhecida. Ficou alguma dúvida? Construímos uma trilha de aprendizagem pensando em facilitar sua compreensão. Acesse o QR Code, que levará ao AVA, e veja as novidades que preparamos para seu estudo. CHAMADA 185 1 Em modelos estatísticos com duas ou mais variáveis independentes, qual método de regressão deve-se adotar? Assinale a alternativa CORRETA. a) ( ) Análise de regressão simplificado. b) ( ) Análise de regressão simples. c) ( ) Análise de regressão linear. d) ( ) Análise de regressão múltipla. 2 Quantas variáveis independentes são necessárias no modelo estatístico para denominar uma regressão múltipla? Assinale a alternativa CORRETA. a) ( ) Zero. b) ( ) Uma. c) ( ) Duas ou mais. d) ( ) No mínimo três. 3 Qual é o nome do termo que indica a probabilidade de valor de um mode- lo estar dentro das especificações de normalidade? Assinale a alternativa CORRETA. a) ( ) F-value. b) ( ) T-value. c) ( ) P-value. d) ( ) Probit value. 4 Para obter suporte estatístico e confirmar uma hipótese, o p-value deve es- tar apresentando valores abaixo de …? a) ( ) 0,10. b) ( ) 0,50. c) ( ) 0,90. d) ( ) 0,05. 5 Qual é o objetivo de uma regressão múltipla? a) ( ) Estabelecer uma equação que possa ser usada para predizer valores de y para valores dados das diversas variáveis independentes. b) ( ) Criar uma equação matemática para descrever valores de uma variável desconhecida. c) ( ) Demonstrar um cálculo robusto para um problema ainda não solucionado. d) ( ) Relacionar variáveis e verificar quanto estão estatisticamente distantes. AUTOATIVIDADE 186 REFERÊNCIAS AKAMINE, C. T.; YAMAMOTO, R. K. Estudo dirigido de estatística descritiva. 3. ed. São Paulo: Érica, 2013. AQUARELA. O que é amostragem. 2018. Disponível em: https://www.aquare. la/o-que-e-amostragem/. Acesso em: 1° set.2019. BISQUERRA, R.; SARRIERA, J. C.; MARTÍNES, F. Introdução à estatística: enfoque informático com o pacote estatístico SPSS. Porto Alegre: Bookman Editora, 2009. BRUNI, A. L. Estatística aplicada à gestão empresarial. São Paulo: Atlas, 2013. BUNCHAFT, G.; OLIVEIRA, S. R. de. Estatística sem mistérios. Petrópolis: Vozes, 1998. CARDOSO, J. Developing dynamic packaging applications using Semantic Web-based integration. Semantic Web Technologies and E-Business: Toward the Integrated Virtual Organization and Business Process Automation. IGI Global, 2007. p. 1-39.CARVALHO, S.; CAMPOS, W. Estatística básica simplificada. Rio de Janeiro: Elsevier Brasil, 2016. COMENTTO. Calculadora amostral. 2019. Disponível em: https://comentto.com/ calculadora-amostral/. Acesso em: 1° set. 2019. COSTA, G. G. de O. Curso de estatística básica: teoria e prática. 2. ed. São Paulo: Atlas, 2015. CRESPO, A. A. Estatística fácil. 20. ed. Editora Saraiva: São Paulo, 2017. CRESPO, A. A. Estatística fácil. 19. ed. São Paulo: Saraiva, 2009. DOMENECH. C. Medidas tipo atributo ou variável. [20--]. Disponível em: https://bit.ly/3hTLlTE. Acesso em: 24 fev. 2020. ESCOLA EDTI. Diagrama de Dispersão Disponível em: https://bit.ly/327Odpe. Acesso em 18 fev. 2020. FARBER, B.; LARSON, R. Estatística Aplicada. 4. ed. São Paulo, 2010. FONSECA, J. S. da; MARTINS, G. de A. Curso de estatística. 6. ed. São Paulo: Atlas, 2012. 187 FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11. ed. Porto Alegre: Bookman, 2006. HAIR, J. F. et al. Análise multivariada de dados. Porto Alegre: Bookman Editora, 2009. LAPONNI, J. C. Estatística usando Excel. Rio de Janeiro: Elsevier, 2005. LEE, I. Big data: Dimensions, evolution, impacts, and challenges. Business Horizons, Indiana, v. 60, n. 3, p. 293-303, 2017. LOCK, R. H. K.; LOCK, E. F.; LOCK, D. F. Estatística revelando o poder dos dados. São Paulo: LTC Exatas Didático, 2017. MACHADO, J. F. Método Estatístico: gestão da qualidade para melhoria contínua. São Paulo: Saraiva, 2010. MANN, P. S. Introdução à estatística. 8. ed. Rio de Janeiro: LTC, 2015. MARTINS, G. de A.; DOMINGUES, O. Estatística geral e aplicada. 4. ed. São Paulo: Atlas, 2011. MATTOS, V. L. D.; KONRATH, A. C.; AZAMBUJA, A. M. Introdução à estatística: aplicações em ciências exatas. Rio de Janeiro: LTC, 2017. MCCLAVE, J. T.; BENSON, P. G.; SINCICH, T. Estatística para administração e economia. São Paulo: Pearson Prentice Hall, 2009. MEMÓRIA, J. M. P. Breve história da estatística. Brasília: Embrapa Informação Tecnológica, 2004. MOORE, D. S. et al. A prática da estatística empresarial: como usar dados para tomar decisões. Rio de Janeiro: LTC, 2006. MOORE, D. S. Undergraduate programs and the future of academic statistics. The American Statistician, v. 55, n. 1, p. 1-6, 2001. MOORE, D. S.; MCCABE, G. P.; DUCKWORTH, W. M.; SCLOVE, S. L. A prática da estatística empresarial: como usar dados para tomar decisões. Rio de Janeiro: LTC, 2006. MORAIS, C. Escalas de medida, estatística descritiva e inferência estatística. Bragança: IBP, 2005. MOTTA, V. T. Bioestatística. 2. ed. Caxias do Sul: Educs, 2006. NAKAMURA, A. Quais as áreas de atuação para quem se forma em Estatística? 2017. Disponível em: https://bit.ly/2QPWYPE. Acesso em: 1° set. 2019. 188 NISHADI, A. S. Big Data on Cloud Computing, Challenges and Opportunities – A Conceptual Model. International Journal of Science and Research, p. 1146-1150, 2018. OCHOA, C. Amostragem não probabilística: amostra por conveniência. 2015. Disponível em: https://bit.ly/3lEqUwB. Acesso em: 21 set. 2019. ORGANIZAÇÃO MUNDIAL DA SAÚDE. Índice de massa corporal. 2019. Disponível em: https://bit.ly/31Ro6nT. Acesso em: 21 nov. 2019. PARENTI, T. Bioestatística. Porto Alegre: SAGAH, 2017. PEREIRA, P. E. J. Leitura e interpretação de mapas, gráficos e imagens. Indaial: UNIASSELVI, 2019. PORTAL DA EDUCAÇÃO. História da Estatística. 2019. Disponível em: https:// bit.ly/2Z1pGS6. Acesso em: 1° set. 2019. RIBEIRO, A. G. Medidas de dispersão: variância e desvio padrão. Disponível em: https://bit.ly/3hNlYTD. Acesso em: 17 fev. 2020. SAMPAIO, N. A.; DANELON, M. C. T. Aplicações da Estatística nas Ciências. Rio de Janeiro: Associação Educacional Dom Bosco, 2017. SEGAL, T. Big data. 2019. Disponível em: https://bit.ly/3hVLdTG. Acesso em: 21 nov. 2019. SILVA, E. M. et al. Estatística. 5. ed. São Paulo: Atlas, 2018. SILVA, J. S. F. S.; GRAMS, A. L. B.; SILVEIRA, J. F. Estatística. Porto Alegre: SAGAH, 2018. SILVA, L. P. M. Medidas de dispersão: amplitude e desvio. 2020. Disponível em: https://bit.ly/3boKok6. Acesso em: 17 fev. 2020. STEVENSON, W. J. Estatística aplicada à administração. São Paulo: Harper e Row do Brasil, 1981. SURVEYMONKEY. Calculadora de margem de erro. 2020. Disponível em: https:// pt.surveymonkey.com/mp/margin-of-error-calculator/. Acesso em: 17 fev. 2020. TRIOLA, Mario F. Introdução à estatística: atualização da tecnologia. 12. ed. São Paulo: LTC, 2014. VIEIRA, S. Fundamentos de estatística. 6. ed. São Paulo: Atlas, 2019.