Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 ANÁLISE DE DADOS E INTELIGÊNCIA EMPRESARIAL Professor Geraldo Girardi e-mail: geraldogirardi64@gmail.com 2 É importante que o profissional, independente da área de atuação, possa entender o que fazer com os dados, transformando os números crus em conhecimento e assim, possibilitando as tomadas de decisões para resolver os problemas da empresa. De acordo com o problema, a análise de dados pode se basear em gráficos que permitem uma melhor visualização do contexto (por exemplo, histograma e gráfico de dispersão), em ferramentas de maximização de lucro ou minimização de custos, como o Solver do Excel, utilização de teste de hipótese para refutar ou não, uma hipótese inicial, avaliação de medidas de tendência central (média, moda e mediana) e de variabilidade dos dados (variância, desvio-padrão e coeficiente de variação) e a capacidade de previsão de determinadas variáveis como a regressão linear, por exemplo. A seguir, apresentaremos dois exemplos hipotéticos sobre o tema. 1º) Exemplo de aplicação da análise de dados Suponha que o CEO da empresa solicitou que você apresente ações para aumentar as vendas do hidratante “A”, o principal produto da empresa. Para isso, forneceu o quadro 1, com o resumo dos resultados dos últimos seis meses da empresa. 2021/2022 Setembro Outubro Novembro Dezembro Janeiro Fevereiro Venda Bruta $528.000 $550.000 $546.900 $548.000 $553.000 $555.400 Meta de Venda $528.000 $550.000 $572.900 $596.800 $621.700 $647.600 Custos com anúncios $105.600 $95.040 $73.920 $52.800 $31.680 $31.680 Custos com redes sociais $ 0 $10.560 $31.680 $52.800 $73.920 $73.920 Preço unitário por mililitro $2 $2 $2 $1,90 $1,90 $1,90 O pedido do CEO, de solicitar a você a análise dos dados para aumentar as vendas do hidratante “A” pode parecer um pedido um pouco vago, pois apenas com os dados do quadro 1, não será fácil entender quais as barreiras que impedem o aumento das vendas. Fica claro que, nos últimos 4 meses, não foi atingida a meta de venda. Mas quais seriam as possíveis causas? A seguir, podemos listar algumas possíveis barreiras: - O preço do produto está adequado ao mercado de atuação? 3 - Existe capacidade de produção para atender esse crescimento das vendas? - O cliente está satisfeito com o produto? Na visão do cliente, o que agrega valor ao produto? Como estão os atributos do hidratante “A”? Quais as oportunidades de melhoria e pontos fortes do produto? - Como está o desempenho do hidratante “A” comparado com os produtos concorrentes? E o preço do produto em relação à concorrência? - Os custos de anúncio e redes sociais estão impactando de forma adequada às vendas? Qual o público-alvo do hidratante “A”? O canal utilizado é o mais adequado? - O mercado atual está passando por uma recessão ou está saturado? - A estratégia da empresa é aumentar a base de clientes ou ampliar o escopo do produto para outro segmento de clientes? Qual o marketing mais adequado para isso? - Pela análise do quadro, a empresa está trocando os anúncios pelas redes sociais. Essa estratégia, levando em consideração o público-alvo, está correta? Se mantivéssemos os gastos em anúncio, será que as metas seriam cumpridas? Poderíamos listar outras possíveis barreiras que limitam as vendas. É importante, de acordo com a possibilidade da empresa, obter mais dados para que se possa analisar de forma mais profunda o problema e assim, tomar decisões mais assertivas. Para isso, sugere-se um processo básico para tratar os dados de forma adequada, conforme mostra o fluxograma a seguir: 1º Passo) Definir o problema: É muito importante que esteja definido o problema ou objetivo a ser alcançado, para que o analista de dados possa ter foco na análise, evitando se perder no meio dos dados levantados. Muitas vezes, como nesse exemplo apresentado, Definir o problema Decompor o problema e os dados em partes menores Avaliar os dados e tirar as suas conclusões Decidir quais as ações serão tomadas para resolver o problema 4 é necessário pesquisar e levantar novos dados ou hipóteses que auxiliem no entendimento do problema. 2º Passo) Decompor o problema e os dados em partes menores É difícil resolver um problema grande de forma direta. Desta forma, recomenda-se que o problema seja dividido em partes gerenciáveis ou solucionáveis. Assim, resolvendo problemas menores, definidos a partir do problema inicial (grande), você consegue chegar à solução para o problema definido no primeiro passo. A ideia nessa etapa, é decompor os dados procurando comparações interessantes. No exemplo apresentado: a redução do preço unitário nos meses de dezembro à fevereiro coincide com alguma alteração nas vendas brutas? 3º Passo) Avaliar os dados e tirar as suas conclusões: A chave para avaliar os dados é a comparação entre as observações sobre o problema e sobre os dados. No exemplo apresentado: A empresa está testando a redistribuição de gastos com anúncios para redes sociais, mas até o momento, não se sabe sobre o resultado dessa iniciativa (observação sobre o problema). Será que os cortes dos gastos com anúncios podem ter prejudicado a possibilidade da empresa em atingir a meta de vendas? Nessa etapa, é importante fazer as próprias suposições e ter a capacidade de julgá-las. 4º Passo) Decidir quais as ações serão tomadas para resolver o problema Através do estudo dos dados, é necessário juntar suas ideias e julgamentos e assim, propor ações para resolver o problema ou atingir o objetivo. É fundamental que o trabalho de recomendar ações esteja sustentado nos dados e seja expresso de forma concisa e direta. Um exemplo seria dividir o relatório da análise de dados em três partes: contexto do problema, interpretação dos dados e recomendação de ações. Os problemas, em geral, são complexos. Assim, nós usamos modelos mentais para buscar sentido nas informações. O nosso cérebro é como uma caixa de ferramentas e ele escolhe uma ferramenta para ajudar a interpretar as informações obtidas pelos dados. Dessa forma, os modelos mentais tem grande impacto no modo como nós interpretamos os dados. Os modelos mentais determinam o que cada um de nós vê, eles são a nossa lente para 5 ver a realidade. Nós não conseguimos ver tudo, então o nosso cérebro tem de ser seletivo com aquilo que escolhe para focar a sua atenção. O nosso modelo estatístico depende do nosso modelo mental. É importante que as incertezas estejam especificadas, mostrando as lacunas do nosso conhecimento, ou seja, o que nós não sabemos sobre o problema. Isso evita surpresas desagradáveis mais tarde. Conforme explicado anteriormente, existem ferramentas de análise de dados que permitem preencher essas lacunas, melhorando a eficácia das decisões a serem tomadas. Quando buscamos novos dados, é importante continuar concentrado naquilo que estamos tentando fazer com os dados, evitando “se perder” a um monte de dados. Por exemplo, obtendo a lista dos compradores do hidratante “A”, é possível verificar o público-alvo e assim, analisar quem são os clientes do produto. Talvez existam outros clientes e também, aplicações do produto que a empresa não conhecia. Por exemplo, a utilização do hidratante para aplicação pós-barba, o que pode impactar no marketing do produto. A empresa, até então, focava no público feminino jovem. Uma opção, seria vender o mesmo produto com uma nova embalagem mirando o público masculino, o que vai ao encontro do objetivo de aumentar as vendas. Esse novo segmento de mercado pode ser explorado com uma nova estratégia de vendas. 2º) Exemplo de aplicação da análise de dados Suponha que o CEO de uma rede de cafeterias verificou que as vendas de café estão abaixo do valor esperado e pediu para você recomendar ações para reverter esse cenário. Você entrou em contato com a área de Marketinge recebeu uma pesquisa feita com os clientes dessa rede, mensurando vários quesitos do produto e serviço (quantificando com valores de 1 a 5: discorda totalmente=1 e concorda totalmente=5). O quadro, a seguir, contém as médias mensais de cada quesito: 6 2021/2022 Agosto Setembro Outubro Novembro Dezembro Janeiro Localização da loja 4,7 4,6 4,7 4,2 4,8 4,2 Funcionários gentis 3,6 4,1 4,2 3,9 3,5 4,6 Temperatura do café 4,9 4,9 4,7 4,7 4,8 4,9 Valor do café 4,3 3,9 3,7 3,5 3 2,1 Número de lojas participantes 100 101 99 99 101 100 Um dos fundamentos da análise estatística de dados é a comparação, principalmente em estudos observacionais, como foi feito nesse exemplo. Se compararmos os diversos quesitos, é possível verificar uma queda acentuada no valor percebido pelos clientes do produto “café”. Os demais quesitos, apresentaram valores com menor variabilidade (dispersão). A partir disso, pode-se questionar muitas coisas: - A crise econômica impactou no valor percebido pelo cliente, ou seja, a falta de dinheiro tornou os clientes mais sensíveis ao preço do café? - Será que o declínio das vendas tem relação direta com a observação da perda do valor do café? - Esse declínio apresentado na pesquisa ocorre em todas as lojas pesquisadas? Coincide com uma determinada região? Se esse fenômeno ocorre em determinada região, o que elas têm em comum? Regiões economicamente mais ricas apresentaram queda de valor do café ou não? Se sim, a situação pode ser pior (pois regiões mais ricas “puxam” a média para cima, mascarando valores mais baixos do valor do café) - A concorrência ficou mais acirrada? A competição ocorre predominantemente em termos de qualidade? Preço? Uma forma de estruturar hipóteses seria desenhar o relacionamento das variáveis de acordo com o modelo mental ou teoria de como as coisas podem estar acontecendo, conforme fluxograma a seguir: Queda na economia As pessoas têm menos dinheiro A rede de café não oferece valor As vendas da rede caem 7 Analisando esse exemplo, é possível que um profissional recomende baixar o preço do café. Por outro lado, o gerente de Marketing discorda da opção e baixar o preço, pois na visão do MKT a redução de preço pode destruir a marca no mercado. O gerente de Marketing quer patrocinar uma campanha para convencer às pessoas do valor do café. E agora? Como não temos dados para suportar essas teorias, reduzir preço ou convencer às pessoas, pode ser interessante realizar um experimento. Para isso, utiliza-se o chamado “grupo de controle” (grupo de indivíduos que representam a situação atual), ou seja, realizar um experimento com controle. Dessa forma, pode-se escolher uma região onde o preço do café é reduzido e assim, avaliar o comportamento das vendas. Por outro lado, poderia ser escolhida uma outra região onde o preço permaneceria o mesmo (preço atual), o que permitiria a comparação entre essas duas situações. Com o “grupo de controle” (preço atual) e o grupo de experimento (preço reduzido) é possível realizar a comparação. Para que a comparação seja válida, os grupos de controle e experimentais precisam ser iguais, para não compararmos “bananas com abacaxis”. Se usarmos regiões diferentes, temos várias outras variáveis que 8 podem mascarar o resultado, como por exemplo, a situação econômica distinta das duas regiões. O ideal é realizar uma seleção aleatória dos membros ou lojas de uma determinada região, evitando que outros fatores não controláveis possam distorcer os resultados e assim, tirarmos conclusões erradas do teste. A aleatoriedade permite que uma variável não controlável (variável de confusão) ainda pode afetar o resultado, mas como os dois grupos vão ser afetados igualmente, por serem escolhidos de forma aleatória, a comparação é válida. Dessa forma, teremos uma representação igual entre os grupos de controle e grupos experimentais, conforme é mostrado na figura a seguir: Mas, além da possibilidade de analisar a influência do preço nas vendas, seria interessante fazer um segundo grupo experimental de forma a testar a 9 visão do Marketing. A área de MKT acredita que a empresa deveria fazer uma campanha de valorização da marca junto aos clientes. Assim esse grupo experimental terá lojas nas quais os colaboradores terão o objetivo de convencer os clientes sobre o valor que a marca tem. Bom, com o planejamento do experimento realizado, foi estabelecido um processo para que fique claro cada passo do experimento e assim, seja possível avaliar qual a estratégia a ser seguida. A figura a seguir, retrata esse processo: O resultado do teste comparativo, realizado durante um mês, nesta situação hipotética, mostra que a receita diária para o grupo experimental onde foi feita a valorização da marca, mostrou ser mais eficaz que reduzir os preços ou manter a situação atual. 10 Após esses exemplos, vamos abordar a análise de dados para a tomada de decisão em uma organização. Para a tomada de decisão para resolvermos um problema, três formas são possíveis: - Intuição: é ver apenas uma opção e, em geral, não é baseada em dados; - Heurística: ocorre em grande parte das decisões, onde verifica-se algumas opções. Em geral, é uma maneira de resolver um problema que tende a fornecer respostas precisas, sem garantir a otimização; - Otimização: analisa todas as opções e assim, resulta em uma solução ideal, ou seja, é possível encontrar a resposta que maximiza ou minimiza o objetivo traçado, de acordo como o mesmo. O Solver do Excel é um exemplo de ferramenta de otimização. Um exemplo de Heurística, encontra-se a seguir. Essa maneira esquemática de descrever a heurística é chamada de diagrama rápido e frugal (simples): Intuição (pouco confiável) Heurística (maioria dos pensamentos) Otimização (situação ideal) 11 Uma forma interessante de analisar dados é apresentá-los em forma de imagens, como por exemplo, o histograma, que permite resumir os dados. Fica mais fácil verificar a abrangência dos dados, as medidas de tendência central (como a média, por exemplo), a dispersão ou variabilidade dos dados, além da forma de distribuição (assimetria dos dados). Podemos usar o Microsoft Excel para construirmos um histograma, clicando em Dados, Análise de Dados e Histograma. Caso não esteja instalada a Análise de dados, seguir os seguintes passos: - Abrir o Excel - Clicar em Arquivo - Clicar em “Mais” - Clicar em Opções - Clicar em Suplementos - Clicar em “Ir” em Gerenciar Suplementos - Flegar em Ferramentas de Análise. Um exemplo de histograma encontra-se a seguir: 12 Os bancos de dados são uma coleção de tabelas que gerenciam os dados de modo a tornar essas relações mais explícitas. Os softwares de banco de dados gerenciam essas tabelas. Nós precisamos escolher as tabelas de dados que são relevantes para resolver o problema. Uma das maneiras mais eficientes de administrar dados é através do Sistema Gerenciador de Banco de Dados (SGBD). O autor Davenport (2018), no seu livro Competição Analítica: vencendo através da nova ciência, conceitua a análise como o uso amplo de dados, análise quantitativa e estatística, modelos preditivos e explicativos, com uma gestão baseada em fatos para orientar decisões e ações. A análise pode ser utilizada para as decisões humanas ou pode orientar decisões totalmente automatizadas. Davenport (2018) conceitua quatro tipos de análises e apresenta um gráfico apresentando cada tipo de análise de acordo com a sofisticação de inteligência. a) Análise Descritiva: Também é conhecida como Business Intelligence ou relatório de desempenho. Fornece acesso a dados históricos e atuais. Fornece também, a habilidade de alertar, explorar e reportar utilizando dados internos e externos provenientes de uma variedade de fontes;b) Análise Preditiva: Utiliza técnicas quantitativas (como segmentação e análise de redes) e tecnologias (modelos e sistemas baseados em regras) que utilizam dados antigos para predizer o futuro. Essa análise se baseia em técnicas estatísticas, bem como em outras técnicas desenvolvidas mais recentemente que recaem na categoria geral de mineração de dados. A meta dessas técnicas é conseguir prever se o cliente está propenso a migrar para um concorrente, o que o cliente tende a comprar a seguir e em qual quantidade, a quais promoções o cliente reagiria e qual o risco de crédito do cliente, por exemplo; c) Análise Prescritiva: Utiliza uma variedade de técnicas quantitativas, como a otimização do Solver-Excel, e tecnológicas (modelos e aprendizado de máquina e ferramentas de recomendação) para especificar comportamento e ações ideais. Historicamente, esse grupo de técnicas costuma ser estudado sob o guarda-chuva da pesquisa operacional ou das ciências administrativas, e seu objetivo geral é otimizar o desempenho de um sistema; 13 d) Análise Autônoma: emprega inteligência artificial ou tecnologias cognitivas (como o aprendizado de máquina) para criar e melhorar modelos com os dados, com pequeno envolvimento de analistas humanos. Os autores Sharda, Delen e Turban (2019) dividem a análise de dados em três tipos (descritiva, preditiva e prescritiva), relacionando as perguntas ou questionamentos, os facilitadores ou ferramentas e os resultados desejados para cada tipo de análise, conforme figura a seguir: A figura a seguir, mostra um exemplo de aplicação da análise de dados na cadeia de valor do varejo: 14 Atualmente, um bom profissional deve analisar os dados com o auxílio da Tecnologia de Informação (TI). Podemos citar vários exemplos, como o Microsoft Excel, pacotes de Estatísticas tradicionais (como o Minitab ou Stata), visualização complexa de dados e sistemas analíticos descritivos (Oracle Hyperion e IBM Cognos), software abrangente de análise descritiva, preditiva e prescritiva (SAS e IBM) e módulos analíticos e de relatórios de grandes sistemas empresariais (SAP e Oracle), além da programação estatística de código aberto (como o “R” e o Python) , estão evoluindo para abordar as análises estatísticas tradicionais e as grandes quantidades de dados desestruturados. A linha do tempo, na figura a seguir, exibe a terminologia utilizada para descrever a análise de dados desde os anos 70: A análise de dados pode apoiar uma grande parte de processos de negócios, mesmo com diferentes estratégias de diferenciação no mercado, seja de um produto distinto ou de venda de commodities. No primeiro caso, a análise de dados pode identificar os clientes mais fiéis e lucrativos e assim, cobrar um preço diferenciado para 15 os mesmos. No segundo caso, nas commodities, é importante ter custo baixo para competir, o que impacta na otimização do nível de estoque, otimizando a cadeia de suprimentos. Atualmente, os gestores possuem muitos dados sobre os seus negócios, pois sistemas como o ERP (Planejamento de Recursos Empresariais), o POS (Sistemas de Ponto de Vendas) e os sites, entre outros recursos, têm gerado transacionais com volume e qualidade cada vez maiores em relação a qualquer outro período vivido pela humanidade. O volume de dados disponíveis tem a tendência de aumentar. Nos paletes e caixas de produtos é comum encontrarmos os RFID (Dispositivos de identificação por radiofrequência), máquinas e veículos possuem uma grande quantidade de dados sensoriais, assim como celulares que possuem uma grande quantidade de dados sobre o comportamento do usuário. Há evidências que as decisões baseadas na análise de dados têm maiores chances de estarem corretas do que aquelas decisões baseadas em intuições. Assim, é melhor saber no que acreditar do que sentir ou achar algo. Fornecedores de Business Intelligence como a SAP e a Oracle, por exemplo, estão incorporando análises preditivas, descritivas e prescritivas em seus produtos, permitindo que os gestores analisem seus dados de sistema em tempo real e monitorem a performance do negócio. Inclusive na área de esportes, a análise de dados é bastante utilizada (a utilização da estatística no beisebol ganhou visibilidade no livro e no filme “O Homem que Mudou o Jogo” de 2011, com Brad Pitt). Exemplos de aplicação da análise de dados nas áreas de uma empresa: Área Aplicações da Análise de Dados Marketing Precificação Localização de lojas e sucursais Alvos de promoções Customização de sites da internet Colocação de propaganda em mídias digitais Logística Que níveis de estoque manter Onde instalar centros de distribuição Roteamento de produtos ou veículos Carregamento de caminhões Finanças Indutores do desempenho financeiro 16 Boletins de desempenho Previsões de vários tipos Recursos Humanos Quais empregados contratar Quais empregados tendem a deixar a empresa Nível de remuneração dos empregados Quais competências os colaboradores devem possuir Pesquisa e Desenvolvimento Que atributos de produtos são mais desejados pelos clientes Quão eficaz é determinado produto Qual desenho de produto é mais atraente Davenport (2013), no seu livro Dados Demais, apresenta três estágios e seis passos para a análise quantitativa, conforme quadro a seguir: Análise Quantitativa Estágios Passos 1º) Formulação do problema Reconhecimento do problema Revisão das descobertas anteriores 2º) Solução do problema Modelagem Coleta de dados Análise de dados 3º) Resultados: comunicação e ação Apresentar resultados e implementar as ações A seguir, o autor Davenport apresenta algumas perguntas que o analista de dados deveria fazer na análise quantitativa: 17 Inteligência de negócios (BI – business intelligence) é um termo guarda-chuva que combina arquiteturas, ferramentas, bases de dados, ferramentas analíticas, aplicativos e metodologias. Assim como DSS, trata-se de uma expressão de livre conteúdo, com significados diferentes de uma pessoa para outra. Parte da confusão provém da enxurrada de siglas e expressões associadas, como gestão de desempenho de negócios (BPM – business performance management). O principal objetivo do BI é possibilitar acesso interativo (às vezes em tempo real) a dados, além de permitir a transformação de dados em informações, depois em decisões e por fim em ações. Um sistema de BI apresenta quatro componentes principais: a) Data Warehouse (DW): com seus dados-fonte; b) Análise de Negócios: uma coleção de ferramentas para manipular, minerar e analisar os dados no DW; c) Business Performance Management (BPM): para monitorar e analisar desempenhos; d) Dashboard: permite a interface com o usuário. Um formato genérico de BI está ilustrado na figura a seguir: 18 Por outro lado, Big Data são dados que não podem ser armazenados em uma única unidade. Refere-se a dados existentes em muitas formas diferentes: estruturados, não estruturados, em fluxo e assim por diante. As principais fontes de tais dados são clickstreams a partir de sites, postagens em mídias sociais como Facebook e dados provenientes de tráfego, de sensores ou da meteorologia Os dados representam o principal ingrediente de qualquer iniciativa de BI, ciência de dados e análise de negócios. Na verdade, eles podem ser encarados como a matéria-prima daquilo que essas populares tecnologias de decisão acabam produzindo: informações, insight e conhecimento. A figura a seguir, apresenta um resumo da transformação de dados em conhecimento. 19 Vamos iniciar a parte de estatística, que é uma das ferramentas de análise de dados que auxilia o gestor na tomada de decisão. 1- ESTATÍSTICA A Estatística originou-se desde a antiguidade, onde os povos já registravam o número de habitantes, nascimentos,óbitos e faziam estimativas das riquezas individuais e social. No século XVIII, Godofredo Achenwall criou o vocábulo Estatística, dando ao estudo, um caráter científico. A estatística se refere ao conjunto de técnicas usados na coleta, organização, análise e interpretação de dados para a tomada de decisão. A estatística é utilizada na Administração para auxiliar na tomada de decisão mediante a compreensão das fontes de variação e identificação dos padrões e relacionamentos dos dados. A Estatística pode ser definida como a ciência que permite recolher, classificar, tratar e sintetizar dados numéricos, ou seja, permite chegar à conclusão do todo (população) a partir da observação de partes do todo (amostras). O objeto da Estatística é o estudo dos fenômenos aleatórios, também chamados de estatísticos. Parâmetros da População Estimadores da Amostra Média µ Variância σ2 s² Desvio Padrão σ s Proporção π p 20 Alguns conceitos básicos são importantes para o estudo da Estatística: ● População: é o conjunto de todos os indivíduos ou objetos que apresentam uma ou mais características comuns que se pretende observar; ● Amostra: é o subconjunto da população, para o qual serão estudadas essas características. É fundamental o estudo da teoria da amostragem para que a amostra selecionada represente a população; ● Variáveis Qualitativas: os valores são expressos por atributos, como por exemplo, cor do cabelo, nível de concordância com uma determinada afirmação; ● Variáveis Quantitativas: os valores são expressos em números, podendo ser uma variável discreta (número de alunos) ou contínua (peso de uma pessoa). ● Fenômenos (experimentos) aleatórios: são aqueles que, mesmo repetidas vezes sob condições semelhantes, apresentam resultados imprevisíveis. Por exemplo, se lançarmos uma moeda para cima e verificarmos a proporção do lado “cara” em relação ao total de lançamentos, esta proporção deve oscilar muito próximo de 50% dos lançamentos, se a moeda for equilibrada; ● Fenômenos (experimentos) determinísticos: são aqueles em que é possível determinar quais serão os efeitos antes da sua realização. Um exemplo é a aplicação da lei da Física (tempo que um objeto demora para atingir o solo de uma determinada altura, no vácuo, tendo a aceleração da gravidade conhecida); ● Estatística Descritiva: consiste nas técnicas utilizadas para a coleta, a organização e descrição dos dados através da criação de quadros, gráficos e indicadores numéricos. O objetivo é facilitar a interpretação dos dados; ● Estatística Indutiva (Inferência Estatística): consiste nas técnicas pelas quais as decisões sobre uma população ou processo são tomadas baseando-se na observação de uma amostra. Como essas decisões são tomadas sob condições de incerteza, é necessário o emprego de conceitos de probabilidade. A estatística indutiva tem o objetivo de tirar conclusões sobre a população a partir da informação recolhida na amostra. 21 Na Estatística descritiva utilizamos gráficos para apresentar os dados estatísticos, de forma a proporcionar um melhor entendimento do fenômeno pesquisado. A seguir, um link de como construir um gráfico no Excel (vídeo no YouTube): https://www.youtube.com/watch?v=P_SnCOqMYqQ. Gráfico em Linha: Gráfico em Colunas https://www.youtube.com/watch?v=P_SnCOqMYqQ 22 Gráfico em Barras Gráfico em Setores (Pizza) Pictograma 23 1.1 -Tipos de dados Os dados são classificados em dados não agrupados (também chamados dados brutos) e dados agrupados (que dividem-se em dados sem intervalo de classe e com intervalo de classe). O quadro, a seguir, mostra um exemplo de aplicação. Os dados referem-se às notas dos alunos em uma prova de inglês realizada em uma turma do ensino médio. Dados NÃO Agrupados Dados Agrupados SEM intervalo de classe COM intervalo de classe As notas da prova de inglês de 20 alunos de uma turma foram: {3,8,9,7,6,2,7,6,3,5,8,9,3,7,8,4,5,7,6,3} Notas Frequência 2 I = 1 3 IIII =4 4 I =1 5 I I = 2 6 I II = 3 7 IIII = 4 8 III = 3 9 I I =2 Notas da prova Frequência 2 ├ 4 5 4 ├ 6 3 6 ├ 8 7 8 ├10 5 ├ :intervalo fechado à esquerda e aberto à direita 24 1.2- Medidas de Posição – Tendência Central Essas medidas nos orientam quanto à posição da distribuição em relação ao eixo horizontal (eixo das abscissas). As medidas de posição mais importantes são as medidas da tendência central, que recebem tal denominação pelo fato de os dados observados tenderem, em geral, a se agruparem em torno de valores centrais. Dessas medidas, destacam-se: Média aritmética, Mediana e a Moda. 1.2.1- Média ou Média Aritmética Simples: é o quociente da divisão da soma dos valores da variável pelo número deles. Utiliza-se o símbolo 𝑋𝑋�para amostras e “µ” para a população. Propriedades da média: a) A soma algébrica dos desvios (diferença entre cada elemento e a média) tomados em relação à média é nula. Aplicando no exemplo anterior: 𝒙𝒙𝒊𝒊 𝑋𝑋� (𝑋𝑋𝑖𝑖 - 𝑋𝑋�) 3 3 0 5 3 +2 1 3 -2 4 3 +1 2 3 -1 ---------- Total (∑(𝑋𝑋𝑖𝑖 − 𝑋𝑋�) 0 b) Somando-se ou subtraindo-se uma constante (c) de todos os valores de uma variável, a média fica aumentada ou diminuída dessa constante (c). Se somarmos “5” a cada valor da distribuição teremos: 𝒙𝒙𝒊𝒊 𝒙𝒙𝒊𝒊 + 5 𝑋𝑋� 3 8 𝑋𝑋� = ∑𝑋𝑋𝑖𝑖 𝑛𝑛 = 40 5 = 8 Logo, somando “5” a cada termo, a média fica acrescida de “5” (3 +5=8) 5 10 1 6 4 9 2 7 ---------- Total =40 A média de “n” números é sua soma dividida por “n” Ex: {3,5,1,4,2} Média= ( 3+5+1+4+2) 5 = 15 5 = 3 25 c) Multiplicando-se ou dividindo-se todos os valores de uma variável por uma constante (c), a média fica multiplicada ou dividida por essa constante. Se multiplicarmos por “2” cada valor da distribuição, teremos: 𝒙𝒙𝒊𝒊 𝟐𝟐.𝒙𝒙𝒊𝒊 𝑋𝑋� 3 6 𝑋𝑋� = ∑𝑋𝑋𝑖𝑖 𝑛𝑛 = 30 5 = 6 Logo, multiplicando por “2” cada termo, a média fica multiplicada por “2” (3x2=6) 5 10 1 2 4 8 2 4 ---------- Total =30 1.2.1.1- Média de Dados Não Agrupados: Para o cálculo da média de dados não agrupados utilizamos a definição da média aritmética simples, expressa nas equações a seguir: Σ: letra que significa o somatório (somar todos os números que representam uma variável); 𝒙𝒙𝒊𝒊: representa uma variável (no exemplo abaixo, é o número de litros de leite que uma vaca produz diariamente, pode ser a altura dos alunos, o peso ou qualquer variável pesquisada); 𝒇𝒇𝒊𝒊: é a frequência simples, ou seja, o número de dados da distribuição ( ∑𝑓𝑓𝑖𝑖= n) Ex: A produção leiteira da vaca “A”, durante uma semana de controle foi o seguinte: 10, 14, 13, 15, 16, 18 e 12. A média aritmética será: (10+14+13+15+16+18+12) 7 = 98 7 = 14 litros/dia. 1.2.1.2- Média de Dados Agrupados SEM Intervalo de classe: Para o cálculo da média de dados agrupados sem intervalo de classe, multiplicamos o “𝑥𝑥𝑖𝑖" pela frequência de cada variável, dividindo pelo total de dados. A fórmula a seguir mostra a forma de cálculo: ● ● ● 𝑋𝑋� = ∑𝑋𝑋𝑖𝑖 𝑛𝑛 ou 𝑋𝑋� = ∑𝑋𝑋𝑖𝑖∑𝑓𝑓𝑖𝑖 𝑋𝑋�= ∑(𝑥𝑥𝑖𝑖.𝑓𝑓𝑖𝑖)∑𝑓𝑓𝑖𝑖 ou 𝑋𝑋 �= ∑(𝑥𝑥𝑖𝑖.𝑓𝑓𝑖𝑖) 𝑛𝑛 26 O exemplo, a seguir, demonstra a aplicação do cálculo da média de dados agrupados sem intervalo de classe: Quantidade de Televisores por família no Condomínio Alpha xi (nº TVs) fi (nº de famílias) xi.fi 0 2 0.2 = 0 1 6 1.6 =6 2 10 2.10 =20 3 12 3.12 = 36 4 4 4.4 = 16 -------------- ∑𝑓𝑓𝑖𝑖=2+4+6+10+12+4=34 ∑(𝑥𝑥𝑖𝑖 .𝑓𝑓𝑖𝑖)=0+6+20+36+16=78 TVs 𝑋𝑋�= ∑(𝑥𝑥𝑖𝑖.𝑓𝑓𝑖𝑖) ∑𝑓𝑓𝑖𝑖= ( 0+6+20+36+16) (2+6+10+12+4) = 78 34 =2,29televisores por família 1.2.1.3- Média de Dados Agrupados COM Intervalo de classe Utilizando o exemplo sobre a Estatura dos alunos do colégio “A” anteriormente estudado teremos: (xi representa a altura média do intervalo de classe (média entre o limite inferior e superior da classe) e o fi representa a frequência simples). i Estaturas (cm) fi xi (ponto médio da classe) xi.fi 1 150 ├ 154 4 152= (150+154) 2 152x4=608 2 154 ├158 9 156 156x9=1404 3 158 ├ 162 11 160 160x11=1760 4 162 ├ 166 8 164 164x8=1312 5 166 ├ 170 5 168 168x5=840 6 170 ├ 174 3 172 172x3=516 Σfi = n = 40 Σ = 6440 cm O cálculo da média é feito utilizando o mesmo conceito dos dados agrupados sem intervalo de classe, apenas utilizando a média do intervalo de classe: 𝑋𝑋�= ∑(𝑥𝑥𝑖𝑖.𝑓𝑓𝑖𝑖) ∑𝑓𝑓𝑖𝑖 = (4x152 + 9x156 + 11x160 + 8x164 + 5x168 + 3x172 (4 + 9 + 11 + 8 + 5 +3) = 6440 40 =161 cm 27 Portanto, a altura média da classe é 161 cm. Se tivéssemos a frequência relativa (percentual ao invés de números de alunos) a forma de calcular seria a mesma, conforme será demonstrado a seguir: i Estaturas (cm) fri (relativa) xi (ponto médio da classe) xi.fi 1 150 ├ 154 4/40=10% 152 152x10=1520 2 154 ├158 9/40=22,5% 156 156x22,5=3510 3 158 ├ 162 11/40=27,5% 160 160x27,5=4400 4 162 ├ 166 8/40=20% 164 164x20%=3280 5 166 ├ 170 5/40=12,5% 168 168x12,5%=2100 6 170 ├ 174 3/40=7,5% 172 172x7,5%=1290 Σfi =n = 100% Σ = 16.100 𝑋𝑋�=∑(𝑥𝑥𝑖𝑖.𝑓𝑓𝑖𝑖) ∑𝑓𝑓𝑖𝑖 = (152x10% + 156x22,5% + 160x27,5% + 164x20% + 168x12,5% + 172x7,5%) 100% = 𝑋𝑋�=∑(𝑥𝑥𝑖𝑖.𝑓𝑓𝑖𝑖) ∑𝑓𝑓𝑖𝑖 =16100 100 =161 cm A média aritmética ponderada, a média geométrica e a média harmônica também são usadas. Média Aritmética Ponderada ∑ ∑= i ii p px MAP Exemplo: Disciplina Nota Peso Matemática 7 3 Português 9 2 MAP=(7𝑥𝑥3+9𝑥𝑥2) 5 = 39 5 = 7,8 Média Geométrica n nxxxMG ...21= Utilizada para comparar diferentes itens que possuem diferentes escalas numéricas.Ex: média geométrica de 2 e 6 MG= √2.62 =√122 =3,46 Média Harmônica Simples ∑ = ix nMH 1 A média harmônica é uma das três médias de Pitágoras. Para todos os conjuntos de dados positivos que contêm, pelo menos um par de valores distintos, a média harmônica é sempre a mínima das três médias, enquanto que a média aritmética é sempre a maior das três e a média geométrica está sempre no meio. Exemplo: média harmônica entre 2 e 6 MH= 2 1 2+ 1 6 = 2(¨6+2) 12 = 2.12 8 = 3. 1.2.2 - MODA (Mo): valor que ocorre com maior frequência em uma série de valores, ou seja, aquele valor que “mais aparece”. Por exemplo, o salário modal ou a moda dos salários de uma empresa, é o salário recebido pelo maior número de colaboradores da empresa analisada. A moda é o valor da distribuição que ocorre com maior frequência (“o que mais aparece”). Caso não ocorra repetição do valor ou dado, a distribuição é chamada amodal. https://pt.wikipedia.org/w/index.php?title=M%C3%A9dias_de_Pit%C3%A1goras&action=edit&redlink=1 https://pt.wikipedia.org/wiki/M%C3%A9dia_aritm%C3%A9tica https://pt.wikipedia.org/wiki/M%C3%A9dia_geom%C3%A9trica https://pt.wikipedia.org/wiki/M%C3%A9dia_geom%C3%A9trica 28 1.2.2.1- Moda de Dados Não Agrupados A moda será o valor de maior frequência ou aquele que mais se repete. Ex1: Considere a série de dados: {7, 8, 9, 10, 10, 10, 11, 12, 13 e 15}. O valor 10, que aparece três vezes, é a moda da série, ou seja, moda=10. - Considere a série de dados: {3, 5, 8,10, 12 e 13} Nesta série nenhum valor aparece mais que outro, ou seja, é uma série amodal. - Considere a série de dados: {2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, e 9}. Nesta série temos dois valores, 4 e 7, que aparecem três vezes, ou seja, temos uma série bimodal. 1.2.2.2- Moda de Dados Agrupados Sem Intervalo de Classe A moda será o valor de maior frequência ou aquele que mais se repete. No quadro a seguir, basta verificar qual o maior 𝑓𝑓𝑖𝑖 e encontrar o valor do 𝑋𝑋𝑖𝑖 correspondente, que será a moda da distribuição. xi (nº TVs) fi (nº de famílias) A moda dessa distribuição é 3 (maior 𝑓𝑓𝑖𝑖) 0 2 1 6 2 10 3 12 4 4 1.2.2.3- Moda de Dados Agrupados Com Intervalo de Classe A classe que apresenta maior frequência é denominada classe modal. O método mais simples para o cálculo da moda consiste em tomar o ponto médio da classe modal. A fórmula abaixo mostra como calcular a moda: Moda= (𝐿𝐿𝑖𝑖𝐿𝐿𝑖𝑖𝐿𝐿𝐿𝐿𝐿𝐿𝑛𝑛𝑓𝑓𝐿𝐿𝐿𝐿𝑖𝑖𝐿𝐿𝐿𝐿+𝐿𝐿𝑖𝑖𝐿𝐿𝑖𝑖𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝑖𝑖𝐿𝐿𝐿𝐿) 2 No exemplo estudado das estaturas dos alunos, moda será igual a 160 (3ª classe), pois será a média da classe com maior número de valores (11): Mo= (𝐿𝐿𝑖𝑖𝐿𝐿𝑖𝑖𝐿𝐿𝐿𝐿𝐿𝐿𝑛𝑛𝑓𝑓𝐿𝐿𝐿𝐿𝑖𝑖𝐿𝐿𝐿𝐿+𝐿𝐿𝑖𝑖𝐿𝐿𝑖𝑖𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝑖𝑖𝐿𝐿𝐿𝐿) 2 = (158+162) 2 = 160cm i Estaturas (cm) fi 1 150 ├ 154 4 2 154 ├158 9 3 158 ├ 162 11 4 162 ├ 166 8 5 166 ├ 170 5 6 170 ├ 174 3 Σfi = n = 40 29 VANTAGENS DA MODA: - Medida de rápida obtenção. - Valor mais típico da distribuição (mais aparece). Vídeo sobre Cálculo de Média Aritmética e Moda: https://youtu.be/QKjdq38LdBc 1.2.3. MEDIANA (Md): valor que ocupa a posição central, quando os dados estão colocados em ordem (rol), crescente ou decrescente. Em outras palavras, a mediana de um conjunto de valores ordenados é aquela que separa esse conjunto em dois subconjuntos de um mesmo número de elementos. 1.2.3.1- Mediana de Dados Não Agrupados O primeiro passo é colocar os números em ordem crescente ou decrescente, chamado rol. Em seguida, tomar o valor central, aquele que divide o conjunto em duas partes iguais e encontrar a mediana. Ex1: número ímpar de valores:{5, 13, 10, 2, 18, 15, 6, 16 e 9}. (9 termos) Colocando em ordem crescente: {2, 5, 6, 9, 10, 13, 15, 16,18}. A mediana dessa série de valores é 10. Assim, com n= 9, temos que: Mediana = (𝑛𝑛+1) 2 = (9+1) 2 = 5, ou seja, o 5º termo =10. Ex2: número par de valores: {2, 10, 21, 18, 12, 6, 13, 7} (8 termos) Colocando em ordem crescente: {2, 6, 7, 10, 12, 13, 18, 21}. Como o número de termos é par, não existe o termo central que separa o conjunto em dois subconjuntos iguais. Nesse caso, calcula-se a média entre os dois valores centrais da série, nesse caso teremos: A mediana é o valor do elemento do meio se “n” é ímpar ou a média dos dois valores centrais (do meio) se “n” é par. A mediana divide a distribuição em duas partes iguais. “n” ímpar Mediana (elemento de ordem) =(𝑛𝑛+1) 2 “n” par Mediana (elementos de ordem) = Média de (𝑛𝑛 2 ) e (𝑛𝑛 2 + 1) https://youtu.be/QKjdq38LdBc 30 𝑛𝑛 2 = 8 2 = 4 (4º termo) e (𝑛𝑛 2 + 1) = 8 2 + 1= 4+1=5 (5º termo) Mediana=Média do 4º e 5º termo= (10+12) 2 = 22 2 = 11 (Mediana é 11). Observações: ● A média e a mediana, não tem, necessariamente, o mesmo valor. No exemplo 1, temos a mediana igual a 10 e a média igual a 10,44: 𝑋𝑋�= (2+5+6+9+10+13+15+16+18 9 = 94 4 = 10,44 ● A mediana depende da posição e não dos valores da série ordenada. Essa é uma diferença marcante entre a mediana e a média, pois a média se deixa influenciar e muito, pelos valores extremos da série. Por exemplo, sejam as séries abaixo, a representação de salários de funcionários de 2 empresas: Empresa A (R$): 1200, 1500, 2000, 3500, 4000, 5800 e 9800 Média salarial da empresa: 𝑋𝑋� = ∑𝑋𝑋𝑖𝑖 𝑛𝑛 = (1200+1500+2000+3500+4000+5800+9800) 7 = R$ 3971,43 Mediana: R$3500,00 Empresa B (R$): 1400, 1800, 3000, 4200, 6000, 10000, 22000 Média salarial da empresa: 𝑋𝑋� = ∑𝑋𝑋𝑖𝑖 𝑛𝑛 = (1400+1800+3000+4200+6000+10000+22000) 7 = R$ 6914,29 Mediana: R$4.200,00 Nota-se uma maior diferença entrea média e a mediana na empresa “B” devido à influência dos valores extremos, ou seja, da variabilidade dos salários da empresa (será estudado adiante este fenômeno). 1.2.3.2- Mediana de Dados Agrupados Sem Intervalo de Classe A mediana de dados agrupados sem intervalo de classe é calculada da mesma forma que a mediana de dados não agrupados. Ex1: número ímpar de valores: “n” ímpar Mediana (elemento de ordem) =(𝑛𝑛+1) 2 31 Calcule a mediana do exemplo a seguir: xi (nota) fi (nº de alunos) 2 2 4 2 6 6 8 2 9 1 n=∑𝑓𝑓𝑖𝑖=2+2+6+2+1=13 , logo: Mediana= (13+1) 2 = 14 2 = 7, ou seja, 7º termo, o que corresponde a (Mediana=6). Para ficar mais claro, pode-se ordenar as notas: {2,2,4,4,6,6,6,6,6,6,8,8,9} Ex2: número par de valores C Calcule a mediana do exemplo a seguir: xi (nota) fi (nº de alunos) 3 1 5 6 6 1 7 6 9 4 n=∑𝑓𝑓𝑖𝑖= 1+6+1+6+4=18 , logo: 𝑛𝑛 2 = 18 2 = 9 (9º termo) e (𝑛𝑛 2 + 1) = 18 2 + 1= 9+1=10 (10º termo) Mediana=Média do 9º e 10º termo= (7+7) 2 = 14 2 = 7 (Mediana é 7). Para ficar mais claro, pode-se ordenar as notas: {3,5,5,5,5,5,5,6,7,7,7,7,7,7,9,9,9,9} 1.2.3.3- Mediana de Dados Agrupados Com Intervalo de Classe A mediana de dados agrupados com intervalo de classe é o valor que separa a distribuição em duas partes iguais, ou seja, com o mesmo número de valores (50% dos valores são menores ou iguais a mediana e 50% dos valores são maiores ou iguais a mediana (Alguns autores como Dante, Luiz Roberto – Matemática – Editora Ática, 2004, Mestre em Matemática pela USP, utiliza a fórmula de dados não agrupados ou agrupados sem intervalo de classe, o que não é tão preciso). A grande maioria dos autores faz uma interpolação linear para encontrar, dentro da classe, o valor da mediana. Esse método é o mais preciso e vamos adotá-lo “n” par Mediana (elementos de ordem) = Média de (𝑛𝑛 2 ) e (𝑛𝑛 2 + 1) 32 na disciplina. O quadro, a seguir, mostra o tempo de espera para atendimento em um posto de saúde. Tempo de espera do paciente para atendimento (minutos) Frequência Simples (𝑓𝑓𝑖𝑖) Frequência Acumulada (𝐹𝐹𝑖𝑖) 30 ├ 40 2 2 40 ├ 50 2 2+2=4 50 ├ 60 4 4+4=8 60├ 70 19 8+19=27 70 ├ 80 24 27+24=51 80 ├ 90 39 51+39=90 90 ├ 100 15 90+15=105 100 ├ 110 3 105+3=108 110├ 120 2 108+2=110 Total = n= ∑𝑓𝑓𝑖𝑖 110 Como temos o “n” par (n=110), encontra-se o n/2, logo, 55º termo a partir do tempo mais baixo da distribuição. Assim, o 55º termo está na 6ª classe, ou seja, entre 80 e 89 (se “n” fosse ímpar, utiliza-se o número com vírgula- ex: n=119, logo n/2=59,5). Como a classe inicia no 52º termo, o 55º será o quarto termo dentreos valores da 6ª classe, ou seja mais próximo de 80 minutos do que 89 minutos (alguns autores, como o Dante, simplifica o cálcula fazendo a média entre o limite inferior e o superior da classe, o que daria uma mediana de 84,5). Considerando a hipótese de que os 39 valores da 6ª classe estão igualmente distribuídos ao longo da classe, calcula-se a mediana pela fórmula: Mediana= 𝐿𝐿𝑖𝑖+ 𝑗𝑗.ℎ 𝑓𝑓 𝑳𝑳𝒊𝒊:Limite inferior da classe; j: posição do termo da mediana no intervalo de classe; h: amplitude do intervalo de classe f: frequência simples da classe da mediana Limite inferior da classe Limite superior da classe j h 33 Aplicando no exemplo do tempo de espera para atendimento, teremos: 𝐿𝐿𝑖𝑖= 80 𝑗𝑗 = (55 − 51) = 4 (55º - 51º: último termo da classe anterior) h=10 (40-30=50-40=..) e f=39 (frequência simples da classe da mediana) Mediana= 80 + 𝟒𝟒.𝟏𝟏𝟏𝟏 𝟑𝟑𝟑𝟑 = 81,02 (6ª classe) Vejamos o exemplo utilizado anteriormente, da estatura dos alunos: i Estaturas (cm) fi Fi 1 150 ├ 154 4 4 2 154 ├158 9 4+9=13 3 158 ├ 162 11 13+11=24 4 162 ├ 166 8 24+8=32 5 166 ├ 170 5 32+5=37 6 170 ├ 174 3 37+3=40 Σfi = n = 40 A mediana será n/2, logo 40/2=20. Podemos observar que estes dois números estão na 3ª classe (pois a segunda abrange até o 13º e a terceira classe atende até o 24º). Pelo cálculo da fórmula teríamos: 𝐿𝐿𝑖𝑖= 158 𝑗𝑗 = (20 − 13) = 7 (20º - 13º: último termo da classe anterior) h=4 f=11 Mediana= 158 + 𝟕𝟕.𝟒𝟒 𝟏𝟏𝟏𝟏 = 158 + 𝟐𝟐𝟐𝟐 𝟏𝟏𝟏𝟏 = 158 + 2,55 =160,55 (3ª classe) OBSERVAÇÃO: - A média é fortemente influenciada por valores extremos. - Moda e mediana não sofrem essa influência de valores extremos (superiores ou inferiores). - Utiliza-se a mediana para dividir a distribuição em partes iguais. Uma aplicação é a avaliação de salários, pois o uso da mediana inibe conclusões errôneas sobre a média salarial (o uso da média pode mascarar a situação devido à influência dos salários extremos). • Vídeo de Cálculo da Mediana: https://youtu.be/G9jXM9-PM6A • Vídeo de Cálculo da média, moda e mediana de dados não agrupados: https://youtu.be/YUASAe9bnnk • Cálculo da média, moda e mediana de dados agrupados sem intervalo de classe: https://youtu.be/KltiiDJ00zE • Cálculo da média, moda e mediana de dados agrupados com intervalo de classe: https://youtu.be/xddLIZnOFvQ https://youtu.be/G9jXM9-PM6A https://youtu.be/YUASAe9bnnk https://youtu.be/KltiiDJ00zE https://youtu.be/xddLIZnOFvQ 34 1.2.4 – POSIÇÃO RELATIVA: Média, Moda e Mediana- Quando uma distribuição é simétrica, as três medidas (média, moda e mediana) coincidem, ou seja, assimetria igual a zero. A assimetria torna-as diferentes, sendo que quanto maior for a assimetria, maior será a diferença entre as três medidas. Assim: O coeficiente de assimetria de Pearson (As) quantifica o grau de assimetria: Coeficiente de assimetria (valor absoluto) nos mostra o quanto a distribuição é assimétrica (𝑋𝑋�: 𝒎𝒎é𝒅𝒅𝒊𝒊𝒅𝒅; 𝑴𝑴𝒅𝒅 = 𝒎𝒎𝒎𝒎𝒅𝒅𝒊𝒊𝒅𝒅𝒎𝒎𝒅𝒅 𝒎𝒎 𝒔𝒔 = 𝒅𝒅𝒎𝒎𝒔𝒔𝒅𝒅𝒊𝒊𝒅𝒅 − 𝒑𝒑𝒅𝒅𝒅𝒅𝒑𝒑ã𝒅𝒅) 0,15< │Coeficiente de assimetria│<1: assimetria moderada │Coeficiente de assimetria│>1: forte assimetria 35 10.2.5- SEPARATRIZES As separatrizes são os quartis e os percentis a) QUARTIL: valor que divide a série em quatro partes iguais. Q1 (Primeiro quartil ): 25 % dos dados são menores que esse valor. Q2 (Segundo quartil ): 50 % dos dados são menores que esse valor Q3 (Terceiro quartil ): 75 % dos dados são menores que esse valor. b)PERCENTIL: valor que divide a série em cem partes iguais. P1 (Percentil 1 ): 1 % dos dados são menores que esse valor. P20 (Percentil 20 ): 20 % dos dados são menores que esse valor. P50 (Percentil 50 ): 50 % dos dados são menores que esse valor. P90 (Percentil 90 ): 90 % dos dados são menores que esse valor. Medidas de Tendência Central (Média, Moda e Mediana) Dados Não agrupados Exemplo: Notas de uma prova {40, 50, 65, 75, 80, 85 e 90} Dados agrupados Sem Intervalo de Classe 𝑋𝑋𝑖𝑖 (𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔) 𝑓𝑓𝑖𝑖(partidas) 0 2 1 4 2 5 Com intervalo de Classe i Peso (Kg) 𝒇𝒇𝒊𝒊 1 45 Ⱶ 55 3 2 55 Ⱶ 65 5 3 65 Ⱶ 75 2 Média µ: população 𝒙𝒙�: amostra 𝒇𝒇𝒊𝒊: número ou percentual 𝐱𝐱𝐢𝐢: variável analisada ∑𝒇𝒇𝒊𝒊= n : número de dados da amostra 𝑋𝑋� = ∑𝑋𝑋𝑖𝑖 𝑛𝑛 ; µ= ∑𝑋𝑋𝑖𝑖 𝑛𝑛 ou 𝑋𝑋� = ∑𝑋𝑋𝑖𝑖∑𝑓𝑓𝑖𝑖; µ= ∑𝑋𝑋𝑖𝑖 ∑𝑓𝑓𝑖𝑖 𝑋𝑋�= ∑(𝑥𝑥𝑖𝑖.𝑓𝑓𝑖𝑖) ∑𝑓𝑓𝑖𝑖 ; µ=∑(𝑥𝑥𝑖𝑖.𝑓𝑓𝑖𝑖)∑𝑓𝑓𝑖𝑖 Obs: Nos dados agrupados com intervalo de classe, o 𝑥𝑥𝑖𝑖 é a média do intervalo de classe. 𝑋𝑋𝑖𝑖= (𝐿𝐿𝑖𝑖𝐿𝐿𝑖𝑖𝐿𝐿𝐿𝐿 𝐼𝐼𝑛𝑛𝑓𝑓𝐿𝐿𝑖𝑖𝐼𝐼𝐼𝐼 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑑𝑑𝑐𝑐𝑐𝑐𝐿𝐿+𝑐𝑐𝑖𝑖𝐿𝐿𝑖𝑖𝐿𝐿𝐿𝐿 𝑐𝑐𝑠𝑠𝑠𝑠𝐿𝐿𝐼𝐼𝑖𝑖𝐼𝐼𝐼𝐼 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑑𝑑𝑐𝑐𝑐𝑐𝐿𝐿) 2 Moda Valor (Xi) de maior frequência (mais aparece) Classe que apresenta maior frequência- mais aparece (ponto médio da classe)Mediana Valor que ocupa a posição central do conjunto, ou seja, divide a distribuição em duas partes iguais com relação ao número de dados (n). a) “n” ímpar: Elemento de ordem (𝑛𝑛+1) 2 b) “n” par: Média dos elementos de ordem (𝑛𝑛 2 ) e (𝑛𝑛 2 +1) c) “n” ímpar: Elemento de ordem (𝑛𝑛+1) 2 d) “n” par: Média dos elementos de ordem (𝑛𝑛 2 ) e (𝑛𝑛 2 +1) Mediana= 𝐿𝐿𝑖𝑖+ 𝑗𝑗.ℎ 𝑓𝑓 𝑳𝑳𝒊𝒊: Limite inferior da classe; j: posição do termo da mediana no intervalo de classe; h: amplitude do intervalo de classe f: frequência simples da classe da mediana 36 1.3 - MEDIDAS DE DISPERSÃO OU VARIABILIDADE Além das medidas de posição central – tendência central de um conjunto de valores- é importante conhecer a variabilidade desses dados. Por exemplo, podemos ter duas cidades com a média de temperatura de 22ºC. Mas a diferença ou amplitude de variação pode ser bastante diferente. Por exemplo, a cidade A varia de 19 a 25 ºC (média de 22ºC) e a outra, cidade B, varia de 11 a 33ºC (média de 22ºC). Logo, a cidade A apresenta menor variabilidade quando comparada com a cidade B. Outros exemplos encontram-se abaixo: Ex1) Valores: 68, 69, 70, 71 e 72. Teremos média de 70. Ex2) Valores: 5, 15, 50, 120, 160. Teremos média de 70. É fácil perceber que a variabilidade dos dados do exemplo 2 é maior que o exemplo 1, ou seja, os dados do exemplo 2 estão mais dispersos. As medidas de dispersão dos dados mais utilizadas são: amplitude total, variância, desvio padrão e o coeficiente de variação. 1.3.1 - Amplitude Total (H): é a diferença entre o limite superior máximo e o limite inferior mínimo. H= xmáx- xmín Ex: Qual a amplitude da série de valores: 40, 45, 48, 52, 54, 62 e 70 H= xmáx- xmín= 70 – 40 = 30. 1.3.2 - Variância (σ2– população , s2- amostra): em relação à amplitude, a variância não é influenciada pelos valores extremos, pois ela leva em consideração todos os elementos. A variância baseia-se nos desvios em torno da média aritmética, porém determinando a média aritmética dos quadrados dos desvios. Teremos então: Quando analisamos a população utilizamos as fórmulas abaixo (𝜎𝜎2) 𝜎𝜎2= (𝑥𝑥1− µ ) 2+ (𝑥𝑥2− µ )2+(𝑥𝑥3− µ)2+(𝑥𝑥4− µ )2+⋯…(𝑥𝑥𝑛𝑛− µ )2 𝑛𝑛 𝜎𝜎2= ∑(𝑥𝑥𝑖𝑖− µ ) 2 𝑛𝑛 A amplitude de um conjunto de dados é a diferença entre o maior e o menor valor da distribuição A variância é a média aritmética dos quadrados dos desvios 37 Se estamos analisando uma amostra, utilizamos a variância 𝐬𝐬𝟐𝟐, sendo que o denominador da fórmula será (n-1), conforme a seguir: 𝑔𝑔2= (𝑥𝑥1− �̅�𝑥 ) 2+ (𝑥𝑥2− �̅�𝑥 )2+(𝑥𝑥3− �̅�𝑥 )2+(𝑥𝑥4− �̅�𝑥 )2+⋯…(𝑥𝑥𝑛𝑛− �̅�𝑥 )2 𝑛𝑛−1 𝑔𝑔2= ∑(𝑥𝑥𝑖𝑖− �̅�𝑥 ) 2 𝑛𝑛−1 Obs: na prática, para amostras com n> 30, utiliza-se “n” ao invés de “n-1”. 1.3.3 - Desvio Padrão (σ- população, s- amostra): o desvio padrão é a raiz quadrada da variância, sendo de maior utilidade prática, pois a unidade de medida do desvio padrão é igual a média (por exemplo: altura dos alunos em metro, a variância será dada em m² e o desvio-padrão terá a unidade em metros, igual à média) S=�(𝑥𝑥1− 𝑥𝑥� ) 2+ (𝑥𝑥2− 𝑥𝑥� ) 2+(𝑥𝑥3− 𝑥𝑥� ) 2+(𝑥𝑥4− 𝑥𝑥� ) 2+⋯…(𝑥𝑥𝑛𝑛− 𝑥𝑥� ) 2 𝑛𝑛−1 Amostra: S= �∑(𝑥𝑥𝑖𝑖− 𝑥𝑥� ) 2 𝑛𝑛−1 População: 𝜎𝜎 = � ∑(𝑥𝑥𝑖𝑖− µ)2 𝑛𝑛 Obs: 1) na prática, para amostras com n> 30, utiliza-se “n” ao invés de “n-1”. 2)Quanto maior a variabilidade dos dados, maior será o desvio-padrão “S” e também, maior será a variância (a variância é calculada elevando ao quadrado o desvio-padrão ou também, o desvio-padrão é calculado extraindo a raiz quadrada da variância). PRORIEDADES: I – Somando (ou subtraindo) uma constante a todos os valores de uma variável, o desvio padrão não se altera. II – Multiplicando todos os valores de uma variável por uma constante (diferente de zero), o desvio padrão fica multiplicado por essa constante. O desvio-padrão mede a dispersão dos dados em relação à média. Se a dispersão é pequena os valores estão próximos da média. Se a dispersão é grande, os valores estão mais distantes da média. Em um processo fabril, um desvio-padrão grande mostra uma maior variabilidade do processo, o que é ruim para a qualidade final do produto. 38 1.3.3.1 – Variância e Desvio-Padrão de Dados Não Agrupados A forma mais prática de calcular a variância e o desvio-padrão é montar um quadro com os valores de 𝑥𝑥𝑖𝑖, 𝑥𝑥,� (𝑥𝑥𝑖𝑖 – �̅�𝑥) e (𝑥𝑥𝑖𝑖 – �̅�𝑥)², em cada uma das colunas do quadro. O primeiro passo é calcular a média aritmética da distribuição. • Vídeo do Cálculo de variância, desvio padrão e coeficiente de variação de dados não agrupados: https://youtu.be/r5tzm0Nv6qE Ex1- Uma amostra apresenta o seguinte conjunto de valores: {40, 45, 48, 52, 54, 62 e 70}. Calcule o desvio padrão e a variância. O primeiro passo é calcular a média. �̅�𝑥= ∑𝑥𝑥𝑖𝑖 𝑛𝑛 = (40+45+48+52+54+62+70) 7 =371 7 = 53 xi �̅�𝑥 (𝑥𝑥𝑖𝑖 – �̅�𝑥) (𝑥𝑥𝑖𝑖 – �̅�𝑥)² 40 53 -13 169 45 53 -8 64 48 53 -5 25 52 53 -1 1 54 53 +1 1 62 53 9 81 70 53 +17 289 𝑔𝑔2= ∑(𝑥𝑥𝑖𝑖− �̅�𝑥 ) 2 𝑛𝑛−1 = 630 (7−1) = 105 S= √𝑔𝑔2 = �∑(𝑥𝑥𝑖𝑖− 𝑥𝑥� ) 2 𝑛𝑛−1 = � 630 (7−1) = √105 = 10,25 Outra forma de fazer o cálculo é aplicar a fórmula diretamente, sem fazer a tabela: S= S= �630 6 = √105 = 10,25 �(𝑥𝑥𝑖𝑖 – �̅�𝑥) = 0 ∑(𝑥𝑥𝑖𝑖 – �̅�𝑥) 2 =630 https://youtu.be/r5tzm0Nv6qE 39 1.3.3.2 – Variância e Desvio-Padrão de Dados Agrupados Sem Intervalo de Classe Neste caso, temos as frequências simples, ou seja, quantas vezes cada dado se repete. A forma de cálculo segue a mesma, calcula-se a média e após monta-se o quadro semelhante àquele utilizado nos dados não agrupados, mas incluindo a última coluna com (𝑥𝑥𝑖𝑖 – �̅�𝑥)².𝑓𝑓𝑖𝑖, pois o desvio deve ser multiplicado pelo número de dados ou freqüência simples, de forma a medir todos os dados. • Vídeo do Cálculo de variância, desvio padrão e coeficiente de variação de dados agrupados sem intervalo de classes https://youtu.be/LrEWQz1UWAM O exemplo a seguir, mostra a avaliação de um produto, com notas de 0 a 4. Foi feita amostra com 30 pessoas entrevistadas sobre o produto e cada entrevistado indicou uma nota final do produto, de acordo com o conjunto de características que ele apresenta. xi 𝑓𝑓𝑖𝑖 0 2 1 6 2 12 3 7 4 3 O primeiro passo é calcular a média da distribuição (nota média do produto): 𝑋𝑋�= ∑(𝑥𝑥𝑖𝑖.𝑓𝑓𝑖𝑖) ∑𝑓𝑓𝑖𝑖 = ( 0.2+1.6+2.12+3.7+4.3) (2+6+12+7+3) = 63 30 = 2,10 xi 𝑓𝑓𝑖𝑖 �̅�𝑥 (𝑥𝑥𝑖𝑖 – �̅�𝑥) (𝑥𝑥𝑖𝑖 – �̅�𝑥)² (𝑥𝑥𝑖𝑖 – �̅�𝑥)².𝑓𝑓𝑖𝑖 0 2 2,1 -2,1 4,41 4,41x2=8,82 1 6 2,1 -1,1 1,21 1,21x6=7,26 2 12 2,1 -0,1 0,01 0,01x12=0,12 3 7 2,1 +0,9 0,81 0,81x7=5,67 4 3 2,1 +1,9 3,61 3,61x3=10,83 Assim, teremos: 𝑔𝑔2= ∑(𝑥𝑥𝑖𝑖− �̅�𝑥 ) 2.𝑓𝑓𝑖𝑖 𝑛𝑛−1 = 32,7 (30−1) = 32,7 29 = 1,13 S= √𝑔𝑔2 = � ∑(𝑥𝑥𝑖𝑖− 𝑥𝑥� ) 2.𝑓𝑓𝑖𝑖 𝑛𝑛−1 = � 32,7 29 = √1,13 = 1,06 ∑(𝑥𝑥𝑖𝑖 – 𝑥𝑥�)². 𝑓𝑓𝑖𝑖= 32,7 https://youtu.be/LrEWQz1UWAM 40 Obs: 1) Desta forma para calcular Variância e Desvio-Padrão de Dados Agrupados Sem Intervalo de Classe, utiliza-se as fórmulas do exemplo acima: 𝑔𝑔2= ∑(𝑥𝑥𝑖𝑖− �̅�𝑥 ) 2.𝑓𝑓𝑖𝑖 𝑛𝑛−1 e S= √𝑔𝑔2 = �∑(𝑥𝑥𝑖𝑖− 𝑥𝑥� ) 2.𝑓𝑓𝑖𝑖 𝑛𝑛−1 2) Verificando o exemplo anterior, nota-se que para analisarmos todos os dados, de forma a ratificar a propriedade da média, é necessário multiplicar cada desvio pela frequência simples. Assim, obteremos o somatório dos desvios igual a zero, como segue: 2x(-2,1) + 6x(-1,1) + 12x(-0,1) + 7x0,9 + 3x1,9= -4,2 -6,6 -1,2+6,3+ 5,7= ZERO (comprovando a propriedade da média: A soma algébrica dos desvios (diferença entre cada elemento e a média) tomados em relação à média é nula) 1.3.3.3 – Variância e Desvio-Padrão de Dados Agrupados Com Intervalo de Classe A forma de cálculo é semelhante àquela dos dados agrupados sem intervalo de classe. A diferença é que utiliza-se a média do intervalo de classe (entre o limite inferior e o limite superior da classe) como o valor de 𝑥𝑥𝑖𝑖. As fórmulas para o cálculo da variância e do desvio-padrão são as mesmas dos dados agrupados sem intervalo de classe. 𝜎𝜎2= ∑(𝑥𝑥𝑖𝑖− µ ) 2.𝑓𝑓𝑖𝑖 𝑛𝑛 ; σ= �∑(𝑥𝑥𝑖𝑖− µ ) 2.𝑓𝑓𝑖𝑖 𝑛𝑛 ; 𝑔𝑔 2= ∑(𝑥𝑥𝑖𝑖− �̅�𝑥 ) 2.𝑓𝑓𝑖𝑖 𝑛𝑛−1 ;S= √𝑔𝑔2 = �∑(𝑥𝑥𝑖𝑖− 𝑥𝑥� ) 2.𝑓𝑓𝑖𝑖 𝑛𝑛−1 • Vídeo do Cálculo de variância, desvio padrão e coeficiente de variação de dados agrupados com intervalo de classes: https://youtu.be/XEMGONdNKHc O exemplo a seguir, demonstra a aplicação da análise da variabilidade da altura de todos os alunos de uma classe (população). https://youtu.be/XEMGONdNKHc 41 i Estaturas (cm) fi xi : ponto médio do intervalo de classe µ (xi - µ) (xi - µ)² (xi - µ)². fi 1 150 ├ 154 4 152 161 (152-161)= -9 81 4X81= 324 2 154 ├158 9 156 161 (156-161)= -5 25 9X25= 225 3 158 ├ 162 11 160 161 (160 -161)= -1 1 11X1= 11 4 162 ├ 166 8 164 161 (164 – 161)= 3 9 8X9= 72 5 166 ├ 170 5 168 161 (168-161) = 7 49 5X49= 245 6 170 ├ 174 3 172 161 (172-161)=11 121 3X121=363 Σfi = n = 40 ∑(𝐱𝐱𝐢𝐢 𝒙𝒙�)2. 𝐟𝐟𝐢𝐢 =1240 µ =∑(𝑥𝑥𝑖𝑖.𝑓𝑓𝑖𝑖)∑𝑓𝑓𝑖𝑖 = 6440 40 = 161 cm (calculada anteriormente) Como estamos lidando com a população, teremos: σ= �∑(𝑥𝑥𝑖𝑖− µ ) 2.𝑓𝑓𝑖𝑖 𝑛𝑛 = � 1240 40 = √31 =5,57. 1.3.4 - Coeficiente de Variação de Pearson (CV): É a razão entre o desvio padrão e a média. O coeficiente de variação é muito utilizado porque analisar apenas o desvio-padrão, sem considerar a média, é relativo. Por exemplo, um desvio-padrão de 2 pode ser considerado pequeno para uma amostra de média igual a 200, mas esse mesmo desvio-padrão pode ser considerado alto se a média for 20. Usado para comparar duas ou mais séries de valores quanto à dispersão ou variabilidade, quando expressas em unidades diferentes. Quanto menor for o coeficiente de variação, menor a variabilidade dos dados, ou seja, temos uma amostra mais homogênea. O coeficiente de variação expressa o desvio-padrão como uma porcentagem do que a média representa na distribuição analisada. Para contornar essas dificuldades ou limitações, usamos o coeficiente de variação (cv): Cálculo do CV para amostras: CV= 𝑐𝑐 �̅�𝑥 42 • Vídeo do Cálculo do Coeficiente de variação como medida de comparação entre duas amostras https://youtu.be/Q_RLcVHW-uY Para o exemplo das estaturas dos alunos do colégio “A” teremos: CV= 𝜎𝜎 µ = 5,57/161 = 0,03459 ou 3,459%. Os sites, a seguir listados, ajudam na resolução de exercícios e dúvidas. a) https://www.wolframalpha.com/ (exemplos de aplicação estão no apêndice A no final da apostila) média: mean mediana: median moda: commonestelement desvio padrão: standard deviation variance: variância coefficientofvariation: coeficiente de variação b) http://www.symbolab.com O Excel também pode ser utilizado para este mesmo objetivo. Caso não esteja instalada a Análise de dados, seguir os seguintes passos: - Abrir o Excel - Clicar em Arquivo - Clicar em “Mais” - Clicar em Opções - Clicar em Suplementos - Clicar em “Ir” em Gerenciar Suplementos - Flegar em Ferramentas de Análise. Vamos utilizar o exercício resolvido na apostila, através das fórmulas, para comparar com a solução do Excel. Ex1- Uma amostra apresenta o seguinte conjunto de valores: {40, 45, 48, 52, 54, 62 e 70}. Calcule o desvio padrão e a variância. - Após fazer a instalação das ferramentas de análise do Excel, vamos abrir a ferramenta e digitar os valores do exemplo. Cálculo do CV para população: CV= 𝜎𝜎 µ https://youtu.be/Q_RLcVHW-uY https://www.wolframalpha.com/ http://www.symbolab.com/ 43 - Clicar em Dados - Clicar em Análise de Dados - Clicar em Estatística Descritiva e dar “OK” - Selecionar com o mouse os dados que estão na coluna “A” - Flegar no Intervalo de Saída e selecionar a célula do Excel onde desejas a resposta; 44 - Clicar em Resumo Estatístico - Dar um “OK” Os resultados do Excel encontram-se acima e fecham com os resultados das fórmulas. 45 Medidas de Tendência Central (Média, Moda e Mediana) e Variabilidade (Variância, Desvio-padrão e Coeficiente de Variação) Dados Não agrupados Exemplo: Notas de uma prova {40, 50, 65, 75, 80, 85 e 90} Dados agrupados Sem Intervalo de Classe 𝑋𝑋𝑖𝑖 (𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔) 𝑓𝑓𝑖𝑖(partidas) 0 2 1 4 2 5 Com intervalo de Classe i Peso (Kg) 𝒇𝒇𝒊𝒊 1 45 Ⱶ 55 3 2 55 Ⱶ 65 5 3 65 Ⱶ 75 2 Média µ: população 𝒙𝒙�: amostra 𝐱𝐱𝐢𝐢: variável analisada 𝒇𝒇𝒊𝒊: número ou percentual ∑𝒇𝒇𝒊𝒊= n: número de dados 𝑋𝑋� = ∑𝑋𝑋𝑖𝑖 𝑛𝑛 ; µ= ∑𝑋𝑋𝑖𝑖 𝑛𝑛 ou 𝑋𝑋� = ∑𝑋𝑋𝑖𝑖∑𝑓𝑓𝑖𝑖; µ= ∑𝑋𝑋𝑖𝑖 ∑𝑓𝑓𝑖𝑖 𝑋𝑋�= ∑(𝑥𝑥𝑖𝑖.𝑓𝑓𝑖𝑖) ∑𝑓𝑓𝑖𝑖 ; µ=∑(𝑥𝑥𝑖𝑖.𝑓𝑓𝑖𝑖)∑𝑓𝑓𝑖𝑖 Obs: Nos dados agrupados com intervalo de classe, o 𝑥𝑥𝑖𝑖 é a média do intervalo de classe. 𝑋𝑋𝑖𝑖= (𝐿𝐿𝑖𝑖𝐿𝐿𝑖𝑖𝐿𝐿𝐿𝐿 𝐼𝐼𝑛𝑛𝑓𝑓𝐿𝐿𝑖𝑖𝐼𝐼𝐼𝐼 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑑𝑑𝑐𝑐𝑐𝑐𝐿𝐿+𝑐𝑐𝑖𝑖𝐿𝐿𝑖𝑖𝐿𝐿𝐿𝐿 𝑐𝑐𝑠𝑠𝑠𝑠𝐿𝐿𝐼𝐼𝑖𝑖𝐼𝐼𝐼𝐼 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑑𝑑𝑐𝑐𝑐𝑐𝐿𝐿) 2 Moda Valor (Xi) de maior frequência (mais aparece) Classe que apresenta maior frequência- mais aparece (ponto médio da classe) Mediana Valor que ocupa a posição central do conjunto, ou seja, divide a distribuição em duas partes iguais com relação ao número de dados (n). a) “n” ímpar: Elemento de ordem (𝑛𝑛+1) 2 b) “n” par: Média dos elementos de ordem (𝑛𝑛 2 ) e (𝑛𝑛 2 +1) c) “n” ímpar: Elemento de ordem (𝑛𝑛+1) 2 d) “n” par: Média dos elementos de ordem (𝑛𝑛 2 ) e (𝑛𝑛 2 +1) Mediana= 𝐿𝐿𝑖𝑖+ 𝑗𝑗.ℎ 𝑓𝑓 𝑳𝑳𝒊𝒊: Limite inferior da classe; j: posição do termo da mediana no intervalo de classe; h: amplitude do intervalo de classe f: frequência simples da classe da mediana Variância 𝒔𝒔𝟐𝟐: amostra σ2: população 𝑔𝑔2=∑(𝑥𝑥𝑖𝑖− �̅�𝑥) 2 𝑛𝑛−1 σ2=∑(𝑥𝑥𝑖𝑖−µ ) 2 𝑛𝑛 𝑔𝑔2=∑(𝑥𝑥𝑖𝑖− �̅�𝑥) 2.𝑓𝑓𝑖𝑖 𝑛𝑛−1 σ2=∑(𝑥𝑥𝑖𝑖− µ) 2.𝑓𝑓𝑖𝑖 𝑛𝑛 Desvio-padrão S: amostra σ : população S = �∑(𝑥𝑥𝑖𝑖− �̅�𝑥) 2 𝑛𝑛−1 σ = �∑(𝑥𝑥𝑖𝑖− µ) 2 𝑛𝑛 S = �∑(𝑥𝑥𝑖𝑖− �̅�𝑥) 2.𝑓𝑓𝑖𝑖 𝑛𝑛−1 σ = �∑(𝑥𝑥𝑖𝑖− µ) 2.𝑓𝑓𝑖𝑖 𝑛𝑛 Coeficiente de variação (cv) Mede a variabilidade dos dados (maior “cv” implica em maior variabilidade ou dispersão dos dados) CV= 𝑐𝑐 �̅�𝑥 ou CV= 𝜎𝜎 µ 46 2- PROBABILIDADE A probabilidade á base sobre a qual são construídos importantes métodos de inferência estatística. A estatística indutiva ou inferência estatística tem por objetivo tirar conclusões sobre a população a partir da informação recolhida na amostra. A Teoria das Probabilidades estuda os experimentos ou fenômenos aleatórios, na busca de descobrirmos as chances de ocorrência de um possível resultado a partir dos experimentos realizados. Espaço Amostral: é o conjunto formado por todos os resultados possíveis de um experimento aleatório; Evento: é um conjunto qualquer de resultados de um experimento, ou seja, um evento é um subconjunto qualquer do espaço amostral. Exemplo: Seja o experimento aleatório os lançamentos de um dado e a observação da face superior do mesmo. O evento “A” corresponde ao conjunto de números pares. Espaço Amostral: E={ 1, 2 , 3, 4, 5, 6 } Evento: A={ 2 , 4, 6 } 2.1-Probabilidadede um evento: Seja “A” um evento com “k” elementos: A ={ a1, a2, a3, a4, a5,..., ak } A probabilidade de ocorrência P(A) tal que: P(A)= P(a1) + P(a2) + P(a3)+ P(a4) ...+ P(ak). - O evento certo, tem probabilidade “1 ou 100%”; - Qualquer evento pertencente ao espaço amostral, tem probabilidade maior que zero e menor que 1; - ao evento impossível, a probabilidade é zero. A fórmula abaixo mostra o cálculo da probabilidade de um evento: Pode-se expressar a probabilidade da seguinte forma: P(A)= Número de casos favoráveis Número de casos possíveis 47 Por exemplo, em um grupo de 15 lâmpadas, 3 são defeituosas. Considerando o experimento: “Uma lâmpada é escolhida ao acaso e observamos se é ou não defeituosa” Esse experimento aleatório possui dois resultados possíveis: a) A lâmpada escolhida é defeituosa; b) A lâmpada escolhida é boa (funciona normalmente). Como temos 12 lâmpadas que funcionam normalmente e 3 lâmpadas defeituosas, a probabilidade de uma lâmpada escolhida ser boa (funciona normalmente) é quatro vezes maior que a probabilidade de ser defeituosa. Dessa forma, a probabilidade da lâmpada escolhida ser boa é de 80% [(12/15)x100%] e a probabilidade de ser defeituosa é de 20% [(3/15)x100%]. P(lâmpadas boas)= n(lâmpadas boas)/ n(total de lâmpadas)= 12/15=0,8 ou 80% P(lâmpadas defeituosas)= n(lâmpadas defeituosas)/ n(total de lâmpadas)= 3/15=0,2 ou 20% Questão sobre Probabilidade (ENEM 2021): https://www.youtube.com/watch?v=UZrXhN9vgDM&t=53s 2.2- Probabilidade da União de dois eventos: Dentro de um espaço amostral, temos dois eventos quaisquer, “A” e “B”. Qual a probabilidade do evento P( A B )? Sabemos que a A B é o evento que deve conter todos os elementos de “A” e de “B”. Se os eventos “A” e “B” têm elementos comuns, é necessário descontar os elementos que pertencem a ambos os eventos, de forma que não sejam computados duas vezes. Então: A figura a seguir, mostra a probabilidade de união entre os eventos: 2.3- Probabilidade de um evento complementar: Sabemos que um evento pode ocorrer ou não. Se a probabilidade de um evento ocorrer é “p” (sucesso), a probabilidade de que ele não ocorra é (1-p) ou seja, o https://www.youtube.com/watch?v=UZrXhN9vgDM&t=53s 48 insucesso, de forma que a soma da probabilidade de ele ocorrer com a probabilidade de ele não ocorrer é igual a “1“. Exemplo: Calcular a probabilidade de um piloto de automóveis vencer uma determinada corrida, onde, segundo os especialistas, as suas “chances” são de “3 para 2”? Probabilidade de vitória do piloto: p(A)= 3/5 = 0,6 ou 60%. A probabilidade do evento complementar (não vitória ou insucesso do piloto) seria: A probabilidade de não vitória (derrota) do piloto: p(Ac)= 1- p = 1-0,6=0,4 ou 40%. 2.4 Probabilidade de Eventos independentes: Dizemos que dois eventos são independentes quando a realização ou não realização de um dos eventos não afeta a probabilidade da realização do outro e vice- versa. Se dois eventos são independentes, a probabilidade de que eles se realizem simultaneamente é igual ao produto das probabilidades de realização de dois eventos. Exemplo: Lançamos dois dados. A probabilidade de obtermos “1’ no primeiro dado é: P(A)= 1/6. A probabilidade de obtermos o número “5” no segundo dado é: p(B)=1/6. Logo, a probabilidade de obtermos simultaneamente, “1” no primeiro e “5” no segundo é: P(A B)= p(A).p(B)= (1/6).(1/6) = 1/36= 0,02778 ou 2,778%. Se tivermos “k” eventos, a probabilidade será calculada por: P(A∩B∩C∩D∩.....∩K)= P(A).P(B).P(C).P(D)......P(K). 2.5 - Probabilidade Condicional (Teorema de Bayes): Sejam dois eventos “A” e “B”, tais que P(A)>0, então define-se a probabilidade condicional de “B” dado a ocorrência de “A”, representada por P(B/A), como: Pode-se dizer que a probabilidade condicional é a probabilidade de “B” ocorrer sabendo-se que o evento “A” já ocorreu. 49 Exemplo 1: Um avião foi fretado por uma operadora de turismo de Belo Horizonte para Natal, com 140. Passageiros. Cada pessoa respondeu duas perguntas: 1) Já voou antes?; 2) Já esteve em Natal? Os dados obtidos estão no quadro a seguir. Um passageiro é selecionado ao acaso e verifica-se que ele nunca havia viajado de avião. Qual é a probabilidade de que ele já conhecesse Natal? Voando pela primeira vez Já havia voado Total Não conhecia Natal 83 22 105 Já conhecia Natal 23 12 35 Total 106 34 140 P(Já conhece Natal/Primeira vez no avião)= (𝑛𝑛ú𝐿𝐿𝐿𝐿𝐼𝐼𝐼𝐼 𝑑𝑑𝐿𝐿 𝑠𝑠𝐿𝐿𝑐𝑐𝑐𝑐𝐼𝐼𝑑𝑑𝑐𝑐 𝑞𝑞𝑠𝑠𝐿𝐿 𝑗𝑗á 𝑐𝑐𝐼𝐼𝑛𝑛ℎ𝐿𝐿𝑐𝑐𝑖𝑖𝐿𝐿𝑑𝑑 𝑁𝑁𝑑𝑑𝐿𝐿𝑑𝑑𝑐𝑐 𝐿𝐿 𝑣𝑣𝐼𝐼𝑑𝑑𝑣𝑣𝑑𝑑𝐿𝐿 𝑠𝑠𝐿𝐿𝑐𝑐𝑑𝑑 𝑠𝑠𝐼𝐼𝑖𝑖𝐿𝐿𝐿𝐿𝑖𝑖𝐼𝐼𝑑𝑑 𝑣𝑣𝐿𝐿𝑣𝑣) (𝑛𝑛ú𝐿𝐿𝐿𝐿𝐼𝐼𝐼𝐼 𝑑𝑑𝐿𝐿 𝑠𝑠𝐿𝐿𝑐𝑐𝑐𝑐𝐼𝐼𝑑𝑑𝑐𝑐 𝑞𝑞𝑠𝑠𝐿𝐿 𝑣𝑣𝐼𝐼𝑑𝑑𝑣𝑣𝑑𝑑𝐿𝐿 𝑠𝑠𝐿𝐿𝑐𝑐𝑑𝑑 𝑠𝑠𝐼𝐼𝑖𝑖𝐿𝐿𝐿𝐿𝑖𝑖𝐼𝐼𝑑𝑑 𝑣𝑣𝐿𝐿𝑣𝑣) Nem sempre teremos os dados em tabela. Em geral, utiliza-se o diagrama em árvore, conforme abaixo: Exemplo 2: Considere uma fábrica com 2 máquinas “A” e “B” que fazem respectivamente 60% e 40% da produção de peças. A máquina “A” produz 3% de peças defeituosas e a máquina “B” produz 5% de peças com defeitos. Encontre a probabilidade de uma dada peça defeituosa ter sido produzida pela máquina “B” (ou seja, calcular a probabilidade da peça ter sido produzida na máquina “B” sabendo que a mesma é defeituosa). 50 EXERCÍCIOS 1. Lançando um dado honesto, calcule a probabilidade de sair: a) o número 2 b) um número par c) zero. 2. Lançando uma moeda, calcule a probabilidade de sair: a) cara. b) coroa. 3. No lançamento de um dado, qual a probabilidade de se obter um número maior ou igual a 5? 4. Na escolha de um número de 1 a 30, qual a probabilidade de que seja sorteado um múltiplo de 5 ? a) 1/5 b) 1/10 c) 1/15 d) 1/20 e) 1/30 5. No lançamento simultâneo de dois dados diferentes, a probabilidade de obtermos soma 7 é igual a: a) 1/6 b) 1/36 c) 3/4 d) 1/12 e) 1/7 6. Em uma urna há 5 bolas azuis e 9 bolas brancas. Retiramos uma bola da urna e, em seguida, sem repor a bola retirada, escolhemos uma segunda bola. Então, a probabilidade de que a primeira bola seja branca e a segunda bola seja azul é igual a: a) 2/5 b) 2/13 c) 45/182 d) 10/91 e) 36/91 7. Uma bola é retirada ao acaso de uma urna que contém 6 bolas verdes, 8 pretas e 4 vermelhas. Então, a probabilidade de que a bola retirada seja preta ou vermelha é de: a) 1/3 b) 2/9 c) 7/9 d) 5/9 e) 2/3 51 8. Numa empresa trabalham 10 homens e 20 mulheres, sendo que a metade dos homens e três quartos das mulheres têm olhos castanhos. Uma pessoa é escolhida ao acaso. A probabilidade de ser mulher ou ter olhos castanhos é igual a: a) 1/3 b) 5/6 c) 2/3 d) 3/4 e) 3/6 9. Num ônibus de turismo viajam 32 pessoas. Sabe-se que oito delas são menores de idade; duas são mulheres e adultas e cinco são menores do sexo masculino. Escolhendo-se aleatoriamente um passageiro, qual a probabilidade de que seja mulher ou menor? a) 10/32 b) 15/32 c) 13/32 d) 27/32 e) n.d.a. 10. Uma empresa é formada por 70% de homens e 30% de mulheres. Sabe-se que 40% dos homens e 60% das mulheres fumam. Qual a probabilidade de uma pessoa fumando seja mulher? 11. Num baralho de 52 cartas (de 4 naipes), qual a probabilidade de sair um rei? 3- DISTRIBUIÇÃO NORMAL: Dentre diversos processos aleatórios, muitos seguem a distribuição Normal. A representação gráfica da distribuição Normal é uma curva em forma de sino, simétrica em torno da média ( ), que recebe o nome de curva de Gauss ou Normal. Algumas propriedades da distribuição normal são destacadas a seguir:● a variável aleatória “x” pode assumir todo e qualquer valor real; ● a curva normal é simétrica em torno da média (média, mediana e moda coincidem), tendo a forma de um sino; ● a área total limitada pela curva e pelo eixo das abscissas é igual a 1, já que essa área corresponde a probabilidade de a variável “x” assumir qualquer valor real; 52 ● a curva normal é assintótica, ou seja, aproxima-se indefinidamente do eixo das abscissas, mas não existe intersecção; ● a probabilidade de ocorrer valor maior que a média é igual à probabilidade de ocorrer valor menor do que a média. A equação da distribuição normal é: A curva normal apresenta no eixo dos “X” (abscissa), os valores da variável aleatória (peso, altura, salário, etc.) e o eixo vertical indica a função densidade de probabilidade, conforme figura a seguir. Para o cálculo da probabilidade, seria necessário fazer a integração da função f(x) entre os limites desejados. 53 Para facilitar o cálculo utilizamos a distribuição normal reduzida ou padronizada, isto é, de média “zero” e desvio padrão “1”, conforme tabela no final da apostila. Assim, o valor de “Z”, conforme fórmula abaixo, mede o número de desvios padrão que o “X” correspondente está distante da média. O valor de “Z” varia de -∞ a +∞ e possibilita encontrar o valor da probabilidade na tabela da distribuição normal padronizada (final da apostila, para “z” positivo e “Z” negativo). Temos, então, que se “X” é uma variável aleatória com distribuição normal de média ( ) e desvio padrão (s), podemos escrever: P( <X<x)=P(0<Z<z): 54 Exemplo resolvido: Uma grande loja, através de uma análise histórica, sabe que o número de dias entre enviar uma fatura mensal e receber o pagamento de seus clientes é aproximadamente uma distribuição normal com média de 18 dias e desvio-padrão de 4 dias. Pede-se: a) Qual a probabilidade das faturas serem pagas em menos de 12 dias? =18 S= 4 X=12 ; P(x<12)=? Z= 12 −18 4 = −6 4 = -1,5 P (Z<-1,5)=? Nestes casos, P(Z<Z1), busca-se o valor diretamente na tabela da distribuição normal para “escores negativos de “Z”. Assim, para Z=-1,5 teremos a probabilidade de 0,0668, ou seja, 0,0668 x 100%= 6,68%. b) Encontre a probabilidade das faturas serem pagas entre 16 e 20 dias? =18 S= 4 P( 16<X<20)=? X= 20; P (X<20)=? Z= 20−18 4 = 2 4 = 0,5 ; P(Z<0,5)=? Na tabela, para “Z” positivo, temos: P(Z<0,5)= 0,6915 X=16; Z= 16−18 4 = −2 4 = - 0,5; P(Z<-0,5)=? Na tabela, para “Z” negativo temos: 55 P(Z<-0,5)= 0,3085. Assim, a probabilidade de P(-0,5<X<0,5)= P(Z<0,5) - P(Z<-0,5)=0,6915- 0,3085= 0,3830= 0,3830x100%= 38,30%. c) Qual a probabilidade de uma fatura não ser paga até 21 dias depois de enviada? =18 S= 4 P(X>21)=? X=21 Z= 21−18 4 = 3 4 = 0,75. Temos duas formas de calcular: 1º) P(Z>0,75)= 1 – P(Z,0,75) = 1 – 0,7734= 0,2266= 0,2266x100%= 22,66%. 2º) Como a curva da distribuição Normal é simétrica, pode-se encontra na tabela o valor da probabilidade para P(Z<-0,75) que será igual ao valor da probabilidade para P(Z>+0,75), assim verificando o valor na tabela para “Z” negativo, teremos: P(Z<-0,75)= P(Z>+0,75)=0,2266= 0,2266x100%=22,66%. 56 Obs: No apêndice “B”, no final da apostila, encontra-se uma explicação do uso do Excel para o cálculo da probabilidade utilizando a distribuição Normal. EXERCÍCIOS 12. Determine as probabilidades: a) P(-1,25<Z<0) b)P(-0,5<Z<1,48) c. P(0,8<Z<1,23) d. P(Z>0,6) e. P(Z<0,92) 13. Os salários semanais de operários industriais são distribuídos de acordo a curva Normal, em torno da média de R$500,00 com desvio padrão de R$ 40,00. Calcule a probabilidade de um operário ter um salário semanal situado entre R$ 490,00 e R$ 520,00. 14. Os pesos de 600 estudantes seguem uma distribuição Normal, com média de 65,3 kg e desvio padrão de 5,5 kg. Então o número de estudantes que pesam entre 60 e 70 kg será igual a aproximadamente: a) 389 b) 380 c) 420 d) 438 e) 520 57 15. A duração de um certo componente eletrônico tem média de 850 dias e desvio padrão de 40 dias. Sabendo que a duração é normalmente distribuída, podemos afirmar que a probabilidade desse componente durar mais de 800 dias é: a) 99,98% b) 89,44% c) 73,45% d) 29,18% e) 64,87% 16. Sabe-se que a vida útil de um componente eletrônico segue uma distribuição Normal com média de 2000 horas e desvio padrão de 200 horas. Qual a probabilidade de que um componente eletrônico escolhido aleatoriamente dure mais do que 2200 horas? a) 48% b) 98,32% c) 48,32% d) 16,34% e) 15,87% 17. Um fabricante de lâmpadas verifica através de uma distribuição de frequência, que o tempo de queima de um determinado modelo de lâmpada é distribuído normalmente. Uma amostra de 50 lâmpadas foi testada e o tempo médio de vida encontrado foi de 60dias, com desvio padrão de 20 dias. Qual o percentual de lâmpadas, na população total de lâmpadas fabricadas, pode se esperar que ainda estejam funcionando após 100 dias de uso? a) 10% b) 6,60% c) 7,76% d) 2,28% e) 0,68% 18. Um teste padronizado de escolaridade tem distribuição normal com média 100 e desvio padrão 10. Determine a probabilidade de um indivíduo submetido ter nota: a) maior que 120 b) entre 85 e 115 c) menor que 70. 58 4 – DISTRIBUIÇÃO BINOMIAL A distribuição Binomial é uma distribuição de probabilidade discreta, sendo aplicada como modelo para a tomada de decisões em situações onde o processo de amostragem nas seguintes condições: - o experimento deve ser repetido, “n” vezes; - os eventos sejam independentes (o resultado de um experimento não deve afetar os demais resultados); - os eventos são mutuamente exclusivos em cada tentativa: sucesso ou insucesso/falha; - no decorrer do experimento, a probabilidade “p” do sucesso e a probabilidade “q” (q = 1- p) do insucesso mantenham-se constantes. O objetivo é calcular a probabilidade de se obter “k” sucessos em “n” tentativas. A probabilidade de que o evento se realize ‘k” vezes nas provas é dada por: 59 Obs:O Fatorial é representado por “n!” e representa o seguinte produto: n! = n.(n-1).(n-2).....3.2.1. Exemplos: 5! = 5.4.3.2.1=120 3!= 3.2.1=6. Obs: 0! = 1. Exemplo 1 : Uma moeda é lançada 5 vezes seguidas. Calcule a probabilidade de serem obtidas 3 caras nessas cinco provas. n=5 k=3 p=1/2 q= 1-p= 1-1/2=1/2 Coeficiente binominal= n! k!(n−k!) = n! k!(n−k!) = 5! (3!.(5−3)!) = 5.4.3.2.1 3.2.1.2.1 =10 P(X=3)= 10. (1/2)³.(1/2)²= 10.1/2.1/2.1/2.1/2.1/2 = 10/32= 0,3125 =31,25%. Exemplo 2: Seis parafusos são escolhidos ao acaso da produção de certa máquina, que apresenta 10% de peças defeituosas. Qual a probabilidade de dois parafusos serem defeituosos? n=6 k=2 p=0,1 (10%) q= 1 – p = 1-0,1= 0,9 Coeficiente binominal= n! k!(n−k!) = 6! 2!.(6−2)! = 6.5.4.3.2.1 2.1.4.3.2.1 =15 P(X=2)=15.(0,1)².(0,9)4 =15.(0,1). (0,1).(0,9).(0,9).(0,9).(0,9)=0,098415=9,84%. 19. A probabilidade de que um cliente potencial escolhido aleatoriamente faça uma compra é de 20%. Se um representante de vendas contacta seis clientes potenciais, a probabilidade de que exatamente quatro vendas sejam realizadas será de aproximadamente: a) 3,1% b) 2,52% c) 5,4% d) 1,54% e) 10% 60 20. Considerando o exercício 19, calcule a probabilidade de que o representante de vendas realize quatro ou mais vendas (calcular a probabilidade para cada possível caso e somar para obter a probabilidade total) é de aproximadamente: a) 1,7% b) 2% c) 3% d)
Compartilhar