Prévia do material em texto
1 Estatística Básica com Excel Prof. Francisco Carlos Benedetti 2008 2 CAPÍTULO I – Estatística Descritiva: Definições, Tabelas e Gráficos CAPÍTULO II – Medidas Estatísticas: Medidas de Tendência Central e Medidas de Dispersão CAPÍTULO III – Medidas Estatísticas de Posição CAPÍTULO IV – Probabilidades CAPÍTULO V – Probabilidades: Distribuições Binomiais CAPÍTULO VI – Distribuições de Probabilidades: Histogramas e Medidas CAPÍTULO VII – Distribuições Normais Probabilidades: A famosa Curva de Gauss CAPÍTULO VIII – Distribuições Amostrais CAPÍTULO IX – Intervalos de Confiança para a Média: desvio padrão conhecido CAPÍTULO X – Intervalos de Confiança para Média – desvio padrão desconhecido: a Distribuição T de Student CAPÍTULO XI – Distribuições Amostrais e Intervalos de Confiança para uma Proporção CAPÍTULO XII – Correlação entre Variáveis Regressão Linear Outros tipos de Regressão 3 CAPÍTULO I Estatística Descritiva: Definições, Tabelas e Gráficos • Como usar Excel para construir gráficos (a fim de praticar a famosa expressão: “muitas vezes, uma figura fala mais do que mil palavras”); • Como saber qual tipo de gráfico usar (gráfico de barras ou histogramas?); 4.1 Introdução geral ao curso Estatística é a ciência que lida com dados, o que envolve coleta, classificação, resumo, organização, análise, interpretação e inferência dos mesmos; geralmente nos leva a predições e estimativas. Nas mais diferentes áreas do conhecimento e da atividade humana é possível observar uma grande massa de informações que nos apresentam, seja pela tv, jornais e revistas impressos ou Internet. Não há limites para o uso da Estatística e, para quem está ou quer estar no mercado de trabalho, deve atentar ao fato de que Estatística não é apenas uma forma de apresentar números, tabelas e gráficos para que alguém os entenda, mas sim, a partir de tais informações, concluir fatos, descobrir relações para, após análise e reflexão, tomar decisões. Este será o caminho que percorreremos neste curso. Vamos à primeira parte de nosso estudo em Estatística, que se refere à apresentação e organização de dados. Durante todo o curso utilizaremos a planilha eletrônica Excel, e também um software estatístico chamado R. Note que o objetivo não é usar o Excel para fazer uma bela apresentação de dados (para isso você tem a disciplina específica), mas sim para usufruirmos suas funções, seus cálculos facilitadores e suas formas de análise de dados. 4.2 Estatística descritiva Estatística Descritiva: é a o segmento da Estatística que está relacionada à organização, resumo, descrição e apresentação dos dados. Não é nosso curso todo, é apenas o começo, já que estudaremos também cálculo de probabilidades, amostragem e tomadas de decisão. População é o conjunto de dados que descrevem algum fenômeno de interesse. Amostra é um subconjunto, ou seja, uma parte da população. 4 4.3 Tipos de variável Uma variável é uma característica que difere, ou varia, de uma observação para outra. As medidas de alturas de pessoas são variáveis numéricas, enquanto o grau de satisfação de um consumidor com determinado produto (baixo, médio, alto) não é uma variável numérica (é uma categoria, uma qualidade). Perceba, dessa forma, que há diferenças entre os tipos de dados que obtemos. Variáveis quantitativas (numéricas) são medidas sobre uma escala numérica. Exemplos: valores em reais (preços, salários), medidas de comprimento (de área, de volume), índices (porcentagens diversas), tempos de realização de certos processos. Variáveis qualitativas (categorizadas) não são numéricos, podem ser classificados em um grupo de categorias (certo-errado, V-F, sim-não, ótimo-bom- regular-ruim). 4.4 Apresentação de dados qualitativos (categorizados) A apresentação de dados qualitativos costuma ser mais imediata, sem tantas dificuldades para análise; costumam ser ilustrados por meio de tabelas e gráficos de barras. Também podemos citar o sectograma, conhecido como gráfico tipo “pizza”. O professor Reinaldo, de Logística, realizou amostragens com seus alunos em determinada turma de graduação em Informática. Propôs uma análise proveniente de coleta de dados em supermercados para avaliar a possibilidade de criação de caixas com serviços exclusivos. O arquivo super1.xls ilustra tal pesquisa, que será detalhada em outro texto. Para o momento, utilizaremos esse conjunto de dados para ilustrarmos a apresentação de uma variável qualitativa. Essa variável será “tipo de pagamento”, que significa a forma como os clientes pagaram suas compras. Os valores que essa variável pode assumir são: cartão de crédito, cartão de débito, dinheiro, cheque ou vale (tíquete). A seguir uma ilustração do conjunto de dados; utilizaremos, desse exemplo, a coluna intitulada “forma de pagamento”. Nossa intenção é observar as quantidades (porcentagens) que ocorreram para cada valor da variável “tipo de pagamento”. Para construir qualquer tipo de gráfico (como o de barras e o tipo “pizza”), devemos antes construir uma tabela com essas quantidades. Em Estatística, chamamos essas tabelas de “tabelas de distribuição de freqüências”. 5 A tabela de distribuição de freqüências, feita com auxílio de lápis-e-papel e calculadora simples, pode ser assim apresentada: Forma de pagamento Freqüência absoluta Freqüência relativa Dinheiro 118 44,70% Cheque 43 16,29% Cartão de crédito 19 7,58% Cartão de débito 83 31,44% Tíquete 0 0,00% Total 264 100% Como fazê-la no Excel? Construa a primeira linha e a primeira coluna da tabela acima, usando à vontade seus conhecimentos de digitação e de Excel (itens de embelezamento para apresentações ficarão por sua conta, ok?). Usaremos a função =CONT.SE desse programa para fazer a contagem de cada valor da variável em questão. 6 Na célula B2 (veja a figura anterior) digitamos =CONT.SE (intervalo dos dados, expressão que se deseja contar). O intervalo dos dados neste exemplo é a coluna já indicada (“formas de pagamento”); veja que ela está na planilha um do arquivo super1.xls, mas estamos usando a planilha 2 para construir a tabela. A expressão que se deseja contar é o valor da variável em questão, no caso, “dinheiro” (escreva entre aspas, exatamente como está no conjunto de dados). Em seguida, proceda de modo análogo com as células B3, B4, B5 e B6. O total de dados pode ser obtido com a função =SOMA, conforme ilustra a próxima figura. Já é possível construir um gráfico de barras, relacionando as formas de pagamento com a freqüência absoluta. Como trabalharemos com porcentagens, construiremos a coluna de freqüências relativas e, em seguida, construiremos o gráfico de barras e o tipo pizza, usando esses valores. Na coluna das freqüências relativas, podemos usar a opção de dividir 118 pelo total 264, obtendo 0,446969696 (=B2/B$7). Fazendo-se isso para as células seguintes, você obterá as respectivas proporções; para apresentar esses cálculos na forma percentual com o número de casas decimais que desejar, basta usar os botões circulados na figura a seguir. Vamos ao gráfico de barras: 1º) Clique no assistente de gráfico, selecione o “tipo colunas” (é o primeiro e já vem selecionado!) e pressione avançar; 2º) Na etapa 2 de 4, há duas abas: na aba intervalo de dados selecione a coluna de freqüências relativas; na aba série digite o nome que deseja ao gráfico (como “Forma de Pagamento”) e em rótulos do eixo das categorias 7 Formas de Pagamento 44,70% 16,29% 7,58% 31,44% 0,00% 0,00% 5,00% 10,00% 15,00% 20,00% 25,00% 30,00% 35,00% 40,00% 45,00% 50,00% Dinheiro Cheque Cartão de crédito Cartão de débito Tíquete Formas de Pagamento 44,70% 16,29% 7,58% 31,44% 0,00% Dinheiro Cheque Cartão de crédito Cartão de débito Tíquete (X) selecione a coluna das variáveis qualitativas, ou seja, a coluna das formas de pagamento, e pressionetrês eventos mutuamente exclusivos. No exemplo das cartas, P(A ou B) = P(A) + P(B) = 13/52 +13/52 Observação: se os eventos A e B não forem mutuamente exclusivos, devemos fazer: P(A ou B) = P(A) + P(B) - P(A e B) Por exemplo: retirar uma carta de um baralho comum e calcular a probabilidade de sair uma carta vermelha ou uma dama. Temos: P(V ou D) = 26/52 + 4/52 – 2/52 = 28/52 • Evento Complementar de A, chamado de A , é o “contrário” de A. A probabilidade de não ocorrer A, denotada por P( A ), é: P( A ) = 1 – P(A) Note que P(A) + P( A ) = 1, que significa que, ao somarmos as probabilidades de ocorrer um evento e de ele não ocorrer é 1 (100%) Se um instituto de meteorologia afirma que hoje há 30% de chances de chover, podemos concluir que hoje há 70% de chances de não chover, pois efetuamos a subtração 100% – 30% = 70% • Probabilidade Condicional Exemplo: Pedro joga um dado cúbico equilibrado, mas João não consegue ver a face que caiu. Pedro então lhe diz que a face voltada para cima é par. Qual a probabilidade de João acertar a face que caiu? Veja que a resposta pode ser formulada intuitivamente: 1/3, já que João escolherá uma das faces 2, 4 ou 6 (a não ser que ele não saiba o que é um número par). Vamos refazer este problema, a fim de introduzirmos uma nova notação e uma nova fórmula: qual a probabilidade de ter saído face 4, sabendo que ocorreu face par? Veja que há dois eventos em questão: A = sair face 4 e B = ocorrer face par. Em símbolos: 2ª lei de Probabilidades: Se A e B são eventos mutuamente exclusivos, então: P(A ou B) = P(A) + P(B) 42 A = {4} e B = {2, 4, 6} O que se deseja é: calcular a probabilidade de ocorrer face 4, sabendo que ocorreu face par. Há uma notação específica para esta pergunta: a probabilidade de ocorrer o evento A sabendo que ocorreu B é representada por )|( BAP , que se lê: “probabilidade de A, dado B”. Esclarecida esta notação, podemos então enunciar a 3ª lei de probabilidades: No exemplo, perceba que o valor 1/3 obtido intuitivamente também pode ser obtido a partir dessa expressão: 3 1 6/3 6/1 )( )( )|( === BP BeAP BAP • Eventos Independentes: a ocorrência de um não interfere na probabilidade de ocorrência do outro; em outras palavras, ao se saber que B ocorreu, isso não influenciará na probabilidade de ocorrência de A. Nesse caso, é correto afirmar que )()|( APBAP = , e então temos a conhecida “regra da multiplicação” entre probabilidades, a qual é derivada da terceira lei de probabilidades: )()|()( BPBAPBeAP ×= fica equivalente a )()()( BPAPBeAP ×= Exemplo: Uma marca de salgadinhos fez uma promoção do tipo “raspadinha”. Em cada embalagem vem uma cartela (ver figura), com a qual você participa de um jogo e concorre a brindes. Na cartela existem vários espaços (círculos) cobertos por uma tinta cinzenta, os quais, após serem raspados, revelam uma figura impressa: uma bola de futebol, ou um X. A cartela simula um campo de futebol, sendo uma das traves o início do jogo e a outra o gol que contém o prêmio. O objetivo do jogo é atravessar esse campo pela trilha de bolas. Se ao raspar o 3ª lei de Probabilidades: Se A e B são dois eventos, então: )( )( )|( BP BeAP BAP = ou, de maneira equivalente: )()|()( BPBAPBeAP ×= 43 primeiro círculo você encontrar uma bola, vá para a próxima faixa e repita o processo. Caso contrário, se você encontrar um X, perdeu o jogo. Em cada faixa há apenas um círculo que contém uma bola escondida. Os outros são todos X . Tente chegar ao gol do prêmio, raspando apenas nas bolas, sem nunca encontrar um X. A probabilidade de ganhar o prêmio numa cartela como a da figura a seguir, é: (1/3)×(1/4)×(1/3)×(1/4) = 1/144 prêmio 4a faixa 3a faixa 2a faixa 1a faixa início 4.2 Tabelas de contingência. São tabelas que possuem dados classificados em mais de uma categoria ou tipo de análise. Utilizemos um exemplo para que o uso de tais tabelas seja praticado. Suponha que 100 gerentes de diversos setores de grandes empresas de certa cidade foram consultados em relação a seus respectivos salários. Abaixo as classificações dos entrevistados em relação ao sexo (masculino ou feminino) e à faixa salarial (faixa A de salários mais altos, a partir de R$ 5.000,00, e faixa B de salários inferiores a R$ 5.000,00) Homens Mulheres Totais Faixa A 25 15 40 Faixa B 45 15 60 Totais 70 30 100 Se realizarmos o experimento “escolher um(a) gerente aleatoriamente dentre os 100 que participaram da pesquisa”, podemos reconstruir a tabela com as devidas proporções, as quais se tornam probabilidades: Homens Mulheres Totais Faixa A 0,25 0,15 0,40 Faixa B 0,45 0,15 0,60 Totais 0,70 0,30 1,00 44 Questões possíveis: escolhendo-se uma pessoa ao acaso, calcular a probabilidade de: (a) Ser do sexo feminino; (b) Ser do sexo masculino; (c) Ser da faixa A; (d) Ser da faixa B; (e) Ser do sexo feminino e ser da faixa A; (f) Ser do sexo masculino e ser da faixa B; (g) Ser do sexo feminino, sabendo que é da faixa A; (h) Ser da faixa A, sabendo que é do sexo feminino. 4.3 Exercícios 1. Quatro estudantes de um mesmo curso de uma faculdade costumam vir num mesmo carro para as aulas. Não se sentindo preparados para a prova de Estatística, os estudantes resolveram faltar no dia da prova, tentando enganar o professor ao dizerem que o pneu do carro havia furado, a fim de que o professor não ficasse furioso. Ao relatarem tal fato na semana seguinte à prova, o professor pediu para que cada um dos quatro estudantes escrevesse num pequeno pedaço de papel qual dos quatro pneus havia furado (dianteiro direito, dianteiro esquerdo, posterior direito ou posterior esquerdo). Se cada um dos estudantes escolher aleatoriamente um dos pneus para escrever no papel, qual a probabilidade de que consigam enganar o professor? 2. Suponha que certa aplicação A tem 80% de chances de ter um rendimento superior a 1% ao mês, enquanto que a aplicação B tem 60% de chances de render mais que 1% após um mês. O que pode tornar a aplicação B mais atraente a um investidor é o fato de que, em seu histórico oscilante, há meses em que seu rendimento foi consideravelmente superior a 1%. Agripino aplicará, em determinado mês, uma quantia na aplicação A e outra quantia na aplicação B. Admitindo que A e B são aplicações cujos índices são independentes, calcule a probabilidade de que: a) ambas aplicações rendam mais que 1% nesse mês; b) apenas uma das aplicações renda mais que 1% nesse mês; c) nenhuma aplicação renda mais que 1% nesse mês. 3. Suponha agora outro cenário para o problema anterior: Agripino aplicará toda a quantia financeira em apenas uma das aplicações. Agripino escolherá a aplicação lançando uma moeda, decidindo pela aplicação A se o resultado for “cara”, e decidindo pela aplicação B se o resultado for “coroa”. Calcule a probabilidade de que a aplicação que Agripino fizer lhe dê um rendimento 45 maior que 1%. (Sugestão: caso não esteja conseguindo resolver este problema, monte um “diagrama de árvore”) 4. Um processo de manufatura produz microprocessadores usando uma nova tecnologia. Dados históricos mostram que 30% do total fabricado apresentam algum tipo de defeito e, dessa forma, gera algum tipo de “retrabalho”. A fábrica possui uma forma de testar um produto ao seu final, de maneira que ele acerta 80% das vezes em que o produto está realmente com defeito, enquanto nas ocorrências em que o produto não tem defeito, em 10% dos casos o teste aponta algum tipo de defeito. O gerente de produção acredita que a empresa deve investir em um novo tipo de teste para melhor averiguar os produtos finais, afirmando que esse teste está errando em torno de 30% das vezes. Você concorda com esse gerente? Justifique sua conclusão através de cálculos de probabilidades. 5. Uma companhia de petróleo efetuará perfurações em três lugares diferentes, nos quaisforam realizados estudos prévios. Estes estudos foram testes geológicos que apontaram as seguintes probabilidades de se encontrar petróleo: 0.70, 0.85 e 0.80 em cada um dos lugares, respectivamente. Presume-se que a presença de petróleo em qualquer das regiões independe da presença de petróleo nos outros dois locais. (a) Qual a probabilidade de se encontrar petróleo nos três lugares? (b) Qual a probabilidade de não se encontrar petróleo em qualquer dos três lugares? (c) Qual a probabilidade de se encontrar petróleo em apenas um dos lugares? 6. 100 investimentos considerados “de risco” foram avaliados de acordo com dois itens: sua lucratividade e o tempo em que permaneceram aplicados no mercado financeiro. Os resultados estão dispostos na tabela a seguir (esse tipo de tabela é conhecido como “tabela de contingência”). Menos de 2 meses 2 a 5 meses Mais que 5 meses Totais Lucrativo 2 8 14 24 Não lucrativo 16 35 25 76 Totais 18 43 39 100 Escolhendo ao acaso um desses investimentos, calcule a probabilidade de que essa aplicação: (a) Tenha sido lucrativa e tenha durado mais que 5 meses. (b) Tenha sido lucrativa ou tenha durado mais que 5 meses. (c) Tenha sido lucrativa, sabendo que durou mais que 5 meses. (d) Não tenha sido lucrativa. 46 4.4 Respostas dos exercícios 1. aprox. 0,0156 ou 1,56% 2. (a)48% (b)44% (c)8% 3. 0,7 4. A afirmação do gerente não é verdadeira; fazendo o diagrama de árvore, chegamos à conclusão que o teste tem probabilidade de 87% de acerto. 5. (a) 0,476 (b) 0,009 (c) 0,108 6. (a)14% (b)49% (c)35,9% (d)76% 47 CAPÍTULO V Probabilidades: Distribuições Binomiais 5.1 Variável aleatória Segundo Barbetta (2003), variável aleatória é uma “característica numérica associada aos resultados de um experimento”. Mais formalmente, é uma “função que associa resultados do espaço amostral Ω ao conjunto dos números reais”. Exemplos: a) número x de caras em 5 lançamentos de uma moeda; b) número x de pontos obtidos no lançamento de um dado; c) selecionando 10 de um grande lote de peças, verificar o n° x de peças defeituosas; d) observando o comportamento de uma ação no mercado durante 20 dias úteis seguidos, verificar o número x de vezes que a mesma aumentou seu valor; e) efetuar 20 medições de um forno industrial ao longo de um dia, e verificar quantas delas que ficaram no intervalo [95º,105°]; f) efetuar 20 medições da massa de um produto (cuja embalagem apresenta a informação “500g”), e verificar quantas delas que ficaram no intervalo [480g,520g]; • variável aleatória discreta: geralmente originada através de contagem (em matemática, podemos associá-la aos números inteiros); é o caso dos pontos no dado, nº de caras, nº de peças com defeito, nº de vezes que a ação subiu etc. • variável aleatória contínua: (em matemática, podemos associá-la aos números reais) geralmente originada através de medição; é o caso de temperatura, tempo, peso, altura, valores em reais etc. 5.2 O modelo binomial Condições para que um modelo probabilístico se caracterize como binomial: 1ª) Um experimento é realizado n vezes, procurando-se analisar a ocorrência de determinado evento x vezes; 2ª) Cada observação, de um total de n observações, pode ser classificada somente em uma de duas possibilidades (sucesso/fracasso, sim/não, verdadeiro/falso, cara/coroa etc.); Na 48 literatura estatística é comum o uso das expressões "Sucesso" e "Fracasso", que não devem ser entendidas em seu senso comum, mas sim como "ocorre o evento analisado" e "não ocorre o evento analisado", respectivamente†. 3ª) A probabilidade de sucesso, em cada observação, vale p, o que nos leva à conclusão de que a probabilidade de fracasso é 1-p; 4ª) As n observações são independentes entre si, ou seja, o resultado da primeira observação não interfere no resultado da segunda observação, e assim por diante (em problemas como “retiradas sucessivas de uma bola em urna”, deve-se considerar que cada bola retirada é reposta antes da retirada seguinte). Observação: As observações possíveis podem ser obtidas através de dois métodos diferentes de amostragem. Cada observação pode ser considerada como se tivesse sido selecionada a partir de uma população infinita sem reposição ou a partir de uma população finita com reposição. 5.3 Exemplos de distribuições binomiais: (a) Cremilda quer ter 3 filhos(as). Admitindo que a probabilidade de nascer menino ou menina é de 50% para cada sexo, Cremilda quer calcular a probabilidade de nascerem 2 meninas e 1 menino. (b) Suponha a que uma roleta de cassino tenha metade de suas casas (numeradas) na cor preta e a outra metade na cor vermelha. Qual a probabilidade de, em 10 jogadas, a bolinha cair exatamente 7 vezes numa casa vermelha? E cair até 7 vezes numa casa vermelha (ou seja, no máximo 7 vezes)? E a bolinha cair mais que 7 vezes numa casa vermelha? (c) Qual a probabilidade de que, numa amostra de 20 pneus do mesmo tipo, nenhum será defeituoso, sabendo que 8% de todos os pneus produzidos por uma determinada fábrica são defeituosos? Nesse mesmo problema, qual a probabilidade de serem escolhidos até 2 pneus defeituosos? (d) Você prestará um concurso para ser admitido por uma empresa. Uma das provas é composta de 10 questões tipo “teste”, com 5 alternativas cada. Se você “chutar” todas as respostas, qual a probabilidade de você acertar exatamente 5 questões? (e) Qual a probabilidade de uma determinada ação apresentar elevação no seu preço de fechamento (numa base diária) nas próximas 10 sessões de negociação, considerando que as mudanças no preço de mercado são aleatórias e que, a cada dia, há 70% de chance dessa ação subir? • † Exemplo: Jogar um dado e calcular a probabilidade de ocorrer face 5; nesse caso, a probabilidade do sucesso é 1/6 e do fracasso é 5/6, pois sucesso significa ocorrer face 5 e fracasso significa não ocorrer face 5. 49 5.4 O Cálculo da probabilidade Para calcular a probabilidade de ocorrer determinado resultado x vezes, num universo de n realizações de determinado experimento, temos a expressão: xnx pp xnx n xP −− −⋅ = )1.(. )!(! ! )( Por exemplo: a probabilidade de ocorrer x vezes (0≤x≤5) a face cara em 5 lançamentos de uma moeda honesta é dada por: xx xx xP − −⋅ = 5)5,0.()5,0.( )!5(! !5 )( A expressão anterior assume o formato a seguir se quisermos calcular a probabilidade de ocorrer face cara três vezes (em cinco lançamentos): 23 )5,0.()5,0.( )!35(!3 !5 )3( −⋅ =P Outro exemplo: a probabilidade de ocorrer x vezes (0≤x≤5) a face "três" em 5 lançamentos de um dado honesto é dado por: xx xxx xP − −⋅ = 5)6/5.()6/1.( 5 )!5(! !5 )( 5.5 Comentário para quem estiver interessado nos fundamentos matemáticos das expressões anteriores: o significado do cálculo )!(! ! xnx n −⋅ Lembra-se da operação “fatorial”? Veja os exemplos: 3!=3.2.1=6 5!=5.4.3.2.1=120 9!=9.8.7.6.5.4.3.2.1=362880 Em relação à parte da fórmula que calcula probabilidades binomiais, tão ou mais importante do que seu cálculo, é necessário que você entenda o que tal número significa; o resultado desse cálculo indica o número de maneiras diferentes de se escolher x coisas dentre um total de n coisas. Exemplo: 10 1.2.3.1.2 1.2.3.4.5 )!25(!2 !5 == −⋅ ; veja que isso representa o seguinte: há 10 maneiras diferentes de se escolher 2 coisas dentre 5. Não acredita? Então faça o teste: vamos escrever 5 letras, A, B, C, D e E. Faça todas as escolhas possíveis de duas dessas letras; teremos: AB, AC, AD, AE, BC, BD, BE, CD, CE, DE. Viu só? São 10 combinações possíveis! 5.6 Calculando P(x) com Excel. Ao mesmo tempo em que vamos mostrar a você o comando que fornece diretamente o cálculo da distribuição binomial com Excel, vamos resolver um 50 problema que mostre a aplicação das fórmulas acima, e sua conseqüente entrada de dados nesse software. Problema: suponha que uma determinada aç��o tem50% de chances de ter seu valor aumentado em cada dia útil e, conseqüentemente, 50% de chances de manter ou diminuir seu valor. Em três dias seguidos de observação, qual a probabilidade dessa ação aumentar exatamente 2 vezes o seu valor? Probabilidade de ocorrer sucesso (aumentar o valor da ação): p = 0,5. Probabilidade de ocorrer fracasso (diminuir o valor): 1–p=1–0,5=0,5. Número de eventos: n = 3. Número de sucessos: x = 2. Número de fracassos: n – x = 3 – 2 = 1 Probabilidade de ocorrer exatamente 2 sucessos (2 vezes aumento no valor da ação): 12 )5,0.()5,0.( )!23!.(2 !3 )2( − =P O resultado é: 5,0.25,0.3)2( =P , ou seja, %5,37375,0)2( ==P Para este exemplo, o Excel calculará da seguinte maneira: =DISTRBINOM(2; 3; 0,5; FALSO) Para usar o comando DISTRBINOM você também pode procurá-lo junto à lista de funções (INSERIR � FUNÇÃO � opção ESTATÍSTICA � DISTRBINOM); o próprio excel irá te ajudar com a explicação do comando, semelhante à seguinte: Veja que, no exemplo, temos: Núm � 2 Tentativas � 3 Probabilidade � 0,5 Cumulativo � FALSO A opção VERDADEIRO, para o item cumulativo, ocorre no caso de se desejar a somatória de probabilidades menores ou iguais à desejada. No exemplo anterior, se a pergunta fosse “Em três dias seguidos de observação, qual a probabilidade dessa ação aumentar até (ou no máximo) 2 vezes o seu valor”, teríamos que calcular P(0) + P(1) + P(2), ou seja, P(X ≤ 2), pois da pergunta se DISTRBINOM (núm;tentativas;probabilidade;cumulativo) Núm � é o número de sucessos. Tentativas � valor de n (total de eventos) Probabilidade � probabilidade de sucesso em cada tentativa. Cumulativo � FALSO para probabilidade exata, VERDADEIRO para probabilidade acumulada até o valor “Núm”. 51 deduz que a ação pode não subir, subir uma vez ou subir duas vezes. No Excel, basta efetuar o seguinte comando: DISTRBINOM(2; 3; 0,5; VERDADEIRO). Compare ambas as respostas: DISTRBINOM(2; 3; 0,5; FALSO) = 0,375 DISTRBINOM(2; 3; 0,5; VERDADEIRO) = 0,875 Em símbolos, no primeiro caso temos P(2) e, no segundo, P(X ≤ 2). Vamos então ampliar o problema com outros números: em 10 dias úteis seguidos e estimando-se que essa ação tem 70% de chances de ter seu valor aumentado em determinado dia, calcule a probabilidade de que essa ação aumente: (a) exatamente 6 dias: DISTRBINOM(6; 10; 0,7; FALSO) (b) exatamente 2 dias: DISTRBINOM(2; 10; 0,7; FALSO) (c) no máximo 3 dias: DISTRBINOM(3; 10; 0,7; VERDADEIRO) (d) no mínimo 4 dias: 1 – DISTRBINOM(3; 10; 0,7; VERDADEIRO) 5.7 Exercícios 1) Em 5 lançamentos de uma moeda comum, calcule a probabilidade de: (a) serem obtidas exatamente 2 caras; (b) serem obtidas até 2 caras; (c) serem obtidas no mínimo uma cara. 2) Uma urna tem 12 bolas, das quais 9 são verdes, 2 são brancas e uma é azul. Sorteia-se aleatoriamente uma bola dessa urna, verifica-se sua cor e devolve-se essa bola na urna. Fazendo-se esse processo três vezes seguidas, ou seja, retirando-se três vezes com reposição uma bola dessa urna, calcule a probabilidade de que ocorra: (a) bola verde nos três sorteios; (b) não ocorrer bola verde em qualquer dos três sorteios. 3) Suponha que uma determinada ação tem 80% de chances de ter seu valor aumentado em cada dia útil e, conseqüentemente, 20% de chances de diminuir seu valor. Em quatro dias seguidos de observação, qual a probabilidade dessa ação aumentar: (a) Exatamente 3 vezes o seu valor? (b) Exatamente 4 vezes o seu valor? (c) Pelo menos 3 vezes o seu valor? (d) Pelo menos duas vezes seu valor? 4) Um certo processo industrial produz, no máximo, 10% de itens defeituosos. Assumindo esse valor como a probabilidade de cada item, em particular, ser produzido com defeito, calcule a probabilidade de ocorrerem, numa amostra de 10 itens, três ou mais itens defeituosos. 52 5) Sabe-se que numa linha de produção 10% das peças são defeituosas, e as peças são acondicionadas em caixas com 5 unidades. Seja x a variável aleatória igual ao número de peças defeituosas encontradas numa caixa (observe que x assume valor de 0 a 5). Calcule a probabilidade de uma caixa qualquer conter: (a) exatamente 3 peças defeituosas; (b) duas ou mais peças defeituosas; 6) Qual a probabilidade de que, numa amostra de 20 pneus do mesmo tipo, nenhum será defeituoso, sabendo que 8% de todos os pneus produzidos por uma determinada fábrica são defeituosos? 7) No mesmo contexto do exercício anterior, qual a probabilidade de serem escolhidos até 2 pneus defeituosos? E mais que 5 pneus defeituosos? 8) No transporte de carros novos entre o pátio da montadora e a concessionária, 3% dos carros transportados sofrem algum tipo de avaria em sua pintura. Se uma concessionária recebe 50 carros em certo período, calcule a probabilidade de: (a) Nenhum dos carros transportados sofrer avarias na pintura; (b) Dois ou mais carros sofrerem avarias na pintura 9) A companhia Telektronic compra grandes carregamentos de lâmpadas fluorescentes e usa este plano de amostragem de aceitação: seleciona aleatoriamente e testa 24 lâmpadas, e aceita o lote todo se há apenas uma ou nenhuma lâmpada que não funcione. Se um carregamento particular de milhares de lâmpadas tem uma taxa de 4% de defeituosas, qual é a probabilidade de que o carregamento todo seja aceito? 5.8 Respostas dos exercícios 1. (a) 31,25% (b) 50% (c) 96,88% 2. (a) 42,19% (b) 1,56% 3. (a) 40,96% (b) 40,96% (c) 81,92% (d) 97,28% 4. 7,02% 5. (a)0,81% (b)8,15% 6. 18,87% 7. 78,79%; 0,38% 8. (a) 21,81% (b) 44,47% 9. 75,08% 53 CAPÍTULO VI Distribuições de Probabilidades: Histogramas e Medidas 6.1 Distribuição de Probabilidade; Histogramas de probabilidades. Recordando, sabemos que uma variável aleatória, geralmente representada por x, é um valor numérico associado a cada resultado de um experimento. Exemplos: a) número x de caras em 5 lançamentos de uma moeda (x vale O, 1, 2, 3, 4 ou 5); b) selecionando 3 peças de um lote com 10 peças, verificar o n° x de peças defeituosas (x pode ser 0, 1, 2 ou 3); c) medir a temperatura de um forno industrial (x pode ser um número real que varia no intervalo de 25º a 105°. Estamos ainda no estudo de problemas como os dos itens (a) e (b), que se tratam de variáveis aleatórias inteiras (“discretas”): geralmente originada através de contagem (lembre-se do que são números inteiros, em Matemática!). O exemplo (c), que é um exemplo de variável aleatória real (contínua), será estudado mais adiante. Uma distribuição de probabilidades “é um gráfico, uma tabela ou uma fórmula que dá a probabilidade para cada valor da variável aleatória”. Exemplo 1: Veja a distribuição de probabilidades para resultados do experimento “lançamento de um dado” (Triola, p.). Resultado Probabilidade Resultado Probabilidade 1 1/6 1 0,16667 2 1/6 2 0,16667 3 1/6 3 0,16667 4 1/6 4 0,16667 5 1/6 5 0,16667 6 1/6 6 0,16667 Exemplo 2: Seja o experimento “lançamento de uma moeda 10 vezes”, e seja a variável aleatória x = número de caras obtido. Veja a tabela de distribuição de freqüências para esse evento. 54 Exemplo 3: A empresa WW calcula continuamente o valor total de suas vendas semanais. De acordo com os resultados, calculados com valores aproximados e arredondados, foram obtidas as seguintes probabilidades: Vendas (em milhares de R$) Probabilidade 3 0,05 4 0,20 5 0,35 6 0,30 7 0,10 Exemplo 4: A empresa ZZ também calcula continuamente o valor total de suas vendas semanais. De acordo com os resultados, calculados com valores aproximados, foram obtidas as seguintes probabilidades: Vendas (em milhares de R$) Probabilidade 2 0,05 3 0,10 4 0,15 5 0,20 6 0,30 7 0,10 8 0,05 9 0,05 Note que tais distribuições podem também ser representadas graficamente, através dos histogramas: Número de caras Probabilidades 0 0,0010 1 0,0098 2 0,0439 3 0,1172 4 0,2051 5 0,2461 6 0,2051 7 0,1172 8 0,0439 9 0,0098 10 0,001055 Lançamento de um dado 0 0,05 0,1 0,15 0,2 1 2 3 4 5 6 resultados p ro b a b il id a d e s Vendas de WW 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 3 4 5 6 7 Milhares de reais P ro b a b il id a d e s Lançamento de moeda 10 vezes 0,0000 0,1000 0,2000 0,3000 0 1 2 3 4 5 6 7 8 9 10 Número de caras P ro b a b il id a d e s 56 Vendas de ZZ 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 1 2 3 4 5 6 7 8 Milhares de reais P ro b a b il id a d e s Uma observação importante que devemos fazer, ao observar esses histogramas, é que a região composta por retângulos de maior área, são regiões onde se tem a maior probabilidade de ocorrência do evento em questão. Ou seja, o valor que se espera obter nesse experimento geralmente é um valor do eixo x que se situa nessa região. 6.2 Valor esperado (Média aritmética) de uma variável aleatória. Imagine a seguinte situação: você irá jogar um dado inúmeras vezes. Imagine também que a cada resultado está associado o respectivo valor em reais (face 1 � R$ 1,00, face 2 � R$ 2,00, e assim por diante, até face 6 � R$ 6,00). Suponha que você vai receber a quantia referente à média de todos os resultados obtidos. Quanto será que você vai receber? Melhorando a forma de perguntar, qual será o provável valor que irá receber? A primeira forma de você desconfiar da resposta é jogando, efetivamente, um dado por muitas vezes e fazer o cálculo. O autor deste texto fez quatro simulações com 100 elementos, usando o Excel, de maneira a imitar o lançamento de um dado 100 vezes; faça você mesmo usando a função =ALEATÓRIOENTRE(1;6). Realizando 4 simulações dessa forma, a média dos pontos obtidos em cada uma delas foram as seguintes: 3.6, 3.31, 3.54 e 3.55. Percebe em torno de qual valor esses quatro resultados se aproximam? Mais uma dica: a média desses quatro valores é 3.498864... Ou seja, é possível perceber que a média esperada ao se lançar um dado inúmeras vezes é 3,5; dizendo de outro modo, falamos que 3,5 é o valor esperado no lançamento de um dado. Veja que o valor da média não é necessariamente um valor da variável x (que pode ser 1, 2, 3, 4, 5 ou 6), mas isso não atrapalha o 57 modelo matemático que estamos construindo, uma vez que estamos trabalhando, em todos os exemplos que seguem, por meio de uma sucessão de determinado experimento realizada várias vezes (assim como o dado foi lançado inúmeras vezes, os valores de vendas dos exemplos 3 e 4 também foram coletados a partir de várias semanas). Mas qual o cálculo que pode ilustrar o valor 3,5 previamente, sem termos que lançar um dado inúmeras vezes ou mesmo simular esse procedimento com o Excel? O raciocínio é similar ao cálculo de uma média aritmética ponderada; se lançarmos um dado 600 vezes, o que se espera é que ocorra um valor muito próximo de 100 vezes a face 1, 100 vezes a face 2, 100 vezes a face 3, 100 vezes a face 4, 100 vezes a face 5 e 100 vezes a face 6. Veja como seria o cálculo da média. 600 610051004100310021001100 média ×+×+×+×+×+×= Esse cálculo resulta em 3.5, conforme já havíamos imaginado, porém veja como isso pode ser explicado por meio de probabilidades: 5,36 6 1 5 6 1 4 6 1 3 6 1 2 6 1 1 6 1 6 61 6 51 6 41 6 31 6 21 6 11 600 6100 600 5100 600 4100 600 3100 600 2100 600 1100 600 610051004100310021001100 =×+×+×+×+×+× =×+×+×+×+×+× =×+×+×+×+×+× =×+×+×+×+×+× Sabemos que 1/6 é a probabilidade de cada resultado em particular. Formalizando a idéia: cada resultado possível é multiplicado pela sua probabilidade, e a média (valor esperado) resulta da soma desses cálculos. No exemplo 3, o gerente da empresa WW tem uma forte intuição de que as vendas da próxima semana ficarão em torno de 4 a 6 mil reais; qual será a média semanal esperada para essa empresa? Basta realizar o cálculo semelhante ao exemplo anterior do dado, multiplicando cada resultado possível pela sua probabilidade. Vendas (em milhares de R$) Probabilidade 3 0,05 4 0,20 5 0,35 6 0,30 7 0,10 58 710,0630,0535,0420,0305,0 ×+×+×+×+×=µ 2,5=µ Isso significa que 5,2 milhares de reais é o valor esperado das vendas na próxima semana. Dessa forma, analise a oração anteriormente descrita para resumir a forma de se efetuar o cálculo: cada resultado possível é multiplicado pela sua probabilidade, e a média (valor esperado) resulta da soma desses cálculos. Formalizando, temos: Sejam x1, x2, ... , xn os resultados possíveis de uma variável aleatória, e sejam p1, p2, ... , pn as respectivas probabilidades desses resultados. Chamamos de média ou valor esperado da variável x ao valor µ tal que: nn xpxpxp ×++×+×= ...2211µ Um resumo para essa fórmula é dado por: ∑ ×= ii xpµ , ou, para quem é mais exigente na notação matemática: ∑ = ×= n i ii xp 1 µ 6.3 Variância e Desvio Padrão Utilizemos o exemplo 3, das vendas da empresa WW, a fim de retomarmos a noção de variância e de desvio padrão. Sabendo que sua média (valor esperado) é 5.2, mas supondo que não conhecemos o restante da distribuição, pergunta-se: a probabilidade de ocorrer o valor 6.3 para as vendas é alta, média ou baixa? Note que, sem conhecer o formato da distribuição, fica difícil arriscar um palpite. Isso porque não sabemos o quão espalhadas são as possibilidades em torno da média. Se tivermos um histograma mais concentrado (barras mais altas e próximas), boa parte dos resultados possíveis fica mais próxima da média, enquanto um histograma com probabilidades mais diluídas em vários retângulos afastados da média, faz com que imaginemos uma variação maior das possibilidades. Ou seja, concluímos que é necessário continuarmos com a idéia de desvio padrão para medir o espalhamento dos possíveis resultados de nossa distribuição. Assim como estudamos na Estatística Descritiva, a Variância, denotada por 2σ , é o quadrado do desvio padrão. Usaremos, a partir desta lição, as letras gregas σ , para o desvio padrão da população, e µ para a média da população (em contraposição a S e X , que são usadas em amostras). Valem as seguintes fórmulas: VARIÂNCIA: ( )∑ −⋅= 22 )( µσ ii xp DESVIO PADRÃO: ∑ −⋅= 2)( µσ ii xp 59 Não abordaremos aqui a explicação matemática dessa formulação, porém vamos intensificar a forma de usar e entender esse resultado; lembre-se que a primeira idéia de desvio padrão que deve vir ao seu pensamento ao lhe ser solicitado um significado é: “medida de espalhamento”. É uma espécie de “média” dos desvios de cada valor em relação à média. Quanto maior o desvio padrão, mais afastados da média estão os valores; reciprocamente, quanto menor o desvio padrão, mais concentrados em torno da média estão os dados. 6.4 Média e Desvio Padrão para Distribuições Binomiais No caso de distribuições binomiais, as fórmulas, decorrentes das anteriores, são bastante simples: Nessa fórmula, n é o número de eventos, e p é a probabilidade de sucesso. No exemplo do lançamento de 10 moedas, em relação ao número de caras, temos: 5 2 1 10. n.p µ === ; e 5 não é realmente o resultado mais provável? Para o desvio padrão, temos: 1,58 0,5)-10.0,5.(1 p)-n.p.(1 σ ≅== 6.5 Exercícios 1. O lucro líquido da empresa para o ano que vem foi estimado de acordo com as seguintes probabilidades: Cenário Lucro (em milhões de u. m.) Probabilidade Excelente 10 20% Bom 5 40% Sofrível 1 25% Ruim -4 15% Calcule o valor esperado de lucro dessa empresa. Calcule também o desvio padrão. pn.=µ )1.(. ppn −=σ 60 2. Um analista de mercado estimou que os preços da ação GHTW para os próximos doze meses é a variável aleatória registrada na tabela seguinte. (a) Calcular o valor esperado e o desvio padrão. (b) Determine o primeiro intervalo da regra empírica para o desvio padrão. Preço Probabilidade $ 10 10% $ 14 25% $ 19 35% $ 24 20% $ 30 10% 3. Suponha que você tem em mãos uma moeda viciada, ou seja, uma moeda na qual as probabilidades para cada resultado não são iguais (ouseja, não são de 50% para cada face). Sabendo que esta moeda tem 25% de chances de sair cara: (e) Calcule a probabilidade de, em 10 lançamentos, ocorrer exatamente 2 caras. (f) Calcule a média (valor esperado) para a variável “o número de caras a serem obtidos em 10 lançamentos”. (g) Calcule o desvio padrão para a variável do ex. (b). (h) “É improvável que ocorram exatamente 8 caras em 10 lançamentos dessa moeda”. Mostre como o item (c) pode ser utilizado para explicar a essa afirmação. 4. Dados anteriores mostram que 10% dos pacotes de frango congelados comercializados pela empresa NNN passam do prazo de validade ainda nas prateleiras de supermercados ou lojas do ramo (localizados numa grande cidade). Escolhe-se 15 pacotes aleatoriamente nesses estabelecimentos de comércio, a fim de se fazer uma análise do número de pacotes com data vencida. Utilize o conceito de média (valor esperado) e de desvio padrão de uma distribuição binomial para avaliar se é provável, pouco provável ou improvável que ocorra: (a) Exatamente 6 pacotes vencidos; (b) Exatamente 4 pacotes vencidos; (c) Exatamente 2 pacotes vencidos; (d) Exatamente 1 pacote vencido; (e) Nenhum pacote vencido. 61 6.6 Respostas dos exercícios 1. A média é 3,65 milhões u.m.; o desvio padrão é de 4,396 milhões u.m. 2. (a) 95,18$=µ e 61,5$=σ (b) [$13,34; $24,56] 3. (a) 28% (aprox.) (b) 2,5 caras (c) 1,37 caras (d) o resultado 8 para a variável aleatória em questão ultrapassa o 3º intervalo da regra empírica, ou seja, está além de 3 desvios padrão da média (cujo valor é 6,61); portanto, é um dado discrepante, de pequena probabilidade de ocorrência. 4. Calculando primeiramente a média e o desvio padrão, temos 5,1=µ e 16,1=σ ; (a) Improvável, pois 6 é um resultado que está além de 3 desvios, já que 1,5+3.1,16 = 4,98 (b) pouco provável, pois está além de 2 desvios, embora menos de 3 desvios (se ocorrer, será considerado suspeito) (c) resultado normal, está próximo da média, a menos de um desvio da mesma. (d) idem anterior (e) não é difícil ocorrer; embora esteja no segundo intervalo da regra empírica, o valor zero está um pouco além de um desvio padrão da média, já que 1,5 – 1,16 = 0,34. 62 CAPÍTULO VII Distribuições Normais Probabilidades: A famosa Curva de Gauss 7.1 Introdução: histograma de probabilidades Retomemos a distribuição de probabilidades discretas, a partir do seguinte exemplo: jogar uma moeda dez vezes, e observar a distribuição de probabilidades da variável X = número de caras obtidas. Note que o número de caras é um valor que vai de 0 a 10, porém a probabilidade de ocorrerem 10 caras não é a mesma de ocorrerem 7 caras. Veja o porquê disso. Nenhuma cara: 0,098%250.00097656)5,0.()5,0.( 0 10 )0( 100 ≅= =P . 7 caras: %72,110.1171875)5,0.()5,0.( 7 10 )7( 37 ≅= =P Veja que os cálculos específicos de probabilidades resultam em (0.5)10, mas P(7) é maior porque há muitas maneiras de ocorrerem 7 caras e 3 coroas, ao contrário de nenhuma cara; só há uma maneira de ocorrer nenhuma cara (ou seja, 10 coroas): cccccccccc. Porém, há 120 maneiras de ocorrerem 7 caras e 3 coroas (o binomial (10,7) indica isso!). Veja alguns exemplos: kkkkkkkccc, kkcckkkkcK, kkckkckkck, ckkkkkkkcc. Estas são 4 das 120 possibilidades de ocorrerem 7 caras e 3 coroas, por isso sua probabilidade é maior. Qual é o resultado mais provável? Seguindo a intuição que nos leva a crer em 50% das possibilidades para cada face da moeda, inclusive em termos de vários lançamentos, temos que 5 caras e 5 coroas seria o resultado com maior probabilidade de ocorrer. %61,240.2460938)5,0.()5,0.( 5 10 )5( 55 ≅= =P Como observar todas as probabilidades? Uma forma é, sem dúvida, fazer todos os cálculos; porém, a forma mais prática é observarmos o histograma com todas essas probabilidades (ver figura na próxima página). Perceba que a coluna mais alta está na região em torno de X=5, e sua altura é a respectiva probabilidade aproximadamente igual a 0,24. Verifique também as probabilidades mostradas neste texto, ou seja, P(0) e P(7). Observação importante: perceba que a área correspondente a todo o histograma tem valor 1 (ou seja, 100%). Isso é exclusividade deste exemplo? É 63 claro que não! Todo histograma de probabilidades terá essa característica, ou seja, delimitar uma região que possui área igual a 1. 7.2 Variáveis aleatórias contínuas Comparando com um pouco mais de profundidade as variáveis discretas e contínuas, podemos observar o seguinte: - variáveis discretas (valores inteiros) geralmente têm origem em processos de contagem: nº de pontos no dado, nº de peças com defeito, nº de vezes que uma ação subiu, nº de caras em vários lançamentos de moeda etc. - variáveis contínuas (valores reais) geralmente têm origem em processos de medição; alguns exemplos: tempo para descarregamento de um lote varia de 14min a 33min; a largura de placas de aço produzidas em determinado processo de temperatura variável varia de 52,2 mm a 65,8 mm; na produção agrícola, interessa saber a variação pluviométrica de determinada região, em determinada época do ano; temperatura de certo forno industrial pode variar de 500ºC a 900ºC; volume de combustível (gás, óleo, gasolina) gasto em processos de queima (de cimento, de cerâmicas) ou de aquecimento (produção alimentícia); volume contido em embalagens de certo produto vendidos no atacado podem ser avaliados por uma entidade de defesa do consumidor; tempo de vida útil de determinado sistema hidráulico. Alturas, pesos, tempos, temperaturas, volumes... aqui, a probabilidade faz sentido para intervalos, pois a probabilidade específica de um determinado valor é definida como zero. Procure não estranhar tanto esse fato, através desse exemplo: numa população de 1000 pessoas, qual a probabilidade de escolhermos uma aleatoriamente que tenha altura 1,756 m de altura? Lançamento de moeda 10 vezes 0,0000 0,1000 0,2000 0,3000 0 1 2 3 4 5 6 7 8 9 10 Número de caras P ro b a b il id a d e s 64 Nesse tipo de cálculo de probabilidades, fará sentido calcularmos, por exemplo, uma probabilidade de encontrarmos uma pessoa que tenha entre 1,73 e 1,76m de altura. 7.3 A Distribuição Normal Depois de analisarmos vários histogramas parecidos com aquele apresentado nesta página, já possuímos uma visão mais ampla do que esse desenho representa: uma distribuição (de dados ou probabilidades) que possui sua concentração em torno da média aritmética, a qual situa-se, de maneira geral, no centro desse desenho. Intitulada como função de densidade de probabilidade normal, ou curva de Gauss, o gráfico a seguir ilustra inúmeros fenômenos que são muito importantes e são diariamente estudados em engenharia, finanças, ciências sociais e processos diversos que fazem parte do cotidiano de muitos administradores de empresas. Tomemos mais alguns exemplos simples: a) Suponhamos que as alturas de 500 pessoas que estudam numa faculdade possuem uma média de 1,70m, e desvio padrão de 0,10m. Não é difícil imaginar que há muitas alturas que estão próximas desse valor (o que nos leva novamente à concentração em torno da média), e poucos valores afastados dela (pessoas com 1,40m ou 2,00m são minoria). b) Supondo que seu horário de trabalho é fixo e que entra todo dia às 8h da manhã, qual é, em média, o horário em que você chega para - 3 - 2 - 1 0 1 2 3 65 trabalhar? Geralmente às 7h50, mas às vezes um pouco antes, um pouco depois, raramente às 8h10 ou 7h30... c) O peso um pacote de salgadinhos deve ser 200g. Registros indicam que, em inúmeras pesagens, verificou-se que o peso médio verificado realmente é 200g, mas há inúmeras medidas observadas: 198.2, 200.6, 200.2, 199.5, 198.6, 199.4, e assim por diante. 7.4 Principais propriedades da Distribuição Normal a) É simétrica e tem o formato de um sino; b) A área sob a curva vale 1; c) Comparando curvas:na figura à esquerda, é possível identificar curvas com médias diferentes, mas mesmo desvio padrão; já na figura à direita, curvas com mesma média, mas desvios padrão diferentes (a curva mais alta tem dados mais concentrados, ou seja, desvio padrão menor). d) O eixo horizontal possui infinitos valores, porém, na prática, seu estudo se concentra no intervalo de –3 a +3. Mas, que valores são esses? São os valores Z, padronizados para quaisquer distribuições com a fórmula a seguir: σ µ−= X Z 66 Nessa fórmula, usávamos X como média da amostra, mas os livros de estatística costumam representar por µ a média esperada da população. A mesma mudança ocorre para o desvio padrão: ao invés de usarmos S, que era o desvio padrão da amostra, usaremos a letra σ que representa o desvio padrão da população. No exemplo (a) das alturas temos o eixo Z padronizado da seguinte forma: Escolhendo-se uma pessoa ao acaso, qual a probabilidade de ela ter: a) mais que 1,70m? b) mais que 1,80m? c) entre 1,60m e 1,80m? Note que para se responder o item (a), não é necessário muito esforço: 50% é a resposta, já que a região a que se refere a pergunta é metade da região completa, uma vez que 1,70 é a média. A resposta do item (b) é o valor da área sob a curva representada pela região situada a partir do valor 1,80m ou, em termos de valor padronizado Z, na região referente a Z>1 (pois 1,80 está a um desvio padrão da média). A resposta do item (c) é o valor da área sob a curva representada pela região situada entre –1 e 1 (ou seja, para 1,60 1 - 3 - 2 - 1 0 1 2 3 Probabilidade para –1 1 é igual a probabilidade para z 1-2*DIST.NORMP(-1) Resposta: 0.6826895 > DIST.NORMP(1) – DIST.NORMP(–1) Resposta: 0.6826895 2ª FORMA: TABELA DE VALORES (não será usado em aula) Calcula-se o valor Z através da fórmula anteriormente revista, e busca-se o valor da respectiva área através da tabela que consta na página seguinte. Na primeira coluna está o valor inteiro de Z juntamente com sua primeira casa decimal. A primeira linha tem os valores da segunda casa decimal de Z; fazendo o cruzamento de linha com coluna, obtém-se a área desejada, que vem desde ∞− e vai até o valor Z em questão. Exemplo: para z=1,25, toma-se o valor 1,2 da primeira coluna e a decimal 0,05 na primeira linha. A área correspondente está no cruzamento desses dois valores: 0,8944, ou seja, a área (probabilidade) vale 89,44%. Note que essa área se refere a toda região anterior ao valor 1,25. E se você quiser saber a região situada entre a média 0 e o valor 1,25? Basta subtrair 0,5, que é a metade da região determinada pela gaussiana, ou seja, 0,8944 – 0,5 = 0,3944. E se você quiser saber a área menor que – 1,25? Basta fazer 1 – 0,8944 = 0,1056. Recomendação: vale a pena esboçar um desenho simples da curva de Gauss para poder responder com segurança a essas perguntas. Dessa forma, você usará a simetria dos valores e do desenho de forma simultânea, diminuindo (e muito) a probabilidade de erro. 70 7.6 Exercícios 1. Suponha que as notas de uma prova para concurso público tenham distribuição normal com média 60 pontos e desvio padrão 15 pontos. a) se você realizou essa prova e obteve nota 80 pontos, qual é a sua posição relativa, em unidades de desvios padrão, com relação à média das notas? b) Se foram considerados aprovados os candidatos que obtiveram nota mínima correspondente a 1 (um) desvio padrão acima da média, qual é a nota mínima de aprovação na escala original? 2. Admitamos que a altura X de estudantes da Faculdade tenha distribuição normal com 170cm de média e desvio padrão 10cm (exemplo feito em sala). Calcule as seguintes probabilidades: a) P(x>190) ZZZZ Segunda decimal de Z 71 b) P(150têm distribuição normal, com média de 65,3g e desvio padrão de 5,5g. Encontre o número esperado de peças com massas: d) entre 60,0 e 70,0g; e) superiores a 63,2g. f) há um valor, em gramas, para o qual espera-se que apenas 10% das peças tenham massa menor que ele. Determine esse valor. 7. Uma máquina automática para encher garrafas está regulada para que o volume médio de refrigerante em cada garrafa seja de 2 litros e o desvio 72 padrão de 20ml. Pode-se admitir que o volume de refrigerante nas garrafas tenha distribuição normal. a) qual a porcentagem de garrafas em que o volume de refrigerante é inferior a 1965 ml? b) Se as garrafas são embaladas em pacotes com 6 unidades cada um, qual a probabilidade de que um pacote, escolhido aleatoriamente, contenha pelo menos uma garrafa com volume de refrigerante inferior a 1965 ml? c) Sabendo-se que um supermercado vende em média por semana 2500 dessas garrafas de refrigerante, com desvio padrão de 80 garrafas e distribuição normal, de quantas garrafas deve ser o seu estoque semanal para que a probabilidade de que falte esse tipo de refrigerante numa determinada semana seja de apenas 3%? 7.7 Respostas dos exercícios 1. (a) 1,33 desvio acima da média (b) 75 2. a) P(x>190) = 0.02275013 (aprox. 2,28%) b) P(150 450,00) Com o Excel (veja que fácil!): DIST.NORMP(-2.125)+(1- DIST.NORMP(0.375)) = 0.3706235 (aprox. 37,06%) Com a tabela: P(X 450,00) = 36,86% (idem) d) Este item é mais fácil de ser feito com a tabela (com o Excel também é possível, porém são necessárias algumas tentativas): a resposta é 455,20 u.m. 5. a) P(XX Z σ µ−= Retome o exemplo das amostragens feitas com os dados: perceba que se forem feitas inúmeras amostras de dez dados, por exemplo, haverá um comportamento semelhante acontecendo com a média aritmética, já que teremos inúmeros valores bastante próximos a ela. O que concluímos com esse fato é de extrema importância: a forma como essas médias se distribuem se comporta conforme o modelo normal. Esse processo de amostragem, oriundo de uma distribuição uniforme (como o exemplo de um dado) ou de uma distribuição que tende à normal, como apresentado aqui e em aula, nos leva a utilizar o modelo normal para a realização de cálculos e previsões. Exemplo 2: A ser resolvido em aula. Os registros históricos de produção de frascos com detergente mostram que o volume de enchimento realizado pela máquina automática é normalmente distribuído com média 150cm³ e desvio padrão 0,50cm³. Se for retirada uma amostra de tamanho n=9, qual a probabilidade da média desta amostra ser menor ou igual a 149,75cm³? 8.2 Teorema do Limite Central Você percebeu que, no exemplo 1, a distribuição amostral se referia a uma curva normal, correto? Mas, se fôssemos lançar um dado inúmeras vezes, a distribuição de freqüências das faces não obedeceria a uma curva normal, mas 77 seria um gráfico com o formato de uma distribuição uniforme, já que as chances de ocorrer cada uma das faces são iguais. Para “piorar” essa situação, perceba que podemos fazer amostras a partir de dados que não tenham sua variável se comportando de maneira normal (gaussiana); a palavra “piorar” está entre aspas pelo seguinte fato: Teorema do Limite Central§ Ou seja, mesmo que a população tenha seu parâmetro não se comportando dentro do modelo normal, fazendo-se várias amostras de tamanho n suficientemente grande (os estatísticos sugerem n>30), essa distribuição amostral é tomada como normal. 8.3 Exercícios 1. O gerente de uma agência bancária verificou que, em determinado período considerado crítico por economistas, o saldo médio das contas correntes era de R$325,00 e o desvio padrão R$114,00. Retirando-se uma amostra aleatória de 100 contas correntes: g) qual a probabilidade da média dos saldos ser menor ou igual a R$330,00? h) qual a probabilidade da média dos saldos médios ser maior ou igual a R$ 350,00? 2. O fabricante de pneus assegura que a duração do pneu mais vendido tem média 60.000 km com desvio padrão 5.000 km. Como os distribuidores não estão convencidos, o fabricante ofereceu aos revendedores a oportunidade de separar, aleatoriamente, 40 pneus para verificar os resultados afirmados pelo fabricante. a) se afirmação do fabricante é verdadeira, qual a porcentagem de pneus, do total fabricado, têm duração entre 55.000 km e 65.000 km? b) se afirmação do fabricante é verdadeira, qual é a probabilidade de que a amostra de 40 pneus tenha duração média entre 55.000 km e 65.000 km? Analise o resultado. § Texto do teorema extraído de Levine et al (2000) À medida que o tamanho da amostra (nº de observações em cada amostra) se torna suficientemente grande, a distribuição de amostragem da média aritmética pode ser aproximada pela distribuição normal. Isto é verdadeiro, independentemente do formato da distribuição dos valores individuais na população. 78 c) se afirmação do fabricante é verdadeira, qual é a probabilidade de que a amostra de 40 pneus tenha duração média entre inferior a 57.500 km? Analise o resultado. 3. Uma montadora de carros afirma que a média de consumo do seu novo modelo tem distribuição normal com média de 15,9 km por litro e desvio padrão de 0,8 km por litro. a) Calcular a probabilidade da média de uma amostra de tamanho 25 ser menor ou igual a 15,5 km/litro. b) Suponha que uma amostra aleatória de 25 carros fabricados na mesma época apresentou média amostral de 15km/litro. Você acredita que a declaração da montadora deva ser aceita? 8.4 Respostas dos Exercícios 1. (a) 67% (b)1,43% 2. (a) 68,26% (b) 100% (c) 0,08% 3. (a) 0,62% (b) A média da amostra é possível, porém pouco provável; talvez seja mais razoável acreditar que os parâmetros da população mudaram ou então que há algum erro na afirmação ou nos resultados divulgados. 79 CAPÍTULO IX Intervalos de Confiança para a Média: desvio padrão conhecido 9.1 Inferência estatística “O objetivo da inferência estatística é a obtenção de informações sobre aspectos de uma população de interesse (parâmetros) por meio de resultados obtidos na observação de uma ou mais amostras extraídas dessa população” (Ara et al, p. 55). Lembrando que parâmetro é uma medida que descreve uma população e que estatística é uma medida que descreve uma amostra, interessa-nos, a partir de valores obtidos numa amostra, estimar, com considerável nível de confiança, um intervalo de valores extremos para os quais é razoável supor que as medidas da população nele se encontram. 9.2 Uma expressão para o Intervalo de Confiança Um exemplo típico: deseja-se estimar a largura média de um tipo de peça. Para isso considerou-se uma amostra de 25 peças e obteve-se uma largura média igual a 5,2cm. Sabendo-se que para a variável “largura” o desvio padrão é de 0,5cm e que esses dados são distribuídos normalmente, construa um intervalo de valores que contenha a verdadeira média, com 95% de confiança. A expressão “95% de confiança” indica aquilo que chamamos de nível de confiança, o que pode ser entendido como o intervalo de valores da distribuição amostral que tem 95% de probabilidade de conter o verdadeiro parâmetro da população. A literatura em Estatística também usa a expressão “nível de significância”, simbolizado por α , que é a probabilidade complementar à de confiança, ou seja, a probabilidade de erro. Ou seja, “construir um intervalo de valores com 95% de confiança” ou “construir um intervalo de valores com α =5% como nível de significância” são expressões com mesmo significado. Para chegarmos ao intervalo pedido, é necessário, primeiramente, encontrar os valores Z para os quais a área 0,95 está compreendida, conforme ilustra a figura a seguir. 80 Isso é feito através da tabela, de maneira invertida ao que costumeiramente fizemos nos textos anteriores: como se pede 95% de confiança, a área restante, situada nas duas caudas, é de 5%, cujo valor é dividido em duas partes de 2,5% cada. Na tabela, procuramos o valor Z referente à área 0,025 através do valor complementar, ou seja, 1 – 0,025 = 0,975. Por meio dessa área, encontramos Z=1,96. Porém, note que o intervalo tem um extremo maior (que será obtido por meio de 1,96), mas tem também um extremo menor; este deverá ser obtido através de Z=– 1,96. No texto anterior trabalhamos com a expressão: n X Z σ µ−= Fazendo as transformações necessárias (como numa equação de 1º grau qualquer), ficamos com os valores extremos (também chamados de valores críticos) do intervalo procurado: n ZX σµ '.±= Chamamos o valor Z de Z’ na expressão acima para que você se lembre de fazer as passagens anteriormente descritas (dividir a porcentagem destinada às caudas por 2), embora boa parte dos problemas use algumas porcentagens padrão: usa-se muito o nível de confiança 95% (que nos levou a Z=±1,96), 90% (que leva a Z=±1,65) e 99% (que leva a Z=±2,58). Assim, no exemplo proposto, teremos a seguinte estimativa para a média: n X σµ .96,1±= � 25 5,0 .96,12,5 ±=µ � 196,02,5 ±=µ 81 Assim, o intervalo previsto para a média é [ ]396.5;004.5 . O que isso significa? • Se várias amostras de 25 elementos forem selecionadas aleatoriamente (o que, na prática, dificilmente é feito), 95% delas terão, provavelmente, a média aritmética situada entre 5,004cm e 5,396cm. • Significado principal: Há 95% de chances de que a média de toda a população de peças do exemplo considerado esteja numa medida entre 5,004cm e 5,396cm. E se não se dispuser do valor do desvio padrão da população? Nesse caso, é necessárioutilizar-se do Teorema do Limite Central, adotando o desvio padrão da amostra como referência, desde que a amostra seja suficientemente grande, conforme enunciado do Teorema, trabalhado no texto anterior. Para amostras pequenas (n 30 Use a distribuição T (INVT) σ desconhecido e população normalmente distribuída OU σ desconhecido e n > 30 Métodos avançados (não-paramétricos ou bootstrap) População não é normalmente distribuída e n ≤ 30 Observações finais: (a) Critérios para decidir se a população é ou não normalmente distribuída: a população não precisa ser exatamente normal, mas deve 87 parecer simétrica de alguma forma, com uma única moda e sem dados discrepantes (outliers). (b) Tamanho amostral n > 30: é uma diretriz comumente usada, mas tamanhos amostrais de 15 a 30 são adequadosse a população parece ter uma distribuição que não se afasta muito da normal e se não há outliers. Para algumas distribuições populacionais que se afastam extremamente da normal, o tamanho amostral pode precisar ser maior do que 50, ou mesmo 100. 10.4 Exercícios 1. Um fabricante trabalha com máquinas que produzem certo tipo de peça bastante elaborada. Ele pretende diminuir o tempo que cada máquina gasta na produção da peça alterando um dispositivo contido nessas máquinas. Dessa forma, separa 8 delas e anota o tempo gasto na produção da referida peça; em seguida, troca o dispositivo dessas máquinas e anota novamente o tempo gasto na produção da peça, conforme a tabela a seguir. Máquina A B C D E F G H Sem alteração 10,5 8,7 9,2 10,0 9,5 8,9 11,2 12,0 horas Com alteração 9,0 8,9 7,8 7,3 8,0 8,0 9,5 10,0 horas Construa dois intervalos de 95% confiança para médias de tempos de toda a população de máquinas: um com a amostra sem a alteração, e outro para a amostra com os novos dispositivos, admitindo que os dois conjuntos de dados possuem certa semelhança com uma distribuição normal. 2. Para verificar a eficácia de um programa de prevenção de acidentes de trabalho, fez-se um estudo experimental, implementando este programa em dez empresas da construção civil, escolhidas ao acaso, numa certa região. Os dados abaixo referem-se aos percentuais de redução de acidentes de trabalho nas 10 empresas observadas. Amostra: 20, 15, 23, 11, 29, 5, 20, 22, 18, 17 Usando 95% de confiança, construa um intervalo para o qual provavelmente se situa a média percentual de redução de acidentes de trabalho para todas as empresas submetidas ao referido programa. 3. Deseja-se estimar a nota média em um exame aplicado em uma escola. Para isso considerou-se uma amostra de 16 alunos submetidos a esse exame e obteve-se uma nota média de 7,3 e um desvio padrão de 0,4. Construa o IC com 95% de confiança para a verdadeira média. 88 4. Refaça o exercício anterior, usando 90% para nível de confiança, porém, antes de fazer os cálculos, responda: espera-se um intervalo menor ou maior que o obtido nesse exercício? 5. Uma amostra representativa de 20 peças cilíndricas apontou seus respectivos diâmetros com média 21,5 mm e desvio padrão 1,1mm. A população original a partir da qual se extraiu essa amostra é normalmente distribuída, e o estatístico da empresa fabricante estimou um intervalo de confiança para a média populacional que tem como máximo 22,20 mm e um mínimo de 20,80 mm. Qual foi o nível de confiança usado pelo estatístico? 6. Um lote de 100 ações teve uma variação média mensal de 1,02% no último período, com desvio padrão 0,09%. Sabendo que essas ações fazem parte de um conjunto de 2.412 ações de uma empresa, pergunta-se: (a) Para determinar, com 95% de confiança, um intervalo que contenha a média percentual de rendimentos de todas as ações dessa empresa, você utilizaria valores z (da distribuição normal padronizada) ou valores t (da distribuição t de Student)? Justifique sua resposta. (b) Determine esse I.C. usando essas duas opções, e comente os resultados obtidos. 10.5 Respostas dos exercícios 1. [9,.03; 10.97] sem os novos dispositivos, e [7.78; 9.34] com os novos dispositivos; note que a unidade para todos os dados numéricos é “horas” 2. [13.24; 22.76] note que a unidade para os dados numéricos é “pontos percentuais” 3. [7,086 ; 7,513] 4. Menor, pois é possível aumentar a precisão do intervalo somente se aumentarmos o risco, ou seja, diminuirmos o nível de confiança. Geometricamente é possível observar que, ao se desenhar uma área menor na curva, teremos conseqüentemente um intervalo menor. O IC obtido é [7,1247 ; 7,4753] 5. 99% 6. Não olhe a resposta antes de ter pensando nessa pergunta! (a) valores t, uma vez que não é conhecido o desvio padrão da população toda das 2.412 ações, mas somente o desvio padrão amostral (note que na expressão do I.C. com valores z o desvio padrão é da população (σ ), enquanto na expressão com valores t o desvio padrão é da amostra ( Aσ ); além disso, não foi afirmado se a população é normalmente distribuída; como o número de elementos da amostra n é maior que 30, tal situação se enquadra nas condições do uso do valor t. (b) Com valor t: [1,002%; 1,038%] e com valor z [1,002%; 1,038%]; as respostas, apesar de estarem iguais, não são exatamente as mesmas, em termos de precisão matemática, já que tais valores estão aproximados com 3 casas decimais. Porém estatisticamente isso mostra que quanto maior o número de elementos de uma mostra, mais a distribuição t se torna próxima da distribuição z. Isso pode ser aceito, apesar de não se ter σ , porque o desvio padrão para n razoavelmente grande tende a se tornar mais próximo do desvio padrão da população. 89 CAPÍTULO XI Distribuições Amostrais e Intervalos de Confiança para uma Proporção 11.1 Aproximação da Binomial à Normal. Continuando o trabalho de se utilizar amostras (por meio de suas “estatísticas”) para que se conheça valores similares aos “parâmetros” da população, neste texto analisaremos situações correspondentes àquelas estudadas nas distribuições binomiais, onde a variável em questão tem ou não tem determinado atributo. Exemplos: (a) proporção de pessoas que aprova (ou reprova) o governo atual; (b) proporção de pessoas que usa (ou não) certo produto; (c) proporção de pessoas que aprova (ou reprova) o novo sabor de determinado produto; (d) proporção de peças fabricadas que possuem certo defeito (ou não o possuem); Em Estatística I a propriedade de “possuir certo atributo” e a de “não possuir certo atributo” foram chamadas, respectivamente, de sucesso e fracasso. No entanto, situações binomiais podem ser aproximadas para o enfoque normal quando se tratar de um valor de n suficientemente grande, desde que a proporção p não esteja muito próxima de zero**. Nesses casos, pode-se calcular a média aritmética e o desvio padrão da seguinte forma: pn ⋅=µ e )1( ppn −⋅⋅=σ Exemplo: Suponha que 40% dos funcionários de uma grande empresa faz hora extra com determinada freqüência (mínimo de 2 vezes por mês, por exemplo). Se forem selecionados aleatoriamente 50 funcionários dessa empresa, teremos um valor de n grande e, como p=0,40 não é próximo de 0 ou 1, então teremos a média 204,050 =⋅=⋅= pnµ e o desvio padrão 464,3)40,01(40,050)1( =−⋅⋅=−⋅⋅= ppnσ . Quais são os significados desses valores? Tais valores têm significado quando queremos calcular probabilidades como, por exemplo, a seguinte: nessa amostra, qual a probabilidade de que 25 funcionários ou mais façam hora extra (nas condições apresentadas)? Com esses valores de µ e de σ calculamos a respectiva probabilidade, encontrando o valor Z e utilizando a tabela ou o Excel. ** Estatísticos apontam as seguintes condições: 5≥⋅ pn e 5)1( ≥−⋅ pn . 90 11.2 Continuando a Inferência Estatística: Distribuição de Amostragem de Proporções Numa amostra de n elementos, sobre os quais é avaliada a presença ou não de certo atributo, vamos chamar de pa a proporção deles que possui a característica que está sendo estudada. Veja a fórmula a seguir. amostradatamanho sucessos denúmero== n X pa A proporção da amostra pa é um número entre 0 e 1 (é uma porcentagem!); enquanto a média aritmética da amostra X é um meio de calcular a média aritmética da população µ , a estatística pa é um meio de calcular a proporção da população p. Por analogia à distribuição de amostragem da média aritmética, o erro padrão dessa proporção satisfaz a seguinte expressão (o qual também tem a “participação do Teorema do Limite Central”): n pp ap )1( −⋅=σ Dessa forma, para se calcular probabilidades específicas em determinados intervalos, podemos inserir esses valores na fórmula do valor Z, obviamente, dentro das condições apresentadas até aqui: n X Z σ µ−= � n pp Z a σ −= , de onde se chega à fórmula n pp pp Z a )1( −⋅ −=avançar. 3º) Você pode, ao avançar as próximas etapas, optar por inserir mais nomes ou informações no gráfico. Verifique as possibilidades; eu, Francisco, resolvi deixá-lo assim: Fica como exercício para você a realização do gráfico tipo “pizza” para esse mesmo exemplo. Uma possibilidade é a apresentada abaixo. 8 4.5 Apresentação de dados quantitativos – HISTOGRAMAS Para iniciar as análises do tipo de dados que mais trabalharemos (ou seja, dados numéricos), vale a pena observarmos uma classificação dos mesmos: Variável inteira (ou discreta) é aquela que pode assumir somente um número “contável” de valores. Ex.: nº de funcionários de uma empresa, nº de erros de impressão num exemplar de jornal, nº de filhos de um casal. Variável real (ou contínua) pode assumir qualquer valor em um ou mais intervalos sobre a reta real. Ex.: medidas de comprimento de uma peça fabricada, áreas ou volumes de certos produtos, valores do dólar ao longo de um ano, índices percentuais da inflação nos últimos 12 meses. O que é um histograma? É o tipo de gráfico usado para se resumir um conjunto que possua muitos dados numéricos (inteiros ou reais), agrupando-os em intervalos. Veja o exemplo de 81 alturas de alunos de uma turma de Administração de Empresas; os dados brutos são: 1.84,1.82,1.75,1.83,1.63,1.74,1.85,1.62,1.69,1.60,1.70,1.71,1.72,1.71,1.70,1.68,1.58,1.58, 1.76,1.74,1.65,1.75,1.74,1.61,1.63,1.79,1.60,1.67,1.70,1.83,1.70,1.57,1.70,1.70,1.84,1.68, 1.63,1.62,1.56,1.65,1.78,1.82,1.77,1.85,1.70,1.70,1.76,1.55,1.60,1.52,1.78,1.63,1.70,1.60, 1.73,1.60,1.63,1.76,1.67,1.77,1.75,1.80,1.73,1.78,1.73,1.72,1.64,1.63,1.63,1.78,1.49,1.62, 1.73,1.56,1.74,1.60,1.60,1.57,1.57 Histograma 0 1 16 28 28 8 0 0 0 5 10 15 20 25 30 1,40 1,50 1,60 1,70 1,80 1,90 2,00 Mais Bloco F re q ü ê n c ia Histograma 0 0 1 2 14 14 14 16 12 8 0 0 0 0 0 5 10 15 20 1 ,4 0 1 ,4 5 1 ,5 0 1 ,5 5 1 ,6 0 1 ,6 5 1 ,7 0 1 ,7 5 1 ,8 0 1 ,8 5 1 ,9 0 1 ,9 5 2 ,0 0 M a is Bloco F re q ü ê n c ia Observe que os histogramas são diferentes, mas representam os mesmos dados. No primeiro gráfico, os valores foram agrupados em intervalos de 10cm (0,10m), enquanto no segundo os dados foram agrupados em intervalos de 5cm. Como construir histogramas no Excel? Este texto não tem a intenção de ser um tutorial para uso do Excel. O que será feito é uma narrativa de como o ser humano que te escreve estas palavras construiu as figuras do texto. Explicações mais detalhadas e/ou técnicas podem ser obtidas, por exemplo, em Winston, W. L.: Microsoft Excel, Data Analysis and Business Modeling, livro que inspirou uma parte deste curso. Assim, para construir o primeiro histograma anteriormente apresentado, fiz a seguinte seqüência de passos: 9 1º) Ferramentas � Análise de Dados* � Histograma 2º) No intervalo de entrada, introduza a coluna dos dados (ver próxima figura); no intervalo de bloco, é necessário introduzir uma coluna previamente construída (fazê-la na mesma planilha facilita), a qual conterá os limites dos intervalos escolhidos para o histograma. Na figura seguinte você poderá perceber os dois intervalos por mim escolhidos para construir o histograma**. 3º) Selecione a opção “Resultado do gráfico” e pressione OK. Ao seguir esses passos, você perceberá (provavelmente) que seu histograma ainda não ficou igual ao meu... O uso de barras juntas é largamente usado pelos estatísticos. Para fazê-lo, clique duplo em qualquer uma das barras, e aparecerá uma janela de título “Formatar seqüência de dados”. Em “Opções”, digite o número zero na caixa “Largura do espaçamento” e clique em OK (ver próxima figura). E aproveite para explorar um pouco essa janela e veja o que há em outras opções... * Se a opção “Análise de dados” não estiver disponível, siga os seguintes passos para disponibilizá-la: Ferramentas ���� Suplementos ���� Selecione “Ferramentas de Análise” e “Ferramentas de Análise VBA” ** Vários autores sugerem um mínimo de 5 e um máximo de 20 classes; existe, ainda, uma regra empírica: n classes, onde n é a quantidade de valores (embora acredite que, se n for muito grande, n pode não ser interessante, como no caso de n=10.000...). 10 Dólar Comercial 2,12 2,13 2,14 2,15 2,16 2,17 2,18 2,19 0 10 20 30 40 50 60 Último comentário neste item: se você não inserir um intervalo de bloco ao construir um histograma, o Excel o fará automaticamente, seguindo algumas regras matemáticas (as quais podem ser observadas na Ajuda desse programa); porém, alguns pequenos problemas podem ocorrer ao se comparar histogramas com intervalos de valores diferentes (esse problema será abordado no exercício 2). 4.6 Gráficos de controle Muito útil em situações de análise de vários processos, um gráfico de controle fornece um panorama geral de oscilações através de uma observação gráfica de todos os valores numéricos (ou, pelo menos, de grande parte deles). O exemplo a seguir, obtido através da planilha Dólar Comercial.xls fornece uma idéia de como oscilou o valor do dólar comercial no período de 01/11/2006 até 19/01/2007 (fonte: www.fvg.br). 11 Dólar Comercial 2,12 2,13 2,14 2,15 2,16 2,17 2,18 2,19 0 10 20 30 40 50 60 Para obter esse gráfico, basta usar o assistente de gráfico do Excel, optar pelo tipo “Dispersão (XY)” e, na etapa seguinte, inserir a coluna dos valores do dólar na caixa “Intervalo de Dados”, escolhendo as séries em “Colunas”. Os próximos passos são triviais. Muitas pessoas que trabalham com esse diagrama, conforme poderemos perceber através de alguns casos que estudaremos, costumam ligar os pontos do gráfico através de segmentos. Caso deseje, você poderá fazê-lo com a seguinte seqüência: duplo click em qualquer ponto do gráfico já obtido, e na aba “padrões” � “linha” use a opção “automática” ou “personalizada”. Observação importante: esse tipo de gráfico faz bastante sentido quando a variável do eixo x é “tempo”, uma vez que o visual gráfico indicará uma ou mais tendências ao longo de determinados períodos (crescentes, decrescentes, pouco ou muito oscilantes, constantes etc.). 4.7 Diagrama “ramo-e-folhas” Para encerrar este primeiro texto de estatística descritiva, vamos apresentar mais uma “modalidade” de apresentação de dados: o diagrama ramo-e-folhas, que é bastante usado em resumos de dados, porém visualizando todos eles. É usado, por exemplo, numa coleta de dados dinâmica; suponha que as alturas descritas anteriormente tenham sido coletadas da seguinte forma: o professor (autor deste texto) pergunta a cada aluno sua respectiva altura, e a anota no papel. Já imaginou quantas vezes iria repetir o algarismo 1? Quantas vezes iria repetir o algarismo 7 (para as pessoas que têm de 1,70m a 1,79m de altura)? Veja o diagrama a seguir e observe como ele foi construído. 14 | 9 15 | 256677788 16 | 00000001222333333345577889 17 | 0000000001122333344445556667788889 18 | 022334455 12 Para construirmos um diagrama ramo-e-folhas no papel, você pode seguir as seguintes dicas: (a) primeiramente, decidir quais serão os ramos; note que este passo querer de você a intuição e o bom senso. Nesse exemplo os ramos foram compostos de 2 algarismos, mas a natureza dos dados podem levá-lo a outras opções; (b) na primeira coluna, liste os ramos em ordem crescente (nada impede que seja decrescente, mas use seu bom gosto!) (c) nas linhas de cada ramo, escreva as folhas. 4.8 Exercícios 1. Neste problema estudaremos um caso real em que analisaremos um conjunto de dados referentes a uma dimensão crítica de uma peça, e tal exemplo é extremamente ilustrativo de vários processos de produção. Se esta dimensão estiver dentro dos limites, ela encaixa na contra-peça, caso contrário vai ficar folgada ou muito apertada. Neste caso, oriundo de uma empresa fabricante de canetas, a dimensão estudada é o diâmetro externo da extremidade de uma caneta, e na contra-peça a dimensãoExercício: O gerente de determinado setor de uma grande agência bancária afirmou que 40% dos depositantes aplicam na modalidade W de aplicação. Ao se escolher uma amostra aleatória de 200 clientes, qual a probabilidade de que a proporção da amostra seja: (a) menor que 43% (b) entre 40 e 43% Resolução: (a) 200 )40,01(40,0 40,043,0 −⋅ −=Z � 200 24,0 03,0=Z � 87,0=Z 91 Usando o comando =DIST.NORMP(0,87), encontramos o valor 0,8078, ou seja, 80,78% é a probabilidade da amostra apresentar uma proporção menor que 43% de clientes que aplicam na modalidade W. (b) para a proporção entre 40% e 43%, basta fazer 0,8078 – 0,5000 = 0,3078, já que 40% é a média esperada (faça um desenho!). Explicitando o resultado, entendemos que 30,78% é a probabilidade de que a amostra apresente uma proporção entre 40% e 43% de clientes que aplicam em W. 11.3 Uma expressão para o Intervalo de Confiança De forma análoga ao que trabalhamos com a média aritmética, é possível construir um intervalo de confiança para uma proporção. Basta-nos, neste momento, retomar conceitos já trabalhados e construir uma expressão para esse intervalo. Primeiramente, lembremos que a expressão “95% de confiança” indica aquilo que chamamos de nível de confiança, que pode ser entendido como o intervalo de valores da distribuição amostral que tem 95% de probabilidade de conter o verdadeiro parâmetro da população. Essa porcentagem pode ser outra, como 90%, 98% ou 99%, mas geralmente o que se exige não foge desses valores. Por meio desse valor, buscamos o valor de Z para que possamos usá-lo na expressão do Intervalo de Confiança. No texto 3 mostramos que o desvio padrão para uma proporção é calculado por meio da expressão n pp p )1( −⋅=σ , o que nos levou à expressão n pp pp Z a )1( −⋅ −= para o cálculo do valor Z de uma amostra, e assim obter as probabilidades necessárias. Fazendo os mesmos cálculos que desenvolvemos para a média aritmética, chegaremos à seguinte expressão para um Intervalo de Confiança de uma proporção p (da população), a partir de uma (ou mais) amostra(s) que apresentem a proporção pa: n pp Zpp aa a )1( . −⋅±= Exemplo: Uma amostra de 400 peças retiradas de um lote produzido apresentou 6 peças com defeito. Estime um intervalo para a verdadeira proporção de peças defeituosas nesse lote através de um intervalo com 90% de confiança. Veja que a proporção ap é: 015,0 400 6 ==ap � valor z = 1,65 (não se esqueça de que 90% de área é dividida em duas de 45%, o que determina 5% de área em cada cauda). O intervalo é assim calculado: 92 n pp Zpp aa a )1( . −⋅ ±= � 400 )015,01(015,0 .65,1015,0 −⋅±=p Realizando os cálculos e os arredondamentos aceitáveis, temos o intervalo previsto para a proporção: [ ]025.0;005.0 = [ ]%5.2%;5.0 O que isso significa? As condições para que o raciocínio presente neste exemplo e neste texto sejam aplicáveis são as mesmas apresentadas no texto 3: a amostra deve ser grande, o que estatísticos aprovam mediante as seguintes condições: 5≥⋅ pn e 5)1( ≥−⋅ pn . 11.4 Exercícios 1. Historicamente, 10% de uma grande remessa de peças de máquinas são defeituosas. (a) Qual a probabilidade de que uma amostra aleatória de 400 peças tenha entre 9% e 10% de peças defeituosas? (b) Qual a probabilidade de que uma amostra aleatória de 400 peças tenha menos que 8% de peças defeituosas? (c) Se um tamanho de amostra de somente 100 peças fosse selecionado, quais teriam sido suas respostas em (a) e (b)? (d) O que é mais provável ocorrer: um percentual de defeitos acima de 13% em uma amostra de 100 peças ou um percentual de defeitos acima de 10,5% numa amostra de 400 peças? Explique. 2. Com base em dados anteriores, 30% das compras em uma grande loja de departamentos são realizadas para quantias acima de R$ 100,00. Se forem tomadas amostras aleatórias de 100 compras: a) Qual a proporção de amostras é esperada para ter mais de 20% das compras acima de R$ 100,00? b) Qual a proporção de amostras é esperada para ter entre 20% e 30% das compras acima de R$ 100,00? c) Entre quais limites simétricos de percentagem da população estariam 95% das percentagens? 3. Em uma pesquisa de mercado sobre a preferência dos consumidores em relação a um novo produto, 155 de uma amostra de 250 consumidores preferiram o novo produto. Determine um intervalo de 90% de confiança para a proporção de consumidores que prefiram esse produto, no contexto da população da qual foi retirada essa amostra. 93 4. Uma máquina produz certo tipo de peça, sendo 4% a proporção de peças defeituosas. Qual o número mínimo de peças defeituosas que se espera encontrar em um lote de 250 peças produzidas por essa máquina, com 98% de confiança? 5. O gerente de um banco de certa cidade gostaria de determinar a proporção de seus correntistas que recebem salários via banco. Uma amostra aleatória de 100 correntistas foi selecionada, e 30 deles recebem seus respectivos salários via banco. Desenvolva uma estimativa da proporção de correntistas desse banco que têm seus salários recebidos via banco, com 90% de confiança. 6. Uma grande concessionária de automóveis quer calcular a proporção de consumidores que ainda possuem o carro que lá compraram, no período que corresponde ao tempo de 2 a 5 anos de compra. Numa amostra aleatória de 200 consumidores, selecionados a partir dos inúmeros registros da concessionária, 82 deles ainda possuem o carro que lá compraram. Desenvolva uma estimativa, com intervalo de confiança de 95%, da proporção da população de consumidores dessa empresa que possuem ainda o carro que lá compraram, nas condições anteriormente descritas. 11.5 Respostas dos Exercícios 1. (a) 0,2486 (b) 0,0918 (c) 0,1293 e 0,2514 (d) Um percentual de defeitos acima de 10,5% é mais provável de ocorrer, um uma vez que está apenas 0,33 desvio padrão acima do valor de 10%. (você também pode justificar este item calculando os respectivos valores de probabilidades). 2. (a) 98,54% (b) 48,54% (c) entre 21% e 39% (o valor 0,389818... foi arredondado para 39%) 3. [56.93%; 67.07%] 4. 17 5. [22.46%;37.54%] 6. [0.342;0.478] 94 CAPÍTULO XII Correlação entre Variáveis Regressão Linear Outros tipos de Regressão 12.1 A relação entre duas variáveis Em diversos processos envolvendo diferentes contextos do mundo empresarial (e outros “mundos” também) é possível identificar a relação entre duas variáveis. De modo geral, a variável da qual se deseja ter uma predição é chamada de variável dependente, a qual é costumeiramente “batizada” de y em aulas de Matemática. A variável independente (usualmente chamada de x) é aquela que costuma ser inserida em alguma lei (“fórmula”, no popular) a fim de se determinar y. Exemplos de variáveis que podem se relacionar: Variável Independente x Variável Dependente y Unidades produzidas ao mês por uma empresa Custo mensal total Reais (R$) mensais investidos em publicidade Vendas mensais Preço de venda de um produto Demanda pelo produto Área de vários terrenos Valores de venda Número de clientes de diversas empresas do mesmo ramo Valores de receita Temperatura do forno industrial Grau de tenacidade dos azulejos fabricados Em tais exemplos, é possível estabelecer uma relação formal entre as duas variáveis, ou seja, uma lei algébrica (popularmente chamada de “fórmula”) que estabeleça a relação numérica aproximada entre as variáveis x e y. Leis podem ter diferentes comportamentos: uma relação linear pode ser representada por uma expressão do tipo y = a.x + b; relações exponenciais podem ser da forma xcbay ..= , e assim por diante. Boa parte deste texto será dedicada às relações lineares (funções do 1º grau, representadas graficamente por linhas retas), mas ao final comentaremos outros tipos de regressão. 95 12.2 Como medir o grau de correlação entre duas variáveis. Como achar uma lei algébrica que melhor associa duas variáveiscorrelacionadas. Para delinear os itens teóricos deste texto, utilizaremos um exemplo constante no livro “Microsoft Excel Data Analysis and Business Modeling ”; nesse exemplo constam os valores, em 14 meses seguidos, dos custos totais (em dólares) gerados na fabricação de determinado produto, em função do número de unidades produzidas nos respectivos meses. Retomando as nomenclaturas, o número de unidades produzidas será representado por x e os valores de custo serão os valores de y que iremos inserir no Excel. Veja os valores a seguir: Mês Unidades produzidas Custo (US$) 1 1.260 123.118,00 2 1.007 99.601,00 3 1.296 132.000,00 4 873 80.000,00 5 532 52.000,00 6 476 58.625,00 7 482 74.624,00 8 1.273 110.000,00 9 692 81.000,00 10 690 73.507,00 11 564 95.024,00 12 470 88.004,00 13 675 70.000,00 14 870 110.253,00 Para obtermos uma visão gráfica da relação entre o número de unidades produzidas (x) e o custo (y) que essa empresa teve em cada mês, vamos utilizar um sistema de dispersão, na mesma opção que utilizamos para construir gráficos de controle (textos 1 e 2). Selecione as duas colunas de dados e, através do assistente de gráfico, use a opção “dispersão”. 96 Uma vez disponibilizado o gráfico, o menu “GRÁFICO” permanece disponibilizado quando você simplesmente “clica” sobre a área do mesmo. Nesse menu, vá na opção “adicionar linha de tendência” (veja a próxima figura). Nessa opção, você perceberá que possui várias maneiras de modelar esses dados. Você tem a possibilidade de modelá-los segundo função do 1º grau (“linear”), exponencial, logarítmica, potência etc. Usaremos, para este exemplo, a opção “Linear”, procurando fazer uma aproximação dos dados a uma reta que melhor represente esse conjunto de dados. Na aba “opções”, selecione as opções que estão indicadas na figura a seguir, ou seja, “exibir equação no gráfico” e “exibir valor de R quadrado” 97 y = 64,269x + 37894 R2 = 0,6882 - 20.000,00 40.000,00 60.000,00 80.000,00 100.000,00 120.000,00 140.000,00 - 200 400 600 800 1.000 1.200 1.400 Série1 Linear (Série1) O software oferecerá, dessa forma, a seguinte figura: Vamos à interpretação de tais resultados: 1º) a equação Y = 64,269x + 37894, chamada de equação de regressão e representada no gráfico anterior, representa a reta que melhor representa esse conjunto de dados ou, dito de outra forma, é a reta que melhor se aproxima da totalidade dos dados. Para que serve? Sua maior potencialidade é fornecer previsões para outros valores de x††. Admitindo-se como razoável a associação entre essas variáveis, pode-se fazer a seguinte pergunta: se no mês 15 a empresa deseja produzir 1.000 unidades do produto em questão, qual o custo estimado para essa situação? †† Não apresentarei, neste texto, explicações que levam às fórmulas que fornecem os valores de a e de b, melhores aproximações para coeficientes da reta que melhor representa esse conjunto de dados. Idem para o valor de R². 98 Basta fazer x = 1.000 na equação de regressão e obter a estimativa correspondente para y: Y = 64,269 . 1000 + 37894, o que nos fornecerá Y = 102163, ou seja, aproximadamente R$ 102.163,00 é o valor previsto para o custo mensal dessa empresa, caso sejam produzidas 1.000 unidades do procuto. 2º) o valor R² = 0,6882: medida utilizada para se dizer se a correlação entre os dados é forte, média ou fraca. Quanto mais próximo de 1 esse cálculo resultar, mais forte será a relação entre as variáveis. Quanto mais próximo de 0 (zero) resultar esse valor, mais fraca será a correlação entre tais variáveis. Nesse caso, 0,6882 indica uma correlação moderada entre os dados. Isso indica que há mais fatores que estão influenciando fortemente para os resultados de custo apresentados. De modo geral, podemos assumir as seguintes condições de referência, para o caso de uma relação linear entre as variáveis: Valor de R² Correlação Aspecto gráfico Próximo a 1 Forte Os pontos estão próximos de se constituírem em uma reta Próximo a 0,5 Média Os pontos estão razoavelmente espalhados, porém nota- se uma direção linear para a nuvem de pontos. Próximo a zero Fraca Pontos espalhados sem indicação de uma tendência linear. Essa é uma diretriz bastante geral, que é modificada, reestruturada ou detalhada de acordo com o contexto com o qual cada problema está inserido. Além disso, o R² também se aplica a outros modelos de regressão, com a mesma diretriz. 12.3 Outros tipos de regressão Mas, e se outro modelo matemático se adaptar melhor a esse conjunto de pontos? O usuário do Excel tem a possibilidade de analisar, dentre as opções desse software, a lei algébrica da função que melhor se adapta a esses dados. Suponha que você acredita que os pontos do exemplo usado neste texto têm uma característica exponencial. Na opção “adicionar linha de tendência”, opte por “exponencial” 99 O Excel apontará as seguintes informações: 0,0007x49076e y = e R²= 0,6303. Note que esse formato de equação coloca o x no expoente. O número e pode ser arredondado para 2,72, para efeito de cálculos. Qual o modelo melhor? Dentre os dois, o modelo linear, pois possui o R² com maior valor. Ou seja, na busca por um modelo que melhor explica determinado fenômeno é aquele que apresenta maior valor de R². 12.4 Exercícios Se necessário, faça e = 2,72 1. A direção de uma empresa de embalagens plásticas, preocupada com a demanda y de seu produto (número de unidades), resolveu elaborar um estudo sobre as variações dessas demandas em função dos preços de venda x. Após esse estudo e levantamento de dados, obteve-se as informações condensadas na tabela a seguir, estabelecidas nos últimos trimestres: Meses 1º tri - 2005 2º tri - 2005 3º tri - 2005 4º tri - 2005 1º tri - 2006 2º tri - 2006 3º tri - 2006 4º tri - 2006 1º tri - 2007 Preço de venda (x) 16 18 20 23 26 28 30 33 35 Demanda (y) 1.000 1.050 970 940 950 800 750 675 670 A partir dessas informações, responda às seguintes questões: (a) Qual modelo matemático melhor ilustra esse conjunto de dados: a função do 1º grau, a função exponencial ou a função potência? Justifique sua resposta. (b) Através do Excel, escreva a lei algébrica que melhor representa esse conjunto de pontos. 100 (c) Se a empresa planejar o preço de R$ 38,00 no próximo trimestre, qual será a expectativa de demanda? (d) Determine as expectativas de demanda que esse modelo prevê para o 2º trimestre de 2007, supondo que a empresa deseja manter o mesmo preço aplicado no 1º trimestre de 2007. 2. Um índice econômico está evoluindo de acordo com sua variação anual. Esses dados levantados estão expressos na tabela a seguir Anos(x) 1 2 3 4 5 6 7 Índice 100 120 150 318 622 870 1450 De acordo com os dados apresentados, construa um diagrama de dispersão no Excel. Em seguida, responda: (a) Qual modelo matemático melhor ilustra esse conjunto de dados: a função do 1º grau, a função exponencial ou a função potência? Justifique sua resposta. (b) Através do Excel, escreva a lei algébrica que melhor representa esse conjunto de pontos. (c) Determine as expectativas que esse modelo prevê para os anos 8 e 9. 12.5 Respostas dos exercícios 1. a) O modelo linear, já que seu R² = 0,9032 é o maior dentre as três opções (a exponencial tem R² = 0,8972 e a função potência tem R² = 0,8438). b) y = -20,63x + 1392,1 c) 608 unidades, aproximadamente. d) 670 unidades, aproximadamente. 2. a) O modelo exponencial, pois tem o maior valor de R² dentre as três possibilidades (R² = 0,972, contra os valores de 0,8417 e 0,8566 das outras duas opções). b) 0,4788x48,976e =y c) Para x = 8 têm-se índice aprox. igual a 2.262,33; para x = 9 a previsão é de 3652,81.é o diâmetro interno da tampinha da caneta. Observe as informações contidas no conjunto de dados que estão no arquivo peça e contrapeça1.xls. (a) Construa o gráfico de controle e pelo menos dois histogramas para esse conjunto de dados; (b) Todos os dados estão dentro dos limites aceitáveis para as medidas das tampas? (c) Pode-se dizer que esse processo está estável? Justifique. (d) A máquina que produziu as peças dessa amostra está trabalhando a contento, ou é possível que ela necessite de um ajuste? Justifique. 2. Em outra situação real, faremos uma análise de dados obtidos numa grande empresa do setor de celulose e papel. No arquivo Umidade em madeira1.xls constam médias percentuais diárias de umidade, obtidas a partir de amostras de “punhados” de madeira coletados para controle do teor de umidade na madeira, que é a matéria-prima para a produção de celulose e posteriormente o papel; a forma como tais amostragens são realizadas serão discutidas bem mais adiante em nosso curso, mas se você deseja já ter uma idéia de como ela é realizada, veja a explicação fornecida pelo responsável por tais amostragens no quadro abaixo. Se desejar responder às perguntas diretamente, “pule” esse quadro. “Pegamos 6 amostras por dia de aproximadamente 80 g de madeira picada (que chamamos de “cavaco”), pesamos a amostra, colocamos na estufa por um determinado tempo, e pesamos novamente. A diferença de peso entre o inicial e o final é considerada como umidade que evaporou. As medidas de peso antes e depois estão ocultas, sendo que a tabela já mostra o valor percentual de umidade, que é o dado de controle para o processo. Ex: medida antes da estufa = 80g medida depois da estufa 60 g. Percentual de umidade = [(80-60)/80]x100 = 25% ���� informação para controle do processo”. 13 (a) No item (b) desta questão será pedido você que construa histogramas para os três meses que constam no arquivo anexo. Antes de fazê-lo, porém, vamos resolver uma dúvida “informática”: é preferível construir os três histogramas usando um mesmo bloco para intervalo de dados ou não há problemas em construir os três histogramas com blocos automáticos do Excel? Justifique. (b) Construa os histogramas referente aos três meses apresentados nesse arquivo, e descreva diferenças entre eles. Diante do contexto deste caso, justifique o porquê das diferenças entre esses histogramas. (c) A meta que a empresa deseja para as médias percentuais é de 27,5%. Pode-se ver que essa meta não foi alcançada em nenhum dos três meses. Pergunta: esse fato significa que o processo de controle de umidade está completamente descontrolado? Justifique. 4.9 Respostas dos exercícios 1. (a) Gráficos feitos com Excel. (b) Sim, pois todos estão no intervalo 132,00mm e 190,67mm. (c) De maneira geral o processo parece estável, já que boa parte dos dados se encontra na faixa entre 130mm e 150mm; porém, houve pelo menos 4 períodos em que o processo parece ter modificado seu comportamento, apresentando valores superiores aos da maioria. (d) É possível que essa máquina necessite de um ajuste; apesar dos dados se comportarem conforme explicado nos itens anteriores, o fato de existirem grande parte deles na faixa [130; 150] mostra que o processo está se desenvolvendo de forma que as peças estão consideravelmente próximas ao limite inferior, apresentado no conjunto original dos dados. 2. (a) É preferível construir os três histogramas usando um mesmo bloco para intervalo de dados, uma vez que, com blocos automáticos, teremos que nos esforçar mais para comparar os valores dos eixos horizontais dos três histogramas, já que os intervalos de cada um dos três meses são diferentes. Compare as duas situações no arquivo Umidade em madeira2.xls. (b) No mês de Novembro, as porcentagens de umidade foram mais baixas (concentração de dados no “começo” do histograma) e no mês de Janeiro foram mais altas (concentração de dados no “fim” do histograma); em Dezembro há uma relativa simetria. O fator extremamente provável dessas diferenças é o período chuvoso mais intenso em Dezembro e Janeiro. (c) Não, pois a variabilidade dos dados não é grande. Assim como o caso do exercício 1, os dados têm um comportamento regular, não possuindo grandes oscilações, apesar do fato de estarem acima do desejado (faça gráficos de controle para visualizar isso). 14 CAPÍTULO II Medidas Estatísticas: � Medidas de Tendência Central � Medidas de Dispersão • Quais as diferenças entre as medidas de tendência central de um conjunto de dados? Uma pode ser mais representativa que outra? • Como posso medir o espalhamento dos dados em relação à média aritmética? • O que a média e o desvio padrão podem fazer juntos? • É possível identificar comportamentos relacionando medidas estatísticas e histogramas? • É possível comparar histogramas? 2.1 Um exemplo para guiar definições e análises Façamos uma atividade invertida em relação ao capítulo anterior: com base em um conjunto de dados e através de um comando do Excel, iremos: 1. Definir algumas medidas estatísticas; 2. Relacioná-las entre si, especialmente média e desvio padrão; 3. Apresentar outras relações com outros comandos. Suponha que o conjunto de dados Receitas XYZ.xls contém as receitas semanais do produto XYZ, em reais; tal produto é fabricado e distribuído por uma filial de uma grande empresa, num período de 51 semanas. Note que, inicialmente, não vamos analisar um dado específico, mas sim o conjunto como um todo, através de medidas nele calculadas. A opção do Excel a ser utilizada é Estatística Descritiva, na seguinte seqüência: Ferramentas ���� Análise de dados ���� Estatística descritiva. Nessa caixa, selecionar “resumo estatístico”, conforme indica a figura a seguir. Com esses passos, o Excel apresentará um resumo de medidas (algumas principais, outras pouco usadas) a partir do qual teremos uma noção das características e possíveis tendências do conjunto dos dados (ver figuras). 15 Coluna1 Média 2294,941176 Erro padrão 32,4390398 Mediana 2303 Modo 2144 Desvio padrão 231,661081 Variância da amostra 53666,85647 Curtose -0,81417258 Assimetria -0,13156425 Intervalo 888 Mínimo 1807 Máximo 2695 Soma 117042 Contagem 51 16 2.2 Medidas de Tendência Central: • Média Para uma variável quantitativa* X, chamaremos a média de uma amostra de X , e a média de uma população de µ , que é a letra grega “mi” usada pela maioria dos textos em Estatística. A média aritmética é a divisão de todos os valores de X, pela quantidade deles, que chamaremos de n. Matematicamente, ela é assim definida: n X X i∑= ou O símbolo Σ é a letra grega sigma (maiúscula), muito usada em matemática para indicar uma somatória de valores. A média aritmética é uma medida que fornece uma noção da concentração dos dados em um único valor. É aquele valor que todos os elementos pesquisados deveriam ter se o conjunto estudado fosse absolutamente uniforme (todos os elementos iguais). No exemplo, podemos dizer que a média semanal da receita do produto XYZ é de R$ 2.294,94 (arredondando), no período considerado. No Excel, a função =MÉDIA(....) também retorna tal medida. • Mediana Uma definição informal: ao ordenarmos os dados (crescente ou decrescentemente), o termo que ocupa a posição absolutamente central na seqüência de dados (ou seja, 50% dos dados estão antes dele e 50% depois). Em nosso exemplo, se observarmos todas as receitas semanais numa ordem crescente (ou decrescente – há uma opção fácil no excel para fazê-lo), o valor R$ 2.303,00 ocupará a posição central. Na verdade, há um detalhe: se há um número ímpar de elementos, há o termo central. Se há um número par de elementos, a mediana é definida com a média entre os dois termos centrais. No caso, como são 51 elementos, o central é o 26º; se houvesse 50 termos, os centrais seriam o 25º e o 26º). A explicação teórica destes detalhes está no rodapédesta página. Leia somente se estiver com muita curiosidade matemática; caso contrário, gaste sua energia no próximo item*. No Excel, a mediana também pode ser obtida com a função =MED(...). • Moda * lembre-se: X é variável, ou seja, assume vários valores! * Definição: a Mediana de uma amostra de n observações x1, x2,...., xn é o valor que ocupa a posição: (a) (n+1)/2, que é o termo central, se n for ímpar; (b) a média aritmética entre os dois termos centrais, cujas posições são n/2 e n/2+1, no caso de n ser par. n xxxxx X n+++++ = ...4321 17 Pouco usada, é uma medida de uso bastante restrito. Numa definição também informal, é o dado que ocorre mais vezes (tem maior freqüência). Basta ver que, no exemplo, o fato de que o valor R$ 2.144,00 ter se repetido não traz tanta importância para a análise do conjunto todo. Dados financeiros como esses, geralmente, fazem com que o Excel não disponibilize esse valor, uma vez que é fácil verificar conjuntos de dados em que nenhum valor se repete. Assim como se pode ter um conjunto que não possui Moda, pode-se também haver mais de uma moda (por exemplo, no conjunto 1,1,1,2,2,2,3,4,5). É provável que, mesmo intuitivamente, o controlador de estoque de uma loja de pneus, sapatos ou roupas use a Moda para manter seu estoque atualizado para a loja e para os consumidores (o número de pessoas do sexo masculino que calça sapato 40 é maior que o número de homens que calça 48). No caso do exemplo, podemos chamar de classe modal ao intervalo para o qual há mais dados, ou seja, o intervalo para o qual o retângulo do histograma é mais alto. No histograma apresentado a seguir, veja que o intervalo [2.400;2.500] é uma classe modal. Claro que, se definirmos outros intervalos para o bloco, no Excel, teremos outra classe modal (e não há nenhum problema quanto a isso). Relações entre essas medidas e os histogramas. Em conjuntos de dados razoavelmente simétricos, essas três medidas (em especial média e mediana) tendem a ser próximas. Em nosso exemplo, admitindo que o histograma é razoavelmente simétrico (mais à frente justificaremos o porquê desta afirmação ser verdadeira), é possível observar que essas medidas localizam- se em torno do centro do histograma. Histograma 0 2 4 6 8 10 12 1 8 0 0 1 9 0 0 2 0 0 0 2 1 0 0 2 2 0 0 2 3 0 0 2 4 0 0 2 5 0 0 2 6 0 0 2 7 0 0 M a is Bloco F re q ü ê n c ia Freqüência Média 2.294,94 Mediana 2.303,00 18 Detalhes da mediana: divide o histograma ao meio (duas áreas de 50%), e não é afetada pelos extremos, ao contrário da média aritmética. Nos dados (1,1,1,1,2,2,2,3,4,5,15), a mediana vale 2, e não é afetada pelo dado 15, consideravelmente diferente dos demais. No exercício 2 do capítulo anterior, referente a percentuais de umidade em madeira (matéria prima para papel e celulose), pudemos observar inclinações diferentes para três meses consecutivos (reveja os histogramas que você construiu). Veja como é a relação entre histogramas e medidas, através de exemplos extraídos de arquivos disponíveis do livro Complete Business Statistics: Inclinação à esquerda (Assimetria Negativa) Inclinação à direita (Assimetria Positiva) Simétrico 19 Assimetria, cuja medida está no resumo estatístico, indica o quão afastado de uma simetria perfeita o histograma está. Quando afirmei que o conjunto de dados Receitas XYZ.xls era razoavelmente simétrico, não o fiz apenas no “olhômetro” do histograma, mas também com os olhos na medida da assimetria, no caso, -0,13. A teoria estatística diz que se esse valor está entre -1 e 1, o conjunto pode ser considerado relativamente simétrico*. A assimetria pode servir para responder a uma questão tradicional em Estatística: quem é melhor para descrever o conjunto de dados: a média ou a mediana? “Essencialmente, usamos a média como a melhor medida de localização central se o conjunto de dados não exibe uma inclinação (assimetria) excessiva. Caso contrário, usamos a mediana como medida de localização central” (WINSTON, p. 273). É o caso de um pequeno exemplo citado anteriormente, o conjunto 1,1,1,1,2,2,2,3,4,5,15; nele a média vale 3,36, razoavelmente superior a boa parte dos dados. A mediana vale 2, e é uma medida que ilustra melhor esse conjunto de dados, no caso de se necessitar uma informação rápida usando apenas essas medidas. E isso faz sentido também matematicamente, já que a assimetria é desses dados é 2,73. Porém, um conjunto pode ser simétrico e apresentar problemas tanto no uso da média quanto no uso da mediana. Isso será explorado através de um exercício. 2.3 Medidas de dispersão • Amplitude É a diferença entre o maior e o menor dado: Amplitude = Xmaior – Xmenor Está disponível no resumo estatístico, em nosso exemplo do capítulo, com o título de Intervalo (veja o resumo do exemplo das receitas mensais do produto XYZ). É uma medida mais intuitiva, apenas para dar uma noção de que intervalo os dados variam. Veja que é uma medida limitada, já que não se sabe o que ocorre com dois conjuntos de dados que tenham a mesma amplitude: provavelmente um conjunto terá os dados mais espalhados que o outro, apesar de terem mesma amplitude. • Desvio Padrão: essa medida é a que você usará muito... Qual a média entre os números 1 e 9? E entre os números 4 e 6? Veja que a média 5 é a mesma para as duas perguntas, porém, esse valor é mais � Maior que 1 indica um alto grau de assimetria positiva � Menor que -1 indica alto grau de assimetria negativa � Entre -1 e 1 indica um relativo grau de simetria. 20 1 )(....)()( 22 2 2 1 − −++−+− = n xxxxxx S n 1 )(....)()( 22 2 2 12 − −++−+−= n xxxxxx S n representativo para 4 e 6 do que para 1 e 9. Por quê? Porque 1 e 9 estão mais dispersos em relação à média! Como estabelecer uma medida para esse “espalhamento” dos dados? O desvio padrão é a medida mais famosa e mais usada com sucesso para estabelecer essa medida, a qual vale R$ 231,66 (com arredondamento) em nosso exemplo base. Numa oração razoavelmente informal, porém suficiente para se buscar uma clareza em termos de significado, esse valor significa que “os dados estão espalhados, em média, 231,66 reais unidades da média aritmética R$ 2.294,94”. Como calculá-lo? Bem, sugiro fortemente que você se contente em usar o Excel, seja com o resumo estatístico já apresentado, seja com a função =DESVPAD(...). Mas, se sua curiosidade matemática é muito grande, veja como é a fórmula: De modo geral, usamos S para o desvio padrão de uma amostra, e σ (sigma) para o desvio padrão de uma população*. A letra n é o número de elementos da amostra (número de dados), e há considerações que se pode fazer para o uso de n ou de n – 1 no denominador, porém essa discussão não será aqui abordada, uma vez que ela não é relevante ao nosso estudo. A primeira instrução que você deve construir em seu pensamento para entender o que significa o desvio padrão é a seguinte: quanto maior o desvio padrão, mais afastados da média estão os dados. Reciprocamente, quanto menor o desvio padrão, menos afastados da média estão os dados. Essa instrução é importante principalmente quando se comparam amostras de mesmo tamanho retiradas de uma mesma população, conforme veremos em capítulos mais à frente. • Variância É o quadrado do desvio padrão. Sua importância específica também aparecerá em aulas mais a frente, porém perceba que o desvio padrão é mais prático, já que tem a mesma unidade dos dados. * Há também a fórmula 1 . 22 − − = ∑ n XnX S i 21 2.4 Aprofundando o estudo sobre desvio padrão: por que, em inúmeras situações, o desvio padrão e a média devem ser usados juntos? Numa massa de dados razoavelmente simétrica é comum observarmos que há uma concentração maior de dados no centro do histograma, ou seja, há mais valores em torno da média (conforme já investigamos em vários exemplos). Porém, como avançar além da intuição e decidir, de maneiraestatística, se um dado está ou não consideravelmente afastado da média? Primeiramente veja que essa indagação é importante em diversos processos: há dados afastados que podem indicar algum problema na produção de determinada peça, ou ainda um valor alto e inesperado de vendas, que é ao mesmo tempo bom para o caixa da empresa e motivo de preocupação para o setor que controlar o estoque da empresa. O que muitas empresas usam nesta primeira análise de relação entre média e desvio padrão está relacionado ao que, em teoria estatística, é intitulado “Regra Empírica para Distribuição de Dados”, que indica o número de desvios padrão acima e abaixo da média aritmética. Não é difícil imaginar que boa parte dos dados fique próximo à média, mais especificamente, a dois desvios da média (para mais ou para menos), veja um possível enunciado para essa regra, e em seguida a aplicaremos no exemplo da produção automobilística presente neste texto. REGRA EMPÍRICA [ ]SXSX +− , : geralmente entre 60% e 80% dos dados, podendo chegar a 90% no caso de distribuições cujo pico e proximidades são consideravelmente altos; [ ]SXSX .2,.2 +− : aproximadamente 95% para distribuições simétricas; torna-se próxima de 100% para distribuições bastante concentradas em torno da média; [ ]SXSX .3,.3 +− : praticamente 100%. Em nosso exemplo, temos os seguintes intervalos (que podem ser calculados com qualquer calculadora simples, ou mesmo no Excel*): 1º INTERVALO Média – S 2.063 Média + S 2.527 2º INTERVALO Média – 2S 1.832 Média +2S 2.758 3° INTERVALO Média – 3S 1.600 Média +3S 2.990 * A formatação condicional e outras funções do Excel podem ser usados para contar esses valores. Nº de dados Percentual de dados 1º INTERVALO 34 66,7% 2º INTERVALO 50 98,0% 3° INTERVALO 51 100,0% 22 Veja, através das duas tabelas acima, que os intervalos encontrados satisfazem tal regra. Porém, há algumas considerações que devemos fazer em relação ao único dado que está além do 2º intervalo: na teoria estatística, costuma-se chamar dados como esse de suspeitos, por estarem a mais de 2 desvios da média aritmética. Se acontecer de um dado estar a mais de 3 desvios padrão da média (para cima ou para baixo), esse dado é conhecidíssimo como discrepante (outlier). Aviso importante do autor deste texto: dependendo do contexto da situação específica (análise de item da produção, exame de qualidade, previsão de certo índice etc), da variável em questão e da forma como a empresa pode administrar certas questões, dados além de 2 desvios geralmente são considerados especiais, dignos de análise ou preocupação mais profunda. 2.5 Dados discrepantes e o valor Z Estudaremos ainda muitas distribuições que se apresentarão de forma razoavelmente simétrica, e veremos mais adiante o porquê desse estudo intensivo. Os estatísticos, para estas situações características, entendem que um dado que fica fora do terceiro intervalo da regra empírica é considerado discrepante. Quando eles ocorrem, eles podem ser visualizados nas “caudas” do histograma, pois são valores mais afastados do centro da distribuição. Portanto, usando os valores de média e desvio padrão, são considerados discrepantes os dados que ficam fora do intervalo [ ]SXSX .3,.3 +− da regra empírica. Há uma forma de extrema importância para que possamos identificar facilmente um dado discrepante, além de facilitar outras análises que ainda estão por vir. Muitas vezes a análise ocorre sobre um valor específico do conjunto de dados, após uma análise mais global do conjunto todo. Por exemplo, podemos discutir se os valores mínimo e máximo obtidos no resumo são valores normais ou estão muito distantes da média. O valor máximo R$ 2.695,00, por exemplo, não é tão alto em relação aos demais dados, uma vez que situa-se a 1,7 desvio padrão acima da média. O valor mínimo R$ 1.807,00, por exemplo, já está mais afastado da média, estando a 2,1 desvios padrão da mesma (dizemos que está a –2,1 desvios da média). Note que tais dados podem ser submetidos a análises de suas possíveis causas, nas respectivas semanas em que ocorreram. Mas, que valores são esses? Como calculá-los? Podemos padronizar a forma de pensarmos sobre a posição de qualquer valor da variável X em termos de números de desvio padrão. Valor Z de um dado numérico é sua padronização em termos de desvios da média; tomando esta como zero. Assim, nessa escala construída em termos de 23 desvios padrão, cada dado tem um valor equivalente em outra escala, e esse valor é chamado de valor Z. Veja como calculá-lo: Definição: O valor Z de uma variável numérica X de um conjunto de dados cujo desvio padrão é S é dado por: na qual X é o dado a ser padronizado, X é a média e S é o desvio padrão. Um valor negativo para Z indica que o dado é menor que a média (está à esquerda da média), enquanto que um dado maior que a média leva a um valor positivo de Z (ou seja, um valor à direita da média). Faça os cálculos com os valores que descrevemos nos parágrafos anteriores e verifique a facilidade de se usar essa “fórmula”. Dado bruto Valor padronizado 1.807 -2,11 2.695 1,73 2.294 0,00 2.083 -0,91 2.584 1,24 Com essa padronização, podemos definir que um dado é considerado discrepante se o seu valor Z é maior que 3 ou menor que – 3. Tal consideração é usada em distribuições razoavelmente simétricas; em distribuições de assimetria muito acentuada, valores Z maiores que 1 (ou menores que -1) podem ser considerados discrepantes; é necessária uma análise cuidadosa nesses casos especiais. Nos exercícios que faremos vamos encontrar exemplos de dados discrepantes. O que inferir a respeito de um dado discrepante? Vários motivos podem se referir a um dado discrepante; ele pode: a) Ter sido computado incorretamente; b) Advir de uma população diferente; c) Estar correto, mas refere-se a um evento raro. Neste caso, muitas vezes gera preocupação para determinado setor da empresa; outras vezes, pode se referir a uma agradável surpresa (um valor inesperado de lucro, por exemplo); no ambiente empresarial, oscilações de mercado podem provocar o aparecimento de tais dados. No caso de análise de algum processo, um dado como esse pode revelar alguma situação que está fora dos padrões normais e merece uma interferência no processo. S XX Z −= 24 O valor Z também serve para posicionar um dado ao longo da seqüência. Veja o exemplo a seguir. Um exemplo intuitivo Suponha que você participou de um concurso público, no qual houve 100 participantes. Sabendo que a média das notas (as quais podem variar de 0 a 10) foi 5.5 e que você tirou 7.0, pergunta-se: podemos afirmar que você foi bem colocado na classificação geral? Bem, você deve estar sentindo falta de mais dados para responder a essa pergunta, não é verdade? Como não sabemos como foram todas notas, e muito menos como elas se distribuíram em relação à média, necessitamos conhecer o desvio padrão das mesmas para ter condições de opinar. Veja os casos a seguir. a) Desvio padrão 2.0: sua posição não é de grande destaque... façamos os cálculos para padronizar sua posição em relação aos demais dados (que são desconhecidos): z = (7.0 – 5.5)/2.0 = 0,75; isso indica que sua nota está próxima da média, juntamente com a maioria dos dados, inseridos no primeiro intervalo da regra empírica. b) Desvio padrão 0.7: sua posição é de grande destaque! façamos os cálculos para padronizar sua posição em relação aos demais dados (que são desconhecidos): z = (7.0 – 5.5)/0.7 = 2.14; isso indica que sua nota está longe da média, mais de dois desvios padrão! Veja como os números fazem sentido: desvio padrão menor, significa dados mais concentrados em torno da média; sua nota 7 está, neste caso, afastada da média, o que indica que sua nota é alta em relação à maioria das notas. Um comentário sobre distribuições muito assimétricas. Há conjuntos de dados quepossuem assimetrias consideráveis; para distribuições bastante assimétricas, a regra empírica apresentada para a concentração dos dados pode não ser válida. O Teorema de Tchebysheff aponta que, para qualquer distribuição com média X e desvio padrão S, as proporções do número total de valores da variável X situam-se nos intervalos abaixo, da seguinte forma: • SX 2± No mínimo 75% dos valores; • SX 3± Pelo menos 89% dos valores. Para encerrar, mais uma observação: há situações em que a média pode ser um valor interessante, porém a variabilidade dos dados pode ser muito alta, gerando certa insegurança. Há situações em que a média não é a desejada, porém, se o desvio padrão é pequeno, então o risco de se afastar dessa média é menor. O primeiro exercício visa a verificação prática dessa observação. 25 2.6 Exercícios 1. Um exercício para treinar a intuição e a observação: no texto anterior, através do conjunto de dados intitulado Peça e Contrapeça1.xls, estudamos o comportamento de uma amostra significativa de valores referentes ao diâmetro interno de tampinhas de caneta, as quais devem ter uma medida que se encaixe na caneta. Retomando os gráficos e as discussões que você deve ter trabalhado nesse problema, resolva as questões a seguir: Observe as afirmações: I) “é possível ter-se uma idéia de um pequeno intervalo no qual se situa a média aritmética desses valores mesmo sem, efetivamente, calcular o valor dessa média”; II) “A média, embora aceitável, não é um valor bom, mas o desvio padrão é bom”. Classifique cada uma dessas orações em verdadeira ou falsa, justificando o porquê de cada escolha. 2. O Índice Geral de Preços do Mercado é uma importante informação percentual muito usada em contratos realizados no mercado financeiro (como compra de imóveis, por exemplo). Observe a definição disponível em www.estadao.com.br/ext/economia/: “IGP-M - Índice Geral dos Preços do Mercado, calculado pela Fundação Getúlio Vargas. A coleta de preços é feita entre os dias 21 do mês anterior e 20 do mês corrente, com divulgação no dia 30. É composto por três índices: Índice de Preços no Atacado (IPA), Índice de Preços ao Consumidor (IPC) e Índice Nacional do Custo da Construção (INCC), que representam 60%, 30% e 10%, respectivamente, do IGP-M”. No arquivo IGP-M.xls você encontra os índices de 37 meses (Jan/2004 a Jan/07). (a) Usando média e desvio padrão, pode-se dizer que o índice mais alto e o mais baixo desse conjunto são dados discrepantes? Justifique. (b) A média e o desvio padrão de todo o conjunto de dados podem não ser boas estimativas (previsões) do próximo mês a ser observado. Algum gráfico pode justificar esse fato? Por quê? (c) Continuando a análise feita no item (b), como as previsões para o próximo mês podem ser melhoradas? 3. Num artigo intitulado “Índices Técnicos e Rentabilidade da Pecuária Leiteira” (Oliveira et al.) os autores (administradores de empresas e engenheiros) discutem os problemas que certas fazendas mineiras estavam encontrando para obterem retornos melhores de suas respectivas produções. De maneira simplificada, entendamos “retorno” como “ganhos ou prejuízos obtidos como conseqüência de um investimento durante determinado período de tempo”. No conjunto de dados T.R.Leite.xls constam taxas de retorno (porcentagens que 26 possuem regras próprias para cálculo) que, de maneira geral, parecem não agradar boa parte dos proprietários das 22 propriedades rurais participantes da pesquisa. Nos critérios da regra empírica para distribuição de dados, é possível dizer que as taxas de retorno das propriedades 1 e 15 são discrepantes em relação às demais propriedades? Justifique. 4. Certo funcionário realizou amostragens do tempo de produção, em minutos, de determinada peça, de maneira que cada peça era produzida ora pela máquina A, ora pela máquina B, teoricamente aparelhos com iguais características. Porém, de forma descuidada, esse funcionário não anotou, em cada tempo, a referida máquina da qual ela era proveniente. A seqüência a seguir foi então apresentada por esse funcionário. 15 16 15 18 20 19 2 3 1 18 4 5 5 2 1 1 20 4 1 15 16 3 2 17 2 19 4 18 6 5 17 6 17 10 16 3 20 16 1 19 19 8 20 19 15 8 20 10 Suponha que você é o gerente responsável pela qualidade de diversos processos que ocorrem na fictícia empresa deste exercício. Com esses dados em mãos (planilha Tempo Máquinas.xls), você deseja fazer uma análise estatística (média, desvio padrão etc.). Na hipótese de não conseguir entrar em contato com o funcionário que colheu os dados, quais características principais desse conjunto de dados você apontaria? Há decisões a serem tomadas? Explique. 5. Contou-se o número de erros de impressão das 3 primeiras páginas de um jornal durante 50 dias, e um software específico registrou esses dados na forma de diagrama ramo-e-folhas. 0 | 4 0 | 555556666777788899 1 | 000001111222222222234444444 1 | 569 2 | 2 Média: 10,4 erros Mediana: 11 erros Desvio Padrão: 3,83 erros (a) O valor 13 ocorreu apenas uma vez. A probabilidade de que ele ocorra novamente é alta ou baixa? Justifique sua resposta. (b) Faça a mesma análise para o dado 22. 27 (c) Suponha que o dado 22 ocorreu em certo dia em que houve muitos problemas no processo de impressão desse jornal. Exclua esse dado do conjunto todo, e recalcule a média aritmética. (d) Se você somou todos os valores constantes no diagrama anterior para responder à questão (c), então refaça esse exercício, ou seja, recalcule a média sem o dado 22, supondo que você não conhece os dados, mas apenas a média de 10,4. 6. Uma pequena estamparia comprou uma nova máquina para efetuar cortes automáticos de peças de tecido com comprimentos padronizados. Porém, devido às diferentes características dos tecidos empregados, a máquina não faz um corte exato da medida “pedida”, provocando uma variação no tamanho das peças cortadas. A tabela abaixo ilustra a freqüência absoluta de cortes, ao longo de um dia, que a máquina fez quando esteve ajustada para produzir peças entre 140 cm e 160 cm. DESAFIO: com os dados que dispõe, procure calcular um valor para a média aritmética desse conjunto de dados. Intervalo das medidas obtidas Freqüência 100-109 8 110-119 17 120-129 20 130-139 32 140-149 42 150-159 24 160-169 11 170-179 4 2.7 Respostas dos exercícios 1. As duas afirmações são verdadeiras; analisando o gráfico de controle desse conjunto de dados, fica mais fácil realizar essa observação: (I) Há muitos pontos que estão na faixa de 130mm a 150mm, aproximadamente, o que nos leva a imaginar que a média está nesse intervalo; (II) “O desvio padrão é bom” porque a variabilidade está previsível; a “média” não é boa porque está numa faixa mais próxima do limite inferior aceitável. 2. (a) Arredondando, temos X = 0,47 e S=0,55. Vamos calcular os respectivos valores Z: • Para o máximo 1,38, temos: 65,1 55,0 47,038,1 =−=Z ; não é discrepante pois zmodo muito diferente. A média de todos os valores não é um valor útil, nem confiável; observando o histograma, vemos um conjunto de valores concentrados em medidas mais altas, e outro grupo em medidas bem menores. É necessária outra amostragem, separando-se as medidas das duas máquinas. 5. (a) O valor Z para esse dado é 0.679218, ou seja, está no primeiro intervalo da regra empírica, o qual concentra a maior parte dos dados. Logo, não é difícil a ocorrência do dado 13 novamente. (b) O dado 22 é discrepante (valor Z = 3.030357), ou seja, é uma ocorrência anormal. Isso nos leva a concluir que é bastante provável que as condições desse dia (o dia em que ocorreram 22 erros) não eram as mesmas que a maioria dos outros dias (funcionários podem ter faltado, máquinas podem ter quebrado, o prazo para a execução do serviço foi pequeno etc). (c) 10,16 erros (d) 10,16 erros (monte uma equação do 1º grau) 6. Pode-se usar o meio de cada intervalo, e multiplicá-lo pela freqüência respectiva. Ao final, divide-se pela soma das freqüências (ou seja, a famosa média aritmética ponderada): 41124423220178 5,174.45,164.115,154.245,144.425,134.325,124.205,114.175,104.8 +++++++ +++++++=X 158 21861=X � 36,138=X 2.8 Atividade Extra Pesquisa salarial para diretores e gerentes feita no site http://carreiras.empregos.com.br/carreira/administracao/pesquisa_salarial/ informa que tais dados são da Folha de São Paulo, atualizados em setembro de 2006. Não olhe ainda a tabela! Faça o seguinte exercício individual: 1º) Se você já é gerente ou diretor em alguma empresa, parabéns! Se você não é, faça de conta que é, e imagine o salário que você acha justo para o seu 29 trabalho (por favor, não exagere... cuidado com o desvio padrão!!!). Mas faça isso antes de olhar a tabela! 2º) Selecione a coluna das médias salariais de gerentes e calcule média e desvio padrão (conjunto de dados). 3º) Tome o salário que você ganha (se já é gerente) ou aquele que você gostaria de ganhar (um dia você chega lá!!!), e calcule o valor Z dele. 4º) Você ficou satisfeito(a) com a sua ambição (ou realidade)? Se sim, ótimo! Muitas felicidades e sucesso para você! Se não, vá ao 5º passo. 5º) Faça o exercício de novo, mas desta vez com a coluna “menor salário” ou com a coluna “maior salário”. Espero que você se sinta melhor... e também te desejo muitas felicidades e muito sucesso! DIRETORES E GERENTES (Em Reais – R$) OCUPAÇÃO MENOR MAIOR MÉDIA Diretores - Adm. E financeiro. . . . . . . . . . . . . . . . . . . . . . 4.826 39.510 16.671 - Administrativo. . . . . . . . . . . . . . . . . . . . . . . . 7.055 33.830 16.418 - Comercial . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.141 51.238 19.293 - Financeiro . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.015 29.997 17.932 - Industrial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.083 20.356 14.811 - Informática. . . . . . . . . . . . . . . . . . . . . . . . . . 9.878 28.367 19.644 - Jurídico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.650 24.445 20.040 - Marketing . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.575 33.582 17.278 - Presidente. . . . . . . . . . . . . . . . . . . . . . . . . . . 9.625 46.016 28.615 - Rh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.214 37.511 19.309 - Suprimentos . . . . . . . . . . . . . . . . . . . . . . . . . 13.371 20.277 16.840 - Vendas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.508 29.971 16.988 - Vice-presidente. . . . . . . . . . . . . . . . . . . . . . . 8.045 45.545 26.481 Gerentes - Adjunto de operações. . . . . . . . . . . . . . . . . . . 9.502 25.531 10.674 - Adm. de vendas. . . . . . . . . . . . . . . . . . . . . . . 4.447 9.669 7.015 - Adm.de pessoal. . . . . . . . . . . . . . . . . . . . . . . 4.691 18.677 8.655 - Adm.e financeiro. . . . . . . . . . . . . . . . . . . . . . 4.440 14.727 8.589 - Administrativo. . . . . . . . . . . . . . . . . . . . . . . . 2.648 18.114 8.151 - Assistência técnica . . . . . . . . . . . . . . . . . . . . 5.480 12.931 8.662 - Auditoria. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.918 13.137 7.664 - Comercial . . . . . . . . . . . . . . . . . . . . . . . . . . 3.110 19.233 7.393 - Compras . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.140 17.809 9.755 - Contabilidade de custos . . . . . . . . . . . . . . . . 5.471 15.110 9.983 - Contabilidade geral. . . . . . . . . . . . . . . . . . . . 3.211 16.798 8.168 - Contas a pagar . . . . . . . . . . . . . . . . . . . . . . . 6.967 8.606 7.625 - Controladoria . . . . . . . . . . . . . . . . . . . . . . . . 3.602 15.735 9.559 - Controle de qualidade. . . . . . . . . . . . . . . . . . 4.790 14.620 8.093 - Crédito e cobrança . . . . . . . . . . . . . . . . . . . . 4.378 18.805 9.048 - Desenv. Rh . . . . . . . . . . . . . . . . . . . . . . . . . 3.710 12.057 8.335 - Desenv. sistemas . . . . . . . . . . . . . . . . . . . . . 7.400 11.907 9.611 - Desenv. novos produtos . . . . . . . . . . . . . . . . 6.640 13.667 9.617 - Distr. E transportes . . . . . . . . . . . . . . . . . . . . 2.565 12.529 7.604 - Engenharia e projetos . . . . . . . . . . . . . . . . . . 7.950 14.307 9.836 - Fabricação . . . . . . . . . . . . . . . . . . . . . . . . . . 3.663 15.066 9.917 - Filial de vendas . . . . . . . . . . . . . . . . . . . . . . 2.083 13.687 4.282 - Financeiro . . . . . . . . . . . . . . . . . . . . . . . . . . 2.648 19.095 8.679 30 - Grupo de produtos . . . . . . . . . . . . . . . . . . . . 5.444 9.714 6.724 - Industrial . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.303 19.095 11.476 - Informática. . . . . . . . . . . . . . . . . . . . . . . . . . 2.750 20.114 9.208 - Jurídico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.254 19.095 11.476 - Loja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.874 11.343 2.897 - Manutenção geral . . . . . . . . . . . . . . . . . . . . . 4.230 13.124 8.318 - Marketing . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.637 17.926 9.15 - Nacional de vendas . . . . . . . . . . . . . . . . . . . . 4.548 20.240 10.166 - Pesquisa de mercado . . . . . . . . . . . . . . . . . . 8.221 14.428 10.336 - Pesquisa e desenv. . . . . . . . . . . . . . . . . . . . . 7.495 12.158 9.352 - Planej. contr. produção . . . . . . . . . . . . . . . . . 2.956 17.556 11.295 - Planej. financ. Orçament. . . . . . . . . . . . . . . . . 6.731 15.216 9.283 - Processamento de dados . . . . . . . . . . . . . . . . 5.133 8.607 7.378 - Produção . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.045 11.761 7.779 - Produto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.634 24.424 9.464 - Projetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.102 9.425 8.333 - Prop. E prom. vendas . . . . . . . . . . . . . . . . . . . 7.736 12.537 9.471 - Recursos humanos . . . . . . . . . . . . . . . . . . . . . 1.893 16.243 7.533 - Regional de vendas . . . . . . . . . . . . . . . . . . . . 3.239 13.217 8.657 - Relações industriais . . . . . . . . . . . . . . . . . . . . 4.034 7.950 6.921 - Remun. e benefícios . . . . . . . . . . . . . . . . . . . . 4.512 14.270 9.425 - Serviços gerais . . . . . . . . . . . . . . . . . . . . . . . 2.495 9.945 5.954 - Suprimentos . . . . . . . . . . . . . . . . . . . . . . . . . 3.872 15.928 8.918 - Técnico de obras . . . . . . . . . . . . . . . . . . . . . . 8.034 12.960 9.756 - Tesouraria . . . . . . . . . . . . . . . . . . . . . . . . . . 6.091 17.996 9.917 - Treinamento e desenv. . . . . . . . . . . . . . . . . . 4.512 12.537 9.411 COMENTÁRIO DO AUTOR PARA ESTA ATIVIDADE. Aqui a resposta é individual, mas mesmo assim te façoum desafio: eu, o autor deste texto, imaginei um salário normal para mim, já que encontrei o valor Z igual a – 1,20 (desprezei os centavos). Qual salário imaginei, usando como média a coluna das médias salariais? 31 CAPÍTULO III Medidas Estatísticas de Posição • Quais são as medidas de posição mais significativas? • Como interpretar rápida e corretamente um boxplot? • Como inserir dados e encontrar medidas e desenhar um boxplot com o software R. 3.1 Percentil Na verdade, já temos uma medida de posição estudada, que é a mediana. Vimos que a mediana é o dado que divide o conjunto ordenado em duas partes iguais, com 50% acima e 50% abaixo dela. E se quisermos encontrar a porcentagem de dados que se encontra acima e abaixo de um dado qualquer? E se quisermos encontrar o dado que divide o conjunto de dados em 20% e 80% do total de valores? De forma geral, nota-se que a porcentagem de valores que estão antes ou depois de determinado dado é uma forma de analisar tais questões e analisar diversos problemas. Já vimos que a mediana divide a seqüência em duas partes que possuem 50% dos dados, mas agora vamos definir valores que podem apresentar quaisquer posições num conjunto ordenado de dados. Definição: Sejam X1, X2,...,Xn valores de uma amostra ou população de uma variável X, dispostos em ordem crescente (ou decrescente). O p-ésimo percentil é o valor X que divide essa seqüência em duas partes, tal que p% das medidas são menores que esse valor, e (100-p)% dos valores da variável são maiores que esse valor. Estamos na seguinte questão: dado um valor, encontrar sua posição relativa na seqüência ordenada dos dados. Numa espécie de “regra de três", ao desejarmos encontrar a posição de um elemento X dentre os n valores que essa variável assume, esse percentil p é dado por: % 1 %100 1 p Xn −=− Porém, não gastaremos tempo e neurônios com esses cálculos, pois vamos usar a tecnologia para responder por tais cálculos, bastando, para isso, que saibamos fazer a pergunta certa. O conjunto de dados Receitas1.xls contém uma simulação de receitas semanais, em reais, oriundos das vendas do refrigerante QuiPutz, da empresa Gole da Goela S/C Ltda. 32 Se quisermos, no Excel, descobrirmos qual valor é o mediano, basta inserir a função =MED(...). No intervalo de dados, selecione a coluna B2:B61, encontrando o valor R$ 543,50. Usar o percentil é muito fácil: se quiseres encontrar o termo que ocupa a posição 20%, ou seja, 20% dos dados antes dele (consequentemente 80% depois dele, desconsiderando minúcias matemáticas), basta usar o comando =PERCENTIL(B2:B61;0,2). O valor R$ 477,60 fornece a idéia desse valor. O comando =PERCENTIL(B2:B61;0,85), que retorna o valor R$ 702,90, fornece o percentil 85%, ou seja, 85% dos dados abaixo dele. 3.2 Percentis mais famosos: os Quartis Porém, os percentis mais famosos e usados em análises mais imediatas são, respectivamente: o de 25%, chamado 1º Quartil; o de 50%, chamado 2º Quartil, porém mais famoso como mediana; e o de 75%, chamado 3º Quartil. Note que esses nomes são sugestivos, pois dividem todo o conjunto de dados em quatro partes iguais. Vejamos as definições formais desses três valores: Definição: O primeiro quartil, notado por Q1 é o valor para o qual 25% dos dados são menores que ele. Definição: O segundo quartil, que pode ser notado por Q2, é a mediana; é o valor central, para o qual há 50% dos dados antes e depois dele. Definição: O terceiro quartil, notado por Q3, é o valor para o qual 75% dos dados são menores que ele. Retomemos o conjunto de dados das 60 receitas semanais observando, além desses três valores, o máximo e o mínimo desse conjunto de dados, obtidos no excel com a função =QUARTIL(...). Mínimo 250,00 1o Quartil 480,00 Mediana 543,50 3o Quartil 625,50 Máximo 920,00 Para essa função, veja como o Excel pede a informação de qual Quartil você precisa: 33 Note que há 5 possibilidades, que gerarão uma seqüência muito falada em livros de Estatística: seqüência ou diagrama dos 5 números. Esses 5 números são: Mínimo (extremo inferior), 1º Quartil, Mediana, 3º Quartil e Máximo (extremo superior). Uma propriedade interessante dos quartis é o fato de que 50% dos dados se encontram entre os quartis Q1 e Q3; em nosso exemplo, 50% dos dados estão entre R$ 480,00 e R$ 625,50. Dessa forma, o valor R$ 550,00 está situado entre a mediana R$ 543,50 e o quartil Q3, o que nos faz concluir que ele não é um valor de considerável afastamento da mediana e da média, já que este conjunto de dados não é tão assimétrico (a média é R$ 562,07). O tamanho desse segmento, ou seja, 625,50 – 480,00 = 145,50 é chamado distância ou amplitude interquartil. Atenção: os próximos 4 parágrafos são explicações técnicas e matemáticas para certos cálculos; são detalhamentos que não interferem nas análises que necessitamos para nosso curso. Portanto, você pode pular esse detalhamento e ir direto ao item 3.3, referentes ao interessante diagrama Boxplot. Definição: Amplitude interquartil, que denotaremos por IQR (interquartile range), é a medida da distância entre o menor e o maior quartil, ou seja, Q3 - Q1. Há fórmulas que podem ser usadas para se achar as posições dos termos correspondentes aos quartis (a mediana já foi detalhada no texto 2): Q1 = valor correspondente à posição 4 1+n . Q3 = valor correspondente à posição 4 )1(3 +n . Porém, há autores que definem de forma diferente tais cálculos (e softwares também!), mas isso não atrapalha a essência de tais valores: pequenas diferenças não alteram as análises dos conjuntos de dados. 34 Por exemplo, o software estatístico R, do qual falaremos um pouco mais à frente, realiza o que em Matemática chamamos de interpolação: uma espécie de “regra de três” que relaciona, geometricamente, a posição de determinado valor X de uma variável e sua posição n. No caso do primeiro quartil, cujo percentil é 25%, vale a relação % 1 %100 1 p Xn −=− . Omitiremos maiores detalhes dessa relação, uma vez que tal procedimento foge aos objetivos deste texto, o qual prevê o uso do software R ou do Excel para o cálculo de tais valores, aproveitando nosso tempo não para fazer esses cálculos, mas sim interpretá-los. 3.3 O diagrama Boxplot (ou “diagrama de caixas”) Dentro desse “espírito” de análise de dados, apresentaremos uma forma de se representar graficamente os valores posicionais dos quais estamos trabalhando nesta seção: o boxplot. Em português, alguns autores o chamam de “diagramas de caixas”; manteremos a expressão no inglês por ser consagrada na literatura, além de facilitar-lhe o uso desta opção no software R, do qual conversaremos mais adiante. É um esquema gráfico que informa, de maneira rápida, os valores posicionais importantes de um conjunto de dados, ou seja, os cinco números principais dos quais falávamos: Mínimo, 1º Quartil, Mediana, 3º Quartil e Máximo; note que a média aritmética não está inclusa nessa seqüência. Em relação ao conjunto das receitas semanais que estávamos exemplificando, esses cinco valores podem, assim, ser visualizados nesse diagrama. Retomemos os 5 valores, e localize-os no desenho a seguir: Mínimo 250,00 1o Quartil 480,00 Mediana 543,50 3o Quartil 625,50 Máximo 920,00 35 5 1 0 1 5 Interpretando o boxplot: O retângulo da figura anterior, representa três valores: o segmento situado no interior do retângulo aponta o valor da mediana (R$ 543,50), enquanto que os segmentos paralelos a esse, que são lados do retângulo, representam os valores dos quartis Q1 (R$ 480,00) e Q3 (R$ 625,50). Note que a distância entre esses segmentos, ou seja, o comprimento do retângulo, é a medida da amplitude interquartil (IQR). Os segmentos que se encontram nos extremos da linha pontilhada, perpendicular ao retângulo, “costumam” indicar os valores extremos. Como assim, “costumam”? Se os extremos não estiverem a 1,5×IQRpara cima ou para baixo dos quartis, então se considera que não há dados discrepantes, e tais segmentos representam os extremos. Porém, há dados bem distantes da mediana nesse conjunto de dados, e o boxplot indica isso através das “bolinhas”: os valores R$ 250,00 e R$ 920,00 estão a “mais de uma caixa e meia distantes da caixa”, para falar em linguagem para lá de informal. Quando esses dados não são tão distantes, o boxplot não apresenta tais bolinhas, como no desenho a seguir (veja que esse diagrama pode ser desenhado tanto na vertical quanto na horizontal). Portanto, o critério para se chamar de “discrepante” um dado extremo é diferente quando se usa o par média & desvio padrão ou o par mediana & IQR. Ou seja, valores discrepantes nesse diagrama são aqueles que se situam além de 1.5 IQR, para cima ou para baixo. Em nosso curso, valorizaremos o primeiro par, uma vez que é a associação de medidas mais largamente usada em diversos contextos em que a Estatística está presente. Em termos de tecnologia, o Excel se torna um pouco trabalhoso para se fazer a simulação de um boxplot. Aproveitando este momento, apresentarei a você um software estatístico gratuito, chamado R, que também pode ser usado para se resolver inúmeros problemas de ordem matemática. Seu uso não será exigido em nosso curso, mas vale a pena conhecê-lo, e incluí-lo em seu rol de informações “informáticas”... 3.4 O software R Agora introduziremos alguns comandos desse software, que não possui o “design” de uma planilha, e a forma de se introduzir dados é por meio de digitação 36 numa mesma linha. Para inserir uma seqüência qualquer de números reais, escolhemos um nome para a mesma (por exemplo, valores), seguida da seqüência entre parênteses, precedida da letra c. Por exemplo, o conjunto de dados 1, 2, 3, 4, 5, 6, 7 será digitado assim: > notas = c(1, 2, 3, 4, 5, 6, 7) Em caso de valores com decimais, use ponto ao invés de virgulas, uma vez que as vírgulas são usadas como separadores de valores. No caso do conjunto de dados usado para este capítulo, a seqüência ficou assim (o nome usado foi o mesmo - receitas): receitas=c(620,350,450,334,765,732,546,852,431,541,600,854,750,340,520 ,650,610,668,920,250,380,400,580,510,650,660,480,708,606,418,489,702,610,62 0,503,590,558,642,890,768,509,540,568,480,476,490,506,400,368,525,498, 609,521,480,568,550, 478,511,540,560) Após digitar a seqüência, basta pressionar enter para que o software “grave” tal conjunto de dados. Para os dados quantitativos, podemos gerar um histograma com intervalos gerados pelo próprio R (automaticamente), ou então definirmos um intervalo a partir de valores extremos. Veja estas duas opções nos comandos abaixo, as quais, no caso fornecem o mesmo histograma (dependendo do intervalo que você queira ele pode se modificar): > hist(receitas) > hist(receitas,xlim=c(200,1000)) 37 Abaixo você terá comandos para as medidas e representações que já estudamos: > stem(receitas) 2 | 5 3 | 34578 4 | 002358888899 5 | 00111122344455667789 6 | 011112245567 7 | 013577 8 | 559 9 | 2 > mean(receitas) [1] 562.0667 > median(receitas) [1] 543.5 > sd(receitas) [1] 139.1622 > boxplot(receitas) Veja que “sd” é o desvio padrão (de “standard deviation” ), e o comando “boxplot” forneceu o desenho que consta na página 4 deste texto. Porém, bastante interessante é o comando summary, que fornece um resumo das medidas de posição que aqui desenvolvemos, juntamente com a média aritmética: > summary(receitas) Min. 1st Qu. Median Mean 3rd Qu. Max. 250.0 480.0 543.5 562.1 625.5 920.0 Para sair do programa e deixar salvos os arquivos e toda a sessão de cálculos e desenhos que você realizou, digite q() . Um site possível para você fazer o download desse programa é http://www.r-project.org/ 3.5 Exercício Para se estudar o desempenho de duas corretoras de ações, selecionou-se de cada uma delas amostras aleatórias de várias ações negociadas (o mesmo nº de ações 38 para cada corretora). Para cada ação selecionada, computou-se a porcentagem de lucro apresentada durante um período fixado de tempo. (a) Com base nas informações dadas pelo Excel, faça um esboço dos possíveis diagramas do tipo boxplot de ambas corretoras. (b) Discorra sobre as vantagens/desvantagens de se escolher a corretora A ou a corretora B. (c) Observando as informações adicionais a seguir, calcule o valor Z para os dados 50 e 59 da corretora B. (d) Verifique se há dados discrepantes em algum dos conjuntos de dados, utilizando o critério do valor Z. 3.6 Resposta do exercício (a) Seus boxplots não precisavam ficar exatamente como os reais, abaixo indicados, porém, há informações relevantes que devem existir na comparação entre ambos: as posições das medianas, dos quartis e dos extremos. Se você não colocou as bolinhas no primeiro boxplot, não há problema, pois em nosso curso utilizaremos média e desvio padrão para dizer se um dado é discrepante ou não. CORRETORA A CORRETORA B Mínimo 38,00% 50,00% 1o Quartil 54,25% 53,50% Mediana 55,50% 56,50% 3o Quartil 60,00% 58,00% Máximo 70,00% 61,00% CORRETORA A CORRETORA B Média 56,28% 55,78 % Desvio Padrão 7,44% 3,14% 39 1 2 4 0 4 5 5 0 5 5 6 0 6 5 7 0 (b) Vantagens da corretora A: atingiu o maior valor de porcentagem (70%), e tem 25% de dados entre 60% e 70%. Desvantagens da corretora A: possui também o menor valor (38%), ou seja, tem a uma amplitude (dispersão) maior dos dados; os 25% dos dados menores estão no intervalo [38%,54.25%]. Vantagens da corretora B: os dados são mais concentrados, já que todos eles estão no intervalo [50%,61%]. A amplitude menor (11%) em relação à corretora A (32%) é vantagem no caso de não se desejar altos riscos. Desvantagens da corretora B: pouca expectativa de um rendimento maior que 60%, ao contrário de B, que tem 25% dos dados acima desse valor. (c) Para 50: Z = -1.84; para 59: Z = 1.03 (valores arredondados). (d) Não há dados discrepantes, pois os valores Z dos máximos e dos mínimos dos dois conjuntos de dados não são inferiores a – 3 nem superiores a 3 (calcule-os!). 40 CAPÍTULO IV Probabilidades • O que é “matematizar” a chance de algo ocorrer? • Quais as principais leis de Probabilidades? 4.1 Conceitos e definições iniciais na teoria das probabilidades. • Experimentos aleatórios: experimentos nos quais é possível listar todas as possibilidades. Exemplo: a) lançamento de um dado cúbico (os resultados possíveis são 1, 2, 3, 4, 5 e 6) b) lançamento de uma moeda (cara, coroa) c) retirada de uma peça de um lote para verificar seu estado (com defeito, sem defeito) d) após certo período, analisar o comportamento de determinada ação no mercado financeiro (aumentou, diminuiu ou manteve seu valor) • Eventos simples: são todos os eventos mais básicos de um experimento. Ex.: {face 3} no exemplo (a); {coroa} no exemplo (b); {peça com defeito} no exemplo (c); {aumentou seu valor} no exemplo (d). • Definição: Probabilidade de um evento A, denotada por P(A), é um número de 0 a 1 que mede a chance de A ocorrer. P(A) pode ser entendida como a proporção de vezes que A ocorre se o experimento for realizado inúmeras vezes. • Eventos mutuamente exclusivos: quanto um ocorre, o outro não pode ocorrer. Ex.: no lançamento de um dado, os eventos A={face par} e B={face ímpar} são mutuamente exclusivos. Ex.: ao se escolher uma carta de um baralho, os eventos C={carta de paus} e D={carta de copas} são mutuamente exclusivos, mas os eventos C={carta de 1ª lei de Probabilidades: para qualquer evento A, tem-se: 1)(0 ≤≤ AP ou %100)(%0 ≤≤ AP 41 paus} e E={carta com número 7} não são mutuamente exclusivos, pois há carta que satisfaz ambas características. Ex.: de um período para outro, uma ação no mercado financeiro pode aumentar seu valor, manter seu valor ou diminuir seu valor; são