Baixe o app para aproveitar ainda mais
Prévia do material em texto
Probabilidade e Regressão Este material não pode ser copiado, reproduzido, reimpresso, utilizado em filmes ou gravações de vídeo ou armazenado em dispositivos eletrônicos sem a permissão escrita dos detentores dos direitos de copyright. O material não pode ser incorporado em programas de treinamento com exceção da supervisão de algum instrutor da EDTI Consultoria e Treinamento LTDA. Autores: Ademir J Petenate, , EDTI Projetos Marcelo M Petenate, EDTI Projetos Publicado por EDTI Melhoria de Processos® Campinas, São Paulo Impresso no Brasil 0 Sumário Probabilidade...........................................................................2 Modelos Probabilísticos..........................................................35 Inferencia................................................................................91 Regressão.............................................................................105 1 Probabilidade Incerteza e intuição A intuição humana é mal adaptada a situações que envolvem incerteza. Pesquisas recentes mostram que em situações que envolvem o acaso nossos processos cerebrais costumam ser gravemente deficientes. Os processos aleatórios são fundamentais na natureza, e onipresentes em nossa vida cotidiana; aind assim, a maioria das pessoas não os compreende nem pensa muito a respeito. Leonard Mlodinow 2 Jogo das cores É mostrado a um grupo de pessoas uma série de lâmpadas de duas cores (vermelho e verde). As cores aparecem em sequencia com diferentes probabilidades. Depois de observar o a sequencia por um tempo a pessoa deve tentar prever a próxima cor. O jogo tem duas estratégias básicas. Uma delas é arriscar na cor percebida como a que ocorre com mais frequência. A outra é ajustar a nossa percepção conforme padrões que identificamos. Qual estratégia é melhor? Concha Kahneman – Premio Nobel de Economia de 2002 3 Exercício Linda tem 31 anos de idade, solteira, franca e muito brilhante. Ela graduou-se em Filosofia. Como estudante, esteve profundamente preocupada com os assuntos de discriminação e justiça social e também participou de manifestações anti- nucleares. Por favor, ordene as três seguintes alternativas na ordem de mais provável (1) para menos provável (3). A. Linda participa do movimento feminista B. Linda é bancária e participa do movimento feminista C. Linda é bancária Exercício Aproximadamente 80 bebês por semana nasceram na Santa Casa de Santos em 1993. Durante o mesmo ano, cerca de 20 bebes por semana nasceram na Maternidade em São Vicente. Enquanto cerca de 50% de todos os bebes nascidos em qualquer semana considerada eram meninos, a porcentagem exata varia de semana para semana, algumas vezes mais, outras menos. Dos dois hospitais, qual você acha que registrou mais semanas na qual o número total de meninos nascidos foi maior que 70%? Santa Casa de Santos Maternidade em São Vicente Mais ou menos a mesma quantia 4 Exercício O que é maior, o número de palavras de seis letras na língua inglesa que tem o n como quinta letra ou o número de palavras de seis letras que terminam em ing? Exercício Suponha que uma companhia aérea tenha um lugar restante no voo e ainda restem dois passageiros por chegar. Suponha que a partir da experiência a companhia saiba que existe uma chance de 2/3 de que um passageiro que reservou um voo se apresente para viajar. Qual é a probabilidade que ela tenha que lidar com um cliente insatisfeito? Qual é a probabilidade que o voo seja realizado com um lugar vago? 5 Um pouco de História A teoria da probabilidade tal como a conhecemos hoje, foi em grande parte desenvolvida por cientistas como Girolamo Cardamo (1501-1576), Galileu Galilei (1564-1642), Blaise Pascal (1623-1662), Pierre de Fermat (1601- 1665), Jackob Bernoulli (1654-1705), Abraham de Moivre (1667-1754), entre outros. O desenvolvimento da teoria da probabilidade é muitas vezes associado com os jogos de azar em famosos cassinos europeus, como o que está em Monte Carlo. Muitos livros sobre probabilidade e estatística contam a história de Chevalier de Mère, um jogador francês, que contou com a ajuda de Pascal em um esforço para obter as probabilidades de ganhar em certos jogos de azar, desenvolvendo assim esse campo do conhecimento. Um pouco de História Os gregos da Antiguidade se destacam por terem inventado a maneira como a matemática é levada a cabo: por meio de axiomas, provas, teoremas etc. Por que motivo eles não criaram uma teoria para demonstrar que se jogamos dois dados seria pouco sábio apostar uma grande quantia na possibilidade de que ambos caiam com o número 6? • O futuro se desvelava conforme a vontade dos Deuses • Insistência na verdade absoluta, provada pela lógica e sustentada pelos axiomas • Desconhecimento da aritmética; ausência de um sistema de representação numérica fácil de trabalhar. Imagine tentar subtrair ΛΤΩ de ΨΠ. A notação base 10 só começa a ser usada no século VII d.C. • Ausência do zero (só surgiu no século IX d.C.) • O sinal de igual só foi inventado no início do século XVI 6 Conceitos básicos � O que significa Probabilidade? � É uma medida de incerteza. � A probabilidade de um evento é uma medida numérica da chance de ocorrência do evento � Probabilidade é medida por um número que varia entre 0 e 1 (0 é a probabilidade de um evento impossível e 1 a probabilidade de um evento certo Experimento aleatório Um experimento aleatório é um processo que tem como resultado um de um conjunto possível de resultados. O resultado é uma observação ou medição documentada. Exemplos • Pagar a conta no prazo: {Sim, Não} • Tempo para completar uma ligação: {t: t>0} • Número de cartões de crédito que um cliente possui: {0, 1, 2...} 7 Evento e espaço amostral � Cada resultado possível de um experimento aleatório é um evento simples � O espaço amostral é a coleção de todos os eventos simples � Um espaço amostral pode ser finito, finito enumerável ou infinito não enumerável � Um evento é um subconjunto do espaço amostral (um conjunto com um ou mais eventos simples) � O evento vazio é o conjunto com nenhum evento simples (conjunto vazio) � A probabilidade de um evento é a soma das probabilidades dos eventos simples que formam o evento � A probabilidade do evento vazio é zero Tipos de Probabilidade � Probabilidade clássica: eventos igualmente prováveis � S= {S1, S2, ..., Sn} é o espaço amostral � �� = 1� onde � simboliza a probabilidade e �� é o resultado de um experimento aleatório com � resultados possíveis, � = 1,… , �. � Seja um evento formado por � eventos igualmente prováveis: � =�1� ��� = �� 8 Tipos de Probabilidade � Probabilidade clássica: eventos não necessariamente igualmente prováveis � S= {S1, S2, ..., Sn} conjunto de eventos possíveis � � �� = �� � onde �� é a probabilidade de ocorrência de �� , � =1,… , � e calculável a partir de suposições. � Exemplo: Uma moeda com duas faces (Cara e Coroa) não equilibrada. � S={Cara, Coroa} � P(Cara)=P1, P(Coroa)=P2; P1≠P2 Probabilidade clássica: cálculo � Tipicamente envolve problemas de contagem � Pode ser muito simples � Exemplo: dado honesto � Resultados possíveis 1, 2, 3, 4, 5, 6, , tal que � ��������� = � = 16 para � = 1, … , 6 � Evento = resultados pares � = � 2,4,6 = 16 + 1 6 + 1 6 = 1 2 9 Probabilidade clássica: cálculo Pode ser bastante complexo: Exemplo: Poker fechado , 52 cartas (sem curinga) Sequencia real: 5 cartas seguidas domesmo naipe do 10 ao Ás. P (Sequencia real) = ? Sequência de cor: 5 cartas seguidas do mesmo naipe. P (Sequencia de cor) = ? Cuidado! � Qual é a probabilidade que o primeiro bebê que vai nascer em 2014 na cidade de São Paulo seja do sexo masculino? 10 Probabilidade frequentista � Seja +�, … , +, o conjunto de resultados possíveis de um experimento realizado � vezes e que cada resultado ocorre �� vezes. Então � +� = ��� e ���� =��� = 1 Probabilidade subjetiva � Chance de ocorrência de um evento atribuída por um indivíduo com base em sua experiência, conhecimento do assunto, grau de convicção ou simplesmente expressão de desejo � Suponha que você reúna amigos para assistir a um jogo de futebol entre os times A e B pergunte a cada um deles qual a chance do time A ganhar. Provavelmente cada um fará uma afirmação diferente. Estamos nesse caso atribuindo probabilidade de forma subjetiva. 11 Lei de Bendford A Lei de Bendford (descoberta pelo astrônomo Simon Newcomb observando páginas de livros de logaritimos)sugere que a porcentagem de ocorrência dos dígitos 1 a 9 na primeira posição em números de diversas fontes segue um padrão. Esse padrão é exibido na tabela abaixo. Qual é o tipo de probabilidade? Como esse resultado poderia ser utilizado em ambiente de negócios? Prim dígito 1 2 3 4 5 6 7 8 9 Freq Relat 0.301 0.176 0.125 0.097 0.079 0.067 0.058 0.051 0.046 União e intersecção de eventos � A união de dois eventos A e B é o evento formado por todos os resultados que estão em A ou B � Notação A∪B � A intersecção de dois eventos A e B é o evento formado por todos os resultados que estão em A e B � Notação A∩B � O evento complementar de um evento A é formado pelos resultados que não estão em A � Notação A´ � Dois eventos A e B tal que a intersecção deles é vazia são mutuamente excludentes ou disjuntos 12 União e intersecção de eventos A∪B A∩B A´ A Axiomas de probabilidade Qualquer que seja o tipo de probabilidade (clássica, frequentista, subjetiva), o mesmo conjunto de regras é válido para manipular e analisar probabilidades. 13 Axiomas de probabilidade 1. P (S) = 1, S o espaço amostral 2. Qualquer que seja o evento - 0 ≤ � - ≤ 1 0 ≤ � - ≤ 1 3. Se A 1 e A 2 são dois eventos que disjuntos -� ∩ -2 = ∅ , então �(-1 ∪ -2) = �(-1) + �( -2) � Generalizando, se A1, A2, ... , Ak são eventos mutuamente disjuntos, então �(-1 ∪ -2 ∪ … ∪ -7 ) = �(-1) + �(-2) + … + �( -7) 4. Se A1 e A2 são dois eventos quaisquer, então �(-1 ∪ -2) = �(-1) + �( -2) − �(-1 ∩ -2) Notação � Denotaremos eventos por letras maiúsculas -, 9, … � Seja - um evento � Ex1: -: evento dos números pares no jogo de dados - = 2, 4, 6 � Ex2: -: evento onde o tempo para responder a uma solicitação de crédito é maior que 9 dias úteis - = �: � > 9 14 Probabilidade condicional e independência � Exemplo: um grupo de bancários foi classificado de acordo com o peso corporal e hipertensão � A: pessoa com hipertensão → � - = 0.20 � B: pessoa com peso acima do normal → �(9) = 0.25 condição em relação ao peso acima normal abaixo total hipertenso sim 0.10 0.08 0.02 0.20 não 0.15 0.45 0.20 0.80 total 0.25 0.53 0.20 1.00 Probabilidade condicional e independência � Qual a chance de um pessoa que tem peso acima do normal ser hipertensa? Denotamos essa probabilidade por �(-/9) � -/9 = 0.10.25 = 0.4 � Qual a chance da pessoa ser hipertensa e ter peso acima do normal � - ∩ 9 = � -9 = 0.1 15 Probabilidade condicional e independência � Probabilidade condicional � -/9 = � -9� 9 desde que �(9) > 0. � Ou � -/9 � 9 = �(-9) que chamamos de lei da multiplicação das probabilidades Probabilidade condicional e independência � Dois eventos são independentes se � -/9 = � - � Condições equivalentes � 9/- = � 9 ou �(-9) = �(9)�(-) 16 Regras de produto para eventos independentes As regras para a união e a interseção de dois eventos independentes são extensíveis para sequências de mais de dois eventos. Estudos enumerativos envolvem, em geral, amostragem aleatória de alguma população. Quando retiramos uma amostra aleatória de uma grande população, ou quando retiramos uma amostra com reposição de uma população de qualquer tamanho, os itens da amostra são independentes uns dos outros. Regras de produto para eventos independentes Por exemplo, suponha que temos uma urna contendo 10 bolas, sendo 7 vermelhas e 3 azuis. Uma bola é sorteada, observa-se que é vermelha e devolve-se a bola na urna. Qual é a probabilidade de que a segunda bola que escolhemos aleatoriamente será vermelho? A resposta ainda é 3/10 porque o processo não tem memória nesse caso. Amostragem com a reposição assegura a independência dos elementos. O mesmo é válido para a amostragem aleatória sem restituição se a população é relativamente grande em comparação com o tamanho da amostra. 17 Regra da probabilidade total � - = � - ∩ 9 + � - ∩ 9´ = �-/9)�(9) + �(-/9´)�(9´) Para quaisquer dois eventos A e B Generalizando, se A é um evento qualquer e B1, B2, ..., Bk uma partição do espaço amostral S, então � - = � �(- ∩ 9�) = � �-/9�)�(9�) Exemplo Suponha que a probabilidade é 0.10 de que um chip que seja sujeito a altos níveis de contaminação durante a fabricação cause falha no produto e é 0.005 caso não esteja sujeito a altos níveis de contaminação. Em um lote produzido 20% dos chips estão sujeitos a altos níveis de contaminação. Qual é a probabilidade que um produto usando um chip desse lote venha a falhar? Seja F o evento que o produto falhe e A o evento que o chip foi exposto a altos níveis de contaminação P(F/A)=0.10, P(F/A´ )=0.005 P(A)=0.20, P(A´ )=0.80 P(F)=P(F∩A)+P(F ∩A´)=P(F/A)P(A)+P(F/A´)P(A´) =0.10*0.20+0.005*0.80=0.024 18 Probabilidade condicional e independência � Exemplo: um grupo de bancário foi classificado de acordo com o peso corporal e hipertensão � Ter peso acima do normal é independente de ser hipertenso? condição em relação ao peso acima normal abaixo total hipertenso sim 0.10 0.08 0.02 0.20 não 0.15 0.45 0.20 0.80 total 0.25 0.53 0.20 1.00 Teorema de Bayes As fórmulas de probabilidade condicional eram conhecidas no século XVIII. Elas dependiam de que o evento condicionante tivesse ocorrido antes do evento que estivesse sendo examinado. No final do século XVIII o reverendo Thomas Bayes descobriu algo inusitado. Era possível calcular a “probabilidade do antes condicionada ao depois”. 19 Exercicíos Uma empresa de consultoria está negociando contratos de serviço com duas grandes multinacionais. Os executivos da companhia estimam que a probabilidade fechar o contrato com a empresa A, o evento A, é de 0,45. Os executivos também sentem que se se fecharem com a empresa A a probabilidade de entrarem em acordo com a empresa B é de 0.9. Qual a chance da companhia obter os dois serviços? Formados em Direito devem passar por um exame de da OAB para poderem exercer a profissão. Suponha que a porcentagem de aprovados na primeira vez que prestam o exame é 72%. Os reprovados na primeira vez podem fazer um segundo exame. A proporção de aprovados na segunda tentativa é 88%. Qual é a probabilidade de que um graduado seja aprovado? Exercício Um analista de investimentos coleta dados sobre ações: informações sobre o pagamento ou não de dividendos e o crescimento ou não do preço dessas ações para um dado período. Os dados estão na tabela a seguir. a. Se uma ação for selecionada ao acaso dentre as 246 da lista do analista, qual é a probabilidade de que o preço tenha subido? b. Se uma ação for selecionada ao acaso, qual é a probabilidade de que ela pagou dividendos?c. Se uma ação for selecionada aleatoriamente, qual é a probabilidade de que o preço subiu e pagou dividendos? d. Qual é a probabilidade de que uma ação selecionada aleatoriamente não tenha pago dividendos nem tenha subido o preço? e. Dado que o preço de uma ação subiu, qual a probabilidade de que ela também tenha pago dividendos? f. Se for conhecido que uma ação não pagou dividendos, qual a probabilidade de seu preço ter subido? g. Qual a probabilidade de uma ação selecionada aleatoriamente ter sido um bom negócio, ou seja, ter subido de preço e/ou pago dividendos? Preço subiu Preço não subiu Total Dividendo pago 34 78 112 Dividendo não pago 85 49 134 Total 119 127 246 20 Exercício Em um artigo sobre o crescimento do investimento, a revista Money informou que as ações de companhias farmacêuticas mostram tendências excelentes de longo prazo e oferecem aos investidores potencial incomparável de ganhos altos e constantes. O Health Care Financing Administration fundamenta essa conclusão por meio de sua previsão de que os gastos anuais com prescrição de medicamentos atingirão 366 bilhões de dólares em 2010, acima dos US $ 117 bilhões de dólares em 2000. Muitos indivíduos com 65 anos ou mais dependem fortemente de medicamentos prescritos. Para esse grupo, 82% tomam medicamentos regularmente, 55% tomam pelos menos 3 medicamentos e 40% consomem cinco ou mais remédios. Em contraste, 49% das pessoas com menos de 65 anos de idade tomam remédios regularmente, com 37% tomando pelo menos 3 drogas 28% com cinco ou mais drogas (Money, Setembro de 2001). O censo dos EUA mostrou que dos 281.421.906 de pessoas nos Estados Unidos, 34.991.753 tem pelo menos 65 anos (EUA Census Bureau, Censo 2000). a. Calcule a probabilidade de que uma pessoa escolhida ao acaso nos Estados Unidos tenha 65 anos ou mais. b. Calcule a probabilidade de que uma pessoa toma medicamentos regularmente. c. Calcule a probabilidade de que uma pessoa escolhida ao acaso tenha 65 anos ou mais e toma cinco ou mais drogas. d. Dado que uma pessoa usa cinco ou mais prescrições, calcular a probabilidade de que a pessoa tem 65 anos ou mais. Teorema de Bayes No exemplo do semicondutor, F é o evento posterior e A e o evento anterior e sabemos P(F/A) Mas podemos estar interessados em saber o seguinte: se o chip no produto falhar, qual é a probabilidade que tenha sido exposto a altos níveis de contaminação, ou seja P(A/F)? Observe que sabemos P(F/A), P(F/A´), P(A) e P(A´). Com isso podemos calcular P(F). Mas queremos calcular P(A/F) O Teorema de Bayes permite realizar esse cálculo 21 Teorema de Bayes Sejam A e B dois eventos � -/9 = � 9/- �(-)�(9) ���� � 9 > 0 P(A) é a probabilidade à priori e P(A/B) é a probabilidade à posteriori Extensão do Teorema de Bayes Se E1, E2, ..., Ek forem eventos mutuamente excludentes e exaustivos e B um evento qualquer então � �/9 = ? @/AB ?(AB)? @/AC ? AC D? @/AE ? AE D⋯D? @/AG ?(AG) ���� � 9 > 0 Teorema de Bayes No exemplo do semicondutor, F é o evento posterior e A e o evento anterior e sabemos P(F/A) Aplicando o Teorema de Bayes temos � -/H = � H/- �(-)�(H) = 0.10 ∗ 0.20 0.024 = 0.83 22 Exercício Um banco estava interessado em rever sua política em relação ao produto “cartão de crédito” com a intenção de cancelar os cartões de alguns clientes. No passado, aproximadamente 5% dos portadores de cartões ficaram inadimplentes e o banco não pode cobrar o saldo devedor. Assim, a administração estabeleceu probabilidade à priori para a inadimplência de qualquer cliente igual a 0,05. O banco também descobriu que a probabilidade de não pagamento em um determinado mês é de 0,20 para os clientes adimplentes. Claro que, para um cliente inadimplente, a probabilidade de não pagamento em um mês é 1. a. Dado que um cliente deixou de pagar pelo menos um mês, compute a probabilidade à posteriori de que um cliente vire inadimplente. b. O banco gostaria de cancelar o cartão caso a probabilidade de que um cliente vire inadimplente seja maior do que 0.2. O banco deveria cancelar o cartão caso o cliente deixe de realizar o pagamento de um mês? Por quê? Exercício Em cirurgias de transplante de coração há risco de que o corpo rejeite o coração transplantado. Um novo teste foi desenvolvido para detectar os primeiros sinais de que o corpo possa rejeitar o coração transplantado. No entanto, o teste não é perfeito. Quando o teste é realizado em alguém cujo coração será rejeitado, cerca de dois em cada dez testes serão negativos (falso negativo). Quando o teste é realizado em uma pessoa cujo coração não será rejeitado, 10% irá mostrar um resultado positivo (falso positivo). Os médicos sabem que em cerca de 50% dos transplantes de coração o corpo tenta rejeitar o órgão transplantado. a. Suponha que o teste foi realizado em uma pessoa submetida ao transplante e o teste foi positivo (indicando sinais de alerta precoce de rejeição). Qual é a probabilidade de que o corpo está propenso a rejeitar o coração? b. Suponha que o teste foi realizado e o resultado é negativo (indicando que não há sinais de rejeição). Qual é a probabilidade de que o corpo está propenso a rejeitar o coração? 23 Distribuições de probabilidade Variáveis aleatórias � Uma variável aleatória (v.a.) é uma função que atribui um número real a cada resultado do espaço amostral de um experimento aleatório � Variável aleatória discreta � Assume valores em um conjunto finito ou infinito enumerável � Variável aleatória contínua � Assume valores em um intervalo finito ou infinito de números reais � Notação: em geral a v.a. é denotada por uma letra maiúscula do final do alfabeto (X, Y, Z, …); 24 Exemplo Um banco classifica seus clientes como “rentável”, “neutro”, “não rentável”. Na base de clientes, a proporção é a seguinte: Classificação Porcentagem R 50% N 40% NR 10% Seja X a v.a. definida como: 1 se cliente é R; 0 se cliente é N e -1 se cliente é NR. Distribuição de X: X Prob -1 0.1 0 0.4 1 0.5 Distribuição de probabilidade discreta � Exemplo: em um censo é coletado o número de filhos do casal � Para uma família escolhida ao acaso, qual a probabilidade que ela tenha 2 filhos? Nº de Filhos %. 0 10% 1 30% 2 35% 3 20% 4 5% 25 Distribuição de probabilidade discreta Para uma variável aleatória discreta X com valores x1, x2, ..., xn a distribuição de probabilidade é dada por K(L�) = �(M = L�) A distribuição de probabilidade satisfaz � K L� = 1 Distribuição de probabilidade discreta � Seja M o número de filhos do casal; � M = {0, 1, 2, 3, 4} � �(M = L�) = {0.1, 0.3, 0.35, 0.20, 0.05}, para L� = {0, 1, 2, 3, 4} � M é uma v.a. discreta � ∑� M = � = 1 26 Distribuição de probabilidade discreta � Distribuição de probabilidade da variável aleatória M X 0 1 2 3 4 Soma P(X=xi) 0.10 0.30 0.35 0.20 0.05 1 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 P( X) 0 1 2 3 4 X Distribuição: Número de filhos 27 Média e variância populacional Média ou valor esperado Seja M v.a. discreta com distribuição {L� , �(L�); � = 1,2,… �}, onde �(L�) = �(M = L�) então, E X = Té���(M) = ∑(V���� × ���X�X�������), ou M = Y =�L�� L� Z ��� 28 Exercício Calcule o valor esperado da variável aleatória M que representa o número de filhos do exemplo anterior X 0 1 2 3 4 Soma P(X) 0.10 0.30 0.35 0.20 0.05 1 Exercício Calcule o valor esperado da variável aleatória M que representa os resultados de um dados honesto X 0 1 2 3 4 5 6 Soma P(X) 1/6 1/6 1/6 1/6 1/6 1/6 1/6 1 29 Exercício Seja M uma v.a. discreta que representa o número de carros vendidos por dia em uma revendedora, cuja distribuição de probabilidades é dadapor Calcule (M) Distribuição do número de carros vendidos por dia x 0 1 2 3 4 5 Total P(x) 0.10 0.10 0.20 0.30 0.20 0.10 1.00 Interpretação do valor esperado � Suponha que você invista no mercado de ações e M seja a variável aleatória que representa o resultado desse investimento; � M = {−27, 120}; Ganho (g) 120,00 -27,00 Total P(g) 0.20 0.80 1.00 gP(g) 24,00 -21,60 2.40 30 Exercício Um sistema de radar é programado para registrar automaticamente a velocidade de todos os veículos trafegando por uma avenida, onde passam em média 300 veículos por hora, sendo 55 km/h a velocidade máxima permitida. Um levantamento estatístico dos registros do radar permitiu a elaboração da distribuição percentual de veículos de acordo com sua velocidade aproximada. A velocidade média dos veículos que trafegam nessa avenida é de: (a) 35 km/h (b) 44 km/h (c) 55 km/h (d) 76 km/h (e) 85 km/h Exercício Uma empresa de seguros vende uma apólice para 1500 proprietários de um modelo de bicicleta mountain bike que protege contra roubo por dois anos. O custo de reposição dessa bicicleta é $300.00. Suponha que a probabilidade de um indivíduo ser roubado durante o período de proteção é 0.15. Assuma que a probabilidade de mais de um roubo por indivíduo é zero e que os eventos são independentes. a. Qual é o preço de venda da apólice para que haja um equilíbrio para a empresa(ganho zero, perda zero)? b. Se a probabilidade de roubo for 0.10, qual é o ganho esperado por apólice dado o valor de venda determinado em (a)? 31 Aplicação do valor esperado em processos decisórios Uma fábrica de móveis deve decidir se realiza uma ampliação da capacidade instalada agora ou se aguarda mais um ano. Uma análise econômica diz que se ela expande agora e as condições econômicas permanecerem boas, ela realizará um lucro de R$328.000,00 no próximo ano; caso haja uma recessão, ela terá um prejuízo de R$80.000,00. Se ela adia a expansão para o próximo ano, ela terá um lucro de R$160.000,00 se as condições permanecerem boas e terá um lucro de R$16.000,00 se houver recessão. Se as chances de que ocorra uma recessão é de 2/3, qual é a decisão que maximiza seu lucro? Propriedades da média � Seja � e X duas constantes e M e \ duas variáveis aleatórias. Então: A. (�) = � B. (XM) = X (M) C. (� + M) = � + (M) D. (�M + X\) = � (M) + X (\) 32 Variância Fornece uma medida de dispersão (variação) dos valores em torno da média a�� M = b2 = � L� − Y 2� L� c��V������ã� M = b = a�� M Pode-se mostrar que a�� M = M2 − M 2 onde M2 = ∑ L�2� L� Propriedades da variância � Seja a e b duas constantes e M e \ duas variáveis aleatórias. Então: A. a�� M ≥ 0 B. a��(�) = 0 C. a��(� + M) = a��(M) D. a��(XM) = X2a��(M) E. a�� � + XM = X2a�� M F. a�� M ± \ = a�� M + a�� \ , �� M � \ �ã� �����í���i������ ������������� 33 Exercício Um sistema de envasamento consiste em encher um vidro com líquido. Os vidros utilizados tem peso médio de 20g e desvio padrão 0.5g. A quantidade de líquido em peso que é colocada no litro pode ser regulada, sendo o valor nominal igual a 185g. O desvio padrão do sistema de envasamento é 2g. Qual é o peso médio e o desvio padrão do vidro cheio? 34 Modelos probabilísticos Introdução Modelos são utilizados em todos os campos da ciência. Devem simplificar a realidade ao mesmo tempo que representam suas principais características. “Todos os modelos estão incorretos, mas alguns são úteis” (George Box) 35 Distribuição Discreta Uniforme O modelo mais simples de distribuição discreta é o uniforme f(x) = 1/n sendo n= número de valores que a variável aleatória pode assumir Ensaios de Bernoulli a) Em cada ensaio podem ocorrer somente dois resultados possíveis (Sucesso (S) e Fracasso (F)). b) Para cada ensaio, a probabilidade de que ocorra um Sucesso, denotada por �(�), é a mesma, e é denotada por p, ou seja, �(�) = �. A probabilidade de um Fracasso, �(H), é dada por 1 − �, ou seja, �(H) = 1 − �. A quantidade 1 − � é denotada por j. Temos então � + j = 1. c) Cada ensaio é independente. Considere � repetições sucessivas de um ensaio (ou teste) com apenas dois resultados possíveis que respeite as seguintes regras: 36 Ensaios de Bernoulli Se associarmos ao evento S o valor e 0 ao valor F a distribuição de probabilidade de X é Além disso: a) (M) = 0 ∗ (1 − �) + 1 ∗ � = � b) a�� M = M2 − M 2 = 02 ∗ 1 − � + 12 ∗ � + �2 = �(1 − �) X P(X) 0 1-p 1 p Experimento Binomial Um experimento Binomial obedece as seguintes propriedades 1. O experimento consiste de um sequencia de n ensaios idênticos 2. Dois resultados são possíveis em cada ensaio: Sucesso e Fracasso (Ensaio de Bernoulli) 3. p=P(S) não muda de ensaio para ensaio 4. Os ensaios são independentes 37 Distribuição Binomial Considere um experimento Binomial Seja X o número de Sucessos nos n ensaios A variável M pode assumir os valores 0,1,2, . . , �. Então, � M = � = �� � 1 − � Z onde � � = Z! ! Zm !, para � = 0,1,2, … , � Denotamos M~9�� �, � Triangulo de Pascal Linha 0 1 1 1 1 2 1 2 1 3 1 3 3 1 4 1 4 6 4 1 5 1 5 10 10 5 1 6 1 6 15 20 15 6 1 7 1 7 21 35 35 21 7 1 8 1 8 28 56 70 56 28 8 1 9 1 9 36 84 126 126 84 36 9 1 10 1 10 45 120 210 252 210 120 45 10 1 38 Triangulo de Pascal 0 10 20 30 40 50 60 0 1 2 x_2 0 5 10 15 20 25 30 35 0 1 2 3 4 5 6 x_6 0 5 10 15 20 25 30 0 1 2 3 4 5 6 7 8 9 10 x_10 0 5 10 15 20 x_20 Propriedades da B(n,p) 1. M = Y = �� 2. a�� M = b2 = �� 1 − � Se definirmos po= ∑ Xi n =Xp, então 1. �̂ = Mr = � 2. a��(�̂) = a�� Mr = s(�ms) Z 39 Exercício � Um gerente de conta especial faz vinte ligações por dia para clientes para oferecer um novo produto. � De experiência passada ele estima que a chance de vender o produto para um cliente é 0.10 � Se sua meta diária é realizar 4 vendas, qual é a probabilidade que ele atinja a meta em um determinado dia? � Qual é o número médio de vendas que ele realiza por dia? � Qual é o desvio padrão do número de vendas? � Qual é o valor mais provável de venda? Distribuição de Poisson a) Independência: o número de vezes que S ocorre em qualquer intervalo de tempo é independente do número de ocorrências de S em qualquer outro intervalo de tempo disjunto. b) Falta de agrupamento: a chance de duas ou mais ocorrências de S simultâneas pode ser assumida como sendo zero. c) Razão: a número médio de ocorrências de S por unidade de tempo é uma constante, denotada por l, e ela não muda com o tempo. Um evento S ocorre no tempo (ou espaço) obedecendo os seguintes postulados: 40 Distribuição de Poisson Seja X o número de ocorrências de S por unidade de tempo. Se os postulado anteriores são válidos, então M~� t e � M = L = � utv L! , L = 0,1,2, . . . onde t é o parâmetro que indica o número médio de ocorrências de X em um intervalo de tempo unitário Propriedades da Distribuição de Poisson 1. M = t 2. a�� M = t2 41 Exercício Durante a segunda guerra, Londres foi bombardeada por aviões alemães. Para verificar se os alemães estavam atirando bombas com informações sobre alvos o sul de Londres foi divido em 576 quadrados, cada um com ¼ de milha quadrada. O número de bombas que caiu em cada quadrado foi anotado e está na tabela seguinte. Pode-se concluir que os alemães estavam atirando bombas ao acaso?K (n de bombas) 0 1 2 3 4 ≥ 5 Nk (n de quadrados 229 211 93 35 7 1 Exercício� Faça um gráfico de barras do número de bombas por quadrado. Use a frequência relativa como altura da barra. � Aplique a distribuição de Poisson para o número de número de bombas por quadrado. � Calcule a frequência predita pela distribuição de Poisson � Compare a frequência observada com a frequência esperada e discuta se a distribuição de Poisson é apropriada para essa situação � Escolhida aleatoriamente uma região, determine a probabilidade dela ter sido atingida por exatamente duas vezes? 42 Exercício � Ao enlatar leite em pó, é necessário acrescentar um dosador. A não inclusão do dosador é considerada uma falha. O número de falhas que ocorrem em um lote produzido tem distribuição de Poisson com número médio de falhas igual a 5. 1. Qual é a probabilidade que em um lote: a) Uma lata esteja sem o dosador? b) Duas ou mais latas estejam sem o dosador? 2. Qual é o número mais provável de falhas que ocorrem em um lote? Aproximação da Binomial pela Poisson Quando � é grande e � é pequeno 9�� �, � ≈ � �� � M = L = �L �v 1 − � v ≈ �mZs �� v L! 43 Exercício O número de clientes especiais , digamos, N, que solicitam atendimento por dia segue a distribuição de Poisson com parâmetro λ=2. As atuais instalações de atendimento especial podem atender a três clientes por dia. Se mais de três clientes solicitarem atendimento o quarto em diante não será atendido, o que pode impactar de forma negativa o negócio. 1. Em um dia, qual é a probabilidade de ter clientes não atendidos? 2. De quanto deverão ser aumentadas as instalações atuais para que todos os clientes possam ser atendidos em 90% dos dias? 3. Qual é o número médio de clientes que solicitam serviços por dia? 4. Qual é o número mais provável de clientes que solicitam serviços por dia? 5. Qual é o número médio de clientes atendidos por dia? Exercício Uma empresa de seguros vende uma apólice para 1500 proprietários de um modelo de bicicleta mountain bike que protege contra roubo por dois anos. O custo de reposição dessa bicicleta é $300.00. Suponha que a probabilidade de um indivíduo ser roubado durante o período de proteção for 0.15. Assuma que a probabilidade de mais de um roubo por indivíduo é zero e que os eventos são independentes. 1. Qual é o preço de venda da apólice para que haja um equilíbrio para a empresa(ganho zero, perda zero)? 2. Se a probabilidade de roubo for 0.10, qual é o ganho esperado por apólice dado o valor de venda determinado em (a)? 44 Exercício Considere o exemplo do leite em pó enlatado com dosador discutido anteriormente. Considere que o lote é formado por 10.000 latas e que o processo de enlatar é tal que a probabilidade que uma lata esteja sem dosador é 0.0005. Qual é a probabilidade que em um lote uma lata esteja sem o dosador utilizando o modelo binomial? E utilizando o modelo de Poisson? Distribuição Hipergeométrica Considere uma população com N indivíduos sendo que r indivíduos são Sucesso (S) e (N-r) são Fracasso (F). Uma amostra aleatória sem reposição de tamanho n é retirada. Seja X o número de indivíduos S na amostra Os valores possíveis de X são: 0, 1, 2, ..., min{n,r} A distribuição de X é dada por �(M = L) = � L x − � � − Lx � 45 Distribuições de variáveis aleatórias contínuas Variável aleatória contínua Em um Call Center o tempo de atendimento de um cliente é monitorado. Os valores possíveis são em princípio, infinitos dentro de um intervalo (a,b), a<b). Nesse caso, não faz sentido perguntar qual é a probabilidade de que o tempo de atendimento seja igual a um valor to . Na realidade, essa probabilidade é igual a zero O que se pode perguntar é qual é a probabilidade que o tempo de atendimento esteja dentro de um intervalo (x,y), ou seja, P(x<t<y) 46 A figura abaixo mostra o histograma de amostras de tamanho 20, 100, 1000 e 10000 da mesma distribuição com uma função contínua f(x) aproximando o histograma. Observe que quanto maior o tamanho da amostra, melhor a aproximação. A porcentagem de valores abaixo de 9 é aproximada pela área sob a curva à esquerda de 9. Quanto maior o tamanho da amostra, melhor a aproximação %(t < 9) ≅ | K L �L}m~ Exemplo Valores % de valores (histograma) Probabilidade (distribuição) (Y < 60) � \ < 60 = 0.185 P(Y < 60) = 0.167 (Y >70 � \ > 70 = 0.140 P (Y > 70) = 0.146 60 ≤ y ≤70 � 60 ≤ ≤ 70 = 0.675 P(60 ≤ y ≤70) = 0.687 47 Função densidade de probabilidade � Propriedades da fdp 1. K L ≥ 0, ∀ L 2. A área sob a curva definida por f(x) é igual a 1, ou seja, K L �L = 1 ~ m~ 3. �(� ≤ L ≤ X) = á��� ��X � i��V� ����� �� ������ � � X, ou seja, K L �L Função distribuição acumulada � Se M é um v.a. contínua a função de distribuição acumulada (fda) é H(L) = �(M <= L). � Propriedades 1. H(L) é uma função não decrescente de L 2. H −∞ = 0 3. H ∞ = 1 48 Média e variância de v.a. contínuas � Uma variável aleatória contínua M, em geral, também tem uma média e uma variância com o mesmo significado e as mesmas interpretações discutidas anteriormente para o caso discreto, mas o seu cálculo envolve integrais e não serão objeto de nosso trabalho aqui. � Para as distribuições que estudaremos aqui, a média e a variância serão fornecidas em cada caso. A distribuição Normal (Gaussiana) Dentre as muitas distribuições contínuas usadas em estatística, a mais importante é a Distribuição Normal ou Gaussiana. Ela tem a forma de um sino e está associada com os nomes de Pierre Laplace e Carl Gauss. Seu estudo remonta ao século XVIII 49 A distribuição Normal (Gaussiana) � Importância � O “efeito central do limite”. � A robustez ou insensibilidade dos procedimentos estatísticos mais comumente usados a desvios da suposição de distribuição normal. O Efeito Central do Limite � Seja o erro “total” de medição � Sob certas condições, geralmente encontradas no mundo da experimentação, podemos escrever como a soma dos seus componentes = ��� + ⋯ + �ZZ � Exemplo: � : ���� �� ����çã� �� ������ �� ��� ������ � �: ���� �� ��������� � 2: ���� ����í��i� � : ���� �� ������� �� ����çã� � etc... 50 O Efeito Central do Limite Se a porcentagem individual de contribuição é pequena e o número de componente é grande, a distribuição dos erros tende a ser normal O Efeito Central do Limite - exemplo Distribuição da média dos resultados de lançamento de n dados. A distribuição de médias de amostras pode ser aproximada pela Distribuição Normal 51 Teorema Central do Limite n X X n 1i i∑ = = Resultado Importante: Seja X1, X2, ..., Xn uma amostra aleatória de uma variável aleatória X com média µ, variância σ2 e distribuição F(x) e seja a média da amostra Então a distribuição de X-barra converge para a distribuição Normal com média µ e variância σ2/n, ou seja, ) , N(X 2 n σµ≈ Procedimentos robustos derivados da suposição de normalidade � Muitas técnicas estatísticas são derivadas da suposição de normalidade das observações originais. � Em muitos casos, aproximação, em vez de normalidade exata, é tudo que se requer para que estes métodos sejam aplicáveis. � Considerando isto, eles são ditos robustos à não- normalidade. � Desta forma, a menos que seja especificamente alertado, não se deve ter excessiva preocupação acerca de normalidade exata. 52 Distribuição Normal Muitas características de qualidade contínuas tem distribuição razoavelmente simétrica e podem ser aproximadas por uma curva em forma de sino conhecida como Curva Normal, que corresponde à distribuição Normal ou Gaussiana; D e n s it y 2072052042032022012001991981971961950.4 0.3 0.2 0.1 0.0 Normal Definição de uma Curva Normal Toda Curva Normal é definida por dois números: 1) Média: medida do centro. 2) Desvio padrão: medida de dispersão. 53 Distribuição Normal Utilizamos a notação M~x Y, b2 A fdp de X é dada por K L = 12b2 � m �2E vm E −∞ ≤ L ≤ ∞, −∞ ≤ Y ≤ ∞, b2 > 0 Propriedades da Distribuição Normal Para qualquer Distribuição Normal temos: 54 Cálculo de probabilidades com a curva normal Quando X~x(0,1), chamamos distribuição normal padrão e as probabilidades encontram-se tabeladas Softwares, como o Excel, também possuem fórmulas que realizam esse cálculo 55 Cálculo de probabilidades com a x Y, b2 Seja M~x Y, b2 Considere = m . Pode-se mostrar que tem distribuição normal e = M − Yb = 1 b M − Y = 0 a�� = a�� M − Yb = 1 b2 a�� M = b2 b2 = 1 Portanto, ~x 0,1 56 Cálculo de probabilidades com a x Y, b2 Se quisermos calcular �(M < X) fazemos � M < X = � M − Yb < X − Y b = � < onde = m Procuramos na tabela x(0,1) o valor Exemplo 92%0.919240.000000.91024 4.6)P(Z1.4)P(Z1.4)Z4.6P( 0.0005 0.2508-0.2515Z 0.0005 0.2508-0.2485P0.2515)XP(0.2485 ≅=− −≤−≤=≤≤− ≤≤=≤≤ O diâmetro de uma peça pode ser aproximado pela distribuição Normal com média 0.2508 e desvio padrão 0.0005. A especificação para do diâmetro da peça é 0.2500±0.0015. Qual é a proporção de peças que são produzidas dentro da especificação? 57 Exercício As notas atribuídas em um teste seguem uma distribuição normal com média 14 e desvio padrão 2 M~x 14,22 . Se as pessoas que tem nota menor ou igual a 11 são reprovadas, qual é a porcentagem de pessoas reprovadas? Exercício Uma máquina enlata leite evaporado. O peso líquido de cada lata tem distribuição normal com média 273,3 g e desvio padrão 3,9 g. Se o limite inferior de especificação é 264,3 g, qual é a porcentagem de latas que são produzidas fora de especificação? 58 Propriedade da distribuição Normal O seguinte resultado é útil quando temos de trabalhar com a soma de duas ou mais variáveis aleatórias Normais. Se Xi ~ N(μi,σi 2) , i=1,2,...,n são variáveis aleatórias independentes e a1, a2, ... an constantes. Então Σ aiXi ~ N(Σai μi , Σai 2 σi 2) ou seja, a combinação de variáveis com distribuição Normal também tem distribuição Normal. Propriedade da distribuição Normal Se ai =1/n e se os Xi’s forem identicamente distribuídos, então n σ)XD.P.( n σ n nσ σ n 1 σa)XVar( µ n nµ µ n 1 µa)XE( XX n 1X n 1Xa 2 2 2n 1i 2 2 n 1i 22 i n 1i n 1i i n 1i i n 1i i n 1i ii = ==== ==== === ∑∑ ∑∑ ∑∑∑ == == === 59 Exercício O peso bruto de um produto é a soma do peso líquido mais o peso da embalagem. Suponha que a máquina que embala o produto é tal que o peso líquido colocado na embalagem tem distribuição Normal com média igual a 300 g e desvio padrão igual a 2 gramas. O peso da embalagem tem distribuição Normal com média igual a 5 g e desvio padrão igual a 0.5 g. Qual é a distribuição do peso bruto do produto? Qual dos dois processos é mais preciso? Aproximação da Binomial pela Normal Se M é uma variável aleatória com distribuição 9��(�, �), temos que Y = �� e b2 = ��(1 − �). Então = M − ���� 1 − � ~x 0,1 Observações: 1. Esse resultado é uma aplicação do Teorema Central do Limite exposto anteriormente. 2. Essa aproximação é tão mais acurada quanto maior for o valor de n e quanto mais próximo de 0.5 estiver o valor de p. 60 Exercício 1. Se 20% das peças produzidas por uma máquina forem defeituosas, utilizando a aproximação da Binomial pela Normal, qual é a probabilidade que em uma amostra aleatória de 100 peças não mais que 15 serão defeituosas. 2. Compare com o valor que seria obtido se utilizássemos a distribuição Binomial � M ≤ 15 = � 100� 0.2 0.8 �m = 0.1285 � � Distribuição exponencial A distribuição exponencial é muito utilizada quando trabalhamos com tempo para ocorrência de um evento, por exemplo, tempo para atendimento de uma chamada) K L = �mv, onde x ≥0 1086420 2.0 1.5 1.0 0.5 0.0 X D e n s it y 0.5 1 2 Alfa Distribution Plot Exponential 61 Distribuição exponencial A função distribuição acumulada é dada por: H L = � M ≤ L = 1 − �mv ⁄ 1086420 1.0 0.8 0.6 0.4 0.2 0.0 x F( x ) Distribuição Exponencial: Função Distrib. Acum. Distribuição exponencial Propriedades: Se M~ L� , então: M = � a�� M = �E 62 Relação entre a Poisson e a Exponencial Quando usamos a distribuição de Poisson para modelar, por exemplo, o número de ligações em um intervalo de tempo é possível mostrar que o tempo entre duas ligações sucessivas terá distribuição exponencial, ou seja, sob certas condições: Seja M: o número de chamadas \: tempo entre essas chamadas M~� t ⇔ \~ L� t Exercício Suponha que o tempo entre duas ligações seja modelada por uma distribuição exponencial de parâmetro 1 minuto. Qual a chance de não acontecerem mais do que 3 ligações em um minuto? 63 Propriedade de falta de memória Para uma variável aleatória X com distribuição Exponencial �(M < �� + �2|M > ��) = �(M > ��) Ou seja, a informação de quanto tempo decorreu desde o último evento não afeta a probabilidade de que tenhamos que esperar um tempo maior que t para a ocorrência do próximo evento A distribuição exponencial é a única distribuição contínua com essa propriedade > �� Exemplo Seja X o tempo entre chegadas de um cliente em um banco e considere que X tem distribuição exponencial com parâmetro α=2 minutos. A probabilidade de que chegue um cliente dentre 30 segundos a partir do momento em que começamos a registrar as chegadas é � M < 0.5 = 1 − �m. 2 = 0.22 Suponha agora que estamos esperando há 3 minutos e não chegou nenhum cliente nesse tempo. Qual é a probabilidade que chegue um cliente nos próximos 30 segundos? 64 Exercício 1. O tempo entre chegada de aeronaves em um aeroporto tem distribuição exponencial com parâmetro α = 1 hora. Qual é a probabilidade de que cheguem mais de três aeronaves dentro de um período de uma hora? 2. Uma empresa aérea oferece de tempos em tempos quatro passagens com preço especial. Quando isso ocorre, o tempo entre ligações para comprar passagens tem distribuição exponencial com média de 30 minutos. Assuma que cada chamada compre um bilhete. Qual é a probabilidade que as quatro passagens sejam vendidas em menos de 3 horas desde o anuncio? Lei dos grandes números � Quando estamos nos preparando para estimar Y por meio de Mr, pode ser de interesse estabelece um valor máximo para a diferença entre a estimativa e o parâmetro, para uma dada probabilidade. � A Lei dos grandes números estabelece que para quaisquer > 0 e 0 ≤ ≤ 1 � − ≤ Mr − Y ≤ ≥ 1 − se � é um inteiro tal que � > EE 65 Exercício � Suponha que o interesse seja pesquisar o tempo médio de atendimento de uma determinada central de atendimento e que b2 = 1. Qual o tamanho de amostra necessário para que tenhamos uma probabilidade de pelo menos 0.95 de que Mr esteja a uma distância máxima de 0.5 de Y? Lei dos grandes números � Observação: a lei dos grandes números nos mostra que Mr ⟶ Y quando � ⟶ ∞ 66 Exercício � Uma empresa produz leite enlatado e que o processo é tal que 1% das latas tem peso inferior ao limite. 1. Se uma amostra aleatória de 20 latas é retirada da produção, qual a probabilidade que a) Nenhuma lataesteja com peso inferior ao limite b) Não mais que uma lata esteja com peso inferior ao limite 2. Qual é o número médio esperado de latas com peso inferior ao limite? 3. Qual é o tamanho da amostra para que a amostra contenha em média 1 lata com peso inferior ao limite? 67 Transformação de Variáveis Como saber se a Curva Normal é uma boa aproximação? Uma forma: Olhe o Histograma Distribuição Normal tiempo Fr e q u e n c y 403530252015105 35 30 25 20 15 10 5 0 Mean 20.94 StDev 6.389 N 200 Histogram of tiempo Normal Sim tiempo1 P e rc e n t 15129630-3 30 25 20 15 10 5 0 Mean 1.672 StDev 2.030 N 1000 Histogram of tiempo1 Normal Não 68 35 40 45 50 55 60 65 70 75 0 1 2 3 4 5 6 C1 Fr eq ue nc y 30 35 40 45 50 55 60 65 0 1 2 3 4 5 6 7 8 C2 Fr eq ue nc y 35 40 45 50 55 60 65 0 1 2 3 4 5 6 7 C3 Fr eq ue nc y 25 30 35 40 45 50 55 60 65 70 0 1 2 3 4 5 6 C4 Fr eq ue n cy 35 40 45 50 55 60 65 70 75 0 1 2 3 4 5 6 7 8 9 C5 Fr eq ue n cy 30 35 40 45 50 55 60 65 0 1 2 3 4 5 6 7 C6 Fr eq ue n cy 35 40 45 50 55 60 65 0 1 2 3 4 5 6 7 C7 Fr eq ue nc y 30 35 40 45 50 55 60 65 70 75 0 1 2 3 4 5 6 C8 Fr eq ue nc y 25 30 35 40 45 50 55 60 65 70 0 1 2 3 4 5 6 C9 Fr eq ue nc y Qual delas pode ser aproximada por uma distribuição Normal? Nove Histogramas de amostras de tamanho 25 35 40 45 50 55 60 65 70 75 0 1 2 3 4 5 6 C1 Fr eq ue nc y 30 35 40 45 50 55 60 65 0 1 2 3 4 5 6 7 8 C2 Fr eq ue nc y 35 40 45 50 55 60 65 0 1 2 3 4 5 6 7 C3 Fr eq ue nc y 25 30 35 40 45 50 55 60 65 70 0 1 2 3 4 5 6 C4 Fr eq ue n cy 35 40 45 50 55 60 65 70 75 0 1 2 3 4 5 6 7 8 9 C5 Fr eq ue n cy 30 35 40 45 50 55 60 65 0 1 2 3 4 5 6 7 C6 Fr eq ue n cy 35 40 45 50 55 60 65 0 1 2 3 4 5 6 7 C7 Fr eq ue nc y 30 35 40 45 50 55 60 65 70 75 0 1 2 3 4 5 6 C8 Fr eq ue nc y 25 30 35 40 45 50 55 60 65 70 0 1 2 3 4 5 6 C9 Fr eq ue nc y 30 35 40 45 50 55 60 65 70 75 0 5 10 C11 Fr eq ue n cy 30 35 40 45 50 55 60 65 70 75 0 5 10 15 C12 Fr eq ue n cy 30 40 50 60 70 0 5 10 C13 Fr eq ue n cy 25 30 35 40 45 50 55 60 65 0 5 10 C14 Fr eq ue nc y 20 25 30 35 40 45 50 55 60 65 70 0 1 2 3 4 5 6 7 8 9 C15 Fr eq ue nc y 30 35 40 45 50 55 60 65 70 75 0 5 10 C16 Fr eq ue nc y 20 25 30 35 40 45 50 55 60 65 70 0 5 10 C17 Fr eq ue n cy 30 35 40 45 50 55 60 65 70 0 5 10 C18 Fr eq ue n cy 30 35 40 45 50 55 60 65 70 0 5 10 15 C19 Fr eq ue n cy Qual delas pode ser aproximada por uma distribuição Normal? Nove Histogramas de amostras de tamanho 50 69 20 30 40 50 60 70 80 0 10 20 C21 Fr eq ue nc y 20 30 40 50 60 70 80 0 10 20 C22 Fr eq ue nc y 25 30 35 40 45 50 55 60 65 70 0 10 20 C23 Fr eq ue nc y 30 35 40 45 50 55 60 65 70 75 80 0 10 20 30 C24 Fr eq ue n cy 30 40 50 60 70 80 90 0 10 20 C25 Fr eq ue n cy 20 30 40 50 60 70 80 0 10 20 C26 Fr eq ue n cy 25 30 35 40 45 50 55 60 65 70 75 0 10 20 C27 Fr eq ue nc y 25 30 35 40 45 50 55 60 65 70 75 0 5 10 15 20 25 C28 Fr eq ue nc y 20 30 40 50 60 70 80 0 10 20 C29 Fr eq ue nc y Nove Histogramas de amostras de tamanho 100 Qual delas pode ser aproximada por uma distribuição Normal? Como saber se a Curva Normal é uma boa aproximação? Outra forma: Use o Gráfico Probabilístico Normal Distribuição Normal 70 Use o Gráfico Probabilístico Normal para determinar se a distribuição dos dados da amostra pode ser aproximada por uma Distribuição Normal. Se a Distribuição Normal se ajusta aos dados, os pontos no gráfico seguirão aproximadamente uma linha reta. O eixo Y do gráfico é transformado de acordo com a escala da distribuição Normal Gráfico Probabilístico Normal O Gráfico Probabilístico Normal pode ser obtido facilmente com o recurso de um software de análise estatística Abaixo, vemos o gráfico probabilístico normal para um conjunto de dados X P e rc e n t 3210-1-2-3-4 99 95 90 80 70 60 50 40 30 20 10 5 1 Probability Plot of X Normal - 95% CI Gráfico Probabilístico Normal 71 X Y -1.6245 0.1970 0.4001 1.4920 -1.6631 0.1895 -0.0024 0.9976 -1.9902 0.1367 0.4476 1.5646 -1.0564 0.3477 1.6507 5.2104 -0.6148 0.5408 -0.3855 0.6801 0.6744 1.9629 -0.6713 0.5110 1.2229 3.3969 -0.4550 0.6344 -0.4050 0.6670 -1.0347 0.3553 0.0776 1.0806 -0.1372 0.8718 -1.6101 0.1999 -0.1330 0.8754 0.0685 1.0709 -1.0885 0.3367 0.5012 1.6507 0.2120 1.2362 2.3542 10.5300 0.9572 2.6044 -0.4615 0.6303 1.8076 6.0957 0.7742 2.1689 -0.6469 0.5237 Considere as duas amostras seguintes. Qual pode ser aproximada pela distribuição Normal? P e rc e n t 1050-5 99 95 90 80 70 60 50 40 30 20 10 5 1 1050-5 X Y Probability Plot of X, Y Normal - 95% CI X Y 24 34 44 54 64 74 84 1 5 10 20 30 40 50 60 70 80 90 95 99 Data Pe rc en t Normal Probability Plot for C1 ML Estimates Mean: StDev: 53.4797 9.60017 25 35 45 55 65 75 1 5 10 20 30 40 50 60 70 80 90 95 99 Data Pe rc en t Normal Probability Plot for C2 ML Estimates Mean: StDev: 49.1024 8.04855 25 35 45 55 65 75 1 5 10 20 30 40 50 60 70 80 90 95 99 Data Pe rc en t Normal Probability Plot for C3 ML Estimates Mean: StDev: 51.8801 8.35164 20 30 40 50 60 70 80 1 5 10 20 30 40 50 60 70 80 90 95 99 Data Pe rc en t Normal Probability Plot for C4 ML Estimates Mean: StDev: 48.8893 10.2680 25 35 45 55 65 75 85 1 5 10 20 30 40 50 60 70 80 90 95 99 Data Pe rc en t Normal Probability Plot for C5 ML Estimates Mean: StDev: 54.3933 9.50359 25 35 45 55 65 75 1 5 10 20 30 40 50 60 70 80 90 95 99 Data Pe rc en t Normal Probability Plot for C6 ML Estimates Mean: StDev: 48.9405 8.79949 25 35 45 55 65 75 1 5 10 20 30 40 50 60 70 80 90 95 99 Data Pe rc en t Normal Probability Plot for C7 ML Estimates Mean: StDev: 49.4396 8.98477 20 30 40 50 60 70 80 1 5 10 20 30 40 50 60 70 80 90 95 99 Data Pe rc en t Normal Probability Plot for C8 ML Estimates Mean: StDev: 47.1290 10.6092 20 30 40 50 60 70 80 1 5 10 20 30 40 50 60 70 80 90 95 99 Data Pe rc en t Normal Probability Plot for C9 ML Estimates Mean: StDev: 50.2510 10.4661 Gráficos Probabilísticos para as nove amostras de tamanho25 72 Exemplo � Arquivo: Decisao.MTW � Informações: Uma empresa de crédito mediu, em 100 pedidos de empréstimo, o tempo para decidir sobre a concessão do empréstimo. O tempo foi medido em dias. Instruções: � 1. Faça um histograma do tempo. � 2. Faça o Gráfico Probabilístico Normal do tempo. � 3. A variável tempo pode ser aproximada pela Distribuição Normal? � 4. Analise os dados por estratos (decisão e zona) para verificar se a distribuição é diferente em cada estrato. 73 Distribuição Normal � Muitas técnicas de análise de dados dependem de que a variável sendo analisada possa ser bem aproximada por uma Distribuição Normal � Gráfico de controle de individuais � Índices de Capacidade (Cp, Cpk, Sigma) � Etc. Distribuição Normal � Quais as possíveis razões para que a distribuição de uma amostra de dados não possa ser aproximada por uma Distribuição Normal? � Presença de observações discrepantes (causas especiais) � Os dados da amostra provem de dois ou mais processos diferentes (turno, máquina, operador, etc.) � Os dados seguem outra distribuição que não a Normal � O que fazer? 74 Distribuição Normal � Se há causas especiais, analise-as e verifique se os dados devem permanecer na análise � Se os dados provem de dois ou mais processo ( técnicas gráficas como o histograma ou o dot plot ajudam a apontar se esse é o caso - o histograma apresenta duas ou mais modas) procure por variáveis de estratificação que permitam separar os dados � Se a distribuição é intrinsecamente não Normal, utilize técnicas de transformação de variáveis Transformação de Dados � Uma transformação é uma re-expressão dos dados em outra escala. � Exemplo simples � Transformar Dólares em Reais: � $1 = R$3.03 � Transformar minutos em segundos: � 1 min = 60 segs � Transformar Graus Centígrados em Graus Fahrenheit: � 9/5°C + 32 = °F 75 Transformação de Dados � Transformações Lineares � Transformações lineares tem a seguinte forma: � Y = aX + b; a e b constantes � Se X segue a distribuição Normal, multiplicar ou adicionar constantes não afeta a forma da distribuição; afeta somente a escala Transformação de Dados � Transformações não lineares � Transformações não lineares podem mudar a forma da distribuição. � Exemplo: Transformação Raiz Quadrada Histograma of Y 2 4 6 8 10 12 14 16 18 20 22 0 10 20 Y Fr e qu e n cy Histograma de SQRT(Y) 1 2 3 4 5 0 5 10 15 SQRT(Y) Fr eq u en cy YYT = YT denota a variável transformada 76 Transformação de Dados � Transformação Logaritmo: � A transformação logaritmo é usualmente apropriada para dados de tempo. � Uma unidade na escala logarítmica é igual a um fator de 10 na escala original: Escala original Escala Log 1000 3 100 2 10 1 1 0 0.1 -1 0.01 -2 0.001 -3 Transformação de Dados � Transformações Lineares � Transformações lineares tem a seguinte forma: � Y = aX + b; a e b constantes � Se X segue a distribuição Normal, multiplicar ou adicionar constantes não afeta a forma da distribuição; afeta somente a escala 77 Dados originais Dados Transformados -logaritmo Exemplo Transformação Log � Dados: Decisao.MTW � Relembre que a variável “Tempo” não é Normal � Use a seguinte transformação: YT=log(Y). � Dados originais 0 10 20 30 40 50 60 0 10 20 30 40 Time Fr e qu e nc y -20 -10 0 10 20 30 40 50 1 5 10 20 30 40 50 60 70 80 90 95 99 Data Pe rc en t Normal Probability Plot for Time ML Estimates Mean: StDev: 12.31 9.60801 78 Transformação Log � Faça um histograma e o Gráfico Probabilístico Normal dos dados transformados (Log_Tempo) log_tiempo Fr e q u e n c y 1.61.41.21.00.80.60.4 20 15 10 5 0 Histogram of log_tiempo log_tiempo P e rc e n t 2.01.51.00.50.0 99.9 99 95 90 80 70 60 50 40 30 20 10 5 1 0.1 Mean 0.299 0.9855 StDev 0.2973 N 100 AD 0.432 P-Value Probability Plot of log_tiempo Normal - 95% CI Conclusão: podemos dizer que Log_tempo tem distribuição Normal Transformação de Dados � Como escolher qual transformação é adequada? � Tentar uma transformação dentre um conjunto de possibilidades � Usar a técnica de transformação Box-Cox 79 Transformações Usadas com Freqüência Log(Y) YY Y Raiz Quadrada Logarítmica YYT = Log(Y)YT = Distribuição original Transformação Distribuição da variável transformada Transformações Usadas com Freqüência, cont. Y 1 Y Y Inversa Raiz Quadrada Inversa Y 1YT = Y 1YT = Y 1 Distribuição original Transformação Distribuição da variável transformada 80 Outras Transformações � Dados de classificação - Distribuição Binomial � k = # of unidades defeituosas � n = tamanho da amostra � Use a transformação raiz quadrada do arcoseno de p parcsinYT = n kp = Outras Transformações, cont. � Dados de contagem – Distribuição de Poisson � Use raiz quadrada da contagem: � Se o resultado da contagem é pequeno (c ≤ 10), use: 0.5c YT += cY T = 81 Método de Box-Cox � Método de Box-Cox � Uma transformação potência eleva os valores de Y a uma potência lambda (λ): YT = Yλ � λ é tipicamente um valor entre –2 e 2 � O Método de Box-Cox sugere um valor de λ que melhor aproxima os dados transformados de uma distribuição Normal Método de Box-Cox � A transformação potencia inclui algumas que foram vistas anteriormente � É trabalhoso fazer aplicar o método sem o apoio de um software λλλλ Yλλλλ Nome -2 2Y 1 Inversa ao quadrado -1 Y 1 Inversa -0.5 Y 1 Inversa raiz Quadrada 0 Log(Y) Logarítmica 0.5 Y Raiz Quadrada 1 Sem Transformação 2 Y2 Quadrado 82 Método Box-Cox � Softwares (como o MINITAB) fazem a análise dos dados da amostra e sugerem um valor de lambida. � Escolha um lambida dentro da faixa de valores recomendada (barras vermelhas) � Se possível, escolha um valor que corresponde a um valor da tabela anterior -5 -4 -3 -2 -1 0 1 2 3 4 5 1 2 3 95% Confidence Interval St De v Lambda Last Iteration Info Lambda StDev 0.393 0.450 0.507 0.553 0.553 0.553 Low Est Up Box-Cox Plot for Y Selecionar uma Transformação com Box_Cox � Dados: Decisao.MTW Lambda S tD e v 210-1-2-3-4-5 180 160 140 120 100 80 60 40 20 0 Lower CL Upper CL Limit Lambda 0.000000 (using 95.0% confidence) Estimate -0.189558 Lower CL -0.497419 Upper CL 0.082957 Best Value Box-Cox Plot of Tiempo λ=0 é um valor dentro da faixa sugerida. Use a transformação logaritmo 83 Atividade: Escolher uma Transformação � Um centro de atendimento ao consumidor mediu o tempo para responder e fechar uma reclamação de um cliente. Os dados dos últimos 100 clientes atendidos estão no arquivo de dados reclamacao.mtw � Analise os dados originais. Caso a Distribuição Normal não seja adequada, transforme os dados usando o Método Box-Cox 84 Método Científico O ciclo de aprendizagem “Seres humanos são distintos do resto dos animais pela sua extraordinária habilidade de aprender e inovar” George E. P. Box 85 Como aprendemos? O fundamento de toda ciência é, obviamente, a observação. Oscar Kempthorne Método Científico � O conhecimento é construído com base em teorias � Há três componentes importantes do conhecimento � Os dados da experiência a partir do qual o processo de aquisição de conhecimentose inicia � A predição em termos de dados que se espera obter se realizamos um experimento no futuro � O grau de convicção na predição com base nos dados originais � Nossas teorias precisam ser sistematicamente revisadas e ampliadas por meio das comparações entre predições e observações (aprendizagem indutiva e dedutiva) � O aprendizado das pessoas sobre os processos é realizado de forma mais eficiente e eficaz pelo uso do Método Científico 86 Passos do Método Científico � Observar um evento � Formular uma teoria para a causa do evento � Fazer predições com base na teoria � Testar a teoria através de um experimento � Analisar os resultados do experimento e concluir a respeito da teoria � Relatar os resultados à comunidade científica (publicar o trabalho) ou aplicar o conhecimento obtido em alguma situação de interesse Passos do Método Científico Fonte: Statistics for Experimenters, Box, Hunter & Hunter 87 Passos do Método Científico Fonte: Statistics for Experimenters, Box, Hunter & Hunter Comparação Plano de teste Mundo Observações (dados) Teoria Indução Consequências Dedução Teste Novos dados Comparação com a Teoria Teoria reforçada Teoria modificada Induçã o Dedução 1 2 3 45 6 7 8 Modelo de produção de conhecimento Indução e Dedução 88 Questões Teorias Modelos mentais Conhecimento Intuição Experiência Predições Consequências Testes (Planejamento para coletar e analisar Dados) Análise Reforço ou alteração das teorias e modelos mentais Novos conhecimentos Mais experiência Produção de conhecimento específico Método Científico O ciclo PDSA � O ciclo PDSA é uma adaptação do Método Científico � Foi desenvolvido por Deming e colaboradores a partir de ideias iniciais de Shewhart 89 O Ciclo PDSA Adaptado do livro “Modelo de Melhoria” 90 Estudo de uma população Variável resposta contínua Inferência � Considere uma população ou um processo e uma variável de interesse medida em uma amostra � Os dados da amostra podem ser usados para realizar inferências sobre a população ou o processo � As características (parâmetros) de interesse são em geral � A forma da distribuição da variável � A média � O desvio padrão 91 Inferência sobre a forma � O objetivo é identificar se existe uma distribuição conhecida que pode ser usada para aproximar a distribuição dos valores, como por exemplo a Distribuição Normal, ou Log Normal, ou Weibull � Isso pode ser feito ajustando-se o gráfico probabilístico de uma determinada distribuição aos dados. Caso o gráfico seja aproximadamente uma reta, a distribuição correspondente pode ser usada. Exemplo Chamada Tempo Chamada Tempo Chamada Tempo 1 2.53 11 5.57 21 4.81 2 5.52 12 4.60 22 4.82 3 3.53 13 3.84 23 7.19 4 3.26 14 5.37 24 2.39 5 6.31 15 3.42 25 5.52 6 4.04 16 4.51 26 5.01 7 4.09 17 1.84 27 1.94 8 1.22 18 6.89 28 4.60 9 3.42 19 3.53 29 2.35 10 5.01 20 6.75 30 2.07 Uma empresa monitorou o tempo gasto para atender uma chamada de um cliente em um call center. Trinta atendimentos forma medidos. Os dados obtidos encontram-se na tabela abaixo. 92 Inferência sobre a forma: Ajuste da Distribuição Normal tempo de atendimento P e rc e n t 1086420 99 95 90 80 70 60 50 40 30 20 10 5 1 Mean 4.198 StDev 1.588 N 30 AD 0.222 P-Value 0.813 Probability Plot of tempo de atendimento Normal - 95% CI O gráfico Probabilístico Normal indica que a distribuição Normal é adequada para descrever a distribuição do tempo de atendimento Análise: Gráfico de controle e histograma Observation In d iv id u a l V a lu e 28252219161310741 10 8 6 4 2 0 _ X=4.20 UCL=9.65 LCL=-1.25 I Chart of tempo de atendimento tempo de atendimento P e rc e n t 87654321 30 25 20 15 10 5 0 Mean 4.198 StDev 1.588 N 30 Histogram of tempo de atendimento Normal Não há evidência de que o processo não esteja sob controle O gráfico sugere que a distribuição Normal é adequada para descrever a distribuição do tempo de atendimento 93 Inferência sobre a média e o desvio padrão � A inferência sobre a média e o desvio padrão da população pode ser feita de três formas: � Estimação pontual � Intervalo de confiança � Teste de hipóteses � Obs.: � Essas inferências só fazem sentido se os dados se ajustam a uma distribuição e se o processo está estável � É importante fazer inicialmente o gráfico de controle e em seguida o gráfico probabilístico) Estimação pontual � Representa-se os valores de uma amostra de tamanho n por x1, x2, ... , xn. � A estimação pontual da média e do desvio padrão da população são dados pela média amostral e pelo desvio padrão respectivamente 1n )x(x s :Padrão Desvio n x x :Média 2 i i − − = = ∑ ∑ 94 Intervalo de confiança para a média � A estimação pontual não fornece informação sobre a precisão da estimativa � A precisão de uma estimativa pode ser medida através da margem de erro � A margem de erro da estimativa pontual da média é dada por *2M.E. n s ≅ Intervalo de confiança para a média ) n s *t x , n s *tx( 1)(n0.025,1)(n0.025, −− +− n s *t*2 1)(n0.025, − t0.025,(n-1) é o percentil 2.5% da distribuição t-Student com (n-1) graus de livberdade Um intervalo de confiança de 95% para a média populacional é dado por A amplitude do intervalo de confiança é dada por 95 Intervalo de confiança para o desvio padrão 2 0.975 2 0.025 χ 1)-(n s , χ 1)-(n s X20.025,(n-1) e X20.025,(n-1) são os percentis 2.5% e 97.5% respectivamente da distribuição Qui-quadrado com (n-1) graus de livberdade Um intervalo de confiança de 95% para o desvio padrão populacional é dado por Exemplo 7654321 Median Mean 5.004.754.504.254.003.753.50 1st Q uartile 3.0775 Median 4.3000 3rd Q uartile 5.4075 Maximum 7.1900 3.6055 4.7912 3.4452 4.9665 1.2644 2.1342 A -Squared 0.22 P-V alue 0.813 Mean 4.1983 StDev 1.5876 Variance 2.5205 Skewness 0.026119 Kurtosis -0.694410 N 30 Minimum 1.2200 Anderson-Darling Normality Test 95% C onfidence Interval for Mean 95% C onfidence Interv al for Median 95% C onfidence Interv al for S tDev 95% Confidence Intervals Summary for tempo de atendimento 96 Teste de hipóteses Voz do Processo Exemplo 1: trajeto � Você utiliza um determinado trajeto para o trabalho todos os dias. � Você coleta os tempos de deslocamento dos últimos 2 anos 97 Exemplo 1: trajeto � Um colega lhe propõe um novo trajeto (supostamente mais rápido) � Passo 1: formalização do teste : Y ≥ 30 V�. : Y < 30 Exemplo 1: trajeto � No dia seguinte você utiliza o trajeto sugerido e gasta 29 minutos � Qual a sua decisão? � Devemos coletar mais dados! 98 Exemplo 1: trajeto � 9 observações são coletadas�Mr = 29 � ���i��ã� ≈ � Z¡�¢ ¢£ ¢£ ¤ ¥� ç㦠= � � A precisão de Mr pode ser calculado como b Mr = a�� Mr = a�� 1��M� = b � � Quanto maior a amostra, maior a precisão! Exemplo 1: trajeto � Critério: §∗ = Mr − Y � Precisamos corrigir o critério pela precisão § = Mr − Yb/ � � Supondo b = 1 § = 29 − 301/ 9 = −3 � Qual a sua decisão? § esta suficientemente afastado? 99 Exemplo 1: trajeto � Como visto anteriormente, Mr~x 0,1/3 ⇒ §~x 0,1 � Calculamos �(§ < −3) utilizando a tabela da x 0,1 � Quanto menor for �(§ < −3) maior a evidência de e, portanto, rejeitamos -30 � − V���� = �(§ < −3) = 0.001 Exemplo 1: trajeto � Dessa forma completamos os 4 passos: 1. Teste: : Y = 30 V�. : Y < 30 2. Critério: § = rm/ Z 3. Distribuição de referência: §~x 0,1 4. Nível de significância: � § ≤ −3 = 0.001 100 Exemplo 1: trajeto � Caso b tenha que ser estimado por � = ∑ L� − Mr� − 1 � O critério fica § = Mr − Y�/ � ~�Zm� obs: �Zm�= t de student com � − 1 graus de liberdade Exemplo 1: trajeto � Suponha que na realização dos 9 trajetos os tempos tenham sido: 30.1, 29.7, 27.3, 29.1, 28.3, 28.4, 31.0, 28.1, 29.0 � Nesse caso Mr = 29 � = 1.132 � = Mr − Y�/ � = −2.65 � �© < −2.65 = 0.015 101 Exemplo 1: trajeto � Observação: Uma diferença que é estatisticamente significante pode não ser significante do ponto de vista prático! Teste de hipóteses No exemplo, suponha que o objetivo era que o tempo médio de atendimento fosse igual a 3.50 minutos. O objetivo estava sendo alcançado? Comparação com um valor de referência ou valor nominal Teste de Hipótese Ho: µ0 = 3.50 H1: µ0 ≠ 3.50 n s µy t: testedo Critério 00 − = 102 Teste de hipóteses � Calculando o critério � p-valor = 0.023 � Há evidência para rejeitar H0 � OBS. O gráfico de controle deve ser feito antes do cálculo do p-valor. Caso haja causas especiais atuando no processo, não se deve calcular o p-valor 2.41 30 1.5876 .5034.1983 n s µy t 00 = − = − = Exemplo One-Sample T: tempo de atendimento Test of mu = 3.5 vs not = 3.5 Variable tempo de atendimento N Mean StDev SE Mean 30 4.19833 1.58760 0.28985 95% CI T p (3.60551; 4.79115) 2.41 0.023 103 Passos para se testar hipóteses � Formalização do teste, ou tradução do problema a ser resolvido na forma de um teste de hipóteses: formule as hipótese nula e alternativa (P) � Construção de um critério para realizar o teste (P) � Planeje a coleta de dados (P) � Realize a coleta de dados (D) � Calcule a estatística (critério) (S) � Compare o critério com uma distribuição de referência e calcule a evidência contra a hipótese nula (p-valor – nível de significância) (S) � Decida o que fazer (A) Análise do p-valor � Se o p-valor for menor que 1%, rejeita-se a hipótese nula � Se o p-valor for maior que 10%, não rejeita-se a hipótese nula � Se o p-valor estiver entre 1% e 10%, deve-se considerar outros fatores para se tomar uma decisão, como o risco, custo, etc. Obs. As recomendações acima são as usuais e são adequadas para a maior parte dos casos. Porém, a decisão de rejeitar ou não uma hipótese deve ser feita levando em consideração os riscos e custos associados com a decisão. Significância estatística não é a mesma coisa que importância 104 Análise de Regressão O SIPOC � O SIPOC é uma ferramenta usada para identificar os elementos relevantes de um processo � Aplica-se a todo tipo de trabalho, seja ele repetitivo ou pouco freqüente � Ajuda a ter uma visão macro do processo: � Definindo seus limites (pontos de início e fim); � Permitindo localizar pontos de coleta de dados. 105 O SIPOC � As variáveis medidas no resultado (output) são denotas por Y � As variáveis medidas no processo e nas entradas são denotas por X � Em projetos de melhoria, pode ser necessário entender as relações entre os Y’s e os X´s � Técnicas estatísticas são usadas para entender relações entre variáveis Estudar Relações Entre Variáveis O Variáveis de Input Variáveis de Processo Variáveis de Output PI X1,, X2 , ... , Xk Y Y = f(X1,, X2 , ... , Xk) S C Sistema de Causas 106 Estudo de Relações Entre Variáveis � Passo 1: Classifique as variáveis sob dois critérios: � A variável é Y ou X? � Y: Variáveis de saída do processo cujo comportamento você quer explicar. � Nomenclatura: variáveis resposta, variáveis dependentes � X: 1) Variáveis de processo ou de entrada, candidatas a explicar o comportamento das variáveis resposta. � Nomenclatura: 1) variáveis explicativas, variáveis independentes, fatores; 2) Variáveis de estratificação � A variável é numérica ou categórica? Estudar Relações Entre Variáveis � Passo 2: Identifique a técnica a ser utilizada na tabela abaixo: Y numérica Y categórica X numérica Gráfico de dispersão Gráfico de dispersão estratificado X categórica Dot-plot estratificado Gráfico de Tendência estratificado Tabela de contingência Gráfico de barras 107 Associação entre variáveis Y: Numérica X: Numérica Gráfico de Dispersão Job Tempo_prod N_Setups Job Tempo_prod N_Setups 1 61 6 26 20 4 2 129 14 27 75 10 3 77 5 28 94 12 4 115 8 29 95 7 5 79 8 30 38 7 6 95 10 31 50 6 7 88 9 32 40 3 8 67 8 33 73 10 9 158 12 34 91 11 10 67 5 35 38 4 11 160 13 36 69 6 12 37 7 37 58 7 13 30 2 38 91 14 14 86 9 39 36 7 15 187 15 40 151 10 16 72 8 41 103 9 17 78 8 42 93 8 18 132 14 43 112 11 19 38 6 44 163 12 20 34 5 45 78 9 21 90 7 46 62 8 22 93 11 47 58 8 23 114 8 48 107 9 24 65 5 49 112 7 25 86 12 50 72 10 Uma empresa coletou dados de Tempo para produzir um item e Número de set-ups de 50 linhas de produção . Os dados estão na tabela ao lado. Há alguma relação entre essas duas variáveis? 108 Gráfico de Dispersão Análise de Gráficos de Dispersão � Aspectos a serem observados em m Gráfico de Dispersão � Direção � Forma � Força 109 Coeficiente de correlação linear � Fórmula � -1 ≤ r ≤ 1 � Obs: � O coeficiente r mede o grau de associação linear entre duas variáveis. Valor de r baixo (próximo de zero) não indica que as variáveis não estão relacionadas. Não interprete o valor de r sem o gráfico de dispersão � A interpretação de r (se é alto) depende do contexto ( )( ) ( ) ( )∑∑ ∑ −− −− = 22 yyxx yyxx r ii ii Estudo de Relações O proprietário de uma casa está interessado no efeito do seu aparelho de ar condicionado na conta de luz. Para isso, ele anotou o número de horas que usou o seu aparelho de ar condicionado a cada dia, durante 21 dias. Também monitorou o medidor de consumo de eletricidade durante estes dias e mediu a quantidade de eletricidade usada em quilowatt-hora. Finalmente, anotou também o número de vezes que a secadora de roupas foi usada por dia. Os dados estão na tabela seguinte 110 Dia Kwh AC Dia Kwh AC 1 35 1.5 12 65 8.0 2 63 4.5 13 77 7.5 3 66 5.0 14 75 8.0 4 17 2.0 15 62 7.5 5 94 8.5 16 85 12.0 6 79 6.0 17 43 6.0 7 93 13.5 18 57 2.5 8 66 8.0 19 33 5.0 9 94 12.5 20 65 7.5 10 82 7.5 21 33 6.0 11 78 6.5 Dados do Estudo de Consumo de Energia Elétrica AC K w h 14121086420 100 90 80 70 60 50 40 30 20 10 Scatterplot of Kwh vs AC Correlação entre Kwh e AC : 0.765 Gráfico de Dispersão e Correlação 111 Questões não Respondidas pela Correlação � Do valor de r pode-se concluir que quando o uso do ar condicionado aumenta, o número de quilowatt-hora consumido também aumenta. � Isso não é surpresa. Algumas questões mais importantes são: � Quantos Kwh serão consumidos para cada hora de uso do ar ? � Qual é a previsão de consumo total de quilowatt-hora em um dia com um número especificado de horas de uso do ar condicionado? � Qual é a média estimada do consumo em quilowatt-hora para dias com um especificado número de horas de uso do ar condicionado? � Qual é a margem de erro para o consumo em Kwh predito? � Essas questões podem ser respondidas com a análise de regressão AC K w h 14121086420 100 90 80 70 60 50 40 30 20 10 Scatterplot of Kwh vs AC Gráfico de dispersão
Compartilhar