Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística: Probabilidade e Inferência Ademir José Petenate 2 Este material não pode ser copiado, reproduzido, reimpresso, utilizado em filmes ou gravações de vídeo ou armazenado em dispositivos eletrônicos sem a permissão escrita dos detentores dos direitos de co- pyright. O material não pode ser incorporado em programas de treinamento com exceção da supervisão de algum instrutor da EDTI Consultoria e Treinamento LTDA. Autor: Ademir J Petenate, Escola EDTI Publicado por Escola EDTI® Campinas, São Paulo Impresso no Brasil 3 Sumário Capítulo 1. Estatística Descritiva ............................................................................................................. 6 Variabilidade e Estatística ............................................................................................................ 6 A aquisição dos dados .................................................................................................................. 8 Fonte dos dados .......................................................................................................................... 10 Distribuições .............................................................................................................................. 10 Classificação de Variáveis ......................................................................................................... 13 Descrição de Dados por Gráficos e Tabelas ............................................................................... 16 Medidas de Centralidade ............................................................................................................ 23 Medidas de Variabilidade .......................................................................................................... 28 Box Plot ...................................................................................................................................... 34 Diagrama de Pareto .................................................................................................................... 37 Série de Tempo .......................................................................................................................... 39 Gráfico de Dispersão e o Coeficiente de correlação .................................................................. 43 Capítulo 2. Introdução à Probabilidade ................................................................................................. 49 Introdução .................................................................................................................................. 49 Conceitos de Probabilidade ........................................................................................................ 49 As leis da Probabilidade ............................................................................................................. 51 Probabilidade Condicional e Independência .............................................................................. 52 Distribuição de Probabilidades .................................................................................................. 55 Distribuição de Probabilidade Discreta ...................................................................................... 56 4 Média ou Valor esperado ........................................................................................................... 58 Variância .................................................................................................................................... 62 Capítulo 3. Modelos Probabilísticos ...................................................................................................... 64 Modelos Probabilísticos Discretos ............................................................................................. 64 Ensaios de Bernoulli: Sucesso - Falha ....................................................................................... 65 Distribuição Binomial ................................................................................................................ 66 Distribuição Hipergeométrica .................................................................................................... 69 Distribuição Multinomial ........................................................................................................... 71 A Distribuição Geométrica ........................................................................................................ 71 Eventos raros e a Distribuição de Poisson ................................................................................. 72 Distribuições de Variáveis Aleatórias Contínuas ....................................................................... 75 A Distribuição Normal ............................................................................................................... 80 A Distribuição t de Student ........................................................................................................ 92 Capítulo 4. Estimação e distribuições amostrais.................................................................................... 95 População e Amostra.................................................................................................................. 95 Amostragem e censo .................................................................................................................. 95 Estudos Observacionais ou Dados Históricos ............................................................................ 97 Experimentos Controlados ......................................................................................................... 98 População ................................................................................................................................... 99 Amostra ...................................................................................................................................... 99 Erros amostrais e não amostrais ............................................................................................... 100 Amostragem Aleatória Simples ............................................................................................... 101 5 Procedimentos gráficos para verificar a condição de amostra aleatória simples ..................... 102 Parâmetros e Estatísticas .......................................................................................................... 104 Distribuição Amostral .............................................................................................................. 106 Estatística ................................................................................................................................. 109 Estimação da Média e do Desvio Padrão Populacional ........................................................... 109 Estudos Observacionais ........................................................................................................... 126 Capítulo 5. Testes de Hipóteses ........................................................................................................... 131 Introdução ................................................................................................................................ 131 Testes monocaudal e bicaudal .................................................................................................. 145 Curva Característica de Operação ............................................................................................ 146 Teste de hipóteses para a diferença entre duas médias ............................................................ 148 Amostras Pareadas ...................................................................................................................152 6 Capítulo 1. Estatística Descritiva Variabilidade e Estatística A Estatística é um conjunto de conceitos e técnicas utilizadas no planejamento da coleta de dados e na sua análise, visando resolver problemas reais. Claramente, cientistas, engenheiros, economistas e outros pro- fissionais estão envolvidos com essas atividades, e, portanto, necessitam utilizar a Estatística. Além disso, de uma forma ou de outra, todas as pessoas são afetadas pelo uso da Estatística. Cada vez mais órgãos governamentais e empresas baseiam suas decisões, as quais afetam o dia a dia das pessoas, em análises estatísticas, o que faz com que não só profissionais tenham de adquirir algum conhecimento dessa técni- ca. O que torna essa disciplina de grande utilidade, e única, é que sua aplicação ocorre em situações ou pro- cessos onde a incerteza e variabilidade estão presentes. Um processo é definido como uma combinação de pessoas, materiais, procedimentos, métodos, políticas e meio ambiente que combinados formam uma série de ações que conduzem a um determinado resultado. Em nosso caso, o resultado é um produto ou serviço. Para avaliar a utilidade de um produto para o consumidor, características de qualidade são medi- das no produto. Dois itens produzidos nas mesmas condições não são, em geral, idênticos, com respeito às características de qualidade consideradas. Existe uma variabilidade inerente em cada processo Os mé- todos estatísticos são desenvolvidos para lidar com a incerteza e a variabilidade. Eles são fundamentais para se fazer inferências sobre processos a partir de uma amostra de uma população. Considere exemplos de algumas áreas de atividade: • Processos econômicos: renda familiar, índice de inflação, taxa de juro, etc. • Processos industriais: porcentagem de peças defeituosas, diâmetro de peças, rendimento de um processo industrial, etc. 7 • Processos biológicos: pressão arterial, número de espécies, tempo de vida, etc. Em todas as situações descritas acima o que obtemos são respostas, as quais podem assumir dife- rentes características: podem ser resultados numéricos (renda familiar, tempo de sobrevivência) ou sim- plesmente resultados qualitativos (opção partidária, local de nascimento, sobrevivência ou não de um animal, etc.). Para avaliar a performance do processo e a qualidade do que se está produzindo é necessário cole- tar dados sobre o processo ou produto. Os dados devem ser analisados e decisões devem ser feitas com respeito ao processo, e essas decisões devem ser tomadas na presença de variabilidade. A Estatística é a ferramenta adequada para se planejar a coleta de dados que sejam relevantes para o problema em estudo, bem como para analisá-las. Se o sistema de medidas tem resolução suficiente, todas as medidas apresentam variabilidade. Existem muitas razões para a presença dessa variabilidade. Por exemplo, a variabilidade pode surgir porque as condições em que um produto é fabricado variam ao longo do tempo. Essa variabilidade pode se originar por variações na matéria prima, diferenças entre as máquinas, entre operadores, entre condições de operações (temperatura, umidade, pressão). Parte da variabilidade pode ser originária do próprio sistema de medição utilizado. Instrumentos de medição de baixa precisão ou entrevistadores mal treinados são alguns exemplos. Esta variabilidade é chamada de variabilidade devida ao processo de me- dição. Para exemplificar a diferença entre a variabilidade devida ao processo de produção e a variabili- dade devido ao processo de medição considere o seguinte exemplo. Dez peças são produzidas e o diâme- tro de cada peça é medida. Supondo que não há erro de medição envolvido, as 10 medidas apresentam va- riabilidade que é devida ao processo de produção. Se agora uma peça é selecionada e medida dez vezes com uma régua escolar, as dez medidas quase certamente apresentarão variabilidade devido à baixa preci- são do instrumento de medida utilizado. Se agora medimos as dez peças com a régua escolar, as medidas apresentam variabilidade que reflete uma combinação entre variabilidade de processo e de instrumento. É necessário entender, quantificar e dominar essa variabilidade. 8 A aquisição dos dados A análise estatística depende fundamentalmente de observações ou medidas. Nós nos referimos a essas observações ou medidas como dados. A coleta de dados é o primeiro passo a ser executado quando se está analisando um processo. Mesmo nas situações mais simples, é necessário planejar a coleta de dados, observando que os mesmos sejam relevantes para o estudo a ser realizado. Os dados coletados sobre um processo devem fornecer informações para a que a equipe de me- lhoria possa atuar no processo visando a sua melhoria. Para isso, é necessário que a equipe saiba porque eles precisam dos dados, que dados serão coletados, quando e como eles serão obtidos. É importante que os dados adquiridos no estudo de um problema de interesse sejam corretamente coletados. Além disso, como atualmente esses dados serão, muito provavelmente, analisados através de um software apropriado, a estruturação correta dos mesmos é essencial. O passo final do processo de co- leta de dados é tornar os dados disponíveis para o software, levando-se em conta a estruturação requerida pelo programa utilizado. Em alguns casos os dados são coletados simplesmente para descrever o processo. Em outras situ- ações, os dados são coletados para monitorar o processo. Por exemplo, se a empresa produz um produto que tem um peso liquido especificado, é necessário retirar amostras de tempos em tempos e testar se o processo está sob controle. A próxima etapa é decidir que dados serão coletados. Qualquer processo gera uma quantidade grande de variáveis que podem ser medidas com o objetivo de controlar o processo. Algumas são críticas para o controle e outras são irrelevantes. Mesmo algumas variáveis críticas podem não estar disponíveis para análise a tempo de permitir interferência no processo. A equipe de melhoria deve considerar também em que ponto do processo os dados devem ser co- letados. Por exemplo, se o produto é formado de várias partes, as medidas serão realizadas nas partes ou no produto final? 9 A decisão sobre como os dados serão coletados deverá levar em consideração o custo de obtê-los (análise de laboratório, teste destrutivo, dispositivo de medição, etc.), a quantidade de tempo necessária para se obter a medida e principalmente a acurácia e a precisão do processo de medida (dispositivo de medida, método analítico, etc.). Em todos os casos, é necessário ponderar a acurácia e precisão versus o custo e o tempo para se obter a informação. Tão importante quanto o aspecto técnico de se fazer a medição é o aspecto da seleção dos itens a serem medidos. O procedimento de seleção do itens é denominado de plano amostral . Quan- do se retira uma amostra do processo, o objetivo pode ser medir uma característica de qualidade nos itens da amostra, e estimar um parâmetro do processo, por exemplo, no caso de produção de cerveja, o teor al- coólico médio. Para que se possa avaliar a precisão dessa estimativa, é importante que a amostragem do processo seja feita de forma probabilística. Voltaremos a esse tema mais à frente. Conjunto de dados - chamamos de conjunto de dados à coleção de medidas ou observações cole- tadas para um determinado estudo. Por exemplo, no estudo da relação entre o peso de um indivíduo e a hipertensão o conjunto de dados pode ter a estrutura apresentada na tabela seguinte. Os componentes de um conjunto de dados são: Elemento - é um indivíduo, ou unidade experimental ou observacional sobre o qual realizamos medidas. No exemplo acima, cada pessoa é um elemento do conjunto de dados. Nome Sexo Idade Peso Hipertenso Alberto M 32 67 N Joana F 45 76 SCecília F 29 57 N Pedro M 30 79 N Fernando M 56 75 S 10 Variável - é uma característica observada em um elemento. Sexo é uma variável do conjunto de dados definido acima. Um conjunto de dados é univariado quando contém apenas uma variável, bivariado quando contém duas variáveis e multivariado quando contém três ou mais variáveis. Caso ou registro - é o conjunto de resultados das variáveis quando aplicados em um elemento. No exemplo acima cada linha da tabela forma um registro. Observação - é a informação sobre uma única variável em um elemento do conjunto de dados. Por exemplo, 32 é uma observação para a variável idade no elemento Alberto. Fonte dos dados Uma organização obtém seus dados de fontes internas ou de fontes externas. Qualquer organiza- ção está constantemente gerando dados que podem ou não estar sendo apropriados ou aproveitados. Esses dados formam um capital valioso quando apropriados corretamente e estruturados de tal forma que pos- sam ser facilmente trabalhados para se transformarem em informação. Outros dados são obtidos pela organização através de publicações especializadas, bancos de da- dos de serviços, relatórios governamentais, etc. Quando se usa qualquer fonte de dados, é necessário estar atento para as limitações e para a qua- lidade dos dados. Deve-se estar atento para a possibilidade de que ocorram erros na aquisição dos dados. Esses erros podem ser devidos aos instrumentos de medida utilizados, erros de transferência dos dados de um meio (papel) para outro (arquivo computacional), erros de preenchimento de questionários, dupla con- tagem, transformações de variáveis devido a erro no programa computacional, etc. É importante também obter uma boa descrição do significado e do conteúdo das variáveis a serem analisadas. Conclusões errô- neas podem ser tiradas quando não se atenta para esses detalhes. Distribuições 11 Existe outro conceito importante que queremos introduzir logo no início dessa discussão. Esse conceito é o de distribuição. Para tanto considere o conjunto de dados que contém o peso líquido de leite evaporado em gramas de uma amostra retirada da produção. Examinando o arquivo, nós encontramos 60 registros, sendo que os pesos variam de 265.1 a 281.8 gramas .A maioria dos pesos, entretanto, está entre 270 e 276 gramas. Uma melhor descrição dos pesos, do ponto de vista estatístico, e feita através da distribuição dos pesos. A distribuição é representada graficamente pela figura abaixo. Através do gráfico podemos observar o comportamento dos pesos e examinar características como: simetria da distribuição, região onde há maior concentração de valores, o centro da distribuição (média, mediana, etc.), a dispersão dos valores em torno de um valor central. Po- demos observar também que aproximadamente 10% dos latas tem peso líquido acima de 277.3. A distri- buição, como veremos em detalhes mais à frente, nos fornece uma grande quantidade de informações so- bre o conjunto de dados que estamos analisando. A figura a seguir apresenta a distribuição dos valores de peso líquido do conjunto de dados apresentado acima. Tabela 1: Peso líquido Lata Peso Lata Peso Lata Peso Lata Peso 1 275.40 16 275.20 31 273.90 46 271.80 2 275.30 17 279.10 32 266.80 47 266.40 3 271.40 18 276.30 33 271.40 48 271.50 4 270.30 19 271.80 34 270.50 49 276.50 5 275.70 20 278.50 35 276.10 50 272.20 6 277.30 21 271.70 36 270.30 51 271.50 7 268.00 22 281.80 37 272.50 52 271.70 8 273.30 23 272.60 38 274.10 53 274.80 9 277.10 24 268.80 39 271.20 54 274.60 10 276.00 25 272.40 40 275.20 55 272.60 11 275.70 26 275.20 41 271.30 56 272.50 12 275.90 27 276.70 42 278.80 57 269.90 13 271.60 28 276.00 43 273.80 58 274.50 14 276.30 29 272.60 44 277.80 59 267.80 15 266.50 30 273.40 45 274.70 60 265.10 12 Figura 1: Histograma do peso Quando examinamos a distribuição, não estamos interessados nos valores individuais, mas sim no conjunto das respostas. O conjunto das respostas pode ser caracterizado por alguns poucos números que quantificam características importantes. Suponha que estamos produzindo um determinado tipo de peça fundida para uma indústria auto- mobilística e que a característica de qualidade de interesse é uma dimensão da peça, e que essa dimensão deve atender certas especificações. Quando avaliamos o processo, não estamos interessados no valor da característica para cada peça produzida. Queremos saber qual é o valor médio dessa dimensão, se o pro- cesso produtivo apresenta muita ou pouca variabilidade, qual é a porcentagem de peças produzidas que não atende às especificações, etc. É difícil obter-se essas informações olhando-se para todos os valores da produção, ou mesmo para todos os valores medidos em uma amostra. É necessário que se utilize algum recurso para sumariar os dados e retirar as informações que são relevantes. Quando estudamos um processo discreto, podemos medir cada item produzido. Em processos contínuos, a necessidade de caracterizar o processo a partir de uma amostra é mais evidente. 13 A sumarização e exposição dos aspectos importantes de um conjunto de dados é chamada de Es- tatística Descritiva. Sob esse nome reunimos um conjunto de técnicas que visam condensar os dados atra- vés de gráficos e tabelas, e do cálculo de alguns números que indicam a tendência central dos dados (va- lor médio), e medem a variabilidade dos mesmos. As situações reais com que nos defrontamos são as mais diversas. Os métodos que serão apresen- tados aqui funcionam sob situações bastante gerais, e se aplicam tanto a situações em que os dados foram obtidos de uma amostra (fração) da população, bem como a situações em que todos os indivíduos da po- pulação são avaliados (censo), mas com certeza não funcionarão em todas as situações. Entretanto, alguns aspectos da análise merecem ser destacados. Cada conjunto de dados deveria ser examinado sob os se- guintes aspectos: Os dados deveriam ser resumidos através de gráficos e tabelas, buscando principalmente: 1. Examinar a forma geral da distribuição dos dados a. A existência de observações atípicas que pareçam se destacar do conjunto dos dados. 2. Cálculo de medidas numéricas que: a. indiquem a tendência central b. quantifiquem a variabilidade presente nos dados. Classificação de Variáveis É comum representarmos o peso de uma criança por um número que expressa a quantidade em gramas. Por outro lado, o sexo de uma criança é, em geral representado por F ou M. Nada impede que uti- lizamos os códigos 1 e 2 para Masculino e Feminino respectivamente, mas nesse caso os numerais 1 e 2 representam símbolos. Variáveis em um conjunto de dados podem ser classificadas de muitas formas distintas, depen- dendo do objetivo. A classificação pode ser feita em função da relação entre as variáveis (dependente ou independente) do tipo de observação gerada (numérica, não numérica), da técnica de análise empregada, 14 ou de qualquer outro objetivo. Apresentaremos algumas classificações que serão úteis no desenvolvimen- to do texto. Variáveis Dependentes e Independentes Em muitas técnicas estatísticas, as variáveis são classificadas como dependentes (ou resposta) e independentes (ou explanatórias). Por exemplo, se queremos estudar a relação entre o rendimento de um processo (Y) e a temperatura de operação (T) através de uma relação funcional Y=f (T), a variável Y é classificada como resposta ou dependente e a variável T é classificada como explanatória ou independen- te. A idéia é que o rendimento “depende” ou pode ser explicado pela variável T, a qual pode ser fixada de forma independente. Variáveis Quantitativas e Qualitativas Uma variável é quantitativa quando o resultado da observação é numérica e qualitativa quando re- sulta em uma qualidade ou atributo. Tipos de Escalas de RespostasVariáveis podem também ser classificadas com discretas ou contínuas, dependendo da escala uti- lizada. Escala discreta Variáveis medidas numa escala discreta assumem valores que podem ser associados com os números naturais. Ou de outra forma, é possível ordenar todos os valores possíveis de ocorrerem. A idade de uma pessoa em número de anos completos, o número de pessoas que habitam uma residência são exemplos de variáveis discretas. O conjunto de valores possíveis pode ser finito ou infinito enumerável. Esse tipo de escala surge naturalmente quando realizamos contagens Incluímos nesse tipo de variáveis aquelas em que a escala de medidas consiste de um conjunto de categorias, como por exemplo, a filiação partidária, o sexo de um recém-nascido, etc. Variáveis medidas numa escala discreta são chamadas às vezes de categóricas, dependendo do número de níveis e da técnica estatística empregada na sua análise. 15 Escala contínua Variáveis medidas numa escala continua têm conceitualmente um núme- ro ilimitado de valores que não podem ser ordenados Por exemplo, a temperatura do corpo é medida nu- ma escala contínua. Não devemos confundir a variável com o instrumento usado para medir a variável. Obviamente o termômetro tem uma precisão limitada que faz com que o resultado da medida da tempera- tura seja discreto. De fato, como todas as variáveis contínuas são medidas por instrumentos com precisão discreta, variável contínua é apenas um modelo que é útil na prática. É necessário fazer aqui uma distinção entre medidas nominais e medidas ordinais. Medidas nominais Medidas nominais ocorrem quando não há uma ordem natural no valor da variável. Por exemplo, filiação partidária (PMDB, PSDB, PT, PFL), tipo de residência (casa, aparta- mento, barraco, etc.). Sexo é uma medida nominal com "macho" e "fêmea" como valores. Poderíamos codificar o sexo como "1" e "2", mas os números nesse caso não tem significado como números, mas co- mo nomes. Para esse tipo de variável, a ordem com que os valores da variável é listado é irrelevante para a análise estatística. Medidas ordinais Medidas ordinais tem uma ordem inerente que corresponde aos valores das variáveis. Pesquisas de opinião usam uma escala ordinal com valores: concorda fortemente, concorda, indiferente, não concorda, discorda fortemente. Poderíamos associar números a essas respostas, mas nesse caso teríamos que atribuir números de acordo com uma escala ordinal. Por exemplo, atribuiríamos 1 a discorda fortemente, 2 a discorda, e assim por diante. Medidas ordinais “ordenam” as categorias mas não estabelecem necessariamente uma distância entre as categorias. Distinguir se uma variável categórica é ordinal ou nominal depende do contexto em que ela está sendo utilizada. Por exemplo, se estamos “medindo” a cor da pele de um indivíduo e classificando-a entre negro, mulato e branco, não há uma ordem nessa classificação. Por outro lado, para uma indústria alimen- tícia, a cor da bolacha produzida reflete a quantidade de energia recebida pela mesma durante o tempo que permaneceu no forno, e nesse caso há uma ordem subjacente na cor da bolacha. 16 A própria distinção entre variável discreta e variável contínua às vezes depende da técnica estatís- tica empregada na sua análise. Procuraremos deixar claro essa distinção quando for necessário. Descrição de Dados por Gráficos e Tabelas Tabela de frequência Uma etapa importante na análise estatística é a sumarização dos dados através da construção de tabelas e gráficos e do cálculo de quantidades que representem características importantes do conjunto de dados tais como distribuição, locação e dispersão. Vamos considerar um exemplo. Os dados seguintes mostram o valor de venda de um determinado produto em 95 pontos de venda amostrados na cidade de São Paulo. Tabela 2: Valor de venda 33.1 37.0 39.2 40.0 41.2 42.7 44.0 45.3 47.0 50.2 33.5 37.2 39.2 40.0 41.2 43.0 44.0 45.3 47.0 50.5 34.7 37.5 39.2 40.2 41.5 43.0 44.2 45.5 47.2 51.6 35.0 38.0 39.5 40.5 41.5 43.0 44.2 45.5 47.5 51.7 35.2 38.2 39.5 40.7 41.7 43.2 44.5 46.0 47.6 52.7 35.5 38.5 39.5 40.7 42.1 43.2 44.5 46.0 47.8 35.7 38.7 39.7 41.0 42.1 43.5 44.8 46.5 48.1 36.1 38.7 39.7 41.0 42.2 43.5 44.9 46.5 48.2 36.5 38.8 39.7 41.0 42.2 43.5 45.1 46.7 49.0 37.0 38.9 40.0 41.2 42.5 43.5 45.2 47.0 50.0 Para ressaltar aspectos estruturais de um conjunto de dados, os mesmos são condensados numa tabela chamada de distribuição de frequência, que é essencialmente uma tabela como a apresentada abai- xo. Tabela 3: Tabela de frequência Intervalo de classe Ponto médio Freq Freq acum Freq relat Freq relat acum 33 - 36 34.5 7 7 7.37 7.37 17 36 - 39 37.5 13 20 13.68 21.05 39 - 42 40.5 25 45 26.32 47.37 42 - 45 43.5 23 68 24.21 71.58 45 - 48 46.5 18 86 18.95 90.53 48 - 51 49.5 6 92 6.32 96.84 51 - 54 52.5 3 95 3.16 100.00 Para construir uma distribuição de frequência devemos efetuar os seguintes passos: 1. Ordenar os valores do conjunto de dados 2. Encontrar o valor mínimo( xmin) o valor máximo (xmax) do conjunto de dados 3. Escolher um número de subintervalos, em geral de igual comprimento, que contém o mínimo e o máximo, de tal forma que eles não se superponham, ou seja, cada medida é classificada em ape- nas um dos subintervalos. Esses intervalos são chamados de intervalos de classe e os limites do intervalo de limites de classe. 4. Contar o número de observações que caem em cada intervalo de classe. Esse número é chamado de frequência da classe ou simplesmente frequência. 5. Determinar a frequência relativa do intervalo de classe dividindo a frequência pelo número total de observações. Frequência relativa = Frequência/Total de observações. A escolha do número de intervalos de classe e de sua amplitude merece algumas considerações. Número de classes O número de intervalos de classe deve levar em conta o número de observações e a efetividade da tabela de frequência em mostrar a forma da distribuição. Se poucos intervalos forem utilizados, perde-se no detalhe e pode não ficar evidenciada a forma da distribuição. Com um número muito grande de inter- valos, as classes podem ter poucas observações em cada uma e novamente não ficar explicitada a distri- buição dos dados. Geralmente são utilizados de 7 a 15 intervalos de classe. Se o número de observações 18 for muito grande, é possível utilizar um número maior de classes. Os softwares disponíveis geralmente são programados para fazer uma escolha adequada do número de classes na maioria dos casos. Amplitude dos intervalos de classe A escolha da amplitude dos intervalos está relacionada com o número de classes. É geralmente adequado escolher intervalos de classe de igual amplitude. Porém, quando a distribuição dos dados é for- temente assimétrica, com poucas observações nos valores extremos, utiliza-se intervalos de classe com amplitudes diferentes. Na análise de dados econômicos, principalmente dados de renda, esse tipo de cons- trução é muito comum. Pode-se adotar inclusive intervalos de classe abertos em um dos extremos. Por exemplo, a última classe pode ser definida pela renda maior ou igual a um certo valor. Esse trabalho é cansativo quando feito manualmente, principalmente se o conjunto de dados con- tém muitas observações. Hoje, com a disponibilidade de computadores e de softwares adequados, essa ta- refa é trivial. Histograma Um histograma nada mais é que uma representação gráfica de uma distribuição de frequência. Um histograma é formado por retângulos justapostos, sendo que a base do retângulo é formada pelos in- tervalos de classe e a altura do retângulo é proporcional à frequência do intervalo. Um histograma fornece uma representação visual da distribuição dos dados. Em geral é mais adequado construir um histograma da frequência relativa.Uma das razões é que a influência do tamanho da amostra é minimizada. A área total do histograma (soma das áreas de cada re- tângulo, considerando a base como sendo igual a 1) é 1 ( ou 100%). Dessa forma é possível comparar du- as distribuições. Gráfico da Frequência Relativa Acumulada É usual apresentar o gráfico da frequência relativa acumulada, que nada mais é que um gráfico em que na ordenada se coloca a variável resposta (Y), e na abscissa a frequência relativa acumulada (Fra). 19 Para um valor Y0 na ordenada, o gráfico apresenta a proporção de valores no conjunto de dados que são menores ou iguais a Y0. Gráfico Ramo-e-Folhas O histograma é uma forma clássica de representar a distribuição dos resultados. Uma forma alter- nativa, e que é muito simples de ser feita, é o ramo-e- folhas, que é uma combinação de tabela e gráfico. A melhor forma de explicar o que é um gráfico ramo-e-folha é através de um exemplo. A tabela abaixo apresenta os valores de aluguéis de um determinado tipo de imóvel (em mil). Tabela 4: Valor do aluguel 1.39 1.40 1.60 1.41 1.43 1.46 1.30 1.50 1.34 1.47 1.56 1.35 1.52 1.51 1.25 1.39 1.55 1.59 1.50 1.66 1.61 1.32 1.46 1.30 1.51 1.52 1.48 1.38 1.40 1.55 1.39 1.33 1.46 1.43 1.35 1.57 1.50 1.20 1.48 1.41 1.65 1.51 1.42 1.60 1.29 1.38 1.46 1.39 1.42 1.46 1.70 1.55 1.46 1.52 1.33 1.52 1.25 1.48 1.60 1.43 1.51 1.35 1.40 1.46 1.57 1.62 1.46 1.51 1.24 1.50 1.56 1.30 1.40 1.55 1.50 1.52 1.43 1.39 1.41 1.38 1.40 1.35 1.48 1.42 1.30 1.38 1.55 1.46 1.58 1.34 1.41 1.29 1.41 1.42 1.43 1.38 1.48 1.42 1.60 1.35 O primeiro valor na tabela (1.39) será usado para ilustrar o princípio. O número 1.39 é separado em duas partes da seguinte forma: Número : 1.39 Partição: 13|9 Ramo: 13 Folha: 9 20 Construímos então uma coluna com os ramos possíveis. No exemplo, os ramos são formados pe- los números 11, 12, 13, 14, 15, 16 e 17, já que as medidas variam de 11.9 a 17.0. Ao lado de cada ramo, formando as folhas, anotamos o último dígito da medida, cada uma corresponde ao seu ramo. Finalmen- te, podemos ordenar os números nas folhas. Figura 2: Gráfico Ramo e Folha do valor do aluguel O gráfico ramo-e-folhas apresenta algumas vantagens sobre o histograma: 1. É mais fácil de ser construído manualmente. 2. As medidas aparecem representadas, o que em algumas situações, é muito importante. 3. As medidas são apresentadas de forma ordenada. Uma regra para determinar o número máximo de ramos (L) e que funciona adequadamente num número grande de casos é a seguinte: � = 10 × log � L = 10*log10 n 21 onde � é o número de observações. Nesse caso, � = 20. O ramo-e-folha modificado tem 12 ramos, que no caso é adequado. Na realidade, construir um ramo-e-folha adequado exige um pouco de técnica e um pouco de arte. Existem muitas variantes que podem ser usadas. O que temos de ter em mente é o objetivo: procurar des- cobrir a forma da distribuição das medidas. O histograma para esse conjunto de dados é apresentado na figura 3. Figura 3: Histograma do valor do aluguel Algumas vezes as medidas são resultados de contagem, tais como o número de filhos por família, o número de insetos por planta, etc. Se o número de valores distintos que ocorrem na amostra não é muito grande, construímos a distribuição de frequência dos valores individuais. O histograma é construído da mesma forma, usando-se linhas verticais em lugar de retângulos. Exemplo: 25 famílias foram amostradas e o número de filhos por família foi contado em cada fa- mília. Os resultados obtidos foram: Fam. NF Fam. NF 22 1 3 14 4 2 5 15 5 3 1 16 2 4 3 17 1 5 2 18 1 6 4 19 3 7 2 20 0 8 1 21 2 9 3 22 2 10 2 23 2 11 3 24 2 12 2 25 2 13 3 A tabela abaixo apresenta a distribuição de frequência do número de filhos por família. O histo- grama da distribuição é também apresentado a seguir. Número de filhos Freq. Freq. Rel. 0 1 0.04 1 4 0.16 2 10 0.40 3 6 0.24 4 2 0.08 5 2 0.08 Total 25 1.00 23 Medidas de Centralidade Os procedimentos gráficos apresentados até aqui ajudam a visualizar a forma da distribuição das medidas. O próximo passo na análise é quantificar alguns aspectos importantes da distribuição. Duas me- didas são amplamente utilizadas, uma para localizar a posição central e outra para quantificar a variabili- dade ou dispersão da distribuição. A medida de posição central é um valor representativo da distribuição em torno do qual as outras medidas se distribuem. Duas medidas são as mais utilizadas: a média aritmética e a mediana. Média Aritmética A média aritmética de um conjunto de n valores, como o próprio nome indica, é obtida somando- se todas as medidas e dividindo-se a soma por n. Representamos cada valor individual por uma letra (x, y, z, etc.) seguida por um sub-índice, ou seja, representamos os n valores da amostra por � , ��, . . . , ��, onde � é a primeira observação, �� é a segunda e assim por diante. Então escrevemos 24 x�=∑ xini=1n onde ∑ ����� é um símbolo matemático que se lê "somatório" de ��, para i variando de 1 a n, que é equi- valente a � + ��+. . . +��. Exemplo: O número médio de filhos por família, usando os dados do exemplo acima, é dado por: �� = �3 + 5 + 1 + 3 + ⋯+ 2 � = 6025 = 2.4 Mediana A mediana é uma medida alternativa à média aritmética para representar o centro da distribuição. A mediana de um conjunto de medidas � , ��, . . . , �� é um valor M tal que pelo menos 50% das medidas são menores ou iguais a M e pelo menos 50% das medidas são maiores ou iguais a M. Em outras pala- vras, 50% das medidas ficam abaixo da mediana e 50% acima. Exemplo: Uma mulher, durante seu período reprodutivo, deu a luz a 5 crianças. Os pesos dos re- cém-nascidos foram: 9.2, 6.4, 10.5, 8.1 e 7.8. Calcule a mediana dos pesos. Os valores ordenados são: 6.4 7.8 8.1 9.2 10.5. Portanto a mediana é 8.1. Exemplo: Os dados abaixo são tempos de vida (em dias) de 8 lâmpadas: 500 550 550 550 600 700 750 2000 Note que temos dois valores que satisfazem a condição de ser mediana, o quarto (550) e o quinto (600) valor na lista ordenada. Nesse caso, definimos a mediana como sendo a média dos dois valores centrais: #$%&'�' = 550 + 6002 = 575 A média aritmética desses valores é 575. 25 Observe que se a lâmpada que sobreviveu 2000 dias tivesse sobrevivido 3950 dias o valor da me- diana não se alteraria, mas a média aritmética aumentaria. Não ser afetada por valores extremos é uma vantagem da mediana em relação à média. Quando a distribuição dos dados é simétrica os valores da mé- dia e da mediana praticamente coincidem. Quando a distribuição é assimétrica a média é "puxada" na di- reção da assimetria. Quase sempre quando olhamos uma média fazemos algum julgamento de valor. Se lemos no jor- nal qual é a renda média de uma determinada comunidade somos tentados a avaliar como é a situação econômica dessa comunidade. O valor pode ser alto e mesmo assim a situação social ser muito ruim. Bas- ta que poucos ganhem muito e muitos ganhem pouco. A mediana não é influenciada por esses valores ex- tremos e nesse caso refletirá melhor a condição econômica da comunidade. Em qualquer estudo, é interessante reportar as duas medidas de centralidade. Moda A moda de uma distribuição é o valor que ocorre mais frequentemente, ou o valor que correspon- de ao intervalo de classe com a maior frequência. A moda, da mesma forma que a mediana, não é afetada por valores extremos. Uma distribuição de frequência que apresenta apenas uma moda é chamada de unimodal. Se a distribuição apresenta dois pontos de alta concentração ela é chamada de bimodal. Distribuições bimodais ou multimodais podem indicar que na realidade a distribuição de frequência se refere a duas populações cujas medidas foram misturadas. Por exemplo, suponhaque um lote de caixas de leite longa vida é amos- trado e em cada caixa da amostra é medido o volume envasado. Se o lote é formado pela produção de du- as máquinas de envase que estão calibradas em valores diferentes, é possível que o histograma apresente duas modas, uma para cada valor de calibração. Percentis Se o número de observações é grande, é interessante calcular algumas outras medidas de posição. Essas medidas são uma extensão do conceito de mediana. 26 Suponha que estamos conduzindo um experimento com animais. Eles recebem um droga e me- dimos o tempo de vida (em dias) após a ingestão da droga. Poderíamos fazer a seguinte pergunta: Qual é o tempo em que 50% do animais ainda estão vivos? Obviamente esse valor será a mediana. Poderíamos estar interessados em saber qual é o tempo em que 75% dos animais estão vivos. Ou 25%. Esses valores são chamados de Quartis da distribuição (dividem a distribuição em quartas partes) e são representados por Q1 (1º quartil - 25%) e Q3 (3º quartil - 75%). O segundo quartil, Q2, que corresponde a 50%, é a mediana. Esse conceito pode ser estendido um pouco mais, e em lugar de 25%, 50% e 75%, podemos que- rer calcular percentis (5%,10%, 90%, Tc). Seja p um número qualquer entre 0 e 1. O 1100 × )-ésimo percentil é um valor tal que depois das medidas terem sido ordenadas, pelo menos 100 × )% das medidas são menores ou iguais a esse valor, e pelo menos 100 × �1 − ) % das medidas são maiores ou iguais a esse valor. Exemplo: O ganho em peso de 9 ratos submetidos a uma dieta são dados a seguir: 93.9 105.8 106.5 116.6 125.0 128.3 132.1 136.7 152.4 Cálculo de Q1 : Q1 corresponde a 25%. Então p=0.25 . O número de observações menores ou iguais a Q1 é 0.25 × 9 = 2.25. O número de observações maiores ou iguais a Q1 é �1 − 0.25 × 9 = 6.75 Em outras palavras, pelo menos 3 observações tem que ser menores ou iguais a Q1, e pelo menos 7 observações têm que ser maiores ou iguais a Q1. A medida 106.5 satisfaz esses requerimentos e, portan- to Q1 = 106.5. Cálculo de Q3: Argumentos semelhantes mostram que Q3 = 132.1. Temos também que Q2 = 125.0, que é a mediana. Exemplo: Calcular os quartis e os percentis 5%, 10%, 90% e 95% para o amostra de valor de venda de um produto em 95 pontos de venda amostrados apresentado acima. 27 75% Q3 45.3 5% 35.2 50% Q2 42.2 10% 37.0 25% Q1 39.5 90% 47.0 Média 42.4 95% 50.2 Softwares de análise estatística calculam percentis utilizando diferentes métodos, os quais envol- vem algum tipo de interpolação. Por isso é possível encontrar-se discrepâncias entre os valores calculados por diferentes programas. Essas discrepâncias em geral não afetam a análise. Média Geométrica A média geométrica de n números positivos é a raiz enésima do produto desses números. A média geométrica é usada principalmente quando estão envolvidas medidas que são razões ou índices econômi- cos. Lembrando as propriedades de logaritmo de produto e de razão, é fácil mostrar que a média geomé- trica de um conjunto de n números é o antilogaritmo da média aritmética dos logaritmos desses números. Assim é possível entender porque essa média é muito usada com dados econômicos. Esse tipo de dados apresenta geralmente uma distribuição que é fortemente assimétrica. Por isso é comum se trabalhar com o logaritmo das medidas para corrigir a assimetria. Exemplo: O preço de um determinado produto levantado em quatro meses consecutivos apresen- tou os seguintes valores: R$30,00, R$33,00, R$33,66 e R$41,74. A taxa de acréscimo mês a mês é dada por: 1.1, 1.01 e 1.24. A taxa média de inflação no período, se calculada através da média geométrica foi: �1.1 × 1.01 × 1.24 /. = 1.11 28 Dessa forma, o preço do quarto mês pode ser obtido a partir do preço do primeiro mês da seguinte forma: 41.74 = 30.00 × �1.11 . Média harmônica A média harmônica de � números � , … , �� é definida como sendo o inverso da média dos recí- procos, ou seja, �∑� /01 . Essa média é utilizada quando os dados são razões. Exemplo: Um veículo percorre uma distancia de 20km a 50 km/hora e uma outra distância de 20 km a 40 km/hora. Qual foi a velocidade média no percurso total? O carro levou 0.9 horas para percorrer 40 km; portanto sua velocidade média foi de 44.4km/hora. A média harmônica das velocidades médias é: �� /2 3 /4 = 44.456/ℎ89'. A média harmônica tem um uso muito limitado. Medidas de Variabilidade Como dissemos anteriormente, variabilidade está presente em praticamente todos os fenômenos estudados. Dois indivíduos submetidos às mesmas condições respondem de forma diferente. É importante entender essa variabilidade, e principalmente saber quantificá-la. Suponha que você está interessado em saber quantos peixes existe em um determinado lago. Uma forma de se chegar a esse número é pescar todos os peixes e contar. Esse procedimento não é práti- co. Outra forma é usar um procedimento amostral e estimar esse número. Um procedimento que se pode- ria utilizar é o seguinte: Uma quantidade N de peixes é pescada, marcada e devolvida ao lago. Nesse mo- mento a proporção de peixes marcados no lago é :;, onde M é o total de peixes no lago, quantidade que 29 queremos estimar. Após certo tempo, suficiente para que os peixes que foram devolvidos ao lago se mis- turem, uma nova pesca é realizada de n peixes. Conta-se então o número de peixes marcados na segunda pesca. Vamos denotar por x esse número. Então, 0� é uma estimativa da proporção de peixes marcados. Então fazemos :; = 0�, e calculamos finalmente # = :×�0 . Suponha que a estimativa deu 5.946 peixes. Se repetirmos o processo encontraremos outro valor para M. Existe, portanto, uma variabilidade associada com essa estimativa, ou dito de outra forma, existe uma incerteza associada com esse número. A menos que quantifiquemos essa incerteza, a estimativa é de pouca utilidade. Nesse caso, a incerteza está associa- da ao processo amostral. Quando realizamos uma medida em laboratório, essa medida contem uma incerteza que está asso- ciada ao sistema de medição. É necessário quantificar essa precisão para que a medida seja útil. Quando calculamos índices econômicos baseados em amostragem, tal como o índice de inflação, existe uma incerteza associada com esse índice que precisa ser quantificada para que os agentes econômi- cos possam tomar suas decisões. Somente o cálculo da média, ou outra medida de posição, não é suficiente para caracterizar o con- junto de dados. Dois conjuntos de medidas podem ter a mesma média, mas diferir com respeito à distri- buição das medidas em torno da média. Considere os dois conjuntos de dados seguintes: A: (2, 3, 4) B: (1, 3, 5) Ambos tem média igual a 3, mas o conjunto B é mais disperso em torno da média. Existem diversas formas de quantificar a dispersão de um conjunto de medidas. Amplitude 30 A mais simples é a Amplitude, que nada mais é que a diferença entre o maior e o menor valor do conjunto. No exemplo acima, a amplitude do conjunto A é 4-2=2 e do conjunto B é 5-1=4. Desvio Padrão O uso da amplitude apresenta algumas desvantagens, a mais importante é que o seu cálculo en- volve apenas os valores extremos do conjunto. Uma forma de medir variabilidade, e que é amplamente utilizada, é o desvio padrão. Como a média é uma medida de centralidade, e estamos interessados em quantificar a dispersão dos dados em torno da média, vamos usar os desvios de cada valor em torno da média. Esses valores são: � − ��, �� − ��,… , �� − ��, e são chamados de desvios em torno da média. É fácil verificar que a soma desses desvios é 0, ou seja, ∑ ��� − �� ��� . Esse fato resulta de que alguns desvios são positivos, outros negativos, e que na média se anulam. O cálculo do desvio padrão faz uso desses desvios de uma forma di- ferente. O desvio padrão de um conjunto de medidas é definido como:< = =∑ ��� − �� ��� � − 1 Uma medida equivalente, e que é usada por conveniência, é a variância amostral, que nada mais é que o quadrado do desvio padrão. <� = ∑ ��� − �� ��� � − 1 Exemplo: Uma empresa com 100 funcionários anotou o número de faltas semanais durante 6 se- manas consecutivas. Os resultados obtidos foram: 4, 2, 3, 3, 6 e 3. Calcule a média, variância e desvio pa- drão das medidas. média amostral: �� = ∑01� = � > = 3.5 31 variância amostral: <� = ∑ �01?@� A1BC�? = D.22 = 1.9 desvio padrão amostral: < = E∑ �01?@� A1BC�? = 1.4 faltas Amplitude interquartis Uma outra medida de dispersão que é utilizada é a amplitude interquartis, definida como: Amplitude interquartis= Q 3 - Q 1. A amplitude interquartis representa o intervalo coberto por 50% das medidas centrais. Coeficiente de Variação Uma desvantagem do desvio padrão como medida de dispersão é que ele depende da escala de medidas que se está utilizando. Por exemplo, o peso de um objeto tem um desvio padrão de 0.1 onças ou 2835 miligramas, o que é a mesma coisa. Mas olhando o valor absoluto, em um caso podemos imaginar que a dispersão é pequena, e no outro que a dispersão é muito grande. Por outro lado, se estamos medindo anéis de ouro que estão sendo produzidos, essa dispersão pode ser muito grande. Por outro lado, se esta- mos pesando sacos de cimento, essa dispersão é irrelevante. Para contornar esse problema definimos uma medida de variação relativa que é o coeficiente de variação. O coeficiente de variação é a razão entre o desvio padrão e a média, e geralmente é apresentado em porcentagem. F. G. = H.I.JéL�M = NO . Observe que o C.V. é uma quantidade adimensional. Exemplo: Diversas medidas do diâmetro de uma bola de rolamento foram feitas com um micrô- metro apresentaram média de 2.49 mm e desvio padrão de 0.012 mm. Medidas do comprimento de um parafuso de precisão feitas com um outro micrômetro apresentaram média de 0.75 polegadas com desvio padrão de 0.002. Qual dos micrômetros é mais preciso? 32 Para o primeiro micrômetro temos: F. G.= 0.012 / 2.49 = 0.0048. Para o segundo micrômetro temos: F. G = 0.002 / 0.75 = 0.0027. Então o primeiro micrômetro é mais preciso que o segundo. Algumas Estatísticas Adicionais Até agora discutimos estatísticas de locação (média, mediana, percentis) e de dispersão (desvio padrão. amplitude, amplitude interquartis). Existe uma quantidade ilimitada de estatísticas que podem ser calculadas a partir de um conjunto de dados que descrevem outras características da distribuição. Coeficiente de Assimetria Embora distribuições de dados possam assumir as mais diferentes formas, a maioria delas pode ser aproximada por um pequeno número de tipos padrões. Dentre essas, a mais importante é a distribuição simétrica que tem a forma aproximada de um sino, e que será estudada com detalhes mais à frente. Distribuições que tem apenas um pico importante e que são assimétricas são classificadas em po- sitivamente assimétricas se a cauda maior da distribuição é à direita e negativamente assimétricas se a cauda maior é à esquerda. Distribuições de renda são geralmente positivamente assimétricas; pouca con- centração de alta renda e alta concentração de baixa renda. Existem diversas estatísticas usadas comumente para medir o grau de assimetria de uma distribui- ção (skewness). Uma relativamente simples é baseada no fato de que se há perfeita simetria, então a mé- dia e a mediana da distribuição são iguais. Se a distribuição tem assimetria positiva, então a média será maior que a mediana, e se a assimetria é negativa, a média é menor que a mediana. Essa relação é usada para definir o coeficiente de assimetria de Pearson, e é dado por: <Q = 3 × �6é%&' − 6$%&'�' %$RS&8 )'%9ã8 33 Para uma distribuição simétrica, SK =0. O valor de SK varia essencialmente entre -3 e 3. A divi- são pelo desvio padrão torna SK independente da escala de medida. Outras medidas de assimetria exis- tem, mas medem essencialmente a mesma coisa. Curtose Outra característica de uma distribuição simétrica é a forma como os dados se distribuem em tor- no da média. Uma distribuição simétrica pode ser subdividida em três partes: meio, ombros e caudas. A caracterização da distribuição é feita em comparação com a distribuição normal ou gaussiana, que é a dis- tribuição simétrica mais utilizada na Estatística. Considere a figura abaixo. A distribuição 1 representa a distribuição normal. A distribuição 3 tem concentração maior que a normal nas caudas e no meio e concentração menor nos ombros. A distribuição 2 tem concentração maior que a normal nos ombros e menor no meio e nas caudas. Uma medida numérica para distinguir as situações 1 e 3 é a curtose, que é calculada como: UV9W8R$ = �∑��� − �� 4X∑��� − �� �Y� 3 1 2 34 O valor da curtose para a distribuição normal é zero. A curva 3 tem curtose positiva (dizemos que ela tem cauda mais pesada que a normal). A curva 2 tem curtose negativa (dizemos que ela tem cauda mais leve que a normal). Box Plot O Box Plot ( também chamado de box e whisker plot) é um método alternativo ao histograma e ao ramo-e-folha para representar os dados. O Box Plot fornece informação sobre as seguintes característi- cas do conjunto de dados: locação, dispersão, assimetria, comprimento da cauda e outliers (medidas dis- crepantes). Embora o Box plot forneça informação sobre locação e dispersão, seu verdadeiro valor está na in- formação que fornece sobre a cauda da distribuição. Pontos desgarrados (Outliers) podem afetar de forma adversa as decisões a serem tomadas a partir da análise dos dados se não forem devidamente considera- dos. O Box Plot é uma ferramenta gráfica que ajuda a identificar a existência de possíveis outliers no con- junto de dados. Um Box Plot nada mais é que um retângulo alinhado verticalmente (ou horizontalmente) com du- as semi-retas, uma em cada um de lados opostos do retângulo. A altura do retângulo é definida pelos quartis Q1 e Q3. Uma linha seciona o retângulo no valor da mediana (ou Q2). As semi-retas ligam res- pectivamente os quartis Q1 e Q3 ao valor mínimo e máximo do conjunto de dados. Quando o conjunto de dados é grande, as semi-retas vão até os percentis 10% e 90% ou até os percentis 5% e 95%. Então, valo- res extremos são representados por um zero ou por um asterisco. Não existe uma única forma de apresen- tar um gráfico Box plot. Diferentes livros (ou softwares) adotam variações na apresentação dos pontos ex- tremos. O gráfico abaixo apresenta o Box plot para o valor de venda de um produto amostrado em 95 pontos de venda, apresentado anteriormente. Interpretação do Box Plot O centro da distribuição é indicado pela linha da mediana. A dispersão é representada pela altura do retângulo (Q3 -Q1). O retângulo contem 50% dos valores do conjunto de dados. A posição da linha 35 mediana no retângulo informa sobre a assimetria da distribuição. Uma distribuição simétrica teria a medi- ana no centro do retângulo. Se a mediana é próxima de Q1 então os dados são positivamente assimétricos. Se a mediana é próxima de Q3 os dados são negativamente assimétricos. No exemplo a seguir, a distri- buição dos dados é simétrica: O comprimento das linhas fora do retângulo (algumas vezes chamadas de whisquers) informam sobre a cauda da distribuição. Os valores fora de Q1-1.5*(Q3-Q1) e Q3+1.5*(Q3 -Q1) geralmente são chamados de "outside" e devem ser investigados como possíveis outliers. Valores "outside" não são ne- cessariamente outliers, mas um outlier usualmente aparece no gráfico como um outside. Exemplo: Um engenheiro numa indústria química é responsável pela produção de acetona. Para avaliar a linha de produção, o gerente monitora o processo. Durante uma semana, 16 bateladas de acetona são produzidas e uma leitura por batelada é feita. Os resultados são apresentados natabela abaixo. Batelada 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Leitura 6 24 12 11 34 32 28 19 31 22 29 58 15 5 17 25 Arrumamos os dados em ordem crescente: 36 5, 6, 11, 12, 15, 17, 19, 22, 24, 25, 28, 29, 31, 32, 34, 58 Desses dados calculamos: Q1=13.5 M=23 Q3=30 IQR=16.5 Min=5 Max=58 O Box plot é apresentado a seguir. Além de fornecer informações importantes sobre um conjunto de dados, o Box plot é usado para comparar graficamente mais de um conjunto de medidas com respeito à media, dispersão e distribuição. Isso pode ser conseguido desenhando-se os Box plots para cada conjunto de dados paralelamente num mesmo gráfico. O próximo conjunto de dados apresenta dados de viscosidade de 3 misturas diferentes Mistura 1 Mistura 2 Mistura 3 22.02 21.49 20.33 23.83 22.67 21.67 26.67 24.62 24.67 25.38 24.18 22.45 25.49 22.78 22.29 23.50 22.56 21.95 25.90 24.46 20.49 24.89 23.79 21.81 O Box Plot comparativo é apresentado a seguir: 37 Como podemos observar, as misturas apresentam níveis médios diferentes de viscosidade, de- crescentes da mistura 1 para a mistura 3. Diagrama de Pareto Um dos objetivos centrais de um programa de qualidade é reduzir perdas provocadas por peças defeituosas que não atendem às especificações. Existem muitos tipos de defeitos que fazem com um pro- duto não atenda às especificações. Concentrar esforços no sentido de eliminar todos os tipos de defeitos não é uma política eficaz. Geralmente, alguns poucos tipos de defeitos são responsáveis pela maioria das rejeições, e é mais eficaz atacar as causas desses poucos defeitos mais importantes. Essa abordagem já foi proposta por J. M. Juran, um dos pioneiros da Qualidade. Ele estabeleceu uma regra hoje conhecida como “a regra dos poucos vitais e dos muitos triviais”. Para identificar os poucos vitais ele propôs a utilização de um diagrama conhecido como Diagra- ma de Pareto. O diagrama é basicamente um histograma da distribuição dos defeitos pelos tipos, ordenado em ordem decrescente de freqüência de ocorrência. Exemplo: Uma empresa classificou um grupo de 100 produtos rejeitados por problemas de emba- lagem pelo tipo de defeito que causou a rejeição. Os resultados estão apresentados na tabela abaixo. Mistura 3Mistura 2Mistura 1 27 26 25 24 23 22 21 20 D a ta Boxplot of Mistura 1; Mistura 2; Mistura 3 38 Tipo de defeito Número de peças Porc. Porc. Acum. A: Não selagem do topo 55 0.4 0.4 B: Não selagem do fundo 38 0.28 0.68 C: Não selagem lateral 22 0.16 0.84 D: Impressão borrada 8 0.06 0.9 E: Caixa amassada 7 0.05 0.95 F: Cor da impressão 4 0.03 0.98 G: Caixa rasurada 2 0.02 1.00 Obs. Existem 136 defeitos porque algumas embalagens apresentaram mais de um defeito. O Diagrama de Pareto para esses dados é apresentado abaixo. Observe que os defeitos A, B e C são responsáveis por 84% do total e o esforço de melhorar a qualidade deveria se concentrar primeiramente neles. 39 Série de Tempo A tabela de frequência, e seu equivalente gráfico que é o histograma, devem ser utilizados com a devida cautela. Se estivermos medindo uma característica de um processo sequencialmente, o histograma das medidas não inclui a informação sobre a ordem em que os dados foram obtidos, e consequentemente não revela tendências ou ciclos que podem estar ocorrendo ao longo do tempo, ou mesmo aumento ou de- créscimo da variabilidade. A falta dessa informação é crítica quando utilizamos as medidas para monito- rar o processo. Geralmente utilizamos a distribuição da característica de qualidade para avaliar a capacidade do processo. Antes de construir a distribuição e calcular os índices, é necessário certificar-se de que o pro- cesso está estável, ou sob controle estatístico. Quando amostras são retiradas sequencialmente, é necessá- 0 25 50 75 100 125 150 Tipo de defeito 0 20 40 60 80 100 40 rio graficar as medidas contra a ordem em que elas foram obtidas. Tendências e ciclos presentes no pro- cesso são relativamente fáceis de detectar nesse tipo de gráfico. Exemplo: Barras de chocolate são produzidas e a cada 15 minutos 3 barras são retiradas da linha e pesadas. Os dados obtidos durante um período de 6 horas e 30 minutos bem como o histograma estão apresentadas na tabela abaixo. N tempo Obs Amostra Peso N tempo Obs Amostra Peso N tempo Obs Amostra Peso 1 9.00 1 1 170.384 28 11.15 1 10 170.100 55 13.30 1 19 170.951 2 9.00 2 1 169.817 29 11.15 2 10 170.667 56 13.30 2 19 171.234 3 9.00 3 1 170.667 30 11.15 3 10 170.384 57 13.30 3 19 170.384 4 9.15 1 2 169.533 31 11.30 1 11 171.234 58 13.45 1 20 170.667 5 9.15 2 2 169.817 32 11.30 2 11 170.667 59 13.45 2 20 170.667 6 9.15 3 2 170.384 33 11.30 3 11 170.951 60 13.45 3 20 170.667 7 9.30 1 3 170.951 34 11.45 1 12 170.667 61 14.00 1 21 171.234 8 9.30 2 3 170.667 35 11.45 2 12 170.384 62 14.00 2 21 171.518 9 9.30 3 3 170.667 36 11.45 3 12 170.100 63 14.00 3 21 170.951 10 9.45 1 4 170.667 37 12.00 1 13 170.951 64 14.15 1 22 171.801 11 9.45 2 4 170.951 38 12.00 2 13 170.667 65 14.15 2 22 170.951 12 9.45 3 4 170.667 39 12.00 3 13 171.234 66 14.15 3 22 171.234 13 10.00 1 5 170.100 40 12.15 1 14 170.667 67 14.30 1 23 171.518 14 10.00 2 5 169.817 41 12.15 2 14 170.667 68 14.30 2 23 171.234 15 10.00 3 5 170.384 42 12.15 3 14 170.951 69 14.30 3 23 170.667 16 10.15 1 6 169.817 43 12.30 1 15 170.951 70 14.45 1 24 171.518 17 10.15 2 6 170.100 44 12.30 2 15 170.667 71 14.45 2 24 171.234 18 10.15 3 6 170.100 45 12.30 3 15 170.951 72 14.45 3 24 170.951 19 10.30 1 7 170.667 46 12.45 1 16 170.951 73 15.00 1 25 171.234 20 10.30 2 7 170.384 47 12.45 2 16 170.100 74 15.00 2 25 171.801 21 10.30 3 7 170.100 48 12.45 3 16 170.384 75 15.00 3 25 171.518 22 10.45 1 8 170.384 49 13.00 1 17 171.234 76 15.15 1 26 171.518 23 10.45 2 8 170.951 50 13.00 2 17 170.667 77 15.15 2 26 170.951 24 10.45 3 8 170.384 51 13.00 3 17 170.951 78 15.15 3 26 171.234 25 11.00 1 9 170.384 52 13.15 1 18 171.518 79 15.30 1 27 170.951 26 11.00 2 9 170.667 53 13.15 2 18 170.667 80 15.30 2 27 171.234 41 27 11.00 3 9 170.100 54 13.15 3 18 171.234 81 15.30 3 27 170.951 Aparentemente não há nada de errado com o histograma, ou melhor, o histograma não indica ne- nhum problema com a estabilidade do processo. O gráfico das medidas contra a ordem em que foram ob- tidas está apresentado na figura abaixo. D e n s it y P e s o 42 Observe que há uma tendência de aumento no peso das barra produzidas ao longo do período de 7 horas, o que aponta para a necessidade de intervenção no processo. Essa tendência fica mais clara quan- do elaboramos um gráfico com o peso médio da amostra versus o tempo. O gráfico a seguir apresenta o comportamento da variabilidade ao longo do tempo. O desvio pa- drão é calculado para cada amostra. Esse tipo de gráfico será melhor explorado e analisado através do estudo das cartas de controle. 170.0 170.5 171.0 171.5 172.0 Amostra 43 Gráfico de Dispersão e o Coeficiente de correlação Quando medimos duas variáveis relacionadas a um mesmo problema, geralmente estamos inte- ressados no estudo da relação entre as variáveis. Vamos considerar por hora a situação em que as duas va- riáveis podem ser consideradas como contínuas. Exemplo. Uma empresa que distribui produtos por todo o país contrata uma empresa aérea para efetuar o transporte. Um estudo foi realizado pela empresa contratante para verificar a relação entre o cus- to de transporte (Y) e o peso do material transportado (X). Os dados se referem a um período de 6 meses e estão apresentados na tabela abaixo. Custo Peso Custo Peso 5492.29 3778.0 6143.24 4181.0 4401.89 3268.5 6309.65 4575.0 5721.46 4026.0 8391.60 6272.0 6237.14 4564.5 8530.49 6676.0 6396.44 4386.0 6343.74 4841.0 6863.91 5664.0 7482.64 6047.07258.21 4852.0 6467.10 5315.0 6643.56 5000.0 8768.30 6856.0 8515.98 6646.0 8833.71 7198.0 4687.63 3350.0 7987.36 6324.0 5928.33 3726.0 8267.05 6452.0 10856.09 8718.0 4829.24 3699.0 7766.47 5647.0 44 O primeiro passo na análise dos dados é colocar os pontos num gráfico cartesiano de Y em função de X. Do gráfico pode-se perceber que: • Há uma tendência de aumento do custo com o aumento do peso ( o que era de se esperar nesse exemplo) • Que a relação entre as duas variáveis é aproximadamente linear na região em que temos observações • Que há uma forte relação entre as duas variáveis. Se os pontos no gráfico apresentam pouca dispersão em torno de uma reta ligando X e Y dizemos que existe uma forte correlação linear entre as variáveis. Se os pontos apresentam alta dispersão dizemos que as variáveis são pouco correlacionadas. Uma forma de quantificar o grau de associação linear entre duas variáveis é através do coeficien- te de correlação amostral. Ele mede o grau de associação linear que existe entre as duas variáveis. Se, �� , Z , ���, Z� , … , �Z�, Z� são � pares de pontos, o coeficiente de correlação amostral 90,[ é calculado como: 9000800070006000500040003000 11000 10000 9000 8000 7000 6000 5000 4000 Peso C u s to Gráfico de Dispersão: Custo vs Peso 45 90,[ = ∑��� − �� �Z� − \� ]∑��� − �� ��Z� − \� � Pode-se verificar que o coeficiente de correlação é uma quantidade que varia entre -1 e 1, ou seja, −1 ≤ 90,[ ≤ 1 O coeficiente de correlação mede a direção e o grau de associação linear entre as variáveis. Valo- res próximos de -1 ou +1 indicam forte associação. Valores próximos de zero indicam pouca associação. O sinal do coeficiente indica se a associação é positiva (Y aumenta com o aumento de X) ou negativa ( Y decresce com o aumento de X). O coeficiente de correlação para os dados acima é 0.98. A seguir apresentamos diversas configuração de pares (X,Y) (a) (b) (c) (d) 20151050 25 20 15 10 5 x Y Gráfico de Dispersão: Y vs X 20151050 35 30 25 20 15 10 5 0 x Y Gráfico de Dispersão: Y vs X 20151050 0 -5 -10 -15 -20 x Y Gráfico de Dispersão: Y vs X 252015105 35 30 25 20 15 10 5 0 X Y Gráfico de Dispersão: Y vs X 46 (e) Os diagramas da Figura (a) e (b) mostram duas situações onde os pontos estão em torno de uma reta imaginária ascendente. Valores pequenos de X estão associados a valores pequenos de Y, o mesmo acontecendo para valores grandes. Estes dois casos indicam o que chamamos de correlação linear positiva de Y e X. O dados em (b) estão mais próximos da reta imaginária, caracterizando uma correlação mais forte que a de (a), ou seja, o valor da correlação em (b) está mais próxima de +1 do que (a), apesar do que, os dois conjuntos de dados têm valor de r maiores do que zero. A Figura (c) mostra que os pontos em X e Y estão em torno de uma reta imaginária descendente, indicando o que chamamos de correlação linear negativa, ou seja, valor de r menor que zero. Os valores de X e Y na Figura (d) não sugerem uma associação entre duas variáveis pois valores pequenos, ou grandes, de X estão associados tanto a valores pequenos quanto a valores grandes de Y. Os pontos do diagrama não se posicionam em torno de uma linha imaginária ascendente ou descendente. A Figura (e) aproxima-se mais de uma parábola do que de uma reta, ilustrando correlação não li- near. Apesar de serem muito correlacionados, o coeficiente de correlação linear será próximo de zero. Isto ocorre devido ao fato de que o coeficiente só pode ser usado para correlações lineares. Correlação e causalidade Dizemos que uma variável X “causa” Y se X provoca um efeito ou resultado em Y. Devemos es- tar atentos para não confundir os conceitos de correlação e causalidade. Muitas vezes encontramos uma 20151050 120 100 80 60 40 20 0 x Y Gráfico de Dispersão: Y vs X 47 forte correlação entre duas variáveis e somos tentados a estabelecer uma relação de causa e efeito entre as duas variáveis, o que nem sempre é verdade. A tabela seguinte apresenta o número de doentes mentais por 10000 habitantes e o número de aparelhos de rádio no Reino Unido durante os anos de 1924 a 1937. Ano Número de doentes men- tais no Reino Unido por 10000 habitantes Número aparelhos de rádio (em milhões) 1924 8 1350 1925 8 1960 1926 9 2270 1927 10 2483 1928 11 2730 1929 11 3091 1930 12 3647 1931 16 4620 1932 18 5497 1933 19 6260 1934 20 7012 1935 21 7618 1936 22 8131 1937 23 8593 O gráfico abaixo mostra a forte relação existente entre o número de doentes mentais e o número de aparelhos de rádio. Entretanto, não é razoável pensar que a relação seja de causa e efeito. A variável ano é que está provocando está correlação. Ambas as variáveis aumentaram ao longo do tempo. 48 Quando encontramos uma correlação sem relação causal, dizemos que a correlação é espúria. Em muitas situações práticas não é tão simples decidir se a relação é causal. Uma forma de se es- tabelecer se a relação é de causa e efeito é através da realização de experimentos planejados. Estudar a correlação entre duas ou mais variáveis pode ser bastante útil. Se Y é uma medida de um produto ou processo e se Y está fortemente correlacionada com outra medida X que é mais barata ou mais fácil de obter, então podemos medir X e através da relação existente entre elas estimar o valor de Y. A técnica utilizada nesse tipo de situação é regressão linear, que será estudada mais à frente. 900080007000600050004000300020001000 25 20 15 10 N aparelhos de rádio (1000) N d o e n te s M e n ta is p o r 1 0 0 .0 0 0 h Gráfico de Dispersão: N doentes Mentais vs N aparelhos de rádio 49 Capítulo 2. Introdução à Probabilidade Introdução No capítulo anterior foram apresentadas ferramentas estatísticas para a sumarização dos dados, que é geralmente a primeira etapa da análise de dados. Essa etapa é geralmente aplicada em um conjunto de dados observados em uma amostra retirada de uma população. É necessário avançar na análise e, utili- zando os resultados da amostra, fazer inferências sobre a população. O processo inferencial utiliza concei- tos de probabilidade, que é o tópico a ser coberto nesse capítulo. Exemplo: Uma empresa quando recebe um lote de matéria-prima de um fornecedor tem de decidir se o lote satisfaz níveis de qualidade estabelecidos. Em geral, uma amostra é retirada do lote e ín- dices de qualidade, como, por exemplo, a porcentagem de defeituosos, são calculadas na amostra. Utili- zando-se o índice calculado, deve-se decidir se o lote é aprovado ou reprovado. Esse processo de tirar conclusões sobre a população (lote) a partir de uma amostra utiliza os conceitos de probabilidade. Obvia- mente a conclusão está sujeita a erros. Podemos aprovar o lote quando ele tem uma porcentagem de defei- tuosos maior que o aceitável ou reprovar um lote que tem porcentagem de defeituosos menor que o acei- tável. O uso da teoria de probabilidade permite mensurar as chances de cometer esses dois tipos de erro, bem como auxilia a estabelecer planos amostrais de tal forma a controlar as chances de tomar uma deci- são incorreta. Os conceitos de probabilidade são importantes por si só, e têm importantes aplicações em proces- sos decisórios onde a incerteza está presente. Serão apresentados aqui apenas os conceitos básicos sobre probabilidades. Conceitos de Probabilidade Um experimento aleatório é um processo que apresenta como resultado qualquer um de um con- junto de possíveis valores, sem que a ocorrência de um particular evento possa ser predita com certeza. A 50 maneira mais comum de medir a incerteza de um evento que pode resultar de um experimento aleatório é através da atribuição de um valor que reflete a chance de ocorrência desse evento. Esse valor é chamadode probabilidade. Historicamente, a forma mais antiga de medir incerteza através de probabilidade é através do que é chamado de probabilidade clássica. Essa medida foi desenvolvida basicamente através dos jogos de azar. O conceito clássico de probabilidade aplica-se somente quando todos os possíveis resultados são igualmente prováveis. Suponha que um experimento aleatório tem um total de � resultados possíveis Ri, & = 1,2, . . , �, e que cada um desses resultados é igualmente provável. Então, a chance de ocorrência de cada um é 1/�. Expressamos isso de uma maneira formal dizendo: _�`� = 1/�, onde _ simboliza Probabilidade. Se um evento E é formado por m eventos elementares igualmente prováveis, então _�a = 6/�. O exemplo mais clássico de aplicação da probabilidade clássica é o lançamento de um dado ho- nesto. O conjunto de resultados possíveis é {1, 2, 3, 4, 5, 6} e cada resultado ocorre com probabilidade 1/6. Se o evento E é formado pelos resultados pares, então _�a = _�2,4,6 = 3/6. Note que estamos fa- lando aqui de um dado hipotético, para o qual assumimos que as faces são igualmente prováveis. Nada garante que um dado real tenha que ter faces igualmente prováveis. Se o experimento aleatório obedece à condição de eventos elementares igualmente prováveis, en- tão todas as probabilidades relacionadas com o experimento podem ser calculadas a priori, sem necessi- dade de experimentação. Entretanto, na maioria das situações, temos de estimar a probabilidade a partir da realização de experimentos. Para tanto, usamos a abordagem frequentista para calcular probabilidades. Suponha que um experimento que tem como resultados possíveis {` , `�, . . . , `d} é realizado um número � de vezes, e que cada resultado `& ocorre �& vezes. Então a frequência relativa do evento `� é )� = �� /�. Se � é suficientemente grande, �1� converge para _�`� , e usamos o valor ni /n como o valor 51 aproximado de _�`� . A aplicação da abordagem frequêntista pressupõe que nas n repetições do experi- mento o sistema esteja estável, ou em equilíbrio. Como ∑�� = �, temos que ∑ �1� = ∑)� = 1. Outra abordagem é tratar probabilidade como uma medida de crença sobre a ocorrência de um evento. Por exemplo, observando as condições de tempo hoje, uma pessoa afirma, baseada em sua experi- ência, que a chance de chover amanhã é 40%. Esse número é a sua probabilidade pessoal, ou subjetiva sobre o evento “chover amanhã”. Um especialista em mercado de ações afirma, baseado em sua experiên- cia e nas informações que tem disponível, que a chance que as ações de uma determinada empresa subam no pregão é de 70%. Qualquer que seja a interpretação, ou abordagem, as leis básicas de probabilidade são as mesmas. Em lugar de desenvolver essas leis com rigor formal, vamos listá-las aqui, apelar para a intuição do leitor para sua devida compreensão, e ilustrá-las através de alguns exemplos simples. As leis da Probabilidade Denotaremos por uma letra maiúscula A, B, ... um evento aleatório. Em geral, um evento aleató- rio é um conjunto de objetos, e utilizaremos a linguagem da teoria dos conjuntos para listar as leis da pro- babilidade. Por exemplo, se um experimento aleatório consiste em lançar um dado e definimos o evento A como sendo formado pelos resultados pares, então e = {2,4,6}. Se estivermos estudando o tempo de vida de leite longa vida, podemos definir o evento A como sendo formado por todas as caixas que duram um tempo maior que 90 dias. Então, e = {W: W > 90}. Observe nesse exemplo que a observação é o tempo de vida da caixa, portanto os eventos são formados por intervalos de tempo. Denotaremos por S o conjunto de todos os resultados possíveis. No primeiro exemplo, < ={1,2,3,4,5,6}. No segundo exemplo, < = {W: W > 0}. Observe que no segundo exemplo consideramos < formado por todos os tempos maiores ou iguais a zero. Embora se saiba que há um limite para o tempo de vida de uma caixa de leite longa vida, por razões que ficarão claras mais à frente, é mais conveniente mo- delar o conjunto dos valores possíveis para o tempo de vida como formado por todos os valores maiores ou iguais a zero. 52 Denotaremos por _�e a probabilidade de ocorrência do evento A 1º Lei. Qualquer que seja o evento A 0 ≤ _�e ≤ 1 Se S representa o conjunto de todos os resultados possíveis e ∅ o conjunto vazio, então, _�< = 1 e _�∅ = 0. 2º Lei. Se e e e� são dois eventos que não têm nenhum elemento em comum dizemos que e e e� são disjuntos �e ∩ e� = ∅ . Se dois eventos e e e� são disjuntos, então _�e ∪ e� = _�e + _�e� Obs. O evento �e ∪ e� é formado por todos os elementos de e e de e�. Generalizando, se e , e�, … , ed são eventos mutuamente disjuntos, então, _�e ∪ e� ∪ …∪ ed = _�e + _�e� + . . . +_�ed 3º Lei. Representamos por Ac o evento formado por todos os resultados possíveis que não fazem parte de A. Dizemos que Ac é o complementar do evento A. Temos, ek ∪ e = < e ek ∩ e = ∅. Então temos: _�ek = 1 − _�e 4º Lei. Se e e e� são dois eventos quaisquer, então, _�e ∪ e� = _�e + _�e� − _�e ∩ e� . Probabilidade Condicional e Independência 53 Em muitas situações, quando queremos saber a probabilidade de que certo evento e ocorra, temos à disposição a informação de que outro evento relacionado, l, ocorreu. Veremos como a informação de que o evento l ocorreu altera a probabilidade de ocorrência do evento e. A probabilidade revisada de e dada a informação de que l ocorreu é chamada de probabilidade condicional de e dado l e denotamos por _�e|l . Para ilustrar esse novo conceito e aprender como calcular a probabilidade condicional vamos recorrer a um exemplo. Exemplo: Um grupo de bancários foi classificado de acordo com sua condição de peso cor- poral e presença ou ausência de hipertensão. As proporções encontradas nas diversas categorias aparecem na tabela a seguir. Tabela: Condição de Peso Corporal e Hipertensão Condição em relação ao peso Acima Normal Abaixo Total Hipertenso Sim 0.10 0.08 0.02 0.20 Não 0.15 0.45 0.20 0.80 Total 0.25 0.53 0.20 1.00 Qual é a probabilidade de que uma pessoa selecionada ao acaso desse grupo tenha hipertensão? Vamos usar o símbolo e para denotar hipertensão. Então, queremos saber _�e . Esse valor é igual a 0.20 e escrevemos _�e = 0.20. Qual é a probabilidade que uma pessoa selecionada ao acaso desse grupo te- nha peso acima do normal. Vamos usar o símbolo l para a condição de ter peso acima do normal. Então, _�l = 0.25. Essas duas probabilidades são probabilidades não condicionadas. Suponha agora que uma pessoa é selecionada ao acaso e ela tem peso acima do normal. Qual é a probabilidade de que ela seja hipertensa. Como sabemos que ela tem peso acima do normal, o conjunto de pessoas a serem consideradas se reduz a 54 25% do total. Dessas 25%, 10% são hipertensas. Então a probabilidade considerada é igual a 0.10/0.25 = 0.40. Portanto, dada a informação de que a pessoa tem peso acima do normal, a probabilidade de ser hipertensa é igual a 40% e escrevemos: _�e|l = . .�2 = 0.40 Considere agora o evento: a pessoa é hipertensa e tem peso acima do normal. Denotamos esse evento por e ∩ l, ou simplesmente el. Então _�el = 0.10, ou seja, existem 10% de pessoas que satis- fazem as duas condições ao mesmo tempo. Note que no cálculo da probabilidade condicional usamos a razão 0.10/0.25, que nesse caso coincide com a razão I�no I�o . De fato, essa coincidência não é fortuita e vale sempre, de tal forma que podemos utilizar essa relação para o cálculo da probabilidade condicional. A probabilidade condicional de e dado l é denotada por _�e|l e é definida pela fórmula _�e|l = _�el _�l desde que _�l > 0. Equivalentemente, essa fórmula pode ser escrita como _�el = _�e|l _�l Essa versão da fórmula é chamada de lei da multiplicação da probabilidade. Similarmente, a probabilidade condicional de B dado A pode ser
Compartilhar