Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Rio de Janeiro UVA 2016 Walter Sande Estatística Rio de Janeiro UVA 2016 Copyright © UVA 2016 Nenhuma parte desta publicação pode ser reproduzida por qualquer meio sem a prévia autorização desta instituição. Texto de acordo com as normas do Novo Acordo Ortográfico da Língua Portuguesa. ISBN: 978-85-69287-29-2 Autoria do Conteúdo Walter Sande Projeto Gráfico UVA Diagramação Isabelle Martins Revisão Janaína Senna Isabel Oliveira Lydianna Lima Ficha Catalográfica elaborada pelo Sistema de Bibliotecas da UVA. Biblioteca Maria Anunciação Almeida de Carvalho. S214 Sande, Walter Estatística [livro eletrônico] / Walter Sande. – Rio de Janeiro : UVA, 2016. 2,4 MB. ISBN 978-85-69287-29-2 Disponível também impresso. 1. Estatística. I. Universidade Veiga de Almeida. II. Título. CDD – 519.5 SUMÁRIO Apresentação...............................................................................................................7 Sobre o autor...................................................................................................................9 Capítulo 1 - Estatística descritiva..................................11 Diferentes tipos de dados.........................................................................13 Resumos gráficos..........................................................................................15 Medidas de tendência central..................................................................20 Medidas de variação....................................................................................28 Medidas de posição......................................................................................34 Referências......................................................................................................40 Capítulo 2 - Distribuições de probabilidade...............41 Introdução à probabilidade........................................................................42 Variáveis aleatórias e distribuições de probabilidade.................51 Valor esperado e variância......................................................................55 Principais distribuições discretas...........................................................58 Principais distribuições contínuas..........................................................63 Referências......................................................................................................72 Capítulo 3 - Amostragem...............................................73 Noções de inferência estatística e amostragem...............................74 Intervalo de confiança...............................................................................78 Teste de hipóteses.........................................................................................86 Referências......................................................................................................100 Capítulo 4 - Covariância, correlação e regressão linear...101 Diagrama de dispersão...............................................................................104 Medida da associação entre duas variáveis.......................................107 Regressão linear............................................................................................119 Referências......................................................................................................135 Considerações finais......................................................136 7 APRESENTAÇÃO APRESENTAÇÃO Quantos filmes você assiste por mês? Qual a quantidade de filmes assistidos por mês pelas pessoas na sua faculdade? A primeira pergunta é para uma pessoa em particular, e, portanto, só há uma resposta. A segunda pergunta é para muitas pessoas, e, nesse caso, a quantidade de filmes assistidos vai ser variada. Então, qual res- posta a ser informada? Todas as idades? Vamos precisar da estatística para encontrar traços desse conjunto e chegar a conclusões. Como ve- remos mais adiante, podemos usar alguma medida de tendência cen- tral, como a média, para responder. Muitas vezes, recorremos à estatística para responder a alguns ques- tionamentos do dia a dia. A estatística é uma ferramenta valiosa de pesquisa que consiste em uma forma de aprender a partir de um con- junto de dados. Seu objetivo é traduzir os dados em conhecimento e compreensão para outras pessoas. Saber quantificar a incerteza em tor- no desses dados também é necessário. Podemos dizer que um método estatístico está dividido em quatro etapas: 1. Formulação do problema estatístico de interesse. 2. Coleta de dados. 3. Análise dos dados, fase em que procuramos descrever os da- dos obtidos. 4. Inferência dos resultados, momento em que tomamos deci- sões e fazemos previsões. Qual a quantidade média de filmes assistidos por mês pelas pessoas em sua faculdade? 8 Para descobrirmos a verdadeira resposta, todos os alunos deveriam ser entrevistados. Mas isso não seria muito trabalhoso? Não existe um modo mais eficiente? Sim. Podemos escolher algumas pessoas ao acaso e calcular a média para elas, esperando que o valor encontrado seja uma boa indicação da média de todas as pessoas. Em termos mais for- mais, a ideia aqui, então, seria escolher uma amostra aleatória e calcu- lar a média para essa amostra, de modo a ser possível fazer inferências a respeito da média para a população. Toda pesquisa estatística possui um conjunto de elementos de interes- se, a partir do qual os dados são coletados e analisados. O conjunto de todos os elementos que possuem pelo menos uma característica em comum é chamado de população. No entanto, na prática, geralmente não dispomos da totalidade das observações de um fenômeno em estu- do, mas dados de apenas alguns desses elementos, pois seria inviável obter informações de todos, seja por falta de tempo ou de recursos. Chamamos de amostra esse subconjunto representativo da população, a partir do qual todos os elementos serão analisados para o estudo estatístico desejado. Quando temos um cálculo baseado na amostra e de alguma forma ten- tamos estimá-lo para a população inteira, chamamos de estatística, ou seja, uma característica da amostra. Esse valor que desejamos estimar é chamado de parâmetro, que é uma medida para descrever uma carac- terística da população. Sendo assim, podemos dizer que usamos a estatística descritiva para resumir os dados da amostra e, a partir de análises, usamos a esta- tística inferencial para tomar decisões e fazer previsões sobre uma população. 9 SOBRE O AUTOR Walter Wagner Carvalho Sande é doutor em Administração pela Esco- la Brasileira de Administração Pública e de Empresas da Fundação Ge- túlio Vargas – Ebape/FGV e mestre em Administração pelo Instituto de Pós-Graduação e Pesquisa em Administração da Universidade Federal do Rio de Janeiro – Coppead/UFRJ, formado em Engenharia Mecânica pelo Instituto Militar de Engenharia – IME e em Análise de Sistemas pela Universidade do Estado do Rio de Janeiro – Uerj. Após anos de carreira profissional dedicada a empresas como Golden Cross, Varig, Michelin, entre outras, atualmente é professor de graduação na FGV/RJ e de pós-graduação em diversas instituições de ensino, além de se dedicar à pesquisa, com foco nos métodos quantitativos aplicados às ciências sociais. ...................................................................................................................................................................................................................... 10 11Diferentes tipos de dados ...................................................................................................................................................................................................................... CAPÍTULO 1 ESTATÍSTICA DESCRITIVA Quando temos uma grande quantidade de dados e quere- mos revelar algo sobre eles, sem ter que divulgá-los por completo, podemos descrevê-los por meio de um conjunto menor de números. Trata-se da estatística descritiva. Esses resumos dos dados devem buscar evitar distorções e per- da de muitas informações, constituindo-se, geralmente, em gráficos e números, como médias e percentagens. A fim de ilustrar o que se segue, consideremos o seguinte exemplo: Exemplo 1: um pesquisador está interessado em analisar algumas características dos alunos da faculdade em que estuda. Usando as informações obtidas por meio de entre- vistas a 30 pessoas escolhidas aleatoriamente, ele elaborou a tabela 1. Tabela 1 – Tabela de dados. Id. Aluno Sexo Idade Altura Período da faculdade CR Filmes assisti- dos por mês Nível de simpatia 1 F 20 1,65 Veterano 6 7 10 2 M 23 1,90 Veterano 6 4 1 3 F 18 1,60 Calouro 3 3 8 4 F 19 1,65 Veterano 6,6 8 2 5 M 20 1,92 Veterano 6,7 10 7 6 F 20 1,65 Veterano 6,8 7 2 7 M 18 1,70 Veterano 6,8 8 0 Estatística descritiva12 ...................................................................................................................................................................................................................... 8 M 22 1,73 Veterano 6,9 9 9 9 F 19 1,60 Calouro 4,7 20 3 10 F 19 1,60 Veterano 7,4 9 8 11 F 24 1,59 Calouro 5,9 4 10 12 M 18 1,70 Calouro 6,5 5 2 13 M 20 1,70 Calouro 6,8 4 7 14 M 21 1,72 Calouro 6,8 6 3 15 F 20 1,60 Veterano 7,5 7 5 16 M 18 1,70 Calouro 7,5 6 7 17 M 19 1,74 Calouro 7,5 6 4 18 M 19 1,72 Calouro 7,5 6 2 19 M 17 1,77 Calouro 8,8 5 8 20 M 18 1,79 Veterano 7,5 7 9 21 M 19 1,76 Calouro 8,9 10 8 22 M 19 1,76 Veterano 7,5 11 1 23 M 20 1,75 Veterano 7,5 5 2 24 M 21 1,78 Veterano 7,7 7 3 25 M 22 1,76 Veterano 7,7 6 6 26 M 20 1,83 Calouro 9,8 9 6 27 M 22 1,8 Veterano 7,9 6 8 28 M 23 1,8 Veterano 7,9 6 1 29 M 24 1,8 Veterano 8 4 4 30 M 19 1,79 Calouro 9,9 8 9 Fonte: Elaborado pelo autor com dados hipotéticos. 13Diferentes tipos de dados ...................................................................................................................................................................................................................... DIFERENTES TIPOS DE DADOS Uma variável é qualquer característica medida ou avalia- da em cada elemento da amostra ou população. Como o próprio nome diz, seus valores (observações) variam de elemento para elemento. Diz-se que uma variável é qualitativa (ou categórica) se cada observação pertence a um subconjunto de um con- junto de categorias, que correspondem aos possíveis atri- butos do elemento pesquisado. Esses possíveis resultados ainda podem ser classificados como ordinais, quando existe uma noção de ordenação ou hierarquia entre eles, ou nominais, em caso contrário. Muitas vezes utiliza- mos números para representar variáveis qualitativas, por exemplo, 1 para o sexo feminino e 2 para o masculino. No entanto, esses valores têm função puramente de classifica- ção e, portanto, não podem ser operados aritmeticamente, muito menos serem usados para ordenar as categorias ou lhes atribuir algum tipo de valor comparativo. Dizemos que uma variável é quantitativa (ou numérica) se as observações assumem valores numéricos resultantes de um processo de contagem ou mensuração. As variá- veis quantitativas ainda possuem uma classificação dico- tômica: (a) discretas, se possuem uma quantidade finita ou enumerável de valores possíveis, (b) contínuas, se pos- suem uma quantidade infinita de valores possíveis, per- tencentes a um intervalo de números reais. ...................................................................................................................................................................................................................... Estatística descritiva14 ...................................................................................................................................................................................................................... A tabela 2 apresenta a classificação de algumas das variá- veis presentes no exemplo 1: Tabela 2 – Tipos de dados (classificação). Variável Observações possíveis Classificação Sexo Feminino (F) e masculino (M) Qualitativa nominal Período da faculdade Calouro e veterano Qualitativa ordinal Idade …,17,18,19,… Quantitativa discreta Altura …,1,60,…,1,65,…,1,90,… Quantitativa contínua 15Resumos gráficos ............................................................................................................................................................................................................................................................................................................................................................................................................................................ RESUMOS GRÁFICOS Os dados podem ser sumarizados e descritos por meio da construção de gráficos e tabelas. É sempre uma boa ideia analisar inicialmente os dados por meio de gráficos, pois isso ajuda na obtenção do feeling acerca dos fenômenos observados, proporcionando maiores informações a res- peito do comportamento de cada variável. Como temos dois tipos bem distintos de variáveis, é de se esperar que tenham tipos de gráficos que se adequem a um conjunto de dados melhor do que outros. Para as variáveis qualitativas, usamos o gráfico de pizza e o gráfico de barras. Em um gráfico de pizza, cada fatia corresponde à porcentagem de observações de cada atri- buto observado da variável analisada. Por exemplo, pela figura 1, podemos verificar que a variável “Período da fa- culdade” possui apenas dois atributos possíveis, calouros e veteranos, de tal forma que, do total das entrevistas realizadas, 43% das observações foram respondidas por calouros, e 57%, por veteranos. 16 ...................................................................................................................................................................................................................... Estatística descritiva Figura 1 – Gráfico de pizza. Período da faculdade Como é possível verificar pela figura 2, a diferença para um gráfico de barras é que, em vez de fatias, temos barras verticais, e a altura de cada barra corresponde à contagem de ocorrências de cada atributo associado à variável. Figura 2 – Gráfico de barras. Período da faculdade Para as variáveis quantitativas, em geral, usamos histo- gramas, bem semelhantes aos gráficos de barras verticais. Nesse tipo de gráfico, a ideia é definir faixas de valores e calcular a frequência de observações pertencentes a cada um desses intervalos. Essas frequências podem ser abso- lutas (contagem de ocorrência) ou relativas (porcentagens 17Resumos gráficos ......................................................................................................................................................................................................................do total), como mostra a figura 3. Ou seja, o histograma é criado em cima desse resumo (tabela) de frequências. Figura 3 – Histogramas. Histograma de idades (frequência absoluta) Histograma de idades (frequência relativa) Forma das distribuições As distribuições também podem ser classificadas pelo formato de gráfico que exibem. Se uma linha vertical tra- çada sobre a mediana produz duas imagens espelhadas, dizemos que a distribuição é simétrica. Se a distribuição apresenta todas as observações com a mesma frequência (o que, em um gráfico de barras, corresponde a todas as barras com mesma altura), classificamos a distribuição como sendo uniforme, o que também permite classificá-la como simétrica. A figura 4 apresenta exemplos de ambos os gráficos. 18 ...................................................................................................................................................................................................................... Estatística descritiva Figura 4 – Distribuições simétricas. Distribuição simétrica Distribuição uniforme Caso contrário, como mostra a figura 5, temos uma dis- tribuição assimétrica, que ainda pode ser classificada em dois tipos, de acordo com o lado que registra a maior fre- quência: assimétrica à esquerda (ou negativamente assi- métrica) e assimétrica à direita (ou positivamente assimé- trica). Figura 5 – Distribuições assimétricas. Distribuição assimétrica à direita 19Resumos gráficos ...................................................................................................................................................................................................................... Distribuição assimétrica à esquerda 20 ...................................................................................................................................................................................................................... Estatística descritiva MEDIDAS DE TENDÊNCIA CENTRAL Além dos resumos gráficos, também devemos considerar os resumos numéricos da amostra. Uma medida de ten- dência central é um valor único cuja função é representar o conjunto de dados como um todo, por meio da identifi- cação de um valor típico (ou central). Ou seja, representa um valor em torno do qual os dados se agrupam. As três medidas mais utilizadas são a moda, a média e a mediana. Uma forma de entendermos o quanto cada uma dessas medidas é representativa (ou não) dentro do con- junto de dados que estamos analisando é por meio do au- xílio dos gráficos tratados no tópico anterior. Moda A moda é o valor que ocorre com mais frequência em um conjunto de dados, se ele existir. Se não temos números repetidos, se não temos um que seja mais comum, então não temos moda. Trata-se de uma medida que é mais usada, em geral, para identificar a categoria de uma variável qualitativa que te- nha a frequência mais alta. Portanto, um gráfico de pizza é de grande auxílio nesse tipo de identificação. Pelo gráfico da figura 1, verifica-se que a categoria veterano é a mais frequente para a variável período da faculdade. Também podemos identificar a moda de uma variável quantitativa, como a idade. A tabela 3 apresenta a frequência em que 21Medidas de tendência central ...................................................................................................................................................................................................................... os valores ocorrem para o conjunto de dados coletados. Conclui-se que a maioria das pessoas entrevistadas tem 19 anos. Tabela 3 – Frequência de idades. Idade Frequência 17 1 18 5 19 8 20 7 21 2 22 3 23 2 24 2 Em alguns casos, podemos ter duas ou mais modas. Con- siderando o exemplo, um dos interesses do pesquisador foi medir o nível de simpatia dele na faculdade. Então, para isso, cada pessoa entrevistada teve que lhe atribuir um valor de uma escala de 0 (extremamente antipático) a 10 (extremamente simpático) de quão simpático ela o considera. A figura 6 mostra o histograma resultante des- se estudo. Podemos verificar que os alunos da faculdade são bastante divididos quanto ao nível de simpatia que atribuem ao pesquisador, pois algumas pessoas o consi- deram muito simpático, enquanto outras o consideram muito antipático. 22 ...................................................................................................................................................................................................................... Estatística descritiva Figura 6 – Distribuição bimodal. Nível de simpatia Fonte: Elaborado pelo autor com dados hipotéticos. Nesse caso, podemos concluir que essa distribuição apre- senta duas modas, 2 e 8, e que ambas possuem frequência igual a 5. Trata-se, então, de uma distribuição bimodal. Média A medida mais conhecida e mais utilizada de tendência central de uma variável quantitativa é a média. Existem muitos tipos de média, mas estamos considerando aqui a média aritmética, ou seja, aquela que corresponde à soma de todas as observações da variável em questão dividido pelo número delas. Podemos interpretá-la como o ponto de equilíbrio da distribuição. Sejam x 1 , x 2 , …, x n os n valores de uma variável X, distintos ou não, a média amostral, denotada por x̅ (lê-se x barra), é dada por: x̅ = x 1 + x 2 + ... + x n = ∑ x i n n i n 23Medidas de tendência central ...................................................................................................................................................................................................................... Retornando ao exemplo, sabemos que um dos interesses do pesquisador foi perguntar aos alunos de sua faculdade sobre a quantidade de filmes que eles assistem por mês. Os resultados para os calouros e veteranos podem ser vi- sualizados pelos gráficos da figura 7. Figura 7 – Filmes assistidos por mês. Filmes assistidos por mês (calouros). Filmes assistidos por mês (veteranos) A média de filmes assistidos é calculada para os calouros da seguinte forma: 3 + (2×4) + (2×5) + (4×6) + 8 + 9 + 10 + 2 × 20 = 92 = 7,07 14 14 24 ...................................................................................................................................................................................................................... Estatística descritiva E para os veteranos: (3×4) + 5 + (3×6) + (5×7) + (2×8) + 9 + 10 + 11 = 116 = 6,82 17 17 Portanto, a média de filmes assistidos por mês é maior para os calouros. Analisando o gráfico dos calouros, ve- rifica-se que o fato de a média ser 7,07 tem uma grande influência da pessoa que respondeu que assiste 20 filmes por mês. Se tivéssemos desconsiderado essa observação, a média teria sido 6, ou seja, a observação com valor 20 des- locou a média para a direita. Por outro lado, analisando o gráfico dos veteranos, a média 6,82 representa bem uma medida central da distribuição, pois não sofreu distorções de nenhum elemento muito distante do restante da distri- buição. Portanto, a média é uma boa medida para o centro da distribuição dos veteranos. A média é muito sensível aos valores que ficam bem dis- tantes do resto da distribuição. Ou seja, a média pode ser altamente influenciada pelo que chamamos de outliers, observações que possuem valores muito acima ou muito abaixo da grande parte dos dados. A suspeita de outliers requer uma investigação mais aprofundada sobre os da- dos coletados,pois podem ter sido originados por um erro na entrada de dados ou podem corresponder realmente a ocorrências incomuns da variável analisada. Mediana A mediana corresponde ao valor do meio em um conjunto de dados que tenha sido ordenado do menor para o maior 25Medidas de tendência central ...................................................................................................................................................................................................................... (ou do maior para o menor). É uma boa solução quando temos uma observação com valor atípico, que pode dis- torcer a média. Se a quantidade de observações é ímpar, então a mediana corresponde exatamente à observação do meio do conjun- to ordenado. No caso de ser par, a mediana corresponde à média entre os dois valores que estão no meio na or- dem de classificação. Consideremos as n observações da variável X colocadas em ordem crescente, de modo que a menor observação seja denotada por x (1) e a maior por x (n) : x (1) ≤ x (2) … ≤ x (n–1) ≤ x (n) . As observações ordenadas dessa forma recebem o nome de estatísticas de ordem. E, com isso, podemos calcular a mediana de X. Med (X) = X , se n ímpar X , se n par Por exemplo, vamos considerar a variável X que corres- ponde à quantidade de filmes que os alunos assistem por mês. Ordenando as n = 30 observações podemos calcular a mediana. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 3 4 4 4 4 4 5 5 5 6 6 6 6 6 6 6 17 18 19 20 21 22 23 24 25 26 27 28 29 30 7 7 7 7 7 8 8 8 9 9 10 10 11 20 { ( )n + 12n 2 ( ) 26 ...................................................................................................................................................................................................................... Estatística descritiva Med (X) = x 15 + x 16 = 6 + 6 = 6 2 2 Vamos supor que só tivéssemos as 29 primeiras observa- ções, então Med(X) = x 15 = 6. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 3 4 4 4 4 4 5 5 5 6 6 6 6 6 6 6 17 18 19 20 21 22 23 24 25 26 27 28 29 7 7 7 7 7 8 8 8 9 9 10 10 11 Comparando média e mediana A forma como os dados estão distribuídos influencia se a média é maior, igual ou menor do que a mediana. Como mostra a figura 8, para distribuições perfeitamente simétricas, média e mediana coincidem. Para uma distri- buição assimétrica, a média é puxada na direção da cauda mais longa em relação à mediana. Logo, distribuições as- simétricas à direita possuem média maior do que a me- diana. Para distribuições assimétricas à esquerda, ocorre o inverso. Figura 8 – Média e mediana em diferentes distribuições. Fonte: Adaptado de Agresti e Franklin (2013). 27Medidas de tendência central ...................................................................................................................................................................................................................... Pelo fato de a mediana não ser afetada por observações com valores extremos, dizemos que ela é uma medida mais robusta (resistente a esse efeito) do que a média. Portanto, se temos uma distribuição assimétrica, em geral escolhemos como medida de tendência central a mediana, pois representa melhor o que é típico. Quando temos uma distribuição simétrica ou bem perto disso, em geral a mé- dia é escolhida, pois usa os valores numéricos de todas as observações. 28 ...................................................................................................................................................................................................................... Estatística descritiva MEDIDAS DE VARIAÇÃO Apenas as medidas de tendência central não são suficien- tes para descrever as variáveis quantitativas. Precisamos também de resumos numéricos que nos ajudem a compre- ender o quanto os dados analisados variam entre si. Figura 9 – Variabilidade dos dados. Na figura 9, temos dois conjuntos de dados diferentes, mas ambos com a mesma média (x̅ = y̅). Embora eles te- nham a mesma média, a distribuição dos valores em cada um desses conjuntos é diferente. Os dados em cinza-claro estão bem mais dispersos, mais distantes da média, do que os dados em cinza-escuro. Como podemos medir essa dispersão em torno da média? As medidas mais frequen- temente usadas são a amplitude, a variância e o desvio médio padrão e servem para medir a representatividade da média. Para exemplificar o cálculo das medidas de variação nas subseções a seguir, vamos utilizar as observações da vari- ável coeficiente de rendimento – CR analisada pelo pesqui- 29Medidas de variação ...................................................................................................................................................................................................................... sador do exemplo. Dividiremos essas observações em dois conjuntos: X A : calouros e X B : veteranos, conforme mostra a tabela 4. Para ambos os conjuntos temos que a moda (7,5), a mediana (7,5) e a média (7,2) são iguais. Tabela 4 – CR dos calouros e veteranos. CR dos calouros Frequência CR dos veteranos Frequência 3 1 6 2 4,7 1 6,6 1 5,9 1 6,7 1 6,5 1 6,8 2 6,8 2 6,9 1 7,5 3 7,4 1 8,8 1 7,5 4 8,9 1 7,7 2 9,8 1 7,9 2 9,9 1 8 1 Como mostram os gráficos da figura 10, temos dois con- juntos com mesmas moda, mediana e média, mas com va- riabilidades dos dados distintas. Figura 10 – Distribuição do CR. CR dos calouros 30 ...................................................................................................................................................................................................................... Estatística descritiva CR dos veteranos Amplitude A amplitude (total) da distribuição nos dá a ideia da faixa máxima de variação dos dados, sendo calculada pela dife- rença entre o maior e o menor valores observados. R = x máx – x mín Apesar de ser facilmente calculada, a amplitude não é uma medida muito utilizada em cálculos estatísticos, pois ig- nora os valores numéricos de quase todas as observações, trabalhando apenas com os dois valores extremos. Desse modo, podemos ter dois conjuntos com os mesmos va- lores extremos, o que resulta em uma mesma amplitude, mas com os dados distribuídos de modo bem distinto, não nos permitindo afirmar nada sobre a variabilidade. Para os dados do exemplo, temos que R A = 9,8 – 3 = 5,8 e R B = 8,2 – 4,9 = 3,3. Ou seja, há indícios de que o CR dos calouros esteja mais disperso do que o dos veteranos, pois a faixa de variação do CR é mais ampla para os calouros do que para os veteranos. 31Medidas de variação ...................................................................................................................................................................................................................... Variância e desvio-padrão Acabamos de ver que o porquê de a amplitude não ser uma medida muito eficiente para realizar afirmações acer- ca da variabilidade dos dados. Talvez nos fosse mais útil uma medida que levasse em consideração todas as n ob- servações da variável analisada, em vez de apenas duas delas. Como estamos interessados em medir a dispersão dos dados em torno da média, uma boa solução seria co- meçarmos calculando a dispersão de cada observação em relação à média x̅, calculando a diferença entre cada valor observado, x i , e a média, x̅: (x i – x̅). Tabela 5 – Calculando a variância do CR dos calouros. CR dos calouros(xi – x̅) (xi – x̅)2 3 -4,2 17,64 4,7 -2,5 6,25 5,9 -1,3 1,69 6,5 -0,7 0,49 6,8 -0,4 0,16 6,8 -0,4 0,16 7,5 0,3 0,09 7,5 0,3 0,09 7,5 0,3 0,09 8,8 1,6 2,56 8,9 1,7 2,89 9,8 2,6 6,76 9,9 2,7 7,29 TOTAL 0 46,16 Podemos verificar pela tabela 5 que existem desvios po- sitivos e negativos. De fato, observações acima da média possuem (x i – x̅) > 0, e observações abaixo da média pos- 32 ...................................................................................................................................................................................................................... Estatística descritiva suem (x i – x̅) < 0. Como a média corresponde ao ponto de equilíbrio da distribuição, ao somarmos esses desvios, os valores negativos se cancelam com os valores positivos, totalizando zero. Solução? Eliminar o sinal negativo dos desvios. Para isso, ou trabalhamos com os desvios abso- lutos (|x i – x̅|) ou com o quadrado dos desvios ((x i – x̅)2). Por questões matemáticas que envolvem peculiaridades de cada função, a segunda opção é escolhida. A expressão ∑ i=1 (x i – x̅)2 recebe o nome de soma dos quadrados. Com isso, definimos variância (σ2) como a soma dos qua- drados das diferenças de cada observação em relação à média (soma dos desvios ao quadrado), dividida pelo ta- manho da amostra. σ2 = ∑ i=1 (x i – x̅)2 n Calculada dessa forma, essa medida é chamada de vari- ância populacional. Veremos nos próximos capítulos que, para calcular a variância amostral, representada por S2, devemos repetir o mesmo procedimento apresentado, no entanto, usando o denominador n – 1 em vez de n. Como podemos observar, a variância representa uma mé- dia dos quadrados dos desvios dos valores observados em relação à média (pois, no final das contas, é uma divisão entre a soma de valores pela quantidade de valores nessa soma). No entanto, como esses desvios são elevados ao quadrado, resulta que as unidades de medida da média, x̅, e da variância, σ2, não são as mesmas, o que dificulta bastante o uso da variância com a finalidade de analisar a dispersão em torno da média. n n 33Medidas de variação ...................................................................................................................................................................................................................... Uma medida de dispersão usada com maior frequência é o desvio-padrão (σ), que corresponde à raiz quadrada da variância e pode ser interpretado como a distância média de uma observação a partir da média. Um desvio-padrão próximo de zero significa que os dados estão próximos da média. Conjuntos de dados com valo- res muito afastados da média apresentam desvio-padrão elevado. Para os dados do exemplo, temos que: σ2 = 46,16 ≈ 3,55 → σ A = √3,55 ≈ 1,88 13 σ2 = 6,42 ≈ 0,37 → σ B = √0,37 ≈ 0,61 17 Portanto, como era de se esperar, o CR dos calouros apre- senta uma variância maior do que o CR dos veteranos. Como quanto maior for o desvio, mais dispersos em rela- ção à média são os valores observados, os resultados aci- ma comprovam o que havíamos observado anteriormente, ao analisarmos os gráficos e calcularmos a amplitude de cada conjunto de dados. A B 34 ...................................................................................................................................................................................................................... Estatística descritiva MEDIDAS DE POSIÇÃO Além das medidas já estudadas, devemos considerar algu- mas outras, pois elas podem não ser suficientes para uma sumarização adequada do conjunto de dados analisado. São necessárias medidas que nos ajudem a compreender melhor a simetria (ou assimetria) da distribuição de dados. Já vimos que a mediana é uma medida mais robusta que a média para valores extremos. Será que não podemos cal- cular outras medidas semelhantes, mas que sejam capa- zes de nos dar mais informações? Quantis Sabemos que a mediana é uma medida que divide o con- junto amostral ordenado, do menor para o maior, em duas partes, de modo que metade das observações encontra-se abaixo, e a outra metade, acima dela. De modo geral, po- demos definir uma medida capaz de dizer o quão longe uma observação está em relação a um determinado ponto. Chamamos essa medida de quantil. A figura 11 mostra um quantil de ordem p, denotado por q(v), que correspon- de a uma proporção p (0 < p < 1), tal que p por cento (p%) das observações são menores ou iguais a esse valor. En- tão, para p = 50, temos o 50º percentil, em que 50% das observações estão abaixo de q(0,50). E isso corresponde exatamente à mediana! 35Medidas de posição ...................................................................................................................................................................................................................... Figura 11 – Quantil de ordem p. Os quantis mais usados são os quartis, que, como o pró- prio nome já induz, correspondem a quartos do conjunto. Ao dividir o conjunto total em quatro partes iguais, temos: Q1 = q(0,25): corresponde ao primeiro quartil. Q2 = q(0,50): corresponde ao segundo quartil, tam- bém chamado de mediana. Q3 = q(0,75): corresponde ao terceiro quartil. Isso significa dizer que 25% dos dados estão abaixo do primeiro quartil, 25% estão entre o primeiro e o segundo quartis, 25% estão entre o segundo e o terceiro quartis e 25% estão acima do terceiro quartil. Vamos considerar as observações do CR dos calouros. 1. Ordenam-se em ordem crescente os dados para encontrar a mediana; com isso, temos Q2. 36 ...................................................................................................................................................................................................................... Estatística descritiva 3 4,7 5,9 6,5 6,8 6,8 7,5 7,5 7,5 8,8 8,9 9,8 9,9 Q2 2. Encontra-se a mediana da metade inferior; com isso, temos Q1. Encontra-se a mediana da metade superior; com isso, temos Q3. 3 4,7 5,9 6,5 6,8 6,8 7,5 7,5 7,5 8,8 8,9 9,8 9,9 Q2 Amplitude interquartil Uma outra forma de medir a variabilidade dos dados é por meio da amplitude interquartil. Trata-se de uma medida de dispersão melhor do que a amplitude total, pois des- considera os valores dos extremos. A sua principal van- tagem é que não é afetada pela presença de outliers na distribuição, pois não leva em consideração observações abaixo do primeiro quartil nem as que estão acima do ter- ceiro quartil. A amplitude interquartil é calculada pela diferença entre o terceiro e o primeiro quartis. ΔQ = Q 3 – Q 1 Quanto mais os dados variarem em uma distribuição, maior o valor de ΔQ. Para o CR dos calouros, temos que ΔQ A = 8,85 – 6,2 = 2,65, e dos veteranos, ΔQ B = 7,7 – 6,75 = 0,95, ou seja, o CR dos calouros apresenta maior variação. Q1 = 5,9 + 6,5 = 6,2 2 Q3 = 8,8 + 8,9 8,85 2 37Medidas de posição ...................................................................................................................................................................................................................... Detectando possíveis outliers Outra importante função da amplitude interquartil está re- lacionada ao fato de ela funcionar com uma ferramenta na identificação de potenciais outliers da distribuição. Uma observação é classificada como sendo potencial outlier se ela se encontra a mais do que 1,5 × ΔQ abaixo do primeiro quartil(cerca inferior) ou mais do que 1,5 × ΔQ acima do terceiro quartil (cerca superior). Cerca inferior = Q 1 – 1,5 × ΔQ Cerca superior = Q 3 + 1,5 × ΔQ Para o CR dos calouros, temos que possíveis outliers se- riam valores menores que 6,2 – 1,5 × 2,65 = 2,225 ou maio- res que 8,85 + 1,5 × 2,65 = 12,825. E, para o CR dos vetera- nos, seriam valores menores que 6,75 – 1,5 × 0,95 = 5,325 ou maiores que 7,7 + 1,5 × 0,95 = 12,825. Em nenhum desses conjuntos aparecem observações fora dessa faixa, portanto, não há suspeita da existência de outliers. É importante ressaltar que, com esse critério, estamos apenas identificando valores como outliers em potencial, mas não dando a certeza dessa classificação. Em alguns casos, como nas distribuições que apresentam o que se chama de cauda longa, embora distantes da maior parte dos dados, alguns valores extremos podem ser encontra- dos, sem que isso configure um caso raro ou praticamente impossível de ocorrer. Sendo assim, esses dados, mesmo fora da faixa determinada pelas cercas superior e inferior, não podem ser classificados como outliers. 38 ...................................................................................................................................................................................................................... Estatística descritiva Box plot: o resumo gráfico dos cinco números Os quartis, juntamente com os valores mínimo e máximo da distribuição, formam o que chamamos de resumo dos cinco números. Esses números, em conjunto, funcionam como a base de um gráfico denominado box plot, que for- nece informações sobre posição, dispersão, assimetria, caudas e outliers. A posição central é dada pela mediana, e a dispersão, pelo tamanho da caixa, que corresponde à amplitude inter- quartil. As posições relativas dos quartis dão uma noção sobre a assimetria da distribuição. As linhas verticais que partem da caixa até os valores mínimo e máximo corres- pondem aos comprimentos das caudas esquerda e direita, respectivamente. Os pontos que ficam além dessa estrutu- ra correspondem aos possíveis outliers. A figura 12 apresenta box plots correspondentes às obser- vações do CR dos calouros (à esquerda) e dos veteranos (à direita). Figura 12 – Box plots. CR dos calouros versus CR dos veteranos 39Medidas de posição ...................................................................................................................................................................................................................... Comparando os gráficos, notamos que, no box plot do CR dos calouros, os dados encontram-se mais dispersos em relação à média (pois a caixa tem um tamanho maior), com uma certa simetria entre a maior parte dos dados (pois a mediana está bem próxima ao centro da caixa), e há pre- sença de valores extremos de grande magnitude (o que se vê pelo grande comprimento das linhas verticais). Já no box plot do CR dos veteranos, observamos dados bem concentrados ao redor da média (pois o tamanho da caixa é menor), com uma assimetria à direita (a maior parte dos dados se encontra abaixo da mediana), e que os valores extremos não estão muito distantes da média (já que as linhas não são muito longas). ...................................................................................................................................................................................................................... 40 ...................................................................................................................................................................................................................... Estatística descritiva REFERÊNCIAS AGRESTI, A.; FRANKLIN, C. A. Statistics: the art and science of learning from data. 3. ed. Boston: Pearson, 2013. ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Esta- tística aplicada à administração e economia. 3. ed. São Paulo: Cengage Learning, 2014. BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 8. ed. São Paulo: Saraiva, 2013. LEVINE, D. M. et al. Estatística: teoria e aplicações: usando o Microsoft Excel em português. 6. ed. Rio de Janeiro: LTC, 2013. MCCLAVE, J. T.; BENSON, P. G.; TERRY, S. Estatística para administração e economia. 10. ed. São Paulo: Pearson Prentice Hall, 2009. STEVENSON, W. J. Estatística aplicada à administração. São Paulo: Harper & Row do Brasil, 1981. Links interessantes Portal Action – Estatística básica: <http://www.portalaction.com.br/estatistica-basica>. Portal Action – Estatística descritiva: <http://www.portalaction.com.br/estatistica-basica/esta- tisticas-descritivas>. Portal Action – Análises gráficas: <http://www.portalaction.com.br/estatistica-basica/grafi- cos>. 41Introdução à probabilidade ............................................................................................................................................................................................................................................................................................................................................................................................................................................ CAPÍTULO 2 DISTRIBUIÇÕES DE PROBABILIDADE Preciso sair com um guarda-chuva hoje? Quantas pessoas estarão na fila do almoço no horário de pico? Quantos pro- dutos a empresa irá vender no próximo mês? Quanto tem- po irá demorar até o fornecedor entregar a encomenda que fizemos hoje? Quantos produtos defeituosos irão escapar do controle de qualidade? Todos os dias, estamos sempre tomando decisões sobre si- tuações que, por mais que sejam observadas repetidamen- te sob as mesmas condições, geram resultados distintos e não previsíveis com certeza absoluta. Conhecemos os possíveis resultados, mas, por causa da aleatoriedade, o resultado de uma determinada observação é incerto. Nes- te capítulo, vamos, portanto, abordar esse assunto e seus desdobramentos. 42 ...................................................................................................................................................................................................................... Distribuições de probabilidade INTRODUÇÃO À PROBABILIDADE A probabilidade é uma medida capaz de mensurar essa incerteza, de modo a indicar o quão provável é a ocor- rência desse evento de interesse. O processo de coleta de dados associados a um fenômeno em que obtemos resul- tados com essas características é chamado de experimen- to aleatório. No entanto, apesar da incerteza associada ao resultado de uma observação futura de um experimento aleatório, exis- te uma certa previsibilidade estatística, garantida pela lei dos grandes números. Ao lançarmos uma moeda, sabe- mos intuitivamente que temos 50% de chance de cair cara, e 50% de cair coroa. Essa é uma noção intuitiva, que vem do conhecimento implícito de que há dois resultados pos- síveis, ambos com mesma chance de ocorrer. Quando re- petimos o lançamento quatro vezes seguidas, é de esperar que em dois deles tenhamos cara e, nos outros dois, coroa. Porém, é possível que ocorram quatro caras, ou quatro coroas... Contudo, como mostra a figura 13, com um nú- mero de observações suficientemente grande, a frequên- cia relativa de um resultado possível (cara, por exemplo) se estabiliza e converge para um número específico (50%, nesse caso), o qual é esperado. Essa proporção de vezes que o resultado cara ocorre, no longo prazo, é a base do conceito de probabilidade. 43Introdução à probabilidade ......................................................................................................................................................................................................................Figura 13 – A lei dos grandes números. Frequência acumulada de “cara” Portanto, quando lidamos com experimentos aleatórios, a frequência que um determinado resultado ocorre no curto prazo (ou seja, com poucas repetições do experimento) é alta- mente aleatória, mas, à medida que repetimos o experimento uma quantidade grande de vezes, ela se torna bem mais pre- visível. Essa proporção de vezes que um determinado resul- tado ocorre no longo prazo corresponde a sua probabilidade. Como calcular essas probabilidades? A fim de ilustrar o que se apresenta a seguir, consideremos o seguinte exemplo. Exemplo 2: a disciplina de Estatística é cursada por alu- nos de três cursos diferentes: Administração, Economia e Matemática. Como o nível exigido de matemática varia entre os cursos, a solução encontrada pelo professor foi aplicar três modelos de prova (A, B e C, respectivamente) que reflitam esse nível de exigência. Em uma turma de 60 alunos, 15 deles (25%) fizeram a prova A, que reprova o aluno com uma probabilidade 0,4; 36 (60%) fizeram a pro- va B, que reprova o aluno com uma probabilidade 0,25; e 9 (15%) fizeram a prova C, que reprova o aluno com uma probabilidade 0,33. 44 ...................................................................................................................................................................................................................... Distribuições de probabilidade Conceitos fundamentais Inicialmente devemos listar todos os casos possíveis. O conjunto composto por todos os resultados possíveis ori- ginados a partir de um experimento aleatório é denomina- do espaço amostral, representado normalmente por S ou Ω. A figura 14 exibe a árvore de probabilidades corres- pondente ao exemplo 2, com S = {AR, AR̅, BR, BR̅, CR, CR̅}, em que R corresponde à categoria de reprovado, e R̅, à de não reprovado (aprovado). Ou seja, o evento AR corresponde à proporção de alunos que fizeram a prova A e foram repro- vados, enquanto o evento AR̅, à proporção de alunos que fizeram a prova A e não foram reprovados. Figura 14 – Árvore de probabilidades. Pergunta-se, então: escolhendo aleatoriamente um aluno dessa turma, qual a probabilidade de que ele tenha feito a prova A? Um evento E é o subconjunto desse espaço amostral for- mado por todos os resultados possíveis que respondam a nossa pergunta de interesse. 45Introdução à probabilidade ...................................................................................................................................................................................................................... A = alunos que fizeram a prova A = {AR, AR̅} Cada resultado do espaço amostral e, consequentemente, cada evento têm uma probabilidade de ocorrência associa- da. Se o modelo é equiprobabilístico1, a probabilidade de um evento E, indicada por P(E), é dada por: P(E) = Número de resultados do evento E Número total de resultados do espaço amostral Dessa forma, P(A) = Número de alunos que fizeram a prova A Total do número de alunos P(A) = 15 = 0,25 60 No nosso exemplo, AR e AR̅ são eventos mutuamente ex- cludentes, ou seja, não podem ocorrer simultaneamente, pois um aluno que tenha feito a prova A não pode ter sido reprovado e não reprovado simultaneamente. Em outras palavras, a interseção entre AR e AR̅ é o conjunto vazio (AR ∩ AR̅ = Ø). Sendo assim, podemos calcular P(A) somando diretamente as probabilidades dos resultados individuais que compõem o evento A: P(A) = P(AR) + P(AR̅ ) = 0,1 + 0,15 = 0,25. Quando, ao contrário, dois eventos não são mu- tuamente excludentes, devemos subtrair a probabilidade associada à interseção entre eles da regra da soma. 1 Ou seja, todos os elementos do modelo têm a mesma probabilidade de serem “sorteados”. Nesse nosso exemplo, todos. 46 ...................................................................................................................................................................................................................... Distribuições de probabilidade Podemos dizer que a probabilidade é uma função que associa um número real P(E) a cada evento E do espaço amostral S, satisfazendo às seguintes regras: 1. Para todo evento E ∈ S, 0 ≤ P(E) ≤ 1. Em outras palavras, a probabilidade é um número entre 0 e um, inclusive. 2. P(Ø) = 0 (evento impossível). Em outras palavras, a probabilidade associada a um evento impossível (com nenhum resultado possível) é zero. 3. P(S) = 1 (evento certo). Ou seja, um evento que te- nha todas as ocorrências do espaço amostral como resultados possíveis tem probabilidade um. 4. ∑EϵS P(E) = 1. Ou seja, a soma das probabilidades de todos os eventos do espaço amostral é um. Probabilidade conjunta, marginal e condicional Outra forma de ilustrar o exemplo 2 é por meio de uma tabela de dupla entrada (ou tabela de contingência), como a apresentada pela tabela 6. Tabela 6 – Tabela de dupla entrada. Graduação Reprovação TOTAL Não Sim Administração (Prova A) 0,15 0,1 0,25 Economia (Prova B) 0,45 0,15 0,6 Matemática (Prova C) 0,1 0,05 0,15 TOTAL 0,7 0,3 1 47Introdução à probabilidade ...................................................................................................................................................................................................................... Podemos, então, fazer uma outra pergunta: escolhendo aleatoriamente um aluno dessa turma, qual a probabilida- de que ele tenha feito a prova B e não tenha sido reprova- do em Estatística? Nessa tabela, cada uma das seis probabilidades centrais é chamada de probabilidade conjunta, calculada pela in- terseção dos resultados das variáveis. A soma de todas as probabilidades conjuntas é igual a 1. Para responder a essa pergunta, cruzamos a linha da Prova B com a coluna Não, ou seja, P(B e R̅) = 0,45. Outras possíveis perguntas são: escolhendo aleatoriamen- te um aluno dessa turma, qual a probabilidade de que ele não tenha sido reprovado em Estatística? Qual a probabi- lidade de que ele tenha feito a prova B? Na tabela 6, os valores presentes na linha Total e coluna Total são chamados de probabilidades marginais e levam em consideração somente a probabilidade de uma variá- vel. As probabilidades marginais são obtidas por meio da soma das probabilidades conjuntas em ambas as direções da tabela. Portanto, a probabilidade de que um aluno es- colhido ao acaso não tenha sido reprovado, independen- temente do modelo de prova que tenha feito, é calculada pela seguinte expressão: P(R̅) = P(AR̅) + P(BR̅) + P(CR̅) = 0,15 + 0,45 + 0,1 = 0,7 48 ...................................................................................................................................................................................................................... Distribuições de probabilidade E a probabilidade de esse mesmo aluno ter feito a prova B, independentemente de ter sido aprovado, é: P(B) = P(BR) + P(BR̅) = 0,45 + 0,15 = 0,6 Temos agora uma nova pergunta: escolhendo aleatoria- mente um aluno dessa turma, sabendo que ele fez a prova B, qual a probabilidade de que ele não tenha sido reprova- do em Estatística? Agora que já sabemos calcular as probabilidades conjun- tas e marginais, já podemos calcular a probabilidade con- dicional. A probabilidade de um evento A ocorrer, dado que o evento B já ocorreu, é representada por P(A│B) e cal- culada dividindo-se a probabilidade conjunta dos eventos A e B pela probabilidade de ocorrência do evento B. P(A│B) = P(A e B) P(B) Ou seja, sabemoso resultado de uma das variáveis (ter feito a prova B) e queremos, com isso, calcular a probabili- dade de a outra variável ocorrer (não reprovação). P(não reprovou│fez a prova B) = P(B e R̅) = 0,45 = 0,75 P(B) 0,6 Note que, ao calcularmos a probabilidade condicional, re- duzimos o espaço amostral ao espaço do evento condicio- nante, que, nesse caso, é fazer a prova B. 49Introdução à probabilidade ...................................................................................................................................................................................................................... Probabilidade total e teorema de Bayes Vamos pensar, agora, em outra pergunta: escolhendo ale- atoriamente um aluno dessa turma, qual a probabilidade de que ele tenha feito a prova B sabendo-se que ele não reprovou em Estatística? Se, na árvore de probabilidades da figura 14, trocarmos a ordem entre os três nós que correspondem ao tipo de prova e os dois nós que correspondem a ter havido ou não reprovação, a probabilidade conjunta não seria alterada. De fato, reescrevendo a fórmula da probabilidade condi- cional, obtemos: P(A e B) = P(A│B) ⋅ P(B)=P(B│A) ⋅ P(A) Ou seja, P(A│B) = P(B│A) ⋅ P(A) P(B) Essa fórmula, que expressa uma probabilidade condicio- nal em termos de outras probabilidades condicionais, é conhecida como o teorema de Bayes. Podemos calcular P(B) a partir de probabilidades condicio- nais de B para os diferentes valores de A. Essa é a chama- da lei da probabilidade total. P(B) = P(B│A1) P(A1) + P(B│A2) P(A2) + ⋯ = ∑ P (B│An) P(An) ...................................................................................................................................................................................................................... 50 ...................................................................................................................................................................................................................... Distribuições de probabilidade Dessa forma, P(A│B) = P(B│A) P(A) ∑ P (B│An) P(An) Agora já podemos calcular a probabilidade P(fez a prova B|não reprovou). P(B│R̅) = P(R̅│B)P(B) (P(R̅│A)P(A) + P(R̅│B)P(B) + P(R̅│C)P(C) P(B│R̅) = 0,75 × 0,6 0,6 × 0,25 + 0,75 × 0,6 + 0,67 × 0,15 P(B│R̅) = 0,45 ≈ 0,65 0,15 + 0,45 + 0,1 Independência dos eventos Dizemos que dois eventos, A e B, são independentes se o fato de um evento ter ocorrido não altera a probabilidade de ocorrência do outro evento. Ou seja, P(B│A) = P(B). Portanto, P(A e B) = P(A)P(B) ⇔ A e B são independentes No exemplo 2, para que os eventos sejam considerados independentes, a relação de independência deve ser válida para todas as interseções presentes na tabela 6. 51Variáveis aleatórias e distribuições de probabilidade ............................................................................................................................................................................................................................................................................................................................................................................................................................................ VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE Nem sempre estamos interessados apenas nos resultados dos experimentos aleatórios, e sim em funções numéri- cas associadas a esses resultados. Nesse contexto, surge o conceito de variável aleatória (v. a.), uma função que as- socia cada elemento do espaço amostral a um número real (X: Ω→R). Ou seja, trata-se de um valor numérico originado de algum experimento aleatório. Uma variável aleatória X pode assumir um conjunto de valores possíveis, x 1 , x2, …, xn, cada um com uma probabi- lidade pi associada, sendo ∑pi=1, para i entre 1 e n. Dessa forma, temos a distribuição de probabilidade dessa variá- vel como nosso principal objetivo de estudo neste ponto. Sendo assim, as distribuições de probabilidade são capa- zes de descrever os possíveis resultados de uma variável aleatória e suas probabilidades. Existem dois tipos de variáveis aleatórias: discretas e con- tínuas. Ambas serão discutidas a seguir. Variáveis aleatórias discretas Uma variável aleatória discreta é aquela que possui um con- junto de valores possíveis finito ou infinito, porém enume- rável. Vamos supor uma pesquisa fictícia sobre a quantida- de total de disciplinas feitas pelos alunos de Administração durante um período. Sabe-se que há um limite de cinco ma- térias por período. Trata-se de um exemplo de uma v. a. 52 ...................................................................................................................................................................................................................... Distribuições de probabilidade discreta, pois sabemos todos os possíveis valores {0, 1, 2, 3, 4 e 5} da variável X = “quantidade de disciplinas cursadas em um período por um aluno de Administração”. A tabela 7 apresenta um resumo dos resultados dessa pesquisa. Tabela 7 – Distribuição de frequências. X Frequência 1 15 2 20 3 45 4 50 5 60 Total 190 A primeira coluna é a lista de possíveis valores da variável X, e a segunda coluna é a quantidade de vezes que cada valor ocorreu na pesquisa. Função (massa) de probabilidade A distribuição de probabilidade de uma v. a. discreta é chamada de função (massa) de probabilidade. Nesse caso, podemos especificar a probabilidade de a variável X ser igual a um determinado valor x, que representamos por p X (x) ou P(X = x). A tabela 8 mostra a distribuição de probabilidade para essa variável. Tabela 8 – Distribuição de probabilidades. X Frequência P(X = x) 1 15 0,08 2 20 0,11 3 45 0,24 53Variáveis aleatórias e distribuições de probabilidade ...................................................................................................................................................................................................................... 4 50 0,26 5 60 0,32 Total 190 1,00 Nessa tabela, a terceira coluna é o resultado da divisão da frequência de cada valor pelo total de casos contados (190). Sendo assim, representa a probabilidade de que, sorteando-se um aluno qualquer que tenha respondido a essa pesquisa, sua resposta tenha sido cada um dos valo- res da variável X. Variáveis aleatórias contínuas Uma variável aleatória contínua é aquela que possui um conjunto de valores possíveis infinito não numerável. Va- mos supor uma pesquisa fictícia sobre o total de tempo que cada aluno passa estudando Estatística. Trata-se de um exemplo de uma v. a. contínua, pois não somos ca- pazes de definir uma faixa precisa de todos os possíveis resultados para a variável X = “tempo gasto por um aluno estudando Estatística”. Função densidade de probabilidade A distribuição de probabilidade de uma v.a. contínua é chamada de função densidade de probabilidade (f. d. p.). Nesse caso, só podemos especificar a probabilidade de a variável X estar entre os valores a e b, que representamos por P(a < X < b). Não há como calcular a probabilidade de ocorrer um resultado exato para a variável X. ...................................................................................................................................................................................................................... 54 ......................................................................................................................................................................................................................Distribuições de probabilidade Figura 15 – Função densidade de probabilidade. Como podemos verificar na figura 15, isso significa que, graficamente, estamos considerando a área abaixo da cur- va determinada pelo intervalo de interesse. Ou seja: P(a < X < b) = ∫a f(x)dx = F(b) – F(a) Com f(x)≥0 e ∫ – ∞ f(x)dx = 1, e onde F(a) e F(b) são distribui- ções acumuladas, como explicado a seguir. Função de distribuição acumulada A função de distribuição acumulada (f. d. a.) calcula a pro- babilidade de a v. a. X ser menor ou igual a um determina- do valor x. Para uma v. a. discreta, temos F(x) = P(X ≤ x) e, para uma v. a. contínua, temos F(x)= ∫ – ∞ fx(x)dx. Sendo assim, conseguimos calcular a probabilidade de uma variável X estar dentro de um intervalo. P(a < X ≤ b) = F(b) – F(a) b + ∞ x 55 ...................................................................................................................................................................................................................... Valor esperado e variância ...................................................................................................................................................................................................................... VALOR ESPERADO E VARIÂNCIA Com a distribuição de probabilidade definida, podemos calcular algumas estatísticas de resumo, tais como a mé- dia e a variância, assim como fizemos no Capítulo 1 com os dados observacionais. Valor esperado O valor esperado (ou esperança matemática ou média) de uma variável aleatória X, denotado por E(X), é uma medida que dá mais (menos) ênfase aos valores mais (menos) pro- váveis da variável aleatória, ou seja, valores elevados de X ocasionam E(X) grande, assim como valores pequenos de X ocasionam E(X) baixo. A média μ X de uma distribuição de probabilidade corres- ponde ao valor esperado da variável aleatória X, ou seja, μ X = E(X). Então, o que significa dizer que o número esperado de pessoas em uma fila é três? Significa que, observando o número de pessoas na fila durante vários dias, teremos, em média, três pessoas. Para uma v. a. discreta X, o valor esperado E(X) é uma mé- dia ponderada de todos os possíveis valores de X com pe- sos iguais às respectivas probabilidades desses valores. 56 ...................................................................................................................................................................................................................... Distribuições de probabilidade E(X) = ∑ x ⋅ P(X = x) Por exemplo, para os dados da tabela 8, temos que: E(X) = (1 × 0,08) + (2 × 0,11) + (3 × 0,24) + (4 × 0,26) + (5 × 0,32) ≈ 3,63 Note que esse valor de 3,63 nunca irá ocorrer! Para uma v. a. contínua X, o raciocínio é o mesmo. No en- tanto, substituímos o símbolo do somatório pela integral e modificamos a função de probabilidade. E(X) = ∫-∞ x ⋅ fX (x)dx Propriedades do valor esperado Ao calcular o valor esperado de uma variável aleatória, é pertinente ter o conhecimento de algumas propriedades associadas a essa medida. 1. E(aX + b) = E(aX) + E(b) = aE(X) + b, em que a e b são constantes. 2. E(X + Y) = E(X) + E(Y), em que X e Y são variáveis aleatórias. 3. E(XY) = E(X)E(Y), se e somente se X e Y forem in- dependentes. Variância A variância corresponde ao valor esperado do quadrado de quanto uma variável aleatória X se afasta de seu valor esperado e é calculada pelas seguintes fórmulas: x∈S ∞ 57 ...................................................................................................................................................................................................................... Valor esperado e variância Var(X) = E[(X – E(X))2] = E(X2 ) – [E(X)]2 Quando X é uma v. a. contínua, Var(X) = ∫-∞ (x – E(X))2 f(x)dx. O valor dado por X – E(X) corresponde ao desvio de X em relação à sua média. Se uma variável aleatória Y é uma combinação linear da variável X, de tal forma que Y = aX + b (com a e b constan- tes), temos a seguinte propriedade: Var(Y) = Var(aX + b) = a2 Var(X) + Var(b) = a2 Var(X) + 0 = a2 Var(X) Ou seja, a soma de um valor constante a uma variável ale- atória não altera a sua variância, mas a multiplicação dela por um valor constante faz com que a variância fique mul- tiplicada pelo quadrado desse valor. Além disso, se X e Y são independentes, temos que: Var(X + Y) = Var(X) + Var(Y) ∞ 58 ...................................................................................................................................................................................................................... Distribuições de probabilidade PRINCIPAIS DISTRIBUIÇÕES DISCRETAS Distribuição de Bernoulli Exemplo 3: experimentos indicam que os alunos de Ad- ministração que cursam Estatística têm 75% de chance de passar na matéria. Qual a probabilidade de um aluno des- ta turma ser aprovado em Estatística? Vamos considerar uma variável aleatória X que possui apenas dois resultados possíveis, mutuamente excluden- tes: fracasso e sucesso, representados por 0 e 1, respec- tivamente. Com probabilidade p, ocorre sucesso, e, com probabilidade q = (1 – p), ocorre fracasso. Quando uma v. a. X tem essas características, dizemos que ela tem distribuição de Bernoulli com probabilidade p, e a representamos da seguinte forma: X ~ Be(p) A função de probabilidade de Bernoulli é dada por: P(X = x) = p, se x = 1 q, se x = 0 0, c.c. Portanto: E(X) = 0 × q + 1 × p = p Var(X) = [(02 × q) + (12 × p)] – p2 = p (1 – p) = pq { 59Principais distribuições discretas ...................................................................................................................................................................................................................... Para o exemplo 3, X = “ser aprovado ou não em Estatís- tica” tem distribuição de Bernoulli, representada por X ~ Be(0,75). Ou seja, há uma probabilidade de 0,75 de suces- so (ser aprovado). Distribuição binomial Exemplo 4: experimentos indicam que os alunos de Ad- ministração que cursam Estatística têm 75% de chance de passar na matéria. Se sortearmos três alunos dessa turma, qual a probabilidade de que nenhum deles seja aprovado em Estatística? E de que pelo menos dois sejam aprovados? Muitas vezes não estamos interessados em saber se um sucesso ocorre ou não, mas na quantidade de vezes em que ele ocorre. Nesse tipo de distribuição, o número de experimentos a serem realizados é conhecido (serão fei- tos n ensaios, cada qual com distribuição de Bernoulli), e a v. a. X corresponde ao número de sucessos observados nas n tentativas do processo de Bernoulli realizadas. Cada experimento tem a mesma probabilidade p de sucesso e é independente de todos os outros. Trata-se da distribuição binomial, representada por: X ~ Bin(n; p) A função de probabilidade da distribuição binomial é dada por: P(X = x) = ( n ) px qn – x = n! px qn – xx x! (n – x)! 60 ...................................................................................................................................................................................................................... Distribuições de probabilidade O termo px qn – x indica a probabilidade de exatamente x su- cessos ocorrerem nas n observações em uma determinada sequência de resultados. E o termo indica a quanti- dade de combinações existentes de x sucessos ocorrerem em sequências de n observações. Por isso, a probabilidade de x sucessos é dada peloproduto do número de todas as sequências possíveis pela probabilidade de sucesso de uma determinada sequência. Para a distribuição binomial, temos E(X) = E(X 1 ) + E(X 2 ) + ... + E(X n ) = np Var(X) = Var(X 1 ) + Var(X 2 ) + ... + Var(X n ) = npq Isso ocorre porque as variáveis X 1 , X 2 , ..., X n ~ Be(p) e todas elas são independentes entre si. Para o exemplo 4, X = “número de alunos aprovados em Estatística” tem distribuição binomial, representada por X ~ Bin(3; 0,75). Sendo assim, P(X = 0) = 0,750 × 0,253 ≈ 0,016 Isso corresponde à probabilidade de que nenhum aluno seja aprovado em Estatística. Além disso: P (X ≥ 2) = 1 – P(X = 0) – P(X = 1) = 1 – 0,016 – 0,751 × 0,252 ≈ 0,844 ( n )x ( 3 )0 ( 3 )1 61Principais distribuições discretas ...................................................................................................................................................................................................................... E isso corresponde à probabilidade de que dois ou mais alunos sejam aprovados em Estatística2. Distribuição de Poisson Exemplo 5: a fila da secretaria de uma faculdade tem, em média, quatro alunos de administração por hora. Qual a probabilidade de, em uma hora, não ter nenhum aluno de Administração na fila? E de ter pelo menos dois alunos? A princípio, podemos pensar em utilizar a distribuição bi- nomial para resolver o exemplo 5. Contudo, não sabemos o número (n) de testes e, consequentemente, desconhece- mos também o número de fracassos ocorridos. Acontece que não estamos interessados no número de sucessos ob- tidos em n tentativas, mas no número de sucessos ocorri- dos dentro de um espaço contínuo de tempo, representa- do pela variável X. Dizemos que X segue uma distribuição de Poisson, em que o parâmetro corresponde à frequência média de sucesso, denotada por λ, e não à probabilidade p de ocorrência de um sucesso. Representamos essa distri- buição da seguinte forma: X ~ Poi(λ) A função de probabilidade da distribuição de Poisson é dada por: P(X = x) = e-λ 2 Como os eventos (X ≥ 2) = “número de alunos aprovados em Estatística é maior ou igual a 2” e (X < 2) = “número de alunos aprovados em Estatística é menor que 2” são mutuamente excludentes, P(X ≥ 2) = 1 – P(X < 2). Além disso, P(X < 2) = P(X = 0) + P(X = 1). Logo, P(X ≥ 2) = 1 – P(X = 0) – P(X = 1). λx x! ...................................................................................................................................................................................................................... 62 ...................................................................................................................................................................................................................... Distribuições de probabilidade Há uma relação interessante entre a distribuição binomial e a distribuição de Poisson. Quando X ~ Bin(n; ), se fi- zermos n → ∞, de modo a ter um número de tentativas suficientemente grande (espaço de tempo contínuo), a dis- tribuição binomial se aproxima da distribuição de Poisson. lim Bin(n; ) ≈ Poi(λ) Portanto, E(X) = Var(X) = λ Para o exemplo 5, X = “número de alunos de Administra- ção na fila da secretaria no horário de pico” tem distribui- ção de Poisson, representada por X ~ Poi(4). Sendo assim: P(X = 0) = e-4 ≈ 0,0183 Isso corresponde à probabilidade de não haver alunos na fila da secretaria no horário de pico. Além disso: P(X ≥ 2) = 1 – [P(X = 0) + P(X = 1)] = 1– [0,0183 + e-4 ] = 0,9084 E isso corresponde à probabilidade de haver dois ou mais alunos. λ n n → ∞ λ n 40 0! 41 1! 63Principais distribuições contínuas ............................................................................................................................................................................................................................................................................................................................................................................................................................................ PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS Distribuição uniforme Exemplo 6: as aulas de Estatística começam às 7h30 toda segunda-feira. O tempo de chegada de um determinado aluno é uniformemente distribuído, de modo que ele che- ga entre 7h15 e 7h45. Qual a probabilidade de esse aluno chegar cinco minutos depois de a aula ter começado? Seja X uma v. a. contínua que assume todos os possíveis valores do intervalo [a,b], se a probabilidade de se obter qualquer resultado é proporcional ao tamanho do inter- valo, e a probabilidade de ocorrência de resultados com intervalos de tamanhos iguais é a mesma, dizemos que X possui distribuição uniforme sobre o intervalo [a,b] e o representamos da seguinte forma: X ~ U(a,b) Figura 16 – Distribuição uniforme. 64 ...................................................................................................................................................................................................................... Distribuições de probabilidade Como apresentado na figura 16, a f. d. p. da distribuição uniforme é constante sobre o intervalo em que a variável X está definida. Como ∫-∞ f(x)dx = 1, a probabilidade de ocorrência de cada resultado corresponde ao inverso do tamanho do intervalo do espaço amostral. f(x) = , se a ≤ x ≤ b 0, c.c. Sendo assim, a f. d. a. de X é: F(x) = P(X ≤ x) = 0, se x < a , se a ≤ x ≤ b 1, se x > b Portanto, E(X) = a + b 2 Var(X) = (b – a)2 12 Para o exemplo 6, X ~ U(–15,15), e a probabilidade de o aluno chegar no máximo cinco minutos depois da aula ter começado é calculada da seguinte forma: P(X ≤ 5) = F(10) = 5 – (–15) = 2 15 – (–15) 3 ∞ { 1b – a {x – ab – a 65Principais distribuições contínuas ...................................................................................................................................................................................................................... Distribuição exponencial Exemplo 7: na fila da secretaria de uma faculdade, che- gam, em média, quatro alunos de Administração por hora. Qual a probabilidade de passar mais de 30 minutos (0,5 hora) até chegar um aluno de Administração na fila da secretaria? A distribuição exponencial é geralmente associada ao tempo de espera e modela tempos entre dois eventos consecutivos que seguem uma distribuição de Poisson. Vamos supor que os eventos corram segundo uma distri- buição de Poisson, com uma taxa média de λ eventos por unidade de tempo. Seja X o número de eventos ocorridos no intervalo [0,t], então X ~ Poi(λt). Se T é uma v. a. contí- nua que corresponde ao tempo de ocorrência do primeiro evento, dizemos que T tem distribuição exponencial e o representamos da seguinte forma: T ~ Exp(λ) Existe, portanto, uma relação entre a distribuição de Pois- son e a distribuição exponencial. A distribuição de Pois- son analisa a quantidade de observações por intervalo (evento discreto), e a distribuição exponencial analisa o intervalo por observação. As distribuições exponencial e de Poisson correspondentes possuem o mesmo parâme- tro λ. A f. d. p. da distribuição exponencial é dada por: f(t) = λe-λt, se t≥0 0, c.c.{ 66 ......................................................................................................................................................................................................................
Compartilhar