Baixe o app para aproveitar ainda mais
Prévia do material em texto
MATERIAL DIDÁTICO ESTATÍSTICA APLICADA U N I V E R S I DA D E CANDIDO MENDES CREDENCIADA JUNTO AO MEC PELA PORTARIA Nº 1.282 DO DIA 26/10/2010 Impressão e Editoração 0800 283 8380 www.ucamprominas.com.br Suma´rio 1 Introduc¸a˜o 1 2 Conceitos Ba´sicos 2 2.1 O que e´ Estat´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2.2 Tipos de Se´ries Estat´ısticas . . . . . . . . . . . . . . . . . . . . . . . . . . 4 3 Distribuic¸a˜o de Frequeˆcia 6 3.1 Amplitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 4 Medidas de Posic¸a˜o 10 4.1 Me´dia, Moda e Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 4.2 Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.3 Medidas de Dispersa˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.3.1 Desvio Me´dio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.3.2 Desvio Padra˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.3.3 Variaˆncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.3.4 Coeficiente de Variac¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.4 Assimetria e Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.4.1 Coeficiente de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . 28 1 5 Probabilidade 31 5.1 Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 5.2 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 5.2.1 Experimento Aleato´rio . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.2.2 Espac¸o Amostral e Eventos . . . . . . . . . . . . . . . . . . . . . . 33 5.2.3 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5.2.4 Probabilidade Condicionada . . . . . . . . . . . . . . . . . . . . . . 35 6 Varia´veis Aleato´rias 38 6.1 Varia´vel Aleato´ria Cont´ınua e Varia´vel Aleato´ria Discreta . . . . . . . . . . 39 6.2 Esperanc¸a Matema´tica ou Valor Esperado . . . . . . . . . . . . . . . . . . 41 6.2.1 Variaˆncia e Desvio Padra˜o . . . . . . . . . . . . . . . . . . . . . . . 42 7 Amostragem 45 7.0.2 Amostragem Casual Simples . . . . . . . . . . . . . . . . . . . . . . 49 7.1 Distribuic¸o˜es Amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 7.1.1 Distribuic¸a˜o Amostral da Me´dia Com e Sem Reposic¸a˜o . . . . . . . 51 7.1.2 Fator de Correlac¸a˜o Finita (FCF) . . . . . . . . . . . . . . . . . . . 56 Refereˆncias Bibliogra´ficas 63 2 Cap´ıtulo 1 Introduc¸a˜o Este material pretende abordar conhecimentos de estat´ıstica ba´sica. O conceito de estat´ıstica que estamos habituados esta intimamente ligado ao captura e manipulac¸a˜o dos dados. Veremos como muitas vezes isso e´ feito e quais crite´rios podem auxiliar neste sentido de modo que trabalharemos de forma mais direta com a Estat´ıstica Descritiva, isto e´, a que se preocupa com a organizac¸a˜o e descric¸a˜o de dados experimentais. A abordagem do texo tenta ser a mais simples poss´ıvel, de forma que trabalhamos conceitos indispensa´veis, ide´ias principais e com exemplos afim de esclarecer melhor a teoria. Ressaltamos que embora a escrita acadeˆmica tenha como premissa ser cient´ıfica, baseada em normas e padro˜es da academia, fugiremos um pouco a`s regras para nos aprox- imarmos de voceˆs e para que os temas abordados cheguem de maneira clara e objetiva, mas na˜o menos cient´ıficas. Em segundo lugar, deixamos claro que este mo´dulo e´ uma com- pilac¸a˜o das ideias de va´rios autores, incluindo aqueles que consideramos cla´ssicos, na˜o se tratando, portanto, de uma redac¸a˜o original e tendo em vista o cara´ter dida´tico da obra, na˜o sera˜o expressas opinio˜es pessoais. Ao final do mo´dulo, ale´m da lista de refereˆncias ba´sicas, encontram-se outras que foram ora utilizadas, ora somente consultadas, mas que, de todo modo, podem servir para sanar lacunas que por ventura venham a surgir ao longo dos estudos. 1 Cap´ıtulo 2 Conceitos Ba´sicos 2.1 O que e´ Estat´ıstica E´ uma parte da matema´tica aplicada que fornece me´todos para coleta, organizac¸a˜o, descric¸a˜o, ana´lise e interpretac¸a˜o de dados e para a utilizac¸a˜o dos mesmos na tomada de deciso˜es. 1. Estat´ıstica Descritiva: Consiste em te´cnicas empregadas para coleta e descric¸a˜o de dados. Tambe´m e´ empregada na ana´lise explorato´ria de dados. 2. Estat´ıstica Inferencial: E´ utilizada para tomar deciso˜es a respeito de uma populac¸a˜o, geralmente utilizando dados de amostras. Uma vez que tais deciso˜es sa˜o tomadas sobcondic¸o˜es de in- certeza, faz-se necessa´rio o uso de conceitos relativos a` Teoria da Probabilidade. 3. Populac¸a˜o: E´ empregado para designar um conjunto de indiv´ıduos que possuem pelo menos uma caracter´ıstica, ou atributo, em comum. Alguns autores empregam o termo universo 2 para referir-se a uma populac¸a˜o. Esta ainda pode ser: Finitas: quando possuem um nu´mero finito de elementos. Por exemplo: os alunos da uma turma, resultados poss´ıveis do lanc¸amento de uma moeda ou dados e produc¸a˜o mensal de uma ma´quina. Infinitas: quando uma populac¸a˜o e´ suficientemente grande para que sua distribuic¸a˜o de probabilidade se mantenha inalterada durante a retirada de uma amostra. Por exemplo: resultado dos lanc¸amentos de uma moeda ou de dados e produc¸a˜o passada e futura de uma ma´quina. 4. Amostra: Faz refereˆncia a qualquer subconjunto de uma populac¸a˜o. A amostragem e´ uma das etapas mais importantes na aplicac¸a˜o de me´todos estat´ısticos, envolvendo aspectos como determinac¸a˜o do tamanho da amostra, metodologia de formac¸a˜o e represen- tatividade da amostra com relac¸a˜o a` populac¸a˜o. 5. Varia´vel: E´ usada para atribuic¸a˜o dos valores correspondentes aos dados observados sejam qualitativos ou quantitativos e, podem ter diversas naturezas como veremos a seguir. (a) Varia´vel Nume´rica: Tambe´m chamada varia´vel quantitativa, e´ utilizada para representac¸a˜o de da- dos nume´ricos, ou quantitativos. i. Varia´vel Nume´rica Discreta: Varia´vel cujo domı´nio e´ um conjunto enu- mera´vel e, por isso normalmente esta´ atrelado a dados de contagem. Exem- plo: Nu´mero de defeitos em um componente, total de unidades defeituosas em uma amostra. ii. Varia´vel Nume´rica Cont´ınua: Varia´vel cujodomı´nio e´ um conjunto na˜o enumera´vel e, portanto, esta´ associado a dados mensura´veis. Exemplo: Diaˆmetro de um eixo, peso de um rece´m-nascido. (b) Varia´vel Qualitativa: 3 E´ utilizada para representac¸a˜o de atributos. Pode ser dicotoˆmica ou bina´ria, quando assume apenas dois poss´ıveis valores, ou ainda, politoˆmica, tambe´m referida como multinomial, quando pode assumir mais de dois poss´ıveis valores. i. Varia´vel Qualitativa Catego´rica: E´ empregada para representar categorias, caracter´ısticas ou classes, a`s quais pertencem as observac¸o˜es registradas. Exemplo: Cor dos olhos, sexo. ii. Varia´vel Qualitativa Ordinal: Utiliza-se este tipo de varia´vel em situac¸o˜es em que e´ necessa´rio que haja uma ordem crescente ou decrescente para os resultados. Exemplo: Grau de escolaridade, categoria salarial. 2.2 Tipos de Se´ries Estat´ısticas 1. Se´rie Temporal A varia´vel em questa˜o refere-se a um intervalo de tempo. Faturamento Mensal Meˆs JAN FEV MAR ABR Unidades Vendidas em 1000 700 824 932 654 Tabela 2.1: Fonte: Fict´ıcia 2. Se´rie Geogra´fica Nesse tipo de Se´rie, a varia´vel e´ algum local. Populac¸a˜o das capitaisdo sudeste Capitais do Sudeste Sa˜o Paulo Belo Horizonte Vito´ria Rio de Janeiro Populac¸a˜o 11.316.149 2.385.639 330.526 6.355.949 Tabela 2.2: Fonte: Censo 2011 3. Se´rie Espec´ıfica Como o nome diz, esta se´rie traz o acompanhamento de algum objeto de estudo espec´ıfico. 4 Faturamento (R$1.000.000) de uma Fa´brica Fict´ıcia Produto Rolamento O´leo Junta Va´lvula Faturamento 3, 48 1, 75 1, 45 1, 25 Tabela 2.3: Fonte: Fict´ıcia 4. Se´ries Combinadas Obsevemos pela tabela que esta se´rie se trata de combinar informac¸o˜es afim de possibilitar mais detalhes. Faturamento (R$1.000.000) da empresa fict´ıcia por produto e regia˜o Regia˜o Produto Total Rolamento O´leo Junta Va´lvula Belo Horizonte 0,25 0,77 0,53 0,20 1,75 Vito´ria 0,24 0, 75 0, 45 0, 21 1,65 Rio de Janeiro 0,23 0,63 0,48 0,17 1,51 Sa˜o Paulo 0, 29 0,87 0,76 0,24 2,16 Tabela 2.4: Fonte: Fict´ıcia 5 Cap´ıtulo 3 Distribuic¸a˜o de Frequeˆcia E´ um tipo de tabela que condensa uma colec¸a˜o de dados conforme a repetic¸o˜es de seus valores (frequ¨eˆncias). Tabela primitiva ou dados brutos: E´ uma tabela ou relac¸a˜o de elementos que na˜o foram numericamente organizados. Ex : 45, 41, 42, 41, 42 43, 44, 41 ,50, 46, 50, 46, 60, 54, 52, 58, 57, 58, 60, 51. ROL: E´ a tabela primitiva reescrita de forma organizada dada pela ordenac¸a˜o dos dados (crescente ou decrescente). Ex : 41, 41, 41, 42, 42 43, 44, 45 ,46, 46, 50, 50, 51, 52, 54, 57, 58, 58, 60, 60. Distribuic¸a˜o de frequeˆncias sem intervalos de classe E´ a simples condensac¸a˜o dos dados conforme as repetic¸o˜es de seu valores. No caso anterior, observe que o ROL e´ inadequado pelo tamanho razoa´vel da amostra.Uma forma de contornar esta situac¸a˜o e´ agrupar os dados como veremos abaixo. Distribuic¸a˜o de frequ¨eˆncia com intervalos de classe: Quando o tamanho da amostra e´ elevado, e´ mais racional efetuar o agrupamento dos valores em va´rios intervalos de classe. Intervalo de Classe Os limites de cada classe podem ser definidos de quatro modos distintos: 6 Dados Frequeˆncia 41 3 42 2 43 1 44 1 45 1 46 2 50 2 51 1 52 1 53 1 54 1 57 1 58 2 60 2 1. Intervalo “exclusive-exclusive”: · · · 2. Intervalo “inclusive-exclusive”: � · · · 3. Intervalo “inclusive-inclusive”: � · · · � 4. Intervalo “exclusive-inclusive”: · · · � Dados Frequeˆncia 41 � · · · 45 7 45 � · · · 49 3 49 � · · · 53 4 53 � · · · 57 1 57 � · · · 61 5 Total 20 3.1 Amplitudes Amplitude no Intervalo de Classe: e´ obtida atrave´s da diferenc¸a entre o limite superior e inferior da classe e e´ simbolizada por hi = Li − li. Ex: na tabela anterior hi = 53− 49 = 4. Obs: Na distribuic¸a˜o de frequ¨eˆncia c/ classe o hi sera´ igual em todas as classes. Amplitude Total Da Distribuic¸a˜o: e´ a diferenc¸a entre o limite superior da u´ltima classe e o limite inferior da primeira classe. AT = L(max) − l(min). 7 Ex: na tabela anterior AT = 61− 41 = 20. Amplitude Total Da Amostra (ROL): e´ a diferenc¸a entre o valor ma´ximo e o valor mı´nimo da amostra (ROL). Onde AA = Xmax − Xmin. Em nosso exemplo AA = 60− 41 = 19. Obs: AT sempre sera´ maior que AA. Ponto Me´dio De Classe: e´ o ponto que divide o intervalo de classe em duas partes iguais. Ex: em 49 � · · · 53 o ponto me´dio x3 = (53 + 49) 2 = 51, ou seja x3 = (l3 + L3) 2 . 50 � · · · 54. Frequ¨eˆncias simples ou absoluta: sa˜o os valores que realmente represen- tam o nu´mero de dados de cada classe. A soma das frequ¨eˆncias simples e´ igual ao nu´mero total dos dados da distribuic¸a˜o. Frequ¨eˆncias relativas: sa˜o os valores das razo˜es entre as frequ¨eˆncia absolutas de cada classe e a frequ¨eˆncia total da distribuic¸a˜o. A soma das frequ¨eˆncias relativas e´ igual a 1 (100 %). Frequ¨eˆncia relativa acumulada de um classe: e´ a frequ¨eˆncia acumulada da classe, dividida pela frequ¨eˆncia total da distribuic¸a˜o. Classe fi xi fri Fi Fri 50 � · · · 54 4 52 0,100 4 0,100 54 � · · · 58 9 56 0,225 13 0,325 58 � · · · 62 11 60 0,275 24 0,600 62 � · · · 66 8 64 0,200 32 0,800 66 � · · · 70 5 68 0,125 37 0,925 70 � · · · 74 3 72 0,075 40 1,000 Total 40 1,000 Onde, 8 fi- frequeˆncia simples; xi-ponto me´dio de classe; fri- frequeˆncia simples acumulada; Fi- frequeˆncia relativa; Fri-frequeˆncia relativa acumulada. 9 Cap´ıtulo 4 Medidas de Posic¸a˜o Representam uma se´rie de dados orientados, isto e´, permite-nos dizer a posic¸a˜o da distribuic¸a˜o em relac¸a˜o ao eixo horizontal do gra´fico da curva de frequ¨eˆncia. Dessa forma, as medidas de posic¸o˜es mais relevantes sa˜o as de medidas de tendeˆncia central, ou seja, percebe-se uma tendeeˆncia dos dados observados a se agruparem em torno de valores cen- trais. A medidas mais utilizadas que possibilitam essa observac¸a˜o sa˜o: me´dia aritme´tica, moda e mediana. Ha´ tambe´m as me´dias: harmoˆnica, quadra´tica, geome´trica, cu´bica e biquadra´tica. As medidas de posic¸a˜o tais como: a pro´pria mediana, os decis, os quartis e os percentis sa˜o de natureza separatrizes. 4.1 Me´dia, Moda e Mediana 1. Me´dia Aritme´tica: E´ dada pela soma dos dados dividido pelo nu´mero de dados e, denotado por: x. Isto e´: x = n� i=1 xi n onde xi sa˜o os dados e n a quantidade deles. Obs.: Quando os dados na˜o estivererm agrupados em tabela de frequeˆncias, enta˜o a me´dia aritme´tica a ser calculada e´ a indicada acima. Veremos adiante como se faz quando ha´ frequeˆncia. 10 Ex.: Suponhamos que a venda mensal de uma determinada fazenda, em toneladas, de milho do meˆs do primeiro semestre de 2011 tenha sido: x1 = 13, 3; x2 = 12; x3 = 13; x414, 6; x515, 1ex6 = 16 Enta˜o a me´dia da produc¸a˜o foi de: x = 6� i=1 xi 6 = x1 + x2 + x3 + x4 + x5 + x6 = 13, 3 + 12 + 13 + 14, 6 + 15, 1 + 16 = 84 6 14 2. Desvio em relac¸a˜o a` me´dia: e´ a diferenc¸a entre cada elemento de um conjunto de valores e a me´dia aritme´tica, ou seja: di = xi − x No Exemplo anterior, temos: d1 = 13, 3− 14 = −0, 7 d2 = 12− 14 = −2 d3 = 13− 14 = −1 d4=14,6-14=0,6 d5=15,1-14=1,1 d6 = 16− 14 = 2 Note que a soma dos desvios e´ sempre nula, ou seja, n� i=1 di = 0. Observe no exemplo anterior, que: 6� i=1 di = (−0, 7) + (−2) + (−1) + 0, 6 + 1, 1 + 2 = 0 Algumas Propriedades Seja {x1, x2, . . . , xn} um conjunto de dados na˜o necessariamente ordenado. 1. Seja k uma constante tal que se a somarmos ou a subtrairmos de cada um dos xi enta˜o a me´dia desse conjunto fica adicionada ou subtraida dessa mesma quantia k, 11 isto e´: n� i=1 (xi ± k) = x± k No exemplo que vem sendo usado, x1 = 13, 3;x2 = 12; x3 = 13; x414, 6; x515, 1ex6 = 16, considere k = 3. Assim, a me´dia desse novo conjunto, x� sera´ x� = 6� i=1 (xi + 3) 6 = (13, 3 + 3) + (12 + 3) + (13 + 3) + (14, 6 + 3) + (15, 1 + 3) + (16 + 3) 6 = (13, 3 + 12 + 13 + 14, 6 + 15, 1 + 16) + (3 + 3 + 3 + 3 + 3 + 3) 6 = 84 + 6 · 3 6 = 84 6 + 6 · 3 6 = 14 + 3 = x+ 3 2. Multiplicando ou dividindo-se cada valor xi do conjundo de dados por uma constante k, a me´dia do “novo conjunto”x fica multiplicada ou dividida por essa constante k. De fato, x� = · n� i=1 (k · xi) n = (k · x1) + (k · x2) + . . .+ (k · xn) n = k(x1 + x2 + . . .+ xn) n = k · x1 + x2 + . . .+ xn n = k · x Dados Agrupados 12 • Sem intervalos de classe: Consideremos a distribuic¸a˜o relativa a 34 famı´lias de quatro filhos, tomando para varia´vel o nu´mero de filhos do sexo masculino. Calcularemos a quantidade me´dia de meninos por famı´lia: No de meninos frequeˆncia (fi) 0 2 1 6 2 10 3 12 4 4 Total 34 – Me´dia Aritme´tica Ponderada: as frequ¨eˆncias sa˜o nu´meros indicadores da inten- sidadede cada valor da varia´vel, elas funcionam como fatores de ponderac¸a˜o e o valor da me´dia aritmetica ponderada, sera´ x = n� i=1 (xifi) n� i=1 fi Pela tabela acima, podemos refazeˆ-la com segue No de meninos frequeˆncia (fi) xifi 0 2 0 1 6 6 2 10 20 3 12 36 4 4 16 Total 34 78 Da´ı, x = n� i=1 (xifi) n� i=1 fi = 78 34 = 2, 3 que corresponde a me´dia de 2,3 meninos por famı´lia. 13 • Com Intervalos de classe: Neste caso, convencionamos que todos os valores inclu´ıdos em um determinado intervalo de classe coincidem com o seu ponto me´dio. A me´dia aritme´tica ponderada e´ dada por: x = n� i=1 (xifi) n� i=1 fi Onde xi e´ o ponto me´dio da classe. Exemplo 4.1. Considerando a tabela abaixo, calcule a estatura me´dia dos bebeˆs. Estaturas (cm) Frequeˆncia= fi Ponto Me´dio xi xifi 50 � · · · 54 4 52 208 54 � · · · 58 9 56 504 58 � · · · 62 11 60 660 62 � · · · 66 8 64 512 66 � · · · 70 5 68 340 70 � · · · 74 3 72 216 Total 40 2440 Logo, x = n� i=1 (xifi) n� i=1 fi = 2440 40 = 61 Portanto, a estatura me´dia dos bebeˆs e´ de • Me´dia Geome´trica: Seja {x1, x2, . . . , xn} esta me´dia e´ dada pela raiz n-e´sima do produto de cada xi, onde 1 ≤ i ≤ n. xg = n √ x1 · x2 · · · · · xn • Me´dia Geome´trica Ponderada: xgp = � fi � xf11 · xf22 · . . . · xfnn 14 xi fi 1 2 3 4 9 2 27 1 Total 9 Exemplo 4.2. Determine a me´dia geome´trica ponderada dos valores da tabela abaixo. xgp = � fi � xf11 · xf22 · . . . · xfnn = 9 √ 12 · 34 · 92 · 271 = 3, 8296 • Me´dia Harmoˆnica: e´ denotada por xh e e´ dada pelo inverso da me´dia aritme´tica dos inversos. Isto e´: xh = 1 1 x1 + 1 x2 + . . .+ 1 xn • Me´dia Harmoˆnica Ponderada: xhp = � fi� fi xi Classes fi xi fi/xi 1 � · · · 3 2 2 2/2 = 1 3 � · · · 5 4 4 4/4 = 1 5 � · · · 7 8 6 8/6 = 4/3 7 � · · · 9 4 8 4/8 = 1/2 9 � · · · 11 2 10 2/10 = 1/5 Total 20 4,03 Exemplo 4.3. Assim, xhp = � fi� fi xi = 20 4, 03 = 4, 96 15 1. Moda: e´ o valor que ocorre com maior frequencia em uma amostra, ou conjunto de dados. Indicamos-a por Mo. Ex.:{7, 8, 9, 15, 15, 15, 21}. A moda neste conjundo de dados e´ 15, visto que e´ o que aparece o maior nu´mero de vezes. No entanto, nem toda amostra ou conjunto de dados possui um valor modal, pois pode ocorrer de na˜o ter ou tambe´m apresentar mais de um valor modal. Veremos a seguir estas situac¸o˜es. Se´rie Amodal Neste tipo de se´rie, na˜o ha´ nenhum valor que ocorra com maior frequeˆncia que outro. Ex.: {1, 17, 18, 21, 24, 34, 52, 55, 63, 72} Pode haver de a se´rie possuir dois ou mais valor modais. No pimeiro caso, dizemos que e´ bimodal e no segundo caso, multimodal. Quando o conjunto de dados possui intervalos de classe, damos ao nome de classe modal aquela que apresenta maior frequeˆncia. Este valor e´ o dominante entre os limites do intervalo da classe. Para obteˆ-lo usamos o seguinte ca´lculo: Mo = (l + L) 2 onde l e´ o limite inferior da classe e L o limite superior da mesma. Exemplo 4.4. Suponhamos que verifiquemos a quantidade de experimentos realiza- dos em laborato´rio nos intervalos de tempo. Intervalos de tempo (min) frequeˆncia 5 � · · · � 10 1 10 � · · · � 15 2 15 � · · · � 20 5 20 � · · · � 25 3 25 � · · · � 30 7 30 � · · · � 35 4 Note que a classe modal e´ 25 � · · · � 30, pois aparece com maior frequeˆncia. Da´ı, como l = 25 e L = 30, Mo = (25 + 30) 2 = 27, 5 e´ o valor estimado da moda. 16 2. Mediana: como o pro´prio nome sugere, a mediana separa o conjunto de dados, em dois subconjuntos com mesmo nu´mero de elementos, mas para isto e´ necessa´rio que os dados estejam organizados em ordem crescente ou descrescente. Para saber qual ordem oculpa o termo mediano, devemos analisar as seguintes condic¸o˜es: Seja {x1, x2, . . . , xn} os dados de uma se´rie qualquer. Enta˜o, Md, e´ dado por: Md = xn+1 2 , se n e´ ı´mpar xn 2 + xn+2 2 2 , se n e´ par Exemplo 4.5. Consideremos a se´rie {0, 2, 3, 6, 2, 8, 3, 9, 3, 5}. Primeiramente, or- denemos a se´rie como segue {0, 2, 2, 3, 3, 3, 5, 6, 8, 9}. Neste caso, temos 10 termos, ou seja, uma quantidade par, enta˜o Md = x 10 2 + x 10+2 2 2 = x5 + x6 2 = 3 + 3 2 = 4, 5 Observe que neste caso, a mediana sera´ a me´dia aritme´tica entre os dois termos centrais da se´rie. No exemplo anterior, poder´ıamos escrever a se´rie em forma de tabela e, calcular a moda usando a frequeˆncia como veremos. xi fi Frequeˆncia Acumulada 0 1 1 2 2 3 3 3 6 5 1 7 6 1 8 8 1 9 9 1 10 17 Assim, analisaremos o valor da frequeˆncia acumulada � fi, se o valor for par, enta˜o Md = � fi 2 + � fi+2 2 2 ira´ nos fornecer quais as ordens dos elementos, isto e´, podemos reescrever a fo´rmula anterior, como segue Md = x� fi 2 + x� fi+2 2 2 Dessa forma, no exemplo acima, como temos a frequeˆncia acumulada � fi = 10, enta˜o Md = x5 + x6 2 = 3 + 3 2 No caso do valor da frequeˆncia acumulada ser ı´mpar, teremos: Md = x� fi+1 2 18 Assim, se no exemplo anteior tive´ssemos: xi fi Frequeˆncia Acumulada 0 1 1 2 2 3 3 3 6 5 1 7 6 2 9 8 1 10 9 1 11 Enta˜o, ter´ıamos Md = x 11+1 2 = x6 = 3 3. Ca´lculo da Mediana quando ha´ intervalos de classe: Faremos um exemplo afim de simplificar o procedimento. Para isso, considere a tabelaa seguir. Classe fi Frequeˆncia Acumulada 50 � · · · 54 4 4 54 � · · · 58 9 13 58 � · · · 62 11 24 62 � · · · 66 8 32 66 � · · · 70 5 37 70 � · · · 74 3 40 Total 40 1o- Determinar a frequeˆncia acumulada � fi. 2o- Dividir por dois a frequeˆncia acumulada, ou seja, fazemos: � fi 2 . 3o- Em seguida, analisamos a qual classe pertence o valor imediatamente superior a � fi 2 . Essa sera´ a classe mediana. 4o- A mediana e´ dada por: Md = l + ( � fi 2 − fa.cl.a) · (L− l) fi Onde, l: limite inferior da classe mediana. 19 L: Limite superir da classe mediana. fi: frequeˆncia da classe. fa.cl.a: frequeˆncia acumulada da classe anterior a` classe mediana. Apliquemos estes passos no exemplo. 1o- � fi = 40 2o- � fi 2 = 40 2 = 20 3o- Este valor pertence a classe 58 � · · · 62. 4o- Md = 58 + (20− 13) · (62− 58) 11 = 58 + 28 11 = 60, 54 Em uma amostra em que ha´ discrepaˆncia de dados e´ interessante usar o mediana, visto que esta na˜o sofre infleˆncia dos extremos. Na figura abaixo e´ poss´ıvel perceber a relac¸a˜o entre Moda, Me´dia e Mediana. Figura 4.1: Comparac¸a˜o entre as Medidas de Posic¸a˜o 20 4.2 Separatrizes Ale´m das medidas de posic¸a˜o que estudamos, ha´ outras que, consideradas individual- mente, na˜o sa˜o medidas de tendeˆncia central, mas esta˜o ligadas a` mediana relativamente a` sua caracter´ıstica de separar a se´rie em duas partes que apresentam o mesmo nu´mero de valores.Sa˜o elas: os quartis, os decis e os percentis que, juntamente com a mediana, sa˜o conhecidas pelo nome gene´rico de separatrizes. 1. Quartis: Denominamos quartis os valores de uma se´rie que a dividem em quatro partes iguais. Dessa forma, e´ necessa´rio de 3 quartis (Q1, Q2 e Q3) para dividir a se´rie em quatro partes iguais. Obs: O quartil 2 ( Q2 ) valor igual a mediana da se´rie. Quartis em dados na˜o agrupados: Fazemos o ca´lculo da mediana para os 3 quartis que sera´ equivalente a calcularmos “3 medianas ”em uma mesma se´rie. Exemplo 4.6. Calcule os quartis da se´rie: {5, 2, 6, 9, 10, 13, 15} Primeiramente, fazemos a ordenac¸a˜o crescente ou decrescente dos valores: {2, 5, 6, 9, 10, 13, 15}. Note que a mediana Md = 9, enta˜o Q2 = 9. Agora teremos outras duas subse´ries oriundasda primeira, isto e´, {2, 5, 6} e {10, 13, 15} que possuem valores iguais pro- porcionados pela mediana ( quartil 2 ). Para calcularmos o quartil 1 e 3, basta obter as medianas das partes das subse´ries. Logo, em {2, 5, 6} a mediana e´ 5= Q1 e em {10, 13, 15} a mediana e´ 13 = Q3. Exemplo 4.7. Calcule os quartis da se´rie: {1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13} Como a se´rie ja´ esta´ ordenada, enta˜o podemos obter o quartil 2 que e´ a mediana, ou seja, Md = (5+6) 2 = 5, 5. O quartil 1 sera´ a mediana da se´rie {1, 1, 2, 3, 5, 5}, ou seja, Q1 = (2+3) 2 = 2, 5 - O quartil 3 sera´ a mediana da se´rie {6, 7, 9, 9, 10, 13}, da´ı, Q3 = (9+9)2 = 9 Quartis para dados agrupados em classes Usamos a mesma te´cnica do ca´lculo da mediana, bastando substituir, na fo´rmula da mediana, fi 2 por fi 4 isto e´: 21 Qi = l + ( i· � fi 4 − fa.cl.a) · (L− l) fi Onde,i = 1, 2, 3, 4, e: l: limite inferior da classe mediana. L: Limite superir da classe mediana. fi: frequeˆncia da classe. fa.cl.a: frequeˆncia acumulada da classe anterior a` classe mediana. Exemplo 4.8. Calcule os quartis da tabela abaixo: Classes fi fa 50 � · · · 54 4 4 54 � · · · 58 9 13 58 � · · · 62 11 24 62 � · · · 66 8 32 66 � · · · 70 5 37 70 � · · · 74 3 40 Total 40 Comecemos pelo quartil 2 que e´ a mediana, ou seja, Md = Q2 = l + (2· � fi 4 − fa.cl.a) · (L− l) fi� fi = 40, da´ı, 2·� fi 4 = 20 sendo 58 � · · · 62 a classe mediana, donde, l = 58, L = 62, fa.cl.a = 13 e fi = 11. Assim, Q2 = 58 + (20− 13)(62− 58) 11 = 60, 54 Como 1 ·� fi 4 = 10, da´ı sua classe sera´ 54 � · · · 58 e, portanto, l = 54, L = 58 e fi = 9, onde Q1 = 54 + (10− 4) · 4 9 = 56, 66 Calculemos o quartil 3, sabendo que 3 ·� fi = 120 e � fi 4 = 30, da´ı sua classe sera´ 62 � · · · 66, donde, l = 62, L = 66, fa.cl.a = 24 e fi = 8. Portanto, 22 Q3 = 62 + (30− 24) · 4 8 = 65 2. Decis A definic¸a˜o dos decis obedece ao mesmo princ´ıpio dos quartis, com a modificac¸a˜o da porcentagem de valores que ficam aque´m e ale´m do decil que se pretende calcular. Para se dividir em 10 parte iguais, sera´ necessa´io o ca´lculo de 9 decis. De forma que, aplicamos a fo´rmula k ·� fi 10 e obtemos a classe e “De especial interesse e´ o quinto decil, que divide o conjunto em duas partes iguais, ou seja, D5 = Q2 = Md. Para D5 temos: 5 ·� fi 10 = � fi 2 Exemplo 4.9. Calcule o 3o decil da tabela anterior com classes. Como k = 3, enta˜o D3 = 3 � fi 10 = 3 · 40 10 = 12 Este resultado corresponde a 2a classe. Da´ı, D3 = 54 + (12− 4)x4 9 = 54 + 3, 55 = 57, 55 = D3 3. Percentil ou Centil Denominamos percentis ou centis como sendo os noventa e nove valores que separam uma se´rie em 100 partes iguais. Denota-se por : P1, P2, ..., P99. Seguindo racioc´ınio semelhante, aos demais, temos: P50 = Md;P25 = Q1eP75 = Q3. O ca´lculo de um centil segue a mesma te´cnica do ca´lculo da mediana, pore´m dev- eremos substituir � fi na fo´rmula de mediana por: k ·� fi 100 onde k e´ o nu´mero de ordem do centil a ser calculado. 4.3 Medidas de Dispersa˜o As medidas de dispersa˜o nos possibilitam dizer como os valores se comportam em torno de um ponto fixado, normalmente, a me´dia. Sendo assim, ao compararmos duas se´ries ou mais iremos trac¸ar uma comparac¸a˜o no sentido de qual possui maior ou medida de dispersa˜o. Isto e´, usaremos os termos menos homogeˆnea ou mais 23 heterogeˆnea pro primeiro caso e mais homogeˆnea ou menos heterogeˆnea para o segundo caso, respectivamente. 4.3.1 Desvio Me´dio Consideremos um conjunto de dados {x1, x2, . . . , xn}, na˜o necessariamente ordena- dos. Definimos o desvio me´dio em relac¸a˜o aos valores desse conjunto em relac¸a˜o a` me´dia como sendo D = n� i=1 |xi − x| n Se a se´rie de dados for dada em intervalos de k-classes com frequeˆncias simples f1, f2, . . . , fn, enta˜o suponhamos que Xi seja o ponto me´dio de cada classe, enta˜o o desvio me´dio sera´ dado por: D = n� i=1 |Xi − x|fi n� i=1 fi Exemplo 4.10. Consideremos a distribuic¸a˜o de dados da tabela abaixo. Determine o Desvio Me´dio. Classes Largura (mm) Exemplares Xi Xifi |Xi − x| |Xi − x|fi 1 20 � · · · 23 4 21,5 86 9,52 38,08 2 23 � · · · 26 15 24,5 367,5 6,52 97,80 3 26 � · · · 29 28 27,5 770 3,52 98,56 4 29 � · · · 32 47 30,5 963,5 0,52 24,44 5 32 � · · · 35 31 33,5 1038,5 2,48 76,88 6 35 � · · · 38 13 36,5 474,5 5,48 71,24 7 38 � · · · 41 9 39,5 355,5 8,48 76,32 8 41 � · · · 44 3 42,5 127,5 11,48 34,44 Total 150 517,76 Note que: n� i=1 fi = 1024 e que n� i=1 xifi = 4653, da´ı a me´dia x sera´: 24 x = n� i=1 Xifi n� i=1 fi = 4653 150 = 31, 02 E o Desvio Me´dio sera´: D = n� i=1 |Xi − x|fi n� i=1 fi = 517, 76 150 = 3, 45173 4.3.2 Desvio Padra˜o E´ definido como a raiz quadrada da me´dia aritme´tica dos quadrados dos desvios em relac¸a˜o a` me´dia. E´ a mais importante medida de variabilidade, ou seja, o desvio padra˜o de uma se´rie de n termos, {x1, x2, . . . , xn} e´ a me´dia quadra´tica dos desvios calculados em relac¸a˜o a` me´dia aritme´tica da se´rie, e e´ dada por S = ����� n� i=1 (xi − x)2 n ou S = ��������� n� i=1 x2i − � n� i=1 xi �2 n n ou S = ����� n� i=1 d2i n 25 4.3.3 Variaˆncia A variaˆncia de uma amostra de valores (dados na˜o agrupados), {x1, x2, . . . , xn}, e´ definida como sendo a me´dia dos quadrados dos desvios das medidas em relac¸a˜o a` sua me´dia x. Isto e´: S2 = n� i=1 (xi − x)2 n ou S2 = n� i=1 x2i − � n� i=1 xi �2 n n Para o caso em que haja distribuic¸a˜o de frequencia, enta˜o a fo´rmula e´: S2 = n� i=1 x2i fi − � n� i=1 xifi �2 n 4.3.4 Coeficiente de Variac¸a˜o O coeficiente de variac¸a˜o, denotado por CV , e´ u´til para a comparac¸a˜o, em termos relativos, do grau de concentrac¸a˜o em torno da me´dia de se´ries distintas. Essa relac¸a˜o entre desvio pasa˜o e me´dia aritme´tica e´ dada em percentual pela fo´mula: CV = S x · 100% Dispersa˜o ou Variabilidade: E´ a maior ou menor diversificac¸a˜o dos valores de uma varia´vel em torno de um valor de tendeˆncia central ( me´dia ou mediana ) tomado como ponto de comparac¸a˜o. A me´dia ainda que considerada como um nu´mero que tem a faculdade de representar uma se´rie de valores - na˜o pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compo˜em o conjunto. 26 Consideremos os seguintes conjuntos de valores das varia´veis X, Y e Z: X = {70, 70, 70, 70, 70},Y = {68, 69, 70, 71, 72} e Z = {5, 15, 50, 120, 160} Observemos que os treˆs conjuntos possuem o mesmo valor de me´dia aritme´tica X = Y = Z = 70. No entanto, se observarmos conjunto X, veremos que ele e´ mais homogeˆneo que os conjuntos Y e Z, ja´ que todos os valores sa˜o iguais a` me´dia. O conjunto Y e´ mais homogeˆneo que o conjunto Z, pois ha´ menor diversificac¸a˜o entre cada um de seus valores e a me´dia representativa. Conclu´ımos enta˜o que o conjunto X apresenta dispersa˜o nula e que o conjunto Y apresenta uma dispersa˜o menor que o conjunto Z. 4.4 Assimetria e Curtose Entende-se por assimetria, o afastamento de uma distribuic¸a˜o em relac¸a˜o a um valor central.Ao final de Medidas de Posic¸a˜o a figura ilustra bem as situac¸o˜es: Distribuic¸a˜o com classes e´ sime´trica: Me´dia = Mediana = Moda. Distribuic¸a˜o com classes e´ : Assime´trica a` esquerda ou negativa quando: Me´dia < Mediana < Moda. Assime´trica a` direita ou positiva quando: Me´dia > Mediana > Moda. Coeficiente de assimetria: A medida anterior, por ser absoluta, apresenta a mesmadificuldade do desvio padra˜o, isto e´, na˜o permite a possibilidade de comparac¸a˜o entre as medidas de duas distribuic¸o˜es. Por esse motivo, daremos prefereˆncia ao coeficiente de assimetria de Person: As = 3 · (x−Md) S Uma escala ajuda a identificar o grau de assimetria de uma amostra. 27 Quando |As < 0, 15|, dizemos que a assimetria e´ pequena. Quando 0, 15 < |As| < 1, dizemos que a assimetria e´ moderada. Quando |As| > 1, dizemos que a assimetria e´ elevada. Ja´ a curtose, e´ dada pelo achatamento de uma distribuic¸a˜o em relac¸a˜o padra˜o. Sa˜o treˆs os tipos curvas de distribuic¸a˜o no que se refere a curtose: Leptocu´rtica, Mesocu´rtica e Platicu´rtica. Figura 4.2: Tipos de Curtose 4.4.1 Coeficiente de Assimetria Coeficiente de curtose e´ a medida do grau de achatamento da curva e e´ obtido por C1 = (Q3)−Q1 2 · (P90 − P10) Este coeficiente e´ conhecido como percent´ılico de curtose. Relativamente a curva normal, temos: Se C1 = 0, 263, temos uma curva mesocu´rtica. Se C1 < 0, 263, temos uma curva leptocu´rtica. Se C1 > 0, 263, temos uma curva platicu´rtica. Uma outra forma de analisar as curvas pelo coeficiente de curtose, e´: C2 = � (xi − x)4fi� fi S4 Neste caso, os valores que servem como refereˆncia sa˜o: 28 C2 = 3: curva mesocu´rtica. C2 > 3: curva leptocu´rtica. C2 < 3: curva platicu´rtica. Figura 4.3: Distribuic¸a˜o de Assimetria Negativa 29 Figura 4.4: Distribuic¸a˜o de Assimetria Positiva Figura 4.5: Distribuic¸a˜o Normal ou Sime´trica 30 Cap´ıtulo 5 Probabilidade As mais frequ¨entes aplicac¸o˜es da estat´ıstica envolvem processos de tomada de deciso˜es sob condic¸o˜es de incerteza que pode estar ligada a fatores como tamanho da amostra, representatividade da mesma e me´todo de inspec¸a˜o, entre outros. Na estat´ıstica, esse tipo de incertezas sa˜o tratadas com o aux´ılio da teoria da probabilidade. Faremos agora uma breve revisa˜o de conceitos que envolvem esta teoria. 5.1 Conjuntos 1. Conjunto Universo: Conjunto que engloba todas as situac¸o˜es em um dado tempo. Denotado por: U. 2. Operac¸o˜es com Conjuntos: Dado um conjunto universo U e A ⊂ U. • O complementar de A sera´ denotado por A • A ∩ B = {x/x ∈ A e x ∈ B}. Caso sejam disjuntos, A ∩ B =. • A ∪ B = {x/x ∈ A ou x ∈ B} • A− B = {x/x ∈ A e x �∈ B} 3. Princ´ıpio Fundamental da Contagem: Suponhamos que se possa fazer n escol- has independentes da seguinte forma: 31 Escolha 1: m1 maneiras de se fazeˆ-la. Escolha 2: m2 maneiras de se fazeˆ-la. ... Escolha n: mn maneiras de se fazeˆ-la. 4. Arranjo Simples: O nu´mero de arranjos, de n objetos distintos, tomados k a k, onde k ≤ n, e´ dado por: A(n,k) = n! (n− k)! 5. Permutac¸a˜o Simples: Definic¸a˜o: Dado um conjunto com n elementos distintos, chama-se permutac¸a˜o dos n elementos a todo arranjo desses n elementos tomados n a n. O nu´mero total de permutac¸o˜es de n elementos, indicado por Pn, e´ dado por: Pn = n! 6. Combinac¸a˜o Simples: Dado um conjunto A com n elementos distintos, chama-se combinac¸a˜o dos n elementos de A, tomados k a k, a qualquer subconjunto de A formado por k elementos. C(n,k) = � n k � = n! k!(n− k)! 7. Permutac¸a˜o com Repetic¸a˜o: Em situac¸o˜es que se tenha n elementos e que alguns desses elementos n1, n2, . . . , nr, r ≤ n repetem, o nu´mero de permutac¸o˜es sera´ dado por: P nn1,...,nr = n! n1!n2! . . . nr! 5.2 Probabilidade Ao se estudar um fenoˆmeno, passamos a ter interesse em prever sobre o mesmo, isto e´, estamos interessados em um modelo matema´tico que o descreva sem que ele precise neces- sariamente ocorrer. Dessa forma, dizemos que podemos ter dois modelos: determin´ıstico ou probabil´ıstico. No primeiro, as condic¸o˜es sob as quais o experimento e´ executado, determinam o resultado do experimento. No segundo, temos um modelo em que na˜o e´ 32 poss´ıvel explicitar ou definir um resultado particular. Este modelo e´ especificado atrave´s de uma distribuic¸a˜o de probabilidade. E´ utilizado quando se tem um grande nu´mero de varia´veis influenciando o resultado e estas varia´veis na˜o podem ser controladas. Tome-se por exemplo, o lanc¸amento de um dado onde se tenta prever o nu´mero da face que ira´ sair, a retirada de uma carta de um baralho, etc. O modelo estoca´stico e´ caracterizado como um modelo probabil´ıstico tem como varia´vel dependente, o tempo. 5.2.1 Experimento Aleato´rio Denominamos experimento aleato´rio a` todo aquele em que os resultados esta˜o sujeitos ao acaso. 5.2.2 Espac¸o Amostral e Eventos Seja um experimento aleato´rio realizado sob condic¸o˜es fixas. Chama-se espac¸o amostral do experimento o conjunto S de todos os resultados observa´veis para o experimento. Chama-se evento a qualquer subconjunto E, de S. Vale lembrar que um espac¸o amostral pode conter mais de um evento. Neste caso e´ poss´ıvel combinar eventos atrave´s de operac¸o˜es com conjuntos, por meio de unia˜o, intersec¸a˜o e complementar. Exemplo 5.1. Considerando um lanc¸amento de dado, experimento aleato´rio, enta˜o S = {1, 2, 3, 4, 5, 6} sa˜o todas os resultados poss´ıveis. Consideremos os eventos de cair nu´meros pares E1 e cair nu´meros ı´mpares E2. Isto e´, E1 = {2, 4, 6} e E2 = {1, 3, 5}. Observemos que: • E1 ∩ E2 = ∅ • E1 ∪ E2 = S No exemplo acima E1 ∩ E2 = ∅, ou seja, estes eventos sa˜o disjuntos. Quando isso ocorre dizemos que E1 e E2 sa˜o Mutuamente Excusivos. Exemplo 5.2. Agora, se ao inve´s de um, tivermos dois dados e lanc¸armos simultanea- mente os mesmos, teremos 6 possibilidades para o resltado do dado 1 e o mesmo para o dado 2. Dessa forma, teremos um espac¸o amostral de 36 elementos, a saber 33 S = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 6), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)} Onde a primeira e a segunda entrada representam as possibilidades para o dado 1 e dado 2, respectivamente. 5.2.3 Probabilidade Seja E um experimento aleato´rio e S um espac¸o amostral associado formado por n resultados igualmente prova´veis. Seja A ⊂ S um evento com m elementos. Definimos a probabilidade de A como sendo: P (A) = m n Podemos interpretar esta fo´rmula da seguinte forma: a probabilidade do evento A e´ dada pelo quociente entre o nu´mero m de casos favora´veis e o nu´mero n de casos poss´ıveis e deve atender aos axiomas: (i) 0 ≤ P (A) ≤ 1. (ii) P (S) = 1 (iii) Se A e B forem mutuamente excluderntes, ou seja, A ∩ B = ∅, enta˜o P (A ∪ B) = P (A) + P (B) 34 De forma indutiva, se tivermos A1,A2, . . . ,An mutuamente excludentes, enta˜o: P � n� i=1 Ai � = n� i=1 P (Ai) Algumas Consequeˆncias 1. P (∅) = 0. De fato, seja A ⊆ S e A∩∅ = ∅, isto e´, A e ∅ sa˜o mutuamente excludentes. Assim, P (A) = P (A ∪ ∅) = P (A) + P (∅). Da´ı, P (∅) = P (A)− P (A) = 0 2. Se A e A sa˜o complemetares, enta˜o sa˜o mutuamente excludentes e da´ı P (A)+P (A) = 1, ou ainda, P (A) = 1 − P (A).De fato, sabemos que A ∩ A = ∅, e que A ∪ A = S, da´ı P (A ∪ A) = P (S) o que implica em P (A) + P (A) = 1 como afirmado. 3. Se A ⊆ B, enta˜o P (A) ≤ P (B). Note que, B = A ∪ (B− A) e que, A e B− A sa˜o dis- juntos pois a intersec¸a˜o entre os dois e´ vazia. Sendo assim, P (B) = P (A ∪ (B− A)) = P (A + P (B− A)). Mas, P (B− A)) ≥ 0 e, portanto, P (B) ≥ P (A). 4. P (A− B) = P (A) − P (A ∩ B). Seja A = (A− B) ∪ (A ∩ B) Como esta unia˜o e´ disjunta, enta˜o vale P (A) = P (A− B) + P (A ∩ B), ou seja, P (A− B) = P (A)− P (A ∩ B) 5. Se A e B sa˜o dois eventos quaisquer de S, enta˜o P (A ∪ B) = P (A) + P (B) − P (A ∩ B). De fato, observe queA ∪ B = (A− B) ∪ B donde esta unia˜o e´ dis- junta. Da´ı, P (A ∪ B) = P (A− B) + P (B). Pela propriedade anterior, P (A ∪ B) = P (A) + P (B)− P (A ∪ B) 5.2.4 Probabilidade Condicionada Este exemplo ira´ nos motivar q dar a definic¸a˜o de probabilidade condicional. Suponha- se que se quer extrair duas pec¸as ao acaso de um lote que conte´m 100 pec¸as das quais 80 pec¸as sa˜o boas e 20 defeituosas, de acordo com os crite´rios: (a) com reposic¸a˜o. 35 (b) sem reposic¸a˜o. Definamos os seguintes eventos: A = {a primeira pec¸a e´ defeituosa} e B = {a segunda pec¸a e´ defeituosa}. (a) Como a extrac¸a˜o e´ com reposic¸a˜o, enta˜o P (A) = P (B) = 20 100 . Visto que sa˜o 20 pec¸as defeituosas em uma amostragem de 100 pec¸as. (b) Agora, se a extrac¸a˜o for sem reposic¸a˜o, note que a probabilidade de a primeira ser defeituosa e´ de 20 100 , ja´ para calcular P (B) precisamos saber se a primeira pec¸a e´ ou na˜o defeituosa. Isto sugere que P (B) depende de P (A). Definic¸a˜o 5.3. Seja S o espac¸o amostral associado a um experimento, onde P (A) > 0. Definimos a probabilidade de B condicional A, ou ainda “probabilidade de B dado A”como sendo: P (A/B) = P (A ∩ B) P (A) Propriedades: (i) 0 ≤ P (A) ≤ 1 (ii) P (S/A) = 1 (iii) P ((B1 ∪ B2)/A) = P (B1/A) + P (B2/A) com B1 ∩ B2 = ∅ (iv) P ((B1 ∪ B2 . . .)/A) = P (B1/A) + P (B2/A) + . . . em que Bi ∩ Bi = ∅ com i �= j. item[(v)] P (A/B) = 0, pois A na˜o ocorrera´ se B na˜o tiver ocorrido. Teorema da Multiplicac¸a˜o P (A ∩ B) = P (A)P (B/A) = P (A/B)P (B). Dizemos que dois eventos sa˜o independentes se a probabilidade de um ocorrer na˜o afetar a probabilidade do outro, isto e´: se P (A/B) = P (A) ou P (B/A) = P (B). Assim, pelo teorema anterior, podemos escrever: P (A ∩ B) = P (A)P (B) Teorema da Probabilidade Total 36 Seja S um espac¸o amostral e A1,A2, . . . ,An partic¸o˜es de S tal que Ai ∩ Aj = ∅, n� i=1 Ai = S e B um evento qualquer de S. Enta˜o, P (B) = P (A1)P (B/A1) + P (A2)P (B/A2) + . . .+ P (An)P (B/An) Teorema de Bayes Seja S um espac¸o amostral e A1,A2, . . . ,An partic¸o˜es de S tal que Ai ∩ Aj = ∅, n� i=1 Ai = S e B um evento qualquer de S. Enta˜o, P (Ai/B) = P (Ai)P (B/Ai) n� j=1 P (Aj)P (B/Aj) 37 Cap´ıtulo 6 Varia´veis Aleato´rias Ao se descrever o espac¸o amostral de um experimento nota-se que os elementos na˜o sa˜o necessariamente nu´meros. Assim, por exemplo, no lanc¸amento de duas moedas pode-se ter o seguinte espac¸o amostral: S = {cc, ck, kc, kk}. Pore´m, na maior parte das vezes, estamos interessados em um resultado nume´rico, isto e´, desejamos associar aos elementos do espac¸o amostral S um nu´mero real x = X(s), onde s ∈ S. Desta forma, denominamos varia´vel aleato´ria a toda func¸a˜o X que associa cada elemento de S a um nu´mero real x = X(s). Propriedades Sejam X e Y Varia´veis aleato´rias, enta˜o: (i) (X + Y )(s) = X(s) + Y (s) (ii) Seja k ∈ R, (kX)(s) = kX(s) (iii) (X + k)(s) = X(s) + k (iv) (XY )(s) = X(s)Y (s) 38 6.1 Varia´vel Aleato´ria Cont´ınua e Varia´vel Aleato´ria Discreta Definic¸a˜o 6.1. Seja X uma varia´vel aleato´ria. Suponha que o contradomı´nio de X seja um intervalo ou uma colec¸a˜o de intervalos, enta˜o diremos que X e´ uma varia´vel aleato´ria cont´ınua discreta. Exemplo 6.2. 1. A altura de um aluno de uma determinada turma da escola. 2. O sala´rio mensal de um professor pago pela escola. Definic¸a˜o 6.3. Seja X uma varia´vel aleato´ria. Se o nu´mero de valores poss´ıveis de X for finito ou infinito numera´vel, denominaremos X de varia´vel aleato´ria discreta, isto e´, os valores de X, podem ser contados. Exemplo 6.4. Vejamos alguns exemplos: 1. Nu´mero de reprovados em matema´tica em uma amostra contendo 15 alunos, ex- tra´ıdos de uma turma de 45 alunos. 2. Nu´mero de pessoas na fila de um restaurante. 3. Nu´mero de falhas que um equipamento apresenta ao longo de certo per´ıodo. Definic¸a˜o 6.5. Seja X uma varia´vel aleato´ria discreta. A cada poss´ıvel resultado de xi associaremos um nu´mero p(xi) = P (xi = X) tal que 1 ≤ i ≤ n, denominado probabilidade de xi com p(xi) ≥ 0 e n� i=1 p(xi) = 1. A func¸a˜o p definida anteriormente, e´ denominada func¸a˜o de probabilidade da varia´vel aleato´ria X. A colec¸a˜o de pares (xi, p(xi)), 1 ≤ i ≤ n e´ denominada distribuic¸a˜o de prob- abilidade de X. P (X = x) pode ser expressa por uma tabela, gra´fico ou fo´rmula. Exemplo 6.6. Consideramos o seguinte experimento E: lanc¸amento de duas moedas. Seja a varia´vel aleato´ria X: nu´mero de caras obtidas. Vamos expressar P (X = x) por: Gra´fico 39 x 0 1 2 P (X = x) 1 4 1 2 1 4 Fo´rmula P (X = x) = � 2 x � 4 onde x = 0, 1, 2. Exemplo 6.7. Seja o lanc¸amento de um par de dados. O espac¸o amostral e´ constitu´ıdo de 36 pares ordenados de nu´meros entre 1 e 6 como vimos no cap´ıtulo anterior, isto e´, S = {(1, 1), (1, 2), ..., (6, 6)}, e X associa a cada ponto (a, b) de S ao X(a, b) = ma´x(a, b), ou seja, ao maior desses nu´meros. Enta˜o, X e´ uma varia´vel aleato´ria com o conjunto imagem {1, 2, 3, 4, 5, 6}. Determinar p(xi) = P (X = xi)onde 1 ≤ i ≤ 6, ou seja, a dis- tribuic¸a˜o ou func¸a˜o de probabilidade de X. Para X = x1, temos: p(x1) = p(1) = P (X = 1) = P ({(1, 1)}) = 1 36 Para X = x2, temos: p(x2) = p(2) = P (X = 2) = P ({(2, 1), (2, 2), (1, 2)}) = 3 36 Para X = x3, temos: p(x3) = p(3) = P (X = 3) = P ({(3, 1), (3, 2), (3, 3), (1, 3), (2, 3)}) = 5 36 40 xi 1 2 3 4 5 6 p(xi) 1 36 3 36 5 36 7 36 9 36 11 36 Para X = x4, temos: p(x4) = p(4) = P (X = 4) = P ({(4, 1), (4, 2), (4, 3), (4, 4), (1, 4), (2, 4), (3, 4)}) = 7 36 Para X = x5, temos: p(x5) = p(5) = P (X = 5) = 9 36 e, por u´ltimo, p(x6) = p(6) = P (X = 6) = 11 36 . As informac¸o˜es adquiridas podem ser resumidas em forma de tabela como segue abaixo. 6.2 Esperanc¸a Matema´tica ou Valor Esperado Denominamos esperanc¸a matema´tica a varia´vel aleato´ria discreta X, a soma de todos os produtos poss´ıveis da varia´vel aleato´ria com respectiva probabilidade. E = µx = µ = � xip(xi) isto e´, E(X) e´ a me´dia ponderada dos poss´ıveis valores de X, cada um ponderado por sua probabilidade. Calcular o valor esperado ou a esperanc¸a matema´tica do exemplo anteior. E(X) = µ = � xip(xi) = 1 · 1 36 + 2 · 3 36 + 3 · 5 36 + 4 · 7 36 + 5 · 9 36 + 6 · 11 36 = 161 36 = 4, 47 Exemplo 6.8. O almoxarifado de uma escola estabeleceu um registro de requisic¸a˜o para certo tipo de material escolar, conforme quadro abaixo. Determine o nu´mero esperado de 41 requisic¸o˜es por dia. No de requisic¸o˜es/dia 0 1 2 3 4 5 6 7 8 9 Probab. de ocorreˆncia 0,02 0,07 0,09 0,12 0,20 0,18 0,10 0,01 0,01 E(X) = � xi · fi = 0 · 0, 02 + 1 · 0, 07 + 3 · 0, 09 + 4 · 0, 12 + 5 · 0, 20 + 6 · 0, 18 + 7 · 0, 10 + 8 · 0, 01 + 9 · 0, 01 = 4, 36 Portanto ha´ cerca de aproximadamente 5 requisic¸o˜es por dia. Exemplo 6.9. O nu´mero de chamadas telefoˆnicas de uma operadora por mesa e suas respectivas probabilidades por um intervalo de 3 minutos sa˜o dados abaixo. Aplicando a fo´rmula, verifica-se que em me´dia sa˜o gastos 1,87 chamadas, isto e´, aprox- imadamente duas chamadas. 6.2.1 Variaˆncia e Desvio Padra˜o A variaˆncia, V AR(X) ou σ, de uma varia´vel aleato´ria discreta pode ser obtida multiplicando- se cada diferenc¸a ao quadrado (Xi − µ)2 por sua probabilidade correspondente P (Xi) e somando-se, depois, os produtos resultantes. Assim, a variaˆncia da varia´vel aleato´ria X pode ser expressa da seguinte maneira: V AR(X) = σ2 = n� i=1 (Xi − µ)2 · P (Xi), onde, X: varia´vel aleato´ria. Xi: i−e´simo termo de X. No de chamadas 0 1 2 3 4 5 Proabilidade 0,60 0,20 0,10 0,4 0,03 0,03 42P (Xi): probabilidade do i−e´simo resultado de X. µ: me´dia aritme´tica. Dessa forma, escrevemos o desvio padra˜o como sendo: σ = ���� n� i=1 (Xi − µ)2 · P (Xi) Isto e´, σ = � V AR(X) Exemplo 6.10. Considerando a distribuic¸a˜o de probabilidades dos resultados dos resul- tados de lanc¸amentos de um dado. Calcular a me´dia, a variaˆncia e o desvio padra˜o. Face do Resultado 1 2 3 4 5 6 Probabilidade 1 6 1 6 1 6 1 6 1 6 1 6 Primeiramente, obtemos a Me´dia: µ = 6� i=1 xip(xi) = 1 · 1 6 + 2 · 1 6 + 3 · 1 6 + 4 · 1 6 + 5 · 1 6 + 6 · 1 6 = 21 6 = 3, 5 Calculemos o valor da Variaˆncia σ2 = � i = 16(xi − µ)2 · p(xi) = (1− 3, 5)2 · 1 6 + (2− 3, 5)2 · 1 6 + (3− 3, 5)2 · 1 6 + (4− 3, 5)2 · 1 6 + (5− 3, 5)2 · 1 6 + (6− 3, 5)2 · 1 6 = 2, 9166 43 E agora, o Desvio Padra˜o dado por: σ = √ σ2 = √ 2, 9166 = 1, 71 44 Cap´ıtulo 7 Amostragem Vimos no cap´ıtulo 1 va´rios conceitos ba´sicos, dentre eles o de amostra e populac¸a˜o que sera˜o novamente utilizados. Populac¸a˜o: como vimos, populac¸a˜o e´ um conjunto de elementos possuindo pelo menos uma caracter´ıstica comum. Na pra´tica, esta e´ representada por um conjunto de nu´meros que representam esta caracter´ıstica de interesse e podem ser subdivididas em duas classes: • Finitas: quando possuem um nu´mero finito de elementos. Por exemplo: os alunos da uma turma, resultados poss´ıveis do lanc¸amento de uma moeda ou dados. • Infinitas: quando uma populac¸a˜o e´ suficientemente grande para que sua distribuic¸a˜o de probabilidade se mantenha inalterada durante a retirada de uma amostra. Por exemplo: resultado dos lanc¸amentos de uma moeda ou de dados; produc¸a˜o passada e futura de uma ma´quina. Amostragem: e´ a parte da Estat´ıstica que se preocupa com as maneiras de relacionar amostras representativas das populac¸o˜es e que possam estimar, de forma mais precisa poss´ıvel, para a obtenc¸a˜o dos objetivos desejados. Amostra: e´ um subconjunto necessariamente finito da populac¸a˜o, retirada segundo uma regra conveniente. Uma amostra e´ dita boa quanto maior, mais preciso e confia´vel forem seus dados e resultados. Censo: e´ realizado ao se medir ou observar todos os elementos de uma populac¸a˜o. 45 Censo x Amostragem: ha´ va´rias situac¸o˜es de aplicac¸a˜o de censo ou amostragem. Vamos analisar quais situac¸o˜es elas sa˜o mais aplica´veis. Normalmente, o Censo e´ utilizado quando a populac¸a˜o e´ bastante pequena ou quando o tamanho da amostra for grande em relac¸a˜o a` populac¸a˜o ou quando e´ necessa´rio uma precisa˜o completa ou mesmo quando ja´ se se dispo˜e da informac¸a˜o completa. Ja´ a Amostragem e´ utilizada quando a populac¸a˜o e´ infinita ou uma amostra for mais atu- alizada do que o censo (informac¸o˜es urgentes, epidemias) ou quando houver testes de cara´ter destrutivo ou consumı´vel ou quando o custo do censo for mais elevado ou quando houver riscos de precisa˜o devido a` uma populac¸a˜o numerosa ou o tipo de informac¸a˜o tiver outras varia´veis como uma amostra ou de um censo ou premeˆncia de tempo, restric¸o˜es orc¸amenta´rias, exame de laborato´rio de ana´lise cl´ınica, etc. Dentro de amostragem, ha´ duas ramificac¸o˜es, a saber: Amostragem probabil´ıstica: e´ aquela em que se conhece a probabilidade de cada el- emento da populac¸a˜o e que a mesma seja na˜o nula. Portanto, e´ necessa´rio se ter regras bem determinadas e uma populac¸a˜o finita. Este tipo de amostra, normalmente, garante grandes infereˆncias estat´ısicas em seus resultados. O nu´mero de amostras a ser construida pode ser com ou sem repetic¸a˜o denotadas por CnN e N n respectivamente. Vejamos agora algumas te´cnicas de amostragem probabil´ıstica. • Amostragem simples ao acaso (aleato´ria, randoˆmica, casual, simples, elementar): e´ equivalente a um sorteio lote´rico. Pode ser usada a tabela de nu´meros aleato´rios(TNA): a TNA conte´m os dez algarismos 0, 1,..., 9. Estes nu´meros podem ser lidos isolada- mente ou em grupos, em qualquer ordem, por coluna, por linhas, diagonalmente, de cima para baixo. Uma caracter´ıstica da TNA e´ que todos os algarismos teˆm a mesma probabilidade de ocorrer; outra caracter´ıstica e´ que as combinac¸o˜es de al- garismos teˆm a mesma probabilidade que outras combinac¸o˜es. Procedimento: seja a escolha aleato´ria de 15 clientes entre 720. atribu´ımos nu´meros de 001 a 720, ou seja do primeiro ao u´ltimo, neste caso, sera˜o necessa´rio treˆs algar- ismos. • Amostragem sistema´tica: os elementos esta˜o ordenados e as retiradas dos elementos da amostra sa˜o realizadas periodicamente. 46 Procedimento: 1. seja a escolha aleato´ria de 15 clientes entre 720. O tamanho dos grupos sera˜o 720 15 = 48. 2. Pela TNA, procuramos o 1o elemento entre 01 e 48; vamos supor que ocorra o elemento 12; os demais sera˜o obtidos pela fo´rmula: 12 + 48 · n onde n = 1, 2, . . . , 14 3. Dessa forma, teremos os dados: 12, 60, . . . , 624, 672, 720. • Amostragem estratificada: muitas vezes, a populac¸a˜o se divide em sub populac¸o˜es ou estratos, sendo razoa´vel supor que, de estrato para estrato, a varia´vel de interesse apresente um comportamento substancialmente diverso, pore´m na˜o ta˜o discrepante, ou seja, razoavelmente homogeˆneo dentro de cada estrato. Por exemplo, usinas de ac¸u´car no estado de Sa˜o Paulo (treˆs grupos: pequenos, me´dios e grandes); estu- dantes conforme suas especializac¸o˜es ou faixas eta´rias. A amostragem estratificada pode ainda ser: Uniforme: mesmo nu´mero de elementos por estrato e´ proporcional ao nu´mero de elementos de estrato. O´tima: nu´mero de elementos de cada estrato proporcional ao nu´mero de elementos de estrato usa-se o desvio padra˜o (variac¸a˜o menor menos elementos). • Amostragem por conglomerados: pressupo˜e a disposic¸a˜o dos itens de uma populac¸a˜o em grupos heterogeˆneos representativos da populac¸a˜o global. Por exemplo, no es- tudo da populac¸a˜o de um bairro: e´ imposs´ıvel relacionar todos os habitantes, pore´m e´ poss´ıvel relacionar as casas; efetuar a escolha casual simples de algumas delas e estudar os indiv´ıduos que moram nas casas sorteadas. • Amostragem em esta´gios mu´ltiplos: a amostra e´ retirada em diversas etapas su- cessivas. Dependendo dos resultados observados, etapas suplementares podem ser dispensadas. Por exemplo, na pesquisa para uma fa´brica de leite em Minas Gerais. 1o esta´gio: sortear os munic´ıpios de Minas Gerais; 2o esta´gio: sortear quarteiro˜es dos munic´ıpios; 3o esta´gio: sortear resideˆncias dos quarteiro˜es sorteados. 47 Amostragem na˜o probabil´ıstica: e´ aquela em que ha´ uma escolha deliberada dos ele- mentos da amostra. As amostras intencionais como tambe´m sa˜o usadas em certos tipos de pesquisa de mercado, pore´m as infereˆncias feitas nestas condic¸o˜es na˜o permitem analisar a probabilidade de erro. As situac¸o˜es onde utilizamos amostragem na˜o probabil´ıstica sa˜o as seguintes: • Inacessibilidade a toda a populac¸a˜o: busca-se a amostra na parte da populac¸a˜o que e´ acess´ıvel. Por exemplo, mine´rio: colhe-se na camada pro´xima a` superf´ıcie; peixes: somente os que foram apanhados. • A populac¸a˜o e´ formada por material cont´ınuo: imposs´ıvel a amostragem proba- bil´ıstica, por exemplo, quando trabalhamos com gases ou l´ıquidos, etc. • Amostragens intencionais: o amostrador escolhe deliberadamente certos elementos para pertencer a` amostra por julgar tais elementos bem representativos da pop- ulac¸a˜o. Por exemplo, pesquisa de mercado para carros superluxo: selecionar pessoas de alto poder aquis- itivo. congressos estudantis: participac¸a˜o de elementos que coordenam os direto´rios. Principais fases de um levantamento estat´ıstico: • Objetivos dolevantamento: conseguir definic¸o˜es claras e diretrizes para sua perfeita execuc¸a˜o. • Populac¸a˜o: deve ser bem definida. • Dados a serem coletados: somente levantar dados essenciais. • Grau de precisa˜o desejado: dimensionar a amostra no grau de precisa˜o desejado. • Me´todos de medida: estruturar toda a metodologia da coleta de dados. • Unidade de amostra: definir a unidade amostra, individuo, casa, famı´lia etc. • Escolha do tipo de amostra: de acordo com o tipo de levantamento, levando em conta a exequ¨ibilidade e os custos operacionais. 48 • Pre´-amostragem: testar em pequena escala para verificar a necessidade ou na˜o de alternac¸o˜es. • Organizac¸a˜o do trabalho: trac¸ar uma sistema´tica de trabalho ou uma rotina de operac¸o˜es para toda equipe de trabalho. • Sintetizac¸a˜o e analise de dados: compilac¸a˜o e confereˆncia de dados, gra´ficos, tabelas e testes estat´ısticas. • Sugesto˜es: informac¸o˜es utiliza´veis em futuros levantamentos. Este trabalho somente vai se concentrar no caso mais simples de amostragem proba- bil´ıstica: amostragem casual simples. 7.0.2 Amostragem Casual Simples A maneira mais fa´cil de selecionarmos uma amostra e´ aquela em que atribu´ımos a cada elemento da populac¸a˜o a mesma probabilidade de selec¸a˜o, e o elemento sorteado e´ reposto na populac¸a˜o antes do pro´ximo sorteio. Podemos obter uma amostra nessas condic¸o˜es, escrevendo cada elemento da populac¸a˜o num carta˜o, misturandose numa e sorteando tantos carto˜es quantos desejarmos nas amostras. Esse procedimento torna-se invaria´vel quando a populac¸a˜o e´ muito grande. Nesse caso, usa-se um processo alternativo, em que os elementos sa˜o numerados e em seguida sorteados atrave´s de uma tabela de nu´meros aleato´rios. A seguir damos algumas definic¸o˜es de amostra casual simples de tamanho n. Definic¸a˜o 7.1. Uma amostra casual simples de tamanho n de uma varia´vel aleato´ria X com uma dada distribuic¸a˜o e´ o conjunto de n varia´veis aleato´rias independentes, X1,X2, . . . ,Xn, cada uma com a mesma distribuic¸a˜o de X. Ou seja, a amostra sera´ a n-upla ordenada (X1,X2, . . . ,Xn) em que Xi indica a observac¸a˜o do i-e´simo elemento sorteado. A me´dia da amostra e´ dada por X = 1 n (X1 +X2 + · · ·Xn) Podemos observar que X e´ tambe´m uma varia´vel aleato´ria. Qualquer outra carac- ter´ıstica da amostra tambe´m sera´ uma func¸a˜o do vetor aleato´rio (X1,X2, . . . ,Xn). 49 Definic¸a˜o 7.2. Uma estat´ıstica e´ uma caracter´ıstica da amostra, ou seja, uma estat´ıstica T e´ uma func¸a˜o, ou seja, T = f(X1,X2, . . . ,Xn). As estat´ısticas mais recorrentes sa˜o: Me´dia de Amostra: X = 1 n � i = 1nXi Variaˆncia da Amostra: S2 = 1 n− 1 � i = 1n(Xi − X)2 Menor valor da Amostra: Xmı´n = mı´n {X1,X2, . . . ,Xn} Maior valor da Amostra: Xma´x = mı´n {X1,X2, . . . ,Xn} Amplitude total da Amostra: ω = Xma´x − Xmı´n Xi: i-e´sima observac¸a˜o da Amostra. Variaˆncia da populac¸a˜o: σ2 = 1 n � i = 1n(Xi − X)2 Assim, se estamos colhendo amostras de uma populac¸a˜o identificada pela varia´vel aleato´ria (v.a.) X, enta˜o a me´dia E(X) e a variaˆncia V AR(X) sa˜o da populac¸a˜o, ou seja, V AR(X) = σ e E(X) = µ 50 Podemos resumir as notac¸o˜es pela tabela que segue: Estat´ıstica Amostral Populac¸a˜o Me´dia X µ Variaˆncia S2 σ2 No de Elementos n N 7.1 Distribuic¸o˜es Amostrais A teoria da amostrageme´ um estudo das relac¸o˜es existentes entre uma populac¸a˜oe as amostrasdela extra´ıdas. Atrave´s das estat´ısticas amostrais; grandezas correspondentes a`s amostras (me´dia aritme´tica, desvio padra˜o, variaˆncia etc.); procura-se avaliar as grandezas desconhecidas das populac¸o˜es paraˆmetros populacionais(paraˆmetros). Ao retirar uma amostra aleato´ria de uma populac¸a˜o, portanto, estaremos considerando cada valor da amostra como um valor de uma varia´vel aleato´ria cuja distribuic¸a˜o de probabilidade e´ a mesma da populac¸a˜o no instante da retirada desse elemento para amostra. 7.1.1 Distribuic¸a˜o Amostral da Me´dia Com e Sem Reposic¸a˜o Se extrairmos um objeto de uma urna, poderemos repoˆ-lo ou na˜o na urna antes da extrac¸a˜o seguinte. No primeiro caso, determina do objeto pode aparecer mais de uma vez, enquanto, no segundo caso, o objeto so´ pode aparecer uma vez, No primeiro caso, temos a amostragem com reposic¸a˜o, no segundo, amostragem sem reposic¸a˜o. Vamos estudar agora a distribuic¸a˜o amostral da estat´ıstica X, a me´dia da amostra. Consideremos uma populac¸a˜o identificada pela varia´vel X, cujos paraˆmetros me´dios populacionais E(X) = µ e variaˆncia populacional V AR(X) = S2 sa˜o supostamente conhecidos. Vamos retirar todas as poss´ıveis amostras causais simples de tamanho ndessa populac¸a˜o, para cada uma calcular a me´dia X. Em seguida, constru´ımos a distribuic¸a˜o amostral e estudamos suas propriedades. A seguir apresentaremos um exemplo de ca´lculo de me´dia, variaˆncia etc. da amostra e da populac¸a˜o e´: Exemplo 7.3. Seja uma populac¸a˜o limitada a 3 valores, ou seja, X = {2, 4, 6}. Enta˜o, a me´dia da populac¸a˜o. µ = 2 + 4 + 6 3 = 4 51 O desvio padra˜o sera´: σ = ���� 1 n 3� i=1 (xi − X) = � (4− 1)2 + (4− 4)2 + (6− 4)2 3 = � 8 3 = 1, 633 Consideremos as amostras aleato´rias de 2 elementos com reposic¸a˜o. Conjunto das amostras: {(2, 2), (2, 4), (2, 6), (4, 2), (4, 4), (4, 6), (6, 2), (6, 4), (6, 6)} Conjunto das me´dias das amostras: {2, 3, 4, 3, 4, 5, 4, 5, 6} Este conjunto e´ uma populac¸a˜o. Me´dia do conjunto das me´dias: µX = 2 + 3 + 4 + 3 + 4 + 5 + 4 + 5 + 6 9 = 4 O desvio padra˜o edste conjunto das me´dias e´: σX = � 4 3 = 1, 1547 Pelo exemplo observamos que σX = � 4 3 = � 2 · 4 2 · 3 = � 1 2 · 8 3 = 1√ 2 · 8 3 Atrave´s destes exemplos, podemos observar que: 52 • e´ poss´ıvel demonstrar que de uma populac¸a˜o de tamanho N da qual sa˜o retiradas to- das as amostras poss´ıveis de tamanho n, obtemos populac¸a˜o infinita ou amostragem com reposic¸a˜o. • σX = µ, isto e´, a me´dia das me´diasde todas as amostras poss´ıveis do mesmo tamanho retirados de uma mesma populac¸a˜o de valores X e´ igual a me´dia desta populac¸a˜o. • σX = σ√n , isto e´, o desvio padra˜o das me´diasdessas amostras e´ igual ao desvio padra˜o da populac¸a˜o dividida pela raiz quadrada do tamanho da amostra. Feito isso, podemos enunciar o seguinte teorema: Teorema 7.4. Seja X v.a. com me´dia µ e variaˆncia S2 e, seja (X1,X2, . . . ,Xn) uma amostra casual simples (amostragem com reposic¸a˜o) e, X = X1,X2,...,Xn n , enta˜o temos: µX = E(X) = µ (7.1) σ2 X = V AR(X) = E(X− µ2) = σ 2 n (7.2) Teorema a seguir e´ conhecido como Teorema do Limite Central, em que a distribuic¸a˜o amostral de X aproxima-se cada vez mais de uma distribuic¸a˜o normalquando o tamanho da amostra aumenta independente de distribuic¸a˜o da populac¸a˜o original. Teorema 7.5. Para amostras casuais simples (X1,X2, . . . ,Xn) retiradas de uma pop- ulac¸a˜o com com me´dia µ e variaˆncia S2, a distribuic¸a˜o amostral da me´dia X = X1,X2, . . . ,Xn n aproxima-se de uma distribuic¸a˜o normal com me´dia µ e variaˆncia σ 2 n quando n tende ao infinito. Observac¸a˜o: Se a populac¸a˜o tem tamanho N , se a amostragem e´ sem reposic¸a˜o, e se o tamanho da amostra e´ n ≤ N , enta˜o σ2 X = σ2 n e´ substitu´ıda por σ2 X = σ2 n · � N − n N − 1 � (7.3) 53 ao passo que µX e´ dado ainda por 7.1, ou seja, µX = µ . Note que 7.3 se reduz a 7.2 quando N → ∞. Assim, a` medida em que se aumenta o tamanho da amostra, a distribuic¸a˜o da amostragem da me´dia se aproxima da forma da distribuic¸a˜o normal, qualquer que seja a forma da populac¸a˜o. Na pra´tica, a distribuic¸a˜ode amostragem da me´dia pode ser considerada como aprox- imadamente normal sempre que o tamanho da amostra for n ≥ 30. Exemplo 7.6. Uma populac¸a˜o consiste dos nu´meros 1, 3, 6, 7, 8. Consideremos todas as amostras poss´ıveis de tamanho 2 que podem ser extra´ıdas, com reposic¸a˜o dessa populac¸a˜o. Determine: (a) me´dia da populac¸a˜o; (b) o desvio padra˜o da populac¸a˜o; (c) a me´dia da distribuic¸a˜o amostral de me´dias; (d) o desvio padra˜o da distribuic¸a˜o amostral de me´dias, isto e´, o erro padra˜o das me´dias; (e) a me´dia de distribuic¸a˜o amostral de me´dias sem reposic¸a˜o; (f) a variaˆncia da distribuic¸a˜o amostral de me´dias. (a) A me´dia da populac¸a˜o e´ µ = 1 + 3 + 6 + 7 + 8 5 = 5 (b) O desvio padra˜o da populac¸a˜o e´ σ2 = (1− 5)2 + (3− 5)2 + (6− 5)2 + (7− 5)2 + (8− 5)2 5 = 34 5 = 6, 8 (c) Me´dia da distribuic¸a˜o amostral de me´dias: temos 52 = 25 amostras de tamanhos 2 com reposic¸a˜o. Essas amostras sa˜o: (1, 1) (1, 3) (1, 6) (1, 7) (1, 8) (3, 1) (3, 3) (3, 6) (3, 7) (3, 8) (6, 1) (6, 3) (6, 6) (6, 7) (6, 8) (7, 1) (7, 3) (7, 6) (7, 7) (7, 8) (8, 1) (8, 3) (8, 6) (8, 7) (8, 8) 54 As me´dias amostrais sa˜o: 1 2 3, 5 4 4, 5 2 3 4, 5 5 5, 5 3, 5 4, 5 6 6, 5 7 4 5 6, 5 7 7, 5 4, 5 5, 5 7 7, 5 8 Assim, a me´dia da distribuic¸a˜o amostral das me´dias e´ dada por: µX = soma de todas as me´dias da tabela 25 = 125 5 (d) Obte´m-se a variaˆncia da distribuic¸a˜o amostral da me´dia subtraindo-se a me´dia 5,0 de cada nu´mero dado na tabela, elevando-se o resultado ao quadrado, somando-se todos os valores assim obtidos, e dividindo os por 25. O resultado final e´: σ2 X = (1− 5)2 + (2− 5)2 + . . .+ (7, 5− 5)2 + (8− 5)2 5 = 85 25 = 3, 4 Isto mostra que, para populac¸a˜o finita envolvendo amostragem com reposic¸a˜o ou populac¸o˜es infinitas, σ2 X = σ 2 n , pois o membro direto 6,8 2 = 3, 4, que confere com o valor obtido acima. (e) Ha´ C52 = 5! 2!3! = 5·4·3! 2!3! = 5·4 2 = 10 amostras de tamanho dois, sem reposic¸a˜o, que podem ser extra´ıdas da populac¸a˜o. Isto significa que podemos extrair um nu´mero e em seguida outro nu´mero diferente do 1◦, a saber, (1, 3) (1, 6) (1, 7) (1, 8) (3, 6) (3, 7) (3, 8) (6, 7) (6, 8) (7, 8) Aqui a escolha (1,3) , por exemplo, e´ considerada ideˆntica a` escolha (3,1) . As me´dias amostrais correspondentes sa˜o 2 3, 5 4 4, 5 4, 5 5 5, 5 6, 5 7 7, 5 e a me´dia da distribuic¸a˜o amostral das me´dias e´ 55 µX = 2 + 3, 5 + 4 + 4, 5 + 4, 5 + 5 + 5, 5 + 6, 5 + 7 + 7, 5 10 = 50 10 = 5 Portanto, µX = µ. σ2 X = 1 10 · �(2− 5)2 + (3, 5− 5)2 + (4− 5)2 + (4, 5− 5)2 + (4, 5− 5)2 + (5− 5)2 + (5, 5− 5)2 + = 1 10 {9 + 6, 25 + 4 + 4, 5 + 1 + 0, 75} = 1 10 · 25, 5 = 2, 55 Dessa forma, σX = √ 2, 55 = 1, 5968 (f) Isto mostra que σ2 X = σ2 n � N − n N − 1 � Fazendo N = 5 e n = 2, temos, σX = 1, 5968o que confere com o valor calculado anteriormente. 7.1.2 Fator de Correlac¸a˜o Finita (FCF) Visto que na˜o estudamos distribuic¸a˜o normal de varia´veis cont´ınuas usaremos a tabela abaixo afim de conseguir efetuar ca´lculos de probabilidade, ao final deste cap´ıtulo. Nesta, cada valor da tabela indica a proporc¸a˜o da a´rea total sob a curva normal contida no segmento delimitado por uma perpendicular levantada na me´dia e uma perpendicular levantada a` distaˆncia de z desvios padro˜es unita´rios. 56 57 Para ilustrar a figura anterior, 43,57% da a´rea sob uma curva normal esta˜o entre a ordenada ma´xima e um ponto 1,52 desvios padro˜es adiante. O fator de correc¸a˜o finita e´ usado quando o tamanho da amostra e´ superior a 5% do tamanho da populac¸a˜o, principalmente no caso de amostragem sem reposic¸a˜o. Esse fator e´ dado por n > 5%⇒ FCF = � N − n N − 1 , σX = µ e σX = σ n � N − n N − 1 Quanto a` normalidade da distribuic¸a˜o da populac¸a˜o: (a) se for normal, enta˜o a distribuic¸a˜o amostral de X sera´ normal para qualquer tamanho da amostra. (b) se na˜o for normal, enta˜o, para amostras suficientemente grandes (populac¸a˜o infinita, amostragem com reposic¸a˜o) a distribuic¸a˜o de Xsera´ aproximadamente normal. Para amostras sem reposic¸a˜o de populac¸a˜o finita com n > 30, a distribuic¸a˜o de X e´ aceita como normal. (c) Para a determinac¸a˜o da probabilidade e caso a distribuic¸a˜o de X seja normal, apli- camos a transformac¸a˜o de padronizac¸a˜o: z = X− µ σX ou z = X− µ σ√ n onde: X: elemento da distribuic¸a˜o X; µ: me´dia da populac¸a˜o; S: desvio padra˜o da populac¸a˜o; n: tamanho da amostra. 58 Exemplo 7.7. Suponhamos que as alturas de 2500 estudantes do sexo masculino em uma universidade tenha me´dia 175 cm e desvio padra˜o 9 cm. Extraindo-se 70 amostras de 36 estudantes de cada uma, quais seriam a me´dia e o desvio padra˜o da distribuic¸a˜o amostral de me´dias no caso de: (a) amostragem com reposic¸a˜o; (b) amostragem sem reposic¸a˜o; (c) abaixo de 170 cm. (d) quantos amostras podem esperar que a me´dia esteja entre 172 cm e 179 cm; Resoluc¸a˜o: (a)e(b) Pela fo´rmula, temos em total de amostras com reposic¸a˜o (2500)36 e C250036 sem reposic¸a˜o. Logicamente, ambas sa˜o bem maiores que 70. Enta˜o, neste caso na˜o obtemos uma distribuic¸a˜o amostral verdadeira, mas uma distribuic¸a˜o amostral ex- perimental. Como o nu´mero de amostras e´ muito grande, deve haver aproximac¸a˜o satisfato´ria entre as duas distribuic¸o˜es amostrais. Logo, a me´dia e o desvio padra˜o esperados devem estar pro´ximos dos valores correspondentes de distribuic¸a˜o teo´rica. Enta˜o, temos µX = µ = 175cm σX = σ√ n = 9√ 36 = 1, 5 Agora, utilizando o fator de correc¸a˜o finita, temos σX = σ√ n = � N − n N − 1 = 9 6 � N − n N − 1 = 1, 489 cm O que e´ quase igual a 1,5, portanto, para fins pra´ticos, podemos considerar como o mesmo valor obtido por amostragem com reposic¸a˜o. Assim, podemos concluir que a distribuic¸a˜o experimental das me´dias tem distribuic¸a˜o aproximadamente normal com me´dia 175 cm e desvio padra˜o 1,5 cm. (c) A me´dia amostral X, em unidades padronizadas, e´ aqui dada por 59 z = X− µX σX = X− 175 1, 5 172 em unidades padronizadas equivale a z = (172−175) 1,5 = −2, 0 179 em unidades padronizadas e´ (179−175) 1,5 = 2, 67 Proporc¸a˜o da amostra com me´dias 172 e 179 = (a´rea sob a curva normal entre z = −2, 0 e z = 2, 67 + a´rea entre z = 0 e z = 2, 67, isto e´ 0, 4772+0, 4962 = 0, 9734. Nu´mero esperado da amostra e´ 70 (0,9734) = 68,13 ou 68. (d) 173 em unidades padronizadas e´ z = (173−175) 1,5 = −1, 34 Porc¸o˜es de amostras com me´dia inferior a 173 cm =(a´rea sob a curva normal a` esquerda de z = −1, 34 = (a´rea a` esquerda de z = 0 ) - (a´rea entre z = −1, 34 e z = 0) = 0,5- 0,4099 = 0,0901 Enta˜o o nu´mero esperado de amostras e´ 70 · (0, 0910) = 6, 307, ou seja, aproximada- mente 6. Exemplo 7.8. Seiscentos alunos teˆm peso me´dio de 70 kg e desvio padra˜o de 5,0 Kg. Determine a probabilidade de 50 pessoas extra´ıdas aleatoriamente desse grupo terem: (a) um peso me´dio entre 68 e 69 kg; (b) de mais que 72 kg. Resoluc¸a˜o: 60 Para distribuic¸a˜o amostral de me´dias: µX = µ = 70 kg e σX = σ√ n � N − n N − 1 = 5√ 50 · � 600− 50 600− 1 = 0, 707 · 0, 958 = 0, 68 (a) O peso me´dio estara´ entre 68 e 69 Kg. Se o peso me´dio da amostra de 100 alunos estiver entre 68 e 69 Kg, 68 em unidades padronizadas e´ z = 68−70 0,67 = −2, 98 69em unidades padronizadas e´ z = 69−70 0,67 = −1, 49 Probabilidade desejada = (a´rea entre z = −2, 98 e z = −1, 49) = (a´rea entre z = −2, 98 e z = 0) - (a´rea entre z = −1, 49 e z = 0 ) = 0,4986 - 0,4319= 0,0667= 6,67%.(b) O peso total excedera´ 72Kg se o peso me´dio dos 100 alunos da amostra exceder os 75Kg. Em unidades padronizadas, 75 e´ z = 72−70 0,67 = 2, 98 Probabilidade desejada = (a´rea entre z = 2, 98) = (a´rea a` direita de z = 2, 98 ) = (a´rea a` direita de z = 0 ) - (a´rea entre z = 0 e z = 2, 98) = 0,5 - 0,4986=0,0014 =0,14 %. o que e´ praticamente zero. Exemplo 7.9. Um fabricante de baterias alega que seu artigo de primeira categoria tem uma vida esperada (me´dia) de 50 meses. Sabe-se que o desvio-padra˜o correspondente e´ de 4 meses. Que percentagem de amostras de 36 observac¸o˜es acusara´ vida me´dia, no intervalo de 1 meˆs, em torno de 50 meses, admitindo ser de 50 meses a verdadeira vida me´dia das baterias? Resoluc¸a˜o: Dados: µ = 50 meses, σ = 4 meses, n = 36, pede-se P (49 ≤ X ≺ 51). 61 Note que P (49 ≤ X ≺ 51) = P (z1 ≤ X ≤ z2) z1 = 49− 50 4√ 36 = 1, 5 Logo, P (49 ≤ X ≤ 51) = P (−1, 5 ≤ z ≤ 1, 5) = 0, 4332 + 0, 43320 = 0, 866486, 64%. Exemplo 7.10. Uma ma´quina para recobrir cerejas de chocolates e´ regulada para produzir um revestimento de 3mm de espessura. O processo tem distribuic¸a˜o normal com desvio padra˜o de 1mm. Se o processo funciona conforme e esperado (i.e., me´dia de 3mm e desvio padra˜o de 1mm), qual seria a probabilidade de extrair uma amostra de 25 de um lote de 169 cerejas e encontrar uma me´dia amostral superior a 3,4mm? Temos os seguintes dados: µ = 3mm, σ = 1mm, n = 25, N = 169; pede-se: P (X > 3, 4). P (X > 3, 4) = P (z > z1) n N = 25 169 = 0, 15 = 15%-FCF, σX = 1√ 25 · � 169− 25 169− 1 = 0, 185⇒ z1 = 3, 4− 3 0, 185 = 2, 16 Logo, P (X > 3, 4) = P (z > 2, 16) = 0, 15− 0.4846 = 0, 0154 = 1, 54% 62
Compartilhar