Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estat´ıstica Ba´sica Profa. Daniela Paula Instituto de Matema´tica -UFRRJ 2012 Gabriel Underline Contents 1 Introduc¸a˜o 1 2 Ana´lise explorato´ria de dados - Resumo de Dados 2 2.1 Tipos de varia´veis . . . . . . . . . . . . . . . . . . . . . . . . . 2 2.2 Distribuic¸a˜o de frequeˆncias . . . . . . . . . . . . . . . . . . . . 3 2.3 Gra´ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.4 Medidas resumo - Medidas de posic¸a˜o central . . . . . . . . . 9 2.5 Me´dia geome´trica e Me´dia harmoˆnica . . . . . . . . . . . . . . 11 2.6 Medidas de dispersa˜o . . . . . . . . . . . . . . . . . . . . . . . 15 2.7 Quantis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.8 Box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.9 Exerc´ıcios - lista 01 . . . . . . . . . . . . . . . . . . . . . . . . 22 2.10 Exerc´ıcios - lista 02 . . . . . . . . . . . . . . . . . . . . . . . . 23 2.11 Exerc´ıcios - lista 03 . . . . . . . . . . . . . . . . . . . . . . . . 25 3 Ana´lise bidimensional 27 3.1 Associac¸a˜o entre varia´veis qualitativas . . . . . . . . . . . . . 28 3.2 Associac¸a˜o entre varia´veis quantitativas . . . . . . . . . . . . . 32 3.3 Exerc´ıcios - lista 04 . . . . . . . . . . . . . . . . . . . . . . . . 36 3.4 Exerc´ıcios - lista de revisa˜o . . . . . . . . . . . . . . . . . . . . 39 4 Probabilidade 43 4.1 Modelo probabil´ıstico . . . . . . . . . . . . . . . . . . . . . . . 43 4.2 Probabilidade condicional e independeˆncia . . . . . . . . . . . 46 4.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.4 Exerc´ıcios - lista 05 . . . . . . . . . . . . . . . . . . . . . . . . 54 5 Varia´veis aleato´rias discretas 59 5.1 Func¸a˜o de Probabilidade . . . . . . . . . . . . . . . . . . . . . 59 5.2 Func¸a˜o de distribuic¸a˜o acumulada . . . . . . . . . . . . . . . . 61 5.3 Valor esperado e variaˆncia . . . . . . . . . . . . . . . . . . . . 64 5.4 Modelo uniforme discreto . . . . . . . . . . . . . . . . . . . . . 66 5.5 Modelo Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 68 5.6 Modelo Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.7 Modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.8 Exerc´ıcios - lista 06 . . . . . . . . . . . . . . . . . . . . . . . . 74 i 6 Varia´veis aleato´rias cont´ınuas 78 6.1 Func¸a˜o de densidade de probabilidade . . . . . . . . . . . . . . 79 6.2 Func¸a˜o de distribuic¸a˜o acumulada . . . . . . . . . . . . . . . . 81 6.3 Me´dia e variaˆncia para varia´veis aleato´rias cont´ınuas . . . . . 84 6.4 Modelo uniforme cont´ınuo . . . . . . . . . . . . . . . . . . . . 86 6.5 Modelo exponencial . . . . . . . . . . . . . . . . . . . . . . . . 88 6.6 Modelo Normal . . . . . . . . . . . . . . . . . . . . . . . . . . 90 6.7 Exerc´ıcios - lista 07 . . . . . . . . . . . . . . . . . . . . . . . . 95 7 Infereˆncia estat´ıstica 98 7.1 Populac¸a˜o e amostra . . . . . . . . . . . . . . . . . . . . . . . 98 7.2 Paraˆmetros e estimadores . . . . . . . . . . . . . . . . . . . . 99 7.3 Distribuic¸o˜es amostrais . . . . . . . . . . . . . . . . . . . . . . 101 7.4 Estimac¸a˜o por intervalo . . . . . . . . . . . . . . . . . . . . . 104 7.5 Intervalo de confianc¸a para µ para amostras grandes . . . . . . 107 7.6 Teste de hipo´tese para me´dia µ com variaˆncia conhecida . . . 108 7.7 Exerc´ıcios - lista 08 . . . . . . . . . . . . . . . . . . . . . . . . 117 ii 1 INTRODUC¸A˜O 1 1 Introduc¸a˜o Em alguma fase do seu trabalho, o pesquisador se depara com um conjunto de dados relevante ao seu objeto de estudo. Atrave´s desses dados ele buscara´ extrair informac¸o˜es a fim de tomar deciso˜es relativas ao seu cotidiano. Essa realidade, aparentemente distante de no´s, esta´ presente em grande parte das cieˆncias. Nas cieˆncias agra´rias por exemplo, o engenheiro deve trabalhar os dados do solo, rendimento e fertilizac¸a˜o para tomar deciso˜es a respeito do melhoramento do solo e da produc¸a˜o. Nas cieˆncias econoˆmicas, o administrador muitas vezes se depara com se´ries de dados com atrave´s das quais deve decidir sobre investimentos, taxas etc. Ale´m das a´reas citadas acima, existem muitas outras aplicac¸o˜es da estat´ıstica, podemos citar apenas a t´ıtulo de exemplificac¸a˜o as cieˆncias biolo´gicas e de sau´de, geografia, qu´ımica, matema´tica etc. Por isso, o domı´nio da estat´ıstica se torna essencial quando devemos trabalhar com um grande volume de dados independentemente da a´rea em estudo. Neste curso, vamos inicialmente aprender a trabalhar com os dados, ex- trair medidas importantes e representac¸o˜es gra´ficas que nos ajudara˜o a in- terpretar e resumir o conjunto de informac¸o˜es. Na segunda etapa, iremos es- tudar modelos probabil´ısticos para caracterizar os dados. O objetivo enta˜o, e´ construir modelos para os dados em questa˜o e, dessa forma, extrair in- formac¸o˜es e prever comportamentos futuros sem a necessidade de observar novos conjuntos de dados. Na etapa final do curso, veremos brevemente como verificar a adequac¸a˜o dos modelos propostos a` realidade. 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 2 2 Ana´lise explorato´ria de dados - Resumo de Dados 2.1 Tipos de varia´veis Para introduzir as formas de resumir os dados falaremos um pouco sobre como classificar os dados. Suponha que estejamos realizando uma pesquisa e que desejamos investi- gar sala´rio, n´ıvel de instruc¸a˜o, idade e classe social de um grupo de pessoas. Algumas dessas caracter´ısticas, que chamaremos de varia´veis, apresen- tam como poss´ıveis resultados atributos ou qualidades. Outras, teˆm como resultados quantidades, nu´meros. As primeiras sa˜o chamadas varia´veis qual- itativas e as segundas varia´veis quantitativas. Qualitativas- Tem como poss´ıveis resultados qualidades ou atributos. Quantitativas- Tem como poss´ıveis resultados quantidades ou nu´meros. Podemos subdividir as qualitativas em nominais e ordinais. Ja´ as quan- titativas sa˜o subdivididas em discretas e cont´ınuas. Qualitativas Nominal −Nao existe nenhuma ordenacao nas realizacoes. Exemplo : sexo, local de nascimento. Ordinal − Existe uma ordem em seus resultados. Exemplo : classe social, nivel de instrucao. Quantitativas Discretas− V alores formam um conjunto finito ou enumeravel de valores. Resultam de uma contagem. Exemplo : idade, numero de filhos. Continuas− V alores pertencem a um intervalo de numeros reais. Resultam frequentemente de uma mensuracao. Exemplo : estatura, peso. Para cada tipo de varia´vel existem te´cnicas apropriadas para resumir informac¸o˜es. Em algumas situac¸o˜es podemos atribuir valores a`s qualidades de uma varia´vel qualitativa e proceder a ana´lise como se quantitativa fosse. Podemos citar como exemplo a varia´vel que descreve o resultado obtido em um lanc¸amento de uma moeda, ao atribuir 0 a cara e 1 a coroa podemos analisar a varia´vel como quantitativa. Veremos outros exemplos mais adiante. 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 3 2.2 Distribuic¸a˜o de frequeˆncias Quando estudamos uma varia´vel podemos investigar seu comportamento estudando a ocorreˆncia de suas realizac¸o˜es, isso se torna mais fa´cil atrave´s da organizac¸a˜o e resumo dos dados em uma tabela que chamaremos de tabela de distribuic¸a˜o de frequeˆncias. Daremos aqui dois exemplos de tabelas de frequeˆncias, para os outros tipos de varia´veis a construc¸a˜o e´ ana´loga. Exemplo 1: Varia´vel qualitativa ordinal. Suponha que realizamos uma pesquisa com 36 funciona´rios de um setor A de uma fa´brica e estamos interessados no n´ıvel de escolaridade. Observamos 3 n´ıveis de escolaridade com as frequeˆncias descritas na tabela a seguir. Setor A Denominamos frequeˆncia ni, frequeˆncia absoluta. A proporc¸a˜o fi, chamamos de frequeˆncia relativa, ela e´ obtida fazendo fi = ni total . Atrave´s da frequeˆncia relativa podemos comparar resultados de duas pesquisas distintas. Por ex- emplo, se fizermos a mesma pesquisa com 2000 funciona´rios deum outro setor B da fa´brica e desejarmos comparar em qual dos setores existem mais funciona´rios com n´ıvel superior podemos usar a frequeˆncia relativa. Setor B Gabriel Highlight 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 4 Neste caso podemos perceber que o setor A tem percentualmente mais empregados com n´ıvel superior que o setor B. Exemplo 2: Varia´vel quantitativa cont´ınua. Nesse caso precisamos dividir os dados em classes para construir a tabela de distribuic¸a˜o de frequeˆncias. Suponha que desejamos construir uma tabela de distribuic¸a˜o de frequeˆncias para os sala´rios dos empregados do setor A. Para isso, entrevistamos os 36 empregados e obtivemos os seguintes dados: 4; 4,2; 7,5; 4,1; 7,3; 6,6; 5,7; 5,1; 6,2; 7,7 8,1; 9,2; 9,5; 11,1; 9,3; 9,6; 8,7; 10,1; 11,2; 10,7; 9,3; 10,4 12,1; 13,2; 14,5; 15,6; 12,1; 12,2; 13,5; 14,6 19,1; 18,2; 17,5; 16,6; 19,8; 20,3 Como estamos trabalhando com uma varia´vel cont´ınua (sala´rio), vamos dividir os dados em classes. Suponha que desejamos construir uma tabela com 5 classes de amplitudes iguais. Uma poss´ıvel tabela e´ a seguinte: 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 5 2.3 Gra´ficos Atrave´s da representac¸a˜o gra´fica tambe´m podemos resumir informac¸o˜es sobre a variabilidade dos dados. Gra´ficos para varia´veis qualitativas Existem va´rios tipos de gra´ficos usados para representar as varia´veis quali- tativas, vamos apresentar dois deles: gra´ficos em barras/ colunas e em setores. Exemplo 3: Vamos voltar ao exemplo 1. Grau de instruc¸a˜o. gra´fico em colunas gra´fico em setores Gra´ficos para varia´veis quantitativas Para as varia´veis quantitativas podemos considerar uma variedade maior de representac¸o˜es gra´ficas. Ale´m dos gra´ficos usados para as varia´veis quali- tativas, temos tambe´m o gra´fico de dispersa˜o unidimensional para as varia´veis discretas. Vamos ver um exemplo e em seguida faremos os gra´ficos poss´ıveis. 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 6 Exemplo 4: Suponha que fizemos uma pesquisa com 20 pessoas e esta- mos interessados no nu´mero de filhos. gra´fico em barras/colunas gra´ficos de dispersa˜o Construir gra´ficos para as varia´veis quantitativas cont´ınuas requer algu- mas adaptac¸o˜es. Para utilizarmos os mesmos tipos de gra´ficos usados no caso Gabriel Highlight 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 7 de varia´veis discretas a primeira ide´ia que surge e´ aproximar uma varia´vel aleato´ria cont´ınua por uma discreta sem perder muita informac¸a˜o. Isso pode ser feito aproximando-se os valores de uma classe pelo ponto me´dio dessa classe. Exemplo 5: Voltando ao exemplo 2, na figura 3 temos a tabela para a varia´vel sala´rio que esta´ dividida em classes. Discretizando a varia´vel pode- mos contruir o gra´fico em barras, em setores ou o diagrama de dispersa˜o. Em seguida temos o gra´fico em barras para a varia´vel sala´rio. Com o artif´ıcio utilizado acima perdemos muita informac¸a˜o. Uma alter- nativa utilizada nesses casos e´ o gra´fico connhecido como histograma. No eixos das abscissas representamos as classes e, no eixo das ordenadas pode- mos representar a frequeˆncia absoluta ni, a relativa fi ou a densidade de frequeˆncia. Ramo-e-folhas Tanto o histograma como o gra´fico em barras da˜o uma ide´ia da forma da distribuic¸a˜o dos dados. Um procedimento alternativo para resumir um conjunto de dados e dar uma ide´ia de sua distribuic¸a˜o e´ utilizar o diagrama de ramo-e-folhas. Uma vantagem desse diagrama sobre o histograma e´ que ele tem uma perda menor de informac¸a˜o. Na˜o ha´ uma regra fixa determi- nante para a construc¸a˜o de um diagrama ramo-e-folhas, geralmente sa˜o feitas Gabriel Highlight Para não perder informações, se faz interessante arredondar os valores aproximando-os dos valores de uma classe pelo ponto médio da mesma classe. Gabriel Highlight Histograma: Eixo das abscissas(parte de baixo = classes) e Eixo das Ordenadas (Parte lateral = Frequência) Gabriel Highlight 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 8 adaptac¸o˜es para cada conjunto de dados. A ide´ia ba´sica por tra´s da estru- tura e´, em linhas gerais, a seguinte: cada nu´mero, dentre os que compo˜em o conjunto de dados a serem organizados, e´ considerado em relac¸a˜o a seus algarismos, como sendo constitu´ıdo por duas partes. Estas sa˜o separadas por uma linha vertical (trac¸ada justamente para estabelecer essa separac¸a˜o), de modo que os algarismos registrados a` esquerda da linha sa˜o chamados de ramo, os da direita, denominam-se folha. Para entender melhor vamos ver os seguintes exemplos. Exemplo 6: Os dados abaixo referem-se ao comprimento em cent´ımetros de 20 pec¸as de alumı´nio: 53 70 84 69 77 87 53 82 67 54 70 71 95 51 74 55 63 85 53 64 Se considerarmos como ramo as dezenas e como folha a unidade, o dia- grama de ramo-e-folhas fica da seguinte forma: Exemplo 7: Suponha que entrevistamos 10 pessoas em um departamento e estamos interessados no sala´rio desses empregados. Obtivemos os seguintes dados: 4,0; 4,56; 5,2; 6,6; 6,8; 7,14; 8,2; 9,13; 10,53; 11,5. Nesse caso, como existem dados com um e duas casas decimais podemos arredondar os dados ou colocar como folha as duas casas decimais de cada nu´mero, se optarmos por arredondar vamos obter o seguinte diagrama de ramo-e-folhas: 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 9 2.4 Medidas resumo - Medidas de posic¸a˜o central Vimos que podemos resumir a informac¸a˜o atrave´s de tabelas e gra´ficos que fornecem muitas informac¸o˜es sobre o comportamento dos dados. Podemos resumir os dados usando um ou alguns valores para representar a se´rie toda. Sa˜o eles: Moda- Realizac¸a˜o mais frequente do conjunto de dados. Em alguns casos pode na˜o haver moda, dizemos enta˜o que a distribuic¸a˜o e´ amodal, ou haver mais de uma moda, nesses casos dizemos tratar-se de uma distribuic¸a˜o bimodal, trimodal etc. Exemplo 8: Para a tabela da varia´vel nu´mero de filhos do exemplo 4, temos moda igual a 2. Mediana- E´ a realizac¸a˜o que ocupa a posic¸a˜o central da se´rie de ob- servac¸o˜es, quando ordenadas em ordem crescente. Exemplo 9: Para os dados 3,7,5,8,8 a mediana sera´ 7. Para 3,7,5,8,8,9 a mediana sera´ 7,5. Media aritme´tica- E´ a soma das observac¸o˜es dividida nu´mero de ob- servac¸o˜es no conjunto. Exemplo 10: Para os dados acima 3,7,5,8,8, a me´dia sera´ 6,2. Observac¸a˜o 1: Para identificar a moda precisamos apenas da frequeˆncia absoluta, ja´ para identificar a mediana precisamos de alguma ordenac¸a˜o entre dos dados e, finalmente, para calcular a me´dia, precisamos que a varia´vel seja 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 10 quantitativa. Observac¸a˜o 2: Para as varia´veis qualitativas nominais podemos apenas identificar a moda. Para as qualitativas ordinais podemos identificar a moda e a mediana. A me´dia so´ pode ser calculada para as varia´veis quantitativas. Resumindo: moda- Pode ser identificada para todos os tipos de varia´veis. mediana- Pode ser identificada para todas exceto qualitativas nominais. me´dia- Somente para as varia´veis quantitativas. Exemplo 11: Vamos voltar ao exemplo da varia´vel nu´mero de filhos do exemplo 4. Nesse caso temos moda 2, mediana valor10+valor11 2 = 2 e me´dia 0.4+1.5+2.7+3.3+5.1 20 = 33 20 = 1, 65. Podemos perceber que as treˆs medidas tem valores pro´ximos e representam de maneira semelhante as observac¸o˜es. Fo´rmula geral para a me´dia Se x1, x2, x3, ..., xn sa˜o n valores assumidos pela varia´vel x, dizemos que x¯ e´ a me´dia aritme´tica dos n valores assumidos pela varia´vel x. x¯ = ∑n i xi n . Agora se tivermos n observac¸o˜es para a varia´vel x das quais n1 sa˜o iguais a x1, n2 sa˜o iguais a x2, n3 sa˜o iguais a x3 ate´ nk sa˜o iguais a xk de tal forma que n1 + ...nk = n, podemos simplificar a fo´rmula anterior por: x¯ = ∑k i ni.xi n . Podemos tambe´m substituir a frequeˆncia relativa fi = ni n na fo´rmula an- terior: x¯ = ∑k i fi.xi. Fo´rmula geral para a mediana Consideremosas n observac¸o˜es x1, x2, x3, ..., xn ordenadas em ordem cres- cente. Denotemos a menor observac¸a˜o por x(1), a segunda por x(2) e assim por diante ate´ n-e´sima x(n): 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 11 x(1) ≤ x(2) ≤ x(3) ≤ ... ≤ x(n). As observac¸o˜es ordenadas como acima sa˜o chamadas estat´ısticas de or- dem. A mediana e´ enta˜o definida por: med(x) = { x(n+1 2 ) − Se n e impar. x(n2 ) +x (n+12 ) 2 − Se n e par. Exemplo 12: Ca´lculo das medidas de posic¸a˜o para varia´veis cont´ınuas. Vamos retornar a terceira tabela da varia´vel sala´rio. Como a varia´vel sala´rio e´ uma varia´vel cont´ınua uma aproximac¸a˜o que pode ser feita e´ considerar todos os valores dentro de uma classe iguais ao ponto me´dio da classe, essa aproximac¸a˜o e´ chamada de discretizac¸a˜o. Pode- mos discretizar para encontrar os valores aproximados de me´dia, mediana e moda. Dessa forma, para a varia´vel sala´rio S temos: moda(S)≈ 10 mediana(S) ≈ S(18)+S(19) 2 = 10+10 2 = 10 me´dia (S) ≈ 6.10+10.12+14.8+18.5+22.1 36 = 11, 22 2.5 Me´dia geome´trica e Me´dia harmoˆnica Me´dia harmoˆnica A me´dia harmoˆnica e´ utilizada quando estamos tratando observac¸o˜es de grandezas inversamente proporcionais como velocidade e tempo. Por exem- plo suponha que temos va´rios valores de velocidade e, para cada valor temos a distaˆncia que percorremos desenvolvendo tal velocidade. A frequeˆncia agora 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 12 e´ dada em termos de outra varia´vel, a distaˆncia. Como podemos calcular a velocidade me´dia enta˜o? Para que fique mais claro que tipo de me´dia deve- mos usar em cada caso vejamos alguns exemplos: Exemplo 13: Se a metade da distaˆncia de um percurso percorremos com a velocidade de 60 km/h e a outra metade com velocidade 40 km/h. Qual e´ a velocidade me´dia? isto e´, com qual velocidade podemos percorrer todo trajeto de modo a gastar o mesmo tempo? Na primeira metade gastamos o tempo de 4t1 = d60 , na segunda metade o tempo de 4t2 = d40 enta˜o nesse caso a velocidade me´dia para percorrer todo o percurso de modo a gastar o mesmo tempo e´: vmedia = 2d d 60 + d 40 = 48. Nesse caso, se usa´ssemos a velocidade de 50 km/h para percorrer todo o percurso gastar´ıamos o tempo d 25 < d 24 . Portanto na˜o podemos usar a me´dia aritme´tica, devemos usar a me´dia harmoˆnica. A velocidade me´dia calculada acima podia ter sido encontrada usando a fo´rmula da me´dia harmoˆnica dada a seguir. Definic¸a˜o: A me´dia harmoˆnica de n valores reais x1, x2, x3, ..., xn e´ dada por: mh = n 1 x1 + 1 x2 +...+ 1 xn Exemplo 14: Custo me´dio de ac¸o˜es. Suponha que compramos ac¸o˜es por 3 meses com um montante sempre de 1000 reais. No primeiro meˆs compramos ac¸o˜es no valor de 8 reais, no segundo meˆs no valor de 9 e, no terceiro de 10. Qual o custo me´dio das ac¸o˜es? Sabendo que a relac¸a˜o entre custo e montante e´ dada por custo = montante num.acoes e que nesse caso temos os valores de custo e, associados a eles, o montante empregado, qual me´dia devemos usar? aritme´tica ou harmoˆnica? Para re- sponder devemos olhar a varia´vel na˜o citada no problema, o nu´mero de ac¸o˜es. Essa varia´vel esta´ se relacionando com o custo de maneira inversamente pro- porcional ( veja a fo´rmula), da mesma maneira, t´ınhamos no exemplo anterior a velocidade e o tempo. Portanto, devemos usar a me´dia harmoˆnica. mh = 3000 1000 8 + 1000 9 + 1000 10 = 8, 92 Repare que se tive´ssemos comprado 1000 ac¸o˜es no valor de 8, 1000 no valor 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 13 de 9 e 1000 no valor de 10. Para saber o custo me´dio das ac¸o˜es usar´ıamos a me´dia aritme´tica: mari = 1000.8+1000.9+1000.10 3000 = 9 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 14 Me´dia geome´trica Usamos a me´dia geome´trica quando os dados esta˜o relacionados de maneira multiplicativa e o objetivo e´ conhecer uma taxa me´dia de crescimento ou de- crescimento dos dados. Definic¸a˜o: A me´dia geome´trica de n valores reais x1, x2, x3, ..., xn e´ dada por: mg = n √ x1.x2.x3...xn Exemplo 15: Se um investimento rende 10 por cento no primeiro ano e 20 por cento no segundo ano a juros compostos, qual e´ o rendimento me´dio do investimento? Se comec¸armos com um montante X ao final do primeiro ano teremos 1,1X e ao final do segundo ano teremos 1,2.(1,1X)=1,32X. Queremos encontrar uma taxa me´dia, isto e´, uma u´nica taxa que aplicada durante dois anos a juros compostos retornara´ 1,32X. Podemos pensar que uma poss´ıvel candidata a taxa me´dia seria 15 por cento, mas quando aplicamos o montante de X a essa taxa em dois anos teremos (1, 15)2X=1,3225X que representa um pouco a mais do que obtemos quando aplicamos a 10 por cento no primeiro ano e 20 por cento no segundo. Como encontrar enta˜o a taxa me´dia? A resposta vem atrave´s do fator. A cada taxa podemos associar um fator multiplicativo, por exemplo, para a taxa de 10 por cento, multiplicamos o valor inicial por 1,1. Para essa taxa temos portanto, um fator de 1,1. Para a taxa de 20 por cento, um fator de 1,2. Para a taxa de 25 por cento, um fator de 1,25. Enta˜o o problema de encontrar a taxa u´nica e´ equivalente ao problema de encontrar um fator multiplicativo u´nico. Para o exemplo acima temos que encontrar um fator multiplicativo u´nico f, tal que f 2X = 1, 32X ou seja f e´ a me´dia geome´trica dos fatores 1,1 e 1,2. f = √ 1, 32 = √ 1, 1.1, 2 = 1, 148 Logo, podemos concluir que a me´dia e´ de 14,8 por cento. Se tive´ssemos aplicado um montante durante um pe´riodo maior, e dispuse´ssemos de va´rias taxas, para encontrar a taxa me´dia dever´ıamos proceder da mesma forma: encontrar um u´nico fator igual a` me´dia geome´trica de todos os fatores. De forma geral, a me´dia aritime´tica e´ sempre maior ou igual aos outros tipos de me´dia. Temos a seguinte relac¸a˜o entre as me´dias: 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 15 mg ≤ mh ≤ ma 2.6 Medidas de dispersa˜o O resumo de um conjunto de dados por uma u´nica medida de posic¸a˜o cen- tral ignora toda a informac¸a˜o sobre a variabilidade dos dados. Por exemplo, suponha que desejamos analisar o comprimento de pec¸as produzidas por 3 diferentes tipos de ma´quinas. Selecionamos enta˜o grupos de pec¸as prove- nientes de cada ma´quina e registramos os comprimentos em cm: ma´quina A- 3,4,5,6,7 ma´quina B- 3,5,5,7 ma´quina C- 5,5,5,5,5,5 Podemos perceber que as me´dias dos comprimentos e´ igual para os 3 grupos. Nesse caso, perdemos a informac¸a˜o sobre a variabilidade dos dados se considerarmos apenas a me´dia como medida representativa dos dados. Num primeiro momento, podemos pensar que uma boa medida para a variabilidade dos dados nos grupos e´ a soma das diferenc¸as entre os dados e a me´dia. Por exemplo, para a ma´quina A ter´ıamos ∑5 i=1 xi−x¯, mas podemos observar que a soma dos desvios com relac¸a˜o a` me´dia e´ sempre igual a zero.∑5 i=1 xi− x¯ = ∑5 i=1 xi− ∑5 i=1 x¯ = ∑5 i=1 xi− 5x¯ = ∑5 i=1 xi− ∑5 i=1 xi = 0 Uma maneira de contornar esse problema e´ considerar as duas medidas seguintes: 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 16 ∑5 i=1 | xi − x¯ |∑5 i=1(xi − x¯)2 Chamamos enta˜o∑n i=1 |xi−x¯| n - desvio me´dio absoluto - dm(x).∑n i=1 (xi−x¯)2 n - variaˆncia - var(x). Para a ma´quina A temos: dm(x) = ∑5 i=1 |xi−x¯| 5 = |3−5|+|4−5|+|5−5|+|6−5|+|7−5| 5 = 6 5 = 1, 2. var(x) = ∑5 i=1 (xi−x¯)2 5 = 2 Para a ma´quina B temos: dm(x) = ∑4 i=1 |xi−x¯| 4 = |3−5|+|3−5|+|5−5|+|5−7| 4 = 1. var(x) = ∑4 i=1 (xi−x¯)2 4 = 2 Podemos concluir enta˜o que segundo o desvio me´dio a ma´quina B e´ mais homogeˆnea que ma´quina A e que ambas sa˜o igualmente homogeˆneas segundo a variaˆncia. Sendo a variaˆncia uma medida de dimensa˜o igual ao quadrado da di- mensa˜o dos dados, no caso cm2, a interpretac¸a˜o da variaˆncia como medida de variac¸a˜o dos dados pode gerar alguns problemas. Costumamos usar enta˜o o desvio padra˜o que e´ definido como raiz quadrada da variaˆncia. dp(x) = √ var(x) Para o grupoA e o B temos dp(x) = √ 2. Ambas as medidas de dispersa˜o (desvio me´dio e desvio padra˜o) indicam em me´dia qual o ”erro” que cometemos ao substituirmos cada observac¸a˜o pela me´dia. No caso em que observamos n1 vezes o valor x1, n2 vezes o valor x2 e assim sucessivamente, ate´ nk vezes o valor xk, temos: dm(x) = ∑k i=1 ni|xi−x¯| n = ∑k i=1 fi | xi − x¯ | var(x) = ∑k i=1 ni(xi−x¯)2 n = ∑k i=1 fi(xi − x¯)2 dp(x) = √ var(x) 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 17 O ca´lculo aproximado das medidas de dispersa˜o no caso das varia´veis cont´ınuas agrupadas em classes pode ser feito de modo ana´logo a`quele usado para encontrar a me´dia. Exerc´ıcio: Calcule o desvio me´dio, variaˆncia e desvio padra˜o para as varia´veis nu´mero de filhos e sala´rio dos exemplos anteriores. Coeficiente de variac¸a˜o Coeficiente de variac¸a˜o e´ uma medida que nos permite comparar a dis- persa˜o em amostras diferentes. O desvio padra˜o e´ uma medida de dispersa˜o com relac¸a˜o a` me´dia, como duas amostras podem ter me´dias diferentes na˜o conseguiremos, nesses casos, comparar a dispersa˜o dos dados usando o desvio padra˜o. Para isso usamos o coeficiente de variac¸a˜o: cv = dp(x) x¯ Exemplo: Considere uma amostra com me´dia 40 e desvio padra˜o 4 e outra com me´dia 5 e desvio padra˜o 4. Qual das amostras e´ a mais homogeˆnea? De acordo com o coeficiente de variac¸a˜o temos na amostra 1, cv= 4/40=0,1 e na amostra 2, cv=4/5=0,8. Portanto a amostra 2 tem maior grau de dispersa˜o dos dados. 2.7 Quantis A me´dia aritme´tica pode muitas vezes na˜o ser uma medida adequada pois: a) Pode ser afetada por valores extremos. b) Na˜o da´ ide´ia da distribuic¸a˜o e dispersa˜o dos dados. Exemplo 16: Para os dados 1,2,5,7,100 a me´dia aritme´tica vale 115/5 = 23, um valor muito distante da maioria dos dados. A me´dia portanto na˜o e´ uma boa medida de representac¸a˜o para esses valores. A mediana, igual a 5, representa melhor os dados nesse caso. Outra me- dida de posic¸a˜o muito utilizada e´ o quantil. Definic¸a˜o: Chamamos quantil de ordem p ou p-quantil onde p e´ uma proporc¸a˜o, 0 < p < 1, ao valor q(p) tal que 100.p por cento da amostra seja menor que q(p). 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 18 Essa definic¸a˜o parece um pouco complicada a primeira vista, vamos ver um exemplo. Exemplo 17: Para a amostra 1,2,3,5,7,8,10, desejamos saber o valor de q(0,5) e q(0,25). Qual e´ o valor de q(0,5)? q(0,5) e´ o valor tal que 100.0,5=50 por cento da amostra esteja abaixo dele. Portanto q(0,5)= mediana. Primeiramente devemos ordenar os dados e encontrar as estat´ısticas de ordem, nesse caso os dados ja´ esta˜o ordenados: x(1) = 1;x(2) = 2;x(3) = 3...x(7) = 10 Como temos 7 dados na amostra q(0,25) e´ o valor que deixa 25 por cento dos dados abaixo dele. Como 0,25.7=1,75 na˜o e´ inteiro calculamos um valor aproximado para q(0,25). Fazemos q(0, 25) =x(2). Para q(0,5), fazemos 7.0,5=3,5. Como 3,5 na˜o e´ inteiro aproximamos o quantil para a estat´ıstica de ordem subsequente que no caso e´ x(4). O mesmo procedimento feito an- teriormente para encontrar a mediana. Como calcular os quantis? Na˜o existe apenas uma maneira de obter os quantis, geralmente obtemos valores aproximados que representam a divisa˜o da amostra. Segue abaixo uma das maneiras para descobrir os quantis. Dada uma amostra com n observac¸o˜es ordenadas de maneira crescente, uma das formas para se obter o quantil de ordem p e´ a seguinte: 1) Se n.p e´ um nu´mero inteiro enta˜o q(p) = x(n,p)+x(n,p+1) 2 . 2) Se n.p na˜o e´ um nu´mero inteiro enta˜o q(p) = x(| n.p | +1) Percentil, decil e quartil Os percentis sa˜o constru´ıdos atrave´s da divisa˜o da amostra em cem partes iguais. O primeiro percentil deixa 1 por cento dos dados abaixo dele, o se- gundo 2 por cento e assim sucessivamente ate´ o 99◦ percentil, que deixa 99 por cento dos dados abaixo dele. Ao dividirmos a amostra em 10 partes iguais podemos calcular os decis. O primeiro decil deixa 10 por cento dos dados abaixo dele, o segundo deixa 20 por cento dos dados abaixo e finalmente o nonage´simo decil deixa 90 por cento dos dados abaixo dele. Os quartis sa˜o obtidos dividindo a amostra em 4 partes iguais. O primeiro quartil deixa 25 por cento dos dados abaixo dele, o segundo quartil e´ a mediana e o ter- 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 19 ceiro deixa 75 por cento dos dados abaixo dele. Podemos perceber a seguinte equivaleˆncia entre os percentis, quartis e decis: q(0,1)- 1◦ decil, 10◦ percentil. q(0,25)- 1◦ quartil, 25◦ percentil. q(0,5)- 5◦ decil, 2◦ quartil, 50◦ percentil. q(0,75)- 3◦ quartil, 75◦ percentil. q(0,95)- 95◦ percentil. Exemplo 18: Suponha que entrevistamos 10 pessoas e perguntamos o peso da cada uma delas. As respostas foram as seguintes: 45; 54; 48; 51; 63; 50; 74; 83; 91; 105. Qual e´ o peso ma´ximo que uma pessoa pode ter para estar entre as 25 por cento mais magras e qual e´ peso mı´nimo para estar entre as 25 por cento mais gordas? O que queremos saber e´ quem sa˜o q(0,25) e q(0,75). Primeiramente devemos ordenar os dados. 45; 48; 50; 51; 54; 63; 74; 83; 91; 105. o quantil q(0,25) e´ o valor que deixa 25 por cento dos dados abaixo que nesse caso e´ o valor que ocupa a terceira posic¸a˜o. Enta˜o q(0,25)=50. q(0,75) e´ o valor que deixa 75 por cento dos dados abaixo, aquele que ocupa a oitava posic¸a˜o, portanto q(0,75)=83. 2.8 Box-plot O box-plot nos da´ uma ide´ia da dispersa˜o de uma amostra e da existencia de dados distoantes do conjunto. Ele e´ construido da seguinte maneira: 1) Calculamos os valores dos quartis, q(0,25), q(0,5) e q(0,75) que sera˜o respectivamente a base, a linha me´dia e o topo da caixa. 2) Calculamos a diferenc¸a dq = q(0, 75)− q(0, 25). 3) Calculamos 3/2.dq, esse valor nos ajudara´ a construir os limites superior e inferior do gra´fico. Os valores da amostra na˜o contidos nesse intervalo devem ser representados como pontos isolados e por isso sa˜o denominados outliers. O box-plot e´ um gra´fico muito u´til quando queremos investigar a simetria, valores at´ıpicos e a dispersa˜o em um conjunto de valores. A representac¸a˜o gra´fica e´ a seguinte: 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 20 Assimetria dos dados se reflete em assimetria na caixa e ou nos limites inferiores e superiores e valores at´ıpicos se refletem em outliers. Vamos ver um exemplo para que fique mais claro o processo de construc¸a˜o. Exemplo 19: Suponha que realizamos uma pesquisa com 15 pessoas e estamos interessados na varia´vel nu´mero de filhos. Obtivemos os seguintes resultados 2 pessoas na˜o teˆm filhos, 5 teˆm 1 filho, 4 teˆm 2 filhos, 3 teˆm 3 filhos e finalmente 1 pessoa tem 5 filhos. Construa o box-plot para a varia´vel nu´mero de filhos. Primeiramente vamos calcular os quartis: Primeiro quartil- 0,25.15= 3,75 que na˜o e´ inteiro portanto q(0,25)=x(4)=1. Segundo quartil- 0,5.15= 7,5 que na˜o e´ inteiro portanto q(0,5)=x(8)=2. Terceiro quartil- 0,75.15= 11,25 que na˜o e´ inteiro portanto q(0,75)=x(12)=3. Temos o seguinte box-plot: Como o menor valor observado foi 0 e o maior foi 5 os limites inferior e superior devem ser 0 e 5 respectivamente. Deixar o limite inferior como -2 e o superior como 6 significaria dizer que existem valores entre -2 e 0 e tambe´m entre 5 e 6, o que na˜o e´ verdade. Portanto devemos calcular os limites inferiores e superiores como anteriormente e depois olhar para os 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 21 dados para saber quem e´ o menor e o maior valor observado. O boxplot enta˜o, fica melhor representado da seguinte maneira: 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 22 2.9 Exerc´ıcios - lista 01 Questa˜o 1 Suponha que realizamos uma pesquisa com 80 pessoas cuja varia´vel de interesse era a idade. Suponha tambe´m que foram encontrados os seguintes valores: 21; 35; 49 e 16 anos, com frequeˆncias respectivamente iguais a 10; 0,3; 0,2. Encontre a frequeˆncia absoluta de 16 anos. Construa a tabela de frequeˆncias, o gra´ficoem barras e em setores. Questa˜o 2 Os juros recebidos por um grupo de 12 ac¸o˜es em um per´ıodo de dois meses foram: 3,67; 1,28; 3,96; 2,93; 7,77; 2,78; 1,82; 8,14; 6,54; 2,82; 4,65; 5,54. Construa a tabela de frequeˆncias para esses dados dividindo-os em 4 classes de amplitudes iguais a 2. Construa tambe´m o histograma para as frequeˆncias relativas. Questa˜o 3 Suponha que desejamos estudar o nu´mero de erros de impressa˜o de um livro. Para isso escolhemos uma amostra com 50 pa´ginas e verificamos que das 50 pa´ginas analisadas, 25 na˜o apresentavam erros, 20 apresentavam 1 erro, 3 possuiam 2 erros e finalmente duas pa´ginas apresentavam uma 3 e outra 4 erros. a) Calcule o nu´mero me´dio de erros por pa´gina e nu´mero mediano. b) Qual e´ o desvio padra˜o? c) Fac¸a um gra´fico em barras para a distribuic¸a˜o. d) Se o livro tem 500 pa´ginas qual e´ o nu´mero total de erros esperado no livro? Gabriel Sticky Note Lembrando que frequência absoluta significa Ni 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 23 2.10 Exerc´ıcios - lista 02 Questa˜o 1 Suponha que observamos os valores de 20, 50, 60, 40 e 20 para uma varia´vel X. • a) Calcule a me´dia harmoˆnica de X. • b) Se os valores acima fossem medidas, em km/h, da velocidade de um automo´vel observadas em distaˆncias iguais a 2km, qual a relac¸a˜o da velocidade me´dia com a resposta obtida no item anterior? • c) Se os valores se referissem a` velocidade do mesmo automo´vel medidas em intervalos iguais a` meia hora qual a relac¸a˜o da velocidade me´dia com o valor obtido em b)? Questa˜o 2 O que acontece com a me´dia, a mediana e a variaˆncia quando: • a) Somamos um valor fixo a cada observac¸a˜o? (Por exemplo, se somar- mos 10?) • b) E quando multiplicamos cada observac¸a˜o por um valor fixo? Questa˜o 3 Um objeto e´ constru´ıdo com 300g de cobre, 150g de prata e 100g de bronze. Sabendo que a densidade me´dia e´ dada por dmed = massa volume e as densidades do cobre, da prata e do bronze sa˜o respectivamente 1, 5g/cm3, 1, 2g/cm3 e 2g/cm3. Encontre a densidade me´dia do objeto. Questa˜o 4 Realizando um experimento qu´ımico repetidamente em baixas temperat- uras, obtivemos os seguintes rendimentos em porcentagem: 1; 2; 5; 3 e 1. Ao aumentar a temperatura, aumentamos o rendimento da reac¸a˜o para 40. Qual o rendimento me´dio da reac¸a˜o? Questa˜o 5 O departamento pessoal de uma empresa fez um levantamento dos sala´rios de seus funciona´rios e os dividiu em quatro classes. A primeira classe con- tinha todos os sala´rios menores do que dois e a frequeˆncia observada foi 30. A segunda classe, os sala´rios maiores ou iguais a 2 e menores que 4 com frequeˆncia 48. A terceira classe, os sala´rios maiores ou iguais a 4 e menores que 6 com frequeˆncia 24. A quarta classe, os sala´rios maiores ou iguais a 6 e menores que 10 com frequeˆncia 18. 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 24 • a)Construa o histograma. • b) Calcule a me´dia, a variaˆncia e o desvio padra˜o. • c) Calcule o primeiro quartil, a mediana, o terceiro quartil e construa o box-plot. 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 25 2.11 Exerc´ıcios - lista 03 Questa˜o 1 Suponha que entrevistamos 20 pessoas e estamos interessados em estudar o comportamento da varia´vel peso nesse grupo. Os dados observados foram os seguintes: 53 ; 70,2; 84,3; 69,5; 77,8; 87,5; 53,4; 82,5; 67,3; 54,1 70,5; 71,4; 95,4; 51,1; 74,4; 55,7; 48,2; 45,7; 43,2; 50,7 • a) Fac¸a o diagrama ramo-e-folhas. • b) Encontre os quartis e fac¸a o box-plot. • c) Divida os dados em 6 classes de amplitude igual a 10. Construa a tabela de frequeˆncias e o histograma. Existe alguma semelhanc¸a com o diagrama ramo-e-folhas? • d) Encontre a moda, me´dia, mediana e desvio padra˜o para a tabela do item anterior. Questa˜o 2 O departamento de atendimento ao consumidor de uma concessiona´ria de ve´ıculos recebe ligac¸o˜es de reclamac¸o˜es de clientes. Foram anotados os nu´meros de reclamac¸o˜es em 20 dias: 3; 4; 5; 4; 4; 5; 6; 9; 4; 4; 5; 6; 4; 3; 6; 7; 4; 5; 5; 7. • a) Construa a tabela de frequeˆncias e o gra´fico em barras. • b) Qual o nu´mero me´dio e o nu´mero mediano de reclamac¸o˜es por dia? • c) Em 1 meˆs qual o nu´mero total de reclamac¸o˜es esperado? • d) Se cada telefonema acarreta novos servic¸os que custam 50 reais para a concessiona´ria, qual e´ a despesa me´dia por dia da concessiona´ria oriunda do atendimento ao consumidor? Questa˜o 3 O tempo em horas para um determinado medicamento fazer efeito foi investigado em um grupo de 20 pessoas e obteve-se os seguintes tempos: 1; 2; 1; 2; 1; 2; 3; 1; 2; 2 3; 3; 2; 2; 1; 1; 4; 2; 1; 4 • a) Construa a tabela de frequeˆncias para a varia´vel. 2 ANA´LISE EXPLORATO´RIA DE DADOS - RESUMO DE DADOS 26 • b) Calcule a me´dia e a variaˆncia. • c) Quando o medicamento demora mais de 3 horas para agir, dizemos que o paciente e´ insens´ıvel ao tratamento. Se isso ocorre em 25 por cento dos casos ou mais enta˜o os pacientes devem trocar de medicac¸a˜o. Os pacientes acima devem ou na˜o trocar de medicac¸a˜o? Questa˜o 4 Realizando um cultivo de laranjas inicialmente com 100 mudas, um agricul- tor percebeu que apo´s a primeira colheita o rendimento da produc¸a˜o aumen- tava consideravelmente com relac¸a˜o a colheita anterior. As taxas de aumento de produc¸a˜o nas 5 colheitas que se seguiram foram de: 10; 15; 10; 5 e 20 por cento respectivamente. Qual a taxa me´dia de aumento de produc¸a˜o? Questa˜o 5 Alguns cientistas sociais acreditam que a opinia˜o sobre o aborto inde- pende da situac¸a˜o familiar. Foi feita uma pesquisa com 200 pessoas: • a) Qual estado civil apresenta mais pessoas favora´veis ao aborto? • b) Construa as tabelas de frequeˆncias marginais. • c) Escolhendo uma pessoa ao acaso, qual e´ a probabilidade de ser casada ou favora´vel ao aborto? • d) Construa a tabela de frequeˆncias com relac¸a˜o ao total geral. • e) De acordo com o crite´rio de frequeˆncias as varia´veis sa˜o ou na˜o independentes? 3 ANA´LISE BIDIMENSIONAL 27 3 Ana´lise bidimensional Vimos ate´ agora como organizar e resumir informac¸o˜es pertinentes a uma varia´vel. Agora vamos aprender a analisar o comportamento de duas varia´veis com o objetivo de investigar a relac¸a˜o entre elas. Podemos ter: a) Duas varia´veis qualitativas. b) Duas varia´veis quantitativas. c) Uma varia´vel qualitativa e outra quantitativa. As te´cnicas para se investigar a relac¸a˜o entre as varia´veis pode ser difer- ente para cada caso. De uma maneira geral, medimos a relac¸a˜o entre duas varia´veis atrave´s dos coeficientes de associac¸a˜o, eles expressam se as varia´veis sa˜o ou na˜o dependentes. Para as varia´veis qualitativas temos a medida qui- quadrado X 2 e para as quantitativas temos o coeficiente de correlac¸a˜o. Duas varia´veis qualitativas Suponha que queremos comparar as varia´veis grau de instruc¸a˜o e regia˜o de procedencia e investigar se existe alguma relac¸a˜o entre elas. Para isso fizemos uma pesquisa com 36 pessoas e montamos a seguinte tabela conjunta: Atrave´s dessa tabela podemos recuperar as tabelas de frequeˆncia para a regia˜o de procedeˆncia e grau de instruc¸a˜o que chamaremos de tabelas de frequeˆncia marginais. 3 ANA´LISE BIDIMENSIONAL 28 Para duas varia´veis podemos tambe´m construir a tabela de frequeˆncias relativas. Diferentemente do caso unidimensional podemos considerar a frequeˆncia relativa: a) Ao total de cada linha. b) Ao total de cada coluna. c) Ao total geral. No caso do exemplo anterior podemos obter a seguinte tabela de frequeˆncia relativa ao total de cada coluna: E com relac¸a˜o ao total geral temos: A tabela com relac¸a˜o ao total de cada linha e´ constru´ıda de maneira ana´loga a` tabela com relac¸a˜o ao total de cada coluna. Agora vamos aprender como investigar a relac¸a˜o entre duas varia´veis atrave´s das tabelas de frequeˆncias. 3.1 Associac¸a˜o entre varia´veis qualitativas Um dos objetivos de construir uma distribuic¸a˜ao conjunta de duas varia´veis e´ conhecer o grau de dependencia entre elas.No caso de duas varia´veis qual- itativas vejamos como podemos estudar a dependencia atrave´s da tabela de frequencias. Primeiramente um exemplo em que as varia´veis parecem na˜o estar associadas. 3 ANA´LISE BIDIMENSIONAL 29 Exemplo 1: Suponha que entrevistamos 200 alunos dos cursos de econo- mia e administrac¸a˜o e queremos investigar se existe alguma relac¸a˜o entre o sexo e o curso. Com as frequeˆncias absolutas fica dif´ıcil tirar alguma conclusa˜o. Vamos construir a tabela para a frequeˆncia relativa ao total de cada coluna. Nessa tabela vemos que 60 por cento dos alunos fazem economia e 40 por cento fazem administrac¸a˜o. Na˜o havendo dependeˆncia entre as varia´veis, esperar´ıamos essa mesma proporc¸a˜o para cada sexo. Como as proporc¸o˜es sa˜o pro´ximas para ambos os sexos: 61 e 58 por cento para economia e 39 e 42 por cento para administrac¸a˜o as varia´veis sexo e curso parecem na˜o estar associadas. Agora vamos ver um exemplo em que as varia´veis parecem estar associadas. Exemplo 2: Suponha agora que entrevistamos 200 alunos dos cursos de f´ısica e cieˆncias sociais e, queremos identificar se ha´ relac¸a˜o entre sexo e o curso. 3 ANA´LISE BIDIMENSIONAL 30 Nesse caso parece haver associac¸a˜o ja´ que as porcentagens dos alunos de f´ısica e de cieˆncias sociais para o sexo feminino e masculino sa˜o distantes. Veremos agora como podemos medir essa dependencia. Medida de dependeˆncia qui-quadrado Retomemos o exemplo anterior. Na pesquisa observamos as seguintes frequeˆncias: Se as varia´veis fossem independentes, os valores esperados para as frequeˆncias masculino e feminino seriam: Nesse caso a tabela dos desvios com a diferenc¸a entre os valores observados de frequeˆncia e os esperados ficaria: 3 ANA´LISE BIDIMENSIONAL 31 A medida qui-quadrado X 2 mede o quanto as varia´veis esta˜o longe da independeˆncia e leva em conta esses desvios entre a tabela das frequeˆncias observadas e a tabela que esperar´ıamos encontrar se as varia´veis fossem in- dependentes. A medida qui-quadrado X 2 e´ enta˜o definida por: X 2 = ∑ (oi−ei)2 ei onde oi sa˜o os valores observados de frequeˆncia e ei sa˜o os esperados. Logo abaixo daremos a fo´rmula da medida X 2 explicitando como obter ei sem a necessidade de construir outra tabela de valores esperados. Se a hipo´tese de na˜o associac¸a˜o for verdadeira enta˜o as frequeˆncias obser- vadas estara˜o muito pro´ximas das frequeˆncias esperadas portanto, a ”distaˆncia” entre as tabelas deve ser pequena o que implica um valor de X 2 pro´ximo de zero, um valor muito grande de X 2 indica associac¸a˜o entre as varia´veis. Vamos calcular enta˜o a medida X 2 para o exemplo acima: X 2 = (16)2 84 + (−16) 2 56 + (16) 2 56 + (−16) 2 36 + (16) 2 24 = 3, 05+4, 51+7, 02+10, 54 = 25 Como encontramos um valor grande para X 2, as varia´veis parecem estar associadas. Notac¸a˜o geral Para obter a medida X 2 para as tabelas de dupla entrada na˜o precisamos construir uma nova tabela de valores esperados e uma outra tabela de desvios. Podemos fazer o seguinte: Para X e Y, duas varia´veis assumindo os valoresA1, A2, ...Ar eB1, B2, ..., Bs respectivamente. Suponhamos que elas possuam a seguinte tabela de frequeˆncias conjunta: 3 ANA´LISE BIDIMENSIONAL 32 Enta˜o a medida X 2 e´ dada por: X 2 = ∑r i=1 ∑s j=1(nij−nij∗ )2 nij∗ onde nij∗ e´ a frequeˆncia esperada se as varia´veis fossem independentes e, e´ dada por nij∗ = ni..n.j n.. . 3.2 Associac¸a˜o entre varia´veis quantitativas Quando as varia´veis sa˜o quantitativas, para idenficar a existeˆncia de asso- ciac¸a˜o entre as varia´veis podemos usar uma medida denominada coeficiente de correlac¸a˜o linear que mede o quanto a relac¸a˜o entre as varia´veis esta´ pro´xima de uma relac¸a˜o linear e um recurso gra´fico chamado diagrama de dispersa˜o. Vamos comec¸ar pelo gra´fico de dispersa˜o. Gra´fico de dispersa˜o Para construir o gra´fico de dispersa˜o para duas varia´veis X e Y quanti- tativas plotamos os valores (X,Y) obtidos num sistema de eixos coordenados. Vamos ver um exemplo: Exemplo 3: Suponha que entrevistamos 7 agentes imobilia´rios e quer- emos investigar se existe relac¸a˜o entre os anos de servic¸o e o nu´mero de clientes. 3 ANA´LISE BIDIMENSIONAL 33 O gra´fico de dispersa˜o fica enta˜o: Pelo gra´fico de dispersa˜o podemos perceber que as varia´veis perecem estar associadas. Quanto maior o tempo de servic¸o maior parece ser o nu´mero de clientes. Vamos ver agora um gra´fico de dispersa˜o em que os dados parecem na˜o estar associados: Exemplo 4: Suponha que fizemos uma pesquisa da populac¸a˜o rural e urbana nos u´ltimos anos. O gra´fico de dispersa˜o abaixo indica que as varia´veis na˜o esta˜o relacionadas. No primeiro exemplo, podemos perceber que e´ razoa´vel aproximar os dados por uma linha reta que seja a mais pro´xima poss´ıvel dos dados e que atrave´s dela podemos identificar a relac¸a˜o existente entre os dados. A equac¸a˜o dessa reta que minimiza o erro, isto e´ a distancia entre os dados e a reta, estabelece um modelo que chamamos de modelo de regressa˜o linear. Por hora, so´ investigaremos se a relac¸a˜o existente entre os dados e´ uma relac¸a˜o pro´xima da linear e, quem nos dira´ isso sera´ o coeficiente de correlac¸a˜o linear. Coeficiente de correlac¸a˜o linear E´ uma medida do grau de associac¸a˜o linear entre duas varia´veis quan- titativas. 3 ANA´LISE BIDIMENSIONAL 34 Definic¸a˜o: Dados n pares com os valores observados para as varia´veis X e Y quantita- tivas: (x1, y1), (x2, y2), ..., (xn, yn) definimos o coeficiente de correlac¸a˜o linear entre X e Y por: corr(X, Y ) = 1 n ∑n i=1 (xi−x¯)(yi−y¯) dp(x)dp(y) A parcela ∑n i=1 (xi−x¯)(yi−y¯) n e´ denominada covariaˆncia. Outra fo´rmula equivalente para calcular o coeficiente de correlac¸a˜o e´ a seguinte: corr(X, Y ) = ∑n i=1(xiyi−nx¯y¯)√ ( ∑ x2i−nx¯2)( ∑ y2i−ny¯2) Podemos perceber que −1 ≤ corr(X, Y ) ≤ 1. O ca´lculo do coeficiente de correlac¸a˜o e´ muito custoso analiticamente, muitas vezes e´ conveniente utilizar programas estat´ısticos como o R. Para valores positivos do coeficiente de correlac¸a˜o, a nuvem de pontos do gra´fico de dispersa˜o segue uma tendeˆncia de crescimento, quanto mais pro´ximo de 1 o valor esta´, mais alinhados os pontos esta˜o. Por exemplo: Para valores negativos do coeficiente de correlac¸a˜o, a nuvem de pontos segue uma tendeˆncia de decrescimento, aqui tambe´m quanto mais pro´ximo de -1 o valor esta´, mais alinhados os pontos esta˜o. Por exemplo: 3 ANA´LISE BIDIMENSIONAL 35 E finalmente, para valores de correlac¸a˜o pro´ximos a zero, na˜o ha´ uma tendeˆncia de crescimento/decrescimento linear clara para os pontos, como abaixo podemos observar: Vamos agora encontrar o coeficiente de correlac¸a˜o linear para o exemplo 3 e verificar que o valor esta´ pro´ximo de 1, que vai ao encontro do que observamos no gra´fico de dispersa˜o. Temos n=7, para X temos dp(X)= 1.98 e para Y temos dp(Y)= 7.48, enta˜o o coeficiente de correlac¸a˜o entre as varia´veis X e Y e´ 0.81, um valor pro´ximo de 1 , como espera´vamos quando observamos o gra´fico de dispersa˜o. 3 ANA´LISE BIDIMENSIONAL 36 3.3 Exerc´ıcios - lista 04 Questa˜o 1 Suponha que realizamos uma pesquisa com 100 funciona´rios de uma empresa. Nessa pesquisa esta´vamos interessados nas varia´veis regia˜o de procedeˆncia e n´ıvel de escolaridade. Para a regia˜o de procedeˆncia observamos os valores capital, interior e outra. Para o n´ıvel de escolaridade observamos os valores fundamental, me´dio e superior. Com os dados montamos a seguinte tabela de frequeˆncias absolutas: • a) Construa a tabela de frequeˆncias relativas com relac¸a˜o ao total geral. • b) Construa a tabela de frequeˆncias marginais para cada uma das varia´veis. • c) Qual a porcentagem dos funciona´rios que possuem n´ıvel me´dio? • d) Qual a porcentagem dos funciona´rios que sa˜o da capital? • e) Escolhendo um funciona´rio ao acaso qual sera´ provavelmente seu grau de instruc¸a˜o? E a sua regia˜o de procedeˆncia? • f) As varia´veis parecemdependentes? Porque? Questa˜o 2 Uma companhia de seguros analisou a frequeˆncia com que 2000 segurados usaram o hospital, dentre eles 1000 homens e 1000 mulheres. Os resultados foram: 3 ANA´LISE BIDIMENSIONAL 37 • a) Calcule a proporc¸a˜o de homens dentre os indiv´ıduos que utilizaram o hospital. • b) Calcule a proporc¸a˜o de homens dentre os indiv´ıduos que na˜o uti- lizaram o hospital. • c) Baseado nos ca´lculos das frequeˆncias e do coeficiente X 2 voceˆ diria que o uso do hospital independe do sexo do segurado? Questa˜o 3 Lanc¸am-se simultaneamente uma moeda de um real e uma de 25 centavos. Em cada tentativa anotou-se o resultado cujos dados esta˜o resumidos na tabela abaixo: • a) Esses dados sugerem que os resultados das moedas de um real e os da moeda de 25 centavos esta˜o associados? • b) Definindo as varia´veis X1 e X2 tais que X1 = 0 quando ocorre cara e X1 = 1 quando ocorre coroa na moeda de um real. Analogamente X2 = 0 quando ocorre cara e X2 = 1 quando ocorre coroa na moeda de 25 centavos. Calcule a correlac¸a˜o entre X1 e X2. Essa medida esta´ de acordo com o que voceˆ respondeu anteriormente? Questa˜o 4 E´ esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relac¸a˜o, uma nutricionista selecionou 8 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y). 3 ANA´LISE BIDIMENSIONAL 38 Construa o gra´fico de dispersa˜o e calcule o coeficiente de correlac¸a˜o. A hipo´tese da nutricionista se confirma com os dados? 3 ANA´LISE BIDIMENSIONAL 39 3.4 Exerc´ıcios - lista de revisa˜o Questa˜o 1 Numa pesquisa realizada com 100 famı´lias foram observadas 17 famı´lias sem filhos, 20 com 1 filho, 28 com 2 filhos, 19 com 3 filhos, 7 com 4 filhos e 9 com 5 filhos. • a) Calcule o nu´mero me´dio, o nu´mero mediano de filhos e o desvio padra˜o. • b) Se selecionarmos 1 dessas famı´lias qual sera´ provavelmente seu nu´mero de filhos? • c) Fac¸a o gra´fico em barras e o gra´fico em setores. Questa˜o 2 Foram investigadas idades de 10 alunos do curso de po´s-graduac¸a˜o em agronomia: 22, 23, 22, 21, 22, 23, 21, 22 , 35, 40. • a) Calcule a me´dia e a mediana das idades. • b) Qual e´ a melhor medida para representar os dados. • c) Fac¸a o box-plot e observe os valores extremos. A distribuic¸a˜o parece sime´trica? Questa˜o 3 Em uma empresa A a me´dia dos salarios e´ 10.000 e o terceiro quartil e´ 5.000. Se voceˆ foi contratado e o seu sala´rio foi escolhido aleato´riamente e´ mais prova´vel que voceˆ ganhe mais ou menos que 5.000? Em outra empresa B a me´dia de sale´rios e´ 7.000 e a variaˆncia e´ praticamente zero. Em qual das empresas voceˆ preferiria trabalhar? Questa˜o 4 Os dados abaixo referem-se ao sala´rio (em sala´rios mı´nimos) de 20 fun- ciona´rios administrativos em uma indu´stria. 10.1, 7.3, 8.5, 5.0, 4.2, 3.1, 2.2, 9.0, 9.4, 6.1, 3.3, 10.7, 1.5, 8.2, 10, 4.7, 3.5, 6.5, 8.9, 6.1 • a) Construa uma tabela de frequeˆncias agrupando os dados em inter- valos de amplitude 2 a partir de 1. • b) Calcule a me´dia, a mediana e o desvio padra˜o usando a tabela con- struida em a). 3 ANA´LISE BIDIMENSIONAL 40 • c) Se classificarmos os funciona´rios com sala´rios abaixo de 5 como fun- ciona´rios de baixa renda. Entre 5 e 7 como de renda me´dia. Maior que 7 como renda alta. Construa uma tabela de frequeˆncias para o perfil de renda. • d) Escolhendo um funciona´rio, qual e´ a probabilidade de ele ser de renda me´dia? Qual sera´ provavelmente o seu perfil de renda? Questa˜o 5 Dois medicamentos para cicatrizac¸a˜o esta˜o sendo testados em um ex- perimento feito para estudar o tempo (em dias) necessa´rio para o completo fechamento de cortes. Uma amostra com 30 cobaias foi analisada, sendo metade tratada com o medicamento A e a outra metade com o B, e forneceu os seguintes valores: A - 15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15 B - 14, 15, 16, 17, 18, 18, 17, 15, 16, 14, 18, 18, 16, 15, 14 • a) Construa uma tabela de frequeˆncias para o tempo do medicamento A e outra para o B. • b) Para o medicamento A qual a porcentagem das observac¸o˜es esta˜o abaixo dos 16 dias? E para o B? • c) Os medicamentos precem ter o mesmo efeito? Questa˜o 6 Suponha que o pa´ıs A receba de volta uma parte de seu territo´rio T, que por certo tempo esteve sob a administrac¸a˜o do pa´ıs B, devido a um tratado entre A e B. A populac¸a˜o de A, antes de receber T, era 1,2 bilha˜o de habitantes, e a de T era 6 milho˜es de habitantes. Se as me´dias de idade das populac¸o˜es A e T, antes de se reunirem, eram, respectivamente, 30 anos e 25 anos. Qual e´ a me´dia de idade apo´s a reunia˜o? Questa˜o 7 Numa classe com vinte alunos, as notas do exame final podiam variar de 0 a 100 e a nota mı´nima para aprovac¸a˜o era 70. Realizado o exame, verificou-se que 8 alunos foram reprovados. A me´dia aritme´tica das notas desses oito alunos foi 65, enquanto que a me´dia dos aprovados foi 77. Apo´s a divulgac¸a˜o dos resultados, o professor verificou que uma questa˜o havia sido mal formulada e decidiu atribuir 5 pontos a mais para todos os alunos. Com essa decisa˜o, a me´dia dos aprovados passou a ser 80 e a dos reprovados 68,8. • a) Calcule a me´dia aritme´tica das notas da classe toda antes da atribuic¸a˜o dos cinco pontos extras. 3 ANA´LISE BIDIMENSIONAL 41 • b) Com a atribuic¸a˜o dos cinco pontos extras, quantos alunos, inicial- mente reprovados, atingiram nota para a aprovac¸a˜o? Questa˜o 8 Suponha que a relac¸a˜o entre o tempo necessa´rio para animais adquirirem um certo peso e a quantidade de animais no rebanho pode ser descrita por: peso = racao(kg) animais A pesagem dos animais e´ feita semanalmente e o acompanhamento foi feito durante 3 semanas. • a) Na primeira semana utilizamos 500kg para alimentar o rebanho e, nesse per´ıodo houve um ganho me´dio de 2kg. Na segunda semana foram utilizados 1000kg e houve um ganho me´dio de 2,5kg. Na terceira semana utilizamos 200kg e o ganho me´dio foi de 3kg. Qual o ganho me´dio de peso nessas 3 semanas? • b) Se alimentamos 100 animais durante a primeira semana, 150 du- rante a segunda e 500 durante a terceira e os ganhos de peso foram respectivamente 2, 1.5 e 2.5. Qual e´ o ganho me´dio de peso durante essas 3 semanas? Questa˜o 9 Suponha que aplicamos um capital durante 6 meses e as taxas de retorno foram de 10,15,30,40,60,50 por cento respectivamente. Suponha tambe´m que decidimos continuar com o investimento se a taxa me´dia de retorno for de pelo menos 34 por cento. Qual e´ a decisa˜o a juros simples? E a juros compostos? Questa˜o 10 Foram entrevistados 200 alunos de treˆs cursos, obtendo a seguinte tabela: • a) Qual e´ a porcentagem de alunos do curso de f´ısica? Existem mais homens ou mulheres no curso de f´ısica? • b) Qual e´ a porcentagem de mulheres no curso de matema´tica? 3 ANA´LISE BIDIMENSIONAL 42 • c) Escolhendo um aluno ao acaso e, sabendo que o escolhido e´ mulher qual e´ a probabilidade de ela ser do curso de qu´ımica? • d) Qual o curso tem um nu´mero maior de homens f´ısica ou matema´tica? • e) De acordo com o coeficiente X 2 e com a tabela de frequeˆncias, essas varia´veis sa˜o independentes? Questa˜o 11 Um geo´logo esta´ procurando identificar a relac¸a˜o existente entre a pre- senc¸a de magne´sio e a existeˆncia de calcificac¸a˜o de um determinado tipo em um solo. Para isso, ele coletou uma amostra de solo com 5 observac¸o˜es e an- otou a quantidade de magne´sio encontrada (X) e o correspondente nu´mero de calcificac¸o˜es (Y). Fac¸a o gra´fico de dispersa˜o para as varia´veis e calcule o coeficiente de correlac¸a˜o. Qual e´ a conclusa˜o do geo´logo? 4 PROBABILIDADE 43 4 Probabilidade Ate´ agora, analisamos um conjunto de dados atrave´s de te´cnicas gra´ficas e medidas de posic¸a˜o ou dispersa˜o. A distribuic¸a˜o de frequeˆncias foi um instrumento importante para avaliar- mos o comportamento da varia´vel que estudamos, seus valores e suas variac¸o˜es observadas na amostra. As frequeˆncias relativas estudadas ate´ enta˜o, sa˜oestimativas das proba- bilidades de ocorreˆncia dos valores da varia´vel de interesse. Fazendo suposic¸o˜es adequadas e sem observarmos amostras, podemos criar um modelo teo´rico que reproduza a distribuic¸a˜o de frequeˆncias obser- vadas na populac¸a˜o. Esses modelos sa˜o chamados modelos probabil´ısticos. Uma outra interpretac¸a˜o para o conceito de probabilidade, um pouco diferente da interpretac¸a˜o frequentista que estamos acostumados ate´ agora e´ a interpretac¸a˜o cla´ssica. Nesse caso, quando cada um dos resultados (eventos elementares) tem igual chance de ocorrer definimos a probabilidade de um evento A ocorrer como a raza˜o entre o nu´mero de resultados favora´veis ao evento A e o nu´mero de resultados poss´ıveis. 4.1 Modelo probabil´ıstico Um modelo probabil´ıstico e´ constitu´ıdo por: 1)- Um espac¸o amostral Ω que consiste em todos os resultados poss´ıveis para o experimento. Ω = {w1, w2, w3, ..., wn, ...} O espac¸o amostral pode ser finito ou infinito. Qualquer subconjunto de Ω e´ denominado evento. O evento wi e´ chamado evento elementar. 2)- Uma probabilidade P(.), definida para cada evento elementar wi em Ω, de tal forma que seja poss´ıvel encontrar a probabilidade P(A) para qual- quer evento A em Ω. Exemplo 1: Modelo probabil´ıstico para o lanc¸amento de um dado. Ω = {1, 2, 3, 4, 5, 6} onde P (wi) = 1 6 , para todo wi ∈ Ω. Para o evento A: observar face ı´mpar, temos A={1, 3, 5} e P(A)=1/2. Exemplo 2: Modelo probabil´ıstico para o lanc¸amento de um dado e uma moeda. 4 PROBABILIDADE 44 Ω = {(c, 1), (c, 2), (c, 3), (c, 4), (c, 5), (c, 6), (k, 1), (k, 2), (k, 3), (k, 4), (k, 5), (k, 6)} onde P (wi) = 1 12 , para todo wi ∈ Ω. Para o evento B: observar face par e cara, temos B={(c, 2), (c, 4), (c, 6)} e P(B)=1/4. Axiomas de probabilidade A func¸a˜o de probabilidade do modelo probabil´ıstico deve satisfazer: • (1) P (Ω) = 1 • (2) 0 ≤ P (A) ≤ 1, para todo evento A ∈ Ω. • (3) P (E1 ∪ E2) = P (E1) + P (E2) para E1, E2 ∈ Ω, eventos disjuntos, isto e´ E1 ∩ E2 = ∅. A partir dos axiomas anteriores podemos definir algumas propriedades para a func¸a˜o de probabilidade: • (1) P (A ∪B) = P (A) + P (B)− P (A ∩B), para todo A,B ∈ Ω. Dem: P (A ∪B) = P (A−B) + P (A ∩B) + P (B − A) = P (A)− P (A ∩B) + P (A ∩B) + P (B)− P (A ∩B) = P (A) + P (B)− P (A ∩B) • (2) P (Ac) = 1− P (A). Dem: P (Ω) = 1 =⇒ P (A ∪ Ac) = 1 =⇒ P (A) + P (Ac) = 1. • (3) P (∅) = 0. Dem : Em sala. • (4) P (⋃ni=1 Ei) = ∑ni=1 P (Ei) . Para toda colec¸a˜o de eventos {E1, E2, ..., En} disjuntos dois a dois isto e´ Ei ∩ Ej = ∅, para todo i 6= j. Obs: Os eventos satisfazem a`s mesmas propriedades para as operac¸o˜es entre conjuntos: 4 PROBABILIDADE 45 • a) (A ∩B)c = Ac ∪Bc • b) (A ∪B)c = Ac ∩Bc • c) A ∩ ∅ = ∅ • d) A ∪ Ω = A • e) Ωc = ∅ • f) A ∩ Ac = ∅ • g) A ∪ Ac = Ω • h) A ∪ ∅ = A, A ∩ Ω = Ω Exemplo 3: Ao se retirar uma carta do baralho (com 52 cartas) qual e´ a probabilidade de se obter uma carta vermelha ou um a`s? evento A: carta e´ a`s. evento B: carta e´ vermelha. P (A∪B) = P (B) +P (A)−P (A∩B) = 26/52 + 4/52− 2/52 = 28/52 = 7/13. Exemplo 4: Lanc¸ando uma moeda e um dado, qual e´ a probabilidade de na˜o se observar o nu´mero 1? evento A: foi observada a face 1. A = {(c, 1), (k, 1)} queremos P (Ac) = 1− P (A) = 1− 2/12 = 5/6. Exerc´ıcio: Suponha que entrevistamos 100 alunos e perguntamos em quais mate´rias eles estavam inscritos. Obtivemos os seguintes valores: 47 alunos inscritos em matema´tica. 31 alunos inscritos em f´ısica. 11 alunos inscritos em estat´ıstica. 20 alunos inscritos em matema´tica e f´ısica. 7 alunos inscritos em matema´tica e estat´ıstica. 6 alunos inscritos em f´ısica e estat´ıstica. 5 alunos inscritos em matema´tica, f´ısica e estat´ıstica. a) Selecionando um aluno ao acaso, qual e´ a probabilidade de ele estar inscrito somente em matema´tica? b) Qual e´ a probabilidade de ele estar inscrito em matema´tica ou f´ısica? c) Qual e´ a probabilidade de ele estar inscrito em pelo menos 1 mate´ria? 4 PROBABILIDADE 46 Me´todos de contagem Quando estamos trabalhando com um espac¸o amostral finito e equiprova´vel Ω = {w1, w2, w3, ..., wn} isto e´, quando todos os eventos elementares wi teˆm igual probabilidade 1/n de ocorrer, podemos utilizar te´cnicas de ana´lise com- binato´ria para calcular de uma maneira mais simples a probabilidade de um evento A ocorrer. P (A) = ]A ]Ω onde ]A e´ o nu´mero de resultados favora´veis e ]Ω e´ o nu´mero de resulta- dos poss´ıveis. Exemplo 5: Suponha que num lote com 20 pec¸as existam 5 defeituosas. Escolhendo 4 pec¸as do lote, qual e´ a probabilidade de 2 pec¸as serem defeitu- osas e 2 perfeitas? A: Escolher 2 pec¸as defeituosas e 2 perfeitas. ]A = C52 .C 15 2 (nu´mero de casos favora´veis). ]Ω = C204 (nu´mero de casos poss´ıveis). Logo, P (A) = ]A ]Ω = C52 .C 15 2 C204 = 5.4 2! 15.14 2! 20.19.18.17 4! = 0, 2167 Exerc´ıcio: Lanc¸ando-se 2 dados, qual e´ a probabilidade de todos os nu´meros aparecerem 2 vezes? Exerc´ıcio: Em um grupo de 5 me´dicos e 5 enfermeiras, devemos formar uma equipe com 2 me´dicos e 2 enfermeiras. Qual e´ a probabilidade do me´dico Jose´ e a enfermeira Maria fazerem parte da mesma equipe? Exerc´ıcio: Um baralho conte´m 52 cartas das quais 4 sa˜o ases. Se 4 jogadores recebem 13 cartas cada um qual e´ a probabilidade de cada jogador receber 1 a`s? 4.2 Probabilidade condicional e independeˆncia Definic¸a˜o : Para dois eventos A e B ∈ Ω com P (B) > 0, a probabilidade condicional de A dado B e´ dada por: 4 PROBABILIDADE 47 P (A|B) = P (A∩B) P (B) Exemplo 6: Dois dados sa˜o lanc¸ados e foi observada a soma das faces ı´mpar. Qual e´ a probabilidade de que a soma seja menor do que 8? B: Sair soma ı´mpar. B = {3, 5, 7, 9, 11} A: Soma menor que 8. A = {2, 3, 4, 5, 6, 7} P (A|B) = P (A∩B) P (B) A ∩B = {3, 5, 7} = Soma 3− (1, 2); (2, 1) Soma 5− (1, 4); (4, 1); (2, 3); (3, 2) Soma 7− (1, 6); (6, 1); (2, 5); (5, 2); (3, 4); (4, 3) enta˜o P (A ∩B) = 12 36 . B = {3, 5, 7, 9, 11} = Soma 3− (1, 2); (2, 1) Soma 5− (1, 4); (4, 1); (2, 3); (3, 2) Soma 7− (1, 6); (6, 1); (2, 5); (5, 2); (3, 4); (4, 3) Soma 9− (3, 6); (6, 3); (4, 5); (5, 4) Soma 11− (5, 6); (6, 5) enta˜o P (B) = 18 36 Logo P (A|B) = 123618 36 = 12 18 = 2 3 Regra da multiplicac¸a˜o Dada a definic¸a˜o de probabilidade condicional, podemos escrever: P (A ∩B) = P (A|B)P (B) Essa regra em geral, vale para mais eventos: P (A ∩B ∩ C) = P (C|A ∩B)P (B|A)P (A) P (A1 ∩ A2 ∩ A3 ∩ ... ∩ An) = P (An|A1 ∩ ... ∩ An−1)P (An−1|A1 ∩ ... ∩ An−2)...P (A1) Exemplo 7: Em um lote com 100 laˆmpadas 20 sa˜o defeituosas. Selecionando 2 laˆmpadas ao acaso e sem reposic¸a˜o, qual e´ a probabilidade: a) De serem ambas defeituosas? 4 PROBABILIDADE 48 b) Da segunda laˆmpada ser defeituosa? a) Sejam os eventos A: 1o pec¸a e´ defeituosa. B: 2o pec¸a e´ defeituosa. P (A ∩B) = P (B|A).P (A) = 20 100 .19 99 = 38 99 b) P (B) = P (B ∩ A) + P (B ∩ Ac) = P (B|A)P (A) + P (B|Ac)P (Ac) = 20 100 .19 99 + 20 99 . 80 100 = 0, 2 c) Selecionando treˆs laˆmpadas ao acaso, qual e´ a probabilidade de reti- rarmos a 1o laˆmpada defeituosa, a 2o e a 3o perfeitas? Para o evento C: 3o pec¸a e´ defeituosa. Queremos P (A ∩Bc ∩ Cc) = P (Cc|A ∩Bc)P (Bc|A)P (A) = 79 98 80 99 20 100 Definic¸a˜o (Partic¸a˜o): Dizemos que os eventos A1, A2, A3, ..., An formam uma partic¸a˜o para Ω se: • (i) Ω = A1 ∪ A2 ∪ A3 ∪ ... ∪ An • (ii) Ai ∩ Aj = ∅, ∀i 6= j, i, j ∈ {1, 2, ..., n} Teorema: Lei da probabilidade total Seja B um evento e {A1, A2, A3, ..., An} uma partic¸a˜o do espac¸o amostral Ω, enta˜o: P (B) = Σni=1P (B|Ai)P (Ai) Demonstrac¸a˜o: P (B) = P (B ∩ Ω) = P (B ∩ (A1, A2, A3, ..., An)) = P ((B ∩ A1) ∪ (B ∩ A2) ∪ ... ∪ (B ∩ An)) = P (B ∩ A1) + P (B ∩ A2) + ...+ P (B ∩ An) = P (B|A1)P (A1) + P (B|A2)P (A2) + ...+ P (B|An)P (An) = n∑ i=1 P (B|Ai)P (Ai) 4 PROBABILIDADE 49 Podemos verificar na figura abaixo como interpretar a lei da probabilidade total. Quando o evento B pode ser formado pela unia˜o de va´rias partes sem in- tersec¸a˜o (eventos disjuntos)e, sabemos calcular a probabilidade de cada uma dessas partes, podemos calcular a probabilidade total do evento B ocorrer atrave´s da soma das probabilidades de todas as partes que unidas formam o evento B. 4 PROBABILIDADE 50 Exemplo 8: Em uma fa´brica, duas ma´quinas A e B operam em dias alternados. A ma´quina A opera em 20 por cento dos dias e a probabilidade de produzir um item defeituoso e´ 0,3, ja´ para a ma´quina B essa probabilidade e´ de 0,1. Se- lecionando dois equipamentos produzidos em um dia, qual e´ a probabilidade de serem ambos defeituosos? Pela lei da probabilidade total temos: C: Selecionar 2 equipamentos defeituosos A : Ma´quina A ativa. B : Ma´quina B ativa. P (C) = P (C|A)P (A)+P (C|B)P (B) = (0, 3)2.0, 2+(0, 1)2.0, 8= 0,018+0,008=0,026. Independeˆncia Dizemos que dois eventos A e B ∈ Ω, sa˜o independentes se P (A ∩B) = P (A).P (B) Exemplo 9: Uma urna conte´m 2 bolas brancas e 3 vermelhas. Suponha que sejam retiradas 2 bolas sem reposic¸a˜o. Nesse caso, para o evento A: retirar uma bola branca na segunda extrac¸a˜o temos A = {(v, b), (b, b)} e para o evento C: retirar uma bola branca na 1o extrac¸a˜o temos A = {(b, v), (b, b)} Os eventos A e C sa˜o independentes? Para responder, vamos descrever o espac¸o amostral e as probabilidades. Resultados Probabilidade (b,b) 2/5.1/4=2/20 (b,v) 2/5.3/4=6/20 (v,b) 3/5.2/4=6/20 (v,v) 3/5.2/4=6/20 enta˜o P (A) = P (b, b) +P (v, b) = 2/20 + 6/20 = 2/5, P (C) = P (b, b) + P (b, v) = 2/20+6/20 = 2/5 e P (A∩C) = P (b, b) = 2/20 6= P (A).P (C) = 4/25. 4 PROBABILIDADE 51 Logo os eventos A e C na˜o sa˜o independentes. Se tive´ssemos retirado duas bolas com reposic¸a˜o ter´ıamos Resultados Probabilidade (b,b) 2/5.2/5=4/25 (b,v) 2/5.3/5=6/25 (v,b) 3/5.2/5=6/25 (v,v) 3/5.3/5=6/25 P (C) = P (b, b) + P (b, v) = 4/25 + 6/25 = 10/25, P (A) = P (b, b) + P (v, b) = 4/25 + 6/25 = 10/25 enta˜o P (A ∩ C) = P (b, b) = 4/25 = P (A).P (C) = 10/25.2/5 = 4/25 Logo, nesse caso os eventos A e C sa˜o independentes. Exemplo 10: Lanc¸ando um dado e uma moeda, os eventos: obter cara e obter um nu´mero menor que 3 sa˜o independentes? A: obter cara. B: obter um nu´mero menor que 3. A={(c, 1), (c, 2), (c, 3), (c, 4), (c, 5), (c, 6)} B={(c, 1), (k, 1), (c, 2), (k, 2)} P (A ∩B) = 2/12, P (A) = 6/12 e P (B) = 4/12 Como P (A ∩ B) = 2/12 = P (A).P (B) = 1/6, temos que os eventos A e B sa˜o independentes. Obs: Se os eventos A e B sa˜o independentes enta˜o Ac e Bc tambe´m sa˜o independentes. P (Ac ∩Bc) = P ((A ∪B)c) = 1− P (A ∪B) = 1− [P (A) + P (B)− P (A ∩B)] = 1− P (A)− P (B) + P (A)P (B) = 1− P (A)− P (B)[1− P (A)] = [1− P (A)][1− P (B)] = P (Ac)P (Bc) Exemplo 11: 4 PROBABILIDADE 52 Se uma ma´quina A e uma ma´quina B operam de maneira independente e a probabilidade da ma´quina A falhar e´ de 0,4 e para a ma´quina B essa probabilidade e´ de 0,1. Qual e´ a probabilidade de ambas funcionarem corre- tamente? resp: 0,6.0,9=0,54. 4.3 Teorema de Bayes Exemplo 12: Se temos duas urnas, a urna 1 com 2 bolas brancas e 1 vermelha e a urna 2 com 1 bola branca e 1 vermelha. Se selecionamos uma bola vermelha, qual e´ a probabilidade de ela ter vindo da urna 1? C: A urna 1 e´ selecionada. V: Uma bola vermelha e´ selecionada. Queremos saber P (C|V ), mas sabemos calcular P (V |C). Como podemos usar essa informac¸a˜o? Podemos usar o fato de P (C|V ) = P (C∩V ) P (V ) = P (V |C)P (C) P (V ) e ale´m disso, pelo teorema da probabilidade total sabemos que P (V ) = P (V |C)P (C) + P (V |Cc)P (Cc) enta˜o P (C|V ) = P (V |C)P (C) P (V |C)P (C)+P (V |Cc)P (Cc) = 2 3 1 2 2 3 1 2 + 1 2 1 2 = 4 7 . Podemos generalizar a fo´rmula acima da seguinte maneira: Para {A1, A2, ..., An} uma partic¸a˜o de Ω, considere B um evento qualquer em Ω. Suponhamos conhecidas P (B|Ai) e P (Ai) enta˜o temos: Teorema de Bayes A probabilidade de ocorreˆncia do evento Ai dada a ocorreˆncia do evento B e´: P (Ai|B) = P (B|Ai)P (Ai)∑n i=1 P (B|Ai)P (Ai) 4 PROBABILIDADE 53 Podemos pensar em {A1, A2, ..., An} como um conjunto de hipo´teses. Dado que B ocorreu, a probabilidade inicial de Ai, P (Ai) e´ modificada para se obter P (Ai|B). Chamamos P (Ai)- Probabilidade a priori. P (Ai|B)- Probabilidade a posteriori. Para se obter P (Ai|B) multiplicamos P (Ai) por: P (B|Ai)∑n i=1 P (B|Ai)P (Ai) Exemplo 12: Supondo que um teste para uma certa doenc¸a pode resultar em positivo ou negativo e que a probabilidade do teste dar positivo, dado que a pessoa esta´ doente e´ 0,9 e, de dar negativo dado que a pessoa na˜o esta´ doente e´ 0,9. Sabendo ainda que a incideˆncia da doenc¸a na populac¸a˜o e´ de 1/100, se um individuo desta populac¸a˜o faz o teste e resulta positivo, qual e´ a probabili- dade de realmente ele estar doente? A: teste resultou positivo B: individuo esta´ doente P (B|A) = P (A|B)P (B) P (A|B)P (B)+P (A|Bc)P (Bc) = 0,9.0,01 0,9.0,01+0,1.0,99 = 0, 08 Antes de fazer o teste o indiv´ıduo tinha uma chance de 1 por cento de ter a doenc¸a, como o teste deu positivo, temos um aumento na probabilidade, que passou para 8 por cento. 4 PROBABILIDADE 54 4.4 Exerc´ıcios - lista 05 Probabilidade e suas propriedades Questa˜o 1 Defina um modelo probabil´ıstico para os experimentos abaixo (espac¸o amostral e probabilidades para cada elemento do espac¸o amostral): • a) Um dado e´ lanc¸ado duas vezes e a ocorreˆncia de face par ou ı´mpar e´ observada. • b) Dois dados sa˜o lanc¸ados simultaneamente e a soma e´ observada. • c) Uma urna conte´m 10 bolas azuis e 10 vermelhas, 4 bolas sa˜o sele- cionadas ao acaso e com reposic¸a˜o e as cores sa˜o anotadas. • d) Idem ao anterior mas sem reposic¸a˜o. Questa˜o 2 Para o exerc´ıcio anterior, deˆ a probabilidade para os seguintes eventos: • a) Observar pelo menos 1 face ı´mpar em 1a). • b) Observar soma mu´ltipla de 3 em 1b). • c) Observar primeira e segunda bolas azuis e terceira e quartas vermel- has em 1c). • d) Observar duas bolas azuis e duas vermelhas em 1c). • e) Observar primeira e segunda bolas azuis e terceira e quata vermelhas em 1d). • f) Observar duas bolas azuis e duas vermelhas em 1d). Questa˜o 3 Uma universidade tem 10 mil alunos dos quais 4 mil sa˜o considerados esportistas. Temos ainda que 500 alunos sa˜o do curso de biologia diurno, 700 da biologia noturno, 100 sa˜o esportistas e da biologia diurno e 200 sa˜o esportistas e da biologia noturno. Um aluno e´ escolhido ao acaso e pergunta- se a probabilidade de: • a) Ser esportista. • b) Ser esportista e aluno da biologia noturno. • c) Na˜o ser da biologia. 4 PROBABILIDADE 55 • d) Ser esportista ou aluno da biologia. • e) Na˜o ser esportista nem aluno da biologia. Questa˜o 4 Sejam A e B dois eventos em um dado espac¸o amostral, tais que P(A)=0,2, P(B)=p, P(AUB)=0,5 e P(A ⋂ B)=0,1. Determine o valor de p. Questa˜o 5 Uma fa´brica produz molas de tamanhos 1,2,3,4,5 e 6 cm. Sabendo que a probabilidade de a mola resistir a uma forc¸a empregada e´ proporcional ao comprimento e a constante de proporcionalidade e´ a mesma para cada mola, qual e´ a probabilidade da mola de 2cm resistir a` forc¸a? Questa˜o 6 Uma moeda e´ viciada de modo que a probabilidade de sair cara e´ 4 vezes a probabilidade de sair coroa. Para 2 lanc¸amentos dessa moeda determinar: • a) O espac¸o amostral. • b) A probabilidade de sair somente uma cara. • c) A probabilidade de sair pelo menos uma cara. • d) A probabilidade de dois resultados iguais. Questa˜o 7 Sorteamos ao acaso, com reposic¸a˜o, 2 nu´meros dentre 4 dos quais dois sa˜o positivos, dois sa˜o negativos e nenhum deles e´ zero. Determine a proba- bilidade de: • a) Um deles ser negativo. • b) O quociente ser negativo. • c) Os dois nu´meros terem o mesmo sinal. Questa˜o 8 Pec¸as produzidas por uma ma´quina sa˜o classificadas como defeituosas, re- cupera´veis ou perfeitas com probabilidade de 0.1,0.2 e 0.7, respectivamente. De um grande lote dessas pec¸as foram sorteamdas duas delas e sua classi- ficac¸a˜o e´ observada. Determine a probabilidade de: • a) Duas serem defeituosas. • b) Pelo menos uma ser perfeita. 4 PROBABILIDADE56 • c) Uma ser recupera´vel e uma ser perfeita. Probabilidade condicional Questa˜o 9 Dois arma´rios guardam as bolas de voleibol e basquete. O arma´rio 1 tem 3 bolas de voleibol e 1 de basquete, enquanto o arma´rio 2 tem 3 de voleibol e 2 de basquete. Escolhendo-se ao acasoum arma´rio e, em seguida, uma de suas bolas, calcule a probabilidade dela ser: • a) De voleibol, sabendo-se que o arma´rio 1 foi escolhido. • b) De basquete, sabendo-se que o arma´rio 2 foi escolhido. • c) De basquete. Questa˜o 10 Duas caixas conte´m la´pis e canetas, a primeira conte´m 60 la´pis e 40 canetas, a segunda conte´m 10 la´pis e 20 canetas. Suponha que uma caixa e´ selecionada e um objeto e´ escolhido, qual e´ a probabilidade de escolher uma caneta? Questa˜o 11 Treˆs diferentes ma´quinas sa˜o utilizadas para produzir uma pec¸a. Sabendo que a ma´quina 1 produz 20 por cento das pec¸as das quais 1 por cento sa˜o defeituosas. A ma´quina 2 produz 30 por cento das pec¸as das quais 2 por cento sa˜o defeituosas e, a ma´quina 3 produz 50 por cento das pec¸as das quais 3 por cento sa˜o defeituosas. Selecionando 1 item ao acaso, qual e´ a probabilidade de ele ser defeituoso? Se selecionarmos 2 itens, qual e´ a probabilidade dos dois serem defeituosos? Questa˜o 12 Dois dados equilibrados sa˜o lanc¸ados, calcule a probabilidade de: • a) Obter o par (3,4), sabendo-se que ocorreu face ı´mpar no primeiro dado. • b) Ocorrer face ı´mpar no segundo dado sabendo-se que ocorreu face par no primeiro dado. Questa˜o 13 Uma companhia que fura poc¸os artesianos trabalha em uma regia˜o escol- hendo aleto´riamente o ponto de furo e na˜o encontrando a´gua sorteia outro local para a perfurac¸a˜o e assim por diante ate´ no ma´ximo 3 tentativas. Ad- mitindo que a probabilidade de encontrar a´gua em uma perfurac¸a˜o e´ 0.7, calcule a probabilidade de: 4 PROBABILIDADE 57 • a) Encontrar a´gua no segundo furo. • b) Encontrar a´gua no terceiro furo. • c) Encontrar a´gua. Questa˜o 14 Suponha que existam duas pastas de dente no mercado: A e B. Suponha que para cada escolha depois da primeira, a probabilidade que ele escolha a mesma pasta e´ 1/3 e que ele mude de pasta e´ 2/3. Se e´ igualmente prova´vel ele escolher a pasta 1 ou 2 na primeira escolha, qual e´ a probabilidade que a primeira e a segunda sejam do tipo A e as terceiras e quarta do tipo B? Independencia entre eventos Questa˜o 15 Dois estudantes A e B esa˜o matriculados em um certo curso. Se o estu- dante A frequenta 80 por cento das aulas, e o estudante B 60 por cento e as auseˆncias sa˜o independentes, qual e´ a probabilidade de: • a) Ao menos 1 dos estudantes esteja presente na aula um certo dia? • b) Dado que ao menos 1 dos estudantes esteja presente na aula um certo dia qual e´ a probabilidade que A esteja presente nesse dia? Questa˜o 16 Suponha que a probabilidade de uma part´ıcula emitida por um material radioativo atingir um campo e´ 0,01. Se 10 part´ıculas sa˜o emitidas qual e´ a probabilidade de apenas 1 delas atingir o campo? Questa˜o 17 Dois garotos lanc¸am uma bola de basquete. Suponha que a probabilidade do menino A acertar a cesta e´ 1/3 e para o menino B essa probabilidade e´ 1/4. Suponha tambe´m que o menino A inicia os lanc¸amentos e os dois va˜o se alternando. Qual e´ a probabilidade de o primeiro acerto ocorres no terceiro lanc¸amento do menino A? Questa˜o 18 Se treˆs dados sa˜o lanc¸ados, qual e´ a probabilidade que os 3 nu´meros sejam os mesmos? Teorema de Bayes Questa˜o 19 Numa certa regia˜o, a probabilidade de chuva em um dia de primavera e´ 0,1. Um meteorologista acerta sua previsa˜o em 80 por cento dos dias que chove e 90 por cento dos dias em que na˜o chove. • a) Qual e´ a probabilidade de um meteorologista acertar sua previsa˜o? 4 PROBABILIDADE 58 • b) Se houver acerto na previsa˜o, qual e´ a probabilidade de ter sido um dia de chuva? Questa˜o 20 Uma caixa conte´m 3 cartas, uma e´ vermelha em ambos os lados, outra e´ verde em ambos os lados e, a terceira e´ verde de um lado e vermelha de outro. Uma carta e´ selecionada e um de seus lados e´ observado. Se esse lado e´ verde, qual e´ a probabilidade que o outro lado seja tambe´m verde? Questa˜o 21 Acredita-se que numa certa populac¸a˜o 20 por cento de seus habitantes sa˜o considerados ale´rgicos. Sendo ale´rgico, a probabilidade de sofrer um tipo de reac¸a˜o a um certo antibio´tico e´ 0,5. Para os na˜o ale´rgicos essa probabilidade e´ 0,05. Uma pessoa e´ dessa populac¸a˜o teve reac¸a˜o ao ingerir o antibio´tico. • a) Qual e´ a probabilidade de ele ser do grupo ale´rgico? • b) E do grupo na˜o ale´rgico? Questa˜o 22 Uma caixa conte´m 2 moedas, uma tem cara em ambos os lados e a outra e´ honesta. Uma moeda e´ selecionada e lanc¸ada, se obtivemos cara qual e´ a probabilidade que a moeda seja honesta? 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 59 5 Varia´veis aleato´rias discretas Ate´ agora, estudamos alguns modelos probabil´ısticos por meio de espac¸os amostrais bem simples e obtivemos algumas propriedades da func¸a˜o de prob- abilidade. Para situac¸o˜es mais gerais, precisamos de modelos que possam representar os tipos de varia´veis que estudamos, qualitativas e quantitativas. Para as varia´veis qualitativas as noc¸o˜es de probabilidade associadas a eventos definidas anteriormente adaptam-se muito bem. Ja´ para as varia´veis quantitativas discretas e cont´ınuas precisamos de alguns artif´ıcios matema´ticos. Os modelos probabil´ısticos para as varia´veis quantitativas sa˜o muito im- portantes para infereˆncia estat´ıstica e a partir deles podemos extrair con- cluso˜es sobre a populac¸a˜o. Varia´veis aleato´rias Uma quantidade X associada a cada poss´ıvel resultado do espac¸o amostral e´ denominada varia´vel aleato´ria discreta se assume valores num conjunto enumera´vel (finito ou infinito) com certa probabilidade. Por outro lado, sera´ denominada varia´vel aleato´ria cont´ınua se o conjunto de valores assumido e´ qualquer intervalo de nu´meros reais, que sa˜o conjuntos na˜o enumera´veis. Como ja´ vimos anteriormente, existem varia´veis que sa˜o naturalmente definidas como discretas ou cont´ınuas. Por exemplo, o nu´mero de filhos e´ discreta e o tempo de reac¸a˜o a um certo medicamento e´ cont´ınua. De forma geral, as definic¸o˜es de varia´veis quantitativas discretas e cont´ınuas feitas anteriormente no capitulo 1 permanecem, e a palavra aleato´ria e´ intro- duzida para indicar que a cada valor ou intervalo poss´ıvel atribu´ımos uma probabilidade de ocorreˆncia. No caso discreto, a atribuic¸a˜o e´ similar a` tabela de frequeˆncia relativa. Ja´ no caso cont´ınuo vamos utilizar uma generalizac¸a˜o do conceito de histograma. Varia´veis aleato´rias discretas Seja X uma varia´vel aleato´ria discreta e x1, x2, x3, ... seus valores poss´ıveis. A func¸a˜o que atribui a cada valor poss´ıvel de X uma probabilidade e´ chamada func¸a˜o de probabilidade. 5.1 Func¸a˜o de Probabilidade Para uma varia´vel aleato´ria discreta X assumindo valores x1, x2, x3, ... defin- imos a func¸a˜o de probabilidade de X por: 5 VARIA´VEIS ALEATO´RIAS DISCRETAS 60 P (X = xi) = p(xi) para todo i ∈ {1, 2, 3, ...} que satisfaz { (i) 0 ≤ p(xi) ≤ 1 (ii) ∑∞ i=0 p(xi) = 1 Na maioria dos casos que estudaremos, X tera´ apenas um nu´mero finito de valores poss´ıveis e assim, a verificac¸a˜o de que a soma das probabilidades e´ igual a 1 e´ feita atrave´s de uma soma finita. As varia´veis discretas sa˜o completamente caracterizadas pelas func¸o˜es de probabilidade. Exemplo 1: Uma assistente social constatou, analisando as famı´lias de um bairro, que 20 por cento na˜o tinham filhos, 30 por cento tinham 1 filho, 35 por cento dois filhos a os restantes se dividiam igualmente entre treˆs, quatro e cinco fil- hos. Construa uma func¸a˜o de probabilidade para a varia´vel nu´mero de filhos. Como X e´ uma varia´vel aleato´ria discreta e os poss´ıveis valores para X sa˜o 0,1,2,3,4,e 5 e P(X=0)=0.2, P(X=1)=0.3, P(X=2)=0.35 temos pela propriedade da func¸a˜o de probabilidade: p(0)+p(1)+p(2)+p(3)+p(4)+p(5)=1 enta˜o 0.2+0.3+0.35+p(3)+p(4)+p(5)=1
Compartilhar