Baixe o app para aproveitar ainda mais
Prévia do material em texto
Apresentac¸a˜o Esta apostila conte´m um resumo do material a ser apresentado na disciplina IC-280, Estat´ıstica Ba´sica, na UFRRJ. O texto e´ baseado no livro texto da disciplina, Estat´ıstica Ba´sica, de Wilton Bussab e Pedro Morettin e conte´m tambe´m va´rios exerc´ıcios de outros livros. Os exerc´ıcios retirados do livro texto, esta˜o marcados com o s´ımbolo ♠ . Este resumo na˜o substitui o livro texto e deve servir apenas de guia para o aluno acompanhar a sequ¨eˆncia da mate´ria lecionada. Nos apeˆndices, sa˜o apresentadas tabelas e respostas de alguns exerc´ıcios propostos. Agradecemos a monitora da disciplina Estat´ıstica Ba´sica, Manoela Machado do Vale, por fornecer va´rias destas respostas. Antonieta D’Alcaˆntara de Queiroz Peres Maria Teresa Carneiro da Cunha 1 Resumos e Selec¸a˜o de Exerc´ıcios Estat´ıstica Ba´sica I´ndice 1 Ana´lise Explorato´ria de dados 4 1.1 Introduc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 Apresentac¸a˜o dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3 Gra´ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.1 Representac¸a˜o gra´fica das varia´veis qualitativas . . . . . . . . . . . . 8 1.3.2 Representac¸a˜o gra´fica das varia´veis quantitativas . . . . . . . . . . . 10 1.3.3 Gra´ficos especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.5 Conjuntos de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2 Medidas Associadas a Varia´veis Quantitativas 20 2.1 Medidas de Posic¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.1.1 Outras medidas de posic¸a˜o . . . . . . . . . . . . . . . . . . . . . . . 21 2.1.2 Medidas de posic¸a˜o para dados agrupados . . . . . . . . . . . . . . . 23 2.1.3 Distribuic¸a˜o em intervalos de classes . . . . . . . . . . . . . . . . . . 24 2.1.4 Propriedades das medidas de posic¸a˜o . . . . . . . . . . . . . . . . . . 25 2.2 Medidas de Dispersa˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.2.1 Medidas de dispersa˜o para dados agrupados . . . . . . . . . . . . . . 27 2.2.2 Propriedades das medidas de dispersa˜o . . . . . . . . . . . . . . . . . 28 2.3 Outras medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.3.1 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3 Ana´lise bidimensional 40 3.1 Introduc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.2 Coeficientes de contingeˆncia . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.3 Coeficiente de correlac¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2 4 Probabilidade 49 4.1 Introduc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.2 Probabilidade condicional e independeˆncia. . . . . . . . . . . . . . . . . . . 51 4.3 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5 Varia´veis Aleato´rias Discretas 60 5.1 Introduc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.2 Modelos probabil´ısticos para varia´veis aleato´rias discretas . . . . . . . . . . 63 5.3 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 6 Varia´veis aleato´rias cont´ınuas 72 6.1 Introduc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 6.2 Valor esperado e variaˆncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 6.3 Modelos probabil´ısticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 6.3.1 Distribuic¸a˜o Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 6.3.2 Algumas caracter´ısticas da distribuic¸a˜o Normal . . . . . . . . . . . . 76 6.3.3 Uso da tabela da Normal padra˜o . . . . . . . . . . . . . . . . . . . . 77 6.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 7 Distribuic¸o˜es Amostrais 84 7.1 Introduc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 7.2 Distribuic¸a˜o Amostral da Me´dia . . . . . . . . . . . . . . . . . . . . . . . . 86 7.3 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 8 Intervalos de Confianc¸a 93 8.1 Intervalos de confianc¸a para a me´dia populacional . . . . . . . . . . . . . . . 93 8.1.1 σ2 conhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 8.1.2 σ2 desconhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 8.2 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 A Notac¸a˜o de Somato´rio 103 A.1 Definic¸o˜es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 A.2 Somato´rio duplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 A.3 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 B Respostas de alguns exerc´ıcios selecionados 108 C Tabelas e formula´rios 115 3 1 Ana´lise Explorato´ria de dados 1.1 Introduc¸a˜o A Estat´ıstica e´ a parte da cieˆncia que tem por objetivo • a coleta, reduc¸a˜o, ana´lise e modelagem de dados “parciais” (amostra); • fazer infereˆncias para o conjunto total de dados (populac¸a˜o). Os dados podem ser obtidos por observac¸a˜o: quando o pesquisador na˜o pode controlar as caracter´ısticas de interesse; experimentos: quando o pesquisador controla parcialmente as caracter´ısticas de interesse. Exemplo 1.1 Suponha que se deseja estudar a relac¸a˜o entre os gastos de consumo e a renda de um determinado grupo de indiv´ıduos. Uma pesquisa pode constar da escolha, por sorteio, de alguns indiv´ıduos do grupo e da coleta das informac¸o˜es sobre as caracter´ısticas de interesse nestes indiv´ıduos. Exemplo 1.2 Deseja-se comparar duas variedades de cana de ac¸u´car, com respeito a um tipo de adubac¸a˜o. Sa˜o escolhidos dois n´ıveis de adubo (“ausente”, “presente”, por exemplo) e algumas mudas de cada uma das variedades sa˜o plantadas sob cada um destes n´ıveis. No primeiro exemplo, o pesquisador apenas observa as caracter´ısticas de interesse nos indiv´ıduos sorteados, e no segundo exemplo, ele controla uma das caracter´ısticas: o n´ıvel de adubo utilizado no experimento. Em ambos os casos, os dados esta˜o sujeitos a variac¸o˜es do “acaso”, ou seja, podem ser afetados por condic¸o˜es qua na˜o podem ser controladas ou observadas. Por meio de uma ana´lise de dados, busca-se uma forma de regularidade ou padra˜o, ou modelo, presente nas observac¸o˜es. Dados = modelo + res´ıduos (D=M+R) Os res´ıduos (ou erros) sa˜o a diferenc¸a entre as observac¸o˜es e o modelo proposto. A Ana´lise Explorato´ria de Dados ( EDA ) e´ um conjunto de te´cnicas que busca estabele- cer a melhor relac¸a˜o D=M+R para um particular conjunto de dados. Algumas definic¸o˜es importantes: 1. varia´vel: e´ uma caracter´ıstica qualquer do objeto em estudo. Pode ser classificada como • varia´vel qualitativa quando apresenta como poss´ıveis realizac¸o˜es uma qualidade ou atributo do objeto em estudo; 4 • varia´vel quantitativa - quando apresenta como poss´ıveis realizac¸o˜es, nu´meros resultantes de uma contagem ou mensurac¸a˜o. As varia´veis qualitativas podem ainda ser divididas em: varia´veis qualitativas nominais, se na˜o existe nenhuma ordem em suas poss´ıveis realizac¸o˜es ou varia´veis qualitativas ordinais, se existir umaordem em suas poss´ıveis realizac¸o˜es. As varia´veis quantitativas podem ainda ser divididas em: varia´veis quantitativas dis- cretas, se seus poss´ıveis valores formam um conjunto finito ou enumera´vel ou varia´veis quantitativas cont´ınuas, se seus poss´ıveis valores formam um intervalo ou unia˜o de intervalos de nu´meros reais. Esquematicamente, podemos representar a divisa˜o das varia´veis por NOMINAL QUALITATIVA ↗ ORDINAL VARIA´VEL ↘ DISCRETA QUANTITATIVA CONTI´NUA 2. populac¸a˜o: e´ um conjunto de indiv´ıduos (ou objetos) tendo pelo menos uma varia´vel comum observa´vel e que e´ alvo do estudo. 3. amostra: e´ qualquer subconjunto da populac¸a˜o. Exemplo 1.3 Na Tabela 1.1, apresentamos os resultados fornecidos por 50 alunos da disci- plina Estat´ıstica Ba´sica, turmas T01 e T02, do segundo semestre de 1999. As varia´veis TV e Ex.Fis correspondem ao nu´mero me´dio de horas gastas por semana assistindo TV e pra- ticando exerc´ıcios f´ısicos, respectivamente. A varia´vel OpTV e´ a opinia˜o sobre a qualidade da programac¸a˜o da TV (B: Boa, M: Me´dia, R: Ruim e N: Na˜o sabe). A varia´vel Ativ. e´ o n´ıvel de atividade f´ısica, constru´ıda da seguinte maneira: sedenta´rio: se o estudante pratica no ma´ximo 2 horas de exerc´ıcios f´ısicos semanais; me´dio: se pratica mais de 2 e menos de 6 horas semanais e ativo: se pratica 6 ou mais horas semanais. Classifique cada uma destas varia´veis. 1.2 Apresentac¸a˜o dos dados Distribuic¸a˜o de Frequ¨eˆncias: Ao estudar uma varia´vel, o principal interesse do pesquisador e´, em geral, conhecer a distribuic¸a˜o desta varia´vel atrave´s dos seus valores. Podemos repre- sentar a distribuic¸a˜o dos valores de uma varia´vel utilizando uma tabela de frequ¨eˆncias da forma: 5 Tabela 1.1 Aluno Sexo Idade Altura Peso Fumante? TV OpTV Ex.F. Ativ. No irma˜os Religia˜o 1 M 20 1,75 68,0 N 10 M 2 S 1 Cato´lica 2 F 18 1,65 53,5 N 5 R 5 M 1 Outra 3 F 20 1,65 51,0 N 3 R 5 M 3 Evange´lica 4 F 21 1,70 68,0 N 3 R 2 S 0 Cato´lica 5 F 19 1,75 87,0 N 20 B 5 M 2 Cato´lica 6 F 18 1,65 51,0 N 3 R 2 S 0 Evange´lica 7 M 17 1,70 64,0 N 4 R 6 A 1 Evange´lica 8 M 21 1,74 63,5 N 0 N 0 S 5 Nenhuma 9 M 19 1,64 54,3 N 18 B 2 S 0 Cato´lica 10 M 20 1,79 77,0 N 14 B 3 M 0 Nenhuma 11 M 18 1,70 53,0 N 2 R 3 M 2 Evange´lica 12 M 21 1,76 69,0 N 2 R 1 S 0 Cato´lica 13 M 18 1,73 66,0 N 6 M 4 M 4 Cato´lica 14 F 20 1,62 56,0 N 3 R 0 S 2 Cato´lica 15 M 20 1,73 65,0 N 2 R 0 S 8 Cato´lica 16 F 20 1,74 58,0 N 9 M 2 S 1 Cato´lica 17 F 19 1,65 67,0 N 4 R 0 S 1 Evange´lica 18 M 18 1,85 80,0 N 3 R 0 S 1 Cato´lica 19 M 21 1,77 66,0 N 2 R 0 S 2 Cato´lica 20 M 20 1,67 64,0 N 1 R 10 A 1 Nenhuma 21 F 20 1,65 59,0 N 8 M 2 S 1 Cato´lica 22 M 20 1,66 56,0 N 3 R 0 S 3 Outra 23 F 19 1,60 52,0 N 6 M 2 S 2 Cato´lica 24 F 19 1,60 45,0 N 15 B 2 S 1 Cato´lica 25 M 19 1,83 70,0 N - - 2 S 1 Nenhuma 26 M 19 1,70 70,0 N 23 B 6 A 0 Cato´lica 27 F 23 1,58 58,0 N 2 R 2,5 M 2 Nenhuma 28 M 21 1,87 76,0 N 22 B 2 S 1 Outra 29 F 21 1,58 51,0 N 20 M 2 S 4 Cato´lica 30 M 26 1,82 75,0 N 5 B 3 M 4 Outra 31 F 29 1,60 52,0 N 20 R 0 S 2 Nenhuma 32 M 23 1,82 72,0 N 5 B 2 S 0 Cato´lica 33 M 20 1,83 85,0 N 14 B 2 S 3 Cato´lica 34 M 50 1,68 71,0 N 15 B 5 M 3 Cato´lica 35 M 23 1,77 82,5 N 15 B 2 S 2 Cato´lica 36 F 21 1,69 53,0 N 10 M 2 S 1 Cato´lica 37 M 20 1,83 - N 6 N 2 S 1 Cato´lica 38 M 20 1,76 74,0 N 0 N 6 A 4 Nenhuma 39 M 23 1,81 85,0 N 1 R 0 S 1 Evange´lica 40 F 20 1,63 57,5 N 2 B 0 S 2 Nenhuma 41 M 32 1,85 87,5 S 15 R 2 S 1 Nenhuma 42 M 20 1,70 60,0 S 3 B 3 M 3 Nenhuma 43 F 19 1,70 78,0 N 14 R 4 M 0 Evange´lica 44 M 20 1,82 80,0 N 1 R 1 S 2 Outra 45 M 19 1,82 55,0 N 20 B 0 S 2 Cato´lica 6 Tabela 1.2 Tabela de frequ¨eˆncias Varia´vel Frequ¨eˆncia (ni) Proporc¸a˜o (fi) Porcentagem (%) n´ıvel 1 n1 f1 100 × f1 n´ıvel 2 n2 f2 100 × f2 ... ... ... ... n´ıvel k nk fk 100 × fk Total n = n1 + n2 + . . .+ nk 1 = f1 + . . .+ fk 100 em que • n e´ o nu´mero total de observac¸o˜es do conjunto; • k e´ o nu´mero de n´ıveis da varia´vel em questa˜o; • i e´ o ı´ndice que indica o n´ıvel da varia´vel; • ni e´ o nu´mero de observac¸o˜es para o n´ıvel i da varia´vel; • fi = ni/n e´ a proporc¸a˜o de casos no n´ıvel i da varia´vel. Exemplo 1.4 Representar as varia´veis “Religia˜o” e “Nı´vel de atividade f´ısica” em tabelas de frequ¨eˆncia. Tabela 1.3 Distribuic¸a˜o de frequ¨eˆncias: “Religia˜o ” . Religia˜o frequ¨eˆncia (ni) proporc¸a˜o(fi) % Cato´lica 23 0,51 51% Evange´lica 7 0,16 16% Nenhuma 10 0,22 22% Outras 5 0,11 11% Total 45 1.00 100% Tabela 1.4 Distribuic¸a˜o de frequ¨eˆncias:“Nı´vel de atividade f´ısica”. Atividade frequ¨eˆncia (ni) proporc¸a˜o (fi) % Ativo 4 0.09 9% Me´dio 11 0.24 24% Sedenta´rio 30 0.67 67% Total 45 1.00 100% Exemplo 1.5 Representar as varia´veis “Nı´vel de atividade f´ısica” e “Sexo” em uma mesma tabela de frequ¨eˆncias (Distribuic¸a˜o Conjunta). 7 Tabela 1.5 Distribuic¸a˜o conjunta: Nı´vel de atividade f´ısica por Sexo Sexo Atividade Feminino Masculino Total Ativo 0 4 4 Me´dio 5 6 11 Sedenta´rio 12 18 30 Total 17 28 45 Exemplo 1.6 Representar a varia´vel “Peso” utilizando uma tabela de frequ¨eˆncias. Neste caso, vamos criar um artif´ıcio para representar esta varia´vel em uma tabela de frequ¨eˆncias. Os n´ıveis das varia´veis sera˜o representados por intervalos de classe. Vejamos: Tabela 1.6 Distribuic¸a˜o de frequ¨eˆncias: “Peso (kg)” Classe xi ni fi % 45 ` 55 50 10 0.23 23% 55 ` 60 57,5 7 0.16 16% 60 ` 70 65 11 0.25 25% 70 ` 80 75 9 0.20 20% 80 ` 90 85 7 0.16 16% Total – 44 1 100% em que • xi e´ o ponto me´dio do intervalo ( representa agora o valor da varia´vel naquele intervalo); • ni e´ a frequ¨eˆncia de cada classe. Note que um dos alunos na˜o informou o peso e utilizamos o total de 44 alunos para obter a frequ¨eˆncia relativa. 1.3 Gra´ficos Uma outra forma de se apresentar os dados e´ por meio da utilizac¸a˜o de Gra´ficos. 1.3.1 Representac¸a˜o gra´fica das varia´veis qualitativas Existem va´rios tipos de gra´ficos que podem ser utilizados para representar as varia´veis qual- itativas. Para construir estes gra´ficos, consideraremos as frequ¨eˆncias com que os n´ıveis das varia´veis aparecem em um conjunto de dados. 8 Gra´fico de Barras E´ um dos gra´ficos mais utilizados para representar varia´veis qualitativas. Algumas ob- servac¸o˜es devem ser feitas sobre este gra´fico. 1. O gra´fico tem apenas uma escala, a que representa a frequ¨eˆncia ou porcentagem em cada n´ıvel da varia´vel; 2. A largura da barra utilizada na˜o tem nenhum significado especial ale´m do apelo visual; 3. Para facilitar a compreensa˜o e ana´lise, e´ prefer´ıvel que as barras sejam apresentadas segundo uma ordem sistema´tica. O crite´rio mais utilizado e´ ordena´-las por sua mag- nitude; 4. As barras devem ser colocadas, de prefereˆncia, no sentido horizontal pois desta forma o nome dos n´ıveis da varia´vel podem ser melhor visualizados. 5. E´ prefer´ıvel utilizar frequ¨eˆncias quando estivermos representando subdiviso˜es dos n´ıveis das varia´veis. 6. Para representar a participac¸a˜o em porcentagem de cada subn´ıvel de uma varia´vel, e´ recomenda´vel a utilizac¸a˜o de barras representando 100% das observac¸o˜es em cada n´ıvel. Exemplo 1.7 Fazer um gra´fico de Barras para a varia´vel “Religia˜o ” cujos valores encontram- se na Tabela 1.3. Exemplo 1.8 Representar graficamente a tabela conjunta das varia´veis “Nı´vel de atividade f´ısica” e “Sexo”(Tabela 1.5). Fazer em sala de aula. 9 Gra´fico de Setores E´ tambe´m um gra´fico bastante utilizado para representar varia´veis qualitativas. E´ muitas vezes chamado de Gra´fico de Torta ou Gra´fico de pizza. Neste gra´fico, um c´ırculo representa 100% das observac¸o˜es e cada n´ıvel da varia´vel e´ representado por um setorde a´rea propor- cional a` frequ¨eˆncia observada. Algumas observac¸o˜es podem ser feitas a respeito da construc¸a˜o do gra´fico. 1. Na˜o e´ um gra´fico recomendado quando se quer representar subdiviso˜es dos n´ıveis da varia´vel; 2. Na˜o e´ recomendado quando o nu´mero de n´ıveis da varia´vel e´ muito grande. Exemplo 1.9 Em recente pesquisa em uma pequena comunidade do interior de Minas Gerais, foram ouvidos 600 homens e 400 mulheres sobre o consumo de a´lcool. Entre os entrevistados, cerca de 400 homens consumiam bebidas alco´olicas sendo que 80% destes be- biam regularmente e o restante apenas eventualmente. Entre as mulheres, embora a maioria (70%) consumissem bebidas alco´olicas apenas 120 o faziam regularmente. Representar estas informac¸o˜es em uma tabela de frequ¨eˆncias e depois coloca´-las em um gra´fico de colunas (Figura 1) e em um gra´fico de setores (Figura 2). Tabela 1.7 “Consumo de bebidas: Exemplo 1.9” Sexo Na˜o bebe Bebe eventualmente Bebe regularmente Total Masculino 200 80 320 600 Feminino 120 160 120 400 Total 320 240 440 1000 1.3.2 Representac¸a˜o gra´fica das varia´veis quantitativas Gra´fico de linhas E´ o mais comum dos gra´ficos e um dos mais simples, representando os n´ıveis das varia´veis em coordenadas retangulares. Observac¸a˜o sobre a construc¸a˜o do gra´fico: • E´ um gra´fico particularmente u´til para representar se´ries de tempo. O tempo e´ repre- sentado no eixo X e a se´rie no eixo Y . • E´ comum representar-se mais de uma se´rie no mesmo gra´fico. Exemplo 1.10 Fac¸a um gra´fico de linhas representando as se´ries abaixo. Mes Jan Fev Mar Abr Mai Jun Jul INPC 28.8 24.8 27.5 28.3 26.8 30.3 31.0 IRSM 27.9 25.8 26.8 28.2 28.4 30.5 29.2 10 Figura 1: Gra´fico de setores: Exemplo 1.9 Figura 2: Gra´fico de barras: Exemplo 1.9 11 Figura 3: Gra´fico de linhas: Exemplo 1.10 Figura 4: Gra´fico de colunas: Exemplo 1.10 Gra´fico de colunas Neste gra´fico, os n´ıveis das varia´veis sa˜o tambe´m representados por barras, so´ que verti- cais. E´, em geral, utilizado para representar se´ries de tempo. Observac¸o˜es sobre a construc¸a˜o do gra´fico: 1. As duas escalas esta˜o presentes, no eixo X representamos o tempo e no eixo Y os n´ıveis da varia´vel; 2. Pode ser utilizado para representar mais de uma se´rie. Neste caso as colunas aparecem juntas. Exemplo 1.11 Vamos representar os dados da tabela anterior por um gra´fico de colunas. 12 1.3.3 Gra´ficos especiais O histograma O histograma e´ um gra´fico que representa nu´meros pela a´rea e na˜o pela altura. E´ utilizado, em geral, para representar distribuic¸o˜es de varia´veis cont´ınuas quando os dados esta˜o agrupados em classes de frequ¨eˆncia. Embora tenha a apareˆncia de um gra´fico de colunas, na˜o deve ser confundido com ele. Podemos construir histogramas de frequ¨eˆncias, de proporc¸a˜o ou de porcentagem. A distribuic¸a˜o nas diversas classes e´ representada por blocos constru´ıdos da seguinte forma, • a base do bloco e´ o comprimento do intervalo de classe; • a altura do bloco e´ a densidade, de frequ¨eˆncia, de proporc¸a˜o ou de porcentagem, na classe. A densidade na classe i e´ definida por di = ni 4i , no caso de frequ¨eˆncias, di = fi 4i , no caso de proporc¸a˜o, di = 100 × fi 4i , no caso de porcentagem, em que 4i representa o comprimento do intervalo da i-e´sima classe. Observac¸o˜es: • A a´rea do bloco obtido e´ a quantidade representada naquela classe. • A a´rea total do histograma representa 100% das observac¸o˜es. Logo, a a´rea total de um histograma de frequ¨eˆncias e´ igual a n, a de um histograma de proporc¸a˜o e´ igual a 1 e a de um histograma de porcentagem e´ igual a 100%. • A a´rea entre dois valores quaisquer fornece uma aproximac¸a˜o para a frequ¨eˆncia (ou proporc¸a˜o ou porcentagem) no intervalo limitado por eles. • O nu´mero de intervalos de classes e sua amplitude sa˜o arbitra´rios e dependem do conjunto de dados em questa˜o. E´ comum, no entanto, encontrar a seguinte fo´rmula para o nu´mero ideal de classes, K: K = 1 + log2 n ( Fo´rmula de Sturges). Uma vez determinado o valor de K, divide-se a amplitude total pelo nu´mero K, para obter o comprimento dos intervalos das classes. Observe que neste caso, obtemos todas as classes com a mesma amplitude, o que nem sempre e´ conveniente. 13 Pol´ıgono de Frequ¨eˆncias O pol´ıgono de frequ¨eˆncias e´ constru´ıdo de forma semelhante a do histograma. Une-se o ponto me´dio das classes na altura determinada pela densidade. Para fechar o pol´ıgono unimos os extremos da figura com o eixo das abcissas, nos quais estariam os pontos me´dios de uma classe imediatamente anterior e outra imediatamente posterior. Embora a a´rea total abaixo do pol´ıgono de frequ¨eˆncias tambe´m seja igual a 100% das observac¸o˜es, na˜o podemos aproximar a frequ¨eˆncia entre dois pontos pela a´rea delimitada por eles. Histograma Alisado Se houvesse um nu´mero suficientemente grande de observac¸o˜es poder-se-ia ir diminuindo os intervalos de classe e o histograma iria ficando cada vez menos irregular ate atingir um caso limite, com uma curva bem mais suave. Esta curva e´ chamada de histograma alisado. Ogiva E´ o gra´fico representativo de uma distribuic¸a˜o acumulada de frequ¨eˆncias e consta de uma poligonal ascendente. No eixo horizontal colocam-se as extremidades de classe e no eixo vertical, as frequ¨eˆncias acumuladas (ou proporc¸a˜o acumulada, ou porcentagem acumulada). Ramo e folhas A forma de uma distribuic¸a˜o e´ uma caracter´ıstica importante de um conjunto de dados. Um procedimento alternativo para resumir um conjunto de dados, com o objetivo de se ter uma ide´ia da forma da distribuic¸a˜o e´ o ramo-e-folhas. Uma vantagem do ramo-e-folhas sobre o histograma e´ que na˜o perdemos informac¸o˜es sobre os dados. Observac¸o˜es sobre a construc¸a˜o de um ramo-e-folhas 1. Na˜o existe regra fixa para a construc¸a˜o de um ramo-e-folhas. A ide´ia ba´sica e´ dividir cada observac¸a˜o em duas partes: a 1a, o ramo, e´ colocada a` esquerda de uma linha vertical; a 2a, a folha, e´ colocada a` direita desta linha. 2. Todos os ramos devem ter o mesmo comprimento. 3. Se ao fazer uma escolha de ramos obtivermos ramos muito carregados, podemos fazer uma sub-divisa˜o neles. 1.4 Exerc´ıcios 1.1 As a´reas dos va´rios continentes do mundo, em milho˜es de quiloˆmetros quadrados, esta˜o apresentadas na tabela abaixo: 14 Continente A´rea A´frica 30,3 A´sia 26,9 Europa 4,9 Ame´rica do Norte 24,3 Oceania 8,5 Ame´rica do Sul 17,9 URSS 20,5 TOTAL 133,3 Represente graficamente os dados. 1.2 A tabela seguinte mostra a populac¸a˜o estimada, rural e urbana, para o Brasil, em milho˜es de pessoas, de acordo com a Fundac¸a˜o IBGE Ano 1972 1973 1974 1975 1976 1977 1978 1979 Populac¸a˜o urbana 56,6 59,0 61,5 64,1 66,7 69,5 72,3 75,2 Populac¸a˜o rural 42,1 12,4 42,7 43,1 43,4 43,8 44,1 44,5 Construa um gra´fico que mostre a porcentagem das pessoas que sa˜o, a) residentes da zona urbana; b) residentes da zona rural. 1.3 A tabela seguinte mostra as a´reas, em milho˜es de quiloˆmetros quadrados, dos oceanos. Represente graficamente os dados, utilizando a) um gra´fico de barras; b) um gra´fico de setores. Oceano Pac´ıfico Atlaˆntico I´ndico Anta´rtico A´rtico A´rea 183,4 106,7 73,8 19,7 12,4 1.4 Os conjuntos de dados 1, 2, 3 e 4 (Sec¸a˜o 1.5: apeˆndice no final desta sec¸a˜o) referem-se a` idade de ingresso na Universidade X e altura de estudantes segundo o sexo. Para cada um deles: a) Construa um Ramo-e-folhas. b) Com base no Ramo-e-folhas, construa o histograma, escolhendo apropriadamente os intervalos de classe. 1.5 Com base nos histogramas dos grupos 1 a 4, obtenha para cada um dos n´ıveis da varia´vel sexo:15 a) a porcentagem de estudantes com menos de 18 anos; b) a porcentagem de estudantes com no mı´nimo 19 anos; c) a altura abaixo da qual se encontra 90% dos estudantes; d) a altura mı´nima dos 20% dos alunos mais altos. 1.6 Com base nos Ramo-e-folhas, responda as mesmas perguntas da questa˜o 2 e compare as respostas. 1.7 E´ poss´ıvel afirmar, com base nos gra´ficos, que existe diferenc¸a entre as distribuic¸o˜es de alturas dos estudantes com relac¸a˜o ao sexo? E entre as distribuic¸o˜es de idades de ingresso na Universidade X? 1.8 Os dados do conjunto 5 (Sec¸a˜o 1.5) referem-se a` populac¸o˜es de alguns munic´ıpios do estado Y. a) Construa um ramo-e-folhas e um histograma para este conjunto. b) Comente sobre as principais caracter´ısticas da distribuic¸a˜o. 1.9 Os dados dos conjuntos 6 e 7 (Sec¸a˜o 1.5) referem-se aos tempos de vida de lotes de laˆmpadas de duas companhias concorrentes A e B. a) Construa um ramo-e-folhas para cada um dos conjuntos. b) Comente sobre as principais diferenc¸as entre as distribuic¸o˜es. c) Voceˆ seria capaz de se decidir por uma das companhias, caso tivesse que adquirir um lote de laˆmpadas? Por queˆ? 1.10 Os dados dos conjuntos 8 e 9 (Sec¸a˜o 1.5) referem-se ao ganho de peso de alguns animais que foram alimentados com as rac¸o˜es A e B, por um determinado tempo. a) Construa um ramo-e-folhas para cada um dos conjuntos. b) Comente sobre as principais diferenc¸as entre as distribuic¸o˜es. c) Voceˆ seria capaz de se decidir por uma das rac¸o˜es, caso fosse chamado a opinar sobre o assunto? 1.11 O histograma abaixo representa a distribuic¸a˜o dos frangos de uma determinada granja em relac¸a˜o ao peso: 16 Queremos dividir os frangos em quatro categorias com relac¸a˜o ao peso, de modo que: Os 20% mais leves sejam da categoria D; Os 25% seguintes sejam da categoria C; Os 25% seguintes sejam da categoria B; Os 30% seguintes sejam da categoria A. Quais os limites de peso entre as categorias A, B, C e D? 1.12 Em uma pesquisa em uma pequena comunidade dos Estados Unidos, foram observadas as seguintes distribuic¸o˜es: a) altura dos adultos casados; b) altura de todos os membros de famı´lias cujos pais tem idade inferior a 30 anos; c) altura de todos os membros da comunidade; d) altura de todos os automo´veis da cidade. Cada um dos histogramas abaixo refere-se a uma das distribuic¸o˜es acima. Associe cada um deles a` distribuic¸a˜o que ele melhor representa. 17 1.5 Conjuntos de dados CONJUNTO 1: Idade (anos completos) - Sexo Feminino. 27 22 19 18 21 17 19 20 16 18 18 18 18 20 22 18 19 18 19 19 20 19 20 20 18 21 18 20 22 19 19 22 23 18 29 19 17 20 19 18 18 20 19 20 18 24 18 19 21 24 CONJUNTO 2: Altura (cm) - Sexo Feminino 167 168 155 174 161 160 153 163 168 155 169 162 166 159 165 154 160 160 163 169 171 160 164 154 160 157 163 160 169 163 158 170 156 164 162 164 161 172 160 168 158 166 161 161 165 164 155 168 161 151 CONJUNTO 3: Idade (anos completos) - Sexo Masculino. 17 19 19 21 18 17 18 21 17 17 20 18 16 18 17 18 20 19 19 17 18 17 22 17 26 17 32 22 17 17 19 17 26 18 20 18 20 17 16 19 17 18 20 24 17 21 17 17 17 17 22 21 19 17 20 17 20 20 17 18 17 20 17 18 17 20 21 17 20 17 21 17 17 18 19 CONJUNTO 2: Altura (cm) - Sexo Masculino. 171 172 166 167 177 158 175 169 178 176 170 163 175 173 179 171 167 172 170 171 167 172 161 174 179 163 177 177 170 174 165 173 167 169 180 183 172 158 173 172 177 173 174 167 165 175 170 174 186 169 165 174 170 175 173 161 178 180 172 170 173 176 172 172 168 176 175 157 157 175 158 179 166 166 167 CONJUNTO 5: Populac¸a˜o - Munic´ıpios do Estado do Rio de Janeiro. 42886 50910 9034 32096 33025 35136 42530 30648 29864 21156 32411 31471 40392 46580 39257 29547 29942 32997 60666 35823 37527 240484 43620 39402 42215 317483 25772 39302 51822 48413 36772 35930 35230 40299 48245 29436 29650 54858 52619 40055 29089 27389 41352 42624 46355 61400 31121 34663 33037 38945 46253 36228 36348 53659 55199 41738 39426 32494 31818 34208 34807 40069 49530 49467 43308 33088 21762 31027 27647 33629 18 CONJUNTO 6: Durac¸a˜o das laˆmpadas - Companhia A 783 1361 2385 159 1614 497 1334 3694 672 2254 1415 1035 1372 109 1895 1526 2569 1005 937 2873 646 1358 1806 785 1810 1091 1563 3178 1341 173 927 881 1471 191 1066 1976 1237 2082 4096 4171 1274 4240 11922 2266 2686 912 3025 1228 832 1617 CONJUNTO 7: Durac¸a˜o das laˆmpadas - Companhia B. 3832 743 1616 4002 5606 722 4203 2069 3790 1819 613 310 4449 2711 2398 2445 3767 5290 1963 2085 586 972 1503 4046 2426 3705 204 1308 11848 1315 2518 626 3036 1811 4060 1392 3684 5810 2323 2221 622 3595 1745 1825 1215 2556 3653 1567 3006 1964 CONJUNTO 8: Ganho de Peso (kg) - Rac¸a˜o A. 26 30 65 43 27 28 31 28 30 33 60 34 26 32 34 35 29 27 29 34 27 31 66 44 28 29 32 29 31 34 61 35 27 33 35 36 30 28 30 35 CONJUNTO 8: Ganho de Peso (kg) - Rac¸a˜o B. 26 4 35 38 43 43 41 36 9 40 37 42 34 42 39 39 35 35 41 40 25 3 34 37 42 42 40 35 8 39 36 41 33 41 38 38 34 34 40 39 19 2 Medidas Associadas a Varia´veis Quantitativas 2.1 Medidas de Posic¸a˜o A reduc¸a˜o dos dados provenientes da observac¸a˜o de uma varia´vel quantitativa por meio do ramo- e-folhas ou tabelas de frequeˆncias pode fornecer mais informac¸o˜es sobre o comportamento desta varia´vel do que a pro´pria se´rie original de dados. Nesta sec¸a˜o, apresentaremos alguns valores, as medidas de tendeˆncia central, ou medidas de posic¸a˜o, que sa˜o representativos da se´rie toda. As medidas de posic¸a˜o sa˜o quantidades que da˜o uma ide´ia da localizac¸a˜o do conjunto de valores. Moda Representada por Mo, a moda e´ definida como a realizac¸a˜o mais frequ¨ente de um conjunto de dados. Por exemplo, • Conjunto A: 1, 2, 2, 2, 3, 4, 5. A moda e´ o valor 2. • Conjunto B: 1, 2, 3, 4, 5. O conjunto na˜o tem uma moda (e´ amodal) • Conjunto C: 1, 1, 2, 2, 3, 4. O conjunto tem duas modas, os valores 1 e 2. Dizemos que o conjunto e´ bimodal Quando um conjunto apresenta mais de 2 modas, dizemos que ele e´ multimodal. Mediana Representada porMd, a mediana e´ definida como sendo a realizac¸a˜o que ocupa a posic¸a˜o central de uma se´rie de observac¸o˜es quando estas esta˜o ordenadas segundo suas grandezas (ordem crescente ou decrescente). A mediana deixa 50% da distribuic¸a˜o abaixo dela e 50% acima. Por exemplo, • Conjunto D: 10, 20, 30, 40, 50. A mediana e´ o valor que ocupa a terceira posic¸a˜o, isto e´, Md = 30. • Conjunto E: 1, 2, 3, 4, 5, 6. A mediana e´ o ponto me´dio entre os dois valores que ocupam a posic¸a˜o central, isto e´, Md = (3 + 4)/2 = 3.5. De um modo geral, se o nu´mero n de observac¸o˜es no conjunto e´ ı´mpar, enta˜o a mediana e´ o valor que ocupa a posic¸a˜o (n + 1)/2; se n e´ par, enta˜o a mediana e´ o ponto me´dio entre os valores que ocupam as posic¸o˜es n/2 e (n/2)+1. Lembre-se que e´ necessa´rio ordenar o conjunto para identificar a posic¸a˜o da mediana. Me´dia Aritme´tica Representada por Me ou por x¯, a me´dia aritme´tica e´ definida como sendo a soma de todas as observac¸o˜es dividida pelo nu´mero delas. Por exemplo, a me´dia aritme´tica do conjunto A acima e´: Me = 1+ 2 + 2 + 2 + 3 + 4 + 5 7 = 19/7 = 2, 714 20 De um modo geral, se x1, x2, x3, . . . , xn sa˜o observac¸o˜es da varia´vel X , enta˜o a me´dia aritme´tica desses valores e´ dada por: Me(X) = x1 + x2 + x3 + . . .+ xn n = ∑n i=1 xi n A Me´dia Geome´trica Se x1, x2, . . . , xn sa˜o valores positivos, podemos definir sua me´dia geome´trica, dada por Mg = n √ x1 × x2 × · · · × xn A me´dia geome´trica de um conjunto de valores e´ sempre menor ou igual a me´dia aritme´tica deste mesmo conjunto. E´ muito utilizada para encontrar taxas me´dias. Me´dia Harmoˆnica A me´dia harmoˆnica H de um conjunto de valores x1, x2, . . .xn positivos, e´ definida como sendo o inverso da me´dia aritme´ticados inversos dos valores, isto e´, H = n∑n i=1 1 xi Observac¸a˜o. As medidas vistas acima sa˜o tambe´m chamadas medidas de tendeˆncia central. A me´dia aritme´tica e´ talvez a mais utilizada entre todas elas podendo, contudo, conduzir a erros de interpretac¸a˜o quando a utilizamos como medida de posic¸a˜o central. Em muitas situac¸o˜es, a mediana e´ um valor mais adequado. 2.1.1 Outras medidas de posic¸a˜o Quantil Os quantis sa˜o quantidades que dividem a distribuic¸a˜o de valores em grupos do mesmo tamanho. Os quantis mais comuns recebem nomes especiais. Sa˜o eles: os quartis, os decis e os percentis. • Quartil Os quartis sa˜o quantis que dividem a distribuic¸a˜o em quatro partes de mesmo tamanho. Assim, o primeiro quartil (Q1) deixa um quarto das observac¸o˜es abaixo dele e treˆs quartos acima, o segundo quartil (Q2 =Md) deixa metade dos valores abaixo dele e metade acima e o terceiro quartil (Q3) deixa treˆs quartos dos valores abaixo dele e um quarto acima. Uma forma simples de encontrar os quartis e´ a seguinte: primeiramente, encontramos a mediana e separamos as observac¸o˜es em dois grupos do mesmo tamanho. Se o nu´mero de observac¸o˜es for ı´mpar, inclu´ımos a mediana nos dois grupos. Depois, encontramos a mediana do primeiro grupo, que sera´ o Q1 e a mediana do segundo grupo, que sera´ o Q3. • Decil Os decis sa˜o quantis que separam a distribuic¸a˜o de valores em 10 grupos do mesmo tamanho. 21 • Percentil - O percentil de ordem 100p de um conjunto de valores dispostos em ordem crescente e´ um valor tal que pelo menos (100p)% das observac¸o˜es sa˜o menores ou iguais a ele e pelo menos 100(1−p)% sa˜o maiores ou iguais a ele. O percentil de ordem 50% e´ a mediana. Esta definic¸a˜o pode ser formalizada como segue (100p)% das observac¸o˜es ≤ P100p, e 100(1− p)% das observac¸o˜es ≥ P100p Veja que P10 = D1, . . . , P90 = D9 e tambe´m que P25 = Q1, P50 = Q2 =Md e P75 = Q3. Exemplo 2.1 Determine os percentis de ordem 30 e 75 do seguinte conjunto: X = {34, 43, 46, 58, 63, 63, 66, 68, 71, 72, 73, 73, 75, 76, 82, 83, 86, 90, 91, 93, 95, 98, 98, 99} Temos 24 observac¸o˜es. O percentil de ordem 30 deixa 0, 3×24 = 7, 2 (ou seja, 8) observac¸o˜es abaixo dele (ele inclu´ıdo) e 0, 7× 24 = 16, 8 (ou seja, 17) acima. Encontramos: P30 = 68. O percentil de ordem 75 deixa 0, 75 × 24 = 18 observac¸o˜es abaixo dele (ele inclu´ıdo) e 0, 25 × 24 = 6 acima. Vemos enta˜o que o percentil e´ um valor entre 90 e 91. Neste caso, convenciona-se considerar o ponto me´dio entre os dois valores como o percentil procurado, o que nos da´: P75 = (90 + 91)/2 = 90.5. Observac¸o˜es • Os quantis sa˜o medidas resumo que fazem sentido quando o nu´mero de observac¸o˜es e´ grande. No exemplo 2.1 acima, queremos separar um grupo de 24 observac¸o˜es em 100 grupos do mesmo tamanho, o que na˜o resume nada, apenas ilustra o ca´lculo desta quantidade. • A definic¸a˜o de quantil para dados na˜o agrupados na˜o e´ padronizada e e´ comum encontrarmos va´rias formas distintas de obter estes valores. Uma outra forma de ca´lculo, que pode fornecer valores distintos dos quantis obtidos com a definic¸a˜o anterior para o mesmo conjunto de dados, e´ a seguinte: a posic¸a˜o k do quantil desejado no conjunto de valores e´ dada por: k = s(n + 1) r , em que r e´ o quantil desejado e s e´ a ordem do quantil. Quando k na˜o for um valor inteiro, ele pode ser aproximado para o inteiro mais pro´ximo ou enta˜o encontra-se o quantil por meio de interpolac¸a˜o linear. Enta˜o, Quantil r s Quartil 4 {1,2,3} Decil 10 {1,2,3,. . . ,9} Percentil 100 {1,2,. . . , 99 } Exemplo 2.2 Calcule Q1, Q2 e Q3 para os dados do Exemplo 2.1 pelos dois me´todos e compare os resultados. 22 Pelo primeiro me´todo, encontramos a mediana (Q2) pelo ponto me´dio dos dois valores cen- trais: (73+75)/2 = 74. Depois, as medianas das duas metades, que tambe´m tem um nu´mero par de observac¸o˜es. Enta˜o, Q1 = (63 + 66)/2 = 64.5 e Q3 = (90 + 91)/2 = 90, 5. Note que Q3 coincidiu com o percentil de ordem 75 do exemplo anterior. Pelo segundo me´todo, localizamos a posic¸a˜o do primeiro quartil = 1 × (24 + 1)/4 = 6, 25 e aproximamos para o inteiro mais pro´ximo, 6. Logo, o primeiro quartil e´ a observac¸a˜o de ordem 6, que e´ 63. A posic¸a˜o do terceiro quartil e´ 3× (24 + 1)/4 = 18, 75, que aproximamos para 19. Logo, o terceiro quartil e´ dado por 91. A posic¸a˜o da mediana e´ dada por 2×25/4 = 12, 5 e encontramos a mediana pelo ponto me´dio das observac¸o˜es de posic¸a˜o 12 e 13. 2.1.2 Medidas de posic¸a˜o para dados agrupados Distribuic¸o˜es de Frequ¨eˆncias Imagine agora que os dados para os quais desejamos encontrar as medidas de posic¸a˜o estejam colocados na forma de uma tabela de frequ¨eˆncias, como segue, i xi ni fi fi acumulada 1 x1 n1 f1 f1 2 x2 n2 f2 f1 + f2 ... k xk nk fk f1 + f2 + · · ·+ fk = 1 Total n 1 – Todas as medidas de posic¸a˜o tem a mesma definic¸a˜o do caso de dados na˜o agrupados. A moda e a mediana sa˜o calculadas da mesma forma, isto e´, Moda: e´ o valor de xi que corresponde ao maior valor de ni ou o maior valor de fi. Mediana: e´ o primeiro valor com frequ¨eˆncia relativa acumulada maior ou igual a 50%. No caso da me´dia aritme´tica, podemos usar a informac¸a˜o da tabela para simplificar os ca´lculos. O exemplo a seguir ilustra a situac¸a˜o. Considere o seguinte conjunto de valores: Conjunto F: 1, 2, 2, 2, 3, 3, 3, 3, 4, 4. Observe que o 2 aparece 3 vezes, o valor 3 aparece 4 vezes e o valor 4 aparece 2 vezes no conjunto. A me´dia aritme´tica e´, Me = 1+ 2 + 2 + 2 + 3 + 3 + 3 + 3+ 4 + 4 10 = 1 + 3× 2 + 4× 3 + 2× 4 10 = 27 10 = 2, 7. (1) Os dados do conjunto F poderiam estar resumidos na seguinte tabela i xi ni fi fi acumulada xifi 1 1 1 0, 1 0, 1 0,1 2 2 3 0, 3 0, 4 0,6 3 3 4 0,4 0,8 1,2 4 4 2 0,2 1,0 0,8 Total n 1 – 2,7 23 A u´ltima coluna foi inclu´ıda para mostrar como a conta (1) poderia ter sido feita. De um modo geral, temos que a me´dia aritme´tica para um conjunto de dados agrupados em uma tabela de frequ¨eˆncias e´, Me = x¯ = ∑k i=1 xini n = k∑ i=1 xifi. 2.1.3 Distribuic¸a˜o em intervalos de classes Ao contra´rio da distribuic¸a˜o simples de frequ¨eˆncias, quando as observac¸o˜es esta˜o agrupadas em intervalos de classes, na˜o se pode recuperar toda a informac¸a˜o do conjunto original. Desta forma, as medidas de posic¸a˜o calculadas a partir destas distribuic¸o˜es sa˜o apenas aproximac¸o˜es para as medidas do conjunto original. Considere a seguinte distribuic¸a˜o, Classe xi ni fi fi acumulada l1 ` L1 x1 n1 f1 f1 l2 ` L2 x2 n2 f2 f1 + f2 ... lk ` Lk xk nk fk f1 + f2 + · · ·+ fk = 1 Total n 1 – em que li e Li denotam os limites inferior e superior da classe i, respectivamente (em geral, li+1 = Li); xi e´ o ponto me´dio do intervalo da i-e´sima classe, isto e´, xi = li + Li 2 . O s´ımbolo ` indica que o limite inferior esta´ inclu´ıdo na classe e o limite superior na˜o. A moda e a me´dia sa˜o calculadas exatamente como na distribuic¸a˜o simples de frequ¨eˆncia. No caso da me´dia, Me = ∑k i=1 xini n = k∑ i=1 xifi. Para encontrar a mediana podemos utilizar o histograma, que fornece uma melhor aproxi- mac¸a˜o neste caso. Isto e´, a mediana e´ a observac¸a˜o que deixa abaixo dela uma a´rea correspondente a 50% da a´rea total do histograma. Lembre-se que a a´rea total de um histograma e´ igual a 1 se o histograma e´ de proporc¸a˜o, 100% se o histograma e´ de porcentagem ou n se for de frequ¨eˆncia. Exemplo 2.3 Vamos calcular a me´dia aritme´tica e a mediana para a seguinte distribuic¸a˜o em classes de frequ¨eˆncia. Para a mediana, vamos construir um histograma de proporc¸a˜o. Classe xi ni fi xifi fi ac. ∆i di 0 ` 3 1,5 10 0,40 0,60 0,40 3 0.133 3 ` 5 4,0 4 0,16 0,64 0,56 2 0.080 5 ` 10 7,5 5 0,20 1,50 0,76 5 0.040 10 ` 15 12,5 2 0,08 1,00 0,84 5 0.016 15 ` 25 20,0 40,16 3,20 1,00 10 0.016 Total 25 1,00 6,94 – – – 24 Enta˜o, a me´dia aritme´tica e´ x¯ = 6, 94. A classe que conte´m a mediana e´ a segunda classe, pois ela e´ a primeira cuja frequ¨eˆncia relativa acumulada ultrapassa 0,5. Histograma Para obter o valor da mediana, vamos procurar o valor na classe 3 ` 5, que limita uma a´rea igual a 0,1 entre ele e 3 (pois a classe anterior corresponde a uma a´rea igual a 0,4). Logo, (Md− 3)× 0, 08 = 0, 1⇒ Md = 0, 1 0, 08 + 3 = 4, 25 O valor 0,08 que aparece acima e´ o valor da densidade de proporc¸a˜o na classe mediana que define a altura do bloco. QuantisOs quantis podem ser calculados de forma ana´loga a` empregada para obtenc¸a˜o da mediana, bastando determinar qual a porcentagem que deve ficar abaixo do quantil desejado. 2.1.4 Propriedades das medidas de posic¸a˜o Com excec¸a˜o das me´dias harmoˆnica e geome´trica, todas as outras medidas de posic¸a˜o vistas nesta sec¸a˜o satisfazem as seguintes propriedades: 1. Se X = {a, a, . . . , a}, enta˜o as medidas de posic¸a˜o sa˜o iguais a a. 2. Se X = {x1, x2, . . . , xn} e Y = {x1 + a, x2 + a, . . ., xn + a}, enta˜o as medidas de posic¸a˜o do conjunto Y sa˜o as medidas de posic¸a˜o de X somadas com a. Enta˜o, Me(Y) = Me(X) + a, Md(Y) = Md(X) + a, Q1(Y) = Q1(X) + a, etc. Isto e´, se somamos uma constante a todos os elementos de um conjunto, suas medidas de posic¸a˜o ficam somadas da mesma constante. 25 3. Se X = {x1, x2, . . . , xn} e Y = {ax1, ax2, . . . , axn}, enta˜o as medidas de tendeˆncia central do conjunto Y sa˜o as medidas de tendeˆncia central de X, multiplicadas por a. Enta˜o, Me(Y) = aMe(X), Md(Y) = aMd(X). Se a constante a for positiva, esta propriedade e´ satisfeita tambe´m pelos quantis e teremos Q1(Y) = aQ1(X), etc. Isto e´, se multiplicamos todos os elementos de um conjunto por uma constante positiva, suas medidas de posic¸a˜o ficam multiplicadas pela mesma constante. Se a constante a for negativa, os quantis se alteram pois a posic¸a˜o dos valores no grupo se altera. Mas teremos por exemplo, Q1(Y) = aQ3(X) e Q3(Y) = aQ1(X). 4. (Consequ¨eˆncia de 2 e 3). Se X = {x1, x2, . . . , xn} e Y = {ax1 + b, ax2 + b, . . . , axn + b}, com a > 0 (veja propriedade 3), enta˜o Me(Y) = aMe(X) + b, Md(Y) = aMd(X) + b, Q1(Y) = aQ1(X) + b, etc. 2.2 Medidas de Dispersa˜o A sumarizac¸a˜o de um conjunto de dados por meio de uma u´nica medida representativa de tendeˆncia central, esconde toda a informac¸a˜o sobre a variabilidade deste conjunto. Vejamos o exemplo seguinte. Exemplo 2.4 Considere os seguintes conjuntos X= {3, 4, 5, 6, 7} X¯ = 5.0 Md = 5.0 Y= {1, 3, 5, 7, 9} Y¯ = 5.0 Md = 5.0 Z= {5, 5, 5, 5, 5} Z¯ = 5.0 Md = 5.0 W= {3, 5, 5, 7} W¯ = 5.0 Md = 5.0 V= {−20, 5, 30} V¯ = 5.0 Md = 5.0 Observe que a identificac¸a˜o de cada um desses conjuntos pela me´dia ou pela mediana nada informa sobre a variabilidade presente nos dados. Por exemplo, o conjunto V e´ bem mais disperso que o conjunto Z. Surge enta˜o a necessidade de se estabelecer uma medida que nos permita comparar a variabilidade de conjuntos de dados como os descritos acima. O princ´ıpio ba´sico de uma medida de dispersa˜o e´ o de analisar os desvios das observac¸o˜es em relac¸a˜o a` uma medida de tendeˆncia central. Embora estes desvios possam ser definidos em relac¸a˜o a` mediana, utilizamos aqui os desvios em relac¸a˜o a` me´dia aritme´tica. • Me´dia dos desvios em relac¸a˜o a` me´dia Considerando apenas a me´dia destes desvios, ter´ıamos, para qualquer conjunto de valores∑n i=1(xi − x¯) n = 0, logo, esta na˜o e´ uma boa medida. • Desvio me´dio O desvio me´dio de um conjunto de valores, que denotaremos DM , e´ a me´dia das distaˆncias dos pontos a` sua me´dia. Isto e´, DM(X) = ∑n i=1 |xi − x¯| n . 26 • Variaˆncia A variaˆncia de um conjunto de valores, que denotaremos V ar, e´ a me´dia dos quadrados dos desvios em relac¸a˜o a` me´dia (ou do quadrado das distaˆncias). Isto e´, V ar(X) = ∑n i=1(xi − x¯)2 n . Uma vantagem da variaˆncia em relac¸a˜o ao desvio me´dio e´ que sua fo´rmula pode ser simplifi- cada, facilitando seu ca´lculo. Tem-se V ar(X) = ∑n i=1(xi − x¯)2 n = ∑n i=1 x 2 i n − x¯2. • Desvio Padra˜o O desvio padra˜o de um conjunto de dados, DP , e´ a raiz quadrada da variaˆncia. Tem a vantagem de ter a mesma unidade dos dados originais. DP (X) = √ V ar(X). • Intervalo Interquart´ılicoO intervalo interquart´ılico (ou intervalo interquartil) e´ a diferenc¸a entre o terceiro e primeiro quartis, isto e´, IQ = Q3 − Q1. • Coeficiente de Variac¸a˜o Algumas vezes e´ conveniente expressar a variabilidade de um conjunto de dados em termos relativos. Por exemplo, um desvio padra˜o de 10 pode ser insignificante se a ordem de grandeza das observac¸o˜es for 10.000 mas pode ser altamente significante se a ordem de grandeza for 50. O coeficiente de variac¸a˜o e´ definido por cv(X) = DP (X) X¯ . Como o desvio padra˜o tem a mesma unidade de medida das observac¸o˜es originais, o coeficiente de variac¸a˜o e´ adimensional, o que permite a comparac¸a˜o de diferentes conjuntos de dados. Note que o coeficiente de variac¸a˜o na˜o esta´ definido quando a me´dia das observac¸o˜es e´ zero. Exemplo 2.5 Ordene os conjuntos do Exemplo 2.4 segundo o desvio me´dio e segundo a variaˆncia Conjunto DM V ar X= {3, 4, 5, 6, 7} 1,2 2 Y= {1, 3, 5, 7, 9} 2,4 8 Z= {5, 5, 5, 5, 5} 0 0 W= {3, 5, 5, 7} 1 2 V= {−20, 5, 30} 16,67 416,67 2.2.1 Medidas de dispersa˜o para dados agrupados Quando os dados esta˜o agrupados, as definic¸o˜es das medidas de dispersa˜o na˜o mudam, mas seu ca´lculo pode ser bastante simplificado. No caso de dados agrupados em classes de frequeˆncias, os valores sera˜o aproximac¸o˜es dos verdadeiros, pois na˜o ha´ como recuperar o conjunto original. Em ambos os casos, as fo´rmulas sa˜o as mesmas. Temos: 27 • Desvio Me´dio DM(X) = ∑k i=1 |xi − x¯|ni n = k∑ i=1 |xi − x¯|fi. • Variaˆncia V ar(X) = ∑k i=1(xi − x¯)2ni n = k∑ i=1 (xi − x¯)2fi. A fo´rmula da variaˆncia tambe´m pode ser simplificada: V ar(X) = ∑k i=1 x 2 ini n − x¯2 = k∑ i=1 x2i fi − x¯2. • Desvio Padra˜o DP (X) = √ V ar(X). Como nas sec¸o˜es 2.1.2 e 2.1.3, fi denota a proporc¸a˜o da i-e´sima classe, k denota o nu´mero de classes e xi denota o i-e´simo valor no caso de distribuic¸o˜es simples de frequeˆncias ou o ponto me´dio da i-e´sima classe no caso de distribuic¸o˜es em classes de frequeˆncias. 2.2.2 Propriedades das medidas de dispersa˜o 1. Se X = {a, a, . . . , a}, enta˜o as medidas de dispersa˜o de X sa˜o todas iguais a zero (inclusive o coeficiente de variac¸a˜o se a 6= 0). 2. Somar uma constante a todos os elementos de um conjunto: X = {x1, x2, . . . , xn}, Y = {x1 + a, x2 + a, . . . , xn + a}. • Desvio me´dio: DM(Y ) = DM(X). • Variaˆncia : V ar(Y ) = V ar(X). • Desvio padra˜o: DP (Y ) = DP (X). • Intervalo Interquart´ılico: IQ(Y ) = IQ(X). Estas propriedades podem ser ditas como se segue: se deslocarmos um conjunto de dados, a sua posic¸a˜o relativa a` me´dia na˜o muda uma vez que a me´dia tambe´m se desloca. Note que o coeficiente de variac¸a˜o se altera. 3. Multiplicar todos os elementos de um conjunto por uma constante X = {x1, x2, . . . , xn}, Y = {ax1, ax2, . . . , axn}. • Desvio me´dio: DM(Y ) = |a|DM(X). • Variaˆncia : V ar(Y ) = a2V ar(X). • Desvio padra˜o: DP (Y ) = |a|DP (X). • Intervalo Interquart´ılico: IQ(Y ) = |a|IQ(X). O que acontece com o coeficiente de variac¸a˜o? 28 2.3 Outras medidas Medidas de tendeˆncia central e medidas de dispersa˜o podem na˜o ser adequadas para representar um determinado conjunto de dados pois podem ser afetadas por valores extremos e muitas vezes na˜o da˜o ide´ia da assimetria ou forma da distribuic¸a˜o dos valores. Ale´m das medidas de posic¸a˜o e das de dispersa˜o, existem tambe´m algumas medidasque se referem a` forma de uma distribuic¸a˜o. Mais especificamente, sa˜o medidas de assimetria e medidas do grau de achatamento ou curtose de uma distribuic¸a˜o. 2.3.1 Boxplot Uma forma alternativa para se representar um conjunto de dados, e´ o “boxplot” ou desenho es- quema´tico, que fornece informac¸o˜es sobre a assimetria, achatamento, dispersa˜o e posic¸a˜o dos dados ale´m de informar sobre dados discrepantes, aqueles com valor muito diferente do restante do con- junto. E´ extremamente u´til quando queremos comparar va´rias distribuic¸o˜es. Ele e´ constru´ıdo a partir do esquema de cinco nu´meros, que sa˜o • os quartis Q1, Q2 e Q3; • os extremos M (valor ma´ximo) e m (valor mı´nimo). Para construir o “boxplot”, calculamos ainda as seguintes quantidades: Li = Q1 − 32IQ e Ls = Q3 + 3 2 IQ, que definem as observac¸o˜es discrepantes. Todo ponto que for menor que Li ou maior que Ls sera´ considerado um ponto discrepante (“outlier”). Construc¸a˜o Em um eixo vertical, representamos os valores da varia´vel em questa˜o. Do lado do eixo cons- tru´ımos uma caixa da seguinte forma: a base fica na altura do primeiro quartil (Q1) e o topo da caixa fica na altura do terceiro quartil (Q3). Depois marcamos no interior da caixa uma linha na altura da mediana (Q2). Do alto da caixa segue uma linha ate´ o maior valor que na˜o seja discrepante e da base da caixa segue uma linha ate´ o menor valor que na˜o seja discrepante. Os pontos discrepantes sa˜o marcados individualmente. Exemplo 2.6 Suponha que os “boxplot” abaixo representem as distribuic¸o˜es da produc¸a˜o em toneladas por hectare, de quatro diferentes variedades de cana-de-ac¸u´car. Comente sobre as prin- cipais diferenc¸as entre estas distribuic¸o˜es. 29 Figura 5: “boxplot”: Produc¸a˜o de cana de ac¸u´car 30 2.4 Exerc´ıcios 2.1 -♠ Quer se estudar o nu´mero de erros de impressa˜o de um livro. Para isso escolheu-se uma amostra de 50 pa´ginas, encontrando-se o seguinte nu´mero de erros por pa´gina: Erros Frequeˆncia 0 25 1 20 2 3 3 1 4 1 a) Qual o nuu´mero me´dio de erros por pa´gina? b) E o nu´mero mediano? c) Qual e´ o desvio padra˜o? d) Fac¸a uma representac¸a˜o gra´fica para a distribuic¸a˜o. e) Se o livro tem 500 pa´ginas, qual o nu´mero total de erros esperado no livro? 2.2 - ♠ As taxas de juros recebidas por 10 ac¸o˜es durante um certo per´ıodo foram (medidas em porcentagem) 2, 59; 2, 64; 2, 60; 2, 57; 2, 55; 2, 61; 2, 50; 2, 63; 2, 64. Calcule a me´dia, a mediana e o desvio padra˜o. 2.3 ♠ a) Deˆ uma situac¸a˜o onde voceˆ acha que a mediana e´ uma medida mais apropriada do que a me´dia. b) Esboce um histograma onde a me´dia e a mediana coincidem. Existe alguma classe de histogramas onde isso sempre acontece? c) Esboce os histogramas de treˆs varia´veis (X, Y e Z) com a mesma me´dia aritme´tica, mas com as variaˆncias ordenadas em ordem crescente. 2.4 - ♠ Numa pesquisa realizada com 100 famı´lias levantaram-se as seguintes informac¸o˜es: Nu´mero de filhos 0 1 2 3 4 5 mais que 5 Frequeˆncia de famı´lias 17 20 28 19 7 4 5 a) Qual a mediana do nu´mero de filhos? b) E a moda? c) Que problemas voceˆ enfrentaria para calcular a me´dia neste caso ? Fac¸a alguma suposic¸a˜o e encontre-a. 31 2.5 -♠ Suponha que a varia´vel de interesse tenha a distribuic¸a˜o como na figura abaixo: Voceˆ acha que a me´dia e´ uma boa medida de posic¸a˜o? E a mediana? Justifique. 2.6 - ♠ O nu´mero de desquites na cidade, de acordo com a durac¸a˜o do casamento, esta´ represen- tado na tabela abaixo: Anos de Nu´mero de casamento desquites 0 ` 6 2800 6 ` 12 1400 12 ` 18 600 18 ` 24 150 24 ` 32 50 a) Qual a durac¸a˜o me´dia dos casamentos? E a mediana? b) Encontre a variaˆncia e o desvio padra˜o da durac¸a˜o dos casamentos. c) Construa o histograma da distribuic¸a˜o. d) Encontre o 1o e o 9o decis. e) Qual o intervalo interquartil? f) Se s representa o desvio padra˜o da distribuic¸a˜o, qual a porcentagem das observac¸o˜es com- preendidas entre x¯− 2s e x¯+ 2s? 2.7 - ♠ O Departamento de Pessoal de uma certa firma fez um levantamento dos sala´rios dos 120 funciona´rios do setor administrativo, obtendo os seguintes resultados: Faixa Salarial Frequeˆncia ( X sala´rio mı´nimo) relativa 0 ` 2 0,25 2 ` 4 0,40 4 ` 6 0,20 6 ` 10 0,15 32 a) Esboce o histograma correspondente. b) Calcule a me´dia, a variaˆncia e o desvio padra˜o. c) Calcule o 1o quartil e a mediana. d) Se for concedido um aumento de 100% para os 120 funciona´rios, havera´ alterac¸a˜o na me´dia? E na variaˆncia? Justifique sua resposta. e) Se for concedido um abono de 2 sala´rios mı´nimos para todos os 120 funciona´rios, havera´ alterac¸a˜o na me´dia? E na variaˆncia? E na mediana? Justifique sua resposta. 2.8 -♠ O que acontece com a mediana, a me´dia e o desvio padra˜o de uma se´rie de dados quando: a) cada observac¸a˜o e´ multiplicada por 2? b) soma-se 10 a cada observac¸a˜o? c) subtrai-se a me´dia geral x¯ de cada observac¸a˜o? d) de cada observac¸a˜o subtrai-se x¯ e divide-se pelo desvio padra˜o DP (X) ? 2.9 - ♠ Na companhia A, a me´dia dos sala´rios e´ 10.000 unidades e o 3o quartil e´ 5000. a) Se voceˆ se apresentasse como candidato a essa firma e se o seu sala´rio fosse escolhido ao acaso entre os poss´ıveis sala´rios, o que seria mais prova´vel: ganhar mais ou menos que 5.000 unidades? b) Suponha que na companhia B a me´dia dos sala´rios e´ 7.000 unidades e a variaˆncia e´ prati- camente zero, e la´ o seu sala´rio tambe´m seria escolhido ao acaso. Em qual companhia voceˆ se apresentaria para procurar emprego? 2.10 - ♠ Estudando-se o consumo dia´rio de leite, verificou-se que em certa regia˜o, 20% das famı´lias consomem ate´ um litro, 50% das famı´lias consomem entre 1 e 2 litros, 20% consomem entre 2 e 3 litros e o restante consome entre 3 e 5 litros. Para a varia´vel em estudo: a) Escreva as informac¸o˜es acima em uma tabela de frequeˆncias. b) Construa o histograma. c) Calcule a me´dia e a mediana. d) Calcule a variaˆncia e o desvio padra˜o. e) Qual o valor do 1o quartil? 2.11 - ♠ A distribuic¸a˜o de frequeˆncias do sala´rio anual dos moradores do bairroA que teˆm alguma forma de rendimento e´ apresentada na tabela abaixo: Faixa salarial Frequeˆncia ( × 10 sal. mı´n.) 0 ` 2 10.000 2 ` 4 3.900 4 ` 6 2.000 6 ` 8 1.100 8 ` 10 800 10 ` 12 700 12 ` 14 2.000 TOTAL 20.500 33 Dados : ∑ xi = 150.300 ∑ x2i = 4.906.500 a) Construa um histograma da distribuic¸a˜o. b) Qual a me´dia e o desvio padra˜o da varia´vel sala´rio? c) O bairro B apresenta, para a mesma varia´vel, uma me´dia de 7,2 e um desvio padra˜o de 15,1. Em qual dos bairros a populac¸a˜o e´ mais homogeˆnea quanto a` renda? d) Construa a func¸a˜o de distribuic¸a˜o acumulada e determine qual a faixa salarial dos 10% mais ricos da populac¸a˜o do bairro. e) Qual a “riqueza total” dos moradores do bairro? 2.12 - ♠ Um o´rga˜o do governo do estado esta´ interessado em determinar padro˜es sobre o investi- mento em educac¸a˜o, por habitante, realizado pelas prefeituras. De um levantamento em 10 cidades, foram obtidos os valores (codificados) da tabela abaixo: Cidade A B C D E F G H I J Investimento 20 16 14 8 19 15 14 16 19 18 Neste caso, sera´ considerado como investimento ba´sico a me´dia final das observac¸o˜es, calculada da seguinte maneira: 1- Obter uma me´dia inicial; 2- Eliminar do conjunto aquelas observac¸o˜es que forem superiores a` me´dia inicial mais duas vezes o desvio padra˜o, ou inferiores a` me´dia inicial menos duas vezes o desvio padra˜o; 3-Calcular a me´dia final com o novo conjunto de observac¸o˜es. Qual o investimento ba´sico que voceˆ daria como resposta? Observac¸a˜o: O procedimento do item 2 tem a finalidade de eliminar do conjunto a cidade cujo investimento e´ muito diferente dos demais. 2.13 ♠ Dado o histograma abaixo, calcular a me´dia, a variaˆncia, amoda, a mediana e o 1o quartil. 34 2.14 Em um experimento de competic¸a˜o de variedades de batatinhas, um pesquisador obteve as seguintes produc¸o˜es em t/ha, resultados de 18 repetic¸o˜es: Huinkul 20,1 21,1 27,0 26,4 25,4 22,3 26,1 24,0 23,2 27,0 25,2 24,6 26,5 22,5 25,8 27,1 26,2 24,1 S. Rafaela 22,6 29,9 24,2 20,6 25,1 23,5 20,2 21,0 20,5 22,1 21,3 22,1 22,6 20,7 20,3 21,5 21,0 24,1 Para cada uma das variedades: a) calcule a me´dia e o desvio padra˜o; b) construa um ramo e folhas; c) construa desenhos esquema´ticos (“box-plot”), usando a mesma escala para as duas varieda- des. d) Com base nos resultados obtidos em a), b) e c), comente as principais diferenc¸as entre as duas variedades. Voceˆ diria que uma das variedades e´ superior a outra? Porque? 2.15 A tabela abaixo fornece a distribuic¸a˜o do comprimento de espiga em trigo, variedade PUSA 12, obtidos em uma amostra de tamanho 400, por um produtor em 1998 (dados fict´ıcios): Classe (cm) ni 6 ` 9 80 9 ` 11 80 11 ` 13 200 13 ` 17 40 Total 400 a) Construa um histograma de porcentagem para a distribuic¸a˜o; b) Calcule a me´dia e o desvio padra˜o da distribuic¸a˜o; c) O trigo e´ considerado de alta qualidade se o comprimento da espiga e´ pelo menos 11,5 cm. Qual a porcentagem da amostra investigada que pode ser considerada de alta qualidade? d) O comprador usual desta produc¸a˜o quer um desconto de 50% no prec¸o do trigo de espiga muito curta (baixa qualidade). Se o produtor espera vender pelo menos 85% de sua produc¸a˜o pelo prec¸o normal, qual deve ser o limite de comprimento da espiga do trigo de baixa qualidade? 2.16 Em um experimento com cana de ac¸u´car, foram utilizados 3 n´ıveis de pota´ssio, k1, k2 e k3 e 2 n´ıveis de fostato, p1 e p2 em 2 repetic¸o˜es para cada uma das combinac¸o˜es poss´ıveis. A tabela abaixo fornece os resultados obtidos: Tabela 2: Produc¸a˜o (t/ha) Pota´ssio Fosfato k1 k2 k3 p1 30 60 55 35 55 50 p2 50 55 60 40 61 68 35 Calcule as seguintes quantidades a) a me´dia e o desvio padra˜o da produc¸a˜o de cana de ac¸u´car no experimento; b) a me´dia e o desvio padra˜o da produc¸a˜o para cada n´ıvel de fosfato; c) a me´dia e o desvio padra˜o da produc¸a˜o para cada n´ıvel de pota´ssio. 2.17 - ♠ Em uma granja foi observada a distribuic¸a˜o dos frangos com relac¸a˜o ao peso, que era a seguinte: Peso (gramas) ni 960 ` 980 60 980 ` 1.000 160 1.000 ` 1.020 280 1.020 ` 1.040 260 1.040 ` 1.060 160 1.060 ` 1.080 80 a) Qual a me´dia da distribuic¸a˜o? b) Qual a variaˆncia da distribuic¸a˜o? c) Construa o histograma. d) Queremos dividir os frangos em quatro categorias, com relac¸a˜o ao peso, de modo que: - os 20% mais leves sejam da categoria D; - os 30 % seguintes sejam da categoria C; - os 30% seguintes sejam da categoria B; -os 20% seguintes (ou seja, os 20% mais pesados) sejam da categoria A. Quais os limites de peso entre as categorias A, B, C e D? e) O granjeiro decide separar deste lote os animais com peso inferior a dois desvios padro˜es abaixo da me´dia para receberem rac¸a˜o reforc¸ada, e tambe´m separar os animais com peso superior a um e meio desvio padra˜o acima da me´dia para usa´-los como reprodutores. Qual a porcentagem de animais que sera˜o separados em cada caso? 2.18 - ♠ A idade me´dia dos candidatos a um determinado curso de aperfeic¸oamento sempre foi baixa, da ordem de 22 anos. Como este curso foi planejado para atender a todas as idades, decidiu-se fazer uma campanha de divulgac¸a˜o. Para se verificar se a campanha foi ou na˜o eficiente, fez-se um levantamento da idade dos candidatos a` ultima promoc¸a˜o, e os resultados esta˜o na tabela abaixo. Idade Frequeˆncia Porcentagem 18 ` 20 18 36 20 ` 22 12 24 22 ` 26 10 20 26 ` 30 8 26 30 ` 36 2 4 TOTAL 50 100 36 a) Baseando-se nesses resultados, voceˆ diria que a campanha produziu algum efeito (isto e´, aumentou a idade me´dia?) b) Um outro pesquisador decidiu usar a seguinte regra: se a diferenc¸a x¯ − 22 fosse maior que o valor 2DP (X)/ √ n, enta˜o a campanha surtiu efeito. Qual a conclusa˜o dele, baseado nos dados? c) Fac¸a um histograma da distribuic¸a˜o. 2.19 Um fabricante de rac¸o˜es afirma que seu produto, a rac¸a˜o A, produz resultados ta˜o bons ou ate´ melhores que os de seu concorrente, rac¸a˜o B. (Veja Exerc´ıcio 1.10) Um produtor resolveu experimentar o novo produto para verificar a veracidade da afirmac¸a˜o do fabricante e para isto utilizou o seguinte crite´rio, retirado de um manual de estat´ıstica: i) Separar alguns animais com as mesmas caracter´ısticas (peso, idade, etc...) em dois grupos de mesmo tamanho, e alimentar por um determinado tempo um dos grupos com a rac¸a˜o A e o outro com a rac¸a˜o B. ii) Apo´s o experimento, observar o ganho de peso de cada animal. iii) De posse dos dois conjuntos de dados, {x1, . . . , xn}, e {y1, . . . , yn} ,(conjuntos 8 e 9, Sec¸a˜o 1.5) calcular: t = x¯− y¯ S∗ √ 2/n , em que S2∗ = nV ar(A) + nV ar(B) 2n− 2 iv) Considerar as rac¸o˜es equivalentes se |t| < 2. ( Use quadro do Exerc´ıcio 2.20 abaixo) a) Calcule as me´dias para cada grupo (x¯ e y¯) b) Calcule as variaˆncias para cada grupo. c) Calcule a quantidade t acima. Qual foi a decisa˜o tomada pelo produtor? d) Fac¸a o ramo e folhas para cada uma das distribuic¸o˜es. e) Para cada grupo, calcule a mediana, o 1o e 3o quartis e o intervalo interquart´ılico. f) Use a mesma escala para construir os desenhos esquema´ticos para as duas distribuic¸o˜es. (“box-plot”). g) Observe os ramo e folhas e os “boxplot” e compare as duas distribuic¸o˜es. O que voceˆ acha do crite´rio utilizado pelo produtor? h) Uma pessoa, observando os dois conjuntos de dados acima, verificou que em cada um deles, quatro observac¸o˜es pareciam discrepantes do restante de seu grupo e sugeriu que o produtor refizesse a ana´lise desconsiderando estes dados. Qual foi o resultado da nova ana´lise? 2.20 Calcule a me´dia aritme´tica, a variaˆncia, o desvio padra˜o e construa um “box-plot” para cada um dos conjuntos de 1 a 7 da Sec¸a˜o 1.5. (Use os dados do quadro abaixo ) 37 CONJUNTO n ∑n i=1Xi ∑n i=1X 2 i 1 50 988 19812 2 50 8.117 1.319.095 3 75 1413 27.119 4 75 12.831 2.197.873 5 70 3.153.185 263.709.949.952 6 50 91340 322391584 7 50 131575 530232864 8 40 1382 51984 9 40 1378 51708 2.21 As Cartas Chilenas sa˜o poemas cr´ıticos ao governador das Minas Gerais, que circularam em Ouro Preto em 1787. Na˜o foram assinadas e por isso teˆm sido realizados va´rios estudos para se conhecer o autor. Em 1941, o mineiro Arlindo Chaves contou o nu´mero de palavras em cada um de 116 per´ıodos escolhidos nas Cartas, no poema Vila Rica de Cla´udio Manoel da Costa, e nas Liras, de Toma´s Antoˆnio Gonzaga, os dois inconfindentes usualmente considerados como autores. Obteve os seguintes resultados: Palavras Gonzaga Cartas Cla´udio 0 a 10 19 21 2 10 a 20 28 26 9 20 a 30 36 31 27 30 a 40 22 18 14 40 a 50 8 11 12 50 a 60 3 4 14 60 a 90 0 3 21 90 a 120 0 2 17 Total 116 116 116∑ xini 2710 3050 5980∑ x2ini 81500 121100 408300 a) Calcule o tamanho me´dio do per´ıodo em cada caso. b) Calcule a variaˆncia em cada caso. c) Construa os treˆs histogramas. d) Em sua opinia˜o, quem foi o autor das Cartas - Gonzaga ou Cla´udio? Justifique. 2.22 A ingesta˜o dia´ria me´dia per capita, em gramas, de prote´ına para 33 pa´ıses desenvolvidos e´: 81 113 108 74 79 78 90 93 105 109 106 103 100 100 100 101 101 101 95 90 90 91 92 93 87 89 78 89 85 94 94 94 79 a) Construa um ramo-e-folhas. b) Obtenha o primeiro e terceiro quartis e a mediana dos dados. c) Construa um “box-plot”. 38 2.23 Foram observadas as distribuic¸o˜es dos frangos em relac¸a˜o ao peso em duas granjas, I e II. Os valores abaixo representam, em 100 gramas, o peso mı´nimo, o 1o quartil, a mediana, o 3o Quartil e o peso ma´ximo, em cada uma das granjas. (Na˜o necessariamente nestaordem!). Use estes valores para construir desenhos esquema´ticos (“box-plot”) das distribuic¸o˜es. Comente sobre as principais diferenc¸as entre elas. I 9 11 15 17 14 II 21 11 15 14 17 39 3 Ana´lise bidimensional 3.1 Introduc¸a˜o Suponha agora que estejamos interessados em analisar o comportamento conjunto de duas varia´veis. Vimos que podemos representar a distribuic¸a˜o conjunta de duas varia´veis por meio de uma tabela de frequ¨eˆncias de dupla entrada e este sera´ um valioso instrumento para ajudar a compreensa˜o dos dados. Exemplo 3.1 Queremos analisar o comportamento conjunto das varia´veis “Sexo” (X) e “Nı´vel de atividade f´ısica” (Y ), cuja tabela de frequ¨eˆncias reproduzimos abaixo (ver Tabela 1.5). Distribuic¸a˜o conjunta: Nı´vel de atividade f´ısica por Sexo Sexo Atividade Feminino Masculino Total Ativo 0 4 4 Me´dio 5 6 11 Sedenta´rio 12 18 30 Total 17 28 45 A linha dos totais fornece a distribuic¸a˜o da varia´velX e a coluna dos totais fornece a distribuic¸a˜o da varia´vel Y . As distribuic¸o˜es assim obtidas sa˜o chamadas de distribuic¸o˜es marginais das varia´veis X e Y . Podemos ainda construir tabelas de frequ¨eˆncias relativas, como foi feito no caso unidimensional. Em uma distribuic¸a˜o conjunta, podemos expressar a proporc¸a˜o de cada casela de treˆs maneiras diferentes: em relac¸a˜o ao total geral; em relac¸a˜o ao total de cada linha ou em relac¸a˜o ao total de cada coluna. A mais conveniente a ser usada dependera´ do objetivo da pesquisa. Construiremos a seguir, com os dados da tabela acima, as treˆs tabelas poss´ıveis, utilizando porcentagens. Tabela 3.1 Distribuic¸a˜o conjunta das porcentagens em relac¸a˜o ao total geral das varia´veis X e Y Sexo Atividade Feminino Masculino Total Ativo 0% 8,9%∗ 8,9% Me´dio 11,1% 13,3% 24,4% Sedenta´rio 26,6% 40,0% 66,7% Total 37,8% 62,2% 100% ∗ 8,9% dos alunos sa˜o do sexo “Masculino” e seu n´ıvel de atividade f´ısico e´ “Ativo”. 40 Tabela 3.2 Distribuic¸a˜o conjunta das porcentagens em relac¸a˜o aos totais de cada coluna das varia´veis X e Y Sexo Atividade Feminino Masculino Total Ativo 0% 14,3% ∗ 8,9% Me´dio 29,4% 21,4% 24,4% Sedenta´rio 70,6% 64,3% 66,7% Total 100% 100% 100% ∗ 14,4% dos alunos do sexo “Masculino” teˆm n´ıvel de atividade f´ısica “Ativo”. Tabela 3.3 Distribuic¸a˜o conjunta das porcentagens em relac¸a˜o aos totais de cada linha das varia´veis X e Y Sexo Atividade Feminino Masculino Total Ativo 0% 100,0%∗ 100% Me´dio 45,5% 55,5% 100% Sedenta´rio 40% 60% 100% Total 37,8% 62,2% 100% ∗ 100% dos alunos com n´ıvel de atividade f´ısica “Ativo”, sa˜o do sexo “Masculino”. O principal objetivo da distribuic¸a˜o conjunta e´ descrever o grau de associac¸a˜o entre as varia´veis, de modo que possamos prever melhor o resultado de uma delas quando conhecemos a realizac¸a˜o da outra. Exemplo 3.2 Em um experimento para testar a resisteˆncia de eucalyptus a` ferrugem causada por puccinia psidii, um certo nu´mero de plantas de treˆs espe´cies diferentes de eucalyptus foram infectadas artificalmente. Apo´s certo tempo, contou-se o nu´mero de plantas doentes. Os resultados esta˜o na tabela abaixo. Tabela 3.4 Nı´vel de infecc¸a˜o por puccinia psiddi em eucalyptus Infecc¸a˜o E. citrioda E. urophylla E. cloeziana Total Doentes 6 (5,5%) 10 (10%) 80 (72,7%) 96(30%) Sadias 104 (94,5%) 90 (90%) 30 (27,3%) 224(70%) Total 110(100%) 100(100%) 110(100%) 320(100%) Os valores que aparecem entre pareˆnteses na Tabela 3.4, mostram as porcentagens do “tipo de infecc¸a˜o” (Y ) em cada “espe´cie” (X). Estas porcentagens foram calculadas para podermos comparar a relac¸a˜o (ou grau de associac¸a˜o) entre estas varia´veis. 41 A partir desta tabela, podemos observar que, independentemente da espe´cie, 30% das plantas adoeceram e 70% delas permaneceram sadias (ver coluna do Total ). Na˜o havendo dependeˆncia (ou associac¸a˜o) entre as varia´veis, esperar´ıamos estas mesmas proporc¸o˜es para cada uma das espe´cies. Olhando atentamente as porcentagens calculadas dentro das caselas da Tabela 3.5, podemos ve- rificar que as frequ¨eˆncias observadas sa˜o bem diferentes das frequ¨eˆncias esperadas o que nos leva a pensar que existe uma associac¸a˜o entre estas varia´veis. Por exemplo, na espe´cie E. citrioda esperar´ıamos 30% de plantas doentes e observamos 5,5%. Para facilitar a comparac¸a˜o entre as frequ¨eˆncias esperadas e observadas, constru´ımos a Tabela abaixo. Tabela 3.5 Nı´vel de infecc¸a˜o por puccinia psiddi em eucalyptus (frequ¨eˆncias observadas e esperadas) Espe´cie E. citrioda E. urophylla E. cloeziana Infecc¸a˜o oij eij oij eij oij eij Doentes 6 33 10 30 80 33 Sadias 104 77 90 10 30 77 em que o ı´ndice i representa plantas doentes (i = 1) ou sadias (i = 2), o ı´ndice j representa a espe´cie (j = 1, 2, 3), oij representa a frequ¨eˆncia observada e eij representa a frequ¨eˆncia esperada. O problema se torna enta˜o encontrar uma medida do grau de associac¸a˜o entre as varia´veis. 3.2 Coeficientes de contingeˆncia (Continuac¸a˜o do Exemplo 3.2). Para medirmos o grau de associac¸a˜o entre as varia´veis X e Y , medimos inicialmente as diferenc¸as entre o que teria sido obtido caso na˜o existisse associac¸a˜o entre elas, e o que foi de fato observado (veja Tabela 3.6). Tabela 3.6 Desvios entre valores observados e esperados Infecc¸a˜o E. citrioda E. urophylla E. cloeziana Total Doentes -27 -20 47 0 Sadias 27 20 -47 0 Total 0 0 0 0 Note que tanto a linha quanto a coluna de total sa˜o nulas e que algumas caselas apresentam desvios maiores da suposic¸a˜o de independeˆncia. Para quantificar estes desvios, vamos considerar os desvios relativos, rij , que levam em conta o nu´mero diferente de plantas de cada espe´cie. rij = (oij − eij)2 eij . Assim, para a casela Doentes/E. citrioda, temos (−27)2/33 = 22, 1 e para a casela Doentes/E. cloeziana, temos (−47)2/33 = 66, 9, indicando um desvio devido a esta u´ltima casela, maior do que aquele da primeira. 42 Uma medida do afastamento global pode ser dada pela soma dos valores. Esta medida chama-se χ2 (qui-quadrado) e e´ dada pela expressa˜o, χ2 = ∑ i ∑ j (oij − eij)2 eij . No nosso exemplo, ter´ıamos, χ2 = (6− 33)2 33 + (10− 30)2 30 + (80− 33)2 33 + (104− 77)2 77 + (90− 70)2 70 + (30− 77)2 77 = 146, 23. Como e´ dif´ıcil dizer se este valor e´ alto ou na˜o, (seria 0 se na˜o houvesse associac¸a˜o), K. Pearson, famoso estat´ıstico do comec¸o do se´culo, propoˆs a utilizac¸a˜o do chamado Coeficiente de Contingeˆncia C, definido por C = √ χ2 χ2 + n , em que n e´ o nu´mero de total de observac¸o˜es. Este coeficiente e´ um nu´mero entre 0 e 1, sendo nulo quando as varia´veis na˜o sa˜o associadas. Algumas vezes pore´m, mesmo existindo uma associac¸a˜o perfeita, C pode na˜o ser igual a 1. Uma alternativa, enta˜o, e´ considerar como medida de associac¸a˜o o seguinte coeficiente, que chamaremos de Coeficiente de contingeˆncia corrigido, dado por C∗ = C√ (t− 1)/t, em que t e´ o mı´nimo entre o nu´mero de colunas e o nu´mero de linhas da tabela. No exemplo acima, temos C = √ 146, 23 146, 23+ 320 = 0, 56 e C∗ = 0, 56√ 1/2 = 0, 79 indicando que o grau de associac¸a˜o entre as varia´veis neste caso e´ bem alto. Observac¸o˜es • Uma maneira fa´cil de se obter o valor esperado em cada casela e´, eij = (Total da linha i)× (Total da coluna j) (Total geral) . • O coeficiente de contingeˆncia de Pearson pode ser utilizado tanto para varia´veis qualitativas quanto para varia´veis quantitativas agrupadas em classes. 3.3 Coeficiente de correlac¸a˜o Quando as varia´veis envolvidas sa˜o ambas quantitativas (na˜o agrupadas), um procedimento bas- tante u´til para se verificar a associac¸a˜o entre as varia´veis e´ o gra´fico de dispersa˜o, que nada mais e´ do que a representac¸a˜o dospares de valores em um sistema cartesiano. 43 Figura 6: Diagrama de dispersa˜o: K2O versus Pota´ssio Exemplo 3.3 A tabela abaixo fornece os teores dos nutrientes K (Pota´ssio) e Mg (Magne´sio) em folhas de soja, e a dose anual de adubo utilizado na plantac¸a˜o (K2O: O´xido de Pota´ssio). Tabela 3.7 Teores de nutrientes Dose anual de K2O(Kg/ha):X K, Y1 (g/Kg) Mg Y2(mg/Kg) 0 6 10,5 40 11 7,9 80 18 6,4 120 22 5,8 160 25 5,5 200 21 5,2 Fonte: PAB(1997) vol. 32(12) pg.1235-1249. Na Figura 6, mostramos o diagrama de dispersa˜o entre as varia´veis X e Y1. Observando a disposic¸a˜o dos pontos, verificamos que quando aumentamos a dose anual do adubo parece haver uma tendeˆncia de aumento do teor do nutriente K nas folhas de soja. No caso do Magne´sio, ao contra´rio, quando aumentamos a dose de adubo, a concentrac¸a˜o do nutriente diminui. Veja Figura 7. Observada uma associac¸a˜o entre as varia´veis quantitativas, desejamos quantificar o grau desta associac¸a˜o. Estudaremos aqui a relac¸a˜o mais simples, que e´ a linear, isto e´, iremos definir uma medida que julga o quanto a nuvem de pontos do diagrama de dispersa˜o aproxima-se de uma reta. A medida que utilizaremos para quantificar a associac¸a˜o entre duas varia´veis quantitativas e´ o coeficiente de correlac¸a˜o que definimos abaixo. 44 Figura 7: Diagrama de dispersa˜o: K2O versus Magne´sio Definic¸a˜o 3.1 Dados n pares de valores (x1, y1), (x2, y2), . . . , (xn, yn), chamamos de coeficiente de correlac¸a˜o entre as duas varia´veis X e Y a relac¸a˜o, Cor(X, Y ) = 1 n ∑n i=1(xi − x¯)(yi − y¯) DP(X)DP(Y ) . Costuma-se usar a seguinte fo´rmula equivalente de ca´lculo, Cor(X, Y ) = ∑n i=1 xiyi − nx¯y¯√ ( ∑n i=1 x 2 i − nx¯2)( ∑n i=1 y 2 i − ny¯2) . O coeficiente de correlac¸a˜o linear assume sempre um valor entre −1 e 1. Valores positivos correspondem a uma associac¸a˜o direta e negativos correspondem a uma associac¸a˜o inversa. Quando o coeficiente de correlac¸a˜o for igual a 1 ou −1, existe uma associac¸a˜o linear perfeita entre X e Y e quando ele e´ igual a 0, na˜o existe nenhuma associac¸a˜o linear entre as varia´veis. 45 3.4 Exerc´ıcios 3.1 Um time de futebol esta´ interessado em saber se as condic¸o˜es do tempo tem alguma influeˆncia no resultado do jogo. Observaram as condic¸o˜es do tempo durante 65 partidas obtendo os seguintes resultados: Resultado Tempo Total Bom Ruim Venceu 17 5 22 Empatou 6 10 16 Perdeu 4 23 27 Total 27 38 65 a) Calcule o coeficiente de contingeˆncia e o coeficiente de contingeˆncia corrigido. b) Com base nos resultados do item a), voceˆ diria que as condic¸o˜es do tempo tem um efeito do resultado deste time? Comente. 3.2 100 animais foram divididos em dois grupos de 56 e 44 animais. No primeiro grupo, que foi vacinado contra uma determinada doenc¸a, 47 animais na˜o adoeceram. No segundo grupo, que na˜o foi vacinado, 28 animais na˜o adoeceram. a) Construa uma tabela de contingeˆncia com os dados acima. b) Calcule o coeficiente de contingeˆncia e o coeficiente de contingeˆncia corrigido. c) Voceˆ diria que estes resultados sugerem que a vacina protege contra esta doenc¸a? Justifique. 3.3 Em uma pesquisa em 4 localidades, P, Q, R, e S, verificou-se que os prec¸os dos automo´veis de 350 pessoas entrevistadas pertenciam a quatro categorias, A, B, C e D. As frequ¨eˆncias observadas foram Prec¸o Localidade P Q R S A 9 10 12 19 B 13 20 18 29 C 24 29 12 25 D 34 41 18 37 a) Encontre as frequ¨eˆncias que seriam esperadas caso na˜o houvesse nenhuma associac¸a˜o entre localidade e prec¸o do automo´vel. b) Calcule o coeficiente de contingeˆncia e comente. 3.4 Uma companhia que fabrica ma´quinas de lavar, conduziu uma pesquisa com 500 donas de casa que compraram destas ma´quinas em um determinado ano. Apenas 150 destas donas de casa responderam a` pesquisa e enta˜o a companhia resolveu enviar novo questiona´rio para as outras 350 donas de casa que na˜o haviam respondido ao primeiro. Destas, 200 responderam e a companhia 46 enviou ainda um terceiro questiona´rio para as demais, obtendo outras 50 respostas. A companhia enviou enta˜o um representante a`s resideˆncias das 100 donas de casa restantes, conseguindo assim as 500 respostas que pretendia. Como resultado deste trabalho, a companhia suspeita que existe alguma associac¸a˜o entre o grau de satisfac¸a˜o da dona de casa e sua boa vontade em responder ao questiona´rio. Com base nos dados abaixo, voceˆ diria que esta suposic¸a˜o faz sentido? Justifique sua resposta. Satisfeita Indiferente Insatisfeita Total Respondeu imediatamente 100 40 10 150 Respondeu segundo quest. 134 48 18 200 Respondeu terceiro quest. 21 20 9 50 Entrevista 45 42 13 100 Total 300 150 50 500 3.5 Em uma pesquisa com 5000 indiv´ıduos, desejava-se investigar uma poss´ıvel associac¸a˜o entre daltonismo e sexo. Encontrou-se os seguintes resultados, Sexo Visa˜o normal Daltoˆnico Masculino 2210 190 Feminino 2540 60 Calcule o coeficiente de contingeˆncia, o coeficiente de contingeˆncia corrigido e comente. 3.6 Calcule os coeficientes de correlac¸a˜o entre X e Y1e entre X e Y2 para os dados do Exemplo 3.3. 3.7 A tabela abaixo fornece a produc¸a˜o obtida em func¸a˜o da quantidade de fertilizante utilizado Fertilizante (X) 0 1 2 3 4 5 6 7 8 Produc¸a˜o (Y ) 160 168 176 179 183 186 189 186 184 a) Construa um diagrama de dispersa˜o para os dados acima e comente sobre a associac¸a˜o entre as varia´veis. b) Calcule o coeficiente de correlac¸a˜o entre X e Y . Comente. 3.8 A tabela abaixo fornece a precipitac¸a˜o mensal (X) e o nu´mero me´dio dia´rio de horas de sol (Y ), observadas em uma estac¸a˜o metereolo´gica em Londres em 1973 Meˆs JAN FEV MAR ABR MAI JUN JUL AGO SET OUT NOV DEZ Prec (mm) 39 35 20 63 76 65 88 54 77 51 44 60 Luz (h) 1,1 2,7 4,5 5,1 5,5 7,6 5,2 5,7 4,8 2,9 2,8 1,8 47 a) Construa um diagrama de dispersa˜o para os dados acima. b) Calcule o coeficiente de correlac¸a˜o entre X e Y . c) Construa uma nova varia´vel, X1, da seguinte maneira: ordene os meses de 1 a 12, atribuindo o valor 1 ao meˆs com mais alta precipitac¸a˜o. d) Construa outra varia´vel, Y1, ordenando os meses de 1 a 12, atribuindo o valor 1 ao meˆs com maior me´dia de luz por dia. e) Calcule o coeficiente de correlac¸a˜o entre X1 e Y1. Comente. 3.9 As alturas H , em cm, e os pesos W , em kg, de 10 pessoas foram medidos. Encontrou-se∑ H = 1710, ∑ W = 760, ∑ H2 = 293.162, ∑ HW = 130.628 e ∑ W 2 = 59.300. Calcule o coeficiente de correlac¸a˜o entre os valores de H e W . 3.10 Habilidade emmatema´tica e´ o mesmo que inteligeˆncia. Para testar a validade desta afirmac¸a˜o, testes de matema´tica e de inteligeˆncia foram aplicados em 50 garotos. Os resultados dos testes de matema´tica (X) e os coeficientes de inteligeˆncia (Y ) forneceram os seguintes resultados:∑ xi = 25, ∑ yi = 140, ∑ x2i = 1713, ∑ y2i = 6380, ∑ xiyi = 1990. Calcule o coeficiente de correlac¸a˜o entre X e Y e comente. 3.11 Um professor solicitou a um aluno que calculasse os coeficientes de correlac¸a˜o entre duas varia´veis em quatro conjuntos de dados, A, B, C e D. O aluno encontrou os valores -0,90; 0,97; 0,02 e 0,67 mas perdeu todas as suas anotac¸o˜es. Com base nos diagramas de dispersa˜o abaixo, determine os coeficientes de correlac¸a˜o para cada um dos conjuntos. 48 4 Probabilidade 4.1 Introduc¸a˜o A distribuic¸a˜o de frequ¨eˆncias das observac¸o˜es e´ um poderoso recurso para entender a variabilidade de um fenoˆmeno. Muitas vezes, com suposic¸o˜es adequadas e sem observar diretamente o fenoˆmeno, podemos criar um modelo teo´rico que representa a distribuic¸a˜o das frequ¨eˆncias quando o fenoˆmeno na˜o e´ observado diretamente. Tais modelos sa˜o chamados “Modelos Probabil´ısticos”. Exemplo 4.1 Ao estudar as proporc¸o˜es de ocorreˆncia das faces de um
Compartilhar