Buscar

Estatistica Apostila Básica UFRRJ

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 126 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 126 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 126 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

Apresentac¸a˜o
Esta apostila conte´m um resumo do material a ser apresentado na disciplina IC-280,
Estat´ıstica Ba´sica, na UFRRJ. O texto e´ baseado no livro texto da disciplina, Estat´ıstica
Ba´sica, de Wilton Bussab e Pedro Morettin e conte´m tambe´m va´rios exerc´ıcios de outros
livros. Os exerc´ıcios retirados do livro texto, esta˜o marcados com o s´ımbolo ♠ . Este resumo
na˜o substitui o livro texto e deve servir apenas de guia para o aluno acompanhar a sequ¨eˆncia
da mate´ria lecionada.
Nos apeˆndices, sa˜o apresentadas tabelas e respostas de alguns exerc´ıcios propostos.
Agradecemos a monitora da disciplina Estat´ıstica Ba´sica, Manoela Machado do Vale, por
fornecer va´rias destas respostas.
Antonieta D’Alcaˆntara de Queiroz Peres
Maria Teresa Carneiro da Cunha
1
Resumos e Selec¸a˜o de Exerc´ıcios
Estat´ıstica Ba´sica
I´ndice
1 Ana´lise Explorato´ria de dados 4
1.1 Introduc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Apresentac¸a˜o dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Gra´ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Representac¸a˜o gra´fica das varia´veis qualitativas . . . . . . . . . . . . 8
1.3.2 Representac¸a˜o gra´fica das varia´veis quantitativas . . . . . . . . . . . 10
1.3.3 Gra´ficos especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Conjuntos de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 Medidas Associadas a Varia´veis Quantitativas 20
2.1 Medidas de Posic¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.1 Outras medidas de posic¸a˜o . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2 Medidas de posic¸a˜o para dados agrupados . . . . . . . . . . . . . . . 23
2.1.3 Distribuic¸a˜o em intervalos de classes . . . . . . . . . . . . . . . . . . 24
2.1.4 Propriedades das medidas de posic¸a˜o . . . . . . . . . . . . . . . . . . 25
2.2 Medidas de Dispersa˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.1 Medidas de dispersa˜o para dados agrupados . . . . . . . . . . . . . . 27
2.2.2 Propriedades das medidas de dispersa˜o . . . . . . . . . . . . . . . . . 28
2.3 Outras medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.1 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3 Ana´lise bidimensional 40
3.1 Introduc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2 Coeficientes de contingeˆncia . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3 Coeficiente de correlac¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2
4 Probabilidade 49
4.1 Introduc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Probabilidade condicional e independeˆncia. . . . . . . . . . . . . . . . . . . 51
4.3 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5 Varia´veis Aleato´rias Discretas 60
5.1 Introduc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2 Modelos probabil´ısticos para varia´veis aleato´rias discretas . . . . . . . . . . 63
5.3 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6 Varia´veis aleato´rias cont´ınuas 72
6.1 Introduc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.2 Valor esperado e variaˆncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.3 Modelos probabil´ısticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.3.1 Distribuic¸a˜o Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.3.2 Algumas caracter´ısticas da distribuic¸a˜o Normal . . . . . . . . . . . . 76
6.3.3 Uso da tabela da Normal padra˜o . . . . . . . . . . . . . . . . . . . . 77
6.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
7 Distribuic¸o˜es Amostrais 84
7.1 Introduc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
7.2 Distribuic¸a˜o Amostral da Me´dia . . . . . . . . . . . . . . . . . . . . . . . . 86
7.3 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
8 Intervalos de Confianc¸a 93
8.1 Intervalos de confianc¸a para a me´dia populacional . . . . . . . . . . . . . . . 93
8.1.1 σ2 conhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.1.2 σ2 desconhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.2 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
A Notac¸a˜o de Somato´rio 103
A.1 Definic¸o˜es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
A.2 Somato´rio duplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
A.3 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
B Respostas de alguns exerc´ıcios selecionados 108
C Tabelas e formula´rios 115
3
1 Ana´lise Explorato´ria de dados
1.1 Introduc¸a˜o
A Estat´ıstica e´ a parte da cieˆncia que tem por objetivo
• a coleta, reduc¸a˜o, ana´lise e modelagem de dados “parciais” (amostra);
• fazer infereˆncias para o conjunto total de dados (populac¸a˜o).
Os dados podem ser obtidos por
observac¸a˜o: quando o pesquisador na˜o pode controlar as caracter´ısticas de interesse;
experimentos: quando o pesquisador controla parcialmente as caracter´ısticas de interesse.
Exemplo 1.1 Suponha que se deseja estudar a relac¸a˜o entre os gastos de consumo e a
renda de um determinado grupo de indiv´ıduos. Uma pesquisa pode constar da escolha, por
sorteio, de alguns indiv´ıduos do grupo e da coleta das informac¸o˜es sobre as caracter´ısticas
de interesse nestes indiv´ıduos.
Exemplo 1.2 Deseja-se comparar duas variedades de cana de ac¸u´car, com respeito a um
tipo de adubac¸a˜o. Sa˜o escolhidos dois n´ıveis de adubo (“ausente”, “presente”, por exemplo)
e algumas mudas de cada uma das variedades sa˜o plantadas sob cada um destes n´ıveis.
No primeiro exemplo, o pesquisador apenas observa as caracter´ısticas de interesse nos
indiv´ıduos sorteados, e no segundo exemplo, ele controla uma das caracter´ısticas: o n´ıvel
de adubo utilizado no experimento. Em ambos os casos, os dados esta˜o sujeitos a variac¸o˜es
do “acaso”, ou seja, podem ser afetados por condic¸o˜es qua na˜o podem ser controladas ou
observadas.
Por meio de uma ana´lise de dados, busca-se uma forma de regularidade ou padra˜o, ou
modelo, presente nas observac¸o˜es.
Dados = modelo + res´ıduos (D=M+R)
Os res´ıduos (ou erros) sa˜o a diferenc¸a entre as observac¸o˜es e o modelo proposto.
A Ana´lise Explorato´ria de Dados ( EDA ) e´ um conjunto de te´cnicas que busca estabele-
cer a melhor relac¸a˜o D=M+R para um particular conjunto de dados.
Algumas definic¸o˜es importantes:
1. varia´vel: e´ uma caracter´ıstica qualquer do objeto em estudo. Pode ser classificada
como
• varia´vel qualitativa quando apresenta como poss´ıveis realizac¸o˜es uma qualidade
ou atributo do objeto em estudo;
4
• varia´vel quantitativa - quando apresenta como poss´ıveis realizac¸o˜es, nu´meros
resultantes de uma contagem ou mensurac¸a˜o.
As varia´veis qualitativas podem ainda ser divididas em: varia´veis qualitativas nominais,
se na˜o existe nenhuma ordem em suas poss´ıveis realizac¸o˜es ou varia´veis qualitativas
ordinais, se existir umaordem em suas poss´ıveis realizac¸o˜es.
As varia´veis quantitativas podem ainda ser divididas em: varia´veis quantitativas dis-
cretas, se seus poss´ıveis valores formam um conjunto finito ou enumera´vel ou varia´veis
quantitativas cont´ınuas, se seus poss´ıveis valores formam um intervalo ou unia˜o de
intervalos de nu´meros reais.
Esquematicamente, podemos representar a divisa˜o das varia´veis por
NOMINAL
QUALITATIVA
↗ ORDINAL
VARIA´VEL
↘ DISCRETA
QUANTITATIVA
CONTI´NUA
2. populac¸a˜o: e´ um conjunto de indiv´ıduos (ou objetos) tendo pelo menos uma varia´vel
comum observa´vel e que e´ alvo do estudo.
3. amostra: e´ qualquer subconjunto da populac¸a˜o.
Exemplo 1.3 Na Tabela 1.1, apresentamos os resultados fornecidos por 50 alunos da disci-
plina Estat´ıstica Ba´sica, turmas T01 e T02, do segundo semestre de 1999. As varia´veis TV
e Ex.Fis correspondem ao nu´mero me´dio de horas gastas por semana assistindo TV e pra-
ticando exerc´ıcios f´ısicos, respectivamente. A varia´vel OpTV e´ a opinia˜o sobre a qualidade
da programac¸a˜o da TV (B: Boa, M: Me´dia, R: Ruim e N: Na˜o sabe). A varia´vel Ativ. e´ o
n´ıvel de atividade f´ısica, constru´ıda da seguinte maneira: sedenta´rio: se o estudante pratica
no ma´ximo 2 horas de exerc´ıcios f´ısicos semanais; me´dio: se pratica mais de 2 e menos de 6
horas semanais e ativo: se pratica 6 ou mais horas semanais. Classifique cada uma destas
varia´veis.
1.2 Apresentac¸a˜o dos dados
Distribuic¸a˜o de Frequ¨eˆncias: Ao estudar uma varia´vel, o principal interesse do pesquisador
e´, em geral, conhecer a distribuic¸a˜o desta varia´vel atrave´s dos seus valores. Podemos repre-
sentar a distribuic¸a˜o dos valores de uma varia´vel utilizando uma tabela de frequ¨eˆncias da
forma:
5
Tabela 1.1
Aluno Sexo Idade Altura Peso Fumante? TV OpTV Ex.F. Ativ. No irma˜os Religia˜o
1 M 20 1,75 68,0 N 10 M 2 S 1 Cato´lica
2 F 18 1,65 53,5 N 5 R 5 M 1 Outra
3 F 20 1,65 51,0 N 3 R 5 M 3 Evange´lica
4 F 21 1,70 68,0 N 3 R 2 S 0 Cato´lica
5 F 19 1,75 87,0 N 20 B 5 M 2 Cato´lica
6 F 18 1,65 51,0 N 3 R 2 S 0 Evange´lica
7 M 17 1,70 64,0 N 4 R 6 A 1 Evange´lica
8 M 21 1,74 63,5 N 0 N 0 S 5 Nenhuma
9 M 19 1,64 54,3 N 18 B 2 S 0 Cato´lica
10 M 20 1,79 77,0 N 14 B 3 M 0 Nenhuma
11 M 18 1,70 53,0 N 2 R 3 M 2 Evange´lica
12 M 21 1,76 69,0 N 2 R 1 S 0 Cato´lica
13 M 18 1,73 66,0 N 6 M 4 M 4 Cato´lica
14 F 20 1,62 56,0 N 3 R 0 S 2 Cato´lica
15 M 20 1,73 65,0 N 2 R 0 S 8 Cato´lica
16 F 20 1,74 58,0 N 9 M 2 S 1 Cato´lica
17 F 19 1,65 67,0 N 4 R 0 S 1 Evange´lica
18 M 18 1,85 80,0 N 3 R 0 S 1 Cato´lica
19 M 21 1,77 66,0 N 2 R 0 S 2 Cato´lica
20 M 20 1,67 64,0 N 1 R 10 A 1 Nenhuma
21 F 20 1,65 59,0 N 8 M 2 S 1 Cato´lica
22 M 20 1,66 56,0 N 3 R 0 S 3 Outra
23 F 19 1,60 52,0 N 6 M 2 S 2 Cato´lica
24 F 19 1,60 45,0 N 15 B 2 S 1 Cato´lica
25 M 19 1,83 70,0 N - - 2 S 1 Nenhuma
26 M 19 1,70 70,0 N 23 B 6 A 0 Cato´lica
27 F 23 1,58 58,0 N 2 R 2,5 M 2 Nenhuma
28 M 21 1,87 76,0 N 22 B 2 S 1 Outra
29 F 21 1,58 51,0 N 20 M 2 S 4 Cato´lica
30 M 26 1,82 75,0 N 5 B 3 M 4 Outra
31 F 29 1,60 52,0 N 20 R 0 S 2 Nenhuma
32 M 23 1,82 72,0 N 5 B 2 S 0 Cato´lica
33 M 20 1,83 85,0 N 14 B 2 S 3 Cato´lica
34 M 50 1,68 71,0 N 15 B 5 M 3 Cato´lica
35 M 23 1,77 82,5 N 15 B 2 S 2 Cato´lica
36 F 21 1,69 53,0 N 10 M 2 S 1 Cato´lica
37 M 20 1,83 - N 6 N 2 S 1 Cato´lica
38 M 20 1,76 74,0 N 0 N 6 A 4 Nenhuma
39 M 23 1,81 85,0 N 1 R 0 S 1 Evange´lica
40 F 20 1,63 57,5 N 2 B 0 S 2 Nenhuma
41 M 32 1,85 87,5 S 15 R 2 S 1 Nenhuma
42 M 20 1,70 60,0 S 3 B 3 M 3 Nenhuma
43 F 19 1,70 78,0 N 14 R 4 M 0 Evange´lica
44 M 20 1,82 80,0 N 1 R 1 S 2 Outra
45 M 19 1,82 55,0 N 20 B 0 S 2 Cato´lica
6
Tabela 1.2 Tabela de frequ¨eˆncias
Varia´vel Frequ¨eˆncia (ni) Proporc¸a˜o (fi) Porcentagem (%)
n´ıvel 1 n1 f1 100 × f1
n´ıvel 2 n2 f2 100 × f2
...
...
...
...
n´ıvel k nk fk 100 × fk
Total n = n1 + n2 + . . .+ nk 1 = f1 + . . .+ fk 100
em que
• n e´ o nu´mero total de observac¸o˜es do conjunto;
• k e´ o nu´mero de n´ıveis da varia´vel em questa˜o;
• i e´ o ı´ndice que indica o n´ıvel da varia´vel;
• ni e´ o nu´mero de observac¸o˜es para o n´ıvel i da varia´vel;
• fi = ni/n e´ a proporc¸a˜o de casos no n´ıvel i da varia´vel.
Exemplo 1.4 Representar as varia´veis “Religia˜o” e “Nı´vel de atividade f´ısica” em tabelas
de frequ¨eˆncia.
Tabela 1.3 Distribuic¸a˜o de frequ¨eˆncias: “Religia˜o ” .
Religia˜o frequ¨eˆncia (ni) proporc¸a˜o(fi) %
Cato´lica 23 0,51 51%
Evange´lica 7 0,16 16%
Nenhuma 10 0,22 22%
Outras 5 0,11 11%
Total 45 1.00 100%
Tabela 1.4 Distribuic¸a˜o de frequ¨eˆncias:“Nı´vel de atividade f´ısica”.
Atividade frequ¨eˆncia (ni) proporc¸a˜o (fi) %
Ativo 4 0.09 9%
Me´dio 11 0.24 24%
Sedenta´rio 30 0.67 67%
Total 45 1.00 100%
Exemplo 1.5 Representar as varia´veis “Nı´vel de atividade f´ısica” e “Sexo” em uma mesma
tabela de frequ¨eˆncias (Distribuic¸a˜o Conjunta).
7
Tabela 1.5 Distribuic¸a˜o conjunta: Nı´vel de atividade f´ısica por Sexo
Sexo
Atividade Feminino Masculino Total
Ativo 0 4 4
Me´dio 5 6 11
Sedenta´rio 12 18 30
Total 17 28 45
Exemplo 1.6 Representar a varia´vel “Peso” utilizando uma tabela de frequ¨eˆncias. Neste
caso, vamos criar um artif´ıcio para representar esta varia´vel em uma tabela de frequ¨eˆncias.
Os n´ıveis das varia´veis sera˜o representados por intervalos de classe. Vejamos:
Tabela 1.6 Distribuic¸a˜o de frequ¨eˆncias: “Peso (kg)”
Classe xi ni fi %
45 ` 55 50 10 0.23 23%
55 ` 60 57,5 7 0.16 16%
60 ` 70 65 11 0.25 25%
70 ` 80 75 9 0.20 20%
80 ` 90 85 7 0.16 16%
Total – 44 1 100%
em que
• xi e´ o ponto me´dio do intervalo ( representa agora o valor da varia´vel naquele intervalo);
• ni e´ a frequ¨eˆncia de cada classe.
Note que um dos alunos na˜o informou o peso e utilizamos o total de 44 alunos para obter
a frequ¨eˆncia relativa.
1.3 Gra´ficos
Uma outra forma de se apresentar os dados e´ por meio da utilizac¸a˜o de Gra´ficos.
1.3.1 Representac¸a˜o gra´fica das varia´veis qualitativas
Existem va´rios tipos de gra´ficos que podem ser utilizados para representar as varia´veis qual-
itativas. Para construir estes gra´ficos, consideraremos as frequ¨eˆncias com que os n´ıveis das
varia´veis aparecem em um conjunto de dados.
8
Gra´fico de Barras
E´ um dos gra´ficos mais utilizados para representar varia´veis qualitativas. Algumas ob-
servac¸o˜es devem ser feitas sobre este gra´fico.
1. O gra´fico tem apenas uma escala, a que representa a frequ¨eˆncia ou porcentagem em
cada n´ıvel da varia´vel;
2. A largura da barra utilizada na˜o tem nenhum significado especial ale´m do apelo visual;
3. Para facilitar a compreensa˜o e ana´lise, e´ prefer´ıvel que as barras sejam apresentadas
segundo uma ordem sistema´tica. O crite´rio mais utilizado e´ ordena´-las por sua mag-
nitude;
4. As barras devem ser colocadas, de prefereˆncia, no sentido horizontal pois desta forma
o nome dos n´ıveis da varia´vel podem ser melhor visualizados.
5. E´ prefer´ıvel utilizar frequ¨eˆncias quando estivermos representando subdiviso˜es dos n´ıveis
das varia´veis.
6. Para representar a participac¸a˜o em porcentagem de cada subn´ıvel de uma varia´vel,
e´ recomenda´vel a utilizac¸a˜o de barras representando 100% das observac¸o˜es em cada
n´ıvel.
Exemplo 1.7 Fazer um gra´fico de Barras para a varia´vel “Religia˜o ” cujos valores encontram-
se na Tabela 1.3.
Exemplo 1.8 Representar graficamente a tabela conjunta das varia´veis “Nı´vel de atividade
f´ısica” e “Sexo”(Tabela 1.5). Fazer em sala de aula.
9
Gra´fico de Setores
E´ tambe´m um gra´fico bastante utilizado para representar varia´veis qualitativas. E´ muitas
vezes chamado de Gra´fico de Torta ou Gra´fico de pizza. Neste gra´fico, um c´ırculo representa
100% das observac¸o˜es e cada n´ıvel da varia´vel e´ representado por um setorde a´rea propor-
cional a` frequ¨eˆncia observada. Algumas observac¸o˜es podem ser feitas a respeito da construc¸a˜o
do gra´fico.
1. Na˜o e´ um gra´fico recomendado quando se quer representar subdiviso˜es dos n´ıveis da
varia´vel;
2. Na˜o e´ recomendado quando o nu´mero de n´ıveis da varia´vel e´ muito grande.
Exemplo 1.9 Em recente pesquisa em uma pequena comunidade do interior de Minas
Gerais, foram ouvidos 600 homens e 400 mulheres sobre o consumo de a´lcool. Entre os
entrevistados, cerca de 400 homens consumiam bebidas alco´olicas sendo que 80% destes be-
biam regularmente e o restante apenas eventualmente. Entre as mulheres, embora a maioria
(70%) consumissem bebidas alco´olicas apenas 120 o faziam regularmente. Representar estas
informac¸o˜es em uma tabela de frequ¨eˆncias e depois coloca´-las em um gra´fico de colunas
(Figura 1) e em um gra´fico de setores (Figura 2).
Tabela 1.7 “Consumo de bebidas: Exemplo 1.9”
Sexo Na˜o bebe Bebe eventualmente Bebe regularmente Total
Masculino 200 80 320 600
Feminino 120 160 120 400
Total 320 240 440 1000
1.3.2 Representac¸a˜o gra´fica das varia´veis quantitativas
Gra´fico de linhas
E´ o mais comum dos gra´ficos e um dos mais simples, representando os n´ıveis das varia´veis
em coordenadas retangulares. Observac¸a˜o sobre a construc¸a˜o do gra´fico:
• E´ um gra´fico particularmente u´til para representar se´ries de tempo. O tempo e´ repre-
sentado no eixo X e a se´rie no eixo Y .
• E´ comum representar-se mais de uma se´rie no mesmo gra´fico.
Exemplo 1.10 Fac¸a um gra´fico de linhas representando as se´ries abaixo.
Mes Jan Fev Mar Abr Mai Jun Jul
INPC 28.8 24.8 27.5 28.3 26.8 30.3 31.0
IRSM 27.9 25.8 26.8 28.2 28.4 30.5 29.2
10
Figura 1: Gra´fico de setores: Exemplo 1.9
Figura 2: Gra´fico de barras: Exemplo 1.9
11
Figura 3: Gra´fico de linhas: Exemplo 1.10
Figura 4: Gra´fico de colunas: Exemplo 1.10
Gra´fico de colunas
Neste gra´fico, os n´ıveis das varia´veis sa˜o tambe´m representados por barras, so´ que verti-
cais. E´, em geral, utilizado para representar se´ries de tempo. Observac¸o˜es sobre a construc¸a˜o
do gra´fico:
1. As duas escalas esta˜o presentes, no eixo X representamos o tempo e no eixo Y os n´ıveis
da varia´vel;
2. Pode ser utilizado para representar mais de uma se´rie. Neste caso as colunas aparecem
juntas.
Exemplo 1.11 Vamos representar os dados da tabela anterior por um gra´fico de colunas.
12
1.3.3 Gra´ficos especiais
O histograma
O histograma e´ um gra´fico que representa nu´meros pela a´rea e na˜o pela altura. E´
utilizado, em geral, para representar distribuic¸o˜es de varia´veis cont´ınuas quando os dados
esta˜o agrupados em classes de frequ¨eˆncia. Embora tenha a apareˆncia de um gra´fico de
colunas, na˜o deve ser confundido com ele.
Podemos construir histogramas de frequ¨eˆncias, de proporc¸a˜o ou de porcentagem. A
distribuic¸a˜o nas diversas classes e´ representada por blocos constru´ıdos da seguinte forma,
• a base do bloco e´ o comprimento do intervalo de classe;
• a altura do bloco e´ a densidade, de frequ¨eˆncia, de proporc¸a˜o ou de porcentagem, na
classe.
A densidade na classe i e´ definida por
di =
ni
4i , no caso de frequ¨eˆncias,
di =
fi
4i , no caso de proporc¸a˜o,
di =
100 × fi
4i , no caso de porcentagem,
em que 4i representa o comprimento do intervalo da i-e´sima classe.
Observac¸o˜es:
• A a´rea do bloco obtido e´ a quantidade representada naquela classe.
• A a´rea total do histograma representa 100% das observac¸o˜es. Logo, a a´rea total de um
histograma de frequ¨eˆncias e´ igual a n, a de um histograma de proporc¸a˜o e´ igual a 1 e
a de um histograma de porcentagem e´ igual a 100%.
• A a´rea entre dois valores quaisquer fornece uma aproximac¸a˜o para a frequ¨eˆncia (ou
proporc¸a˜o ou porcentagem) no intervalo limitado por eles.
• O nu´mero de intervalos de classes e sua amplitude sa˜o arbitra´rios e dependem do
conjunto de dados em questa˜o. E´ comum, no entanto, encontrar a seguinte fo´rmula
para o nu´mero ideal de classes, K:
K = 1 + log2 n ( Fo´rmula de Sturges).
Uma vez determinado o valor de K, divide-se a amplitude total pelo nu´mero K, para
obter o comprimento dos intervalos das classes. Observe que neste caso, obtemos todas
as classes com a mesma amplitude, o que nem sempre e´ conveniente.
13
Pol´ıgono de Frequ¨eˆncias
O pol´ıgono de frequ¨eˆncias e´ constru´ıdo de forma semelhante a do histograma. Une-se
o ponto me´dio das classes na altura determinada pela densidade. Para fechar o pol´ıgono
unimos os extremos da figura com o eixo das abcissas, nos quais estariam os pontos me´dios
de uma classe imediatamente anterior e outra imediatamente posterior. Embora a a´rea total
abaixo do pol´ıgono de frequ¨eˆncias tambe´m seja igual a 100% das observac¸o˜es, na˜o podemos
aproximar a frequ¨eˆncia entre dois pontos pela a´rea delimitada por eles.
Histograma Alisado
Se houvesse um nu´mero suficientemente grande de observac¸o˜es poder-se-ia ir diminuindo
os intervalos de classe e o histograma iria ficando cada vez menos irregular ate atingir um
caso limite, com uma curva bem mais suave. Esta curva e´ chamada de histograma alisado.
Ogiva
E´ o gra´fico representativo de uma distribuic¸a˜o acumulada de frequ¨eˆncias e consta de uma
poligonal ascendente. No eixo horizontal colocam-se as extremidades de classe e no eixo
vertical, as frequ¨eˆncias acumuladas (ou proporc¸a˜o acumulada, ou porcentagem acumulada).
Ramo e folhas
A forma de uma distribuic¸a˜o e´ uma caracter´ıstica importante de um conjunto de dados.
Um procedimento alternativo para resumir um conjunto de dados, com o objetivo de se ter
uma ide´ia da forma da distribuic¸a˜o e´ o ramo-e-folhas. Uma vantagem do ramo-e-folhas sobre
o histograma e´ que na˜o perdemos informac¸o˜es sobre os dados.
Observac¸o˜es sobre a construc¸a˜o de um ramo-e-folhas
1. Na˜o existe regra fixa para a construc¸a˜o de um ramo-e-folhas. A ide´ia ba´sica e´ dividir
cada observac¸a˜o em duas partes: a 1a, o ramo, e´ colocada a` esquerda de uma linha
vertical; a 2a, a folha, e´ colocada a` direita desta linha.
2. Todos os ramos devem ter o mesmo comprimento.
3. Se ao fazer uma escolha de ramos obtivermos ramos muito carregados, podemos fazer
uma sub-divisa˜o neles.
1.4 Exerc´ıcios
1.1 As a´reas dos va´rios continentes do mundo, em milho˜es de quiloˆmetros quadrados, esta˜o
apresentadas na tabela abaixo:
14
Continente A´rea
A´frica 30,3
A´sia 26,9
Europa 4,9
Ame´rica do Norte 24,3
Oceania 8,5
Ame´rica do Sul 17,9
URSS 20,5
TOTAL 133,3
Represente graficamente os dados.
1.2 A tabela seguinte mostra a populac¸a˜o estimada, rural e urbana, para o Brasil, em
milho˜es de pessoas, de acordo com a Fundac¸a˜o IBGE
Ano 1972 1973 1974 1975 1976 1977 1978 1979
Populac¸a˜o urbana 56,6 59,0 61,5 64,1 66,7 69,5 72,3 75,2
Populac¸a˜o rural 42,1 12,4 42,7 43,1 43,4 43,8 44,1 44,5
Construa um gra´fico que mostre a porcentagem das pessoas que sa˜o,
a) residentes da zona urbana; b) residentes da zona rural.
1.3 A tabela seguinte mostra as a´reas, em milho˜es de quiloˆmetros quadrados, dos oceanos.
Represente graficamente os dados, utilizando
a) um gra´fico de barras; b) um gra´fico de setores.
Oceano Pac´ıfico Atlaˆntico I´ndico Anta´rtico A´rtico
A´rea 183,4 106,7 73,8 19,7 12,4
1.4 Os conjuntos de dados 1, 2, 3 e 4 (Sec¸a˜o 1.5: apeˆndice no final desta sec¸a˜o) referem-se
a` idade de ingresso na Universidade X e altura de estudantes segundo o sexo. Para cada um
deles:
a) Construa um Ramo-e-folhas.
b) Com base no Ramo-e-folhas, construa o histograma, escolhendo apropriadamente os
intervalos de classe.
1.5 Com base nos histogramas dos grupos 1 a 4, obtenha para cada um dos n´ıveis da
varia´vel sexo:15
a) a porcentagem de estudantes com menos de 18 anos;
b) a porcentagem de estudantes com no mı´nimo 19 anos;
c) a altura abaixo da qual se encontra 90% dos estudantes;
d) a altura mı´nima dos 20% dos alunos mais altos.
1.6 Com base nos Ramo-e-folhas, responda as mesmas perguntas da questa˜o 2 e compare
as respostas.
1.7 E´ poss´ıvel afirmar, com base nos gra´ficos, que existe diferenc¸a entre as distribuic¸o˜es de
alturas dos estudantes com relac¸a˜o ao sexo? E entre as distribuic¸o˜es de idades de ingresso
na Universidade X?
1.8 Os dados do conjunto 5 (Sec¸a˜o 1.5) referem-se a` populac¸o˜es de alguns munic´ıpios do
estado Y.
a) Construa um ramo-e-folhas e um histograma para este conjunto.
b) Comente sobre as principais caracter´ısticas da distribuic¸a˜o.
1.9 Os dados dos conjuntos 6 e 7 (Sec¸a˜o 1.5) referem-se aos tempos de vida de lotes de
laˆmpadas de duas companhias concorrentes A e B.
a) Construa um ramo-e-folhas para cada um dos conjuntos.
b) Comente sobre as principais diferenc¸as entre as distribuic¸o˜es.
c) Voceˆ seria capaz de se decidir por uma das companhias, caso tivesse que adquirir um
lote de laˆmpadas? Por queˆ?
1.10 Os dados dos conjuntos 8 e 9 (Sec¸a˜o 1.5) referem-se ao ganho de peso de alguns
animais que foram alimentados com as rac¸o˜es A e B, por um determinado tempo.
a) Construa um ramo-e-folhas para cada um dos conjuntos.
b) Comente sobre as principais diferenc¸as entre as distribuic¸o˜es.
c) Voceˆ seria capaz de se decidir por uma das rac¸o˜es, caso fosse chamado a opinar sobre
o assunto?
1.11 O histograma abaixo representa a distribuic¸a˜o dos frangos de uma determinada granja
em relac¸a˜o ao peso:
16
Queremos dividir os frangos em quatro categorias com relac¸a˜o ao peso, de modo que:
Os 20% mais leves sejam da categoria D;
Os 25% seguintes sejam da categoria C;
Os 25% seguintes sejam da categoria B;
Os 30% seguintes sejam da categoria A.
Quais os limites de peso entre as categorias A, B, C e D?
1.12 Em uma pesquisa em uma pequena comunidade dos Estados Unidos, foram observadas
as seguintes distribuic¸o˜es:
a) altura dos adultos casados;
b) altura de todos os membros de famı´lias cujos pais tem idade inferior a 30 anos;
c) altura de todos os membros da comunidade;
d) altura de todos os automo´veis da cidade.
Cada um dos histogramas abaixo refere-se a uma das distribuic¸o˜es acima. Associe cada
um deles a` distribuic¸a˜o que ele melhor representa.
17
1.5 Conjuntos de dados
CONJUNTO 1: Idade (anos completos) - Sexo Feminino.
27 22 19 18 21 17 19 20 16 18 18 18 18 20 22 18 19 18 19 19
20 19 20 20 18 21 18 20 22 19 19 22 23 18 29 19 17 20 19 18
18 20 19 20 18 24 18 19 21 24
CONJUNTO 2: Altura (cm) - Sexo Feminino
167 168 155 174 161 160 153 163 168 155 169 162 166 159 165 154 160
160 163 169 171 160 164 154 160 157 163 160 169 163 158 170 156 164
162 164 161 172 160 168 158 166 161 161 165 164 155 168 161 151
CONJUNTO 3: Idade (anos completos) - Sexo Masculino.
17 19 19 21 18 17 18 21 17 17 20 18 16 18 17 18 20 19 19 17
18 17 22 17 26 17 32 22 17 17 19 17 26 18 20 18 20 17 16 19
17 18 20 24 17 21 17 17 17 17 22 21 19 17 20 17 20 20 17 18
17 20 17 18 17 20 21 17 20 17 21 17 17 18 19
CONJUNTO 2: Altura (cm) - Sexo Masculino.
171 172 166 167 177 158 175 169 178 176 170 163 175 173 179 171 167
172 170 171 167 172 161 174 179 163 177 177 170 174 165 173 167 169
180 183 172 158 173 172 177 173 174 167 165 175 170 174 186 169 165
174 170 175 173 161 178 180 172 170 173 176 172 172 168 176 175 157
157 175 158 179 166 166 167
CONJUNTO 5: Populac¸a˜o - Munic´ıpios do Estado do Rio de Janeiro.
42886 50910 9034 32096 33025 35136 42530 30648 29864 21156
32411 31471 40392 46580 39257 29547 29942 32997 60666 35823
37527 240484 43620 39402 42215 317483 25772 39302 51822 48413
36772 35930 35230 40299 48245 29436 29650 54858 52619 40055
29089 27389 41352 42624 46355 61400 31121 34663 33037 38945
46253 36228 36348 53659 55199 41738 39426 32494 31818 34208
34807 40069 49530 49467 43308 33088 21762 31027 27647 33629
18
CONJUNTO 6: Durac¸a˜o das laˆmpadas - Companhia A
783 1361 2385 159 1614 497 1334 3694 672 2254
1415 1035 1372 109 1895 1526 2569 1005 937 2873
646 1358 1806 785 1810 1091 1563 3178 1341 173
927 881 1471 191 1066 1976 1237 2082 4096 4171
1274 4240 11922 2266 2686 912 3025 1228 832 1617
CONJUNTO 7: Durac¸a˜o das laˆmpadas - Companhia B.
3832 743 1616 4002 5606 722 4203 2069 3790 1819
613 310 4449 2711 2398 2445 3767 5290 1963 2085
586 972 1503 4046 2426 3705 204 1308 11848 1315
2518 626 3036 1811 4060 1392 3684 5810 2323 2221
622 3595 1745 1825 1215 2556 3653 1567 3006 1964
CONJUNTO 8: Ganho de Peso (kg) - Rac¸a˜o A.
26 30 65 43 27 28 31 28 30 33 60 34 26 32 34 35 29 27 29 34
27 31 66 44 28 29 32 29 31 34 61 35 27 33 35 36 30 28 30 35
CONJUNTO 8: Ganho de Peso (kg) - Rac¸a˜o B.
26 4 35 38 43 43 41 36 9 40 37 42 34 42 39 39 35 35 41 40
25 3 34 37 42 42 40 35 8 39 36 41 33 41 38 38 34 34 40 39
19
2 Medidas Associadas a Varia´veis Quantitativas
2.1 Medidas de Posic¸a˜o
A reduc¸a˜o dos dados provenientes da observac¸a˜o de uma varia´vel quantitativa por meio do ramo-
e-folhas ou tabelas de frequeˆncias pode fornecer mais informac¸o˜es sobre o comportamento desta
varia´vel do que a pro´pria se´rie original de dados. Nesta sec¸a˜o, apresentaremos alguns valores, as
medidas de tendeˆncia central, ou medidas de posic¸a˜o, que sa˜o representativos da se´rie toda. As
medidas de posic¸a˜o sa˜o quantidades que da˜o uma ide´ia da localizac¸a˜o do conjunto de valores.
Moda
Representada por Mo, a moda e´ definida como a realizac¸a˜o mais frequ¨ente de um conjunto de
dados. Por exemplo,
• Conjunto A: 1, 2, 2, 2, 3, 4, 5. A moda e´ o valor 2.
• Conjunto B: 1, 2, 3, 4, 5. O conjunto na˜o tem uma moda (e´ amodal)
• Conjunto C: 1, 1, 2, 2, 3, 4. O conjunto tem duas modas, os valores 1 e 2. Dizemos que o
conjunto e´ bimodal
Quando um conjunto apresenta mais de 2 modas, dizemos que ele e´ multimodal.
Mediana
Representada porMd, a mediana e´ definida como sendo a realizac¸a˜o que ocupa a posic¸a˜o central
de uma se´rie de observac¸o˜es quando estas esta˜o ordenadas segundo suas grandezas (ordem crescente
ou decrescente). A mediana deixa 50% da distribuic¸a˜o abaixo dela e 50% acima. Por exemplo,
• Conjunto D: 10, 20, 30, 40, 50. A mediana e´ o valor que ocupa a terceira posic¸a˜o, isto e´,
Md = 30.
• Conjunto E: 1, 2, 3, 4, 5, 6. A mediana e´ o ponto me´dio entre os dois valores que ocupam a
posic¸a˜o central, isto e´, Md = (3 + 4)/2 = 3.5.
De um modo geral, se o nu´mero n de observac¸o˜es no conjunto e´ ı´mpar, enta˜o a mediana e´ o valor
que ocupa a posic¸a˜o (n + 1)/2; se n e´ par, enta˜o a mediana e´ o ponto me´dio entre os valores que
ocupam as posic¸o˜es n/2 e (n/2)+1. Lembre-se que e´ necessa´rio ordenar o conjunto para identificar
a posic¸a˜o da mediana.
Me´dia Aritme´tica
Representada por Me ou por x¯, a me´dia aritme´tica e´ definida como sendo a soma de todas as
observac¸o˜es dividida pelo nu´mero delas.
Por exemplo, a me´dia aritme´tica do conjunto A acima e´:
Me =
1+ 2 + 2 + 2 + 3 + 4 + 5
7
= 19/7 = 2, 714
20
De um modo geral, se x1, x2, x3, . . . , xn sa˜o observac¸o˜es da varia´vel X , enta˜o a me´dia aritme´tica
desses valores e´ dada por:
Me(X) =
x1 + x2 + x3 + . . .+ xn
n
=
∑n
i=1 xi
n
A Me´dia Geome´trica
Se x1, x2, . . . , xn sa˜o valores positivos, podemos definir sua me´dia geome´trica, dada por
Mg = n
√
x1 × x2 × · · · × xn
A me´dia geome´trica de um conjunto de valores e´ sempre menor ou igual a me´dia aritme´tica
deste mesmo conjunto. E´ muito utilizada para encontrar taxas me´dias.
Me´dia Harmoˆnica
A me´dia harmoˆnica H de um conjunto de valores x1, x2, . . .xn positivos, e´ definida como sendo
o inverso da me´dia aritme´ticados inversos dos valores, isto e´,
H =
n∑n
i=1
1
xi
Observac¸a˜o. As medidas vistas acima sa˜o tambe´m chamadas medidas de tendeˆncia central. A
me´dia aritme´tica e´ talvez a mais utilizada entre todas elas podendo, contudo, conduzir a erros
de interpretac¸a˜o quando a utilizamos como medida de posic¸a˜o central. Em muitas situac¸o˜es, a
mediana e´ um valor mais adequado.
2.1.1 Outras medidas de posic¸a˜o
Quantil
Os quantis sa˜o quantidades que dividem a distribuic¸a˜o de valores em grupos do mesmo tamanho.
Os quantis mais comuns recebem nomes especiais. Sa˜o eles: os quartis, os decis e os percentis.
• Quartil Os quartis sa˜o quantis que dividem a distribuic¸a˜o em quatro partes de mesmo
tamanho. Assim, o primeiro quartil (Q1) deixa um quarto das observac¸o˜es abaixo dele e treˆs
quartos acima, o segundo quartil (Q2 =Md) deixa metade dos valores abaixo dele e metade
acima e o terceiro quartil (Q3) deixa treˆs quartos dos valores abaixo dele e um quarto acima.
Uma forma simples de encontrar os quartis e´ a seguinte: primeiramente, encontramos a
mediana e separamos as observac¸o˜es em dois grupos do mesmo tamanho. Se o nu´mero de
observac¸o˜es for ı´mpar, inclu´ımos a mediana nos dois grupos. Depois, encontramos a mediana
do primeiro grupo, que sera´ o Q1 e a mediana do segundo grupo, que sera´ o Q3.
• Decil Os decis sa˜o quantis que separam a distribuic¸a˜o de valores em 10 grupos do mesmo
tamanho.
21
• Percentil - O percentil de ordem 100p de um conjunto de valores dispostos em ordem
crescente e´ um valor tal que pelo menos (100p)% das observac¸o˜es sa˜o menores ou iguais a ele
e pelo menos 100(1−p)% sa˜o maiores ou iguais a ele. O percentil de ordem 50% e´ a mediana.
Esta definic¸a˜o pode ser formalizada como segue
(100p)% das observac¸o˜es ≤ P100p,
e 100(1− p)% das observac¸o˜es ≥ P100p
Veja que P10 = D1, . . . , P90 = D9 e tambe´m que P25 = Q1, P50 = Q2 =Md e P75 = Q3.
Exemplo 2.1 Determine os percentis de ordem 30 e 75 do seguinte conjunto:
X = {34, 43, 46, 58, 63, 63, 66, 68, 71, 72, 73, 73, 75, 76, 82, 83, 86, 90, 91, 93, 95, 98, 98, 99}
Temos 24 observac¸o˜es. O percentil de ordem 30 deixa 0, 3×24 = 7, 2 (ou seja, 8) observac¸o˜es
abaixo dele (ele inclu´ıdo) e 0, 7× 24 = 16, 8 (ou seja, 17) acima. Encontramos: P30 = 68.
O percentil de ordem 75 deixa 0, 75 × 24 = 18 observac¸o˜es abaixo dele (ele inclu´ıdo) e
0, 25 × 24 = 6 acima. Vemos enta˜o que o percentil e´ um valor entre 90 e 91. Neste caso,
convenciona-se considerar o ponto me´dio entre os dois valores como o percentil procurado, o
que nos da´: P75 = (90 + 91)/2 = 90.5.
Observac¸o˜es
• Os quantis sa˜o medidas resumo que fazem sentido quando o nu´mero de observac¸o˜es e´ grande.
No exemplo 2.1 acima, queremos separar um grupo de 24 observac¸o˜es em 100 grupos do
mesmo tamanho, o que na˜o resume nada, apenas ilustra o ca´lculo desta quantidade.
• A definic¸a˜o de quantil para dados na˜o agrupados na˜o e´ padronizada e e´ comum encontrarmos
va´rias formas distintas de obter estes valores. Uma outra forma de ca´lculo, que pode fornecer
valores distintos dos quantis obtidos com a definic¸a˜o anterior para o mesmo conjunto de dados,
e´ a seguinte: a posic¸a˜o k do quantil desejado no conjunto de valores e´ dada por:
k =
s(n + 1)
r
,
em que r e´ o quantil desejado e s e´ a ordem do quantil. Quando k na˜o for um valor inteiro,
ele pode ser aproximado para o inteiro mais pro´ximo ou enta˜o encontra-se o quantil por meio
de interpolac¸a˜o linear. Enta˜o,
Quantil r s
Quartil 4 {1,2,3}
Decil 10 {1,2,3,. . . ,9}
Percentil 100 {1,2,. . . , 99 }
Exemplo 2.2 Calcule Q1, Q2 e Q3 para os dados do Exemplo 2.1 pelos dois me´todos e
compare os resultados.
22
Pelo primeiro me´todo, encontramos a mediana (Q2) pelo ponto me´dio dos dois valores cen-
trais: (73+75)/2 = 74. Depois, as medianas das duas metades, que tambe´m tem um nu´mero
par de observac¸o˜es. Enta˜o, Q1 = (63 + 66)/2 = 64.5 e Q3 = (90 + 91)/2 = 90, 5. Note que
Q3 coincidiu com o percentil de ordem 75 do exemplo anterior.
Pelo segundo me´todo, localizamos a posic¸a˜o do primeiro quartil = 1 × (24 + 1)/4 = 6, 25 e
aproximamos para o inteiro mais pro´ximo, 6. Logo, o primeiro quartil e´ a observac¸a˜o de ordem
6, que e´ 63. A posic¸a˜o do terceiro quartil e´ 3× (24 + 1)/4 = 18, 75, que aproximamos para
19. Logo, o terceiro quartil e´ dado por 91. A posic¸a˜o da mediana e´ dada por 2×25/4 = 12, 5
e encontramos a mediana pelo ponto me´dio das observac¸o˜es de posic¸a˜o 12 e 13.
2.1.2 Medidas de posic¸a˜o para dados agrupados
Distribuic¸o˜es de Frequ¨eˆncias
Imagine agora que os dados para os quais desejamos encontrar as medidas de posic¸a˜o estejam
colocados na forma de uma tabela de frequ¨eˆncias, como segue,
i xi ni fi fi acumulada
1 x1 n1 f1 f1
2 x2 n2 f2 f1 + f2
...
k xk nk fk f1 + f2 + · · ·+ fk = 1
Total n 1 –
Todas as medidas de posic¸a˜o tem a mesma definic¸a˜o do caso de dados na˜o agrupados. A moda
e a mediana sa˜o calculadas da mesma forma, isto e´,
Moda: e´ o valor de xi que corresponde ao maior valor de ni ou o maior valor de fi.
Mediana: e´ o primeiro valor com frequ¨eˆncia relativa acumulada maior ou igual a 50%.
No caso da me´dia aritme´tica, podemos usar a informac¸a˜o da tabela para simplificar os ca´lculos.
O exemplo a seguir ilustra a situac¸a˜o.
Considere o seguinte conjunto de valores:
Conjunto F: 1, 2, 2, 2, 3, 3, 3, 3, 4, 4. Observe que o 2 aparece 3 vezes, o valor 3 aparece 4 vezes
e o valor 4 aparece 2 vezes no conjunto. A me´dia aritme´tica e´,
Me =
1+ 2 + 2 + 2 + 3 + 3 + 3 + 3+ 4 + 4
10
=
1 + 3× 2 + 4× 3 + 2× 4
10
=
27
10
= 2, 7. (1)
Os dados do conjunto F poderiam estar resumidos na seguinte tabela
i xi ni fi fi acumulada xifi
1 1 1 0, 1 0, 1 0,1
2 2 3 0, 3 0, 4 0,6
3 3 4 0,4 0,8 1,2
4 4 2 0,2 1,0 0,8
Total n 1 – 2,7
23
A u´ltima coluna foi inclu´ıda para mostrar como a conta (1) poderia ter sido feita.
De um modo geral, temos que a me´dia aritme´tica para um conjunto de dados agrupados em
uma tabela de frequ¨eˆncias e´,
Me = x¯ =
∑k
i=1 xini
n
=
k∑
i=1
xifi.
2.1.3 Distribuic¸a˜o em intervalos de classes
Ao contra´rio da distribuic¸a˜o simples de frequ¨eˆncias, quando as observac¸o˜es esta˜o agrupadas em
intervalos de classes, na˜o se pode recuperar toda a informac¸a˜o do conjunto original. Desta forma,
as medidas de posic¸a˜o calculadas a partir destas distribuic¸o˜es sa˜o apenas aproximac¸o˜es para as
medidas do conjunto original.
Considere a seguinte distribuic¸a˜o,
Classe xi ni fi fi acumulada
l1 ` L1 x1 n1 f1 f1
l2 ` L2 x2 n2 f2 f1 + f2
...
lk ` Lk xk nk fk f1 + f2 + · · ·+ fk = 1
Total n 1 –
em que li e Li denotam os limites inferior e superior da classe i, respectivamente (em geral, li+1 =
Li);
xi e´ o ponto me´dio do intervalo da i-e´sima classe, isto e´,
xi =
li + Li
2
.
O s´ımbolo ` indica que o limite inferior esta´ inclu´ıdo na classe e o limite superior na˜o. A moda e
a me´dia sa˜o calculadas exatamente como na distribuic¸a˜o simples de frequ¨eˆncia. No caso da me´dia,
Me =
∑k
i=1 xini
n
=
k∑
i=1
xifi.
Para encontrar a mediana podemos utilizar o histograma, que fornece uma melhor aproxi-
mac¸a˜o neste caso. Isto e´, a mediana e´ a observac¸a˜o que deixa abaixo dela uma a´rea correspondente
a 50% da a´rea total do histograma. Lembre-se que a a´rea total de um histograma e´ igual a 1 se o
histograma e´ de proporc¸a˜o, 100% se o histograma e´ de porcentagem ou n se for de frequ¨eˆncia.
Exemplo 2.3 Vamos calcular a me´dia aritme´tica e a mediana para a seguinte distribuic¸a˜o em
classes de frequ¨eˆncia. Para a mediana, vamos construir um histograma de proporc¸a˜o.
Classe xi ni fi xifi fi ac. ∆i di
0 ` 3 1,5 10 0,40 0,60 0,40 3 0.133
3 ` 5 4,0 4 0,16 0,64 0,56 2 0.080
5 ` 10 7,5 5 0,20 1,50 0,76 5 0.040
10 ` 15 12,5 2 0,08 1,00 0,84 5 0.016
15 ` 25 20,0 40,16 3,20 1,00 10 0.016
Total 25 1,00 6,94 – – –
24
Enta˜o, a me´dia aritme´tica e´ x¯ = 6, 94. A classe que conte´m a mediana e´ a segunda classe, pois ela
e´ a primeira cuja frequ¨eˆncia relativa acumulada ultrapassa 0,5.
Histograma
Para obter o valor da mediana, vamos procurar o valor na classe 3 ` 5, que limita uma a´rea
igual a 0,1 entre ele e 3 (pois a classe anterior corresponde a uma a´rea igual a 0,4). Logo,
(Md− 3)× 0, 08 = 0, 1⇒ Md = 0, 1
0, 08
+ 3 = 4, 25
O valor 0,08 que aparece acima e´ o valor da densidade de proporc¸a˜o na classe mediana que
define a altura do bloco.
QuantisOs quantis podem ser calculados de forma ana´loga a` empregada para obtenc¸a˜o da mediana,
bastando determinar qual a porcentagem que deve ficar abaixo do quantil desejado.
2.1.4 Propriedades das medidas de posic¸a˜o
Com excec¸a˜o das me´dias harmoˆnica e geome´trica, todas as outras medidas de posic¸a˜o vistas nesta
sec¸a˜o satisfazem as seguintes propriedades:
1. Se X = {a, a, . . . , a}, enta˜o as medidas de posic¸a˜o sa˜o iguais a a.
2. Se X = {x1, x2, . . . , xn} e Y = {x1 + a, x2 + a, . . ., xn + a}, enta˜o as medidas de posic¸a˜o do
conjunto Y sa˜o as medidas de posic¸a˜o de X somadas com a. Enta˜o, Me(Y) = Me(X) + a,
Md(Y) = Md(X) + a, Q1(Y) = Q1(X) + a, etc. Isto e´, se somamos uma constante a todos
os elementos de um conjunto, suas medidas de posic¸a˜o ficam somadas da mesma constante.
25
3. Se X = {x1, x2, . . . , xn} e Y = {ax1, ax2, . . . , axn}, enta˜o as medidas de tendeˆncia central
do conjunto Y sa˜o as medidas de tendeˆncia central de X, multiplicadas por a. Enta˜o,
Me(Y) = aMe(X), Md(Y) = aMd(X). Se a constante a for positiva, esta propriedade e´
satisfeita tambe´m pelos quantis e teremos Q1(Y) = aQ1(X), etc. Isto e´, se multiplicamos
todos os elementos de um conjunto por uma constante positiva, suas medidas de posic¸a˜o ficam
multiplicadas pela mesma constante. Se a constante a for negativa, os quantis se alteram
pois a posic¸a˜o dos valores no grupo se altera. Mas teremos por exemplo, Q1(Y) = aQ3(X)
e Q3(Y) = aQ1(X).
4. (Consequ¨eˆncia de 2 e 3). Se X = {x1, x2, . . . , xn} e Y = {ax1 + b, ax2 + b, . . . , axn + b},
com a > 0 (veja propriedade 3), enta˜o Me(Y) = aMe(X) + b, Md(Y) = aMd(X) + b,
Q1(Y) = aQ1(X) + b, etc.
2.2 Medidas de Dispersa˜o
A sumarizac¸a˜o de um conjunto de dados por meio de uma u´nica medida representativa de tendeˆncia
central, esconde toda a informac¸a˜o sobre a variabilidade deste conjunto. Vejamos o exemplo
seguinte.
Exemplo 2.4 Considere os seguintes conjuntos
X= {3, 4, 5, 6, 7} X¯ = 5.0 Md = 5.0
Y= {1, 3, 5, 7, 9} Y¯ = 5.0 Md = 5.0
Z= {5, 5, 5, 5, 5} Z¯ = 5.0 Md = 5.0
W= {3, 5, 5, 7} W¯ = 5.0 Md = 5.0
V= {−20, 5, 30} V¯ = 5.0 Md = 5.0
Observe que a identificac¸a˜o de cada um desses conjuntos pela me´dia ou pela mediana nada informa
sobre a variabilidade presente nos dados. Por exemplo, o conjunto V e´ bem mais disperso que o
conjunto Z. Surge enta˜o a necessidade de se estabelecer uma medida que nos permita comparar a
variabilidade de conjuntos de dados como os descritos acima.
O princ´ıpio ba´sico de uma medida de dispersa˜o e´ o de analisar os desvios das observac¸o˜es em
relac¸a˜o a` uma medida de tendeˆncia central. Embora estes desvios possam ser definidos em relac¸a˜o
a` mediana, utilizamos aqui os desvios em relac¸a˜o a` me´dia aritme´tica.
• Me´dia dos desvios em relac¸a˜o a` me´dia Considerando apenas a me´dia destes desvios,
ter´ıamos, para qualquer conjunto de valores∑n
i=1(xi − x¯)
n
= 0,
logo, esta na˜o e´ uma boa medida.
• Desvio me´dio O desvio me´dio de um conjunto de valores, que denotaremos DM , e´ a me´dia
das distaˆncias dos pontos a` sua me´dia. Isto e´,
DM(X) =
∑n
i=1 |xi − x¯|
n
.
26
• Variaˆncia A variaˆncia de um conjunto de valores, que denotaremos V ar, e´ a me´dia dos
quadrados dos desvios em relac¸a˜o a` me´dia (ou do quadrado das distaˆncias). Isto e´,
V ar(X) =
∑n
i=1(xi − x¯)2
n
.
Uma vantagem da variaˆncia em relac¸a˜o ao desvio me´dio e´ que sua fo´rmula pode ser simplifi-
cada, facilitando seu ca´lculo. Tem-se
V ar(X) =
∑n
i=1(xi − x¯)2
n
=
∑n
i=1 x
2
i
n
− x¯2.
• Desvio Padra˜o O desvio padra˜o de um conjunto de dados, DP , e´ a raiz quadrada da
variaˆncia. Tem a vantagem de ter a mesma unidade dos dados originais.
DP (X) =
√
V ar(X).
• Intervalo Interquart´ılicoO intervalo interquart´ılico (ou intervalo interquartil) e´ a diferenc¸a
entre o terceiro e primeiro quartis, isto e´,
IQ = Q3 − Q1.
• Coeficiente de Variac¸a˜o Algumas vezes e´ conveniente expressar a variabilidade de um
conjunto de dados em termos relativos. Por exemplo, um desvio padra˜o de 10 pode ser
insignificante se a ordem de grandeza das observac¸o˜es for 10.000 mas pode ser altamente
significante se a ordem de grandeza for 50. O coeficiente de variac¸a˜o e´ definido por
cv(X) =
DP (X)
X¯
.
Como o desvio padra˜o tem a mesma unidade de medida das observac¸o˜es originais, o coeficiente
de variac¸a˜o e´ adimensional, o que permite a comparac¸a˜o de diferentes conjuntos de dados.
Note que o coeficiente de variac¸a˜o na˜o esta´ definido quando a me´dia das observac¸o˜es e´ zero.
Exemplo 2.5 Ordene os conjuntos do Exemplo 2.4 segundo o desvio me´dio e segundo a variaˆncia
Conjunto DM V ar
X= {3, 4, 5, 6, 7} 1,2 2
Y= {1, 3, 5, 7, 9} 2,4 8
Z= {5, 5, 5, 5, 5} 0 0
W= {3, 5, 5, 7} 1 2
V= {−20, 5, 30} 16,67 416,67
2.2.1 Medidas de dispersa˜o para dados agrupados
Quando os dados esta˜o agrupados, as definic¸o˜es das medidas de dispersa˜o na˜o mudam, mas seu
ca´lculo pode ser bastante simplificado. No caso de dados agrupados em classes de frequeˆncias, os
valores sera˜o aproximac¸o˜es dos verdadeiros, pois na˜o ha´ como recuperar o conjunto original. Em
ambos os casos, as fo´rmulas sa˜o as mesmas.
Temos:
27
• Desvio Me´dio
DM(X) =
∑k
i=1 |xi − x¯|ni
n
=
k∑
i=1
|xi − x¯|fi.
• Variaˆncia
V ar(X) =
∑k
i=1(xi − x¯)2ni
n
=
k∑
i=1
(xi − x¯)2fi.
A fo´rmula da variaˆncia tambe´m pode ser simplificada:
V ar(X) =
∑k
i=1 x
2
ini
n
− x¯2 =
k∑
i=1
x2i fi − x¯2.
• Desvio Padra˜o
DP (X) =
√
V ar(X).
Como nas sec¸o˜es 2.1.2 e 2.1.3, fi denota a proporc¸a˜o da i-e´sima classe, k denota o nu´mero de
classes e xi denota o i-e´simo valor no caso de distribuic¸o˜es simples de frequeˆncias ou o ponto me´dio
da i-e´sima classe no caso de distribuic¸o˜es em classes de frequeˆncias.
2.2.2 Propriedades das medidas de dispersa˜o
1. Se X = {a, a, . . . , a}, enta˜o as medidas de dispersa˜o de X sa˜o todas iguais a zero (inclusive
o coeficiente de variac¸a˜o se a 6= 0).
2. Somar uma constante a todos os elementos de um conjunto: X = {x1, x2, . . . , xn}, Y =
{x1 + a, x2 + a, . . . , xn + a}.
• Desvio me´dio: DM(Y ) = DM(X).
• Variaˆncia : V ar(Y ) = V ar(X).
• Desvio padra˜o: DP (Y ) = DP (X).
• Intervalo Interquart´ılico: IQ(Y ) = IQ(X).
Estas propriedades podem ser ditas como se segue: se deslocarmos um conjunto de dados, a
sua posic¸a˜o relativa a` me´dia na˜o muda uma vez que a me´dia tambe´m se desloca.
Note que o coeficiente de variac¸a˜o se altera.
3. Multiplicar todos os elementos de um conjunto por uma constante X = {x1, x2, . . . , xn},
Y = {ax1, ax2, . . . , axn}.
• Desvio me´dio: DM(Y ) = |a|DM(X).
• Variaˆncia : V ar(Y ) = a2V ar(X).
• Desvio padra˜o: DP (Y ) = |a|DP (X).
• Intervalo Interquart´ılico: IQ(Y ) = |a|IQ(X).
O que acontece com o coeficiente de variac¸a˜o?
28
2.3 Outras medidas
Medidas de tendeˆncia central e medidas de dispersa˜o podem na˜o ser adequadas para representar
um determinado conjunto de dados pois podem ser afetadas por valores extremos e muitas vezes
na˜o da˜o ide´ia da assimetria ou forma da distribuic¸a˜o dos valores. Ale´m das medidas de posic¸a˜o e
das de dispersa˜o, existem tambe´m algumas medidasque se referem a` forma de uma distribuic¸a˜o.
Mais especificamente, sa˜o medidas de assimetria e medidas do grau de achatamento ou curtose de
uma distribuic¸a˜o.
2.3.1 Boxplot
Uma forma alternativa para se representar um conjunto de dados, e´ o “boxplot” ou desenho es-
quema´tico, que fornece informac¸o˜es sobre a assimetria, achatamento, dispersa˜o e posic¸a˜o dos dados
ale´m de informar sobre dados discrepantes, aqueles com valor muito diferente do restante do con-
junto. E´ extremamente u´til quando queremos comparar va´rias distribuic¸o˜es. Ele e´ constru´ıdo a
partir do esquema de cinco nu´meros, que sa˜o
• os quartis Q1, Q2 e Q3;
• os extremos M (valor ma´ximo) e m (valor mı´nimo).
Para construir o “boxplot”, calculamos ainda as seguintes quantidades:
Li = Q1 − 32IQ e Ls = Q3 +
3
2
IQ,
que definem as observac¸o˜es discrepantes. Todo ponto que for menor que Li ou maior que Ls sera´
considerado um ponto discrepante (“outlier”).
Construc¸a˜o
Em um eixo vertical, representamos os valores da varia´vel em questa˜o. Do lado do eixo cons-
tru´ımos uma caixa da seguinte forma: a base fica na altura do primeiro quartil (Q1) e o topo da
caixa fica na altura do terceiro quartil (Q3). Depois marcamos no interior da caixa uma linha
na altura da mediana (Q2). Do alto da caixa segue uma linha ate´ o maior valor que na˜o seja
discrepante e da base da caixa segue uma linha ate´ o menor valor que na˜o seja discrepante. Os
pontos discrepantes sa˜o marcados individualmente.
Exemplo 2.6 Suponha que os “boxplot” abaixo representem as distribuic¸o˜es da produc¸a˜o em
toneladas por hectare, de quatro diferentes variedades de cana-de-ac¸u´car. Comente sobre as prin-
cipais diferenc¸as entre estas distribuic¸o˜es.
29
Figura 5: “boxplot”: Produc¸a˜o de cana de ac¸u´car
30
2.4 Exerc´ıcios
2.1 -♠ Quer se estudar o nu´mero de erros de impressa˜o de um livro. Para isso escolheu-se uma
amostra de 50 pa´ginas, encontrando-se o seguinte nu´mero de erros por pa´gina:
Erros Frequeˆncia
0 25
1 20
2 3
3 1
4 1
a) Qual o nuu´mero me´dio de erros por pa´gina?
b) E o nu´mero mediano?
c) Qual e´ o desvio padra˜o?
d) Fac¸a uma representac¸a˜o gra´fica para a distribuic¸a˜o.
e) Se o livro tem 500 pa´ginas, qual o nu´mero total de erros esperado no livro?
2.2 - ♠ As taxas de juros recebidas por 10 ac¸o˜es durante um certo per´ıodo foram (medidas em
porcentagem) 2, 59; 2, 64; 2, 60; 2, 57; 2, 55; 2, 61; 2, 50; 2, 63; 2, 64. Calcule a me´dia, a mediana
e o desvio padra˜o.
2.3 ♠ a) Deˆ uma situac¸a˜o onde voceˆ acha que a mediana e´ uma medida mais apropriada do que
a me´dia.
b) Esboce um histograma onde a me´dia e a mediana coincidem. Existe alguma classe de
histogramas onde isso sempre acontece?
c) Esboce os histogramas de treˆs varia´veis (X, Y e Z) com a mesma me´dia aritme´tica, mas com
as variaˆncias ordenadas em ordem crescente.
2.4 - ♠ Numa pesquisa realizada com 100 famı´lias levantaram-se as seguintes informac¸o˜es:
Nu´mero de filhos 0 1 2 3 4 5 mais que 5
Frequeˆncia de famı´lias 17 20 28 19 7 4 5
a) Qual a mediana do nu´mero de filhos?
b) E a moda?
c) Que problemas voceˆ enfrentaria para calcular a me´dia neste caso ? Fac¸a alguma suposic¸a˜o
e encontre-a.
31
2.5 -♠ Suponha que a varia´vel de interesse tenha a distribuic¸a˜o como na figura abaixo:
Voceˆ acha que a me´dia e´ uma boa medida de posic¸a˜o? E a mediana? Justifique.
2.6 - ♠ O nu´mero de desquites na cidade, de acordo com a durac¸a˜o do casamento, esta´ represen-
tado na tabela abaixo:
Anos de Nu´mero de
casamento desquites
0 ` 6 2800
6 ` 12 1400
12 ` 18 600
18 ` 24 150
24 ` 32 50
a) Qual a durac¸a˜o me´dia dos casamentos? E a mediana?
b) Encontre a variaˆncia e o desvio padra˜o da durac¸a˜o dos casamentos.
c) Construa o histograma da distribuic¸a˜o.
d) Encontre o 1o e o 9o decis.
e) Qual o intervalo interquartil?
f) Se s representa o desvio padra˜o da distribuic¸a˜o, qual a porcentagem das observac¸o˜es com-
preendidas entre x¯− 2s e x¯+ 2s?
2.7 - ♠ O Departamento de Pessoal de uma certa firma fez um levantamento dos sala´rios dos 120
funciona´rios do setor administrativo, obtendo os seguintes resultados:
Faixa Salarial Frequeˆncia
( X sala´rio mı´nimo) relativa
0 ` 2 0,25
2 ` 4 0,40
4 ` 6 0,20
6 ` 10 0,15
32
a) Esboce o histograma correspondente.
b) Calcule a me´dia, a variaˆncia e o desvio padra˜o.
c) Calcule o 1o quartil e a mediana.
d) Se for concedido um aumento de 100% para os 120 funciona´rios, havera´ alterac¸a˜o na me´dia?
E na variaˆncia? Justifique sua resposta.
e) Se for concedido um abono de 2 sala´rios mı´nimos para todos os 120 funciona´rios, havera´
alterac¸a˜o na me´dia? E na variaˆncia? E na mediana? Justifique sua resposta.
2.8 -♠ O que acontece com a mediana, a me´dia e o desvio padra˜o de uma se´rie de dados quando:
a) cada observac¸a˜o e´ multiplicada por 2?
b) soma-se 10 a cada observac¸a˜o?
c) subtrai-se a me´dia geral x¯ de cada observac¸a˜o?
d) de cada observac¸a˜o subtrai-se x¯ e divide-se pelo desvio padra˜o DP (X) ?
2.9 - ♠ Na companhia A, a me´dia dos sala´rios e´ 10.000 unidades e o 3o quartil e´ 5000.
a) Se voceˆ se apresentasse como candidato a essa firma e se o seu sala´rio fosse escolhido ao acaso
entre os poss´ıveis sala´rios, o que seria mais prova´vel: ganhar mais ou menos que 5.000 unidades?
b) Suponha que na companhia B a me´dia dos sala´rios e´ 7.000 unidades e a variaˆncia e´ prati-
camente zero, e la´ o seu sala´rio tambe´m seria escolhido ao acaso. Em qual companhia voceˆ se
apresentaria para procurar emprego?
2.10 - ♠ Estudando-se o consumo dia´rio de leite, verificou-se que em certa regia˜o, 20% das famı´lias
consomem ate´ um litro, 50% das famı´lias consomem entre 1 e 2 litros, 20% consomem entre 2 e 3
litros e o restante consome entre 3 e 5 litros. Para a varia´vel em estudo:
a) Escreva as informac¸o˜es acima em uma tabela de frequeˆncias.
b) Construa o histograma.
c) Calcule a me´dia e a mediana.
d) Calcule a variaˆncia e o desvio padra˜o.
e) Qual o valor do 1o quartil?
2.11 - ♠ A distribuic¸a˜o de frequeˆncias do sala´rio anual dos moradores do bairroA que teˆm alguma
forma de rendimento e´ apresentada na tabela abaixo:
Faixa salarial Frequeˆncia
( × 10 sal. mı´n.)
0 ` 2 10.000
2 ` 4 3.900
4 ` 6 2.000
6 ` 8 1.100
8 ` 10 800
10 ` 12 700
12 ` 14 2.000
TOTAL 20.500
33
Dados :
∑
xi = 150.300
∑
x2i = 4.906.500
a) Construa um histograma da distribuic¸a˜o.
b) Qual a me´dia e o desvio padra˜o da varia´vel sala´rio?
c) O bairro B apresenta, para a mesma varia´vel, uma me´dia de 7,2 e um desvio padra˜o de 15,1.
Em qual dos bairros a populac¸a˜o e´ mais homogeˆnea quanto a` renda?
d) Construa a func¸a˜o de distribuic¸a˜o acumulada e determine qual a faixa salarial dos 10% mais
ricos da populac¸a˜o do bairro.
e) Qual a “riqueza total” dos moradores do bairro?
2.12 - ♠ Um o´rga˜o do governo do estado esta´ interessado em determinar padro˜es sobre o investi-
mento em educac¸a˜o, por habitante, realizado pelas prefeituras. De um levantamento em 10 cidades,
foram obtidos os valores (codificados) da tabela abaixo:
Cidade A B C D E F G H I J
Investimento 20 16 14 8 19 15 14 16 19 18
Neste caso, sera´ considerado como investimento ba´sico a me´dia final das observac¸o˜es, calculada
da seguinte maneira:
1- Obter uma me´dia inicial;
2- Eliminar do conjunto aquelas observac¸o˜es que forem superiores a` me´dia inicial mais duas vezes
o desvio padra˜o, ou inferiores a` me´dia inicial menos duas vezes o desvio padra˜o;
3-Calcular a me´dia final com o novo conjunto de observac¸o˜es.
Qual o investimento ba´sico que voceˆ daria como resposta?
Observac¸a˜o: O procedimento do item 2 tem a finalidade de eliminar do conjunto a cidade cujo
investimento e´ muito diferente dos demais.
2.13 ♠ Dado o histograma abaixo, calcular a me´dia, a variaˆncia, amoda, a mediana e o 1o quartil.
34
2.14 Em um experimento de competic¸a˜o de variedades de batatinhas, um pesquisador obteve as
seguintes produc¸o˜es em t/ha, resultados de 18 repetic¸o˜es:
Huinkul 20,1 21,1 27,0 26,4 25,4 22,3 26,1 24,0 23,2
27,0 25,2 24,6 26,5 22,5 25,8 27,1 26,2 24,1
S. Rafaela 22,6 29,9 24,2 20,6 25,1 23,5 20,2 21,0 20,5
22,1 21,3 22,1 22,6 20,7 20,3 21,5 21,0 24,1
Para cada uma das variedades:
a) calcule a me´dia e o desvio padra˜o;
b) construa um ramo e folhas;
c) construa desenhos esquema´ticos (“box-plot”), usando a mesma escala para as duas varieda-
des.
d) Com base nos resultados obtidos em a), b) e c), comente as principais diferenc¸as entre as
duas variedades. Voceˆ diria que uma das variedades e´ superior a outra? Porque?
2.15 A tabela abaixo fornece a distribuic¸a˜o do comprimento de espiga em trigo, variedade PUSA
12, obtidos em uma amostra de tamanho 400, por um produtor em 1998 (dados fict´ıcios):
Classe (cm) ni
6 ` 9 80
9 ` 11 80
11 ` 13 200
13 ` 17 40
Total 400
a) Construa um histograma de porcentagem para a distribuic¸a˜o;
b) Calcule a me´dia e o desvio padra˜o da distribuic¸a˜o;
c) O trigo e´ considerado de alta qualidade se o comprimento da espiga e´ pelo menos 11,5 cm.
Qual a porcentagem da amostra investigada que pode ser considerada de alta qualidade?
d) O comprador usual desta produc¸a˜o quer um desconto de 50% no prec¸o do trigo de espiga
muito curta (baixa qualidade). Se o produtor espera vender pelo menos 85% de sua produc¸a˜o pelo
prec¸o normal, qual deve ser o limite de comprimento da espiga do trigo de baixa qualidade?
2.16 Em um experimento com cana de ac¸u´car, foram utilizados 3 n´ıveis de pota´ssio, k1, k2 e k3
e 2 n´ıveis de fostato, p1 e p2 em 2 repetic¸o˜es para cada uma das combinac¸o˜es poss´ıveis. A tabela
abaixo fornece os resultados obtidos:
Tabela 2: Produc¸a˜o (t/ha)
Pota´ssio
Fosfato k1 k2 k3
p1 30 60 55
35 55 50
p2 50 55 60
40 61 68
35
Calcule as seguintes quantidades
a) a me´dia e o desvio padra˜o da produc¸a˜o de cana de ac¸u´car no experimento;
b) a me´dia e o desvio padra˜o da produc¸a˜o para cada n´ıvel de fosfato;
c) a me´dia e o desvio padra˜o da produc¸a˜o para cada n´ıvel de pota´ssio.
2.17 - ♠ Em uma granja foi observada a distribuic¸a˜o dos frangos com relac¸a˜o ao peso, que era a
seguinte:
Peso (gramas) ni
960 ` 980 60
980 ` 1.000 160
1.000 ` 1.020 280
1.020 ` 1.040 260
1.040 ` 1.060 160
1.060 ` 1.080 80
a) Qual a me´dia da distribuic¸a˜o?
b) Qual a variaˆncia da distribuic¸a˜o?
c) Construa o histograma.
d) Queremos dividir os frangos em quatro categorias, com relac¸a˜o ao peso, de modo que:
- os 20% mais leves sejam da categoria D;
- os 30 % seguintes sejam da categoria C;
- os 30% seguintes sejam da categoria B;
-os 20% seguintes (ou seja, os 20% mais pesados) sejam da categoria A.
Quais os limites de peso entre as categorias A, B, C e D?
e) O granjeiro decide separar deste lote os animais com peso inferior a dois desvios padro˜es
abaixo da me´dia para receberem rac¸a˜o reforc¸ada, e tambe´m separar os animais com peso superior
a um e meio desvio padra˜o acima da me´dia para usa´-los como reprodutores.
Qual a porcentagem de animais que sera˜o separados em cada caso?
2.18 - ♠ A idade me´dia dos candidatos a um determinado curso de aperfeic¸oamento sempre
foi baixa, da ordem de 22 anos. Como este curso foi planejado para atender a todas as idades,
decidiu-se fazer uma campanha de divulgac¸a˜o. Para se verificar se a campanha foi ou na˜o eficiente,
fez-se um levantamento da idade dos candidatos a` ultima promoc¸a˜o, e os resultados esta˜o na tabela
abaixo.
Idade Frequeˆncia Porcentagem
18 ` 20 18 36
20 ` 22 12 24
22 ` 26 10 20
26 ` 30 8 26
30 ` 36 2 4
TOTAL 50 100
36
a) Baseando-se nesses resultados, voceˆ diria que a campanha produziu algum efeito (isto e´,
aumentou a idade me´dia?)
b) Um outro pesquisador decidiu usar a seguinte regra: se a diferenc¸a x¯ − 22 fosse maior que
o valor 2DP (X)/
√
n, enta˜o a campanha surtiu efeito. Qual a conclusa˜o dele, baseado nos dados?
c) Fac¸a um histograma da distribuic¸a˜o.
2.19 Um fabricante de rac¸o˜es afirma que seu produto, a rac¸a˜o A, produz resultados ta˜o bons
ou ate´ melhores que os de seu concorrente, rac¸a˜o B. (Veja Exerc´ıcio 1.10) Um produtor resolveu
experimentar o novo produto para verificar a veracidade da afirmac¸a˜o do fabricante e para isto
utilizou o seguinte crite´rio, retirado de um manual de estat´ıstica:
i) Separar alguns animais com as mesmas caracter´ısticas (peso, idade, etc...) em dois grupos de
mesmo tamanho, e alimentar por um determinado tempo um dos grupos com a rac¸a˜o A e o outro
com a rac¸a˜o B.
ii) Apo´s o experimento, observar o ganho de peso de cada animal.
iii) De posse dos dois conjuntos de dados, {x1, . . . , xn}, e {y1, . . . , yn} ,(conjuntos 8 e 9, Sec¸a˜o
1.5) calcular:
t =
x¯− y¯
S∗
√
2/n
, em que S2∗ =
nV ar(A) + nV ar(B)
2n− 2
iv) Considerar as rac¸o˜es equivalentes se |t| < 2. ( Use quadro do Exerc´ıcio 2.20 abaixo)
a) Calcule as me´dias para cada grupo (x¯ e y¯)
b) Calcule as variaˆncias para cada grupo.
c) Calcule a quantidade t acima. Qual foi a decisa˜o tomada pelo produtor?
d) Fac¸a o ramo e folhas para cada uma das distribuic¸o˜es.
e) Para cada grupo, calcule a mediana, o 1o e 3o quartis e o intervalo interquart´ılico.
f) Use a mesma escala para construir os desenhos esquema´ticos para as duas distribuic¸o˜es.
(“box-plot”).
g) Observe os ramo e folhas e os “boxplot” e compare as duas distribuic¸o˜es. O que voceˆ acha
do crite´rio utilizado pelo produtor?
h) Uma pessoa, observando os dois conjuntos de dados acima, verificou que em cada um deles,
quatro observac¸o˜es pareciam discrepantes do restante de seu grupo e sugeriu que o produtor refizesse
a ana´lise desconsiderando estes dados. Qual foi o resultado da nova ana´lise?
2.20 Calcule a me´dia aritme´tica, a variaˆncia, o desvio padra˜o e construa um “box-plot” para cada
um dos conjuntos de 1 a 7 da Sec¸a˜o 1.5. (Use os dados do quadro abaixo )
37
CONJUNTO n
∑n
i=1Xi
∑n
i=1X
2
i
1 50 988 19812
2 50 8.117 1.319.095
3 75 1413 27.119
4 75 12.831 2.197.873
5 70 3.153.185 263.709.949.952
6 50 91340 322391584
7 50 131575 530232864
8 40 1382 51984
9 40 1378 51708
2.21 As Cartas Chilenas sa˜o poemas cr´ıticos ao governador das Minas Gerais, que circularam em
Ouro Preto em 1787. Na˜o foram assinadas e por isso teˆm sido realizados va´rios estudos para se
conhecer o autor. Em 1941, o mineiro Arlindo Chaves contou o nu´mero de palavras em cada um de
116 per´ıodos escolhidos nas Cartas, no poema Vila Rica de Cla´udio Manoel da Costa, e nas Liras,
de Toma´s Antoˆnio Gonzaga, os dois inconfindentes usualmente considerados como autores. Obteve
os seguintes resultados:
Palavras Gonzaga Cartas Cla´udio
0 a 10 19 21 2
10 a 20 28 26 9
20 a 30 36 31 27
30 a 40 22 18 14
40 a 50 8 11 12
50 a 60 3 4 14
60 a 90 0 3 21
90 a 120 0 2 17
Total 116 116 116∑
xini 2710 3050 5980∑
x2ini 81500 121100 408300
a) Calcule o tamanho me´dio do per´ıodo em cada caso.
b) Calcule a variaˆncia em cada caso.
c) Construa os treˆs histogramas.
d) Em sua opinia˜o, quem foi o autor das Cartas - Gonzaga ou Cla´udio? Justifique.
2.22 A ingesta˜o dia´ria me´dia per capita, em gramas, de prote´ına para 33 pa´ıses desenvolvidos e´:
81 113 108 74 79 78 90 93 105 109 106
103 100 100 100 101 101 101 95 90 90 91
92 93 87 89 78 89 85 94 94 94 79
a) Construa um ramo-e-folhas.
b) Obtenha o primeiro e terceiro quartis e a mediana dos dados.
c) Construa um “box-plot”.
38
2.23 Foram observadas as distribuic¸o˜es dos frangos em relac¸a˜o ao peso em duas granjas, I e II. Os
valores abaixo representam, em 100 gramas, o peso mı´nimo, o 1o quartil, a mediana, o 3o Quartil e
o peso ma´ximo, em cada uma das granjas. (Na˜o necessariamente nestaordem!). Use estes valores
para construir desenhos esquema´ticos (“box-plot”) das distribuic¸o˜es. Comente sobre as principais
diferenc¸as entre elas.
I 9 11 15 17 14
II 21 11 15 14 17
39
3 Ana´lise bidimensional
3.1 Introduc¸a˜o
Suponha agora que estejamos interessados em analisar o comportamento conjunto de duas varia´veis.
Vimos que podemos representar a distribuic¸a˜o conjunta de duas varia´veis por meio de uma tabela
de frequ¨eˆncias de dupla entrada e este sera´ um valioso instrumento para ajudar a compreensa˜o dos
dados.
Exemplo 3.1 Queremos analisar o comportamento conjunto das varia´veis “Sexo” (X) e “Nı´vel de
atividade f´ısica” (Y ), cuja tabela de frequ¨eˆncias reproduzimos abaixo (ver Tabela 1.5).
Distribuic¸a˜o conjunta: Nı´vel de atividade f´ısica por Sexo
Sexo
Atividade Feminino Masculino Total
Ativo 0 4 4
Me´dio 5 6 11
Sedenta´rio 12 18 30
Total 17 28 45
A linha dos totais fornece a distribuic¸a˜o da varia´velX e a coluna dos totais fornece a distribuic¸a˜o
da varia´vel Y . As distribuic¸o˜es assim obtidas sa˜o chamadas de distribuic¸o˜es marginais das varia´veis
X e Y .
Podemos ainda construir tabelas de frequ¨eˆncias relativas, como foi feito no caso unidimensional.
Em uma distribuic¸a˜o conjunta, podemos expressar a proporc¸a˜o de cada casela de treˆs maneiras
diferentes: em relac¸a˜o ao total geral; em relac¸a˜o ao total de cada linha ou em relac¸a˜o ao total de
cada coluna. A mais conveniente a ser usada dependera´ do objetivo da pesquisa. Construiremos a
seguir, com os dados da tabela acima, as treˆs tabelas poss´ıveis, utilizando porcentagens.
Tabela 3.1 Distribuic¸a˜o conjunta das porcentagens em relac¸a˜o ao total geral das varia´veis X e Y
Sexo
Atividade Feminino Masculino Total
Ativo 0% 8,9%∗ 8,9%
Me´dio 11,1% 13,3% 24,4%
Sedenta´rio 26,6% 40,0% 66,7%
Total 37,8% 62,2% 100%
∗ 8,9% dos alunos sa˜o do sexo “Masculino” e seu n´ıvel de atividade f´ısico e´ “Ativo”.
40
Tabela 3.2 Distribuic¸a˜o conjunta das porcentagens em relac¸a˜o aos totais de cada coluna das
varia´veis X e Y
Sexo
Atividade Feminino Masculino Total
Ativo 0% 14,3% ∗ 8,9%
Me´dio 29,4% 21,4% 24,4%
Sedenta´rio 70,6% 64,3% 66,7%
Total 100% 100% 100%
∗ 14,4% dos alunos do sexo “Masculino” teˆm n´ıvel de atividade f´ısica “Ativo”.
Tabela 3.3 Distribuic¸a˜o conjunta das porcentagens em relac¸a˜o aos totais de cada linha das
varia´veis X e Y
Sexo
Atividade Feminino Masculino Total
Ativo 0% 100,0%∗ 100%
Me´dio 45,5% 55,5% 100%
Sedenta´rio 40% 60% 100%
Total 37,8% 62,2% 100%
∗ 100% dos alunos com n´ıvel de atividade f´ısica “Ativo”, sa˜o do sexo “Masculino”.
O principal objetivo da distribuic¸a˜o conjunta e´ descrever o grau de associac¸a˜o entre as varia´veis,
de modo que possamos prever melhor o resultado de uma delas quando conhecemos a realizac¸a˜o da
outra.
Exemplo 3.2 Em um experimento para testar a resisteˆncia de eucalyptus a` ferrugem causada
por puccinia psidii, um certo nu´mero de plantas de treˆs espe´cies diferentes de eucalyptus foram
infectadas artificalmente. Apo´s certo tempo, contou-se o nu´mero de plantas doentes. Os resultados
esta˜o na tabela abaixo.
Tabela 3.4 Nı´vel de infecc¸a˜o por puccinia psiddi em eucalyptus
Infecc¸a˜o E. citrioda E. urophylla E. cloeziana Total
Doentes 6 (5,5%) 10 (10%) 80 (72,7%) 96(30%)
Sadias 104 (94,5%) 90 (90%) 30 (27,3%) 224(70%)
Total 110(100%) 100(100%) 110(100%) 320(100%)
Os valores que aparecem entre pareˆnteses na Tabela 3.4, mostram as porcentagens do “tipo
de infecc¸a˜o” (Y ) em cada “espe´cie” (X). Estas porcentagens foram calculadas para podermos
comparar a relac¸a˜o (ou grau de associac¸a˜o) entre estas varia´veis.
41
A partir desta tabela, podemos observar que, independentemente da espe´cie, 30% das plantas
adoeceram e 70% delas permaneceram sadias (ver coluna do Total ). Na˜o havendo dependeˆncia (ou
associac¸a˜o) entre as varia´veis, esperar´ıamos estas mesmas proporc¸o˜es para cada uma das espe´cies.
Olhando atentamente as porcentagens calculadas dentro das caselas da Tabela 3.5, podemos ve-
rificar que as frequ¨eˆncias observadas sa˜o bem diferentes das frequ¨eˆncias esperadas o que nos leva
a pensar que existe uma associac¸a˜o entre estas varia´veis. Por exemplo, na espe´cie E. citrioda
esperar´ıamos 30% de plantas doentes e observamos 5,5%.
Para facilitar a comparac¸a˜o entre as frequ¨eˆncias esperadas e observadas, constru´ımos a Tabela
abaixo.
Tabela 3.5 Nı´vel de infecc¸a˜o por puccinia psiddi em eucalyptus (frequ¨eˆncias observadas e
esperadas)
Espe´cie
E. citrioda E. urophylla E. cloeziana
Infecc¸a˜o oij eij oij eij oij eij
Doentes 6 33 10 30 80 33
Sadias 104 77 90 10 30 77
em que o ı´ndice i representa plantas doentes (i = 1) ou sadias (i = 2), o ı´ndice j representa a
espe´cie (j = 1, 2, 3), oij representa a frequ¨eˆncia observada e eij representa a frequ¨eˆncia esperada.
O problema se torna enta˜o encontrar uma medida do grau de associac¸a˜o entre as varia´veis.
3.2 Coeficientes de contingeˆncia
(Continuac¸a˜o do Exemplo 3.2). Para medirmos o grau de associac¸a˜o entre as varia´veis X e Y ,
medimos inicialmente as diferenc¸as entre o que teria sido obtido caso na˜o existisse associac¸a˜o entre
elas, e o que foi de fato observado (veja Tabela 3.6).
Tabela 3.6 Desvios entre valores observados e esperados
Infecc¸a˜o E. citrioda E. urophylla E. cloeziana Total
Doentes -27 -20 47 0
Sadias 27 20 -47 0
Total 0 0 0 0
Note que tanto a linha quanto a coluna de total sa˜o nulas e que algumas caselas apresentam
desvios maiores da suposic¸a˜o de independeˆncia. Para quantificar estes desvios, vamos considerar
os desvios relativos, rij , que levam em conta o nu´mero diferente de plantas de cada espe´cie.
rij =
(oij − eij)2
eij
.
Assim, para a casela Doentes/E. citrioda, temos (−27)2/33 = 22, 1 e para a casela Doentes/E.
cloeziana, temos (−47)2/33 = 66, 9, indicando um desvio devido a esta u´ltima casela, maior do que
aquele da primeira.
42
Uma medida do afastamento global pode ser dada pela soma dos valores. Esta medida chama-se
χ2 (qui-quadrado) e e´ dada pela expressa˜o,
χ2 =
∑
i
∑
j
(oij − eij)2
eij
.
No nosso exemplo, ter´ıamos,
χ2 =
(6− 33)2
33
+
(10− 30)2
30
+
(80− 33)2
33
+
(104− 77)2
77
+
(90− 70)2
70
+
(30− 77)2
77
= 146, 23.
Como e´ dif´ıcil dizer se este valor e´ alto ou na˜o, (seria 0 se na˜o houvesse associac¸a˜o), K. Pearson,
famoso estat´ıstico do comec¸o do se´culo, propoˆs a utilizac¸a˜o do chamado Coeficiente de Contingeˆncia
C, definido por
C =
√
χ2
χ2 + n
,
em que n e´ o nu´mero de total de observac¸o˜es. Este coeficiente e´ um nu´mero entre 0 e 1, sendo nulo
quando as varia´veis na˜o sa˜o associadas. Algumas vezes pore´m, mesmo existindo uma associac¸a˜o
perfeita, C pode na˜o ser igual a 1. Uma alternativa, enta˜o, e´ considerar como medida de associac¸a˜o
o seguinte coeficiente, que chamaremos de Coeficiente de contingeˆncia corrigido, dado por
C∗ =
C√
(t− 1)/t,
em que t e´ o mı´nimo entre o nu´mero de colunas e o nu´mero de linhas da tabela.
No exemplo acima, temos
C =
√
146, 23
146, 23+ 320
= 0, 56
e
C∗ =
0, 56√
1/2
= 0, 79
indicando que o grau de associac¸a˜o entre as varia´veis neste caso e´ bem alto.
Observac¸o˜es
• Uma maneira fa´cil de se obter o valor esperado em cada casela e´,
eij =
(Total da linha i)× (Total da coluna j)
(Total geral)
.
• O coeficiente de contingeˆncia de Pearson pode ser utilizado tanto para varia´veis qualitativas
quanto para varia´veis quantitativas agrupadas em classes.
3.3 Coeficiente de correlac¸a˜o
Quando as varia´veis envolvidas sa˜o ambas quantitativas (na˜o agrupadas), um procedimento bas-
tante u´til para se verificar a associac¸a˜o entre as varia´veis e´ o gra´fico de dispersa˜o, que nada mais e´
do que a representac¸a˜o dospares de valores em um sistema cartesiano.
43
Figura 6: Diagrama de dispersa˜o: K2O versus Pota´ssio
Exemplo 3.3 A tabela abaixo fornece os teores dos nutrientes K (Pota´ssio) e Mg (Magne´sio) em
folhas de soja, e a dose anual de adubo utilizado na plantac¸a˜o (K2O: O´xido de Pota´ssio).
Tabela 3.7
Teores de nutrientes
Dose anual de K2O(Kg/ha):X K, Y1 (g/Kg) Mg Y2(mg/Kg)
0 6 10,5
40 11 7,9
80 18 6,4
120 22 5,8
160 25 5,5
200 21 5,2
Fonte: PAB(1997) vol. 32(12) pg.1235-1249.
Na Figura 6, mostramos o diagrama de dispersa˜o entre as varia´veis X e Y1. Observando a
disposic¸a˜o dos pontos, verificamos que quando aumentamos a dose anual do adubo parece haver
uma tendeˆncia de aumento do teor do nutriente K nas folhas de soja.
No caso do Magne´sio, ao contra´rio, quando aumentamos a dose de adubo, a concentrac¸a˜o do
nutriente diminui. Veja Figura 7.
Observada uma associac¸a˜o entre as varia´veis quantitativas, desejamos quantificar o grau desta
associac¸a˜o. Estudaremos aqui a relac¸a˜o mais simples, que e´ a linear, isto e´, iremos definir uma
medida que julga o quanto a nuvem de pontos do diagrama de dispersa˜o aproxima-se de uma reta.
A medida que utilizaremos para quantificar a associac¸a˜o entre duas varia´veis quantitativas e´ o
coeficiente de correlac¸a˜o que definimos abaixo.
44
Figura 7: Diagrama de dispersa˜o: K2O versus Magne´sio
Definic¸a˜o 3.1 Dados n pares de valores (x1, y1), (x2, y2), . . . , (xn, yn), chamamos de coeficiente de
correlac¸a˜o entre as duas varia´veis X e Y a relac¸a˜o,
Cor(X, Y ) =
1
n
∑n
i=1(xi − x¯)(yi − y¯)
DP(X)DP(Y )
.
Costuma-se usar a seguinte fo´rmula equivalente de ca´lculo,
Cor(X, Y ) =
∑n
i=1 xiyi − nx¯y¯√
(
∑n
i=1 x
2
i − nx¯2)(
∑n
i=1 y
2
i − ny¯2)
.
O coeficiente de correlac¸a˜o linear assume sempre um valor entre −1 e 1. Valores positivos
correspondem a uma associac¸a˜o direta e negativos correspondem a uma associac¸a˜o inversa. Quando
o coeficiente de correlac¸a˜o for igual a 1 ou −1, existe uma associac¸a˜o linear perfeita entre X e Y e
quando ele e´ igual a 0, na˜o existe nenhuma associac¸a˜o linear entre as varia´veis.
45
3.4 Exerc´ıcios
3.1 Um time de futebol esta´ interessado em saber se as condic¸o˜es do tempo tem alguma influeˆncia
no resultado do jogo. Observaram as condic¸o˜es do tempo durante 65 partidas obtendo os seguintes
resultados:
Resultado Tempo Total
Bom Ruim
Venceu 17 5 22
Empatou 6 10 16
Perdeu 4 23 27
Total 27 38 65
a) Calcule o coeficiente de contingeˆncia e o coeficiente de contingeˆncia corrigido.
b) Com base nos resultados do item a), voceˆ diria que as condic¸o˜es do tempo tem um efeito do
resultado deste time? Comente.
3.2 100 animais foram divididos em dois grupos de 56 e 44 animais. No primeiro grupo, que foi
vacinado contra uma determinada doenc¸a, 47 animais na˜o adoeceram. No segundo grupo, que na˜o
foi vacinado, 28 animais na˜o adoeceram.
a) Construa uma tabela de contingeˆncia com os dados acima.
b) Calcule o coeficiente de contingeˆncia e o coeficiente de contingeˆncia corrigido.
c) Voceˆ diria que estes resultados sugerem que a vacina protege contra esta doenc¸a? Justifique.
3.3 Em uma pesquisa em 4 localidades, P, Q, R, e S, verificou-se que os prec¸os dos automo´veis de
350 pessoas entrevistadas pertenciam a quatro categorias, A, B, C e D. As frequ¨eˆncias observadas
foram
Prec¸o Localidade
P Q R S
A 9 10 12 19
B 13 20 18 29
C 24 29 12 25
D 34 41 18 37
a) Encontre as frequ¨eˆncias que seriam esperadas caso na˜o houvesse nenhuma associac¸a˜o entre
localidade e prec¸o do automo´vel.
b) Calcule o coeficiente de contingeˆncia e comente.
3.4 Uma companhia que fabrica ma´quinas de lavar, conduziu uma pesquisa com 500 donas de
casa que compraram destas ma´quinas em um determinado ano. Apenas 150 destas donas de casa
responderam a` pesquisa e enta˜o a companhia resolveu enviar novo questiona´rio para as outras 350
donas de casa que na˜o haviam respondido ao primeiro. Destas, 200 responderam e a companhia
46
enviou ainda um terceiro questiona´rio para as demais, obtendo outras 50 respostas. A companhia
enviou enta˜o um representante a`s resideˆncias das 100 donas de casa restantes, conseguindo assim
as 500 respostas que pretendia. Como resultado deste trabalho, a companhia suspeita que existe
alguma associac¸a˜o entre o grau de satisfac¸a˜o da dona de casa e sua boa vontade em responder ao
questiona´rio. Com base nos dados abaixo, voceˆ diria que esta suposic¸a˜o faz sentido? Justifique sua
resposta.
Satisfeita Indiferente Insatisfeita Total
Respondeu imediatamente 100 40 10 150
Respondeu segundo quest. 134 48 18 200
Respondeu terceiro quest. 21 20 9 50
Entrevista 45 42 13 100
Total 300 150 50 500
3.5 Em uma pesquisa com 5000 indiv´ıduos, desejava-se investigar uma poss´ıvel associac¸a˜o entre
daltonismo e sexo. Encontrou-se os seguintes resultados,
Sexo Visa˜o normal Daltoˆnico
Masculino 2210 190
Feminino 2540 60
Calcule o coeficiente de contingeˆncia, o coeficiente de contingeˆncia corrigido e comente.
3.6 Calcule os coeficientes de correlac¸a˜o entre X e Y1e entre X e Y2 para os dados do Exemplo
3.3.
3.7 A tabela abaixo fornece a produc¸a˜o obtida em func¸a˜o da quantidade de fertilizante utilizado
Fertilizante (X) 0 1 2 3 4 5 6 7 8
Produc¸a˜o (Y ) 160 168 176 179 183 186 189 186 184
a) Construa um diagrama de dispersa˜o para os dados acima e comente sobre a associac¸a˜o entre
as varia´veis.
b) Calcule o coeficiente de correlac¸a˜o entre X e Y . Comente.
3.8 A tabela abaixo fornece a precipitac¸a˜o mensal (X) e o nu´mero me´dio dia´rio de horas de sol
(Y ), observadas em uma estac¸a˜o metereolo´gica em Londres em 1973
Meˆs JAN FEV MAR ABR MAI JUN JUL AGO SET OUT NOV DEZ
Prec (mm) 39 35 20 63 76 65 88 54 77 51 44 60
Luz (h) 1,1 2,7 4,5 5,1 5,5 7,6 5,2 5,7 4,8 2,9 2,8 1,8
47
a) Construa um diagrama de dispersa˜o para os dados acima.
b) Calcule o coeficiente de correlac¸a˜o entre X e Y .
c) Construa uma nova varia´vel, X1, da seguinte maneira: ordene os meses de 1 a 12, atribuindo
o valor 1 ao meˆs com mais alta precipitac¸a˜o.
d) Construa outra varia´vel, Y1, ordenando os meses de 1 a 12, atribuindo o valor 1 ao meˆs com
maior me´dia de luz por dia.
e) Calcule o coeficiente de correlac¸a˜o entre X1 e Y1. Comente.
3.9 As alturas H , em cm, e os pesos W , em kg, de 10 pessoas foram medidos. Encontrou-se∑
H = 1710,
∑
W = 760,
∑
H2 = 293.162,
∑
HW = 130.628 e
∑
W 2 = 59.300. Calcule o
coeficiente de correlac¸a˜o entre os valores de H e W .
3.10 Habilidade emmatema´tica e´ o mesmo que inteligeˆncia. Para testar a validade desta afirmac¸a˜o,
testes de matema´tica e de inteligeˆncia foram aplicados em 50 garotos. Os resultados dos testes de
matema´tica (X) e os coeficientes de inteligeˆncia (Y ) forneceram os seguintes resultados:∑
xi = 25,
∑
yi = 140,
∑
x2i = 1713,
∑
y2i = 6380,
∑
xiyi = 1990.
Calcule o coeficiente de correlac¸a˜o entre X e Y e comente.
3.11 Um professor solicitou a um aluno que calculasse os coeficientes de correlac¸a˜o entre duas
varia´veis em quatro conjuntos de dados, A, B, C e D. O aluno encontrou os valores -0,90; 0,97;
0,02 e 0,67 mas perdeu todas as suas anotac¸o˜es. Com base nos diagramas de dispersa˜o abaixo,
determine os coeficientes de correlac¸a˜o para cada um dos conjuntos.
48
4 Probabilidade
4.1 Introduc¸a˜o
A distribuic¸a˜o de frequ¨eˆncias das observac¸o˜es e´ um poderoso recurso para entender a variabilidade
de um fenoˆmeno. Muitas vezes, com suposic¸o˜es adequadas e sem observar diretamente o fenoˆmeno,
podemos criar um modelo teo´rico que representa a distribuic¸a˜o das frequ¨eˆncias quando o fenoˆmeno
na˜o e´ observado diretamente. Tais modelos sa˜o chamados “Modelos Probabil´ısticos”.
Exemplo 4.1 Ao estudar as proporc¸o˜es de ocorreˆncia das faces de um

Outros materiais

Materiais relacionados

Perguntas relacionadas

Perguntas Recentes