Apostila de Estatistica Psico 1° Semestre

•
UNITAU

Tamares Paulino
22/03/2016
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 31 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 31 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 31 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística I

57.539 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
�PAGE �22�
�PAGE �30�
�Apostila de Estatística	Airton Prati	2016
CURSO DE ESTATÍSTICA
Ementa: Introdução a cálculos estatísticos. Amostragem. Estatística Descritiva. Correlação e Regressão. Probabilidades. Distribuições de Probabilidade. Testes de Hipóteses.
CONTEÚDO PROGRAMÁTICO:
1. Introdução a Cálculos Estatísticos
2. Amostragem
2.1 Conceitos
2.2 Tipos de Amostragens
3. Estatística Descritiva
3.1 Variáveis: discreta e contínua.
3.2 Tabelas: de categorias e de classes
3.3 Gráficos: de linhas, de coluna, de setores, histograma e polígono de freqüência
3.4 Medidas de posição: média, moda, mediana, quartil, decil e percentil.
3.5 Medidas de dispersão: desvio médio, variância, desvio padrão e coeficiente de variação.
4. Correlação e Regressão
4.1 Correlação Linear:
4.2 Regressão Linear:
5. Probabilidade
5.1 Introdução.:
5.2 Definições.
5.3 Operações com eventos.
5.4 Função de probabilidade.
5.5 Probabilidade condicional.
5.6 Teorema do produto.
5.7 Eventos independentes.
5.8 Variáveis aleatórias discretas.
6. Distribuições Teóricas de Probabilidades:
6.1 Distribuição Binomial
6.2 Distribuição Normal
7. Testes de Hipóteses
7.1 Teste unilateral
7.2 Teste Bilateral
Bibliografia
[1] MORETTIN, L.G., “ESTATÍSTICA BÁSICA -Estatística”, S.P.,Makron Books , 1999.
[2] VIEIRA, S., Elementos de Estatística, 3ª ed, Atlas, São Paulo, 1999
[3] LIPSCHUTZ, S., “Probabilidade”, S.P.,Makron Books , 1994.
[4] SPIEGEL, M. R., “Estatística e Probabilidade”, S.P.,McGraw-Hill, 1978.
[5] SPIEGEL, M. R., “Estatística”, São Paulo, McGraw-Hill, 1976.
[6] VIEIRA, S., Introdução a bioestatística, 3ª ed, Atlas, São Paulo, 1999.
Capitulo 1 – Amostragem
	Neste capítulo serão apresentadas apenas as noções básicas de amostragem e suas principais técnicas.
1.1 Conceitos
População – é um conjunto de indivíduos ou de objetos com pelo menos uma variável comum e observável. Usa-se N para indicar o tamanho da população.
Amostra – é uma parte, um subconjunto dos elementos da população. Usa-se n para indicar o número de elementos da amostra.
Amostragem – é o processo de obtenção (ou extração) de amostras de uma população.
Parâmetro – é a medida usada para descrever uma característica numérica da população. Genericamente representa-se o parâmetro por (. A média ((), a variância ((2) e o coeficiente de correlação (() são alguns exemplos de parâmetros populacionais.
Estimador – também denominado estatística de um parâmetro populacional – é uma característica numérica determinada na amostra. Genericamente, representa-se o estimador por 
 (teta chapéu). A média amostral (
), a variância amostral (s2) e o coeficiente de correlação amostral (r) são exemplos de estimadores.
Estimativa – é o valor numérico determinado pelo estimador, representa-se genericamente por 
.
Erro amostral – é o erro que ocorre justamente pelo uso da amostra. Ele é designado pelo símbolo ( e é definido por: 
Amostragem probabilística – é o processo de seleção de uma amostra no qual cada unidade da população tem probabilidade de pertencer à amostra, diferente de zero e conhecida.
Amostragem não-probabilística – neste processo a probabilidade de seleção é desconhecida para alguns ou todos os elementos da população, podendo alguns destes elementos ter probabilidade nula de pertencer à amostra. Exemplo: amostras intencionais, amostras a esmo, amostras de voluntários, etc.
1.2 Tipos de Amostragens
Amostragem Probabilística
Amostragem Casual Simples ou Aleatória.
Amostragem Sistemática.
Amostragem por Conglomerados.
Amostragem Estratificada.
Amostragem não-probabilística
Amostragem com inacessibilidade a toda a população.
Amostragem a esmo ou sem norma.
Amostragem de material contínuo.
Amostragem intencional.
Amostragem Casual Simples ou Aleatória
Definição. É aquela em que todo elemento da população tem igual probabilidade de pertencer à amostra e todas as amostras possíveis têm igual probabilidade de ocorrer.
Exemplo: Os elementos da amostra são sorteados entre todos os elementos da população por algum dispositivo adequado (Tabela 5, por exemplo).
Amostragem Sistemática
Definição: É aquela em que os elementos da população se apresentam ordenados e a retirada é feita periodicamente.
Exemplo: Numa lista telefônica, sorteia-se um entre os 100 primeiros assinantes e a partir deste retira-se outro a cada 100.
Amostragem por Conglomerados
Definição: É aquela em que a população está subdividida em pequenos grupos chamados conglomerados e tem as seguintes características: (a) dentro de cada conglomerado há uma grande variabilidade ou heterogeneidade; (b) entre conglomerados há uma pequena heterogeneidade ou grande homogeneidade.
Exemplo: Os trabalhadores da indústria automobilística estão dispostos em conglomerados, isto é, cada montadora é um conglomerado. Então, sorteia-se um conglomerado e em seguida retira-se a amostra desse conglomerado por sorteio, representando todos os trabalhadores da indústria automobilística.
Amostragem Estratificada
Definição: É aquela obtida de uma população que se divide em sub-populações ou estratos, sendo razoável supor que, de estrato para estrato, a variável de interesse apresente um comportamento bastante diverso, tendo comportamento razoavelmente homogêneo dentro de cada estrato.
Exemplo: Numa pesquisa de renda média familiar podemos dividir uma cidade nos seguintes estratos: bairros de classe A, bairros de classe B, bairros de classe C, etc. e em seguida retirar um número proporcional de elementos de cada estrato para formar a amostra estratificada.
Amostragem com inacessibilidade a toda a população.
Definição: É aquela na qual a população não se encontra toda disponível para formar a amostragem.
Exemplo: A população de peças fabricadas por uma máquina. Uma parte das peças dessa população ainda não foram fabricadas, portanto, não estão disponíveis para serem retiradas no processo de amostragem.
Amostragem a esmo ou sem norma
Definição: É aquela na qual o amostrador, para simplificar o processo, procura ser aleatório sem, no entanto, realizar propriamente o sorteio usando algum dispositivo aleatório confiável.
Exemplo: A extração de uma amostra de 100 parafusos de uma caixa contendo10000, evidentemente não se faz através de sorteio por ser extremamente trabalhoso, faz-se então através de retiradas a esmo.
Amostragem de material contínuo
Definição: É aquela na qual é impraticável a realização de um sorteio rigoroso para a retirada da amostra.
Exemplo: A extração de uma amostra de uma população líquida ou gasosa. Neste caso, o que se faz é homogeneizar bem a população e em seguida retirar a amostra a esmo.
Amostragem intencional
Definição: É aquela em que o amostrador deliberadamente escolhe certos elementos para pertencer à amostra, por julgar tais elementos bem representativos da população.
Exemplo: Muitas amostragens de pesquisa de opinião são obtidas dessa maneira, por motivo de tempo e custo.
Exercícios Propostos 
1.1 Dada uma população com seis elementos, A, B, C, D, E e F, explique como você faria para obter, dessa população, uma amostra aleatória com três elementos.
1.2 Descreva uma forma de obter uma amostra sistemática com 10 elementos de uma população de 100 elementos.
1.3 Descreva a forma de obter uma amostra estratificada dos empregados de uma firma, considerando que existem empregados de escritório, empregados de oficina e representantes da firma.
1.4 Se uma moeda for jogada 20 vezes, os resultados constituirão uma amostra de tamanho 20 da população infinita de resultados que podem ocorrer quando se joga uma moeda. Obtenha três amostras desse tipo, isto é, jogue uma moeda 20 vezes e depois repita a experiência mais duas vezes. Compare a população de caras obtidas nas três amostras.
1.5 Dada a população da tabela abaixo (rendas em R$ 1000,00),
Retire uma amostrealeatória simples de tamanho 10 e calcule sua média;
Calcule o erro absoluto entre a média calculada na amostra e na população.
	29
	6
	34
	12
	15
	31
	34
	20
	8
	30
	8
	15
	24
	22
	35
	31
	25
	26
	20
	10
	30
	4
	16
	21
	14
	21
	16
	18
	20
	12
	31
	20
	12
	18
	12
	25
	26
	13
	10
	5
	13
	19
	30
	17
	25
	29
	25
	28
	32
	15
	10
	21
	18
	7
	16
	14
	11
	22
	21
	36
	32
	17
	15
	13
	8
	12
	23
	25
	13
	21
	5
	12
	32
	21
	10
	30
	30
	10
	14
	17
	34
	22
	30
	48
	19
	12
	8
	7
	15
	20
	26
	25
	22
	30
	33
	14
	17
	13
	10
	9
�
Capitulo 2	ESTATÍSTICA DESCRITIVA
2.1	Conceitos Fundamentais
O conhecimento científico não é um conhecimento definitivo sobre a realidade, mas um conhecimento hipotético, que pode ser questionado e corrigido. Ensinar ciência não significa apenas descrever fatos, enunciar leis e apresentar novas descobertas, mas ensinar o método científico, que é a maneira crítica de buscar o conhecimento.
O método científico exige, porém, organizar dados, analisar e tomar decisões em condições de incerteza. Dá suporte técnico a esse trabalho a Estatística, que pode ser vista, pelo pesquisador, como uma ferramenta do método científico.
O Pensamento Científico e a Estatística.
A ciência não é a verdade, mas antes ela é uma maneira de pensar especial, metódica. É um processo pelo qual a experimentação é usada para responder questões. Este processo de experimentação é chamado “Método Científico” e envolve vários passos, que podem ser resumidos em:
Observação: Os cientistas são geralmente curiosos sobre seus campos de estudo. Esta curiosidade faz com que eles indaguem sobre as coisas que observam no decorrer de suas pesquisas.
Hipóteses: À medida que os cientistas formulam questões, eles naturalmente tentam respondê-las. Estas tentativas para responder as questões levam a hipóteses sobre as respostas das questões.
Testes: De todos os passos do método científico, aquele que realmente separa ciência de outras disciplinas é o processo de experimentação. Na tentativa de provar ou negar a hipótese, um cientista projeta um experimento para testar a teoria. Um aspecto importante da experimentação científica é sua repetibilidade. Em outras palavras, se duas pessoas diferentes em duas partes diferentes do mundo realizam o mesmo experimento, sob as mesmas condições, eles devem obter os mesmos resultados.
Em muitos fenômenos naturais, principalmente os sociais, os biológicos, os econômicos e os tecnológicos, a ferramenta mais adequada para testar hipóteses é a Estatística. Daí o grande carinho e interesse que o estudante de Ciências e de Tecnologias deve dar ao estudo da estatística. Ela lhe será um instrumento de incomensurável valor na evolução de sua carreira como pesquisador e cientista de sua área.
Mas afinal, o que é a Estatística?
Estatística 
A Estatística é a disciplina que trata dos métodos científicos de coleta, organização, resumo, apresentação e análise de dados, bem como da obtenção de conclusões válidas e da tomada de decisões razoáveis em tais análises.
Por outro lado a Estatística se divide em duas partes mais ou menos distintas: a Estatística Descritiva e a Estatística Indutiva.
Estatística Descritiva
A Estatística Descritiva é a parte da estatística que procura descrever o comportamento de uma variável em estudo, resumindo dados observados e apresentando-os através de tabelas, gráficos ou medidas que permitam interpretá-los rapidamente.
Estatística Indutiva
A Estatística Indutiva é a parte da estatística que trata das condições sob as quais inferências sobre uma população, a partir de amostras, são válidas.
2.2	Definições Básicas
A seguir serão apresentados, em forma de definições, os conceitos básicos da Estatística Descritiva.
Definição 2.1 População - é o grupo total de elementos (pessoas ou objetos) em estudo.
Definição 2.2 Amostra - é uma parte da população (na prática, é uma pequena parte da população).ou, mais precisamente, Amostra é qualquer subconjunto de elementos, retirados da população.
Definição 2.3 Dado Estatístico - é toda a informação devidamente coletada e registrada, quer seja na forma de contagem ou medição. Todo o dado estatístico se refere a uma variável aleatória.
Definição 2.4 Dados Brutos - são aqueles dados estatísticos que ainda não foram numericamente organizados.
Definição 2.5 Rol ou Dados Tratados - é um arranjo de dados brutos em ordem crescente ou decrescente.
Definição 2.6 Tabelas Estatísticas - são estruturas para armazenamento e visualização de dados estatísticos organizados, e se constituem dos seguintes elementos básicos: Título, Cabeçalho, Coluna Indicadora e Corpo; e dos seguintes elementos anexos: Fonte, Notas e Chamadas.
Para facilitar a compreensão dos elementos de uma tabela estatística, considere a Tabela 2.1.
Tabela 2.1 - População residente no Brasil, segundo o sexo, de acordo com o censo demográfico de 1991
	Sexo
	População residente1
	Percentual
	Homens....................
	72.485.122
	49,4
	Mulheres..................
	74.340.353
	50,6
	Total.........................
	146.825.475
	100,0
Fonte: IBGE (1996).
Nota: Os dados desta tabela são do censo de 1991 que só foram publicados em 1996.
(1) Inclusive os estrangeiros.
Definição 2.7 Título - é o texto que explica o tipo de dados que a tabela contém.
Exemplo 2.1 Observe a Tabela 2.1. O título dessa tabela é: “População residente no Brasil, segundo o sexo, de acordo com o censo demográfico de 1991.
Definição 2.8 Cabeçalho - é a linha de texto que especifica a informação apresentada em cada coluna
Exemplo 2.2 Observe a Tabela 2.1. O cabeçalho desta tabela é:
	Sexo
	População residente
	Percentual
Definição 2.10 Coluna indicadora - é a coluna de texto que identifica o tipo de informação que cada linha contém.
Exemplo 2.3 Observe a Tabela 2.1. A coluna indicadora desta tabela é:
	Homens..............................
	Mulheres............................
	Total..................................
Definição 2.11 O Corpo da tabela - é formado pelos dados.
Exemplo 2.4 Observe a Tabela 2.1. O corpo desta tabela é:
	72.485.122
	49,4
	74.340.353
	50,6
	146.825.475
	100,0
Definição 2.12 Fonte - é o nome da entidade responsável pelo fornecimento dos dados.
Exemplo 2.5 Observe a Tabela 2.1. A fonte desta tabela é: “IBGE (1996)”.
Definição 2.13 Notas - são informações de natureza geral que servem para esclarecer o conteúdo da tabela ou para explicar o método utilizado no levantamento dos dados.
Exemplo 2.6 Observe a Tabela 2.1. A nota desta tabela é : “Os dados desta tabela são do censo de 1991 que só foram publicados em 1996”.
Definição 2.14 Chamadas - são informações de natureza específica que servem para explicar ou conceituar determinados dados.
Exemplo 2.7 Observe a Tabela 2.1. A chamada desta tabela é: “(1) Inclusive os estrangeiros.
2.3 Distribuição de freqüências
Os conceitos de freqüência e distribuição de freqüências são mais fáceis de serem apresentados e entendidos através de um exemplo. Considere o Exemplo 2.8.
Exemplo 2.8 Sejam os dados de 45 empregados de uma empresa. Os dados se referem ao número de filhos com idade inferior a 18 anos de cada empregado. Os dados estão na Tabela 2.2.
Tabela 2.2 - Número de filhos vivos, menores de 18 anos, dos empregados de uma empresa.
	2
	2
	2
	1
	3
	3
	0
	1
	3
	3
	2
	1
	0
	2
	2
	0
	3
	4
	4
	1
	1
	4
	1
	1
	6
	4
	1
	1
	2
	2
	2
	2
	2
	0
	1
	5
	3
	4
	0
	3
	2
	1
	2
	0
	6
A distribuição de freqüências é sempre apresentada por uma tabela ou por um gráfico. No caso da Tabela 2.2, tem-se dados brutos de uma variável discreta, isto é, a variável “número de filhos” assume apenas valores inteiros. Logo, cada um dos valores observados dessa variável constitui uma categoria ou classe deempregados segundo essa característica. Então, tem-se , neste caso, sete categorias que irão formar a coluna indicadora da Tabela 2.3.
Tabela 2.3 Distribuição de freqüências do número de filhos vivos, menores de 18 anos, dos empregados de uma empresa.
	Categoria
(nº de filhos)
	Freqüência
	
	f
	F
	fr
	Fr
	fp
	Fp
	0
	6
	6
	0,1333
	0,1333
	13,333
	13,333
	1
	11
	17
	0,2444
	0,3778
	24,444
	37,777
	2
	13
	30
	0,2889
	0,6667
	28,889
	66,667
	3
	7
	37
	0,1556
	0,8222
	15,556
	82,222
	4
	5
	42
	0,1111
	0,9333
	11,111
	93,333
	5
	1
	43
	0,0222
	0,9556
	2,222
	95,556
	6
	2
	45
	0,0444
	1,0
	4,444
	100,0
Definição 2.15. Freqüência absoluta simples (f) é a quantidade de elementos (empregados, no caso acima) que se encaixam em cada uma das categorias.
Definição 2.16. Freqüência absoluta Acumulada (F) de cada categoria é a soma das freqüências simples das categorias anteriores mais a da categoria em questão.
Definição 2.17. Freqüência relativa simples (fr) é a razão entre a freqüência absoluta simples e o número total (n) de elementos da amostra.
Definição 2.18. Freqüência relativa acumulada (Fr) é a soma das freqüência relativas simples das categorias anteriores mais da categoria em questão.
Definição 2.19. Freqüência percentual simples (fp) é obtida diretamente da freqüência relativa simples multiplicando-se por 100.
Definição 2.20. Freqüência percentual acumulada (Fp) é obtida diretamente da freqüência relativa acumulada multiplicando-se por 100.
2.4	Tabela de dados agrupados em classes
Quando se trabalha com grandes massas de dados brutos, costuma-se distribuí-los em classes. O número de elementos pertencentes a cada classe denomina-se freqüência da classe.
Os valores que delimitam os intervalos de classe são denominados extremos de classe. O da esquerda é chamado extremo inferior da classe e o da direita é chamado extremo superior da classe.
Definição 2.21. O ponto médio de classe é a média aritmética dos extremos de classe.
Definição 2.22. A amplitude do intervalo de classe é a diferença entre o limite superior e inferior de classe.
A Tabela 2.4 é um exemplo de tabela de distribuição de freqüências de classe.
Tabela 2.4 - Alcoólatras crônicos segundo a idade que tinham quando iniciaram o hábito de ingerir bebidas alcoólicas.
	Classe
	Ponto médio
	Freqüência
	 5 |( 10
	7,5
	2
	10 |( 15
	12,5
	9
	15 |( 20
	17,5
	34
	20 |( 25
	22,5
	28
	25 |( 30
	27,5
	12
	30 |( 35
	32,5
	9
	35 |( 40
	37,5
	2
	40 |( 45
	42,5
	4
Fonte: DANTAS (1979)
Exercícios Propostos
2.1 Construa uma tabela para mostrar que, em determinado curso, o número de alunos matriculados na 1ª , 2ª e 3ª séries era, respectivamente, 40, 35, e 29 em 1997 e 42, 36, 32 em 1998.
2.2 A altura, em centímetros, e o peso, em quilogramas, de 8 crianças com idades entre 3 e 10 anos, inclusive, em ordem crescente de idade, são dadas em seguida:
Altura média: 94; 100; 107; 113, 118; 124; 129; 133.
Peso médio: 14,4; 16,0; 18,0; 19,9; 21,6; 24,1; 26,5; 29,0.
Faça uma tabela para mostrar altura e peso das crianças, segundo a idade.
2.3 Imagine que foi obtida a opinião de 1000 pessoas a respeito da liberação de determinado filme para exibição em televisão. Dessas 1000 pessoas, 432 mostraram-se favoráveis, 322 eram contrárias, 122 não quiseram declarar sua opinião e as restantes disseram não ter opinião. Mostre esses dados numa tabela.
2.4 Jogue um dado 30 vezes e anote os resultados. Construa depois uma tabela para apresentar os resultados obtidos. Discuta a possibilidade de o dado ser viciado.
2.5 São dadas as notas de 40 alunos. Construa uma tabela de distribuição de freqüências (absolutas, relativas e percentuais) considerando classes com os seguintes intervalos: 0 ( 5, 5 ( 7, 7 ( 9, 9 ( 10.
Notas de 40 alunos, em Matemática
	7
	3
	4
	9
	5
	8
	5
	3
	8
	7
	9
	3
	1
	9
	9
	5
	7
	7
	10
	3
	4
	8
	8
	8
	7
	8
	8
	9
	3
	8
	9
	9
	7
	8
	1
	6
	10
	7
	7
	9
2.5	Apresentação de Dados em Gráficos.
Uma segunda maneira de se apresentar dados estatísticos é através de gráficos. Aliás, os gráficos facilitam muito a compreensão da distribuição de freqüências e de outras características dos mesmos.
	Para se fazer um bom gráfico, são necessários alguns cuidados:
Todo gráfico deve ter título e escala, para que possa ser interpretado sem que haja necessidade de esclarecimentos adicionais no texto.
O título do gráfico pode ser escrito acima ou abaixo do gráfico. O IBGE escreve o título acima do gráfico.
No eixo das abscissas, a escala cresce da esquerda para a direita e é escrita embaixo do eixo.
No eixo das ordenadas, a escala cresce de baixo para cima e é escrita à esquerda do eixo.
A variável apresentada em cada eixo deve ser claramente identificada no próprio eixo.
Para facilitar a leitura, podem ser feitas linhas auxiliares (grades). Neste caso, o gráfico é feito dentro de um retângulo.
Os gráficos podem exibir, em rodapé, a fonte do gráfico ou dos dados que possibilitaram a construção do mesmo.
Gráfico de Colunas.
Para entender como se faz esse gráfico, primeiro observe os dados da Tabela 2.5.
Tabela 2.5 População residente no Brasil, segundo o ano de censo demográfico.
	Ano do censo demográfico
	População
	1940(1).
	41.236.315
	1950(1).
	51.944.397
	1960(1).
	70.191.370
	1970
	93.139.037
	1980
	119.002.706
	1991
	146.815.796
Fonte: IBGE (1984); IBGE (1996).
(1) População presente.
Para apresentar os dados da Tabela 2.5 em um gráfico de colunas, como mostra a Figura 2.1, siga os seguintes passos:
Trace o sistema de eixos cartesianos;
Escreva os anos de censo no eixo das abscissas e a população no eixo das ordenadas;
Construa as colunas para representar a população em cada ano de censo. As colunas terão bases de mesma largura, mas a altura igual à população no ano do censo;
Coloque o título na figura.
Figura 2.1 População presente no Brasil, segundo o ano do censo demográfico.
2.5.2	Gráfico de Setores
O gráfico de setores (gráfico em forma de pizza ou de torta) é usado para evidenciar a composição percentual de uma amostra ou população. Para entender o uso desse gráfico, primeiro observe os dados apresentados na Tabela 2.6.
Tabela 2.6 Número de famílias brasileiras, segundo a classe social, em 1998.
	Classe social
	Número de famílias
(em milhões)
	Miseráveis.................
	3,0
	Pobres.......................
	8,5
	Emergentes...............
	21,7
	Classe média.............
	6,3
	Ricos........................
	0,3
	Total........................ 
	39,8
Fonte: Instituto InterScience (1998)
É mais fácil ver o tamanho relativo das classes sociais em um gráfico de setores. Veja a Figura 2.2. 
Para fazer o gráfico de setores siga o roteiro:
Trace uma circunferência. A área do círculo representará o total, isto é, 39,8 milhões de famílias, ou seja, 100%;
Lembre-se de que uma circunferência tem 360°. Então, se 39,8 milhões correspondem a 360°, aos 3,0 milhões de famílias miseráveis corresponderá um setor cujo ângulo x que é dado por:
		donde		
De maneira semelhante, obtém-se os ângulos dos setores para as demais categorias de famílias;
Marque os valores dos ângulos calculados na circunferência e trace os raios, separando os setores;
Para facilitar a distinção dos setores, faça diferentes hachuras para cada setor;
Coloque título e legendas.
Figura 2.2 Número de famílias brasileiras, segundo a classe social, em 1998.
Histograma.
Os dados organizados em classes podem ser apresentados em um histograma. É mais fácil entender como se faz um histograma por meio de um exemplo. Observe os dados apresentados na Tabela 2.6. Para fazer um histograma quando os intervalos são iguais, siga os seguintes passos:
Trace o sistema de eixos cartesianos;
Marqueos extremos de classes no eixo das abscissas;
No eixo das ordenadas, escreva as freqüências ou as freqüências relativas; 
Para cada classe da distribuição de freqüências, trace um retângulo com base igual ao intervalo de classe e altura igual à freqüência, ou à freqüência relativa da classe;
Coloque o título no gráfico. 
Os dados da Tabela 2.4 estão apresentados em histograma na Figura 2.3.
Figura 2.3 Alcoólatras crônicos segundo a idade em que iniciaram o hábito de ingerir bebidas alcoólicas.
Polígono de freqüências.
É mais fácil mostrar como se faz um polígono de freqüências usando um exemplo. Para fazer um polígono de freqüências, considere os dados apresentados na Tabela 2.6 e siga os seguintes passos:
Trace o sistema de eixos cartesianos;
Marque os pontos médios de classe no eixo das abscissas;
No eixo das ordenadas, coloque as freqüências;
Faça um ponto para representar cada classe. Esses pontos terão abscissa igual ao ponto médio de classe e ordenada igual à freqüência de classe;
Marque, no eixo das abscissas, um ponto que corresponda ao ponto médio de uma classe anterior à primeira; marque também um ponto que corresponda ao ponto médio de uma classe posterior à última;
Una todos esses pontos por segmentos de reta;
Coloque o título e está pronto o gráfico.
Os dados da Tabela 2.4 estão mostrados em polígono de freqüências na Figura 2.4.
Figura 2.4 Alcoólatras crônicos segundo a idade em que iniciaram o hábito de ingerir bebidas alcoólicas.
Exercícios Propostos
2.6 Imagine que se perguntou a 1000 pessoas se elas acreditavam em horóscopos. Dessas 1000 pessoas, 488 disseram acreditar, 292 disseram não acreditar, 120 disseram que tinham dúvidas e as restantes expressaram opiniões diversas. Faça um gráfico de colunas para representar esses dados.
2.7 Construa um gráfico de linhas para mostrar que, em determinada escola, a taxa de evasão escolar (porcentagem de alunos que abandonam a escola) foi 12.1; 11,3; 10,7; 15,0; 14,7; e 10,5 em 1993, 1994, 1995, 1996, 1997 e 1998, respectivamente.
2.8 A estimativa da população brasileira, de acordo com a Pesquisa Nacional por Amostragem de Domicílio (PNAD) feita pelo IBGE em 1996, é de 152.374.603 pessoas, e a PEA (População Economicamente Ativa) é de 74.138.441 pessoas. Mostre esses dados em um gráfico de setores.
2.9 Faça um histograma para apresentar os dados de idade da população brasileira. Para isso, reorganize a tabela, usando intervalos de classe iguais (todos com 10 anos). Considere que o extremo superior da última classe é 80 anos. Dica: use freqüências relativas.
�
	Grupos de idade
	População
	0 a 4 anos
	16 521 114
	5 a 9 anos
	17 420 159
	10 a 14 anos
	17 047 159
	15 a 19 anos
	15 017 472
	20 a 24 anos
	13 564 878
	25 a 29 anos
	12 638 078
	30 a 39 anos
	20 527 256
	40 a 49 anos
	13 959 402
	50 a 59 anos
	9 407 252
	60 a 69 anos 
	6 412 918
	70 e mais 
	4 309 787
	Total
	146 825 475
Fonte: IBGE (1984).
2.10 É dada uma tabela de distribuição de freqüências que apresenta pesos, em quilogramas, de recém-nascidos vivos. Faça um polígono de freqüências para apresentar seus dados. Dica: use freqüências relativas.
	Classe
	Ponto médio
	Freqüência
	0,5 |( 1,0
	0,75
	1
	1,0 |( 1,5
	1,25
	3
	1,5 |( 2,0
	1,75
	22
	2,0 |( 2,5
	2,25
	115
	2,5 |( 3,0
	2,75
	263
	3,0 |( 3,5
	3,25
	287
	3,5 |( 4,0
	3,75
	99
	4,0 |( 4,5
	4,25
	32
2.6	CÁLCULO DE ESTATÍSTICAS
Todo o parâmetro calculado em função de dados amostrais de uma determinada população, é chamado de “Estatística”. Exemplos: média, moda, desvio padrão, etc.
As estatísticas são muitas vezes agrupadas em Medidas de Posição, Medidas de Dispersão, Medidas de Assimetria, Medidas de Curtose, etc.
Nesta seção serão definidas as principais estatísticas de cada um dos grupos acima citados.
Medidas de Posição
As médias, a mediana, a moda, o quartil, o decil e o percentil são denominados Medidas de Posição. 
As médias, medianas e modas são também denominadas Medidas de Tendência Central, porque seus valores tendem a se localizar no centro do intervalo de dados que lhes deram origem.
Médias
Existem vários tipos de médias: a média aritmética, a média ponderada, a média geométrica e a média harmônica. Nesta apostila, será considerada apenas a média aritmética.
Definição: A média aritmética, ou simplesmente média, de um conjunto de n dados amostrais: 
, 
, ..., 
 é representada por 
 (lê-se: “x barra”) e definida por:
						(2.1)
Se os k dados amostrais
, 
, ..., 
 ocorrerem 
 vezes, respectivamente (isto é, se ocorrerem com as freqüências 
), a média aritmética será obtida por:
				(2.2)
Quando os dados são apresentados agrupados em classes numa tabela de distribuição de freqüências, todos os valores incluídos numa certa classe são considerados coincidentes com o ponto médio da classe.
A fórmula (2.2) é válida para esses dados agrupados quando se interpretar 
 como o ponto médio e 
 como a freqüência de classe correspondente.
Exemplo 2.9 Considere os dados da Tabela 2.7 e calcule a nota média dos estudantes do exame vestibular considerado.
Solução: Usando a fórmula 2.2 e considerando x como o ponto médio das classes obtém-se (k=10):
Logo, a nota média dos vestibulandos é aproximadamente 36,16.
Tabela 2.7 - Distribuição das notas obtidas pelos estudantes em um exame vestibular.
	Indice
(i)
	Classe
(Nota)
	Freqüência
(fi)
	Freqüência 
Acumulada (Fi)
	Ponto Médio
(xi)
	fi(xi
	1
	 0 |( 10
	4
	4
	5
	20
	2
	10 |( 20
	109
	113
	15
	1635
	3
	20 |( 30
	216
	329
	25
	5400
	4
	30 |( 40
	209
	538
	35
	7315
	5
	40 |( 50
	135
	673
	45
	6075
	6
	50 |( 60
	80
	753
	55
	4400
	7
	60 |( 70
	32
	785
	65
	2080
	8
	70 |( 80
	15
	800
	75
	1125
	9
	80 |( 90
	12
	812
	85
	1020
	10
	90 |( 100
	5
	817
	95
	475
	
	
	817
	
	
	29545
Moda
A moda é o valor que ocorre com maior freqüência num conjunto de dados. Alguns conjuntos de dados são multimodais, isto é, possuem mais que uma moda.
Um exemplo facilita o entendimento do conceito moda. Considere o exemplo 2.10, moda desse conjunto é o 7 porque ele aparece três vezes, enquanto os outros aparecem apenas uma vez.
Exemplo 2.10 Imagine que um estudante obteve as seguintes notas: 7; 8; 5; 7; 7; 9.
Quando os dados são organizados em classes, em geral, basta informar a classe modal, isto é, a que tem maior freqüência, não é preciso informar o valor da moda, embora isso também possa ser feito.
Considere a Tabela 2.7 com dados agrupados em classes de notas. A moda de dados agrupados em classes de intervalos iguais pode ser obtida através da seguinte fórmula:
							(2.3)
onde,
 = limite inferior da classe modal;
c = amplitude do intervalo de classe;
 = diferença entre a freqüência da classe modal e a imediatamente anterior;
 = diferença entre a freqüência da classe modal e a imediatamente posterior;
Para os dados apresentados na Tabela 2.7, a classe modal é “20 |( 30”, pois tem a maior freqüência absoluta simples, isto é, f = 216, logo
 = 20;	c = 30 – 20 = 10;		
 = 216 – 109 = 107;	
= 216 – 209 = 7.
Segue-se que a moda é:
2.6.1.3	Mediana
A mediana é o valor que ocupa a posição central de um conjunto de dados ordenados (Rol). Observe os dados: 5,0; 5,5; 7,0; 8,0; 8,5. A mediana é o valor que ocupa o centro dos dados ordenados, o 7, portanto. Se o número de elementos for par, a mediana é a média aritmética dos dois valores centrais.
No caso de dados agrupados (organizados em classes), o processo de obtenção da mediana é um pouco mais complexo. Para facilitar a compreensão, utiliza-se um exemplo. A Tabela 2.7 mostra a distribuição de notas de 817 alunos que prestaram o vestibular. Então, a mediana é o valor de ordem.
Ou seja, no conjunto de notas organizado em ordemcrescente, a mediana é a nota que ocupa a posição 409.
Para determinar em que classe está a mediana é preciso observar as freqüências acumuladas a partir da primeira linha e ir descendo até encontrar o primeiro valor maior ou igual a 409. É fácil de concluir que a mediana está na quarta classe, “30 |( 40”, porque esta contém as notas de ordem 330 a 538, portanto a nota de ordem 409 está neste intervalo de classe ou ainda porque F4 = 538 >409.
O valor da mediana é obtido por meio da fórmula:
					(2.4)
Onde: 
 = limite inferior da classe que contém a mediana;
c = amplitude do intervalo de classe;
 = freqüência da classe que contém a mediana;
n = número de dados;
= freqüência acumulada até a classe anterior à classe que contém a mediana.
No exemplo da Tabela 2.7, temos:
 = 30; c = 40 – 30 = 10; 
 = 209; n = 817; 
= 329
Então, o valor da mediana é :
Quartil
Os quartis subdividem um Rol em quatro partes iguais. No caso de dados agrupados (organizados em classes), a obtenção dos quartis é semelhante ao caso da mediana. Para facilitar a compreensão, vamos usar o exemplo da Tabela 2.7. Então, os quartis são obtidos pela fórmula:
					(2.5)
Sendo, 
, 
 e 
, o primeiro, segundo e terceiro quartil e
 = limite inferior da classe que contém o quartil i;
c = amplitude do intervalo de classe do quartil i;
 = freqüência da classe que contém o quartil i;
n = Número de dados;
= freqüência acumulada até a classe anterior à classe que contém o quartil i.
A ordem do primeiro quartil é n/4, do segundo é 2n/4 e a do terceiro é 3n/4. Com estes valores localiza-se as classes que contém os quartis, usando o mesmo procedimento usado para localizar a classe da mediana. Isto é, observando a coluna das freqüências acumuladas de cima para baixo até encontrar o primeiro valor maior ou igual ao valor de ordem calculado.
No exemplo da Tabela 2.7, para o quartil 1,tem-se: n/4 = 204,25. O que implica que a classe do primeiro quartil é a terceira classe, “20 |( 30”, pois F3 = 329 > 204,25. Donde vem:
 = 20; c = 30 – 20 = 10; 
 = 216; n = 817; 
= 113;
Então, o valor do primeiro quartil (fórmula 2.5) é:
De maneira semelhante, a ordem do segundo quartil é dada por: 2n/4 = 2(817/4 = 408,5 e a ordem do terceiro quartil é dada por: 3n/4 = 3(817/4 = 612,75.
Decil
Os decis subdividem um Rol em dez partes iguais. A maneira de obtê-los é semelhante aos casos da mediana e dos quartis. Essas separatrizes só são úteis para grandes conjuntos de dados e são geralmente obtidas para dados agrupados em classes. A fórmula para se obter os decis para dados agrupados em classe é a seguinte:
				(2.6)
Sendo, 
, 
, ... ,
, o primeiro, segundo, ... e nono decis, e
	= limite inferior da classe que contém o decil i;
c	= amplitude do intervalo de classe do decil i;
	= freqüência da classe que contém o decil i;
n	= Número de dados;
	= freqüência acumulada até a classe anterior à classe que contém o decil i.
A ordem do primeiro decil é n/10, do segundo é 2n/10, ... e a do nono é 9n/10. Com estes valores localizam-se as classes que contém os decis.
No exemplo da Tabela 2.7, para o decil 1, tem-se: n/10 = 81,7. O que implica que a classe do primeiro decil é a segunda classe, “10 |( 20”, pois F2 = 113 > 81,7. Donde vem:
	= 10; c= 20 – 10 = 10; 
	= 109; n	= 817; 
	= 4;
Então, o valor do primeiro decil (fórmula 2.6) é:
Para os demais decis procede-se de maneira similar.
Percentil (ou Centil)
Os percentis ou centis subdividem um Rol em cem partes iguais. A maneira de obtê-los é semelhante ao caso dos decis. Essas separatrizes só são úteis para grandes conjuntos de dados e são geralmente obtidas para dados agrupados em classes. A fórmula para se obter os percentis para dados agrupados em classe é a seguinte:
			(2.7)
Sendo, 
, 
, ... ,
, o primeiro, segundo, ... e nonagésimo nono percentil, e
 = limite inferior da classe que contém o percentil i;
c = amplitude do intervalo de classe do percentil i;
 = freqüência da classe que contém o percentil i;	n = Número de dados;
= freqüência acumulada até a classe anterior à classe que contém o percentil i.
A ordem do primeiro percentil é n/100, do segundo é 2n/100, ... e a do nonagésimo nono é 99n/100. Com estes valores localizam-se as classes que contém os percentis.
No exemplo da Tabela 2.7, para o percentil 1, tem-se: n/100 = 8,17. O que implica que a classe do primeiro percentil é a segunda classe, “10 |( 20”, pois F2 = 113 > 8,17. Donde vem:
 = 10; c = 20 -10 = 10; 
 = 109; n = 817; 
= 4;
Então, o valor do primeiro percentil (fórmula 2.7) é:
Para os demais percentis procede-se de maneira semelhante.
Exercícios Propostos
2.11 Os salários-hora de cinco funcionários de uma empresa são: R$ 75,00; R$ 90,00; R$ 183,00; R$ 242,00 e R$ 88,00. Determine: (a) a média dos salários ; (b) a mediana dos salários.
2.12 As notas de um candidato em um concurso, em seis provas, foram: 8,4; 9,1; 7,2; 6,8; 8,7; e 7,2. Determine: (a) a nota média; (b) a nota mediana; (c) a nota modal.
2.13 São dadas as idades das pessoas que se apresentaram como voluntárias para um estudo do efeito da ingestão de bebida alcoólica sobre a habilidade de dirigir veículos: 20, 25, 18, 32, 21, 27, 19, 18, 23, 21. (a) Calcule a média; (b) Calcule a moda, a mediana e os quartis.
2.14 É dado o número de atendimentos, por dia, em um serviço de emergência, durante um mês. 
a) Calcule o número médio de atendimentos por dia; b) Calcule a moda, a mediana e os quartis.
Número de atendimentos, por dia, em um serviço de emergência.
	Número de atendimentos (x)
	0
	1
	2
	3
	4
	5
	6
	Freqüências (f)
	2
	3
	3
	5
	10
	6
	1
2.15 Considere os dados apresentados na tabela abaixo. a) Calcule o tempo médio de duração de uma chamada telefônica interurbana; b) Calcule a moda, a mediana, os quartis, os decis e os percentis.
Duração das chamadas telefônicas interurbanas feitas em uma cidade.
	Duração da Chamada (min)
	0 |( 2
	2 |( 6
	6 |( 10
	10 |( 15
	15 |( 20
	20 |( 30
	30 |( 40
	40 |( 60
	Freqüência (f)
	100
	50
	30
	20
	5
	5
	1
	1
2.6.2	Medidas de Dispersão
O grau em que os dados numéricos tendem a se dispersarem em torno de um valor médio (central) chama-se dispersão dos dados. As métricas usadas para medir essa dispersão chamam-se Medidas de dispersão. Existem várias dessas medidas. Neste trabalho serão abordadas somente as mais usadas: Amplitude Total, Desvio Médio, Variância, Desvio Padrão e Coeficiente de Variação.
Amplitude Total
A amplitude total (R) é a diferença entre o maior e o menor dos valores observados em um conjunto de dados. Exemplo: 31; 27; 42; 35; 47; 28; 7; 45; 15; 20. Como o maior número é 47 e o menor é 7, a amplitude total desse conjunto é: R = 47 –7 = 40.
Desvio Médio
O desvio médio (D.M.) de um conjunto de n números 
, 
, ..., 
 é definido por:
								(2.8)
onde 
 é a média aritmética dos números e 
 é o valor absoluto do desvio de 
 em relação a 
.
Exemplo 2.11: Determinar o desvio médio do conjunto de números 2, 3, 6, 8, 11.
Solução:
Média Aritmética = 
 = 
Desvio Médio = D.M. = 
 = 
Se 
, 
, ..., 
 ocorrerem com as freqüências 
, respectivamente, o desvio médio poderá ser obtido pela seguinte fórmula:
					(2.9)
Ocasionalmente, o desvio médio é definido em relação a mediana ou à outra média. É interessante ressaltar que o desvio médio em relação à mediana é um mínimo.
No caso de dados agrupados em classes usa-se a fórmula (2.9) sendo que o 
 representa o Ponto Médio da classe.
Exemplo 2.12: Determinar o desvio médio das notas da Tabela 2.8.
Tabela 2.8 - Distribuição das notas obtidas pelos estudantes em um exame vestibular.
	Indice
(i)
	Classe
(Nota)
	Freqüência
(fi)
	Ponto Médio
(xi)
	fi(xifi |xi -
|
	
	1
	 0 |( 10
	4
	5
	20
	124,64
	3883,7824
	2
	10 |( 20
	109
	15
	1635
	2306,44
	48804,2704
	3
	20 |( 30
	216
	25
	5400
	2410,56
	26901,8496
	4
	30 |( 40
	209
	35
	7315
	242,44
	281,2304
	5
	40 |( 50
	135
	45
	6075
	1193,40
	10549,6560
	6
	50 |( 60
	80
	55
	4400
	1507,20
	28395,6480
	7
	60 |( 70
	32
	65
	2080
	922,88
	26615,8592
	8
	70 |( 80
	15
	75
	1125
	582,60
	22628,1840
	9
	80 |( 90
	12
	85
	1020
	586,08
	28624,1472
	10
	90 |( 100
	5
	95
	475
	294,20
	17310,7280
	
	
	817
	
	29545
	10170,44
	213995,3552
Variância
A variância de um conjunto de n dados amostrais 
, 
, ..., 
 é definida por:
				(2.10)
Se 
, 
..., 
 ocorrerem com as freqüências 
, respectivamente, a variância poderá ser obtida pela seguinte fórmula:
				(2.11)
Onde, 
.
Exemplo 2.13: Determinar a variância das notas da Tabela 2.8.
Desvio Padrão
O desvio padrão (s), por definição, é a raiz quadrada, com sinal positivo, da variância. Ou seja
								(2.12)
ou
								(2.13)
Exemplo 2.14. Imagine que um estudante fez quatro provas, com 60 questões cada uma. Na primeira acertou 35 questões, na segunda acertou 55, na terceira acertou 45 e na quarta 25. Determine a variância e o desvio-padrão do número de questões certas.
Solução.
Exemplo 2.15: Determinar o desvio padrão das notas da Tabela 2.8.
Coeficiente de Variação
O coeficiente de variação é uma medida de dispersão relativa porque estabelece uma relação entre o desvio-padrão (medida de dispersão absoluta) e a média. E é definido por:
						(2.14)
É geralmente expresso em porcentagem (%).
Exemplo 2.16. Para entender a idéia de dispersão relativa, imagina dois grupos de pessoas. No primeiro grupo, as pessoas têm idades: 1; 3; 5 e no segundo grupo as pessoas têm idades: 53; 55; 57.
Solução:
A média de idade do primeiro grupo é:
A média de idade do segundo grupo é: 
A variância do primeiro grupo é:
A variância do segundo grupo é: 
O desvio-padrão do primeiro grupo é: 
O desvio-padrão do segundo grupo é: 
O coeficiente de variação do primeiro grupo é: 
O coeficiente de variação do segundo grupo é:
O desvio padrão do primeiro grupo é exatamente igual ao do segundo grupo. Logo, a dispersão dos dados em torno da média é exatamente a mesma nos dois grupos.
Entretanto, diferenças de dois anos são muito importantes no primeiro grupo, onde a idade média é 3 anos. Dois anos de diferença, neste grupo, significam grandes mudanças físicas e de comportamento. Enquanto que para as pessoas do segundo grupo, cuja idade média é 55 anos, dois anos a mais ou dois anos a menos, não faz grande diferença.
	Neste caso, o valor do coeficiente de variação confirma as observações acima, de que a dispersão dos dados, em relação à média, é muito importante no primeiro grupo (CV =66,7%) e pouco importante no segundo grupo (CV = 3,6%).
Exercícios Propostos
2.16 É dado o rendimento mensal de 20 pessoas. Calcule: a) a amplitude total; b) o desvio médio; c) o desvio-padrão; c) o coeficiente de variação.
Rendimento mensal, em salários mínimos, de 20 pessoas.
	1,2
	1,3
	2,9
	3,5
	2,8
	4,2
	1,2
	2,2
	1,7
	1,1
	8,9
	2,4
	4,1
	1,0
	1,0
	1,9
	7,2
	2,3
	7,0
	3,0
2.17 Dados os pesos de dez casais, calcule o desvio-padrão do peso dos homens e o desvio-padrão do peso das mulheres. Onde ocorre maior dispersão?
Peso do esposo e peso da esposa, em quilogramas
	Esposo
	82
	75
	67
	65
	90
	58
	78
	61
	79
	65
	Esposa
	61
	56
	71
	49
	62
	57
	58
	54
	65
	65
2.18 As notas de 30 alunos de uma classe foram agrupadas em quatro grandes grupos. Calcule: a) a média, b) o desvio médio e c) o desvio-padrão das notas.
Distribuição das notas finais dos alunos
	Classe
	Ponto médio
	Freqüência
	50 |( 60
	55
	11
	60 |( 70
	65
	11
	70 |( 80
	75
	5
	80 |( 90
	85
	3
2.19 São dados o peso e a estatura de quatro pessoas. Calcule os coeficientes de variação. Qual é a variável que tem maior dispersão relativa ?
Peso e estatura de quatro pessoas
	Peso
(kg)
	Estatura
(cm)
	60
	160
	75
	170
	70
	175
	75
	165
Capitulo 3 – CORRELAÇÃO E REGRESSÃO
Nos capítulos anteriores, esta apostila considerou apenas a existência de uma única variável aleatória de interesse. Neste, examinará os problemas de Estatística envolvendo duas ou mais variáveis quantitativas.
Por ser este, um curso básico de Estatística, será considerado somente o caso de duas variáveis de interesse.
Para facilitar o entendimento dos conceitos envolvidos, será examinado, inicialmente, um exemplo.
Seja uma amostra de dez pessoas adultas, do sexo masculino, e sejam a altura (cm), X, e o peso (kg), Y, as variáveis de interesse a serem investigadas. Considere a Tabela 3.1. A Figura 3.1 mostra o gráfico dos pontos dessa tabela. Este tipo de gráfico é conhecido como Diagrama de Dispersão. Sua principal utilidade é, através de visualização, ter uma boa idéia da correlação das duas variáveis.
Tabela 3.1 Valores de altura e de peso de 10 pessoas
	Pessoa
	Altura (cm)
	Peso (kg)
	1
	174
	73
	2
	161
	66
	3
	170
	64
	4
	180
	94
	5
	182
	79
	6
	164
	72
	7
	156
	62
	8
	168
	64
	9
	176
	90
	10
	175
	81
Figura 3.1 Diagrama de dispersão para os dados da Tabela 3.1
3.1 Correlação Linear
Observados os pontos do diagrama de dispersão da Figura 3.2 (a), vê-se que existe, para valores maiores de x, uma tendência de se obter valores menores de y e vice-versa. Quando isso ocorre diz-se que há uma correlação linear negativa.
No caso da Figura 3.3 (a), o diagrama de dispersão está indicando que para maiores valores de x há uma tendência de se obter maiores valores de y e vice-versa. Nesse caso, diz-se que existe uma correlação linear positiva entre x e y.
Entretanto, pode-se ter casos intermediários de variáveis não-correlacionadas, ou de correlação nula, onde o diagrama de dispersão deve mostrar algo como a Figura 3.2 (b). Além disso, outros tipos de correlação podem existir, como a não-linear mostrada na Figura 3.3 (b), que não serão vistos neste curso.
Figura 3.2 (a) Correlação linear negativa. (b) Correlação linear nula
Figura 3.3 (a) Correlação linear positiva. (b) Correlação não-linear
Vê-se dos diagramas de dispersão que o sinal da correlação indica qual a tendência da variação conjunta das duas variáveis consideradas. Entretanto, deve-se considerar também a intensidade ou o grau da correlação.
Uma medida do grau e do sinal da correlação linear é dada pela covariância entre as duas variáveis, definida por
						(3.1)
Apesar de a covariância ser um indicador do grau e do sinal da correlação, em geral, é mais conveniente usar-se, para a medida da correlação, o chamado Coeficiente de Correlação Linear de Pearson, definido por
									(3.2)
onde, 
 e 
 são os desvios padrão das variáveis X e Y na amostra. Como 
	e	
resulta que 
				(3.3)
Não é difícil mostrar que 
			(3.4)
					(3.5)
					(3.6)
Substituindo as expressões (3.4), (3.5) e (3.6) em (3.3) resulta
			(3.7)
Exemplo 3.1 Calcular o coeficiente r para os dados da Tabela 3.1.
Solução:
O valor de r será obtido pela fórmula (3.7). Para facilitar sua utilização, os seus somatórios serão trabalhados numa extensão da Tabela 3.1 que será chamada Tabela 3.2.
Tabela 3.2 Valores para o cálculo de r.
	i
	xi
	yi
	
	
	
	1
	174
	73
	12702
	30276
	5329
	2
	161
	66
	10626
	25921
	4356
	3
	170
	64
	10880
	28900
	4096
	4
	180
	94
	16920
	32400
	8836
	5
	182
	79
	14378
	33124
	6241
	6
	164
	72
	11808
	26896
	5184
	7
	156
	62
	9672
	24336
	3844
	8
	168
	64
	10752
	28224
	4096
	9
	176
	90
	15840
	309768100
	10
	175
	81
	14175
	30625
	6561
	
	1706
	745
	127753
	291678
	56643
Da Tabela 3.2 na fórmula (3.7) resulta:
Conforme era esperado, obtivemos para r um valor positivo e relativamente alto, pois os pontos indicam uma correlação linear positiva razoavelmente alta.
3.2 Regressão Linear
Muitas vezes a posição dos pontos experimentais no diagrama de dispersão sugere a existência de uma relação funcional entre as duas variáveis, como mostra a Figura 3.4. Surge então o problema de se determinar uma função que exprima esse relacionamento.
Figura 3.4 Curva ou linha de regressão
Assim, se os pontos experimentais se apresentarem como na Figura 3.4, admite-se existir um relacionamento funcional entre os valores x e y, responsável pelo aspecto do diagrama, e que explica grande parte da variação de y com x, ou vice-versa. Esse relacionamento funcional corresponderia à linha existente na figura, que seria a “linha de regressão”. Uma parcela da variação, entretanto, permanece em geral sem ser explicada, e será atribuída ao acaso.
A forma da função que representa a linha de regressão pode ser, em princípio, qualquer. Neste curso introdutório, será apresentada apenas a forma linear da linha de regressão que será obtida pelo método dos mínimos quadrados. Logo, a função que desejamos obter é da forma,
									(3.9)
Estima-se os parâmetros a e b ( esse chamado coeficiente de regressão linear) da reta teórica através dos pontos experimentais. Segundo o método dos quadrados mínimos, a reta a ser adotada é aquela que torna mínima a soma dos quadrados das distâncias da reta aos pontos experimentais, medidas no sentido da variação aleatória. Ou seja, deve-se procurar a reta para a qual se consiga minimizar 
, sendo as distâncias 
 as indicadas na Figura 3.5. A idéia central desse procedimento é simplesmente a de minimizar a variação residual em torno da reta estimativa.
Figura 3.5 Distâncias cuja soma dos quadrados deve ser minimizada.
Definindo-se, 
								(3.10)
e
								(3.11)
onde 
 é o valor experimental para 
, este considerado com erro desprezível, e 
 dado pela reta teórica (3.9).
Os valores dos parâmetros a e b da equação (3.9), serão obtidos através da minimização da expressão (3.10). Pode ser provado que os valores de a e b que minimizam (3.10), são aqueles que anulam as derivadas parciais dessa expressão. Ou seja, deve-se ter
							(3.12)
Substituindo-se (3.9) em (3.10) resulta,
						(3.13)
Aplicando-se (3.12) em (3.13), resulta,
Após umas poucas manipulações algébricas, se transforma no seguinte sistema de duas equações a duas incógnitas:
						(3.14)
Os pontos experimentais fornecem os elementos para a montagem desse sistema, cuja solução forneceria os coeficientes a e b. Entretanto, é mais fácil considerar de uma vez a solução analítica, a qual fornece
							(3.15)
As expressões de (3.15) dão diretamente os coeficientes da reta teórica (3.9), ajustada pelos quadrados mínimos.
Exemplo 3.2 Obter a equação da reta de mínimos quadrados para os seguintes pontos experimentais:
	
	1
	2
	3
	4
	5
	6
	7
	8
	
	0,5
	0,6
	0,9
	0,8
	1,2
	1,5
	1,7
	2,0
Traçar a reta no diagrama de dispersão. Calcular o coeficiente de correlação linear.
Solução: 
Para facilitar o cálculo dos coeficientes da reta, faz-se uso de uma tabela ampliada dos dados experimentais, como a Tabela 3.3 abaixo.
Para obtermos os valores de a e b das expressões (3.15), necessita-se calcular 
. Usando-se as expressões (3.4) e (3.5), obtém-se:
Tabela 3.2 Valores para o cálculo da reta e do coeficiente de correlação linear.
	i
	
	
	
	
	
	1
	1
	0,5
	0,5
	1
	0,25
	2
	2
	0,6
	1,2
	4
	0,36
	3
	3
	0,9
	2,7
	9
	0,81
	4
	4
	0,8
	3,2
	16
	0,64
	5
	5
	1,2
	6,0
	25
	1,44
	6
	6
	1,5
	9,0
	36
	2,25
	7
	7
	1,7
	11,9
	49
	2,89
	8
	8
	2,0
	16,0
	64
	4,00
	
	36
	9,2
	50,5
	204
	12,64
Assim, a reta de regressão, determinada pelo método dos quadrados mínimos, tem a seguinte equação:
Figura 3.6 Gráfico da reta dos quadrados mínimos do Exemplo 3.2.
Para o cálculo do coeficiente de correlação, equação (3.3), é necessário usar os valores da coluna 
 da Tabela 3.2 para o cálculo de 
. Assim,
e
Esse valor do coeficiente de correlação de Pearson justifica o gráfico da reta de regressão.
Exercícios propostos.
3.1 Calcule o coeficiente de correlação linear de Pearson para os oito pontos seguintes: (1,1), (4,1), (5,3), (3,2), (3,4), (4,2), (1,4) e (3,3). Construa um diagrama de dispersão e comente o resultado obtido.
3.2 Para cinco volumes de uma solução, foram medidos os tempos de aquecimento em um mesmo bico de gás e as respectivas temperaturas de ebulição, obtendo-se:
tempo (min.)	20	22	19	23	17
Temperatura(ºC)	75	80	75	82	78
Calcule o coeficiente de correlação.
3.3 Dados os sete pares de valores experimentais abaixo (
), estabelecer a regressão linear 
, calculando os coeficientes a e b pelo método dos quadrados mínimos, supondo os valores de 
 isentos de erro.
		0	2	4	6	8	10	12
		1	2	6	9	11	14	20
3.4 Ajuste uma reta de mínimos quadrados aos dados abaixo, adotando: (a) x como variável independente; (b) y como variável independente. Verifique se as duas equações obtidas correspondem à mesma função implícita.
		2	4	5	6	7	10	12
		9	9	7	4	5	3	1
(b)
(b)
(a)
� EMBED Equation.3 ���
� EMBED Equation.3 ���
�PAGE �10�
_1199704307.unknown
_1199704323.unknown
_1199704331.unknown
_1200139464.unknown
_1200139472.unknown
_1228212723.unknown
_1228213934.unknown
_1228214093.unknown
_1232258046.unknown
_1228214319.unknown
_1228213955.unknown
_1228212747.unknown
_1228213923.unknown
_1228127728.unknown
_1228203368.unknown
_1200139473.unknown
_1200139468.unknown
_1200139470.unknown
_1200139471.unknown
_1200139469.unknown
_1200139466.unknown
_1200139467.unknown
_1200139465.unknown
_1199704336.unknown
_1200139456.unknown
_1200139460.unknown
_1200139462.unknown
_1200139463.unknown
_1200139461.unknown
_1200139458.unknown
_1200139459.unknown
_1200139457.unknown
_1200139452.unknown
_1200139454.unknown
_1200139455.unknown
_1200139453.unknown
_1200139448.unknown
_1200139450.unknown
_1200139451.unknown
_1200139449.unknown
_1199704338.unknown
_1200139446.unknown
_1200139447.unknown
_1200139445.unknown
_1200139444.unknown
_1199704337.unknown
_1199704333.unknown
_1199704334.unknown
_1199704332.unknown
_1199704327.unknown
_1199704329.unknown
_1199704330.unknown
_1199704328.unknown
_1199704325.unknown
_1199704326.unknown
_1199704324.unknown
_1199704315.unknown
_1199704319.unknown
_1199704321.unknown
_1199704322.unknown
_1199704320.unknown
_1199704317.unknown
_1199704318.unknown
_1199704316.unknown
_1199704311.unknown
_1199704313.unknown
_1199704314.unknown
_1199704312.unknown
_1199704309.unknown
_1199704310.unknown
_1199704308.unknown
_1199693729.unknown
_1199704291.unknown
_1199704299.unknown
_1199704303.unknown
_1199704305.unknown
_1199704306.unknown
_1199704304.unknown
_1199704301.unknown
_1199704302.unknown
_1199704300.unknown
_1199704295.unknown
_1199704297.unknown
_1199704298.unknown
_1199704296.unknown
_1199704293.unknown
_1199704294.unknown
_1199704292.unknown
_1199704281.unknown
_1199704285.unknown
_1199704287.unknown
_1199704290.unknown
_1199704286.unknown
_1199704283.unknown
_1199704284.unknown
_1199704282.unknown
_1199704277.unknown
_1199704279.unknown
_1199704280.unknown
_1199704278.unknown_1199704273.unknown
_1199704275.unknown
_1199704276.unknown
_1199704274.unknown
_1199695293.unknown
_1199704271.unknown
_1199704272.unknown
_1199695294.unknown
_1199695292.unknown
_1028119331.doc
_1125128436.unknown
_1136404756.unknown
_1136557111.unknown
_1162298136.unknown
_1173721372.unknown
_1199693728.unknown
_1162299372.unknown
_1136617270.unknown
_1136557123.unknown
_1136555773.unknown
_1136557079.unknown
_1136554956.unknown
_1136404420.unknown
_1136404584.unknown
_1136404357.unknown
_1123498631.unknown
_1123498737.unknown
_1123682659.unknown
_1123684914.unknown
_1123766907.unknown
_1123766922.unknown
_1123765124.unknown
_1123765053.unknown
_1123684666.unknown
_1123684855.unknown
_1123684567.unknown
_1123682012.unknown
_1123682550.unknown
_1123499215.unknown
_1123498664.unknown
_1123498675.unknown
_1123498643.unknown
_1123496301.unknown
_1123497906.unknown
_1123498619.unknown
_1123497896.unknown
_1123483162.unknown
_1123483179.unknown
_1123483140.unknown
_1123483091.unknown
_1011194391.unknown
_1011207768.unknown
_1011370294.unknown
_1011427211.unknown
_1011964799.unknown
_1011964957.unknown
_1011964982.unknown
_1011427319.unknown
_1011427380.unknown
_1011376352.unknown
_1011376736.unknown
_1011370311.unknown
_1011370229.unknown
_1011370243.unknown
_1011370212.unknown
_1011207207.unknown
_1011207216.unknown
_1011207193.unknown
_1011185391.unknown
_1011192352.unknown
_1011192423.unknown
_1011192065.unknown
_1011185143.unknown
_1011185230.unknown
_1010914968.unknown