Buscar

Apostila Bioestatística

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1 
 
Universidade Regional do Noroeste do Estado do Rio Grande do Sul 
DCEEng – Departamento de Ciências Exatas e Engenharias 
 
Componente Curricular: Bioestatística 
 
Prof(a): Emanueli Bandeira Avi e-mail: emanueli.bandeira@unijui.edu.br 
 
 
BIOESTATÍSTICA 
Introdução 
 Os métodos estatísticos destacam-se cada vez mais como estratégias de 
solução para problemas, na área de pesquisa médica, nas quais se podem citar 
Estudos de Bioequivalência, Bioestatística, Análise de Sobrevivência e 
Epidemiologia, dentre outros. Além disso, tem ocorrido notável utilização da 
Estatística no controle de processos de indústrias farmacêuticas e na implementação de projetos de melhoria 
de qualidade em hospitais e clínicas. Neste sentido, a Estatística é atualmente um recurso essencial para a 
divulgação de resultados de pesquisas da área médica. Não só na análise dos dados, mas também como uma 
forma de planejamento de estudos clínicos, que constituem uma poderosa ferramenta de investigação científica 
para a avaliação de intervenções na saúde. Isto se dá desde a análise descritiva mais simples até as modelagens 
e técnicas Multivariada mais complexas. 
 
1. ALGUNS CONCEITOS IMPORTANTES 
 
1.1 - Estatística 
 É a ciência que se preocupa com coleta, análise, interpretação e apresentação dos dados, 
permitindo-nos a obtenção de conclusões válidas a partir destes dados, bem como a tomada de decisões 
razoáveis baseadas nessas conclusões. 
 
 A Estatística se apresenta didaticamente em duas partes: 
a) Estatística Descritiva: é aquela que se preocupa com a coleta, análise, interpretação e apresentação dos 
dados estatísticos; 
b) Estatística Indutiva (amostral ou inferencial): é aquela que partindo de uma amostra, estabelece hipóteses 
sobre a população de origem e formula previsões fundamentando-se na teoria das probabilidades. 
1.2 – População ou Universo 
Bioestatística – é o conjunto de métodos estatísticos voltado ao planejamento, coleta, avaliação e interpretação de 
dados obtidos em estudos médicos e biológicos, com o objetivo de se tomar decisões ótimas na presença de incerteza, 
estabelecendo faixas de confiança para a eficácia dos tratamentos e verificando a influência de fatores de risco no 
aparecimento de doenças. 
mailto:emanueli.bandeira@unijui.edu.br
2 
 
 É todo conjunto que possui determinada característica em comum entre todos os seus elementos 
componente, limitados no tempo e no espaço. 
Exemplo: Em um estudo sobre a ocorrência de sobrepeso em crianças de 7 a 12 anos no Município de Belém 
no mês de Março/2009. 
 
1.3 - Censo 
 É a coleta exaustiva das informações de todas as “N” unidades da população. 
 
1.4 - Amostra 
 É um subconjunto, uma parte selecionada da totalidade de observações abrangidas pela população da 
qual se quer inferir alguma coisa. Amostra Aleatória: é amostra obtida sem a interferência externa, onde cada 
unidade da população tem a mesma chance de ser incluída na amostra. 
 
População Amostra 
 
 
 
 
 
 
 
N n 
 
1.5 - Experimento Aleatório 
 É quando efetuamos um experimento repetidas vezes, sob condições praticamente idênticas, e obtemos 
resultados que não são essencialmente os mesmos. 
Exemplo: Na jogada de uma moeda o resultado do experimento é o aparecimento de uma “cara” ou uma 
“coroa”. 
 
1.6 - Variável 
 É o conjunto de resultados possíveis de um fenômeno (resposta), ou ainda são as propriedades 
(características) dos elementos da população que se pretende conhecer. 
 
 
1.6.1 - Variáveis Qualitativas ou Categóricas 
Variáveis 
Quantitativas 
Qualitativas 
Discreta 
Contínua 
Nominal 
Ordinal 
 X X X 
XX X 
X X X 
X X X 
X X X 
X 
X X 
X X 
3 
 
É quando se obtém como resposta palavras. Se existir uma ordem natural nas respostas, se diz que a variável 
é qualitativa ordinal, caso contrario, ela é dita variável qualitativa nominal. 
Exemplos: Presença ou ausência de um sintoma; Adesão ao tratamento (completa, parcial, contraria); 
Classificação da dor segundo a intensidade (pouca, média e grande); Sexo de um paciente. 
 
Variável Qualitativa Nominal: São aquelas cujas respostas podem ser encaixadas em categorias, sendo que 
cada categoria é independente, sem nenhuma relação com as outras: gênero (masculino, feminino), raça 
(branco, negro, outro), 
 
Variável Qualitativa (ou categórica) Ordinal: São aquelas cujas categorias mantém uma relação de ordem 
com as outras, que podem ser regulares ou não (existe uma ordem natural nas categorias): classe social (alta, 
média, baixa), auto-percepção de desempenho em Matemática (péssimo, ruim, regular, bom , ótimo), etc. 
 
1.6. 2 - Variáveis Quantitativas 
É quando se obtém como resposta números. Podem ser ditas Discretas, quando obtidas através de 
contagem ou Contínuas quando obtidas através de medições. 
Exemplos: Número de comprimidos não tomados; Pressão arterial; Diâmetro de artérias; Número de gestações 
interrompidas; 
 
Variável Aleatória Quantitativa Discreta: É o conjunto de dados que são constituídos por observações finitas 
ou infinitas, mas enumeráveis. Seu domínio (campo de variação) são os números inteiros (
+
Z ) Seja, então: 
x: {x|x   } , ou seja, ii xX = , i=1,2,3,...,n, onde n ou →n . Ex: População em uma 
cidade. Variável: número de Biólogos formados. 
 
Variável Aleatória Quantitativa Contínua: É o conjunto de dados contínuos, aquelas informações que se 
constituem de um número infinito e não enumerável de pontos. É aquela que pode assumir qualquer valor 
fracionário dentro de um intervalo definido, ou seja, o valor assumido representa um intervalo de valor 
(subgrupos do intervalo). Seu campo de variação são os números Reais (
+
R ). É uma unidade de medida. 
Seja, então iX : variável quantitativa contínua. x: {x|- <x < +} , ou seja, iX pode ser avaliado em 
intervalos que podem ser do tipo ( ii xX  ). Ex: idade, peso, volume, temperatura, déficit,... 
 
 
 
 
 
 
4 
 
Exemplos: 
Classifique as variáveis aleatórias em: Variável Quantitativa Discreta; Variável Quantitativa Contínua; 
Variável Qualitativa Nominal; Variável Qualitativa Ordinal 
 
1. População: Casais residentes em uma cidade 
a) Variável: Número de filhos por família................................................. 
b) Variável: Idade dos indivíduos da população......................................... 
c) Variável: Cor dos olhos dos indivíduos da população............................ 
d) Variável: Número de componentes do grupo familiar.......................... 
 
2. População: Alunos do curso de Fisioterapia 
a) Variável: altura dos alunos.......................................................................... 
b) Variável: peso dos alunos........................................................................... 
c) Variável: número de alunos do curso......................................................... 
d) Variável: procedência dos alunos............................................................... 
 
 
2. REGRAS DE ARREDONDAMENTO 
 
 Na apresentação dos resultados dos cálculos, usamos a regra do arredondamento para “quebrar” o 
número na quantidade de casas decimais desejadas ou padronizadas, da seguinte forma: 
 
Se o algarismo a ser excluído (arredondado) for seguido por 0, 1, 2, 3 ou 4, o algarismo que permanece não é 
alterado. 
 
Se o algarismo a ser excluído (arredondado) for seguido por 5, 6, 7, 8 ou 9, o algarismo que permanece aumenta 
de uma unidade. 
 
Por exemplo: 
a) O número 23,578 com uma casa depois da vírgula fica: 
b) O número 23,548 com uma casa depois da vírgula fica: 
c) O número 23,9 na forma de número inteiro fica: 
 
Exercícios: 
8. Utilize a regra do arredondamento nos seguintes números com duas casas depois a vírgula: 
79,0576 fica: 4,367 fica: 
3,0149 fica: 15,7989 fica: 
45,1680 fica: 44,1709 fica: 
5 
 
 
2. TABELAS 
 
 O uso de tabelas permite ao usuáriolevar uma ideia mais profunda sobre o assunto apresentado, pois 
além de demonstrar o comportamento dos dados, ainda apresenta em detalhes quantitativos esse 
comportamento. O uso de tabelas exige do leitor maior conhecimento para o seu entendimento. A tabela não 
se limita aos destaques, permite que o próprio leitor estabeleça as suas relações uma vez que está de posse de 
todas as informações disponíveis de maneira condensada, mas completa. 
 Sendo a apresentação tabular uma apresentação numérica dos dados, estes são dispostos em linhas e 
colunas distribuídas de modo ordenado, segundo algumas regras práticas adotadas pelos diversos sistemas 
estatísticos. As regras que prevalecem no Brasil foram fixadas pelo Conselho Nacional de Estatística. 
 
 Tabela 1 – Distribuição por sexo dos alunos do curso de Enfermagem, Nutrição, 
Fisioterapia e Farmácia na disciplina de Bioestatística do primeiro semestre de 2010. 
Sexo fi % 
Masculino 
Feminino 
8 
56 
12,5% 
87,5% 
Total 64 100% 
 Fonte: Sala de aula UNIJUÍ. 
 
Tabela 2 – Distribuição de Frequências Absolutas, Relativas e Relativas Percentuais das Compras dos Cinco 
Refrigerantes mais Vendidos nos Estados Unidos. 
Refrigerante Frequência Frequência Relativa Frequência Percentual 
Coca-Cola 
Coca-Cola Light 
Dr. Pepper 
Pepsi-Cola 
Sprite 
19 
8 
5 
13 
5 
0,38 
0,16 
0,10 
0,25 
0,10 
38 
16 
10 
25 
10 
Total 50 1,00 100% 
Fonte: The Wall Street Journal Almanac, 1998. 
 Título 
 
 
 Cabeçalho 
 
 Corpo 
 
 
 
 Rodapé 
 
 
 
 
6 
 
3. REPRESENTAÇÃO GRÁFICA 
 
 O gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir, 
no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em 
estudo, já que os gráficos falam mais rápido à compreensão que as séries. 
 
Requisitos Fundamentais de uma Representação gráfica 
a) Simplicidade: Deve ser destituída de detalhes de importância secundária, assim como de traços 
desnecessários que possam levar o observador a uma análise morosa ou com erros. 
b) Clareza: Deve possibilitar uma correta interpretação dos valores representativos do fenômeno em estudo. 
c) Veracidade: Deve expressar a verdade sobre o fenômeno em estudo. 
 
3.1 Tipos de Gráficos 
a) Gráfico em linha ou em curva: Este tipo de gráfico utiliza a linha poligonal para representar a série 
estatística. É muito utilizado para representar uma série temporal. 
 O gráfico em linha constitui uma aplicação do processo de representação das funções num sistema 
de coordenadas cartesianas. Neste sistema faz-se uso de duas retas perpendiculares; as retas são os eixos 
coordenados e o ponto de intersecção, a origem. O eixo horizontal é denominado eixo das abscissas (ou eixo 
dos x) e o vertical, eixo das ordenadas (ou eixo dos y). 
 
Figura 1 – Casos registrados de Raiva na RMB no período de 2006 a 2008. 
 Fonte: Dados fictícios. 
 
b) Gráfico em coluna ou em barras: É a representação de uma série por meio de retângulos, dispostos 
verticalmente (em colunas) ou horizontalmente (em barras). Quando em colunas, os retângulos têm a mesma 
base e as alturas são proporcionais aos respectivos dados. E Quando em barras, os retângulos têm a mesma 
altura e os comprimentos são proporcionais aos respectivos dados. 
 
 
7 
 
Gráfico em Colunas (geralmente utilizado para representar uma série temporal) 
 
 
Figura 2 – Número de Empresas por Unidade de Federação na Região Sul/1995. 
 FONTE: IBGE. 
 
Gráfico em Barras (geralmente utilizado para representar uma série geográfica ou especificativa) 
 
Figura 6 – Número de Empresas por Unidade de Federação na Região Sul no ano de 1995. 
 FONTE: IBGE. 
 
c) Gráfico em coluna ou em barras múltiplas: Este tipo de gráfico é geralmente empregado quando desejasse 
representar, simultaneamente, dois ou mais fenômenos estudados com o propósito de comparação. 
181.738
111.650
256.924
0
50.000
100.000
150.000
200.000
250.000
300.000
Paraná Santa Catarina Rio Grande do
Sul
N
ú
m
e
ro
 d
e
 E
m
p
re
s
a
s
Estados
181.738
111.650
256.924
0 50.000 100.000 150.000 200.000 250.000 300.000
Paraná
Santa Catarina
Rio Grande do Sul
Número de Empresas
E
s
ta
d
o
s
8 
 
 
 
 
 
 
 
 
 
 
Figura 4 – Casos de Malária por Município no período de 2005 a 2008. 
 Fonte: Dados fictícios. 
 
Figura 5 – Casos de Malária por Município no período de 2005 a 2008. 
 Fonte: Dados fictícios. 
 
 
Figura 6 – Acumulado dos tipos de alimentos na dieta em 14 dias do paciente x. 
Fonte: Dados fictícios. 
9 
 
d) Gráfico em setores: Este gráfico é construído com base em um círculo, e é empregado sempre que deseja-
se ressaltar a participação do dado no total. O 
total é representado pelo círculo, que fica 
dividido em tantos setores quantas são as partes. 
Os setores são tais que suas áreas são 
respectivamente proporcionais aos dados da 
série. Obtém-se cada setor por meio de uma 
regra de três simples e direta, lembrando que o 
total da série corresponde a 360º. 
 
 
 
 
10 
 
EXERCÍCIOS – LISTA 1 
 
Classifique as variáveis aleatórias em: 
VaQD - Variável aleatória quantitativa Discreta VaQC - Variável aleatória quantitativa Contínua 
VaQN - variável aleatória qualitativa Nominal VaQO - variável aleatória qualitativa Ordinal 
 
1. População: óbitos em um hospital, nos últimos cinco anos. 
a) Variável: Causa mortis (moléstias cardiovasculares, cânceres, moléstias do aparelho digestivo, etc.) 
b) Variável: Idade 
 
2. População: Alunos do curso de Enfermagem 
a) Variável: altura dos alunos 
b) Variável: peso dos alunos 
c) Variável: número de alunos do curso 
d) Variável: procedência dos alunos 
e) Variável: grau de instrução dos alunos 
 
3. População: Peças produzidas por uma máquina 
a) Variável: diâmetro externo 
b) Variável: número de peças produzidas em um dia 
c) Variável: número de defeitos por unidade 
 
4. População: Em uma Empresa de Administração 
a) Variável: Número de funcionários da empresa 
b) Variável: Renda dos funcionários desta empresa 
c) Variável: Porte da Empresa de Administração 
d) Variável: Número de clientes cadastrados pela empresa 
 
5. População: Candidatos a um exame de vestibular 
a) Variável: número de candidatos que prestaram vestibular em 2017 
b) Variável: sexo dos alunos aprovados no vestibular da UNIJUÍ em 2017 
c) Variável: Curso dos alunos aprovados no vestibular da UNIJUÍ em 2017 
 
6. População: Em uma lavoura experimental de milho 
a) Variável: número de plantas que fazem parte do experimento 
b) Variável: altura de uma planta aleatoriamente selecionada 
 
 
Nos exercícios 8 a 10, cada uma das questões define uma variável, classifique-as como qualitativa ou 
quantitativa. 
7. Ao se cadastrar em um site de comércio eletrônico, o usuário deve preencher um questionário com estas 
oito perguntas: 
a. Você tem computador em casa? 
b. Quantas vezes por semana você acessa a internet? 
c. Numa escala de 0 a 10, qual seu índice de confiança na segurança do comércio eletrônico? 
d. Quantos cartões de crédito você possui? 
e. A residência em que vive é própria ou alugada? 
f. Qual é o provedor que você utiliza para acessar a rede? 
g. Qual é o tempo médio de acesso à internet? 
h. Já comprou algum produto via internet? 
 
8. Num cursinho pré-vestibular, os estudantes inscritos responderam a um questionário no qual 
constavam, entre outras, as seguintes questões: 
a. Qual é a área da carreira universitária pretendida?b. Você cursou o ensino médio em escola particular ou pública? 
11 
 
c. Qual é a renda familiar mensal? 
d. Qual é o grau de escolaridade do chefe da família? 
e. Qual é a sua disciplina favorita? 
f. Quantas vezes você já fez cursinho? 
g. Você é usuário da internet? 
h. Quanto tempo de estudo diário pretende dedicar ao cursinho? 
 
12 
 
Diagrama de Dispersão 
 O cálculo do coeficiente de correlação é bastante trabalhoso, assim é conveniente primeiro fazermos 
o diagrama de dispersão, que é uma representação gráfica bidimensional. 
 O diagrama de dispersão é uma representação gráfica da relação entre duas variáveis quantitativas. 
Esta representação é feita sob a forma de pares ordenados (Xi, Yi), onde Xi é um valor observado de uma 
variável e Yi é o correspondente valor da outra variável. 
Na construção do gráfico, podemos começar com qualquer um dos eixos. O diagrama mostra uma relação 
direta entre as variáveis, ou seja, o crescimento de Y está diretamente ligado ao crescimento de X. 
 
 
 
 
 
 
 
 
 
 
 
 
X Y 
30 430 
21 335 
35 520 
42 490 
37 470 
20 210 
8 195 
17 270 
35 400 
25 480 
0
100
200
300
400
500
600
0 10 20 30 40 50
13 
 
EXERCÍCIOS - Lista 2 
 
1. A tabela abaixo mostra as alturas e pesos de uma amostra de nove homens entre as idades de 25 a 29 anos, 
extraída ao acaso entre funcionários de uma grande indústria. Represente os dados em um diagrama de 
dispersão e analise se parece plausível a existência de uma relação linear entre as variáveis 
Altura 183 173 168 188 158 163 193 163 178 cm 
Peso 79 69 70 81 61 63 79 71 73 Kg 
 
 
 
 
2. Em um estudo conduzido na Itália, 10 pacientes com hipertrigliceridemia foram colocados sob dieta de 
baixas gorduras e altos carboidratos. Antes de iniciá-la, as medidas de colesterol e de triglicerídeos foram 
registradas para cada indivíduo: 
Paciente Nível de colesterol (mmol/l) Nível de triglierídeos (mmol/l) 
1 5,12 2,30 
2 618 2,54 
3 6,77 2,95 
4 6,65 3,77 
5 6,36 4,18 
6 5,90 5,31 
7 5,48 5,53 
8 6,02 8,83 
9 10,34 9,48 
10 8,51 14,2 
 
Represente os dados em um diagrama de dispersão e analise se parece plausível a existência de uma relação 
linear entre as variáveis nível de colesterol e nível de triglicerídeos. 
 
3. É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação, uma 
nutricionista selecionou 10 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) 
e a massa muscular (Y). 
Idade (X) Massa muscular (Y) 
71,0 82,0 
64,0 91,0 
43,0 100,0 
67,0 68,0 
56,0 87,0 
73,0 73,0 
68,0 78,0 
56,0 80,0 
76,0 65,0 
65,0 84,0 
 
 
 
14 
 
4. ESTATÍSTICA DESCRITIVA 
 
 É a parte mais conhecida. Quem vê os noticiários na televisão ou nos jornais, sabe quão frequente é o 
uso de médias, índices e gráficos nas notícias. É a parte da Estatística que coleta, descreve, organiza e 
apresenta os dados. É nesta etapa que são tiradas conclusões. 
Exemplos: 
a) O INPC, Índice Nacional de Preços ao Consumidor, é um índice de maior importância em nossa sociedade. 
Sua constituição envolve a sintetização, em um único número, dos aumentos dos produtos da cesta básica. No 
fundo é um sucessivo cálculo de médias, da mesma forma o INCC, Índice Nacional de Construção Civil. 
b) Anuário Estatístico Brasileiro. O Instituto Brasileiro de Geografia e Estatística - IBGE publica a cada ano 
este anuário apresentando, em várias tabelas, os mais diversos dados sobre o Brasil: Educação, transporte, 
economia, cultura, etc. Embora simples e fáceis de serem entendidas, as tabelas são o produto de um processo 
extremamente demorado de coleta e apuração e dados. 
 
4.1 Dados Não Agrupados 
 
 Quando o número de valores coletados for menor do que 20, isto é, n < 20, vamos trabalhar com eles 
de modo não agrupado, numa relação um a um, também chamada de série numérica. Esta forma de tratamento 
evita perda de informações quando o n é pequeno. 
 
Exemplo 1: 
A tabela abaixo lista as durações das terapias para dez pacientes inscritos em um estudo que investiga os efeitos 
da interrupção das transfusões de sangue. Determine o limite superior e o limite inferior. 
 
Tabela 1 – Duração da terapia de transfusão para 10 pacientes com doenças falciformes. 
Indivíduo Duração 
1 12 
2 11 
3 12 
4 6 
5 11 
6 11 
7 8 
8 5 
9 5 
10 5 
TOTAL 
 Fonte: Dados fictícios. 
 
No entanto, para destacar as tendências características de um grupo de dados quantitativos necessita-
se de elementos típicos da distribuição dos mesmos, que são as: 
 
15 
 
4.1.1 As medidas de posição 
 As medidas de posição nos orientam quanto à posição da distribuição em relação ao eixo horizontal. 
As medidas de Tendência Central são medidas de posição, porque posicionam o conjunto de dados na 
reta, isto é, nos informam sobre os pontos em que ocorrem as respostas de nossas variáveis. São medidas cujos 
valores estão próximos do centro de um conjunto de dados (os dados tendem a se agrupar em torno de valores 
centrais). 
 
MÉDIA ARITMÉTICA ( x ) 
 É o ponto de equilíbrio (centro de gravidade) da variável aleatória Xi. A média aritmética é um valor 
que pode substituir todos os valores da variável, isto é, é o valor que a variável teria se em vez de “variável” 
ela fosse “constante”. 
A fórmula da Média Aritmética é dada por: 
 
n
xxxx
n
x
x n
n
i
i ++++
==

...321 
Onde: xi são os valores da variável e n o número de valores. 
 
Exemplo 2: 
A tabela abaixo lista as durações das terapias para dez pacientes inscritos em um estudo que investiga os efeitos 
da interrupção das transfusões de sangue. Determine a média desses valores. 
 
Tabela 1 – Duração da terapia de transfusão para 10 pacientes com doenças falciformes. 
Indivíduo Duração 
1 12 
2 11 
3 12 
4 6 
5 11 
6 11 
7 8 
8 5 
9 5 
10 5 
TOTAL 
 Fonte: Dados fictícios. 
 
 
MEDIA ARITMÉTICA PONDERADA 
Nos cálculos envolvendo média aritmética simples, todas as ocorrências têm exatamente a mesma 
importância ou o mesmo peso. Dizemos então que elas têm o mesmo peso relativo. No entanto, existem casos 
onde as ocorrências têm importância relativa diferente. Nestes casos, o cálculo da média deve levar em conta 
esta importância relativa ou peso relativo. Este tipo de média chama-se média aritmética ponderada. 
16 
 
Considerando uma variável quantitativa x que assume os valores 𝑥1, 𝑥2, ..., 𝑥𝑘, com frequências 
absolutas respectivamente iguais a 𝑛1, 𝑛2, ..., 𝑛𝑘, a Média Aritmética Ponderada de x é definida como a divisão 
da soma de todos os produtos de 𝑥𝑖𝑛𝑖 (𝑖 = 1, 2, … , 𝑛) pela soma de suas frequências, ou seja, 
 
Exemplo 3: 
Um feirante possuía 50kg de maçã para vender em uma manhã. Começou a vender as frutas por R$ 2,50 o 
quilo e, com o passar das horas, reduziu o preço em duas ocasiões para não haver sobras. A tabela seguinte 
informa a quantidade de maçãs vendidas em cada período, bem como os diferentes preços cobrados pelo 
feirante. 
Período Preço por quilo (em reais) Número de quilos de maçã vendidos 
Até às 10h 2,50 32 
Das 10h às 11h 2,00 13 
Das 11h às 12h 1,40 5 
 
Naquela manhã, por quanto foi vendido, em média, o quilo da maçã? 
Exemplo 4:
 A tabela abaixo representa os preços e as quantidades vendidas de determinados medicamentos, 
em três diferentes farmácia em certo período: 
Farmácia Preço Quantidade vendida 
A 10,00 200 
B 8,00 700 
C 12,00 100 
Calcule a média aritmética ponderada: 
 
MEDIANA (Md) 
 A mediana é o número que se encontra exatamente no centro de uma série de números, ou seja, separa 
os valores em dois subconjuntos de mesmo número de elementos. Tem como objetivo, encontrar um valor que 
permita conter 50% dos dados acima deste valor e 50% abaixo. 
 
 50% 50%Li Md Ls 
 
Cálculo da Mediana 
Para o cálculo da Mediana os dados devem primeiramente ser colocados em ordem crescente. 
No nosso exemplo: 
 
 
17 
 
MODA (Mo) 
 Denomina-se moda o valor que ocorre com maior frequência em uma série de valores. É o valor que 
mais ocorre. Observar o valor que aparece o maior número de vezes. A moda é um ponto de máximo. 
No nosso exemplo: 
 
 
 
 
 
Uma distribuição de valores em termos de valor Modal classifica-se em: 
 AMODAL: não há valores repetidos 
 UNIMODAL: um único valor repetido 
 BIMODAL: dois valores repetidos 
 PLURIMODAL: três ou mais valores repetidos 
 
Classifique e represente a moda em cada caso. 
 5,4,3,2,1=A 
 5,5,4,4,3,3,2,2=B 
 7,6,5,4,3,3,2=C 
 7,7,7,6,6,5,4,4,3,2=D 
 7,6,6,5,5,4,3,2,2=E 
 
4.1.2 As medidas de variabilidade 
Medidas de Variabilidade: São medidas utilizadas para avaliar o grau de variabilidade ou dispersão, dos 
valores em torno da média. Servem para medir a representatividade da média. 
 
AMPLITUDE TOTAL ( AT ) 
 A amplitude ou intervalo de um grupo de números é a diferença entre o maior e o menor valor do 
grupo. A maior limitação da amplitude total é o fato de ela só levar em conta os dois valores extremos de um 
conjunto de dados, nada informando quanto aos outros valores. Quando os valores se distribuírem 
uniformemente (o que pode ser verificado através da representação gráfica), a amplitude é uma boa medida. 
 At Ls Li= − 
Quanto maior a amplitude total, maior será a dispersão dos valores da variável em torno da média. 
 
18 
 
Em nosso primeiro exemplo, temos: 
AT = 
 
 
Tabela de cálculos acessórios para o cálculo das medidas de variabilidade. 
 
 
A VARIÂNCIA (S2) 
 A influência dos fatores não controlados sob o nome de acaso pode ser avaliada através da diferença, 
chamada desvio ou erro, entre os valores observados e a média verdadeira. 
A variância é a medida das distancias das informações em torno da média. A variância é expressa 
numa unidade quadrática em relação à unidade de medida da variável em questão. Esse inconveniente é sanado 
com a definição do desvio padrão. 
Quando n  30 temos: 
( )

= −
−
=
n
i
i
n
xx
S
1
2
2
1
  





−







−=

1
)( 2
2
2
n
n
x
n
x
S
i
 
Observação: Quando n ≥30 não há a necessidade de aplicarmos o Fator de Correção 





−1n
n
. 
 
DESVIO PADRÃO (S) 
 O desvio padrão é uma medida que “permite estimar a variação não controlada, isto é, a variação do 
acaso ou aleatória”. O desvio padrão é a média das medidas das informações em torno do valor médio. Cabe 
notar que o desvio padrão é um valor absoluto expresso na mesma unidade de medida da variável aleatória em 
questão. 
 





−







−=

1
)²(
2
n
n
x
n
x
S
i
 → 
2SS = 
 
O COEFICIENTE DE VARIAÇÃO (CV) 
 
 O Coeficiente de Variação mede em porcentagem (em termos relativos) a variação atribuída ao acaso. 
Coeficiente de Variação mede ou nos dá uma indicação da precisão do experimento. O coeficiente de variação 
é um valor relativo que tem a função de comparar n variáveis, independente de suas unidades. 
 Em trabalhos experimentais, através deste parâmetro, comprovamos a precisão alcançada, embora não 
seja apenas esta a sua finalidade. Este coeficiente e expresso em percentagem, sendo utilizado em trabalhos 
científicos. É calculado utilizando-se a fórmula: 
 100.





=
x
S
CV 
19 
 
A grande utilidade do coeficiente de variação é permitir a comparação da variabilidade de diferentes 
conjuntos de dados. 
 CV  15% Baixa dispersão – Homogênea, estável, regular. 
 15% < CV < 30% Média dispersão. 
 CV  30% Alta dispersão – Heterogênea 
 
 E ainda: 
0 A 30% A medida indicada para representar a variável é a média. 
30% A 60% A medida indicada para representar a variável é a mediana. 
60% Ou mais A medida indicada para representar a variável é a moda 
 
Seguindo no nosso exemplo: 
100





=
x
S
CV = 
 
 
 
 
 
 O desvio encontrado representa ____ % de afastamento em relação à média, assim, podemos afirmar 
que se trata de um grupo heterogêneo e o padrão da variável é tido como irregular com grande variação e a 
moda é a medida indicada para representar o peso (em kg) dos animais fêmea da Clinica Veterinária. 
 
 
Exemplos: 
1. A série dada representa as notas de 6 alunos na disciplina de Estatística: 
5,0 5,5 6,0 6,5 7,0 7,5 
Calcule a variância, o desvio padrão e o coeficiente de variação da série dada. 
 
 
2. São fornecidos valores de nível de triglicérides (mg/dL) de 9 pessoas: 
166 158 202 162 135 82 150 86 121 
Calcule, apresentando o desenvolvimento da fórmula: 
a) o nível médio de triglicérides; 
b) o nível mediano de triglicérides; 
c) o desvio padrão do nível de triglicérides; 
d) o coeficiente de variação do nível de triglicérides; 
 
3. Dos dois conjuntos seguintes, qual apresenta maior variação? 
 
1º. 13 14 20 21 23 25 31 2º. 113 114 120 121 123 125 131 
 
 Portanto... 
20 
 
EXERCÍCIOS – LISTA 3 
 
1. Uma amostra de gaúchos foi investigada em relação ao consumo diário de sal, obtendo-se o seguinte: 
Gaúcho Consumo (g)(Fi) fr% 
A 10 
B 13 
C 17 
D 9 
E 8 
F 11 
G 13 
H 7 
TOTAL 
 
a) Complete as frequências; 
b) Determine e interprete o consumo médio, o consumo modal e o consumo Mediano; 
c) Calcule o CV e interprete a variabilidade desses dados 
 
 
 
 
 
 
2. Os resultados baseados em uma escala de ansiedade para uma amostra de nove sujeitos são: 
 
67 75 63 72 77 78 81 77 80 
 
Determine as medidas de tendência central (média, moda, mediana) e interprete cada uma. 
 
 
 
 
 
 
3. A incidência de doenças infecto-contagiosas no Est.de S.Paulo, 1974, é apresentado a seguir. Que medida 
estatística (média, moda, mediana) você usaria para descrever esta tabela? Justifique adequadamente sua 
resposta, levando em conta a classificação da variável. 
 
Doenças Nº de casos 
Aftosa 
Brucelose 
Tuberculose 
Raiva 
Leptospirose 
29.000 
22.000 
19.000 
12.000 
10.000 
 
 
 
 
 
 
 
 
 
 
 
 
21 
 
 
 
 
4. As crianças vacinadas pela vacina Sabin em certo ambulatório foram registradas na tabela abaixo de 
acordo com a idade. Complete as frequências relativas percentuais e determine as medidas de tendência central 
(média, moda e mediana) e dê as interpretações respectivas: 
Idade (anos) Numero de crianças (fi) fr% 
0 12 
1 13 
2 22 
3 50 
4 31 
5 22 
6 10 
Σ 
 
 
 
 
 
5. Um grupo de adolescentes foi entrevistado sobre o número de vezes que utilizaram droga injetável. Os 
resultados foram: 
Nº de vezes que 
usaram drogas 
Nº de 
adolescentes 
0 
1 
2 
3 
47 
29 
13 
8 
∑ 97 
 
a) Qual o valor da moda desta informação? O que ela nos informa? 
b) Qual é a mediana? O que ela significa? 
c) Determine a média. Interprete. 
 
 
 
6. Um levantamento realizado em uma amostra de pessoas normais, segundo a quantidade de hemoglobina 
( g/ 100 ml) existente no sangue forneceu os seguintes resultados: 
 
13,5 12,5 10,6 15,1 11,7 12,9 12,8 9,4 14,9 12,0 
 
Calcule o desvio padrão e o coeficiente de variação. 
 
 
 
7. Os dados seguintes são referentes a uma amostra de diâmetros de coração de adultos normais, em mm 
(medidas em radiografias 36 x 43 cm): 
146 125 139 132 121 135 114 114 130 169 114 130 169 125 103 
 
a) Determine a média, a moda e a mediana. 
b) Calcule a variância e o desvio padrão. 
 
 
 
 
22 
 
8. O Hospital de Clínicas de Porto Alegre realizou um estudo sobre Síndrome de Down: características 
clínicas, perfil epidemiológico e citogenético em recém-nascidos. Foi realizado um rastreamento em todosos 
nascidos com peso acima de 500 gramas no HCPA entre junho de 1988 e março de 1995, sendo anotado a 
idade das mães de crianças com Síndrome de Down no grupo de caso e a idade das mães de crianças normais 
no grupo de controle. Com base nas informações dadas abaixo, qual das amostras de mães é mais homogênea 
em relação à idade? Justifique a resposta. 
 Casos Controle 
Média 
Desvio Padrão 
31,67 anos 
7,08 anos 
26,00 anos 
5,08 anos 
 
 
 
 
 
 
9. O gráfico a seguir apresenta a taxa de desemprego em % da população economicamente ativa no período 
de 1982 a 1997: 
 
Figura 1 – Taxa de desemprego da população economicamente ativa no período de 1982 a 1997. 
 
a) Classifique a variável de interesse. 
b) Qual a moda da variável? 
c) Determine e interprete a média. 
d) Determine e interprete a mediana. 
e) Determine e interprete o coeficiente de variação. 
 
 
 
 
 
10. Foram obtidos os tempos (em segundos) decorridos entre a formulação de um pedido e a entrega de um 
determinado sanduíche em uma lanchonete McDonalds. 
 
135 90 85 121 83 69 159 177 
120 133 90 80 70 93 80 110 
 
Calcule média, mediana, moda, desvio padrão e coeficiente de variação. Interprete os resultados e comente 
sobre como está sendo o atendimento nesta loja. 
 
 
 
23 
 
5. TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIA 
 
5.1 Dados agrupados 
 Uma tabela de distribuição de frequência é a apresentação organizada dos dados coletados, a partir de 
uma amostra, trazendo informações significativas sobre aquela população, para possibilitar tomadas de 
decisões. 
São passos da organização da tabela de distribuição de frequência: 
1. Listagem dos dados brutos – tabela primitiva. 
2. Organização dos dados em ordem crescente – rol. 
3. Cálculo da amplitude (At )– a diferença entre o maior e o menor valor dos dados coletados. 
4. Distribuição da frequência (fi) – quantas vezes um valor aparece nos dados. 
5. Classes (k) – são intervalos de variação da variável em estudo. Estes intervalos são representados pelo 
símbolo ( |--- ) que significa fechado a esquerda e aberto a direita, por exemplo: 5 |--- 15 neste caso o número 
5 está incluído, porém o 15 não está. 
 
Número de classes 





=
25
255
nsen
nse
k n é o número de dados 
O valor de k indica quantas linhas aproximadamente terá a tabela. 
6. Amplitude de classe ou intervalo de classe (h) – é medida do intervalo que define a classe (quantos 
números aparecem no intervalo). 
n
At
h = onde At é a amplitude total e n é o k 
7. Cálculo da média no intervalo de classe (xi) – é o limite superior mais o limite inferior do intervalo 
dividido por 2. 
2
infsup ll
xi
+
= 
8. Cálculo da frequência acumulada (fa ) – soma das frequências dos valores inferiores ou igual ao valor 
dado, indica a quantidade de valores em um intervalo qualquer da distribuição de frequências. 
9. Frequência relativa percentual (fr %) – que significa o percentual de ocorrência daquele dado. 
100% =
n
x
f r 
 
 
 
 
 
24 
 
Exemplo 1: 
1º Coleta de dados (supondo que já realizamos) 
2º Listagem de dados brutos (quadro primitivo) 
24 23 22 28 35 21 23 23 33 34 
24 21 25 36 26 22 30 32 25 26 
33 34 21 31 25 31 26 25 53 33 
 
3º Organização dos dados em ordem crescente – rol 
21 21 21 22 22 23 23 23 24 24 
25 25 25 25 26 26 26 28 30 31 
31 32 33 33 33 34 34 35 35 36 
4º Distribuição de frequência – arranjo dos valores e suas respectivas frequências (número de vezes que cada 
elemento da amostra aparece). 
X Frequência 
21 
22 
23 
24 
25 
26 
28 
30 
31 
32 
33 
34 
35 
36 
∑ 
 
5º Cálculo da amplitude total – diferença entre o maior e o menor valor 
At = Li - Ls = 
 
25 
 
6º Classes 
- cálculo do k (número de classes) 
n = 30 logo == nk 
Neste caso arredondamos para maior, ou seja, k = 6, isso indica que a tabela terá aproximadamente 6 linhas. 
 - cálculo do h (amplitude da classe) 
==
n
A
h t 
7º Organização da tabela de distribuição de frequência 
Classe Fi Xi fa fr fr% fa% 
 
 
 
 
 
 
 
 
8º Histograma: é formado por um conjunto de retângulos justapostos, cujos sobre o eixo horizontal, de tal 
modo que seus pontos médios coincidam com os pontos médios do intervalo de classe. 
 
 
 
 
 
 
 
9º Polígono de frequência acumulada é traçado marcando-se as frequências acumuladas sobre perpendiculares 
ao eixo horizontal levantadas nos pontos correspondentes aos limites superiores dos intervalos de classe. 
 
 
0
5
10
15
20
25
30
35
20 25 30 35 40
26 
 
EXERCÍCIOS – LISTA 4 
1. Os dados abaixo referem-se ao número de pessoas que residem em uma amostra de 35 domicílios do 
bairro Esperança no 1°sem/99 : 
 
a) Classifique o tipo de variável da amostra; 
b) Construa uma distribuição de frequência em classes. 
c) Represente graficamente através de uma Ogiva (polígono de frequência acumulada). 
 
2. Os dados seguintes são referentes ao nível de glicose de 60 crianças: 
 
a) Classifique a variável; 
b) Construa uma tabela de distribuição de frequência; 
c) Represente através de um histograma; 
 
3. Os dados a seguir referem-se ao tempo, em horas, que 80 pacientes hospitalizados dormiram durante 
a administração de certo anestésico: 
Complete a tabela de distribuição de frequências; 
a) Represente graficamente através de um 
polígono de frequências; 
 
 
 
 
 
 
 
 
27 
 
 
 
4. A tabela abaixo indica a idade de uma amostra de 
pacientes com hipertensão arterial: 
 
a) Complete a tabela de distribuição de 
frequências; 
 
 
 
28 
 
5.2 Estatística Descritiva para dados Agrupados 
Exemplo. A tabela abaixo representa as notas obtidas por um grupo de 58 alunos em uma disciplina. Completar 
a tabela e calcular a média, a moda e a mediana. 
Notas (x) Alunos (fi) xi (fi ∙ xi) fa 
35 45 5 
45 55 12 
55 65 18 
65 75 14 
75 85 6 
85 95 3 
Total 58 - - 
 
𝐚) 𝐌É𝐃𝐈𝐀: x̅ =
∑(fi ∙ xi)
n
 
 
 
Interpretação: o desempenho médio deste grupo de alunos foi de ______ pontos. 
 
 
Exemplo: 
 A tabela abaixo representa as notas obtidas por um grupo de 58 alunos em uma disciplina. Completar a tabela 
e calcular a variância, desvio padrão e coeficiente de variação. 
Notas (x) Alunos (fi) xi fi ∙ xi xi
2 fi ∙ xi
2
 
35 45 5 40 200 
45 55 12 50 600 
55 65 18 60 1080 
65 75 14 70 980 
75 85 6 80 480 
85 95 3 90 270 
Total 58 - 3.610 
 
a) VARIÂNCIA 
s2 = ∑
fixi
2
n
− (x̅)2
n
i=1
 
 
b) DESVIO-PADRÃO 
2SS = 
29 
 
 
Interpretação: encontramos um desvio padrão de ______ pontos, ou seja, se calcularmos um intervalo 
utilizando um desvio-padrão em torno da pontuação média de 62,24 pontos, encontraremos a concentração da 
maioria dos alunos dentro desta média de pontuação. 
 
c) COEFICIENTE DE VARIAÇÃO: trata-se de uma média relativa a dispersão. 
Se Baixa dispersão – Homogênea, estável, regular. 
Se Média dispersão. 
Se Alta dispersão – Heterogênea 
𝐶𝑉 = (
𝑆
�̅�
) ∙ 100 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
%15CV
%30%15 CV
%30CV
30 
 
 
EXERCÍCIOS – LISTA 5 
 
1. Os dados abaixo referem-se ao número de pessoas que residem em uma amostra de 35 domicílios do 
bairro Esperança no 1°sem/99: 
 
a) Utilizando a tabela de distribuição de frequência construída na aula anterior, amplie esta tabela e 
calcule as medidas de posição: Média, mediana e Moda; 
b) As medidas de variabilidade Variância, Desvio Padrão e Coeficiente de Variação; 
c) Interprete o Coeficiente de variação. 
 
2. Os dados seguintes são referentes ao nível de glicose de 60 crianças: 
 
a) Utilizando a tabela de distribuição de frequência construída na aula anterior, amplie esta tabela e 
calcule as medidas de posição: Média, mediana e Moda; 
b) As medidas de variabilidade Variância, Desvio Padrão e Coeficiente de Variação; 
c) Interpreteo Coeficiente de variação. 
 
3. Os dados a seguir referem-se ao tempo, em horas, que 80 pacientes hospitalizados dormiram durante 
a administração de certo anestésico: 
31 
 
 
 
 
 
 
 
 
 
 
a) Utilizando a tabela de distribuição de frequência construída na aula anterior, amplie esta tabela e 
calcule as medidas de posição: Média, mediana e Moda; 
b) As medidas de variabilidade Variância, Desvio Padrão e Coeficiente de Variação 
c) Interprete o Coeficiente de variação; 
 
4. A tabela abaixo indica a idade de uma amostra de pacientes com hipertensão arterial: 
 
a) Complete esta tabela e calcule as medidas de posição: Média, mediana e Moda; 
b) As medidas de variabilidade Variância, Desvio Padrão e Coeficiente de Variação. 
c) Interprete o Coeficiente de variação; 
 
 
32 
 
6. ESTIMADORES E INFERÊNCIA ESTATÍSTICA 
 
Estatística Inferencial: É a parte da estatística que se interessa pelas generalizações, ou seja, 
pelas transferências de conclusões das amostras para a população. 
O aspecto mais importante da estatística inferencial é o processo de obter conclusões sobre 
parâmetros da população, baseados nas estatísticas amostrais. A necessidade de métodos de 
inferência estatística deriva dos processos de amostragem. 
Inferência: É um conjunto de métodos utilizados para “estender” através da amostra, 
parâmetros populacionais. O objetivo do Pesquisador será o de conhecer os parâmetros 
populacionais, baseado nos resultados da amostra. 
O Estudo da amostra deve servir de base para conhecermos o comportamento da população. 
Parâmetros: São medidas calculadas na população. As letras gregas designam os parâmetros, 
por exemplo: (𝜇, 𝜎2, 𝜎, 𝜌, 𝜑, 𝛾, … ). 
Estimadores (estatísticas): São medidas calculadas na amostra, que serão utilizadas para inferirmos 
os resultados da população. As letras Latinas (que compõe o alfabeto Português) designam os 
estimadores, por exemplo, (�̅�, 𝑆2, 𝑆, 𝐶𝑉, 𝑝, … ). 
 
6.1 ESTIMAÇÃO DE PARÂMETROS 
Consiste em generalizar os resultados da parte (amostra) para o todo (população). 
 
Os estimadores podem ser: 
Por ponto: Estimativa única de um parâmetro populacional. 
Exemplo: a média amostral, o desvio padrão amostral, a proporção amostral, etc. 
 
Por intervalo: Dá um intervalo de valores possíveis, no qual se admite que esteja o parâmetro 
populacional. 
 
33 
 
6.1.1 CÁLCULO DO INTERVALO DE CONFIANÇA PARA UMA MÉDIA 
Os pesquisadores tomam uma única amostra e, em geral, essas amostras são pequenas. É, 
portanto, legítimo que o leitor de uma pesquisa se pergunte: posso ter confiança nos resultados que 
foram obtidos com base em uma amostra de, por exemplo, quinze ou trinta pessoas? Para dar essa 
confiança ao leitor, as pesquisas que fornecem médias de dados coletados por amostragem devem 
fornecer, também, as margens de erro que delimitam um intervalo com probabilidade (estabelecida 
pelo pesquisador) de conter a média 𝜇 da população. Temos, então, o que chamamos de intervalo de 
confiança. 
Como se sabe, o estimador de 𝜇 é �̅�. Também é conhecida a distribuição de probabilidade de 
�̅�: 
Procedimento para a construção de um Intervalo de Confiança: 
1. Retira-se uma amostra aleatória simples de 𝑛 elementos. 
2. Calcula-se a média da amostra �̅�. 
3. Calcula-se o desvio padrão da média amostral 𝑆. 
4. Calcula-se o intervalo de confiança contendo a verdadeira média da população por meio da seguinte 
expressão: 
𝐼𝐶 = {�̅� ± 𝑡𝛼
𝑛−1 ∙
𝑆
√𝑛
} 
É bem conhecida a expressão margens de erro. Elas delimitam o erro de estimação. Mas, antes de 
entender o procedimento de cálculo, lembre-se de que n é o tamanho da amostra, �̅� é a média e S é o 
desvio padrão. O valor de 𝑡𝛼
𝑛−1 é encontrado na Tabela de distribuição de t, onde (𝑛 − 1) é o Grau 
de Liberdade e 𝛼 o nível de significância (1 – nível de confiança (Pf)). 
 
Exemplo: 
Uma amostra de trinta homens sadios com idade entre 30 e 48 anos, não fumantes e que tinham 
atividade física regular forneceu, em repouso, dados de pressão distólica. A média foi de 80 mm Hg, 
com desvio padrão 7,1 mm Hg. Calcule o intervalo de 95% de confiança para a média: 
a) Qual a estimativa pontual para a pressão distólica da amostra de homens? 
 
 
 
b) O que se pode dizer a respeito da variação da pressão distólica? 
 
 
 
 
34 
 
c) E na população? 
Aqui faremos o cálculo do intervalo de confiança para a média. 
Tamanho da amostra: 𝑛 = 
Média: �̅� = 
Desvio Padrão: 𝑆 = 
Probabilidade de Confiança: 𝑃𝑓 = 
 
Nível de significância: 𝛼 = 1 − 𝑃𝑓 
 
𝑡𝛼
(𝑛−1)
= 
**Identificamos o valor de t na Tabela de Distribuição de t a partir do Grau de Liberdade (𝑛 − 1) e 
o valor do Nível de significância (𝛼). 
 
Tabela 1 – Valores de t, segundo os graus de liberdade e o valor de 𝛼. (reprodução parcial) 
Graus de liberdade (n-1) 
𝜶 
0,1 0,05 0,01 
26 1,71 2,06 2,78 
27 1,70 2,05 2,77 
28 1,70 2,05 2,76 
29 1,70 2,04 2,76 
30 1,70 2,04 2,75 
40 1,68 2,02 2,70 
60 1,67 2,00 2,66 
120 1,66 1,98 2,62 
∞ 1,64 1,96 2,58 
 
Substituir os termos: 
𝐼𝐶 = {�̅� ± 𝑡𝛼
𝑛−1 ∙
𝑆
√𝑛
} 
 
 
 
 
 
 
 
35 
 
EXERCÍCIOS – LISTA 6 
 
1. Foram obtidos dados sobre o nível de colesterol total em jejum de 25 universitários saudáveis. A 
média e o desvio padrão, medidos em mg/dL, foram de 200 e 20, respectivamente. Encontre o 
intervalo de 90% de confiança para a média. 
 
2. Um professor obteve dados de idade de uma amostra de 61 alunos matriculados na universidade. 
A média de idade foi de 23,5 anos e o desvio padrão foi 3,0 anos. Calcule o intervalo de 99% de 
confiança para a média. 
 
 
3. A pressão sanguínea sistólica medida em uma amostra de cem militares apresentou média igual 
a 125 mm Hg e desvio padrão igual a 9 mmHg. 
a) Considerando a probabilidade de confiança de 90% para a média, determine o intervalo de 
confiança para a população. 
b) Forneça um intervalo de confiança de 95% para a média da população. 
c) Forneça um intervalo de confiança de 99% para a média da população. 
 
4. Suponha que o nível de colesterol total no sangue de pessoas sadias tem média igual a 200 mg/dL 
e desvio padrão igual a 50 mg/dL. Calcule o intervalo de confiança com nível de significância 𝛼 =
0,05 para as médias de amostras de 𝑛 = 16. 
 
5. O volume da tireoide foi medida em 46 crianças com idade entre 6 e 14 anos, da cidade de Passo 
Fundo, RS. A média nessa amostra foi 4,6 mL e o desvio padrão, 1,4 mL. Estime a média populacional 
para essa variável, usando intervalos de 90% e 95% de confiança. Discuta os resultados quanto à 
precisão das estimativas. 
 
 
 
 
 
 
 
 
 
36 
 
7. REGRESSÃO LINEAR SIMPLES 
 
 Neste item, vamos avaliar se existe associação entre duas variáveis quantitativas, tais como pressão 
arterial e idade do indivíduo. Quando se pode demonstrar que existe associação entre duas variáveis 
quantitativas, isto é quando se constata que elas variam juntas, dizemos que as variáveis estão correlacionadas. 
 Neste sentido, Correlação é uma relação estatística para determinar se há algum relacionamento 
significativo entre duas variáveis. 
 Existem muitos meios de se determinar a existência ou não da correlação entre duas variáveis. 
Iremos utilizar dois métodos, o gráfico (diagrama de dispersão) e o algébrico (coeficientes). 
 
 
 
37 
 
CORRELAÇÃO ENTRE VARIÁVEIS 
 O Termo correlação significa relação em dois sentidos que serve para designar a força que mantém 
“unidos” dois conjuntos de dados. A correlação mede a intensidade, a direção e estabelece o grau de associação 
linear entre duas variáveis quantitativas. 
Exemplo de Aplicação: 
Tabela 7.2 – Peso (em quilogramas) e comprimento (em centímetros) de sete recém-nascidos. 
Recém-nascido Peso (Xi) Comprimento (Yi) XiYi 2
iX 
2
iY 
1 
2 
3 
4 
5 
6 
7 
3,5 
3,7 
3,1 
4,2 
2,8 
3,5 
3,2 
51 
49 
48 
53 
48 
50 
49 
178,5 
181,3 
148,8 
222,6 
134,4175 
156,8 
12,25 
13,69 
9,61 
17,64 
7,84 
12,25 
10,24 
2601 
2401 
2304 
2809 
2304 
2500 
2401 
 
24 348 1 197,4 83,52 17 320 
 Fonte: Sonia Vieira, 2016. 
 
 
6.3 Coeficiente de Correlação 
 A correlação mede a intensidade, a direção e estabelece o grau de associação linear entre duas variáveis 
quantitativas. As relações lineares têm importância especial porque uma linha reta é um padrão simples e 
bastante comum. 
 
 10  R 01 − R 
 Correlação linear positiva Correlação linear negativa 
 
 
38 
 
 Correlação não linear Não ha Correlação linear 
 
KARL PERSON (1857 – 1936) foi quem desenvolveu a fórmula de R, que é dado por: 
( ) ( )( )
( ) ( )  
 
−−
−
=
2222
iiii
iiii
YYnXXn
YXYXn
R
 -1  R  1 
 
 O valor de R deve esta sempre entre –1 e +1, inclusive. Valores de R próximos de –1 e +1 indicam 
correlação forte, e valores próximos de zero indicam correlação fraca. O sinal de R indica se a correlação é 
positiva ou negativa. 
 
Por simulação numérica e pela proximidade ou não dos pontos em torno da reta de regressão, temos: 
R 0 Não Correlação Linear 
R 0 |---- 0,3 Correlação Linear Positiva Fraca 
R 0,3 |---- 0,6 Correlação Linear Positiva Média 
R 0,6 |---- 0,8 Correlação Linear Positiva Forte 
R 0,8 |---- 1,0 Correlação Linear Positiva Muito Forte 
R 1,0 Correlação Linear Positiva Perfeita 
 
 Vamos, em nosso exemplo, calcular e interpretar o Coeficiente de Correlação. 
 
 
 Assim, o grau de correlação observado entre os Investimentos reais em função do tempo é linear 
positiva forte. 
Observação Importante: Correlação não é igual à Causa e efeito, pois duas variáveis podem 
estar relacionadas e, no entanto, não haver entre elas nenhuma relação de causa e efeito. Como 
exemplo, em TRIOLA/1999 e outros, ao relacionarmos o tamanho do pé com a renda de um 
grupo de indivíduos, poderemos observar uma alta correlação, próximo de 1, no entanto na 
prática, não existe nenhuma relação de causa de efeito entre as mesmas. 
 
 Se duas variáveis estiverem relacionadas pela lei de causa e efeito, é viável o estabelecimento do grau 
que mantém as mesmas correlacionadas. No nosso exemplo, embora não possamos afirmar que a variável Xi 
seja a única causa das variações sofridas em Yi, é razoável admitir que maiores gastos em comerciais, oferecem 
uma maior probabilidade de retornos financeiros. 
 Assim, dá para sabermos quanto da variação de Yi pode ser explicada pelas variações de Xi, que é 
dado pelo Coeficiente de Determinação. 
 
39 
 
6.4. Coeficiente de Determinação ( R2) 
 É um dos critérios mais usados para caracterizar o ajuste, pois, o coeficiente de determinação nos 
permite saber quanto da variação de Yi pode ser explicado pela variação de Xi. 
 
 
 
Assim, em nosso exemplo, o Coeficiente de Determinação (poder explicativo do modelo) é dado por: 
 
Se =R ________ então, %____2 =R significando que aproximadamente ______% das 
variações do comprimento real dos recém-nascidos são explicadas pelas variações do peso. E o 
restante pode ser explicado por outras variáveis que não estão sendo consideradas no modelo. 
 
EXERCÍCIOS – LISTA 6 
 
1. A tabela abaixo mostra as alturas e pesos de uma amostra de nove homens entre as idades de 25 a 29 
anos, extraída ao acaso entre funcionários de uma grande indústria. Calcule e interprete o coeficiente 
de Correlação e Determinação observado entre as variáveis Peso e altura. 
 
Altura 183 173 168 188 158 163 193 163 178 cm 
Peso 79 69 70 81 61 63 79 71 73 kg 
 
2. Em um estudo conduzido na Itália, 10 pacientes com hipertrigliceridemia foram colocados sob dieta de 
baixas gorduras e altos carboidratos. Antes de inicia-la, as medidas de colesterol e de triglicerídeos foram 
registradas para cada indivíduo: 
Paciente Nível de colesterol (mmol/l) Nível de triglierídeos (mmol/l) 
1 5,12 2,30 
2 618 2,54 
3 6,77 2,95 
4 6,65 3,77 
5 6,36 4,18 
6 5,90 5,31 
7 5,48 5,53 
8 6,02 8,83 
9 10,34 9,48 
10 8,51 14,2 
Calcule e interpreta o coeficiente de Correlação e Determinação entre os níveis de colesterol e triglicerídeos e 
interprete. 
 
 
3. É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação, uma 
nutricionista selecionou 10 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (x) 
e a massa muscular (y). 
( ) 100.22 RR =
 
40 
 
Idade (X) Massa muscular (Y) 
71,0 82,0 
64,0 91,0 
43,0 100,0 
67,0 68,0 
56,0 87,0 
73,0 73,0 
68,0 78,0 
56,0 80,0 
76,0 65,0 
65,0 84,0 
 
Calcule e interpreta o coeficiente de Correlação e Determinação entre a idade e a massa muscular. 
 
 
 
41 
 
7.3. Análise de Regressão 
 
 Com a regressão buscamos as leis que explicam como duas ou mais variáveis estão relacionadas e 
proporciona obtermos um dado desconhecido a partir de seu par conhecido, com uma boa aproximação. 
 O estudo da regressão é usado para estabelecer uma equação matemática que possa descrever com 
certa precisão a relação entre duas ou mais variáveis. 
 Ao traçarmos o diagrama de dispersão e obtermos uma nuvem de pontos de configuração lembrando 
uma reta, é possível equacionarmos a esses pontos uma reta com o objetivo de produzirmos uma informação 
simplificada que possa expressar a lei que as mantém unidas. 
 Devemos lembrar que por dois pontos passa uma e somente uma reta, mas que quando temos uma 
nuvem de pontos, podemos traçar inúmeras retas. 
 De todas as retas possíveis devemos escolher a que melhor se ajuste a todos os pontos 
simultaneamente. O gráfico da equação é chamado reta de regressão(ou reta de melhor ajuste, ou reta de 
mínimos quadrados) 
Essas equações normais são equações lineares e podem ser resolvidas, simultaneamente, em relação aos 
coeficientes a e b, ou, algebricamente temos: 
n
Xb
n
Y
a
ii 
−=
 
( ) 
  
−
−
=
22
ii
iiii
XXn
YXYXn
b
 
 
No caso da regressão linear simples, a variável Yi é considerada a variável dependente (resposta) e a variável 
Xi é considerada a variável independente (explicativa). 
 
Significado dos parâmetros: 
a : Coeficiente Linear ou intercepto. É onde a reta corta o eixo Yi. Interpretado como a variação média da 
variável dependente Yi, que não depende da variável independente Xi. É dado na mesma unidade de medida 
de Yi. Diz o nível de Yi quando Xi é igual à zero. 
b: Coeficiente Angular, inclinação. Fornece uma estimativa da variação esperada de Yi, a partir da variação 
de uma unidade de Xi. A variação pode ser positiva ou negativa. 
 
 Assim, a equação de regressão estimada é: 
Ŷi = a + b.Xi 
 
 
 
Observação importante: 
42 
 
 O sinal ^ sobre o Yi é para indicar que se trata de um valor teórico, próximo da realidade, mas não 
necessariamente presente nos dados observados. 
Agora devemos calcular a equação da reta de regressão e comentar sobre o significado das estimativas. 
Cálculo dos coeficientes a e b. 
 
 
 
 
 
 
 
 
 
 
 
 
Significado dos coeficientes: 
=a Peso médio real que não depende do comprimento. No exemplo este coeficiente não 
tem sentido prático, no entanto não podemos esquecer que ele faz parte do modelo ajustado e que para fazermos 
projeções ele é essencial. 
=b Acréscimo médio no comprimento a cada quilograma. A cada quilograma os pesos 
reais tiveram um acréscimo médio de _________ cm. 
Pergunta: Qual é o comprimento esperado para 3,0 Kg? 
 
 
 
 
 
 
 
 
 
 
 
 
43 
 
EXERCÍCIOS – LISTA 7 
1. A tabela abaixo mostra as alturas e pesos de uma amostra de nove homens entre as idades de 25 a 29 anos, 
extraída ao acaso entre funcionários de uma grande indústria. 
Altura 183 173 168 188 158 163 193 163 178 cm 
Peso 79 69 70 81 61 63 79 71 73 kg 
a) Ajuste uma reta de regressão para a relação entre as variáveis altura e peso;b) Considerando a reta estimada dada no item (a), estime a peso dos funcionários desta indústria para uma 
altura de 190 cm. 
 
2. Em um estudo conduzido na Itália, 10 pacientes com hipertrigliceridemia foram colocados sob dieta de 
baixas gorduras e altos carboidratos. Antes de inicia-la, as medidas de colesterol e de triglicerídeos foram 
registradas para cada indivíduo: 
Paciente Nível de colesterol (mmol/l) Nível de triglierídeos (mmol/l) 
1 5,12 2,30 
2 618 2,54 
3 6,77 2,95 
4 6,65 3,77 
5 6,36 4,18 
6 5,90 5,31 
7 5,48 5,53 
8 6,02 8,83 
9 10,34 9,48 
10 8,51 14,2 
a) Ajuste uma reta de regressão para a relação entre os níveis de colesterol e triglicerídeos; 
b) Considerando a reta estimada dada no item (a), estime o nível de triglicerídeos para um nível de colesterol 
de 12.22 mmol/l. 
 
3. É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação, uma 
nutricionista selecionou 10 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (x) 
e a massa muscular (y). 
Idade (X) Massa muscular (Y) 
71,0 82,0 
64,0 91,0 
43,0 100,0 
67,0 68,0 
56,0 87,0 
73,0 73,0 
68,0 78,0 
56,0 80,0 
76,0 65,0 
65,0 84,0 
a) Ajuste uma reta de regressão para a relação entre as variáveis Y: massa muscular (dependente) e X: idade 
(independente); 
b) Considerando a reta estimada dada no item (a), estime a massa muscular média de mulheres com 50 anos.

Outros materiais