Introdução à Estatística: Variáveis, População e Amostra

•

SÃO CAMILO

Geovana Sanches

13/10/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioestatística I

12.369 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Geovana Sanches - TXXIV 
 
Bioestatística 
Professora Márcia Magnani 
 
ESTATÍSTICA 
A estatística abrange métodos e 
procedimentos de coleta, classificação, descrição e 
análise de dados. 
A Análise Estatística pode ser dividida em duas 
grandes áreas: a estatística descritiva e a inferência 
estatística (ou estatística indutiva). 
A estatística descritiva faz a análise 
exploratória dos dados através de tabelas e gráficos, da 
média, moda, mediana, variância e desvio padrão. Ela 
faz um “retrato” do que está ocorrendo naquela 
situação. 
A inferência estatística faz afirmações sobre 
características de uma população, ou seja, nos permite 
fazer conclusões e generalizar resultados. 
VARIÁVEIS 
Na área da saúde coletam-se dados para serem 
utilizados em questões de interesse da área como 
eficiência de medicamentos, causas de mortes, 
incidência de doenças etc. 
Esses dados são chamados de variáveis, sendo 
uma variável tudo aquilo que pode ser questionado e 
há opções de resposta; cada variável vira uma pergunta 
para os formulários das pesquisas, ajudando-nos a 
responder o objetivo da mesma. As variáveis devem 
estar muito bem definidas, para não causar dúvidas a 
quem responderá a pergunta. 
As variáveis podem ser classificadas como 
qualitativas e quantitativas. 
Uma variável é qualitativa quando os dados 
podem ser distribuídos em categorias mutuamente 
exclusivas e pode ser subdividida em: 
(A) Qualitativa nominal: as opções são nomes e 
não há uma ordem nas respostas. Exemplos: 
sexo, cor, causa de morte, grupo sanguíneo, 
cor dos olhos. 
(B) Qualitativa ordinal: os dados podem ser 
distribuídos em categorias mutuamente 
exclusivas que têm ordenação natural, ou seja, 
as respostas apresentam uma ordem. 
Exemplos: grau de instrução (1º grau, 2º 
grau...), status social, aparência, estágio de 
doença. 
Uma variável é quantitativa quando é expressa 
por números e pode ser subdividida em: 
(A) Quantitativa discreta: só pode ser expressa 
por valores inteiros. Exemplos: números de 
filhos, número de cáries dentárias, número de 
irmãos. 
(B) Quantitativa contínua: pode ser expressa 
através de números fracionários. É necessário 
acrescentar a unidade de medida 
acompanhando a variável contínua. 
Exemplos: idade (anos), peso (g), altura (cm). 
POPULAÇÃO E AMOSTRA 
População é o conjunto de elementos que têm 
pelo menos uma característica em comum; elas podem 
ser finitas ou infinitas. 
Quando são coletadas informações de toda a 
população, dizemos que foi feito um recenseamento. 
Em alguns dicionários, recenseamento é considerado 
sinônimo de censo. Todavia, outros consideram o 
recenseamento como a coleta de dados e o censo 
como o resultado obtido a partir dessa coleta. 
Em muitas pesquisas não é necessário 
trabalhar com a população e, assim, utiliza-se apenas 
um subconjunto, a qual é denominado amostra. 
Amostra é, portanto, um subconjunto não vazio e com 
menor número de elementos do que a população. 
Quando são coletadas informações de apenas 
parte da população, foi feita uma amostragem. 
O pesquisador que trabalha com amostra 
sempre pretende fazer uma inferência, isto é, estender 
os resultados da amostra para toda a população. 
TÉCNICAS DE AMOSTRAGEM 
Técnica de amostragem é o procedimento 
usado para escolher os elementos que irão compor a 
amostra. 
Amostra casual simples (ou aleatória) é 
composta por elementos retirados ao acaso da 
população. É resultado de um sorteio. 
Na amostra sistemática os elementos são 
escolhidos não por acaso, mas por um sistema. 
Anteriormente, é selecionado um critério e a partir 
dele, vemos quais integrantes se encaixam. Cuidado: o 
pesquisador não pode conhecer a população nesse 
critério pois, caso contrário, há um viés, demonstrando 
desonestidade do mesmo à deixa de ser uma técnica 
de amostragem. 
A amostra estratificada é composta por 
elementos provenientes de todos os estratos da 
população. Para selecionar os participantes dentro de 
cada estrato são necessárias outras técnicas, como a 
casual simples ou sistemática. Exemplo: pesquisa de 
intenção de voto – o Estado é dividido entre as regiões 
e, de cada uma delas, são selecionadas uma amostra. 
A amostra de conveniência é formada por 
elementos que o pesquisador reuniu simplesmente 
porque dispunha deles, ou seja, é uma amostra gerada 
de maneira conveniente para o pesquisador, uma 
facilidade para ele. Entretanto, vale ressaltar que o 
pesquisador tem que ter embasamento teórico para 
discutir o porquê dessa escolha, de forma que 
recomenda-se evitar essa técnica. 
Os dados coletados podem ser apresentados 
através de tabelas e gráficos. 
EXERCÍCIOS 
1. Os prontuários dos pacientes de um hospital estão 
organizados em um arquivo, por ordem alfabética. 
Qual a maneira mais rápida de amostrar 1/3 do 
total de prontuários? 
 Geovana Sanches - TXXIV 
 
Seleciona-se, para a amostra, um de cada três 
prontuários ordenados (por exemplo, o terceiro de 
cada três). 
2. Um pesquisador tem dez gaiolas que contém, cada 
uma, seis ratos. Qual técnica de amostragem pode 
ser utilizada pelo pesquisador para selecionar dez 
ratos para uma amostra? 
A técnica de amostragem que pode ser 
utilizada nesse caso é de uma amostra 
estratificada, para que ratos de todas as gaiolas 
sejam utilizados. 
3. Dada uma população de 4 pessoas, Antônio, Luís, 
Pedro e Carlos, quantas amostras casuais simples 
de tamanho 2 podem ser obtidas? Quais são essas 
amostras? 
Podem ser obtidas 6 amostras casuais simples 
de tamanho 2, sendo elas: Antônio e Luís; Antônio 
e Pedro; Antônio e Carlos; Luís e Pedro; Luís e 
Carlos; Pedro e Carlos. 
4. Dada uma população de 8 elementos A, B, C, D, E, 
F, G e H, descreva três formas diferentes de obter 
uma amostra sistemática de 4 elementos. *** 
Pode-se escolher os elementos por ordem 
alfabética, alternando os elementos (A sim, B não, 
C sim...) ou escolher os primeiros considerando a 
ordem. 
5. Dada uma população de 40 alunos, descreva uma 
forma de obter uma amostra casual simples de 6 
alunos. 
Poderia escrever o nome de cada um dos 40 
alunos em uma folha de papel e sortear 6 deles. 
6. Dê dois exemplos de variável qualitativa. 
Etnia e Religião. 
7. Dê dois exemplos de variável ordinal. 
Grau de escolaridade e estágios de um câncer. 
8. Dê dois exemplos de variável quantitativa. 
Número de filhos e número de irmãos. 
9. Se quisermos saber quantas pessoas fumam na 
cidade de São Paulo, como poderemos proceder? 
Podemos realizar uma amostragem da 
população a partir da amostra estratificada, 
considerando grupos de diferentes bairros da 
cidade. 
 
APURAÇÃO DE DADOS 
 A apuração de dados refere-se ao processo no 
qual se conta o número de vezes que a variável assume 
um determinado valor (frequência de ocorrência), ou 
seja, é a contagem da amostra. 
Distribuição de frequência é a correspondência 
entre categorias (valores) e frequência de ocorrência. 
Pode ser expressa por valores pontuais (apuração 
pontual) e por intervalos de classe (apuração 
intervalar). 
 Na apuração pontual sabemos exatamente 
qual a frequência, ou seja, quantas pessoas 
responderam a cada uma das variáveis. A vantagem é 
que sabemos exatamente quantas pessoas tem em 
cada uma das variáveis. Todavia, ela pode ficar muito 
extensa, dificultando a visualização dos resultados. 
Exemplo: número de irmãos. 
Número de irmãos Frequência 
0 
1 
2 
3 
4 
3 
2 
4 
1 
0 
 A apuração intervalar, por sua vez, é dada 
através de intervalos. 
Intervalo de classe é o conjunto de 
observações contidas entre dois valores limite (limite 
inferior e limite superior). Os intervalos de classe 
devem ser mutuamente exclusivos (um indivíduo não 
pode ser classificado em dois intervalos ao mesmo 
tempo) e exaustivos (nenhum indivíduo pode ficar sem 
classificação). 
A maior desvantagem da apuração intervalar é 
que não sabemos exatamente quantas pessoas fazem 
parte de cada variável. Entretanto, é muito útil quando 
existem muitasvariáveis. Exemplo: idade 
Idade (anos) Frequência 
 0 |– 10 
10 |– 20 
20 |– 30 
30 |– 40 
20 |– 50 
7 
8 
3 
5 
15 
 Obs.: Notação à quando queremos que o 
número entre no intervalo devemos utilizar o símbolo 
|-|. Exemplo: intervalo de 0 a 10, incluindo os dois 
números é representado por 0|-|10. Com essa 
notação, não há dúvidas em que intervalo determinada 
variável será incluída. 
 
TABELA 
 A tabela sempre deve conter um título. O título 
explica o que a tabela contém e responde as seguintes 
questões: o que (natureza do fato estudado), como 
(variáveis), onde e quando. Ao lermos o título, não 
devem restar dúvidas sobre o conteúdo da tabela. 
Sendo assim, a tabela é um ente independente. 
 Além do título, ela é constituída pelo corpo, 
cabeçalho e coluna indicadora. O corpo é formado 
pelas linhas e colunas de dados. O cabeçalho especifica 
o conteúdo das colunas. A coluna indicadora, o 
conteúdo das linhas. 
 As tabelas podem conter fonte, notas e 
chamadas. A fonte dá indicação da entidade ou do 
pesquisador que forneceu ou publicou os dados. As 
notas devem esclarecer aspectos relevantes do 
levantamento dos dados ou apuração. As chamadas 
dão esclarecimentos sobre os dados. Devem ser feitas 
através de algarismos arábicos escritos entre 
parênteses, e colocados a direita da coluna. 
 
 Geovana Sanches - TXXIV 
 
Título: Distribuição em número e porcentagem da 
idade dos visitantes do Museu do Ipiranga, São Paulo, 
15/08/2020. 
Idade (anos) Frequência 
absoluta 
Frequência 
relativa (%) 
 0 |- 10 
10 |- 20 
20|- 30 
7 
8 
3 
38,9 
44,4 
16,7 
Total 18 100 
Fonte: x 
 
Normas ABNT 
• As palavras, como frequência absoluta e 
frequência relativa não podem ser abreviadas. 
• Toda tabela deve ser limitada por traços 
horizontais. Podem ser feitos traços verticais para 
separar as colunas, mas não para delimitar a 
tabela. Ou seja, a tabela possui 3 linhas 
obrigatórias: as duas que determinam o cabeçalho 
e a última; não é permitido o fechamento lateral da 
tabela. 
• O título e a fonte (pesquisador responsável pelos 
dados coletados) são componentes obrigatórios. 
Quando a fonte não aparece na tabela, o 
responsável pelos dados é o próprio autor do 
trabalho. 
• Padronização de casas decimais: o autor é quem 
escolhe a quantidade de casas decimais, mas essa 
quantidade deve ser igual para todas as variáveis. 
• Regras de arredondamento: o arredondamento 
contém um erro e, sendo assim, temos que analisar 
qual o erro é menor. Por exemplo: 38,88 é mais 
próximo de 38,9 ou 38,8? Escolheremos, portanto, 
o 38,9. 
• Ao somarmos as frequências relativas, elas devem 
somar 100%. Esse valor não é acompanhado de 
nenhuma casa decimal. 
• Nenhuma casela deve ficar em branco. Usa-se – 
quando o valor numérico é nulo ou quando não se 
dispõe do dado; 0/ 0,0/ 0,00 quando o valor 
numérico é muito pequeno; ? quando há dúvidas 
quanto à exatidão da frequência. 
 
GRÁFICO 
 O gráfico, assim como a tabela, é um ente 
independente e, sendo assim, deve conter um título e 
uma fonte com informações suficientes à 
interpretação do gráfico. O título pode ser colocado 
tanto acima como abaixo do gráfico. 
Outro componente é a escala, as quais devem 
crescer da esquerda para a direita e de baixo para cima. 
As legendas explicativas devem ser colocadas, de 
preferência, à direita do gráfico. 
Geralmente o gráfico é monocromático, mas 
isso dependerá do seu público e do foco das 
informações. 
 Dependendo da variável trabalhada, diferentes 
gráficos são mais adequados. 
Gráfico de barras 
 Utilizado para variável discreta, nominal e 
ordinal. Nesse tipo de gráfico as barras apresentam-se 
separadas uma das outras. É conveniente que as barras 
apresentem a mesma base. 
 É denominado gráfico de coluna no excel. 
 
Setor circular 
 É utilizado para variáveis qualitativas (nominal 
e ordinal). 
 No excel é chamado de gráfico de pizza, mas 
esse nome não é adequado. 
 
Histograma 
 O histograma é como um gráfico de barras 
grudadas uma na outra. É utilizado para variável 
contínua. 
 
Exceção: para a variável tempo (horas) ou série 
histórica, apesar de ser uma variável contínua, 
utilizamos o gráfico de linhas (diagrama linear). 
Normas Tabulares IBGE 
https://biblioteca.ibge.gov.br/visualizacao/livros/ 
liv23907.pdf 
 
EXERCÍCIO 
1. O Centro de Saúde da área A, em 1999, fez uma 
pesquisa de campo, para conhecer a situação 
 Geovana Sanches - TXXIV 
 
sanitária dos poços artesianos da área. Foram 
percorridos, então, os 100 domicílios com poços, 
da área A. Dos 100 domicílios, 30 estavam, na zona 
rural e os demais eram da zona urbana. Quanto à 
situação dos poços artesianos, 20 domicílios 
apresentaram poços contaminados e os demais 
domicílios apresentaram poços não contaminados. 
Sabendo que apenas cinco domicílios urbanos 
apresentaram poços contaminados, construa uma 
tabela completa para apresentar esses resultados. 
 
Título: Domicílios com poços artesanais contaminados 
e não contaminados, no centro de saúde da área A, 
1999. 
Domicílios Poço 
contaminado 
Poço não 
contaminado 
Total 
Zona rural 15 15 30 
Zona 
urbana 
5 65 70 
Total 20 80 100 
Fonte: autor 
 
 MEDIDAS DE TENDÊNCIA CENTRAL 
 As medidas de tendência central são maneiras 
de resumir o conjunto de dados. São elas: média, moda 
e mediana. 
Podem ser consideradas medidas fracas, pois 
apesar de passarem alguma informação, restam muitas 
dúvidas. Apesar disso, são informações importantes e 
quando aparecem em conjunto podem permitir achar 
a amostra. 
Média 
 Símbolo: 
 Média aritmética: é obtida através da soma de 
todos os dados, dividido pelo tamanho da amostra. 
Médica ponderada: é calculada pela somatória 
das multiplicações entre valores e pesos, divididos pelo 
somatório dos pesos. 
A partir da média, não é possível identificar 
quantos números foram incluídos na amostra e qual a 
variação entre eles. 
Moda 
 Símbolo: Mo 
 A moda é o valor que ocorre com maior 
frequência na amostra. Sendo assim, caso todos os 
valores apareçam na mesma frequência ou apenas um 
valor apareça repetidamente, não existe moda e o 
conjunto é denominado amodal. 
Todavia, caso dois valores apareçam na mesma 
frequência e esta seja maior que a frequência dos 
demais valores, teremos duas modas. 
Exemplo 
2 2 2 à não tem moda 
2 2 3 3 à não tem moda 
2 2 3 1 à Mo= 2 
2 2 3 3 3 à Mo= 3 
2 2 3 3 1 à Mo= 2 e 3 
Mediana 
 Símbolo: Md 
 A mediana é o valor que ocupa a posição 
central do conjunto dos dados ordenados, ou seja, ela 
divide a amostra em duas partes: uma com números 
menores ou iguais à mediana, outra com números 
maiores ou iguais a mediana. 
Quando o número de dados é ímpar, existe um 
único valor na posição central e ele é a mediana. 
Todavia, quando o número de dados é par, existem 
dois valores na posição central. A mediana, nesse caso, 
é a média entre esses dois valores. 
 Entre as três medidas, é a menos fraca, ou seja, 
passa uma informação mais consistente, tendo em 
vista que nos informa a faixa em que está 50% dos 
valores. É ainda a melhor medida de tendência em caso 
de conjuntos com dados discrepantes pois esses 
valores não afetam a grandeza da mediana. 
Exemplos 
• Amostra: 3 2 4 7 1 
• Organizando: 1 2 3 4 7 
• Md: 3 
 
• Amostra: 1 2 3 4 
• Md: 2+3/2= 2,5 
 
MEDIDAS DE TENDÊNCIA CENTRAL EM INTERVALOS 
DE CLASSE 
 
 
Moda (mo) para intervalos de classe 
 
é a amplitude do intervalo modal à extremo 
superior menos o extremo inferior, independente do 
valor pertencer ao conjunto ou não. 
é o extremo inferior do intervalo modal 
 é a diferença entre a frequência do intervalo 
modal e a frequência do intervalo anterior à utilizar a 
frequência absoluta para realizar a conta. 
 é a diferença entre a frequência do intervalo 
modal e a frequência do intervalo posterior à utilizar 
aqui a frequência absoluta para realizar a conta. 
• Inicialmente, devemos identificar qual o intervalo 
que contém a moda. 
• Intervalo modal= intervalo que aparece com maiorfrequência; é o intervalo que contém a moda. 
x
a
infe
aD
pD
 Geovana Sanches - TXXIV 
 
• O valor da moda deve estar entre 50 e 55, pois esse 
é o intervalo modal 
 
 
Mediana (md) para intervalos de classe 
 
 é o limite inferior real do intervalo que 
contém a mediana 
 é a amplitude do intervalo que contém a mediana 
à subtração entre os dois extremos do intervalo, 
independente se o valor está contido no intervalo ou 
não. 
é o tamanho da amostra à a amostra tem 50 
pessoas. 
é a frequência absoluta acumulada no intervalo 
anterior ao que contém a mediana à frequência 
acumulada será a soma de todas as frequências 
anteriores a da mediana, ou seja, 3 + 8= 11. 
é a frequência absoluta simples no intervalo que 
contém a mediana à frequência do intervalo que 
contém a mediana. 
• A mediana é o valor que ocupa posição central no 
conjunto de dados. Sendo assim, nesse caso, ela 
deve estar entre o 25º e 26º elementos. 
• Para encontrar o intervalo que contém a mediana 
utilizaremos a frequência absoluta acumulada, ou 
seja, no primeiro intervalo há 3 pessoas + 8 pessoas 
+ 16 pessoas= 27 pessoas. Sendo assim, a mediana 
está contida no 3º intervalo (50 l- 50). 
• O resultado deve estar dentro do intervalo da 
mediana. 
 
 
Média ( ) para intervalos de classe 
 
 é o número de intervalos de classe à são 7 
intervalos de classe, então k=7. 
 é a frequência absoluta do intervalo i 
é o ponto médio do intervalo i 
n é o número de elementos da amostra 
• Para iniciar a conta, devemos encontrar o ponto 
médio de cada um dos intervalos. 
Idade Frequência 
absoluta 
Ponto médio 
 
40 l- 45 3 42,5 
45 l- 50 8 47,5 
50 l- 55 16 52,5 
55 l- 60 12 57,5 
60 l- 65 7 62,5 
65 l- 70 3 67,5 
70 l- 75 1 72,5 
• Para fazer a média, somaremos os valores 
encontrados e dividiremos por 50, pois esse é o 
tamanho da amostra. 
• O i é o número do intervalo, então ele varia de 
acordo com o intervalo. Exemplo: intervalo 1 à 
i=1; intervalo 2 à i=2, ... 
 
 Apesar de não sabermos a idade de nenhum 
dos participantes, essas três medidas são a melhor 
aproximação que poderemos chegar com os dados 
apresentados. 
 
MEDIDAS DE DISPERSÃO 
 As medidas de dispersão dão força as medidas 
de tendência central. Elas medem a “lonjura” dos 
dados a partir da média e auxiliam no resumo dos 
dados encontrados nas variantes. As principais 
medidas de dispersão são: 
• Amplitude (a): é a diferença entre o maior e o 
menor número do conjunto. Quando a=0, todas as 
variáveis apresentam o mesmo valor. 
• Variância (S2): é utilizado para encontrar o desvio 
padrão. O cálculo será demonstrado a partir do 
exemplo abaixo. 
• Desvio Padrão (S): quanto em média o conjunto 
todo de valores se afasta da média do conjunto de 
dados. Quanto menor o desvio padrão, mais 
concentrados os dados estão; quanto maior, mais 
dispersos eles estão em relação a média do 
conjunto. 
• Coeficiente de Variação (C.V.): calculado a partir 
da divisão entre o desvio padrão e a média. 
• Quartil: refere-se a divisão do conjunto de dados 
por 4. 
 
 
 
LIRmd
h
n
Fant
fmd
x
k
if
,
ix
,
ix
 Geovana Sanches - TXXIV 
 
Exemplo: Notas de 4 alunos em 4 provas 
Aluno Notas (x) a S2 S 
Antônio 5 5 5 5 5 0 0 0 
Luís 3 4 7 6 5 4 3,3 1,81 
Pedro 0 5 5 10 5 10 16,66 4,08 
Lucas 0 10 0 10 5 10 33,3 5,77 
Luís 
x (x- ) (x- )2 
3 (3-5)= -2 (-2)2= 4 
4 (4-5)= -1 (-1)2= 1 
7 (7-5)=2 (2)2= 4 
6 (6-5)=1 (1)2= 1 
= 5 Σ (x- )= 0 Σ (x- )2= 10 
• (x- ): desvios dos dados em relação a média. 
A partir da somatória entre esses valores, 
obrigatoriamente encontraremos 0. A fim de 
alterar isso, calcularemos o quadrado dos 
desvios em relação a média e a sua somatória. 
• Σ (x- )2/n-1: é a variância, sendo n o número 
de elementos da amostra. 
o Para Luís, 10/4-1= 10/3= 3,33. 
 
• Ao encontrarmos a variância, a medida está 
ao quadrado. Por isso, devemos fazer a raiz 
quadrada desse valor. A raiz quadrada positiva 
da variância é o desvio padrão. 
 
o Para Luís, S=1,81 
Antonio 
x (x- ) (x- )2 
5 0 0 
5 0 0 
5 0 0 
5 0 0 
= 5 Σ (x- )= 0 Σ (x- )2= 0 
Pedro 
x (x- ) (x- )2 
0 (0-5)= -5 (-5)2= 25 
5 (5-5)= 0 (0)2= 0 
5 (5-5)= 0 (0)2= 0 
10 (10-5)= 5 (5)2= 25 
= 5 Σ (x- )= 0 Σ (x- )2= 50 
• S2= 50/4-1= 50/3= 16,66 
• S= 4,07 
Lucas 
x (x- ) (x- )2 
0 (0-5)= -5 (-5)2= 25 
10 (10-5)= 5 (5)2= 25 
0 (0-5)= -5 (-5)2= 25 
10 (10-5)=5 (5)2= 25 
= 5 Σ (x- )= 0 Σ (x- )2= 100 
• S2= 100/4-1= 100/3= 33,3 
• S= 5,77 
Há outra fórmula para o cálculo da variância, 
cuja raiz quadrada também nos apresentará o desvio 
padrão. 
 
Exemplo: Pedro 
x x2 
0 (0)2= 0 
5 (5)2= 25 
5 (5)2= 25 
10 (10)2= 100 
Σx = 20 Σ (x)2= 150 
Σx2 = 400 
 
 
 
 
à S2= 16,6 e S=4,07 
 
 
 
Coeficiente de Variação (C.V.) 
 O coeficiente de variação é uma das medidas 
mais utilizadas, principalmente quando trabalhamos 
com grupos que possuem unidades de medidas 
diferentes à a unidade de medida some ao 
calcularmos o C.V. 
 Normalmente, trabalha-se o coeficiente de 
variação em porcentagem (C.V. %), multiplicando a 
divisão anterior por 100. 
 
• CV Antonio= 0/5 x 100= 0 
• CV Luis = 1,81/5 x 100 = 0,36 x 100= 36% 
• CV Pedro= 4,07/5 x 100= 0,81 x 100= 81% 
• CV Lucas= 5,77/5 x 100= 1,15 x 100= 115% 
o A maior dispersão está nas notas do 
Lucas 
Quartil 
Quando fazemos o quartil de uma amostra, ela 
é dividida entre: 
o 1º quartil: ¼ da amostra 
o 2º quartil: ½ da amostra (mediana) 
o 3º quartil: ¾ da amostra 
o 4º quartil: fim da amostra 
Uma das medidas importantes que envolve o 
quartil é a Distância inter-quartílica. Essa distância é 
x
x x
x x x
x
x
x x
x x x
x x
x x x
x x
x x x
 Geovana Sanches - TXXIV 
 
calculada a partir de Q3-Q1. Isso é importante pois 
entre o 1º e o 3º quartil temos 50% dos elementos. 
Exemplo 
2 3 4 6 7 l 8 9 10 12 13 
• Mediana ou 2º quartil: 7,5 à 50% dos dados 
estão abaixo de 7,5 e 50% dos dados estão 
acima de 7,5. 
• Q1= 4 e Q3= 10 
Percentil 
O percentil é obtido quando a amostra é 
dividida em 100 partes. 
à Percentil 50: é igual ao 2º quartil, tendo em vista 
que se refere a metade da amostra. 
à Percentil 25: refere-se ao 1º quartil 
à Percentil 75: refere-se ao 3º quartil 
Box Plot 
 O box plot é um diagrama de cinco pontos, 
criado a partir das medidas mínima e máxima da 
amostra, associado aos quartils. Por exemplo: 
2 3 4 6 7 l 8 9 10 12 13 
 
 
 
Mínimo= 2 
Q1= 4 
Q2= 7,5 
Q3= 10 
Máximo= 13 
 
 
 
 
NOÇÕES DE CORRELAÇÃO 
 As noções de correlação indicam qual o grau de 
correlação entre duas variáveis, ou seja, o quanto elas 
“andam juntas”. 
Diagrama de dispersão 
 O diagrama de dispersão é um gráfico que 
demonstra a relação entre duas variáveis numéricas. 
Ele deve ser feito através dos seguintes passos: 
1. Traçar um sistema de eixos cartesianos, 
representando cada variável em um eixo. 
2. Estabelecer as escalas de maneira a dar ao 
diagrama o aspecto de um quadrado. 
3. Escrever os nomes das variáveis nos 
respectivos eixos e fazer, posteriormente, as 
graduações. 
4. Desenhar um ponto para representar cada par 
de valores das variáveis. 
A correlação entre as variáveis pode ser 
positiva, quando as duas crescem no mesmo sentido 
(diretamente proporcional) ou pode ser negativa, 
quando as elas variam em sentidos opostos 
(inversamente proporcional). Quanto menor for a 
dispersão dos pontos, maios será a correlação entre as 
variáveis. 
Pode acontecer da variação de uma variável 
não estar relacionada com a outra. Nesses casos, o 
diagrama de dispersão mostra que X cresce e Y varia ao 
acaso. Assim, dizemos que a correlação entre as 
variáveis é nula ou que não existe correlação entre 
elas. 
A correlação não necessariamente é linear, 
como a apresentada no exemplo a seguir. 
 
 
 
 
 É importante saber que correlação não implica 
causa. Uma correlação positiva entre duas variáveis 
mostra que essas variáveis crescem no mesmo sentido, 
mas não indica que aumentos sucessivos em uma delas 
causam aumentos sucessivos na outra variável. Damesma forma, uma correlação negativa mostra apenas 
que as duas variáveis variam em sentidos contrários, 
mas não indica que acréscimos em uma delas causam 
descréscimos na outra. 
Coeficiente de correlação de Pearson (r) 
 O coeficiente de correlação de Pearson, 
representado pela letra “r” mede o grau de correlação 
linear entre duas variáveis numéricas. A fórmula não 
funciona com correlações não lineares e, sendo assim, 
é importante que se faça inicialmente o diagrama de 
dispersão, o qual deve apresentar-se em torno de uma 
linha reta para que possamos utilizar o coeficiente de 
Pearson. 
 
 O coeficiente de correlação varia entre -1 e +1, 
sendo que quanto mais próximo de 0, mais fraca é a 
correlação entre as variáveis e quanto mais próximo de 
1 ou -1, mais forte é essa correlação. O sinal no número 
1 diz respeito apenas se as variáveis são diretamente 
ou inversamente proporcionais. 
Exemplo: r1= -0,8 e r2=0,2 à a correlação 
entre as primeiras variáveis analisadas (r1) é mais forte 
que a correlação entra as segundas. 
Entendendo a fórmula 
Σxy = somatória de x multiplicado por y 
Σ (x) = somatória de todos os valores de x 
Σ (y) = somatória de todos os valores de y 
• A porção debaixo da fórmula refere-se as 
variâncias de x e y. 
X Y 
2 3 
3 4 
4 5 
5 2 
6 1 
0
1
2
3
4
5
6
0 5 10
Diagrama de dispersão
 Geovana Sanches - TXXIV 
 
Exemplo 
 
X Y 
1 3 
2 3,5 
3 4 
4 5 
 
 
 Para facilitar a aplicação da fórmula, indica-se 
que os dados necessários sejam organizados em uma 
tabela inicialmente: 
X Y XY X2 Y2 
1 3 3 1 9 
2 3,5 7 4 12,25 
3 4 12 9 16 
4 5 20 16 25 
Somatória (Σ) 
10 15,5 42 30 62,25 
 
 
 Com r=0,98, temos que as duas variações 
apresentam uma correlação muito forte, quase 
perfeita, o que significa que elas crescem 
concomitantemente. 
Exercícios forms 
1. Faça os diagramas de dispersão e calcule os 
valores de r para os conjuntos de dados da 
tabela a seguir. 
 
2. O diagrama de dispersão apresentado abaixo 
representa uma correlação? Forte! 
 
 
REGRESSÃO LINEAR 
 Ao avaliamos duas variáveis em um diagrama 
de dispersão, caso os pontos fiquem dispersos em 
torno de uma reta, é razoável traçar uma reta no meio 
desses pontos. A reta que melhor aproxima os pontos 
do experimento, com as propriedades estatísticas 
desejáveis, recebe o nome de reta de regressão; ela 
não precisa passar por nenhum dos pontos 
apresentados. Na matemática, é referida como 
método dos mínimos quadrados. 
 Isso é importante pois, ao fazermos um 
experimento, as vezes é necessário identificar qual o 
valor esperado para um determinado X e, como não 
podemos replicar o experimento, é possível fazer a reta 
de regressão e estimar o valor para a variável em 
questão. 
 Um cuidado é ser tomado é o modo de 
variação da variável estudada. Por exemplo, se 
fizermos a correlação entre os meses do ano e a 
temperatura no Brasil, uma estimativa é possível 
apenas até julho, tendo em vista que após esse mês, as 
temperaturas começam a subir e não há mais uma 
linearidade. Caso fizéssemos a correlação mesmo 
assim, encontraríamos temperaturas negativas ao final 
do ano, o que não é uma realidade. 
Fórmulas 
𝒂 = 𝒀$ − 𝒃𝑿$ 
 
𝒃 = 	
𝚺𝑿𝒀	 − (𝚺𝐗)(𝚺𝐘)𝒏
𝚺𝑿𝟐 − (𝚺𝐗)
𝟐
𝒏
 
 
𝒚0 = 𝒂 + 𝒃𝒙0 
 Para a primeira fórmula, devemos encontrar as 
médias de X e Y. Para a segunda, efetuar todas as 
somatórias e inseri-las corretamente. O n representa o 
número de pares ordenados que estão sendo 
trabalhados. 
Exemplo 
 Para os valores apresentados, quando x=3, 
qual é o y esperado? 
X Y XY X2 
1 
2 
4 
5 
3 
4 
6 
8 
3 
8 
24 
40 
1 
4 
16 
25 
0
2
4
6
0 2 4 6
 Geovana Sanches - TXXIV 
 
1. Fazer o diagrama de dispersão desses números. 
 
2. Calcular o b e o a 
𝒃 = 	
𝟕𝟓	 − (𝟏𝟐)(𝟐𝟏)𝟒
𝟒𝟔 − 𝟏𝟒𝟒𝟒
 
 
𝑏 = "#$%&
'%$&%
=	()
(*
=1,2	
	
𝒂 = 𝒀$ − 𝒃𝑿$	
𝑎 = 5,25 − 1,2	𝑥	3 = 1,65	
 
3. Resolvendo o exercício 
 
𝒚0 = 𝟏, 𝟔𝟓 + 𝟏, 𝟐𝒙0 
𝑦C = 1,65 + 1,2	𝑥	3 
𝑦C = 5,25 
 
Observação 
Caso os valores de X e Y sejam trocados, a reta 
de regressão mudará. Entretanto, o coeficiente de 
correlação de Pearson permanecerá o mesmo. 
Coeficiente de determinação 
 O coeficiente de determinação é indicado por 
R2 e mede a contribuição de uma variável na previsão 
de outra, ou seja, é a proporção da variação de Y 
explicada pela variação de X. 
 Ele é dado pelo quadrado do coeficiente de 
correlação, não podendo, portanto, ser negativo; varia 
entre 0 e 1. Para interpretar o resultado, é melhor 
transformá-lo em porcentagem, multiplicando o 
resultado obtido em seu cálculo por 100. 
 Exemplo: ao comprar uma camiseta para uma 
criança, a vendedora costuma perguntar qual a idade 
da mesma. Isso pois, o tamanho de uma criança é 
função da idade e, portanto, saber a idade dela ajuda 
na previsão do tamanho de sua camiseta. 
 
DISTRIBUIÇÃO NORMAL 
Teoria da probabilidade 
 Na teoria da probabilidade, identificamos 
todas as possibilidades temos e quantas vezes o valor 
de cada uma delas aparece na amostra. A partir disso, 
encontramos a probabilidade de algo ocorrer, ou seja, 
analisamos um evento futuro. 
 Caso queiramos inserir em um gráfico a 
distribuição das probabilidades, inserimos em um eixo 
as possibilidades (espaço amostral) e, no outro, a 
probabilidade de ocorrência de cada um deles. Isso nos 
dá a base do gráfico que será estudado na aula de hoje, 
o qual nos trás como a probabilidade de todos os 
eventos possíveis está distribuída. 
Gauss 
 Muitas distribuições de frequência têm a 
aparência de uma distribuição teórica denominada 
distribuição normal ou distribuição de Gauss. 
Nenhuma distribuição empírica, no entanto, tem todas 
as características da distribuição normal, mas o fato de 
pressupor que uma variável tem distribuição normal 
permite resolver muitos problemas em estatística. 
 
 Um exemplo prático está na variável altura. 
Considerando 1,65m como a média das alturas numa 
dada população, caso fossemos às ruas, a 
probabilidade de encontrar uma pessoa com essa 
altura é maior do que a de encontrar pessoas com 
alturas superiores ou inferiores a essa, ou seja, ao 
deslocar a variável para as laterais, identifica-se uma 
diminuição progressiva da probabilidade. Isso forma a 
curva em sino, denominada curva de Gauss ou 
Gaussiana, como a representada na imagem acima. 
Características da distribuição normal 
 Algumas características da distribuição normal 
são bem conhecidas: 
• Média, moda e mediana coincidem e estão no 
centro da distribuição (ponto mais alto da 
curva). 
• O gráfico tem aspecto típico: curva em sino, 
simétrica em torno da média. 
• Sendo a curva simétrica em relação a média, 
50% dos valores são iguais ou maiores do que 
a média e 50% dos valores são iguais ou 
menores do que a média. 
A distribuição normal fica definida quando são 
dados dois parâmetros: a média e o desvio padrão. 
Tendo em vista que deixamos de trabalhar com 
amostras para trabalhar com uma população, a 
notação é alterada. 
 Média Desvio Padrão 
Amostra �̅� S 
População μ ς 
 A notação N(μ, ς) representa a curva normal, 
qual a média e qual o desvio padrão, sendo que o 
último corresponde a distância dos valores até a 
média. 
 A grande vantagem de pressupor que uma 
variável tem distribuição normal é o fato de ser 
0
2
4
6
8
10
0 2 4 6
Diagrama de Dispersão
 Geovana Sanches - TXXIV 
 
possível calcular as probabilidades relacionadas a essa 
variável, as quais são dadas pelas áreas sob a curva 
(área abaixo da curva). Com isso, torna-se possível 
identificar a probabilidade de uma variável estar entre 
a média mais um desvio padrão (μ + ς) ou entre a 
média menos um desvio padrão (μ - ς). Teoricamente, 
para cada um deles temos 34,13% de probabilidade, de 
forma que se somarmos as porcentagens, temos nesse 
intervalo a probabilidade de 68,26%. 
 
 Da mesma forma, temos que 13,59% da área 
sob a curva está entre a média mais dois desvios 
padrões (μ + 2ς), assim como a média menos dois 
desviospadrões (μ - 2ς). Somando-se, entre esse 
intervalo, incluímos 95,44% da amostra. 
 
 Vale ressaltar que esses dados pressupõem 
valores obtidos na distribuição normal e, na prática, 
encontramos distribuições aproximadamente normais. 
Sendo assim, os resultados são aproximações. Apesar 
disso, essa curva auxilia muito na tomada de decisão, 
quando acompanhados de outras análises. 
 Ao realizarmos exercícios, diversos valores são 
utilizados e é necessário que encontremos a área sob a 
curva utilizando-os. Para tal, podemos calcular a 
integral da curva, o que não é fácil. Para facilitar, temos 
uma a tabela da distribuição normal reduzida (tabela 
Z), a qual apresenta a distribuição normal de média 
zero e variância 1 (ou seja, vai de 1 a -1). 
 Sendo assim, a maior dificuldade para nós é 
ajustar os intervalos de leitura para encontrar os 
valores na tabela. A variável que tem distribuição 
normal reduzida é chamada de variável reduzida ou 
padronizada e é indicada pela letra Z. 
𝑍𝑐 =
𝑋𝑐 − 	µ	
ς 
 Ao definirmos o valor de Zc (z crítico), o que é 
realizado a partir da fórmula demonstrada acima, 
identificaremos na tabela qual o seu valor 
correspondente. Para tal, identificamos os primeiros 
dois dígitos na primeira coluna vertical e o outro dígito 
nas colunas horizontais. Para facilitar o entendimento, 
os conceitos serão exemplificados a partir de um 
exercício. 
Exercício 1 
 A quantidade de colesterol em 100ml de 
plasma sanguíneo humano apresenta uma distribuição 
normal com média 200mg e desvio padrão de 20mg. 
Notação: N(200; 20). 
a) Probabilidade de alguém apresentar entre 
200 e 225? 
Nesse exercício, queremos identificar P(200 < x 
< 225). Para isso, devemos inicialmente construir a 
curva de Gauss e encontrar o Zc para x=225. Tendo em 
vista que 200 é a média, já temos que o seu valor na 
distribuição reduzida é 0. 
	
𝑍𝑐 =
𝑋𝑐 − 	µ	
ς 
𝑍𝑐 =
225 − 	200	
20 
Zc= 1,25 
 
 
 Com os valores identificados, temos que P (200 
< x < 225) = P (0 < z < 1,25). Agora, basta identificarmos 
na tabela abaixo qual a probabilidade correspondente. 
Para esses valores temos P=0,3944= 39,44% 
 
b) P (200 < x < 220) 
Para realizarmos esse exercício, a mesma 
lógica deve ser seguida. Inicialmente faz-se a curva de 
Gauss e, posteriormente a distribuição normal 
reduzida, encontrando o valor de Zc a partir da 
fórmula. 
𝑍𝑐 = ))*$	20020 = 1 
 Identificamos que o valor é igual a 1. Isso pois, 
quando trabalhamos com a distribuição normal 
reduzida, vemos na realidade qual é a distância do 
valor que queremos até a média, em relação ao 
desvio padrão. No exercício, do 200 ao 220, temos 20 
unidades de distância, a qual corresponde a 1 desvio 
padrão. 
Na tabela, para 1,00, temos = 0,3413, então a 
P(0 < z < 1)= P (200 < x < 220) = 34,13% 
 
 Geovana Sanches - TXXIV 
 
c) P (180 < x < 220) 
Para realizarmos esse exercício, a mesma 
lógica deve ser seguida. Inicialmente faz-se a curva de 
Gauss e, posteriormente a distribuição normal 
reduzida, encontrando o valor de Zc a partir da 
fórmula. Entretanto, agora temos dois valores a serem 
encontrados, ou seja, teremos 2 Zc. 
 Realizando as contas, o Zc de 180 é negativo (= 
-1) e o valor de Zc de 220= 1. Isso pois, temos aqui a 
média menos o desvio padrão e a média mais o desvio 
padrão, ou seja, queremos P ( -1 < z < 1). 
Sabendo disso, identificaremos na tabela os 
valores, mas nela não há números negativos. Assim, 
devemos lembrar que a curva é simétrica em relação a 
área, de forma que a área entre 0 e 1 é igual a área 
entre 0 e -1. 
Assim, para finalizar, faremos: P( -1 < z < 0 ) + 
P( 0 < z < 1)= 0,3413 + 0,3413= 0,6826= 68,26% 
d) P (x > 230) 
É necessário fazer inicialmente a curva de 
Gauus, seguida da distribuição normal reduzida, 
encontrando o valor de Zc a partir da fórmula. 
𝑍𝑐 = )&*$	20020 = 1,5 
 Sendo assim, P (x > 230)=P (z > 1,5). A partir 
disso, teremos que interpretar a tabela, mas há um 
problema: a tabela trabalha apenas com intervalos. 
Quando existe essa “cauda”, devemos calcular P (z > 0), 
a qual sabemos que é de 50% e subtrair a probabilidade 
entre o intervalo de 0 ao valor que queremos. No 
exercício, portanto, teremos que P (z > 1,5)= P (z > 0) – 
p (0 < z < 1,5) = 50% - 43,32% = 6,68%. 
 Caso seja necessário trabalhar com uma cauda 
negativa, podemos espelhar o resultado para o lado 
positivo e efetuar as contas da mesma maneira. 
e) P (210 < x < 240) 
Como em todos os outros casos, devemos 
inicialmente fazer a curva de Gauss e a distribuição 
normal, encontrando os dois Z críticos. 
𝑍𝑐1 = )(*$	20020 =0,5 𝑍𝑐2 =
)'*$	200
20 = 2 
A partir disso, temos que P (210 < x < 240)= P 
(0,5 < z < 2). Nesse caso, todavia, ambos os valores se 
encontram acima da média (200) e novamente a temos 
um problema com a tabela, pois, ela nos dá apenas o 
intervalo entre 0 e algum outro valor. Para resolver, 
utilizaremos a mesma lógica do exercício anterior: 
utilizaremos o intervalo entre 0 e 2, subtraindo o 
intervalo entre 0 e 0,5. A partir disso, encontraremos o 
intervalo entre 0,5 e 2. 
Voltando ao exercício, P (210 < x < 240)= P (0,5 
< z < 2)= P (0 < z < 2) – P (0 < z < 0,5)= 47,72% - 19,15%= 
28,57%. 
Exercício 2 
 As notas de bioestatística de um determinado 
curso ocorrem segundo uma distribuição N(7,0; 1,6). 
a) Calcular a probabilidade de um aluno tirar no 
mínimo 7. 
Lembrando que 7 é a média e dos conceitos da 
distribuição normal, 50% dos alunos possuem nota 
igual ou superior a 7, assim como 50% dos alunos 
possuem nota igual ou inferior a 7. 
b) Calcular a probabilidade de um aluno tirar no 
máximo 7. 
Lembrando que 7 é a média e dos conceitos da 
distribuição normal, 50% dos alunos possuem nota 
igual ou superior a 7, assim como 50% dos alunos 
possuem nota igual ou inferior a 7. 
c) Calcular a probabilidade de um aluno tirar 
entre 7,0 e 8,6. 
Nesse caso temos o valor da média mais um desvio 
padrão. Sendo assim, ao identificarmos o valor na 
tabela temos a probabilidade de 34,13%. 
d) Calcular a probabilidade de um aluno tirar no 
mínimo 8,2. 
Ø P (x > 8,2) 
Ø 𝑍𝑐 = ,,)$	71,6 =0,75 
Ø P (x > 8,2)= P(z > 0,75)= P (z > 0) – P (0 < 
z < 0,75)= 50% - 27,34%= 22,66% 
e) Calcular a probabilidade de um aluno tirar no 
mínimo 4. 
Ø P (x > 4) 
 
Ø 𝑍𝑐 = '$	71,6 = -1,87 
Ø P (x > 4)= P (z > -1,87)= P (- 1,87 < z < 0) 
+ P (z > 0)= 46,93% + 50%= 96,93% 
Exercício 3 
 Supondo que a distribuição etária, para uma 
determinada população com 100.000 habitantes, é 
uma variável aleatória normalmente distribuída com 
média 40 anos e desvio padrão de 10 anos, calcular 
quantas pessoas têm idade acima de 50 anos. 
1. N (40,0; 10,0) 
2. P (x > 50) 
3. 𝑍𝑐 = #*$	4010 =1 
4. P (x > 50)= P (z > 1)= P (z > 0) – P (0 < z <1)= 50% 
- 34,13% = 15,87% 
5. 15,87% de 100.000 habitantes = 15.870 
indivíduos.