Buscar

bioestatistica-2

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 49 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 49 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 49 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Leandro Vinhas de Paula
Bioestatística
Unidade 2
Distribuição 
normal de 
probabilidade e 
aplicações 
Livro didático 
digital
Diretor Executivo 
DAVID LIRA STEPHEN BARROS
Diretora Editorial 
ANDRÉA CÉSAR PEDROSA
Projeto Gráfico 
MANUELA CÉSAR ARRUDA
Autor 
LEANDRO VINHAS DE PAULA
Desenvolvedor 
CAIO BENTO GOMES DOS SANTOS
Olá! Meu nome é Leandro Vinhas de Paula, sou bacharel 
e licenciado em Educação Física (Faculdade de Educação 
Física e Fisioterapia – Universidade Federal de Uberlândia), 
mestre em Ciências do Esporte (Escola de Educação Física, 
Fisioterapia e Terapia Ocupacional – Universidade Federal de 
Minas Gerais – EEFFTO/UFMG) e especialista em Estatística 
Aplicada (Departamento de Estatística – Instituto de Ciências 
Exatas – ICEX/UFMG) com uma experiência técnico-profissional 
na área de educação física e esportes por mais de 10 anos em 
atividades de ensino, pesquisa e extensão na Universidade 
Federal de Ouro Preto e no meio privado. Atualmente sou 
doutorando na área de Biomecânica (EEFFTO - UFMG). Por isso 
fui convidado pela Editora Telesapiens a integrar seu elenco de 
autores independentes. Estou muito feliz em poder ajudar você 
nesta fase de muito estudo e trabalho. Conte comigo!
Autor 
LEANDRO VINHAS DE PAULA
INTRODUÇÃO: 
para o início do 
desenvolvimen-
to de uma nova 
competência;
DEFINIÇÃO: 
houver necessidade 
de se apresentar 
um novo conceito;
NOTA: 
quando forem 
necessários obser-
vações ou comple-
mentações para o 
seu conhecimento;
IMPORTANTE: 
as observações 
escritas tiveram 
que ser prioriza-
das para você;
EXPLICANDO 
MELHOR: 
algo precisa ser 
melhor explicado 
ou detalhado;
VOCÊ SABIA? 
curiosidades e 
indagações lúdicas 
sobre o tema em 
estudo, se forem 
necessárias;
SAIBA MAIS: 
textos, referências 
bibliográficas e 
links para aprofun-
damento do seu 
conhecimento;
REFLITA: 
se houver a neces-
sidade de chamar a 
atenção sobre algo 
a ser refletido ou 
discutido sobre;
ACESSE: 
se for preciso aces-
sar um ou mais sites 
para fazer download, 
assistir vídeos, ler 
textos, ouvir podcast;
RESUMINDO: 
quando for preciso 
se fazer um resumo 
acumulativo das 
últimas abordagens;
ATIVIDADES: 
quando alguma ativi-
dade de autoapren-
dizagem for aplicada;
TESTANDO: 
quando o desen-
volvimento de uma 
competência for 
concluído e questões 
forem explicadas;
Iconográficos
Olá. Meu nome é Manuela César de Arruda. Sou a responsável pelo pro-
jeto gráfico de seu material. Esses ícones irão aparecer em sua trilha de 
aprendizagem toda vez que:
SUMÁRIO
Introdução......................................................................................10
Competências................................................................................11
Essencial sobre o software estatístico “R”:.........................12
Instalação do software estatístico “R”: primeiros passos.................12
Conhecendo os objetos do R...................................................................18
Entendendo o que é uma distribuição normal de 
probabilidade................................................................................30
Aprendendo a utilizar a tabela “z”.........................................40
Aprendendo a tipificar respostas individuais....................43
Bibliografia.....................................................................................58
Bioestatística 9
UNIDADE
02
DISTRIBUIÇÃO NORMAL DE PROBABILIDADE E APLICAÇÕES 
Bioestatística10
Nesta unidade você será apresentado à distribuição 
normal de probabilidade, aprenderá a utilizar a tabela “z” 
e aprenderá a tipificar respostas individuais para uma 
determinada variável aleatória, serão apresentados 
exemplos práticos para que possa entender com aplicar 
estes conceitos. Então vamos lá!
INTRODUÇÃO
Bioestatística 11
Olá. Seja muito bem-vindo à Unidade 2. Nosso 
objetivo é auxiliar você no desenvolvimento das seguintes 
competências profissionais até o término desta etapa de 
estudos:
1. Essencial sobre o software estatístico “R”
2. Entendendo o que é uma distribuição normal de 
probabilidade
3. Aprendendo a utilizar a tabela “z”
4. Aprendendo a tipificar respostas individuais. 
Vamos começar? Está preparado? Então vamos ao 
trabalho!
COMPETÊNCIAS
Bioestatística12
Essencial sobre o software estatístico “R”
Nesta unidade você iniciará a aprendizagem de 
um software livre de análise de estatística “R”, conceitos 
sobre a distribuição normal de probabilidade e a como é 
realizada a tipificação de respostas individuais, baseado 
nesta distribuição de probabilidade. 
 
Instalação do software estatístico “R”: 
primeiros passos.
Para realizar o estudo desta unidade você deverá 
realizar instalar o software “R”, ele pode ser encontrado 
facilmente na internet. O site chamado de CRAN – “The 
Comprehensive R Archive Network”, disponibiliza o 
download do instalador (https://cran.r-project.org/). É 
importante que você esteja atento e escolha corretamente 
o arquivo, uma vez que existem versões para o Windows, 
MAC e Linux. Você deverá baixar o pacote adequado a você 
e executar o programa de instalação.
Acima você verá a tela principal do software “R”. Como 
você pode observar, a primeira que irá aparecer na tela é 
a data e o número da versão do software selecionado, em 
seguida um cabeçalho explicando que não há nenhuma 
garantia para este software livre e alguns comandos 
importantes.
Abaixo do cabeçalho, uma linha em branco com o 
símbolo “>” na margem esquerda aparecerá. Este símbolo 
é denominado chamado de alerta, como se fosse uma 
maneira do software dizer “E AGORA?” e é aonde digitaremos 
os comandos. 
Caso ao invés de “>” aparecer um “+” significa que 
o último comando digitado não está completo e será 
necessário digitar os caracteres que faltam. Caso tenha 
Bioestatística 13
errado o comando, pressione “ESC” e o chamado de alerta 
“>” reaparecerá.
Figura 01: Interface do software “R”. 
Fonte: Autor.
Um recurso importante é o de que o R armazena em 
sua memória os comandos executados. Assim, ao teclar a 
seta para cima, é possível recuperar o comando passado 
podendo corrigi-lo sem ter que digitá-lo todo novamente. 
O comando citation(), por exemplo, mostra como citar o 
software em seu trabalho escrito. 
Bioestatística14
Figura 02: Citação do software “R”. 
Fonte: Autor.
Figura 02: Pedindo ajuda no software “R”. 
Fonte: Autor
VOCÊ SABIA?:
A utilização do R é feita basicamente através 
da criação de comandos sobre objetos (Ex.: 
Vetores, Fatores, Matrizes, Listas e Dataframes). A 
abordagem destes conceitos não é o objetivo desta 
unidade, para maiores informações sugerimos 
a você a obra de Crawley (2007). O domínio do 
software “R” tem sido amplamente valorizado no 
mercado de trabalho. Nós encorajamos você a 
conhecer essa ferramenta que agregará muita a 
sua formação.
Bioestatística 15
Figura 03: Utilizando o comando example(). 
Fonte: Autor.
Para pedir ajuda, a maneira mais simples de obter 
ajuda no R é clicar no botão “ajuda” na barra de ferramentas 
do RGUI ou acessar o site do CRAN. No entanto, se souber o 
nome da função sobre a qual quer a ajuda, pode-se digitar 
apenas um ponto de interrogação (?) na linha de comando 
seguido do nome da função. Assim, para obter ajuda a 
função read.table, basta digitar: 
Para ver um exemplo trabalhado basta utilizar o 
comando “example()” escrevendo o nome da função 
desejada entre os parênteses, como na figura 03. Uma 
boa maneira de ver a gama de opções que o “R” oferece é 
utilizando a função “demo()”. O pacote básico do software 
não contém algumas das bibliotecas que podem ser 
empregados por você. No entanto a instalação é bem 
simples. Basta estar conectado à internet e executar a 
linha de comandos “install.packages()”, que é a função 
para baixar as bibliotecas solicitadas. Após o comando, 
será questionado qual o espelho mais próximo e após 
responder, o restante é realizado automaticamente. Por 
exemplo, instale a biblioteca “MASS” utilizandoo comando 
Bioestatística16
abaixo, para se utilizar a biblioteca deve-se utilizar a linha 
de comando “library(MASS)”.
Figura 04: Instalação de pacotes no software R: MASS. 
Fonte: Autor.
Ao escrever funções e outras seções de linha de 
entrada, perceberá que é útil usar um editor de texto ao 
invés de executar tudo diretamente na linha de comando. O 
editor é acessado na barra de menu do “RGUI”. Ao clicar em 
“Arquivo>Novo script” o R abrirá uma janela intitulada “Untitled 
– R editor”, onde se pode digitar e editar os comandos. Assim 
quando for executar uma linha de comando ou um grupo de 
linhas, basta destacá-los e pressionar “CTRL + R”. As linhas 
são automaticamente transferidas para a janela de comando 
Bioestatística 17
Figura 05: Utilização do pacote MASS e comando de edição de dados(“fix()”). 
Fonte: Autor.
e executadas. Ao pressionar “CTRL + S” o conteúdo do editor 
é salvado em um arquivo e será necessário selecionar o local 
e o nome. Ao nomear o arquivo é interessante acrescentar (.R) 
ao final do nome do arquivo para ficar no formato utilizado 
pelo R. Os dados podem ser editados no próprio R, com 
o comando “fix()”, após o banco de dados estar disponível, 
como por exemplo, utilizando a base de dados “bactéria” do 
pacote MASS:
Algumas pessoas preferem editar o banco utilizando 
planilhas eletrônicas como excel e salvar no formato “.txt” 
(separado por tabulações) e depois importar os dados, 
ou importar diretamente do excel, após salvar o arquivo 
no formato “.csv” (separado por vírgulas). É importante 
destacar que o R importa dados em diversos formatos e 
de diferentes softwares. Há funções para importar dados 
diretamente de softwares como Minitab, S-PLUS, SPSS, 
SAS, Stata, etc.
Ao atribuir um nome ao banco de dados ou a um 
objeto, esse ficará arquivado na memória do programa. O 
comando abaixo funciona como uma borracha na memória 
Bioestatística18
do R. Tudo que estava armazenado será apagado, evitando 
erros em análises subsequentes. Assim, ao iniciar uma nova 
análise, é indicado utilizar o comando “rm(list=ls())”.
Conhecendo os objetos do R
Como a utilização do R é feita através dos comandos 
sobre os objetos (Vetores, Fatores, Matrizes, Listas e 
Dataframes), se faz necessário conhecer o que caracteriza 
cada objeto, como cria-los e manuseá-los.
Podemos definir um vetor como uma sequência de 
valores. A função “c()” é usada para criar um vetor a partir 
de seus argumentos. Como exemplo, vamos criar um vetor 
composto por uma sequência de números. No exemplo, 
definimos como x o vetor composto pelos números 21, 31, 
51, 71 e 111. Os caracteres “<-” são utilizados para denominar 
que x “recebe” os valores contidos os valores contidos 
dentro da função “c()”. Ao digitar na linha de comando o 
nome do vetor e pressionar “enter”, o R exibirá os valores 
armazenados no vetor. Se for necessário adicionar mais 
informação em um vetor, basta criar um novo vetor (no 
exemplo denominaremos como y) utilizando o anterior 
como primeiro elemento, a seguir serão adicionados 
número primos à sequência. Há ainda outras formas de se 
gerar um vetor, por exemplo, para gerar uma sequência de 
números inteiros de 1 até 10. Se o vetor é muito longo e 
não cabe em uma linha, o R irá usar as linhas seguintes 
para continuar imprimindo o vetor. Abaixo, os comandos 
são testados:
Bioestatística 19
Figura 05: Criação de vetores e geração de dados.
Fonte: Autor.
Fonte: Autor.
Figura 06: Utilização dos comandos “seq()” e “rep()”.
Adicionalmente, uma maneira mais geral de produzir 
sequências de valores é usando a função “seq()” que tem 
como argumentos o início, fim e passos da sequência. Como 
exemplo, serão criadas sequência com os números inteiros 
abaixo. Uma outra função útil para produzir vetores é a 
função “rep()” que retorna o primeiro argumento repetido o 
número de vezes indicado pelo segundo argumento. Para 
aprendê-los você deverá reproduzir tais comandos para 
entendê-los.
Bioestatística20
Figura 07: Operações com vetores.
Fonte: Autor.
Para operações aritméticas simples envolvendo 
vetores são efetuadas entre cada um de seus elementos. 
No caso em que os vetores possuírem tamanhos diferentes, 
os elementos do menor vetor serão repetidos até atingir o 
tamanho do maior vetor. Na operação a seguir, o primeiro 
elemento do vetor x (1), foi somado ao primeiro do vetor 
y (1); o segundo elemento de x (2), somado ao segundo 
elemento de y (2); e assim por diante. Entretanto, se o 
comprimento do maior vetor não é um múltiplo do tamanho 
do menor vetor, o R vai processar o comando e emitir uma 
mensagem de alerta (“warning”).
Os fatores constituem-se em outro tipo de objeto em 
que são usados para armazenar dados categóricos, como 
exemplo, suponha que se queira armazenar em um banco 
de dados a informação sobre o sexo dos indivíduos. Pode-
se usar um código numérico como “0” para homens e “1” 
para mulheres ou pode – se na forma de caractere como 
“M” para masculino e “F” para feminino. Mas em ambos os 
casos deve-se usar a função “as.factor()”, onde os fatores são 
facilmente construídos a partir de vetores alfanuméricos. 
Bioestatística 21
Figura 08: Construção de fatores.
Fonte: Autor.
Note que os fatores são mostrados de forma 
semelhante, mas não idêntica aos vetores alfanuméricos. 
Os valores dos fatores são impressos sem aspas e os níveis 
do fator são também impressos. Além disto, os níveis de 
um fator podem ser facilmente modificados assinalando 
um novo vetor alfanumérico aos níveis do fator.
Suponha que temos dados de altura de 4 homens e 3 
mulheres. As alturas dos homens em centímetros são: 175, 
184, 180, 182. As alturas das mulheres são: 176, 174, 169. Na 
figura 08 entramos com os dados e calculamos a média 
geral das alturas e, também, a média para cada sexo.
Bioestatística22
Figura 08: Construção de fatores.
Fonte: Autor.
O software R é capaz de operar matrizes e existem 
várias formas de se criar uma matriz. Na figura 09, uma 
matriz composta por 3 colunas e 4 linhas composta pelos 
números de 1 a 12 foi construída, verifique que a matriz é 
preenchida ao longo das colunas. Para inverter este padrão 
deve-se adicionar o argumento “byrow=T”, para dizer que a 
matriz deve ser preenchida por linhas. Há outras funções 
que podem ser usadas para construir matrizes como “cbind” 
e “rbind” que aumentam ou criam matrizes adicionando 
colunas e linhas, respectivamente. Para acrescentarmos 
mais uma coluna, com os valores de 1 a 5 na matriz x, 
pode-se executar o comando “cbind()”. Para sabermos a 
Bioestatística 23
Figura 09: Resumo: Estatística descritivas.
Fonte: Autor.
dimensão sobre a matriz basta utilizar o comando “dim()”, 
que retorna um vetor com o número de linhas e colunas 
da matriz, nesta ordem. Adicionalmente, para transpor 
uma matriz, ou seja, trocar as linhas pelas colunas deve-se 
utilizar o comando “t()”, como se segue.
Posso pedir um resumo das medidas descritivas 
básicas por colunas da matriz, com execução do comando 
“summary()”, por exemplo. Perceba que ele retorna o 
mínimo, primeiro quartil, mediana, média, terceiro quartil e 
o valor máximo, ou ainda o resumo de toda a matriz.
As funções usuais operam em matrizes da mesma 
forma que operam com vetores, elemento por elemento. 
Portanto, multiplicar duas matrizes com um asterisco (*) terá 
o produto de cada elemento de uma matriz pelo elemento 
correspondente na outra matriz e não a multiplicação de 
matrizes usual, ao contrário de outros softwares. Para fazer 
a multiplicação de matrizes deve-se usar o símbolo %*%, 
como se segue. Porém, abaixo é evidenciado um erro na 
operação. Isto ocorre porque as dimensões das matrizes 
são diferentes. Da mesma maneira que extraímos partes de 
vetores utilizando colchetes, podem ser extraídas partes 
de uma matriz. Porém, isto é um pouco mais complicado, 
pois a matriz é um elemento que possui duas dimensões, 
enquanto vetores possuem apenas uma. Para extrair um 
único elemento da matriz deve ser usado colchetescom 
Bioestatística24
dois números separados por vírgula. O primeiro número 
indica o número da linha enquanto o segundo indica o 
número da coluna. Primeiramente é necessário definir uma 
matriz onde as colunas armazenam: índices 1 a 4, idade e 
sexo (“0”,”1”) de quatro pessoas.
Figura 10: Operações com matrizes.
Fonte: Autor.
Bioestatística 25
Uma coisa comum durante análises é querer 
selecionar todas as linhas de uma matriz que obedecem 
a alguma condição definida pelas colunas. Por exemplo, 
agora queremos extrair todas as pessoas que têm mais que 
50 anos. Podemos fazer isto com um único comando como 
este: 
Veja a seguir que este simples comando combina 
diversas operações de uma só vez. Pode-se inspecionar 
parte a parte do comando começando pela parte interna. 
Esta parte simplesmente selecionou a segunda coluna da 
matriz, que é um vetor. Em seguida utilizamos o comando 
abaixo para selecionar o vetor e verificar quais elementos 
são maiores que 50. O resultado será um vetor lógico com 
respostas “TRUE” (Correto) e “FALSE” (Falsa), e podemos 
também selecionar linhas para as quais a condição 
(Idade>50) for verdadeira (figura 11).
Figura 11: Seleção de elementos de uma matriz.
Fonte: Autor.
Por fim, outro objeto que pode ser manipulado no R, 
as listas são empregadas para combinar diferentes objetos 
em um único. Estas podem ser vetores, matrizes, números 
e outros caracteres e até mesmo outras listas, conforme o 
exemplo da figura 12.
As listas são construídas com a função “list()”. Os 
componentes da lista são introduzidos usando a forma 
usual (nome=arg) de atribuir argumentos em uma função. 
Bioestatística26
Ao digitar o nome de uma lista, cada componente é 
mostrado com seu nome e valor. Várias funções do R 
retornam seu resultado na forma de listas. Por exemplo, 
a função “t.test()” que realiza o teste t student, retorna um 
objeto que é uma lista. Cada elemento da lista pode ser 
acessado individualmente por seu nome antecedido pelo 
símbolo “$”.
Figura 12: Listas.
Fonte: Autor.
Para realizar as análises, os dados são organizados em 
formato de quadros de dados (“dataframes”). Os dataframes 
são muito parecidos com matrizes, possuindo linhas e 
colunas e, portanto, tem duas dimensões. Entretanto, 
diferentemente das matrizes, cada coluna pode armazenar 
elementos de diferentes tipos, como exemplo, a primeira 
coluna pode ser numérica enquanto a segunda pode ser 
constituída de caracteres. Por isso se torna a melhor forma 
de se armazenar dados, onde cada linha corresponde a uma 
unidade, individuo ou pessoa, e cada coluna representa 
uma medida realizada em cada unidade. 
Bioestatística 27
Figura 13: Organização do quadro de dados (“dataframe”).
Fonte: Autor.
Para analisar seus dados corretamente, há a 
necessidade da montagem correta de um dataframe, na 
maioria dos casos são utilizadas planilhas para inserir e 
editar os dados. O principal aspecto na organização dos 
dados é o seguinte: todos os valores de uma mesma 
variável devem estar na mesma coluna. A maneira correta 
de organizar os dados seria com apenas duas colunas (uma 
coluna para a variável respostas e outra para os níveis do 
fator estudado). Nesse sentido, é mostrado como organizar 
um dataframe na figura 13.
Bioestatística28
Após organizar os dados no excel, é necessário salvar 
o dataframe em um formato de arquivo que possa ser lido 
pelo R. A maneira mais simples é salvá-los como texto 
separado por tabulações, ou no formato “csv” separado por 
vírgulas. Este arquivo pode então ser lido no R diretamente 
como um dataframe, usando a função “read.table” ou “read.
csv2”, respectivamente. Para facilitar o comando podemos 
mudar o diretório direto para a pasta que contém os arquivos 
com os bancos de dados, conforme a seguir (figura 14).
Figura 13: Mudando o diretório no R.
Fonte: Autor.
Dentro da função read.table existem vários argumentos. 
Dentre os mais utilizados estão o “header”, no qual você vai 
informar se o dataframe possui ou não cabeçalho com as 
iniciais “T=True” (quando possuir) e “F=False” (quando não 
possuir). Caso não seja informado o programa utiliza como 
default “F”. O argumento “dec” é utilizado para informar 
como os números decimais estão identificados, se por 
pontos ou vírgulas. O default é o ponto, dessa forma se os 
dados numéricos estiverem separados por vírgula, deve-se 
utilizar dec=”,” para não ocorrer erro. 
Bioestatística 29
O argumento sep é utilizado para informar como os 
dados estão separados, o default da função read.table é 
sep=” ”, ou seja, a separação ocorre por espaço. Caso os 
dados estejam separados por vírgulas, devemos usar sep=”,”. 
Caso não opte por não mudar o diretório, deve-se informar 
nos comandos “read.table” ou “read.csv2”, o endereço do 
documento que irá importar conforme abaixo: 
Após aprender a importar um dataframe para o R é 
interessante conhecer algumas funções úteis para lidar com 
o banco de dados. Para se visualizar somente as primeiras 
linhas do dataframe geralmente utiliza-se o comando 
“head()”. Como são realizados diversos procedimentos, 
é conveniente utilizar o comando “attach()” para anexar o 
objeto ao caminho de procura. Dessa forma não se precisa 
concatenar o caractere $ entre o nome do dataframe e da 
variável que será utilizada. 
Bioestatística30
Entendendo o que é uma distribuição 
normal de probabilidade
Após coletar alguns dados de uma determinada 
variável e apresentar aspectos da estatística descritiva, 
pode-se assumir um modelo de probabilidade, e com isso, 
estimar a probabilidade de ocorrência de cada resultado. 
Os testes estatísticos, assim como modelos lineares e 
outros campos da estatística se baseiam em distribuições 
de probabilidade para se tomar decisões sobre hipóteses 
e parâmetros. Sendo assim, faz se necessário um 
entendimento breve sobre esse assunto para avançarmos 
em nosso curso. 
Em um primeiro momento há a necessidade de 
definirmos alguns conceitos. A distribuição de probabilidade 
consiste da representação de um gráfico, tabela ou fórmula 
que dá a probabilidade para cada valor de um variável 
aleatória, que possui um valor numérico, determinado ao 
acaso para cada resultado obtido. 
Basicamente existem dois grupos de distribuições: 
(1) Discretas, formadas por variáveis de natureza discreta, 
tais como as distribuições binomial, geométrica e poisson; 
(2) contínuas, formadas por variáveis classificadas como 
contínuas, compreendidas pelas distribuições gama, qui-
quadrado e normal. 
Nesta unidade, será tratado especificamente da 
distribuição normal de probabilidade, talvez a distribuições 
mais importantes para a estatística devido ao teorema 
central do limite. O teorema central do limite mostra que 
para qualquer que seja tipo de distribuição da variável de 
interesse, para grandes amostras, a distribuição de médias 
amostrais terá distribuição aproximadamente normal, 
tendendo a uma distribuição normal na medida em que 
o tamanho da amostra aumentar. Desta forma pode-se 
ter uma variável original com uma distribuição totalmente 
Bioestatística 31
diferente da normal, mas se tomarmos várias amostras 
grandes desta distribuição e então fizermos um histograma 
das médias amostrais, a forma se parecerá como uma 
curva normal.
Se uma variável aleatória contínua possui uma 
distribuição com um histograma simétrico e em forma 
de “sino” e que também pode ser descrita pela seguinte 
equação (não se assuste!), pode se dizer que ela possui 
uma distribuição normal:
𝑓 𝑥 = 
1
2𝜋𝜎2�
𝑒𝑥𝑝 −
1
2𝜎2
𝑥 − 𝜇 2
A distribuição normal possui dois parâmetros: a 
média e o desvio padrão. A notação para representar que 
uma determinada variável “x” possui distribuição normal de 
média (μ) = 20 e desvio padrão (σ) = 5 é x ~ N (20,5), ou 
seja, a variável “x” tende a uma média 20 e desvio padrão 5. 
Dessa forma, a curva da distribuição varia de acordo com 
sua média e desvio, observe o exemplo a seguir:
Com o conhecimento da distribuição de probabilidade 
deuma determinada variável podemos saber a 
probabilidade de cada evento ocorrer, apenas realizando o 
procedimento matemático de integração da área da curva 
desejada. Porém, como esta prática não é muito simples, 
os estatísticos transformam uma curva qualquer normal, na 
famosa normal reduzida (ou também padronizada), N (0,1), 
ou seja, com média (μ) = 0 e desvio padrão (σ) = 1. Isso é 
feito com a padronização da variável no escore “z”, visto a 
seguir. É encontrado utilizando a seguinte expressão:
𝑧 =
𝑥𝑖 − 𝜇
𝑠
Bioestatística32
EXPLICANDO MELHOR:
Vamos entender melhor a utilização desse escore 
com o seguinte exemplo. Entendendo que a 
variável altura como uma variável quantitativa 
contínua e que respeita uma distribuição normal 
de probabilidade, queremos comparar as alturas 
do ex - atleta Michael Jordan (198 cm) com a 
modelo Ana Hickmann (185 cm) em relação às 
populações de homens e mulheres. Qual dos 
dois são mais altos em relação ao seu sexo? Para 
responder melhor a essa pergunta, precisamos 
então padronizar aquelas alturas convertendo em 
escores “z” para então compará-los. Estima-se que 
a média da altura de homens é de 172,9 cm com 
um desvio padrão 5,8 e a das mulheres é de 160,7 
com um desvio padrão de 4,8. A partir da equação 
para padronização do escore “z”, represente-a no 
software “R”. Note que para “declarar” uma variável 
você deverá usar qualquer nome do seu interesse 
(ex.: “Z_Jordan”) que representará o valor de “z” e os 
símbolos “<-“, conforme abaixo:
Nota – se que o ex-jogador de basquetebol está 
a 4,33 desvios padrões da média da população 
do sexo masculino e Ana Hickmann a 5,06. Dessa 
forma, pode-se afirmar que Ana Hickmann é mais 
alta em relação a seu sexo do que Michael Jordan.
Bioestatística 33
Vamos apresentar algumas funções do R importantes 
nesta etapa de operações com distribuições:
 dnorm() – calcula a densidade de probabilidade f(x) 
em um determinado ponto, ou seja, a probabilidade de 
ocorrência de um determinado valor;
 pnorm() – calcula a função de probabilidade f(x) 
acumulada em determinado ponto;
 qnorm() – calcula o quantil correspondente a uma 
dada probabilidade; 
 rnorm() – retira uma amostra aleatória da distribuição.
Vamos utilizar esses comandos na curva gerada 
acima N (20,5), você deverá digitar os comandos e teclar 
“enter”:
O valor de 0,07 é a densidade de probabilidade no 
valor 20, na distribuição N(20,5).
O valor de 0,158 é a probabilidade em um distribuição 
N(20,5) de aparecimento de valores menores que 15.
Bioestatística34
O valor de probabilidade da ordem de 0,185 é a 
probabilidade do valor da variável estar entre 15 e 18. 
O comando acima significa que um valor menor que 
29,79 tem probabilidade de 0,975 de ocorrer. Logo um 
valor maior do que 29,79 possui 0,025 de probabilidade de 
ocorrência. Adicionalmente, podemos simular valores de 
uma distribuição normal conforme a figura abaixo. Abaixo 
declaramos 4 variáveis (x1, x2, x3 e x4) e teclar “enter”, 
com média (μ) = 100 e desvio padrão (σ) = 8, para gerar 
quatro subconjuntos de 10, 100, 1.000 e 10.000 elementos 
amostrais. 
Bioestatística 35
Figura 14: Simulação de subconjuntos amostrais e histogramas de frequência.
Fonte: Autor. 
Bioestatística36
Observe na figura 14, que na medida em que a 
amostra vai aumentando, os histogramas progressivamente 
apresentam um comportamento mais semelhante à curva 
normal apresentada, ou seja, o formato da distribuição de 
frequência acumuladas assemelha-se gradualmente a um 
formato de “sino”.
Suponha que a altura em posição sentada de 
motoristas tem que ser considerada no projeto de um novo 
modelo de automóvel. Os homens têm alturas em posição 
sentada que são normalmente distribuídas, com média 
de 36 polegadas e desvio padrão de 1,4 polegadas. Os 
engenheiros forneceram projetos que podem acomodar 
homens com alturas em posição sentada de até 38,8 
polegadas, mas homens mais altos não podem ser 
acomodados. Se selecionarmos um homem aleatoriamente, 
qual a probabilidade de que sua altura em posição seja 
menor que 38,8 polegadas? O projeto é possível de ser 
realizado?
Com este comando, a probabilidade de ocorrência de 
um valor de altura sentado menor que 38,8 é de 0,9772. 
Para calcular a probabilidade de ocorrer um valor maior 
que 38,8, basta subtrair 1 do valor de probabilidade obtido 
acima e executar o seguinte comando e teclar “enter”:
Em síntese, a execução desse projeto causará à 
empresa uma perda de aproximadamente 2,28% dos 
clientes do sexo masculino. Neste caso, a empresa deve 
Bioestatística 37
decidir se essa perda é aceitável para o projeto. É importante 
a familiarização com a distribuição normal reduzida, dessa 
forma vamos resolver o problema acima transformando os 
38,8 em escore “z” e inferir através da distribuição normal 
reduzida. Então temos:
Como era esperado, temos que o valor de probabilidade 
o valor obtido é o mesmo após a padronização. Após 
observar uma amostra de dados de uma determinada 
variável, podemos pensar assim, respeitando os rigores da 
amostragem pode-se supor uma distribuição que melhor 
se adequa aos dados. Obtendo-se a distribuição, pode-se 
inferir sobre a variável. 
Após a análise descritiva dos dados, aprendida na 
unidade anterior, faz se necessário a execução de alguns 
testes estatísticos para testar duas hipóteses de interesse. 
Para isso existem dois grandes grupos de testes clássicos 
de hipóteses: (1) paramétricos; e (2) não – paramétricos. Os 
paramétricos exigem o conhecimento da distribuição de 
probabilidade que os dados possuem. 
Porém, nesta unidade, o que irá separar os métodos 
paramétricos dos não – paramétricos é a suposição de 
normalidade dos dados, ou o pequeno número amostral, 
dessa forma é necessário testar a normalidade das variáveis 
de interesse. Sendo assim, é de suma importância conhecer 
algum teste estatístico capaz de inferir se a distribuição de 
probabilidade das variáveis a serem analisadas é normal. 
𝑃 𝑋 > 38,8 = 𝑃 𝑋 >
38,8 − 36
1,4 = 𝑃 𝑍 > 2
Bioestatística38
A mais simples verificação de normalidade é através do 
“quantile – quantile plot” (abaixo). Abaixo, será apresentado 
o gráfico para que possamos verificar a suposição de 
normalidade:
Figura 15: Suposição de normalidade: “Quantile – quantile plot”.
Fonte: Autor. 
Bioestatística 39
Se amostra é normalmente distribuída, os pontos 
devem estar próximos da linha reta. Os desvios de 
normalidade aparecem como vários tipos de não-
linearidade. As funções (comandos) utilizadas para isso 
são “qqnorm” e “qqline” (quantil-quantil). Basicamente, 
os quantis são separatrizes que dividem o intervalo de 
frequência de uma determinada amostra ou população.
Ao observar a figura 15, a variável peso criada 
parece normalmente distribuída. Mas como existem 
alguns pontos que estão distantes da linha reta produzida 
é importante realizar algum teste de hipótese. Nesta 
unidade empregaremos o tradicional teste de hipótese 
para normalidade de “Shapiro-Wilk”. Para isso emprega-se 
o comando “shapiro.test()”, digite este comando e dentro 
dos parêntesis o nome da variável teclando “enter”: 
As hipóteses do teste de Shapiro são:
H0: A variável peso possui uma distribuição normal;
H1: A variável peso não possui uma distribuição normal;
O valor de probabilidade (“p-value”) é a probabilidade 
de rejeitar H0 sendo ela verdadeira. Dessa forma o valor de 
probabilidade está nos informando que se rejeitarmos H0 a 
probabilidade de estarmos errados é de 0,9772. Na maioria 
das ciências o nível de significância, a ser abordado na 
unidade 3, é de 0,05, ou seja, para valores maiores que 0,05 
NÃO rejeitamos H0. Portanto, como o valor de probabilidade 
obtido é maior que 0,05 não rejeitamos H0 e concluímos 
que a variável peso segue uma distribuição normal. 
Bioestatística40
Aprendendo a utilizar a tabela “z”
Para calcularmos os valores de probabilidade 
corretamente e sem o concurso da operação de integração 
conforme já destacado, utilizamosa tabela de áreas sob a 
curva normal de uma variável padronizada “z”, caracterizada 
pela média (μ) = 0 e desvio padrão (σ) = 1. 
Esta tabela apresenta áreas compreendidas calculadas 
previamente entre o ponto central da distribuição, média 0, 
e qualquer valor de “z”. A primeira coluna contém valores 
inteiros e decimais da variável “z” e cada coluna seguinte, o 
seu valor centesimal.
A normal reduzida é tabelada e assim pode se inferir 
sobre a probabilidade sem uso de computadores. O escore 
padronizado (“z”) é o número de desvios padrões acima ou 
abaixo da média que se situa um determinado valor. Veja a 
tabela a seguir.
Bioestatística 41
Tabela 01: Curva normal reduzida (padronizada).
Fonte:http://www.datalyzer.com.br/site/suporte/administrador/info/arquivos/
info73/73.html 
A tabela acima apresenta somente metade da área 
da curva normal padronizada, para determinarmos o valor 
de probabilidade correspondente entre o valor de z = 0 e 
o valor de z=1,96, basta localizar valor inteiro e decimal de 
“z” na primeira coluna (1,9) e o respectivo valor centesimal 
(0,06), no interior da tabela o valor encontrado que cruza a 
projeção entre a linha e a coluna localizadas, corresponde 
ao valor de probabilidade (P=0,4750). Considerando a 
Bioestatística42
simetria entre os dois lados da curva de distribuição normal, 
a diferença entre o valor da área da metade da curva (P=0,5) 
e o valor obtido acima é igual a 0,025. Temos então que a 
probabilidade de encontrarmos um valor acima de +1,96 é 
de 0,025 [P(Z>1,96) = 0,025]. 
Para encontrar o valor da variável padronizada “z”, 
basta realizar o procedimento inverso. A partir do valor de 
probabilidade na porção interna da tabela encontra-se os 
valores da variável “z”. Por exemplo, para o valor de 0,4418, 
encontramos os valores de 1,5 e 0,07, logo, z=1,57. Mas, e os 
valores de correspondentes à outra porção da curva normal 
padronizada? Os valores de probabilidade são exatamente 
iguais para os valores negativos, à esquerda, da variável “z”. 
Podemos observar que na distribuição da variável 
padronizada “z”, que para um determinado intervalo de 
respostas típicas de 95%, os valores limites correspondem 
a -1,96 (à esquerda) e +1,96 (à direita). Pois, se a área de 
z=0 a z=+1,96 é de 0,4750, e de z=0 a z=-1,96 também será 
de 0,4750, uma vez que as duas metades da curva normal 
padronizada são simétricas e sua área total é igual a 1. 
A partir destes valores é possível tipificar respostas 
individuais conhecendo os valores de média e desvio padrão 
para determinada variável resposta a partir da equação do 
escore “z” padronizado apresentada previamente. Porém, 
esta temática será melhor abordada com exemplos práticos 
na próxima subseção. 
Bioestatística 43
Aprendendo a tipificar respostas 
individuais
Nesta subseção, trabalharemos com mais exemplos 
práticos para suplantar os conhecimentos teóricos obtidos. 
A determinação da área central de 95% sob a curva normal 
pode ser resolvida, conforme destacamos anteriormente, 
pelo procedimento de integração. Para tal necessitaríamos 
de definir a função matemática sob a qual se deseja calcular 
a área compreendida entre duas coordenadas quaisquer, 
proposta por Gauss, integrar esta função entre essas duas 
coordenadas: o valor obtido será a área percentual em 
relação a área percentual em relação a área total sob toda 
a função de -∞ a +∞, que corresponderia a 100%. 
Para um exemplo específico na agropecuária do peso 
ao abate de suínos (média de 90 kg e desvio padrão 12kg), 
se o valor de X1 for a média (90 kg) e o de X2 = 100 kg, a 
área relativa calculada pela integração corresponderia ao 
percentual da população ali contida. Para que X1 = 100 kg 
fosse o limite superior do intervalo de respostas individuais 
típicas, a área calculada deveria ser de 0,4750 (47,5%) 
porque a outra porção estaria simetricamente do outro lado 
da média, na verdade forneceria um percentual de 29,67%.
Quando nossa variável for diferente de “z”, como 
identificar o intervalo de respostas típicas do peso de 
abate de suínos, com os valores de média e desvio padrão 
reportados? A relação 𝑧 =
𝑥𝑖 − 𝜇
𝑠 transforma qualquer 
variável biológica normalmente distribuída em distribuição 
padrão “z”. Como os valores de “z” que limitam o grupo 
de respostas típicas (95% da população) são -1,96 e 1,96, 
a relação para cálculo dos escores “z” nos fornecerá os 
mesmos limites para qualquer variável normal, ou seja: 
Bioestatística44
Onde 𝑥1 = 𝜇 − 1.96𝑠 será a menor resposta típica 
e 𝑥2 = 𝜇 + 1.96𝑠 será a maior resposta típica. O intervalo 
de 𝑥1 e 𝑥2 é denominado de intervalo de respostas 
típicas individuais, ou ainda, o intervalo de confiança que 
corresponde a 95% das observações dispersas em torno da 
média. Logo, o peso de abate de suínos será: 
Adicionalmente, considerando que 300 animais foram 
empregados para descrever a variável peso ao abate, 
95% deles (285), estarão probabilisticamente no intervalo 
definido. O domínio do cálculo de probabilidade envolvendo 
a curva normal fundamenta a teoria estatística que permitirá 
a comparação de grupos experimentais, tema de nossa 
próxima unidade. A distribuição “z” entretanto possibilita 
algumas aplicações práticas onde a resposta individual é 
o alvo do usuário. Vejamos duas situações práticas abaixo.
±1.96 =
𝑥𝑖 − 𝜇
𝑠 = 𝑥𝑖 = 𝜇 ± 1.96𝑠 𝑖 = 1,2 …
𝑥1 = 90 ± 1.96 12 = 66,5𝑘𝑔 𝑎 113𝑘𝑔
Bioestatística 45
TESTANDO:
Consideremos uma granja de aves caracterizada 
por uma produção média diária de 3000 ovos 
pesando em média 55 gramas e com desvio padrão 
de 12 gramas, vende seus produtos segundo 
os respectivos pesos. Uma panificadora deseja 
reservar diariamente 30 duzias de ovos industriais 
(com peso inferior a 38 gramas), por serem mais 
baratos, para a fabricação de pães e bolos. Será 
que a granja poderá atender este pedido?
Se x = 38 gramas então seu valor 
correspondente em uma distribuição de “z” será 
𝑧 = 38−55
12
= −1,412 ≈ −1,42. 
Na tabela “z” (tabela 1), a área entre -1,42 e 0 é 
de 0,422. Porém, a área de interesse de ovos 
industriais mais leves que 38 gramas, corresponde 
à área inferior à z=-1,42. Portanto, a probabilidade 
de encontrar ovos mais leves que 38g na granja 
será a diferença entre o valor de probabilidade 
da metade da curva normal (0,5) e o valor de “z” 
Z = -1,42
Bioestatística46
obtido. Em outras palavras: P(X≤38g) = 0,50 – 0,422 
= 0,0778 ou 7,78% dos ovos. 
Uma vez que a granja produz 3000 ovos por dia, 
multiplicando 3000 vezes o valor de probabilidade 
de 0,0778, temos que 233,4 ovos serão de 
natureza industrial, ou seja, abaixo de 38 gramas. 
Neste sentido a granja não poderá fornecer o 
montante pedido de 300 ovos comerciais. Logo, a 
panificadora deverá encontrar mais fornecedores 
ou outro fornecedor para atender sua demanda.
Bioestatística 47
TESTANDO:
Vamos considerar ainda o exemplo do abatedouro 
de suínos. Caso este abatedouro se interessar por 
animais com peso mínimo de 90kg [P(X≥90kg)], 
qual a porcentagem de animais que estará apta 
para o abate quando a média do lote for de 95kg e 
o desvio padrão de 15kg? 
A área correspondente ao intervalo de “z” de -0,33 
a 0 (ou de 90 a 95kg na distribuição original) é de 
0,1293. Logo a probabilidade de encontrar animais 
com no mínimo 90kg naquele grupo é de 0,1293 + 
0,5 = 0,6293 ou 62,93%.
Z = -0,33
𝑧 =
90 − 95
15 = −0,333
Bioestatística48
Na experimentação em bioestatística, a utilização de 
desempenhos individuais será muito restrita. Os ensaios 
em sua maioria desejarão comparar médias de tratamentos 
e não tipificar possíveis respostas individuais. Assim 
sendo, nosso interesse passa a ser não como a maioria 
dos indivíduos podem responder a um tratamento, mas 
como a média de n indivíduos tratados igualmente pode 
variar de experimento para experimento. Isso significa que 
estaremos procurando um intervalo que englobe 95% de 
todas as médias possíveis de serem encontradas quandoutilizarmos n indivíduos sob um mesmo tratamento. Este 
será o intervalo de confiança da média, a ser estudado na 
próxima unidade. 
Nesta unidade você teve acesso a conceitos sobre 
a distribuição normal de probabilidade, uso da tabela “z”, 
como tipificar de respostas individuais e deu os primeiros 
passos na utilização do software “R”, revise seus conceitos 
e explore novas bibliografias! Agora é com você! 
Bioestatística 49
BIBLIOGRAFIA
CRAWLEY, M.J. The R book. San Francisco: John Wiley 
& Sons. 942p.
TRIOLA, M. F. Introdução à Estatística. 10. ed. Rio de 
Janeiro: LTC, 2011. 836p. 
SHAHBABA, B. Biostatistics with R. New York: Springer, 
2012. 352p.
SIQUEIRA, A. L.; TIBÚRCIO, J. D. Estatística na Área 
da Saúde: conceitos, metodologia, aplicações e prática 
computacional. Belo Horizonte: Coopmed, 2011. 520p.
PAGANO, M.; GAUVREAU, K. Princípios de Bioestatística. 
2. ed. São Paulo: Pioneira Thompson Learning, 2004. 522p.
ZAR, J.H. Biostatistical analysis. New Jersey: Prentice-
Hall.1984. 718p.

Continue navegando

Outros materiais