bioestatistica-2

Biológicas / Saúde

Andreia Juelle

em 23/12/2022

Conteúdos escolhidos para você

325 pág.

Introdução a Data Science Algoritmos de Machine Learning e Métodos de Análise by Tatiana Escovedo Adriano Koshiyama (z-lib

UNINASSAU

453 pág.

livro Bussab e Morettin - 2021 - Estatística básica

Anhanguera

302 pág.

Bioestatística: Conceitos e Aplicações

FAEL

236 pág.

UNIDADE 2 - Estatística Básica - Descritiva (Com exercícios)

AMPLI

Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

UNILAVRAS

Questão 10/10 - ENSINO DE ESTATÍSTICA E TRATAMENTO DA INFORMAÇÃO NA EDUCAÇÃO BÁSICA Ler em voz alta Considere o excerto de texto a seguir: “As medidas

3) Os conceitos matemáticos têm vasta aplicação, dado que são capazes de descrever numérico ou algebricamente muitas situações do cotidiano. As div...

UNIBTA

Exercícios 4. As sete ferramentas estatísticas fazem parte de um grupo de métodos estatísticos elementares que devem ser de conhecimento de todas as p

Na última Unidade do material da disciplina, trabalhamos exemplos práticos de Controle Estatístico de Processo (CEP) aplicados à realidade das orga...

UNIFATECIE

Material

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

325 pág.

Introdução a Data Science Algoritmos de Machine Learning e Métodos de Análise by Tatiana Escovedo Adriano Koshiyama (z-lib

UNINASSAU

453 pág.

livro Bussab e Morettin - 2021 - Estatística básica

Anhanguera

302 pág.

Bioestatística: Conceitos e Aplicações

FAEL

236 pág.

UNIDADE 2 - Estatística Básica - Descritiva (Com exercícios)

AMPLI

Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

UNILAVRAS

Questão 10/10 - ENSINO DE ESTATÍSTICA E TRATAMENTO DA INFORMAÇÃO NA EDUCAÇÃO BÁSICA Ler em voz alta Considere o excerto de texto a seguir: “As medidas

3) Os conceitos matemáticos têm vasta aplicação, dado que são capazes de descrever numérico ou algebricamente muitas situações do cotidiano. As div...

UNIBTA

Exercícios 4. As sete ferramentas estatísticas fazem parte de um grupo de métodos estatísticos elementares que devem ser de conhecimento de todas as p

Na última Unidade do material da disciplina, trabalhamos exemplos práticos de Controle Estatístico de Processo (CEP) aplicados à realidade das orga...

UNIFATECIE

Prévia do material em texto

Leandro Vinhas de Paula
Bioestatística
Unidade 2
Distribuição
normal de
probabilidade e
aplicações
Livro didático
digital
Diretor Executivo
DAVID LIRA STEPHEN BARROS
Diretora Editorial
ANDRÉA CÉSAR PEDROSA
Projeto Gráfico
MANUELA CÉSAR ARRUDA
Autor
LEANDRO VINHAS DE PAULA
Desenvolvedor
CAIO BENTO GOMES DOS SANTOS
Olá! Meu nome é Leandro Vinhas de Paula, sou bacharel
e licenciado em Educação Física (Faculdade de Educação
Física e Fisioterapia – Universidade Federal de Uberlândia),
mestre em Ciências do Esporte (Escola de Educação Física,
Fisioterapia e Terapia Ocupacional – Universidade Federal de
Minas Gerais – EEFFTO/UFMG) e especialista em Estatística
Aplicada (Departamento de Estatística – Instituto de Ciências
Exatas – ICEX/UFMG) com uma experiência técnico-profissional
na área de educação física e esportes por mais de 10 anos em
atividades de ensino, pesquisa e extensão na Universidade
Federal de Ouro Preto e no meio privado. Atualmente sou
doutorando na área de Biomecânica (EEFFTO - UFMG). Por isso
fui convidado pela Editora Telesapiens a integrar seu elenco de
autores independentes. Estou muito feliz em poder ajudar você
nesta fase de muito estudo e trabalho. Conte comigo!
Autor
LEANDRO VINHAS DE PAULA
INTRODUÇÃO:
para o início do
desenvolvimen-
to de uma nova
competência;
DEFINIÇÃO:
houver necessidade
de se apresentar
um novo conceito;
NOTA:
quando forem
necessários obser-
vações ou comple-
mentações para o
seu conhecimento;
IMPORTANTE:
as observações
escritas tiveram
que ser prioriza-
das para você;
EXPLICANDO
MELHOR:
algo precisa ser
melhor explicado
ou detalhado;
VOCÊ SABIA?
curiosidades e
indagações lúdicas
sobre o tema em
estudo, se forem
necessárias;
SAIBA MAIS:
textos, referências
bibliográficas e
links para aprofun-
damento do seu
conhecimento;
REFLITA:
se houver a neces-
sidade de chamar a
atenção sobre algo
a ser refletido ou
discutido sobre;
ACESSE:
se for preciso aces-
sar um ou mais sites
para fazer download,
assistir vídeos, ler
textos, ouvir podcast;
RESUMINDO:
quando for preciso
se fazer um resumo
acumulativo das
últimas abordagens;
ATIVIDADES:
quando alguma ativi-
dade de autoapren-
dizagem for aplicada;
TESTANDO:
quando o desen-
volvimento de uma
competência for
concluído e questões
forem explicadas;
Iconográficos
Olá. Meu nome é Manuela César de Arruda. Sou a responsável pelo pro-
jeto gráfico de seu material. Esses ícones irão aparecer em sua trilha de
aprendizagem toda vez que:
SUMÁRIO
Introdução......................................................................................10
Competências................................................................................11
Essencial sobre o software estatístico “R”:.........................12
Instalação do software estatístico “R”: primeiros passos.................12
Conhecendo os objetos do R...................................................................18
Entendendo o que é uma distribuição normal de
probabilidade................................................................................30
Aprendendo a utilizar a tabela “z”.........................................40
Aprendendo a tipificar respostas individuais....................43
Bibliografia.....................................................................................58
Bioestatística 9
UNIDADE
02
DISTRIBUIÇÃO NORMAL DE PROBABILIDADE E APLICAÇÕES
Bioestatística10
Nesta unidade você será apresentado à distribuição
normal de probabilidade, aprenderá a utilizar a tabela “z”
e aprenderá a tipificar respostas individuais para uma
determinada variável aleatória, serão apresentados
exemplos práticos para que possa entender com aplicar
estes conceitos. Então vamos lá!
INTRODUÇÃO
Bioestatística 11
Olá. Seja muito bem-vindo à Unidade 2. Nosso
objetivo é auxiliar você no desenvolvimento das seguintes
competências profissionais até o término desta etapa de
estudos:
1. Essencial sobre o software estatístico “R”
2. Entendendo o que é uma distribuição normal de
probabilidade
3. Aprendendo a utilizar a tabela “z”
4. Aprendendo a tipificar respostas individuais.
Vamos começar? Está preparado? Então vamos ao
trabalho!
COMPETÊNCIAS
Bioestatística12
Essencial sobre o software estatístico “R”
Nesta unidade você iniciará a aprendizagem de
um software livre de análise de estatística “R”, conceitos
sobre a distribuição normal de probabilidade e a como é
realizada a tipificação de respostas individuais, baseado
nesta distribuição de probabilidade.

Instalação do software estatístico “R”:
primeiros passos.
Para realizar o estudo desta unidade você deverá
realizar instalar o software “R”, ele pode ser encontrado
facilmente na internet. O site chamado de CRAN – “The
Comprehensive R Archive Network”, disponibiliza o
download do instalador (https://cran.r-project.org/). É
importante que você esteja atento e escolha corretamente
o arquivo, uma vez que existem versões para o Windows,
MAC e Linux. Você deverá baixar o pacote adequado a você
e executar o programa de instalação.
Acima você verá a tela principal do software “R”. Como
você pode observar, a primeira que irá aparecer na tela é
a data e o número da versão do software selecionado, em
seguida um cabeçalho explicando que não há nenhuma
garantia para este software livre e alguns comandos
importantes.
Abaixo do cabeçalho, uma linha em branco com o
símbolo “>” na margem esquerda aparecerá. Este símbolo
é denominado chamado de alerta, como se fosse uma
maneira do software dizer “E AGORA?” e é aonde digitaremos
os comandos.
Caso ao invés de “>” aparecer um “+” significa que
o último comando digitado não está completo e será
necessário digitar os caracteres que faltam. Caso tenha
Bioestatística 13
errado o comando, pressione “ESC” e o chamado de alerta
“>” reaparecerá.
Figura 01: Interface do software “R”.
Fonte: Autor.
Um recurso importante é o de que o R armazena em
sua memória os comandos executados. Assim, ao teclar a
seta para cima, é possível recuperar o comando passado
podendo corrigi-lo sem ter que digitá-lo todo novamente.
O comando citation(), por exemplo, mostra como citar o
software em seu trabalho escrito.
Bioestatística14
Figura 02: Citação do software “R”.
Fonte: Autor.
Figura 02: Pedindo ajuda no software “R”.
Fonte: Autor
VOCÊ SABIA?:
A utilização do R é feita basicamente através
da criação de comandos sobre objetos (Ex.:
Vetores, Fatores, Matrizes, Listas e Dataframes). A
abordagem destes conceitos não é o objetivo desta
unidade, para maiores informações sugerimos
a você a obra de Crawley (2007). O domínio do
software “R” tem sido amplamente valorizado no
mercado de trabalho. Nós encorajamos você a
conhecer essa ferramenta que agregará muita a
sua formação.
Bioestatística 15
Figura 03: Utilizando o comando example().
Fonte: Autor.
Para pedir ajuda, a maneira mais simples de obter
ajuda no R é clicar no botão “ajuda” na barra de ferramentas
do RGUI ou acessar o site do CRAN. No entanto, se souber o
nome da função sobre a qual quer a ajuda, pode-se digitar
apenas um ponto de interrogação (?) na linha de comando
seguido do nome da função. Assim, para obter ajuda a
função read.table, basta digitar:
Para ver um exemplo trabalhado basta utilizar o
comando “example()” escrevendo o nome da função
desejada entre os parênteses, como na figura 03. Uma
boa maneira de ver a gama de opções que o “R” oferece é
utilizando a função “demo()”. O pacote básico do software
não contém algumas das bibliotecas que podem ser
empregados por você. No entanto a instalação é bem
simples. Basta estar conectado à internet e executar a
linha de comandos “install.packages()”, que é a função
para baixar as bibliotecas solicitadas. Após o comando,
será questionado qual o espelho mais próximo e após
responder, o restante é realizado automaticamente. Por
exemplo, instale a biblioteca “MASS” utilizandoo comando
Bioestatística16
abaixo, para se utilizar a biblioteca deve-se utilizar a linha
de comando “library(MASS)”.
Figura 04: Instalação de pacotes no software R: MASS.
Fonte: Autor.
Ao escrever funções e outras seções de linha de
entrada, perceberá que é útil usar um editor de texto ao
invés de executar tudo diretamente na linha de comando. O
editor é acessado na barra de menu do “RGUI”. Ao clicar em
“Arquivo>Novo script” o R abrirá uma janela intitulada “Untitled
– R editor”, onde se pode digitar e editar os comandos. Assim
quando for executar uma linha de comando ou um grupo de
linhas, basta destacá-los e pressionar “CTRL + R”. As linhas
são automaticamente transferidas para a janela de comando
Bioestatística 17
Figura 05: Utilização do pacote MASS e comando de edição de dados(“fix()”).
Fonte: Autor.
e executadas. Ao pressionar “CTRL + S” o conteúdo do editor
é salvado em um arquivo e será necessário selecionar o local
e o nome. Ao nomear o arquivo é interessante acrescentar (.R)
ao final do nome do arquivo para ficar no formato utilizado
pelo R. Os dados podem ser editados no próprio R, com
o comando “fix()”, após o banco de dados estar disponível,
como por exemplo, utilizando a base de dados “bactéria” do
pacote MASS:
Algumas pessoas preferem editar o banco utilizando
planilhas eletrônicas como excel e salvar no formato “.txt”
(separado por tabulações) e depois importar os dados,
ou importar diretamente do excel, após salvar o arquivo
no formato “.csv” (separado por vírgulas). É importante
destacar que o R importa dados em diversos formatos e
de diferentes softwares. Há funções para importar dados
diretamente de softwares como Minitab, S-PLUS, SPSS,
SAS, Stata, etc.
Ao atribuir um nome ao banco de dados ou a um
objeto, esse ficará arquivado na memória do programa. O
comando abaixo funciona como uma borracha na memória
Bioestatística18
do R. Tudo que estava armazenado será apagado, evitando
erros em análises subsequentes. Assim, ao iniciar uma nova
análise, é indicado utilizar o comando “rm(list=ls())”.
Conhecendo os objetos do R
Como a utilização do R é feita através dos comandos
sobre os objetos (Vetores, Fatores, Matrizes, Listas e
Dataframes), se faz necessário conhecer o que caracteriza
cada objeto, como cria-los e manuseá-los.
Podemos definir um vetor como uma sequência de
valores. A função “c()” é usada para criar um vetor a partir
de seus argumentos. Como exemplo, vamos criar um vetor
composto por uma sequência de números. No exemplo,
definimos como x o vetor composto pelos números 21, 31,
51, 71 e 111. Os caracteres “<-” são utilizados para denominar
que x “recebe” os valores contidos os valores contidos
dentro da função “c()”. Ao digitar na linha de comando o
nome do vetor e pressionar “enter”, o R exibirá os valores
armazenados no vetor. Se for necessário adicionar mais
informação em um vetor, basta criar um novo vetor (no
exemplo denominaremos como y) utilizando o anterior
como primeiro elemento, a seguir serão adicionados
número primos à sequência. Há ainda outras formas de se
gerar um vetor, por exemplo, para gerar uma sequência de
números inteiros de 1 até 10. Se o vetor é muito longo e
não cabe em uma linha, o R irá usar as linhas seguintes
para continuar imprimindo o vetor. Abaixo, os comandos
são testados:
Bioestatística 19
Figura 05: Criação de vetores e geração de dados.
Fonte: Autor.
Fonte: Autor.
Figura 06: Utilização dos comandos “seq()” e “rep()”.
Adicionalmente, uma maneira mais geral de produzir
sequências de valores é usando a função “seq()” que tem
como argumentos o início, fim e passos da sequência. Como
exemplo, serão criadas sequência com os números inteiros
abaixo. Uma outra função útil para produzir vetores é a
função “rep()” que retorna o primeiro argumento repetido o
número de vezes indicado pelo segundo argumento. Para
aprendê-los você deverá reproduzir tais comandos para
entendê-los.
Bioestatística20
Figura 07: Operações com vetores.
Fonte: Autor.
Para operações aritméticas simples envolvendo
vetores são efetuadas entre cada um de seus elementos.
No caso em que os vetores possuírem tamanhos diferentes,
os elementos do menor vetor serão repetidos até atingir o
tamanho do maior vetor. Na operação a seguir, o primeiro
elemento do vetor x (1), foi somado ao primeiro do vetor
y (1); o segundo elemento de x (2), somado ao segundo
elemento de y (2); e assim por diante. Entretanto, se o
comprimento do maior vetor não é um múltiplo do tamanho
do menor vetor, o R vai processar o comando e emitir uma
mensagem de alerta (“warning”).
Os fatores constituem-se em outro tipo de objeto em
que são usados para armazenar dados categóricos, como
exemplo, suponha que se queira armazenar em um banco
de dados a informação sobre o sexo dos indivíduos. Pode-
se usar um código numérico como “0” para homens e “1”
para mulheres ou pode – se na forma de caractere como
“M” para masculino e “F” para feminino. Mas em ambos os
casos deve-se usar a função “as.factor()”, onde os fatores são
facilmente construídos a partir de vetores alfanuméricos.
Bioestatística 21
Figura 08: Construção de fatores.
Fonte: Autor.
Note que os fatores são mostrados de forma
semelhante, mas não idêntica aos vetores alfanuméricos.
Os valores dos fatores são impressos sem aspas e os níveis
do fator são também impressos. Além disto, os níveis de
um fator podem ser facilmente modificados assinalando
um novo vetor alfanumérico aos níveis do fator.
Suponha que temos dados de altura de 4 homens e 3
mulheres. As alturas dos homens em centímetros são: 175,
184, 180, 182. As alturas das mulheres são: 176, 174, 169. Na
figura 08 entramos com os dados e calculamos a média
geral das alturas e, também, a média para cada sexo.
Bioestatística22
Figura 08: Construção de fatores.
Fonte: Autor.
O software R é capaz de operar matrizes e existem
várias formas de se criar uma matriz. Na figura 09, uma
matriz composta por 3 colunas e 4 linhas composta pelos
números de 1 a 12 foi construída, verifique que a matriz é
preenchida ao longo das colunas. Para inverter este padrão
deve-se adicionar o argumento “byrow=T”, para dizer que a
matriz deve ser preenchida por linhas. Há outras funções
que podem ser usadas para construir matrizes como “cbind”
e “rbind” que aumentam ou criam matrizes adicionando
colunas e linhas, respectivamente. Para acrescentarmos
mais uma coluna, com os valores de 1 a 5 na matriz x,
pode-se executar o comando “cbind()”. Para sabermos a
Bioestatística 23
Figura 09: Resumo: Estatística descritivas.
Fonte: Autor.
dimensão sobre a matriz basta utilizar o comando “dim()”,
que retorna um vetor com o número de linhas e colunas
da matriz, nesta ordem. Adicionalmente, para transpor
uma matriz, ou seja, trocar as linhas pelas colunas deve-se
utilizar o comando “t()”, como se segue.
Posso pedir um resumo das medidas descritivas
básicas por colunas da matriz, com execução do comando
“summary()”, por exemplo. Perceba que ele retorna o
mínimo, primeiro quartil, mediana, média, terceiro quartil e
o valor máximo, ou ainda o resumo de toda a matriz.
As funções usuais operam em matrizes da mesma
forma que operam com vetores, elemento por elemento.
Portanto, multiplicar duas matrizes com um asterisco (*) terá
o produto de cada elemento de uma matriz pelo elemento
correspondente na outra matriz e não a multiplicação de
matrizes usual, ao contrário de outros softwares. Para fazer
a multiplicação de matrizes deve-se usar o símbolo %*%,
como se segue. Porém, abaixo é evidenciado um erro na
operação. Isto ocorre porque as dimensões das matrizes
são diferentes. Da mesma maneira que extraímos partes de
vetores utilizando colchetes, podem ser extraídas partes
de uma matriz. Porém, isto é um pouco mais complicado,
pois a matriz é um elemento que possui duas dimensões,
enquanto vetores possuem apenas uma. Para extrair um
único elemento da matriz deve ser usado colchetescom
Bioestatística24
dois números separados por vírgula. O primeiro número
indica o número da linha enquanto o segundo indica o
número da coluna. Primeiramente é necessário definir uma
matriz onde as colunas armazenam: índices 1 a 4, idade e
sexo (“0”,”1”) de quatro pessoas.
Figura 10: Operações com matrizes.
Fonte: Autor.
Bioestatística 25
Uma coisa comum durante análises é querer
selecionar todas as linhas de uma matriz que obedecem
a alguma condição definida pelas colunas. Por exemplo,
agora queremos extrair todas as pessoas que têm mais que
50 anos. Podemos fazer isto com um único comando como
este:
Veja a seguir que este simples comando combina
diversas operações de uma só vez. Pode-se inspecionar
parte a parte do comando começando pela parte interna.
Esta parte simplesmente selecionou a segunda coluna da
matriz, que é um vetor. Em seguida utilizamos o comando
abaixo para selecionar o vetor e verificar quais elementos
são maiores que 50. O resultado será um vetor lógico com
respostas “TRUE” (Correto) e “FALSE” (Falsa), e podemos
também selecionar linhas para as quais a condição
(Idade>50) for verdadeira (figura 11).
Figura 11: Seleção de elementos de uma matriz.
Fonte: Autor.
Por fim, outro objeto que pode ser manipulado no R,
as listas são empregadas para combinar diferentes objetos
em um único. Estas podem ser vetores, matrizes, números
e outros caracteres e até mesmo outras listas, conforme o
exemplo da figura 12.
As listas são construídas com a função “list()”. Os
componentes da lista são introduzidos usando a forma
usual (nome=arg) de atribuir argumentos em uma função.
Bioestatística26
Ao digitar o nome de uma lista, cada componente é
mostrado com seu nome e valor. Várias funções do R
retornam seu resultado na forma de listas. Por exemplo,
a função “t.test()” que realiza o teste t student, retorna um
objeto que é uma lista. Cada elemento da lista pode ser
acessado individualmente por seu nome antecedido pelo
símbolo “$”.
Figura 12: Listas.
Fonte: Autor.
Para realizar as análises, os dados são organizados em
formato de quadros de dados (“dataframes”). Os dataframes
são muito parecidos com matrizes, possuindo linhas e
colunas e, portanto, tem duas dimensões. Entretanto,
diferentemente das matrizes, cada coluna pode armazenar
elementos de diferentes tipos, como exemplo, a primeira
coluna pode ser numérica enquanto a segunda pode ser
constituída de caracteres. Por isso se torna a melhor forma
de se armazenar dados, onde cada linha corresponde a uma
unidade, individuo ou pessoa, e cada coluna representa
uma medida realizada em cada unidade.
Bioestatística 27
Figura 13: Organização do quadro de dados (“dataframe”).
Fonte: Autor.
Para analisar seus dados corretamente, há a
necessidade da montagem correta de um dataframe, na
maioria dos casos são utilizadas planilhas para inserir e
editar os dados. O principal aspecto na organização dos
dados é o seguinte: todos os valores de uma mesma
variável devem estar na mesma coluna. A maneira correta
de organizar os dados seria com apenas duas colunas (uma
coluna para a variável respostas e outra para os níveis do
fator estudado). Nesse sentido, é mostrado como organizar
um dataframe na figura 13.
Bioestatística28
Após organizar os dados no excel, é necessário salvar
o dataframe em um formato de arquivo que possa ser lido
pelo R. A maneira mais simples é salvá-los como texto
separado por tabulações, ou no formato “csv” separado por
vírgulas. Este arquivo pode então ser lido no R diretamente
como um dataframe, usando a função “read.table” ou “read.
csv2”, respectivamente. Para facilitar o comando podemos
mudar o diretório direto para a pasta que contém os arquivos
com os bancos de dados, conforme a seguir (figura 14).
Figura 13: Mudando o diretório no R.
Fonte: Autor.
Dentro da função read.table existem vários argumentos.
Dentre os mais utilizados estão o “header”, no qual você vai
informar se o dataframe possui ou não cabeçalho com as
iniciais “T=True” (quando possuir) e “F=False” (quando não
possuir). Caso não seja informado o programa utiliza como
default “F”. O argumento “dec” é utilizado para informar
como os números decimais estão identificados, se por
pontos ou vírgulas. O default é o ponto, dessa forma se os
dados numéricos estiverem separados por vírgula, deve-se
utilizar dec=”,” para não ocorrer erro.
Bioestatística 29
O argumento sep é utilizado para informar como os
dados estão separados, o default da função read.table é
sep=” ”, ou seja, a separação ocorre por espaço. Caso os
dados estejam separados por vírgulas, devemos usar sep=”,”.
Caso não opte por não mudar o diretório, deve-se informar
nos comandos “read.table” ou “read.csv2”, o endereço do
documento que irá importar conforme abaixo:
Após aprender a importar um dataframe para o R é
interessante conhecer algumas funções úteis para lidar com
o banco de dados. Para se visualizar somente as primeiras
linhas do dataframe geralmente utiliza-se o comando
“head()”. Como são realizados diversos procedimentos,
é conveniente utilizar o comando “attach()” para anexar o
objeto ao caminho de procura. Dessa forma não se precisa
concatenar o caractere $ entre o nome do dataframe e da
variável que será utilizada.
Bioestatística30
Entendendo o que é uma distribuição
normal de probabilidade
Após coletar alguns dados de uma determinada
variável e apresentar aspectos da estatística descritiva,
pode-se assumir um modelo de probabilidade, e com isso,
estimar a probabilidade de ocorrência de cada resultado.
Os testes estatísticos, assim como modelos lineares e
outros campos da estatística se baseiam em distribuições
de probabilidade para se tomar decisões sobre hipóteses
e parâmetros. Sendo assim, faz se necessário um
entendimento breve sobre esse assunto para avançarmos
em nosso curso.
Em um primeiro momento há a necessidade de
definirmos alguns conceitos. A distribuição de probabilidade
consiste da representação de um gráfico, tabela ou fórmula
que dá a probabilidade para cada valor de um variável
aleatória, que possui um valor numérico, determinado ao
acaso para cada resultado obtido.
Basicamente existem dois grupos de distribuições:
(1) Discretas, formadas por variáveis de natureza discreta,
tais como as distribuições binomial, geométrica e poisson;
(2) contínuas, formadas por variáveis classificadas como
contínuas, compreendidas pelas distribuições gama, qui-
quadrado e normal.
Nesta unidade, será tratado especificamente da
distribuição normal de probabilidade, talvez a distribuições
mais importantes para a estatística devido ao teorema
central do limite. O teorema central do limite mostra que
para qualquer que seja tipo de distribuição da variável de
interesse, para grandes amostras, a distribuição de médias
amostrais terá distribuição aproximadamente normal,
tendendo a uma distribuição normal na medida em que
o tamanho da amostra aumentar. Desta forma pode-se
ter uma variável original com uma distribuição totalmente
Bioestatística 31
diferente da normal, mas se tomarmos várias amostras
grandes desta distribuição e então fizermos um histograma
das médias amostrais, a forma se parecerá como uma
curva normal.
Se uma variável aleatória contínua possui uma
distribuição com um histograma simétrico e em forma
de “sino” e que também pode ser descrita pela seguinte
equação (não se assuste!), pode se dizer que ela possui
uma distribuição normal:
𝑓 𝑥 =
1
2𝜋𝜎2�
𝑒𝑥𝑝 −
1
2𝜎2
𝑥 − 𝜇 2
A distribuição normal possui dois parâmetros: a
média e o desvio padrão. A notação para representar que
uma determinada variável “x” possui distribuição normal de
média (μ) = 20 e desvio padrão (σ) = 5 é x ~ N (20,5), ou
seja, a variável “x” tende a uma média 20 e desvio padrão 5.
Dessa forma, a curva da distribuição varia de acordo com
sua média e desvio, observe o exemplo a seguir:
Com o conhecimento da distribuição de probabilidade
deuma determinada variável podemos saber a
probabilidade de cada evento ocorrer, apenas realizando o
procedimento matemático de integração da área da curva
desejada. Porém, como esta prática não é muito simples,
os estatísticos transformam uma curva qualquer normal, na
famosa normal reduzida (ou também padronizada), N (0,1),
ou seja, com média (μ) = 0 e desvio padrão (σ) = 1. Isso é
feito com a padronização da variável no escore “z”, visto a
seguir. É encontrado utilizando a seguinte expressão:
𝑧 =
𝑥𝑖 − 𝜇
𝑠
Bioestatística32
EXPLICANDO MELHOR:
Vamos entender melhor a utilização desse escore
com o seguinte exemplo. Entendendo que a
variável altura como uma variável quantitativa
contínua e que respeita uma distribuição normal
de probabilidade, queremos comparar as alturas
do ex - atleta Michael Jordan (198 cm) com a
modelo Ana Hickmann (185 cm) em relação às
populações de homens e mulheres. Qual dos
dois são mais altos em relação ao seu sexo? Para
responder melhor a essa pergunta, precisamos
então padronizar aquelas alturas convertendo em
escores “z” para então compará-los. Estima-se que
a média da altura de homens é de 172,9 cm com
um desvio padrão 5,8 e a das mulheres é de 160,7
com um desvio padrão de 4,8. A partir da equação
para padronização do escore “z”, represente-a no
software “R”. Note que para “declarar” uma variável
você deverá usar qualquer nome do seu interesse
(ex.: “Z_Jordan”) que representará o valor de “z” e os
símbolos “<-“, conforme abaixo:
Nota – se que o ex-jogador de basquetebol está
a 4,33 desvios padrões da média da população
do sexo masculino e Ana Hickmann a 5,06. Dessa
forma, pode-se afirmar que Ana Hickmann é mais
alta em relação a seu sexo do que Michael Jordan.
Bioestatística 33
Vamos apresentar algumas funções do R importantes
nesta etapa de operações com distribuições:
dnorm() – calcula a densidade de probabilidade f(x)
em um determinado ponto, ou seja, a probabilidade de
ocorrência de um determinado valor;
pnorm() – calcula a função de probabilidade f(x)
acumulada em determinado ponto;
qnorm() – calcula o quantil correspondente a uma
dada probabilidade;
rnorm() – retira uma amostra aleatória da distribuição.
Vamos utilizar esses comandos na curva gerada
acima N (20,5), você deverá digitar os comandos e teclar
“enter”:
O valor de 0,07 é a densidade de probabilidade no
valor 20, na distribuição N(20,5).
O valor de 0,158 é a probabilidade em um distribuição
N(20,5) de aparecimento de valores menores que 15.
Bioestatística34
O valor de probabilidade da ordem de 0,185 é a
probabilidade do valor da variável estar entre 15 e 18.
O comando acima significa que um valor menor que
29,79 tem probabilidade de 0,975 de ocorrer. Logo um
valor maior do que 29,79 possui 0,025 de probabilidade de
ocorrência. Adicionalmente, podemos simular valores de
uma distribuição normal conforme a figura abaixo. Abaixo
declaramos 4 variáveis (x1, x2, x3 e x4) e teclar “enter”,
com média (μ) = 100 e desvio padrão (σ) = 8, para gerar
quatro subconjuntos de 10, 100, 1.000 e 10.000 elementos
amostrais.
Bioestatística 35
Figura 14: Simulação de subconjuntos amostrais e histogramas de frequência.
Fonte: Autor.
Bioestatística36
Observe na figura 14, que na medida em que a
amostra vai aumentando, os histogramas progressivamente
apresentam um comportamento mais semelhante à curva
normal apresentada, ou seja, o formato da distribuição de
frequência acumuladas assemelha-se gradualmente a um
formato de “sino”.
Suponha que a altura em posição sentada de
motoristas tem que ser considerada no projeto de um novo
modelo de automóvel. Os homens têm alturas em posição
sentada que são normalmente distribuídas, com média
de 36 polegadas e desvio padrão de 1,4 polegadas. Os
engenheiros forneceram projetos que podem acomodar
homens com alturas em posição sentada de até 38,8
polegadas, mas homens mais altos não podem ser
acomodados. Se selecionarmos um homem aleatoriamente,
qual a probabilidade de que sua altura em posição seja
menor que 38,8 polegadas? O projeto é possível de ser
realizado?
Com este comando, a probabilidade de ocorrência de
um valor de altura sentado menor que 38,8 é de 0,9772.
Para calcular a probabilidade de ocorrer um valor maior
que 38,8, basta subtrair 1 do valor de probabilidade obtido
acima e executar o seguinte comando e teclar “enter”:
Em síntese, a execução desse projeto causará à
empresa uma perda de aproximadamente 2,28% dos
clientes do sexo masculino. Neste caso, a empresa deve
Bioestatística 37
decidir se essa perda é aceitável para o projeto. É importante
a familiarização com a distribuição normal reduzida, dessa
forma vamos resolver o problema acima transformando os
38,8 em escore “z” e inferir através da distribuição normal
reduzida. Então temos:
Como era esperado, temos que o valor de probabilidade
o valor obtido é o mesmo após a padronização. Após
observar uma amostra de dados de uma determinada
variável, podemos pensar assim, respeitando os rigores da
amostragem pode-se supor uma distribuição que melhor
se adequa aos dados. Obtendo-se a distribuição, pode-se
inferir sobre a variável.
Após a análise descritiva dos dados, aprendida na
unidade anterior, faz se necessário a execução de alguns
testes estatísticos para testar duas hipóteses de interesse.
Para isso existem dois grandes grupos de testes clássicos
de hipóteses: (1) paramétricos; e (2) não – paramétricos. Os
paramétricos exigem o conhecimento da distribuição de
probabilidade que os dados possuem.
Porém, nesta unidade, o que irá separar os métodos
paramétricos dos não – paramétricos é a suposição de
normalidade dos dados, ou o pequeno número amostral,
dessa forma é necessário testar a normalidade das variáveis
de interesse. Sendo assim, é de suma importância conhecer
algum teste estatístico capaz de inferir se a distribuição de
probabilidade das variáveis a serem analisadas é normal.
𝑃 𝑋 > 38,8 = 𝑃 𝑋 >
38,8 − 36
1,4 = 𝑃 𝑍 > 2
Bioestatística38
A mais simples verificação de normalidade é através do
“quantile – quantile plot” (abaixo). Abaixo, será apresentado
o gráfico para que possamos verificar a suposição de
normalidade:
Figura 15: Suposição de normalidade: “Quantile – quantile plot”.
Fonte: Autor.
Bioestatística 39
Se amostra é normalmente distribuída, os pontos
devem estar próximos da linha reta. Os desvios de
normalidade aparecem como vários tipos de não-
linearidade. As funções (comandos) utilizadas para isso
são “qqnorm” e “qqline” (quantil-quantil). Basicamente,
os quantis são separatrizes que dividem o intervalo de
frequência de uma determinada amostra ou população.
Ao observar a figura 15, a variável peso criada
parece normalmente distribuída. Mas como existem
alguns pontos que estão distantes da linha reta produzida
é importante realizar algum teste de hipótese. Nesta
unidade empregaremos o tradicional teste de hipótese
para normalidade de “Shapiro-Wilk”. Para isso emprega-se
o comando “shapiro.test()”, digite este comando e dentro
dos parêntesis o nome da variável teclando “enter”:
As hipóteses do teste de Shapiro são:
H0: A variável peso possui uma distribuição normal;
H1: A variável peso não possui uma distribuição normal;
O valor de probabilidade (“p-value”) é a probabilidade
de rejeitar H0 sendo ela verdadeira. Dessa forma o valor de
probabilidade está nos informando que se rejeitarmos H0 a
probabilidade de estarmos errados é de 0,9772. Na maioria
das ciências o nível de significância, a ser abordado na
unidade 3, é de 0,05, ou seja, para valores maiores que 0,05
NÃO rejeitamos H0. Portanto, como o valor de probabilidade
obtido é maior que 0,05 não rejeitamos H0 e concluímos
que a variável peso segue uma distribuição normal.
Bioestatística40
Aprendendo a utilizar a tabela “z”
Para calcularmos os valores de probabilidade
corretamente e sem o concurso da operação de integração
conforme já destacado, utilizamosa tabela de áreas sob a
curva normal de uma variável padronizada “z”, caracterizada
pela média (μ) = 0 e desvio padrão (σ) = 1.
Esta tabela apresenta áreas compreendidas calculadas
previamente entre o ponto central da distribuição, média 0,
e qualquer valor de “z”. A primeira coluna contém valores
inteiros e decimais da variável “z” e cada coluna seguinte, o
seu valor centesimal.
A normal reduzida é tabelada e assim pode se inferir
sobre a probabilidade sem uso de computadores. O escore
padronizado (“z”) é o número de desvios padrões acima ou
abaixo da média que se situa um determinado valor. Veja a
tabela a seguir.
Bioestatística 41
Tabela 01: Curva normal reduzida (padronizada).
Fonte:http://www.datalyzer.com.br/site/suporte/administrador/info/arquivos/
info73/73.html
A tabela acima apresenta somente metade da área
da curva normal padronizada, para determinarmos o valor
de probabilidade correspondente entre o valor de z = 0 e
o valor de z=1,96, basta localizar valor inteiro e decimal de
“z” na primeira coluna (1,9) e o respectivo valor centesimal
(0,06), no interior da tabela o valor encontrado que cruza a
projeção entre a linha e a coluna localizadas, corresponde
ao valor de probabilidade (P=0,4750). Considerando a
Bioestatística42
simetria entre os dois lados da curva de distribuição normal,
a diferença entre o valor da área da metade da curva (P=0,5)
e o valor obtido acima é igual a 0,025. Temos então que a
probabilidade de encontrarmos um valor acima de +1,96 é
de 0,025 [P(Z>1,96) = 0,025].
Para encontrar o valor da variável padronizada “z”,
basta realizar o procedimento inverso. A partir do valor de
probabilidade na porção interna da tabela encontra-se os
valores da variável “z”. Por exemplo, para o valor de 0,4418,
encontramos os valores de 1,5 e 0,07, logo, z=1,57. Mas, e os
valores de correspondentes à outra porção da curva normal
padronizada? Os valores de probabilidade são exatamente
iguais para os valores negativos, à esquerda, da variável “z”.
Podemos observar que na distribuição da variável
padronizada “z”, que para um determinado intervalo de
respostas típicas de 95%, os valores limites correspondem
a -1,96 (à esquerda) e +1,96 (à direita). Pois, se a área de
z=0 a z=+1,96 é de 0,4750, e de z=0 a z=-1,96 também será
de 0,4750, uma vez que as duas metades da curva normal
padronizada são simétricas e sua área total é igual a 1.
A partir destes valores é possível tipificar respostas
individuais conhecendo os valores de média e desvio padrão
para determinada variável resposta a partir da equação do
escore “z” padronizado apresentada previamente. Porém,
esta temática será melhor abordada com exemplos práticos
na próxima subseção.
Bioestatística 43
Aprendendo a tipificar respostas
individuais
Nesta subseção, trabalharemos com mais exemplos
práticos para suplantar os conhecimentos teóricos obtidos.
A determinação da área central de 95% sob a curva normal
pode ser resolvida, conforme destacamos anteriormente,
pelo procedimento de integração. Para tal necessitaríamos
de definir a função matemática sob a qual se deseja calcular
a área compreendida entre duas coordenadas quaisquer,
proposta por Gauss, integrar esta função entre essas duas
coordenadas: o valor obtido será a área percentual em
relação a área percentual em relação a área total sob toda
a função de -∞ a +∞, que corresponderia a 100%.
Para um exemplo específico na agropecuária do peso
ao abate de suínos (média de 90 kg e desvio padrão 12kg),
se o valor de X1 for a média (90 kg) e o de X2 = 100 kg, a
área relativa calculada pela integração corresponderia ao
percentual da população ali contida. Para que X1 = 100 kg
fosse o limite superior do intervalo de respostas individuais
típicas, a área calculada deveria ser de 0,4750 (47,5%)
porque a outra porção estaria simetricamente do outro lado
da média, na verdade forneceria um percentual de 29,67%.
Quando nossa variável for diferente de “z”, como
identificar o intervalo de respostas típicas do peso de
abate de suínos, com os valores de média e desvio padrão
reportados? A relação 𝑧 =
𝑥𝑖 − 𝜇
𝑠 transforma qualquer
variável biológica normalmente distribuída em distribuição
padrão “z”. Como os valores de “z” que limitam o grupo
de respostas típicas (95% da população) são -1,96 e 1,96,
a relação para cálculo dos escores “z” nos fornecerá os
mesmos limites para qualquer variável normal, ou seja:
Bioestatística44
Onde 𝑥1 = 𝜇 − 1.96𝑠 será a menor resposta típica
e 𝑥2 = 𝜇 + 1.96𝑠 será a maior resposta típica. O intervalo
de 𝑥1 e 𝑥2 é denominado de intervalo de respostas
típicas individuais, ou ainda, o intervalo de confiança que
corresponde a 95% das observações dispersas em torno da
média. Logo, o peso de abate de suínos será:
Adicionalmente, considerando que 300 animais foram
empregados para descrever a variável peso ao abate,
95% deles (285), estarão probabilisticamente no intervalo
definido. O domínio do cálculo de probabilidade envolvendo
a curva normal fundamenta a teoria estatística que permitirá
a comparação de grupos experimentais, tema de nossa
próxima unidade. A distribuição “z” entretanto possibilita
algumas aplicações práticas onde a resposta individual é
o alvo do usuário. Vejamos duas situações práticas abaixo.
±1.96 =
𝑥𝑖 − 𝜇
𝑠 = 𝑥𝑖 = 𝜇 ± 1.96𝑠 𝑖 = 1,2 …
𝑥1 = 90 ± 1.96 12 = 66,5𝑘𝑔 𝑎 113𝑘𝑔
Bioestatística 45
TESTANDO:
Consideremos uma granja de aves caracterizada
por uma produção média diária de 3000 ovos
pesando em média 55 gramas e com desvio padrão
de 12 gramas, vende seus produtos segundo
os respectivos pesos. Uma panificadora deseja
reservar diariamente 30 duzias de ovos industriais
(com peso inferior a 38 gramas), por serem mais
baratos, para a fabricação de pães e bolos. Será
que a granja poderá atender este pedido?
Se x = 38 gramas então seu valor
correspondente em uma distribuição de “z” será
𝑧 = 38−55
12
= −1,412 ≈ −1,42.
Na tabela “z” (tabela 1), a área entre -1,42 e 0 é
de 0,422. Porém, a área de interesse de ovos
industriais mais leves que 38 gramas, corresponde
à área inferior à z=-1,42. Portanto, a probabilidade
de encontrar ovos mais leves que 38g na granja
será a diferença entre o valor de probabilidade
da metade da curva normal (0,5) e o valor de “z”
Z = -1,42
Bioestatística46
obtido. Em outras palavras: P(X≤38g) = 0,50 – 0,422
= 0,0778 ou 7,78% dos ovos.
Uma vez que a granja produz 3000 ovos por dia,
multiplicando 3000 vezes o valor de probabilidade
de 0,0778, temos que 233,4 ovos serão de
natureza industrial, ou seja, abaixo de 38 gramas.
Neste sentido a granja não poderá fornecer o
montante pedido de 300 ovos comerciais. Logo, a
panificadora deverá encontrar mais fornecedores
ou outro fornecedor para atender sua demanda.
Bioestatística 47
TESTANDO:
Vamos considerar ainda o exemplo do abatedouro
de suínos. Caso este abatedouro se interessar por
animais com peso mínimo de 90kg [P(X≥90kg)],
qual a porcentagem de animais que estará apta
para o abate quando a média do lote for de 95kg e
o desvio padrão de 15kg?
A área correspondente ao intervalo de “z” de -0,33
a 0 (ou de 90 a 95kg na distribuição original) é de
0,1293. Logo a probabilidade de encontrar animais
com no mínimo 90kg naquele grupo é de 0,1293 +
0,5 = 0,6293 ou 62,93%.
Z = -0,33
𝑧 =
90 − 95
15 = −0,333
Bioestatística48
Na experimentação em bioestatística, a utilização de
desempenhos individuais será muito restrita. Os ensaios
em sua maioria desejarão comparar médias de tratamentos
e não tipificar possíveis respostas individuais. Assim
sendo, nosso interesse passa a ser não como a maioria
dos indivíduos podem responder a um tratamento, mas
como a média de n indivíduos tratados igualmente pode
variar de experimento para experimento. Isso significa que
estaremos procurando um intervalo que englobe 95% de
todas as médias possíveis de serem encontradas quandoutilizarmos n indivíduos sob um mesmo tratamento. Este
será o intervalo de confiança da média, a ser estudado na
próxima unidade.
Nesta unidade você teve acesso a conceitos sobre
a distribuição normal de probabilidade, uso da tabela “z”,
como tipificar de respostas individuais e deu os primeiros
passos na utilização do software “R”, revise seus conceitos
e explore novas bibliografias! Agora é com você!
Bioestatística 49
BIBLIOGRAFIA
CRAWLEY, M.J. The R book. San Francisco: John Wiley
& Sons. 942p.
TRIOLA, M. F. Introdução à Estatística. 10. ed. Rio de
Janeiro: LTC, 2011. 836p.
SHAHBABA, B. Biostatistics with R. New York: Springer,
2012. 352p.
SIQUEIRA, A. L.; TIBÚRCIO, J. D. Estatística na Área
da Saúde: conceitos, metodologia, aplicações e prática
computacional. Belo Horizonte: Coopmed, 2011. 520p.
PAGANO, M.; GAUVREAU, K. Princípios de Bioestatística.
2. ed. São Paulo: Pioneira Thompson Learning, 2004. 522p.
ZAR, J.H. Biostatistical analysis. New Jersey: Prentice-
Hall.1984. 718p.

bioestatistica-2

Biológicas / Saúde

Ferramentas de estudo

Conteúdos escolhidos para você

Introdução a Data Science Algoritmos de Machine Learning e Métodos de Análise by Tatiana Escovedo Adriano Koshiyama (z-lib

livro Bussab e Morettin - 2021 - Estatística básica

Bioestatística: Conceitos e Aplicações

Métodos Quantitativos

UNIDADE 2 - Estatística Básica - Descritiva (Com exercícios)

Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

Questão 10/10 - ENSINO DE ESTATÍSTICA E TRATAMENTO DA INFORMAÇÃO NA EDUCAÇÃO BÁSICA Ler em voz alta Considere o excerto de texto a seguir: “As medidas

3) Os conceitos matemáticos têm vasta aplicação, dado que são capazes de descrever numérico ou algebricamente muitas situações do cotidiano. As div...

Exercícios 4. As sete ferramentas estatísticas fazem parte de um grupo de métodos estatísticos elementares que devem ser de conhecimento de todas as p

Na última Unidade do material da disciplina, trabalhamos exemplos práticos de Controle Estatístico de Processo (CEP) aplicados à realidade das orga...

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Conteúdos escolhidos para você

Introdução a Data Science Algoritmos de Machine Learning e Métodos de Análise by Tatiana Escovedo Adriano Koshiyama (z-lib

livro Bussab e Morettin - 2021 - Estatística básica

Bioestatística: Conceitos e Aplicações

Métodos Quantitativos

UNIDADE 2 - Estatística Básica - Descritiva (Com exercícios)

Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

Questão 10/10 - ENSINO DE ESTATÍSTICA E TRATAMENTO DA INFORMAÇÃO NA EDUCAÇÃO BÁSICA Ler em voz alta Considere o excerto de texto a seguir: “As medidas

3) Os conceitos matemáticos têm vasta aplicação, dado que são capazes de descrever numérico ou algebricamente muitas situações do cotidiano. As div...

Exercícios 4. As sete ferramentas estatísticas fazem parte de um grupo de métodos estatísticos elementares que devem ser de conhecimento de todas as p

Na última Unidade do material da disciplina, trabalhamos exemplos práticos de Controle Estatístico de Processo (CEP) aplicados à realidade das orga...

Mais conteúdos dessa disciplina