bioestatistica-1

•

UNIC

Claudia Dalvana

07/01/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioestatística I

12.925 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Leandro Vinhas de Paula
Bioestatística
Unidade 1
Conceitos básicos
e análise
exploratória
de dados
Livro didático
digital
Diretor Executivo
DAVID LIRA STEPHEN BARROS
Diretora Editorial
ANDRÉA CÉSAR PEDROSA
Projeto Gráfico
MANUELA CÉSAR ARRUDA
Autor
LEANDRO VINHAS DE PAULA
Desenvolvedor
CAIO BENTO GOMES DOS SANTOS
Olá! Meu nome é Leandro Vinhas de Paula, sou bacharel
e licenciado em Educação Física (Faculdade de Educação
Física e Fisioterapia – Universidade Federal de Uberlândia),
mestre em Ciências do Esporte (Escola de Educação Física,
Fisioterapia e Terapia Ocupacional – Universidade Federal de
Minas Gerais – EEFFTO/UFMG) e especialista em Estatística
Aplicada (Departamento de Estatística – Instituto de Ciências
Exatas – ICEX/UFMG) com uma experiência técnico-profissional
na área de educação física e esportes por mais de 10 anos em
atividades de ensino, pesquisa e extensão na Universidade
Federal de Ouro Preto e no meio privado. Atualmente sou
doutorando na área de Biomecânica (EEFFTO - UFMG). Por isso
fui convidado pela Editora Telesapiens a integrar seu elenco de
autores independentes. Estou muito feliz em poder ajudar você
nesta fase de muito estudo e trabalho. Conte comigo!
Autor
LEANDRO VINHAS DE PAULA
INTRODUÇÃO:
para o início do
desenvolvimen-
to de uma nova
competência;
DEFINIÇÃO:
houver necessidade
de se apresentar
um novo conceito;
NOTA:
quando forem
necessários obser-
vações ou comple-
mentações para o
seu conhecimento;
IMPORTANTE:
as observações
escritas tiveram
que ser prioriza-
das para você;
EXPLICANDO
MELHOR:
algo precisa ser
melhor explicado
ou detalhado;
VOCÊ SABIA?
curiosidades e
indagações lúdicas
sobre o tema em
estudo, se forem
necessárias;
SAIBA MAIS:
textos, referências
bibliográficas e
links para aprofun-
damento do seu
conhecimento;
REFLITA:
se houver a neces-
sidade de chamar a
atenção sobre algo
a ser refletido ou
discutido sobre;
ACESSE:
se for preciso aces-
sar um ou mais sites
para fazer download,
assistir vídeos, ler
textos, ouvir podcast;
RESUMINDO:
quando for preciso
se fazer um resumo
acumulativo das
últimas abordagens;
ATIVIDADES:
quando alguma ativi-
dade de autoapren-
dizagem for aplicada;
TESTANDO:
quando o desen-
volvimento de uma
competência for
concluído e questões
forem explicadas;
Iconográficos
Olá. Meu nome é Manuela César de Arruda. Sou a responsável pelo pro-
jeto gráfico de seu material. Esses ícones irão aparecer em sua trilha de
aprendizagem toda vez que:
SUMÁRIO
Introdução......................................................................................10
Competências................................................................................11
Definindo conceitos básicos.....................................................12
Tipos de estudos...............................................................................................12
Amostragem.........................................................................................................14
Variáveis...................................................................................................................17
Aprendendo a estimar parâmetros populacionais e
amostrais descrevendo dados................................................20
Medidas de tendência central................................................................20
Média aritmética e ponderada................................................21
Mediana....................................................................................................22
Moda.........................................................................................................23
Medidas de dispersão: absoluta e relativa ....................................24
Amplitude...............................................................................................24
Desvio médio.......................................................................................25
Variância..................................................................................................25
Desvio padrão.....................................................................................27
Coeficiente de variação...............................................................27
Medição separatrizes.....................................................................................28
Construindo tabelas e gráficos no pacote microsoft
excel®..............................................................................................31
Aplicando conceitos em um banco de dados no pacote
microsoft excel®..........................................................................51
Bibliografia.....................................................................................54
Bioestatística 9
UNIDADE
01
CONCEITOS BÁSICOS E ANÁLISE EXPLORATÓRIA DE DADOS
Bioestatística10
Você sabia que a área estatística foi considerada a
melhor carreira do ano 2017 nos Estados Unidos e a segunda
carreira com maior rentabilidade no Brasil no mesmo
período? Apesar de pouco difundida, a estatística pode
ser definida como uma ciência que está interessada nos
métodos científicos para coleta, organização, sumarização,
apresentação de dados e análise de dados, bem como a
obtenção de conclusões válidas e na tomada de decisões
razoáveis baseadas em tais análises em diversas áreas
como a política, economia, marketing, negócios, esportes,
ciências da saúde, etc. A sub-área de Bioestatística se ocupa
dos métodos estatísticos para investigação quantitativa de
problemas nas áreas de saúde. Está preparado para se
inteirar um pouco mais desta área fascinante? Ao longo
desta unidade letiva você irá mergulhar um pouco neste
universo!
INTRODUÇÃO
Bioestatística 11
Olá. Seja muito bem-vindo à Unidade 1. Nosso
objetivo é auxiliar você no desenvolvimento das seguintes
competências profissionais até o término desta etapa de
estudos:
1. Definindo conceitos básicos
2. Aprendendo a estimar parâmetros populacionais e
amostrais descrevendo dados
3. Construindo tabelas e gráficos
4. Aplicando conceitos em um banco de dados no
pacote Excel®
Vamos começar? Está preparado? Então vamos ao
trabalho!
COMPETÊNCIAS
Bioestatística12
Definindo conceitos básicos
Objetivo: Ao término deste capítulo espera-se que
você domine conceito e aplique os métodos para exploração
e apresentação de dados. Isto será de suma importância
para o exercício de sua profissão. E então? Motivado para
desenvolver esta competência? Sigamos adiante!
A importância da estatística tem sido reportada em
diversas áreas como nas ciências da saúde. A estatística é
uma ciência que está interessada nos métodos científicos
para coleta, organização, sumarização, apresentação,
análise de dados, obtenção de conclusões válidas e tomada
de decisões razoáveis baseadas em tais análises. Em todas
as áreas surgem questionamentos, tais como a evolução
do salário mínimo real, consumo de energia per capita, a
eficácia de um novo medicamento em relação a um pré-
existente em diferentes grupos de indivíduos, testagem
da efetividade de um novo método de treinamento, quais
doenças decorrentes do consumo de bebidas alcoólicas,
entre outros. Na subseção seguinte são relatados alguns
tipos de estudos e particularmente aqueles onde é
imprescindível o emprego da bioestatística para solução
ou estudo de tais problemas.
Tipos de estudos
Para solução de problemas em bioestatística os
profissionais envolvidos devem seguir alguns passos
preconizados pelo método científicos, como observação,
descrição minuciosa de fenômenos e problemas, elaboração
e testagem de hipóteses. O propósito de exploração
dos dados proposto nesta unidade é fundamental para
cumprir as etapas de observação e descrição minuciosa de
fenômenos e problemas.
Bioestatística 13
Para suplantar estas etapas, os profissionais devem
pesquisar bibliografias a respeito do tema e procurarresultados prévios bem como informações relevantes
para entender o problema traçado. Neste sentido, para
solucionar e/ou entender melhor estes problemas, as
etapas de planejamento e execução de pesquisas de
descrição, explicação, predição e/ou controle de dados
observados devem ser respeitadas. De forma indissociável,
o tratamento estatístico é dependente do planejamento
experimental adotado e coleta de dados realizada.
De forma geral, os estudos podem ser classificados
como:
(1) Estudos retrospectivos, onde são utilizados estudos
históricos;
(2) Estudos de observação, onde o profissional observa
processos ou população e extrai grandezas de interesse
para solução do problema;
(3) Estudos experimentais, em que profissional
responsável faz avaliações deliberadas ou propositais sobre
as variáveis controláveis do sistema ou de um processo,
geralmente precedido por um estudo – piloto;
(4) Estudo de caso, necessariamente realizados na
área de saúde, definidos por uma cuidadosa e minuciosa
descrição, por um ou mais profissionais, do diagnóstico
e evolução de uma doença de um reduzido número de
indivíduos.
(5) Estudos comparativos de coorte, nestes estudos
compara-se um grupo exposto a um determinado
tratamento em estudo com outro sem exposição ao
tratamento (controle);
(6) Estudo comparativos de caso-controle, onde
compara-se um grupo de doentes ou que apresentam o
desfecho pesquisado (os casos) e um grupo de pessoas
sem a doença estudada ou sem o desfecho pesquisado
(os controles).
Bioestatística14
EXPLICANDO MELHOR:
A taxonomia de classificação de tipos de estudos
oscila dependendo da referência das referencias
adotadas, então atenha-se as referências que
melhor ajudam a visualizar as situações problemas
traçadas por você!
EXPLICANDO MELHOR:
Em outras palavras, a população e um conjunto
ou coleção de dados que descreve algum
fenômeno de nosso interesse (“N” é o número de
observações da população). Amostragem é usada
intuitivamente em nosso cotidiano. A amostra
é uma parte representativa da população (“n”
é o número de observações de uma amostra).
Abaixo os conceitos de população e amostra são
expressos matematicamente:
𝑋𝑁 = 𝑋1,𝑋2 ,𝑋3,…𝑋𝑁
𝑥𝑛 = 𝑥1,𝑥2 , 𝑥3, … 𝑥𝑛
Amostragem
Em linhas gerais, uma população pode ser definida
como um conjunto total de objetos ou indivíduos de interesse
em estudo. Por outro lado, o processo de amostragem de
extração de uma amostra a partir de uma população – alvo,
neste sentido uma amostra é um subconjunto de uma
população.
Bioestatística 15
Em pesquisas científicas, em que se quer conhecer
algumas características de uma população, é muito comum
se observar apenas uma amostra de seus elementos
e, a partir dos resultados dessa amostra, obter valores
aproximados para as características populacionais. No
levantamento por amostragem, a seleção dos elementos
que serão efetivamente observados deve ser feita sob uma
metodologia adequada, de tal forma que os resultados das
amostras sejam informativos para avaliar características de
toda a população.
Reflita: Por que amostrar?
Economia: torna-se bem mais econômico o
levantamento de somente uma parte da população;
Tempo: em pesquisa pode não haver tempo suficiente
para pesquisar toda a população, mesmo de posse de
recursos financeiros;
Confiabilidade dos dados: um número reduzido de
elementos, dar-se-á mais atenção aos casos individuais,
evitando erros nas respostas obtidas;
Operacionalidade: operações de pequena escala
são mais fáceis de produzir, como exemplo, um dos
problemas típicos nos grandes censos é o controle dos
entrevistadores.
Nesse sentido, basicamente, as técnicas de
amostragem simples podem ser classificadas como não
– probabilísticas e probabilísticas. Na amostragem não-
probabilística, são selecionadas as unidades amostras que
consideramos ser típicas ou representativas, são os estudos
de casos tão comuns em diversas áreas de atividade,
como nas ciências da saúde. Neste tipo de amostragem,
a amostra obtida é não representativa da população. Os
dados não se prestam a tratamento estatístico que leva a
inferências sobre a população. Os resultados são válidos
apenas dentro dos limites da própria amostra.
Bioestatística16
Por outro lado, na amostragem probabilística ou
aleatória, caracteriza-se pela aleatoriedade na seleção das
unidades amostrais. Neste tipo de amostragem a amostra
obtida deve ser representativa da população. Os dados
devem se prestar ao tratamento estatístico. Os resultados
obtidos para a amostra podem ser estendidos para a
população com grau de confiança determinado.
Porém, existem situações em que o uso de
amostragem deve ser melhor avaliado como no caso
de uma população reduzida (Ex.: indivíduos experts em
determinado domínio musical, cientistas experts, etc.). A
amostragem não é necessária se a população for reduzida
para termos uma amostra capaz de gerar resultados
precisos. Além disso, quando as características – alvo são
de fácil mensuração onde talvez a população não seja tão
pequena, mas a variável que se quer observar é de tão fácil
mensuração, talvez não compense investir em um plano
de amostragem.
A amostragem aleatória pode ser subdividida
em amostragem aleatória simples (AAS), amostragem
sistemática (AS), amostragem aleatória estratificada (AAE)
e amostragem estratificada proporcional (AEP).
A AAS é do ponto de vista conceitual e computacional,
o método mais direto de se amostrar uma população. Para
a seleção de uma amostra aleatória simples precisamos ter
uma lista completa dos elementos da população. Este tipo
de amostragem consiste em selecionar a amostra através
de um sorteio aleatório, sem restrições. Na amostragem
aleatória simples cada elemento da população tem a
mesma probabilidade de pertencer à amostra.
Na amostragem sistemática, se queremos extrair
uma amostra de “n” elementos, dentre uma população
de “N” elementos, podemos extrair, sistematicamente,
um elemento a cada grupo definido por um intervalo de
amplitude (N/n). Uma amostra sistemática poderá ser
Bioestatística 17
tratada como uma amostra simples se os elementos
da população estiverem ordenados aleatoriamente.
Adicionalmente, a amostragem aleatória estratificada (AAE)
consiste em dividir a população em subgrupos (estratos).
Estes estratos devem ser internamente mais homogêneos
do que a população, com respeito às variáveis em estudo.
Para os diversos estratos da população, são realizadas
seleções aleatórias, de forma independente entre as
seleções. Por fim, a amostra completa é obtida através
da agregação das amostras de cada estrato. Obviamente,
neste contexto um prévio conhecimento sobre a população
em estudo é fundamental.
Por fim, no caso particular da AEP, a proporção do
tamanho de cada estrato da população é mantida. Caso um
estrato amostral corresponda a 10% da população, o estrato
também deve corresponder a 10% da amostra. Porém, esta
relação entre amostra e população é eventualmente muito
difícil de ser estabelecida. Porém, uma vantagem da AEP,
reside na garantia de que cada elemento da população
tem a mesma probabilidade de ocorrência na amostra.
Variáveis
O conceito de variável consiste em um valor ou
qualidade que pode variar de objeto para objeto ou de um
indivíduo para outro, de um instante a outro.
Exemplificando: A estatura é uma variável pois seus
valores podem oscilar de uma pessoa a outra (Ex.: 1.85m), ou
o número de acidentes em uma estrada é uma variável (Ex.:
135 acidentes). Os nomes das variáveis são freqüentemente
abreviadas por uma letra (Ex.: “QI” que representa Quociente
de inteligência).
As variáveis são classificadas como qualitativas,
quando se usa a escala nominal ou ordinal para medição
ou contar as características ou grandezas que estamos
Bioestatística18
interessados em estudar. Basicamente, a variável é
nominal ou categórica quando se é usada a escala nominal
para medir seus valores.Uma variável pode ser classificada
como nominal se ela é composta por nomes simples ou
categorias (Ex.: masculino ou feminino) e as categorias ou
nomes não tem ordem. A variável é ordinal, se é usada a
escala ordinal para medir seus valores. A variável é ordinal
se ela é composta de categorias que tem ordenamento
natural (Ex.: Satisfeito, Insatisfeito; Estagio I, Estagio II,
Estagio III).
Exemplificando: Variáveis ordinais podem tomar os
seguintes valores:
Não-numéricos: por exemplo variável com valores
resultantes de “níveis de satisfação”: ( ) a favor, ( ) contra;
Numéricos: quando usamos escalas numéricas, as
escalas da razão, tais como a escala likert, que são usadas
na área de Ciências da Saúde:
( ) 1 – Discordo totalmente, ( ) 2 – Discordo parcialmente,
( ) 3 - Indiferente, ( ) 4 – Concordo parcialmente, ( ) 5 –
Concordo totalmente.
Variável qualitativa ordinal: se tem por exemplo
quando se mede a perspectiva de funcionários no início e
final de um treinamento (01 – Nenhuma; 10 – A melhor): (01)
(02)(03)(04)(05)(06)(07)(08)(09)(10)
Por outro lado, as variáveis quantitativas referem-se
a quantidades medidas em escala numérica. As variáveis
quantitativas são discretas, quando assumem valores
inteiros ou contáveis (Ex.:0,1,2,3...). As variáveis quantitativas
são denominadas contínuas, quando não são contáveis,
isto é, assumindo qualquer valor do conjunto dos números
reais (Ex.: 1,60; 1,72; 1,85; 2,04).
Bioestatística 19
Figura 01: Tipos de variáveis.
VARIÁVEL
QUALITATIVA
Nominal Ordinal Discreta Continua
QUANTITATIVA
Fonte: Autor.
Bioestatística20
Aprendendo a estimar parâmetros
populacionais e amostrais descrevendo
dados
Após uma breve introdução sobre alguns conceitos
básicos em estatística, tais como tipos de estudos,
variáveis, amostragem e população. Estes conceitos são
imprescindíveis para a realização de seus trabalhos e
estudos. Nesta seção serão abordadas medidas tendência
central, dispersão e separatrizes.
Basicamente, as medidas de tendência central são
conceituadas como valores centrais (média, moda e mediana)
aos quais os dados obtidos encontram-se agrupados. Por
outro lado, as medidas de dispersão são necessárias ao
estudo da variação de variáveis de estudo (variância, desvio
médio, desvio padrão, coeficiente de variação). Por fim, como
o próprio nome já reporta, as medidas separatrizes são valores
que separam o conjunto de dados obtidos em partes iguais
(quartis, decis e percentis). Nesse sentido, o objetivo desta
seção é conceituar essas medidas e como entender estas
medidas de forma correta. Os conceitos e medidas que você
verá a seguir serão necessários para resolução de exercícios
e construção de relatórios nas atividades da disciplina.
Medidas de tendência central
As medidas de tendência central ou de posição são
amplamente empregadas para expressar resultados de
experimentos, bases de dados, para resumir variáveis aleatórias.
A determinação das medidas de tendência central tem como
objetivo definir o valor mais provável de uma dada variável. Dessa
forma, a média possui a função de transformar um conjunto de
valores de uma amostra ou população em apenas um valor,
fornecendo uma ideia ou tendência do conjunto de dados.
Bioestatística 21

Média aritmética e ponderada
Basicamente, a média aritmética simples (μ, média
populacional; ẋ, média amostral) pode ser obtida a partir da
relação entre o somatório dos valores de um determinado
conjunto de dados populacionais ou amostrais e o número
de valores deste conjunto de dados (Equação X).
Por outro lado, a média aritmética ponderada
determina o valor médio considerando o peso dos valores
observados. Na média ponderada, a alteração da posição
dos números pode ocasionar resultados errados ao
contrário da média aritmética simples.
TESTANDO:
Em uma turma de judô para crianças, verificou-
se o seguinte conjunto de dados referente à
massa corporal (kg): Massa = (34; 40; 33; 29; 37;
38,5; 30; 32);
Logo, o valor médio é de:
ẋ =
∑ 𝑥𝑖𝑛𝑖
𝑛 =
34 + 40 + 33 + 29 + 37 + 38,5 + 30 + 32
8
ẋ = 34,18 𝑘𝑔
A média de massa corporal da turma de judô é de
34,18 kg.
𝜇 =
∑ 𝑋𝑖𝑁𝑖
𝑁 𝑀é𝑑𝑖𝑎 𝑝𝑜𝑝𝑢𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 ; ẋ =
∑ 𝑥𝑖𝑛𝑖
𝑛 𝑀é𝑑𝑖𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 (𝐸𝑞. 𝑋)
ẋ𝑝 =
∑ 𝑝𝑖 ∗ 𝑥𝑖𝑛𝑖=1
∑ 𝑝𝑖𝑛𝑖=1
Bioestatística22
Nesse caso, a média ponderada de desempenho no
ENADE será de 78,83 pontos.
Mediana
A mediana pode ser conceituada como o valor que
divide o conjunto de dados em partes iguais com o mesmo
número de elementos, constituindo em uma medida de
posição. O valor da mediana situa-se na posição central
do conjunto de dados organizado em ordem crescente de
forma que o número de dados situados antes desse valor
é igual ao número de dados que se encontram após esse
valor. O cálculo da mediana é dependente do número de
observações do conjunto de dados.
Exemplo: Calcular a mediana para conjunto ímpar de
dados (9, 12, 8, 6, 14, 11, 5): Em um primeiro momento, ordena-
se os dados (n=7) de forma crescente (5, 6, 8, 9, 11, 12, 14). Logo,
a mediana será determinada pelo elemento que divide o
conjunto de dados em partes iguais, nesse caso igual a 9.
TESTANDO:
Suponhamos que no exame nacional de
desempenho de estudantes (ENADE) para cômputo
da nota final dos concluintes no ensino superior
sejam avaliadas as seguintes competências com
pesos diferentes: (1) conhecimentos teóricos do
curso; (2) conhecimentos gerais; (3) conhecimentos
práticos. As 3 competências possuem
respectivamente os pesos de 2, 1 e 3. Logo, se
você ao final do curso obtiver as notas de 72, 65 e
88, sua média ponderada será:

ẋ𝑝 =
∑ 𝑝𝑖 ∗ 𝑥𝑖𝑛𝑖=1
∑ 𝑝𝑖𝑛𝑖=1
=
2 ∗ 72 + 1 ∗ 65 + 88 ∗ 3
6 = 78,83
Bioestatística 23
Para o conjunto de dados ímpar a mediana é definida como
o valor da variável que ocupa a posição de ordem
𝑛
2 + 1 . Em
conjunto de dados par, não há valor o central, a mediana
é determinada como a média dos valores que ocupam as
posições de ordem 𝑛
2
e 𝑛 + 1
2
.
TESTANDO:
Calcular a mediana para conjunto par de dados
(9,8,6,12,11,14): Em um primeiro, ordena-se o
conjunto par de dados (n=6) de forma crescente
(6,8,9,11,12,14) e calculam-se a posições:

𝑛
2 = 3 ;
𝑛
2 + 1 = 4
Logo, a mediana será dada pela média entre
os elementos que ocupam respectivamente a
terceira e quarta posições do conjunto de dados:
𝑚𝑒𝑑𝑖𝑎𝑛𝑎 =
9 + 11
2 = 10
.
TESTANDO:
Calcular a moda para as idades dos candidatos à
presidência de um clube desportivo:
idade = (75, 87, 39, 58, 75, 75, 67, 83, 87, 79).
Logo, a Moda = 75 (é frequente por 3 vezes).
Moda
Em síntese, a moda é o valor mais comum no conjunto
de dados de uma determinada variável, ou ainda o valor mais
frequente, denominado valor modal. Logo, um mesmo conjunto
de dados pode apresentar mais de uma moda, ou seja, mais
de um valor frequente, classificado como multimodal.
Bioestatística24
Medidas de dispersão: absoluta e relativa
Após a definição de conceitual das medidas de
tendência central, um aspecto de suma importância para
exploração de dados é o estudo da variação das respostas
obtidas, relativamente às medidas de tendência central da
amostra ou população. A seguir são apresentadas medidas
estatísticas para estudo da variabilidade de respostas em
torno da medida de tendência central principal, a média.
Amplitude
De forma simplificada, a amplitude dos dados
corresponde à diferença entre os valores máximos e
mínimos de uma variável ordenada de forma crescente. A
abaixo a amplitude é apresentada matematicamente, onde
𝑥𝑚𝑖𝑛representa o valor mínimo e o 𝑥𝑚á𝑥 o valor máximo do
conjunto de dados:
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑡𝑜𝑡𝑎𝑙 = 𝑥𝑚á𝑥 − 𝑥𝑚𝑖𝑛
TESTANDO:
A partir de 2 conjuntos de dados x = [3,5,6,12,15] e y
= [60,60,60,60,60], a amplitude dos dados é:
𝐴𝑇𝑋 = 𝑥𝑚á𝑥 − 𝑥𝑚𝑖𝑛 = 15 − 3 = 12
𝐴𝑇𝑌 = 𝑥𝑚á𝑥 − 𝑥𝑚𝑖𝑛 = 60 − 60 = 0
Logo a variável “x” possui amplitude igual a 12 ea
variável “y” possui amplitude igual a 0 (dispersão
nula), ou seja, os valores da variável “y” não variam
entre si.
A utilização isolada da amplitude dos dados como
medida de dispersão é limitada, uma vez que
considera apenas 2 dados extremos. Dessa forma,
quanto maior a amplitude total dos dados, maior a
variação da variável.
Bioestatística 25
Desvio médio
O desvio médio diferentemente da amplitude leva em
consideração o valor médio do conjunto de dados. O desvio
médio pode ser definido como o somatório do módulo das
diferenças dos dados em relação à média, dividido pelo
número total de dados. Abaixo o desvio médio é definido
matematicamente:
𝐷𝑒𝑠𝑣𝑖𝑜 𝑀é𝑑𝑖𝑜 =
∑ 𝑥𝑖 − ẋ��
𝑛
TESTANDO:
Considerando o conjunto de dados da variável x =
(12,8,9,10,7,13), calcule o desvio médio:
𝐷𝑀 =
((12 − 9,83) + (8 − 9,83) + (9 − 9,83) + (10 − 9,83) + (7 − 9,83) + (13 − 9,83))
6
𝐷𝑀 = 1,83
Logo, a dispersão média dos dados é da ordem
de 1,83.
Variância
A variância é uma medida de dispersão que verifica a
distância entre os valores obtidos pela medida de tendência
central amostral ou populacional (média aritmética). Em
suma, a variância pode ser entendida como o somatório
dos desvios elevados ao quadrado, dividido pelo total de
observações no caso da variância populacional, ou dividido
pelo total de observações menos 1 no caso da variância
amostral. Abaixo são definidas as variâncias populacional e
amostral:
Bioestatística26
TESTANDO:
Para melhorar o atendimento semanal, a
administração de um hospital registrou o tempo
médio de atendimento de pacientes junto ao
sistema único de saúde. Os resultados obtidos em
minutos nos setores de especialidades A, B, C e D
para cada dia da semana são destacadas abaixo:
Em suma, os setores A e D possuem maior e menor
tempo de espera semanalmente, respectivamente.
Por outro lado, os setores A e D possuem maior e
menor dispersão em relação à média.

𝑆2 =
∑ 𝑋𝑖 − 𝜇 2��
𝑁 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑝𝑜𝑝𝑢𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝑠2 =
∑ 𝑥𝑖 − ẋ 2��
𝑛 − 1 (𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙)
Setor Seg Ter Qua Qui Sex Sáb Dom
A 52 55 63 76 55 66 77
B 35 42 37 45 41 47 44
C 42 35 44 49 43 45 46
D 27 32 36 35 36 39 31
ẋ𝐴 =
∑ 𝑥𝑖𝑛𝑖
𝑛 = 𝟔𝟑, 𝟒𝟐; ẋ𝐵 = 41,57; ẋ𝐶 = 43,42;
ẋ𝐷 = 𝟑𝟑,𝟕𝟏
𝑠𝐴2 =
∑ 𝑥𝑖 − ẋ 2��
𝑛 − 1 = 𝟏𝟎𝟑, 𝟔𝟏; 𝑠𝐵
2 = 18,61; 𝑠𝐶2 = 18,95;
𝑠𝐷2 = 𝟏𝟓,𝟗𝟎
Bioestatística 27
Desvio padrão
Apesar da variância ser extensivamente estudada,
o desvio padrão é a medida mais usada na testagem de
hipóteses estatísticas entre conjuntos de dados devido à
sua maior precisão. Este parâmetro determina a dispersão
dos valores do conjunto de dados em relação à média,
determinado por meio da extração da raiz quadrada da
variância. Abaixo, a fórmula do desvio padrão amostral é
definida matematicamente:
𝑠 =
∑ 𝑥𝑖 − ẋ 2��
𝑛 − 1
�
Coeficiente de variação
O coeficiente de variação é uma medida dispersão
(instabilidade) relativa de uma variável resposta, permitindo
a comparação de dispersão entre várias diferentes e para a
mesma variável em momentos diferentes. O coeficiente de
variação (CV) é determinado pela relação percentual entre
o desvio padrão e a média, conforme descrito abaixo:
𝐶𝑉% =
𝑠
ẋ ∗ 100
TESTANDO:
Relembrando o exemplo anterior, abaixo são
calculados o desvio padrão do tempo de espera
para os setores hospitalares de A a D.
𝑠𝐴 =
∑ 𝑥𝑖 − ẋ 2��
𝑛 − 1
�
= 10,17; 𝑠𝐵 = 4,31;
𝑠𝐶 = 4,35; 𝑠𝐷 = 3,98
Bioestatística28
Medição separatrizes
Uma outra categoria de medidas para exploração
de dados são as separatrizes. Estas medidas consistem
valores de separação do conjunto de dados em partes
iguais. Para a realização da separação do conjunto de dados
os dados devem ser previamente ordenados de forma
crescente. Além da mediana, as medidas separatrizes mais
empregadas são os quartis, onde o conjunto de dados é
dividido em quatro partes iguais, em que cada quartil são
alocados 25% dos dados; os decis, quando o conjunto de
dados é dividido em dez partes iguais e os percentis onde
o conjunto de dados é dividido em cem partes iguais.
TESTANDO:
Ainda considerando o exemplo anterior, abaixo
é determinado o coeficiente de variação para a
variável tempo de espera em diferentes setores
hospitalares:
𝐶𝑉𝐴% =
𝑠
ẋ ∗ 100 = 16,04%; 𝐶𝑉𝐵% = 10,37% ;
𝐶𝑉𝐴% = 10,02%; 𝐶𝑉𝐴% = 11,82%
A dispersão relativa do desvio padrão em relação
a média oscilou de 10,02% a 16,04% para variável
tempo de espera. Em geral, o CV de 0,1% a 15%
denota uma baixa instabilidade de medida, uma
dispersão de 15,1% a 30% indica uma moderada
instabilidade de medida e, por fim, valores maiores
que 30% indicam uma elevada dispersão relativa
em relação à média.
Bioestatística 29
A partir das medidas separatrizes é construído um
diagrama de caixas (denominado em língua inglesa de
“box-plot”) que tem sido extensivamente empregado
para exploração do conjunto de dados por evidenciar os
principais aspectos da distribuição dos dados. A construção
do diagrama box-plot é realizada por meio do emprego
de cinco números, formados pelo valor mínimo, primeiro
quartil, segundo quartil (mediana), terceiro quartil e valor
máximo. Este tipo gráfico além de denotar características
da distribuição é útil comparação de distribuições de
frequência de dados. Na figura abaixo é exemplificado o
diagrama box-plot para exploração do conjunto de dados.
O diagrama box-plot é representa os dados de forma
resumida, onde as arestas laterais do retângulo representam
o primeiro e o terceiro quartis (Q1 e Q3) e a linha central
dentro do retângulo a mediana ou segundo quartil. Entre
o valor mínimo e Q1, Q1 e Q2, Q2 e Q3 e de Q3 ao valor
máximo são determinados os quartis. Cada um dos quartis
possui 25% dos dados, e, obviamente, entre os limites de Q1
e Q3 situam-se 50% dos dados (intervalo interquartil). Dessa
forma, para representar os 25% restantes dos dados em
cada cauda serão considerados dados atípicos se o valor
do dado for menor que o valor observado de Q1 – 1,5(Q3-
Q1) ou maior que o valor observado de Q3 + 1,5(Q3-Q1).
Adicionalmente, os dados são classificados como valores
discrepantes ou “outliers”, caso o valor do dado for menor
que o valor observado de Q1 – 3(Q3-Q1) ou maior que o
valor observado de Q3 + 3(Q3-Q1). Por fim, para representar
o domínio de variação dos dados que não são discrepantes
é traçado a partir do primeiro quartil uma linha para cima
e para trás é traçada até o ponto mais remoto. Abaixo é
exemplificado o diagrama box – plot.
Bioestatística30
Figura 02 Diagrama box – plot.
Fonte: Autor.
Bioestatística 31
Construindo tabelas e gráficos no pacote
Microsoft Excel®
A capacidade de sumarizar os dados em forma de
tabelas (uni e bi-variadas) é fundamental ao método científico
para suplantar a formulação de hipóteses estatísticas.
A distribuição de frequências consiste de uma lista das
categorias ou valores que uma ou mais variáveis apresentam
em conjunto com a quantidade de ocorrências (número) de
cada valor ou categoria. Esta quantidade é denominada de
frequência absoluta e pode ainda ser expressa em forma de
frequência percentual de cada categoria (%). A apresentação
de dados é dependente do tipo de variável estudada.
Basicamente, os gráficos de colunas, barras e linhas
geralmente são empregados para expressar frequências
absolutas, relativas e medidas de tendências central juntamente
com medidas de dispersão. Por outro lado, histogramas e
polígonos de frequências são empregados para expressar a
distribuição de frequências de variáveis discretas e contínuas.
Para sumarizar variáveis nominais o gráfico de setores é
um recurso muito utilizado. Por outro lado, para expressar
simultaneamente medidas de tendência central e frequência
relativa acumulada tem sido empregado o gráfico de pareto.
Deve ser destacado ainda os gráficos em formato de ogiva,
muito usados para expressar processos e empreendimento
a partirda frequência acumulada de determinada variável de
controle. Nós incentivamos a você buscar outros exemplos de
gráficos a ser empregados na sua área de estudo!
Nesta seção trataremos da aplicação dos conceitos
que você aprendeu anteriormente em ambiente Excel® a
partir de um banco de dados conhecido (https://www.ime.
usp.br/~noproest/dados/aeusp.xls) para determinação de
medidas descritivas, tabelas e gráficos. Abaixo são descritas
as variáveis observadas nas colunas do banco de dados na
aba “descrição do arquivo”.
https://www.ime.usp.br/~noproest/dados/aeusp.xls
https://www.ime.usp.br/~noproest/dados/aeusp.xls
Bioestatística32
Tabela 01– Descrição da base de dados (Passo 1).
Dados contidos no arquivo de nome aeusp
As informações referem-se a uma pesquisa realizada pela
Associação dos Educadores da USP (AEUSP), sobre aspectos
sócio-econômicos e culturais de comunidades de baixa renda
da região do Butantã, São Paulo. Sendo um conjunto de dados
reais, poderão aparecer incoerências oriundas de equívocos
na digitação ou na coleta de dados. Nestes casos, adote uma
alternativa que permita contornar a dificuldade encontrada.
coluna 1: Número do questionário (Num).
coluna 2: Comunidade (Comun).
coluna 3: Sexo (Sexo): 1: masculino/2: feminino
coluna 4: Faixas de idade, em anos (Idade):
1: de 14 (inclusive) a 25 (exclusive)
2: de 25 (inclusive) a 35 (exclusive)
3: de 35 (inclusive) a 45 (exclusive)
4: 45 anos ou mais
coluna 5: Estado Civil (Ecivil): 1: solteiro/2: casado/3: divorcia-
do/4: viúvo/5: outro
coluna 6: Região de Procedência (Reproce).
coluna 7: Tempo de residência em São Paulo, em anos (Tem-
posp).
coluna 8: Número de residentes na casa (Resid).
coluna 9: Trabalho (Trab): 1: sim/2: não/3: aposentado
coluna 10: Tipo de trabalho, só para os que responderam tra-
balham (Ttrab):
1: empregado com carteira
2: empregado sem carteira
3: profissional liberal
Bioestatística 33
4: autônomo
5: rural
coluna 11: Idade que começou a trabalhar, em anos (Itrab).
coluna 12: Renda familiar em faixas de reais (Renda):
1: de 0 (inclusive) a 150 (exclusive)
2: de 150 (inclusive) a 300 (exclusive)
3: de 300 (inclusive) a 450 (exclusive)
4: de 450 (inclusive) a 900 (exclusive)
5: de 900 (inclusive) a 1500 (exclusive)
6: 1500 ou mais
coluna 13: Acesso a computador (Acompu): 1: sim/2: não
coluna 14: Série em que parou de estudar (Serief):
em branco: não parou de estudar
1 a 8: séries do ensino fundamental
9 a 12: séries do ensino médio
Fonte: https://www.ime.usp.br/~noproest/dados/aeusp.xls.
A seguir é feita uma breve descrição dos passos a
seguir para construção de uma tabela dinâmicas. Para
construir uma tabela univariada, seleciona-se todas as
cédulas das variáveis incluindo o rótulo, clica-se na aba
“inserir” e janela em “tabela dinâmica”.
https://www.ime.usp.br/~noproest/dados/aeusp.xls
Bioestatística34
Figura 03 – Inserção de tabela dinâmica e seleção de dados (Passo 2).
Fonte: https://www.ime.usp.br/~noproest/dados/aeusp.xls.
Na nova janela “criar tabela dinâmica”, escolhe-se os
dados ou tabela que se deseja analisar e escolhe-se onde
se deseja que o relatório de tabela dinâmica seja colocado
(“Nova Planilha”) e clica-se em “ok”.
Figura 04 – Inserção de tabela dinâmica e seleção de dados (Passo 3).
Fonte: Autor.
https://www.ime.usp.br/~noproest/dados/aeusp.xls
Bioestatística 35
Fonte: Autor.
Na nova planilha observam-se os campos de (1)“Soltar
Campos de Filtros do Relatório aqui”, são os campos onde
a variável vai ser resumida; (2) “Campos da tabela”, estes
campos aparecem no lado direito da planilha, na área
“Escolha os campos para adicionar ao relatório”, aparece o
nome da variável ou variáveis a resumir, no exemplo aparece
o nome da variável Sexo; e (3) “Arraste os campos entre as
áreas abaixo”, onde existem o campo de (a) “Filtros”, onde
se pode especificar algum filtro para se aplicar aos dados;
(b) “colunas”, caso a variável vai ser resumida em coluna;
(c) “linhas”, quando a variável escolhida vai ser resumida
em linha; e (d) “∑ valores”, onde se tem diversos forma de
resumir a variável, aparece o primeiro tipo de cálculo a
resumir que é Soma.
No exemplo anterior, para resumir a variável “Sexo” em
linha e a variável “Resid”; então arrasta-se a variável sexo
ao campo “Linhas” e a variável “Resid” para o campo de
colunas, para que cada categoria da variável seja alocada
em uma linha; e arrastei a variável ao campo “∑ valores”:
observe que na tabela dinâmica se tem a soma de sexo.
Figura 05 – Tabela uni-variada para a variável sexo (Passo 4).
Bioestatística36
Fonte: Autor.
Para mudar o tipo de cálculo a resumir, clicar duas
vezes no campo “Soma de Sexo”, e observe que abre outra
janela de “Configurações do Campo de Valor”, onde temos
diversas maneiras de resumir a variável (inclusive usando
medidas de tendência central), em nosso caso devemos
mudar para “Contagem” e após de clicar “ok”, observe a
mudança na tabela dinâmica:
Figura 06 – Tabela uni-variada para a variável sexo (Passo 5).
A tabela dinâmica obtida pode ser editada, mudando
os rótulos das colunas, nome das categorias, e representar
com um gráfico de coluna, barras ou circular. Para isso,
deve-se selecionar a aba “análise de tabela dinâmica” e
clicar em “gráfico dinâmico”.
Bioestatística 37
Fonte: Autor.
Fonte: Autor.
Figura 07 – Gráfico dinâmico (Passo 6).
Após de selecionar esta janela “Gráfico Dinâmico”
tem-se uma nova janela que mostra todos os gráficos que
podemos selecionar, para este tipo de variável nominal
(“sexo”), podemos selecionar as alternativas de “Colunas”,
“Pizza” ou “Barras”. Após selecionar e clicar em “ok”,
aparecerá o gráfico selecionado, em que pode ser editado
o Título, Legenda e toda a área do gráfico.
Figura 08 – Gráfico de pizza (Passo 7).
Bioestatística38
Para apresentar os dados da variável termos de
frequência relativa (%), na mesma tabela, devemos colocar
o cursor na tabela dinâmica, e arraste a variável sexo
novamente ao campo “∑ valores”, observe que na tabela
dinâmica há uma nova coluna à direita da frequência
absoluta e no campo “∑ valores”, aparece uma nova soma
de sexo (“Soma de Sexo2”). que devemos mudar para
contagem (duplo clique). Para mudar a forma de resumir a
variável, devemos mudar a forma de “Mostrar valores como”
e clicar na linha “Sem cálculo”, observe que há diversas
alternativas de mostrar valores, selecione a alternativa “%
do Total Geral”. 1). Após clicar “ok”, observe a mudança na
tabela dinâmica:
Figura 09 – Gráfico de pizza (Passo 8).
Fonte: Autor.
Bioestatística 39
Fonte: Autor.
Nesta tabela uni-variada, observa se que a maior
proporção de alunos é do sexo feminino (“2”), representado
no gráfico de pizza pela cor vermelha. Adicionalmente
podem ser construídas tabelas bivariadas, imprescindível
no futuro para construção de tabelas de contingência, muito
empregadas na área de ciências da saúde. Após selecionar
as colunas de dados à serem analisados, abre-se a aba
“inserir” e clicar em “tabela dinâmica”. Na nova planilha,
observe que no exemplo resume-se a variável “sexo” em
linha, e arrasta-se a variável “Idade” ao campo “colunas”, e,
por fim, para que cada categoria da variável seja alocada
em uma coluna, a mesma a variável é adicionada ao campo
“∑ valores”, observe que na tabela dinâmica se tem a soma
de sexo. A seguir verifica-se a tabela bivariada para as
variáveis sexo e idade.
Figura 10 – Tabela bivariada (Passo 9).
Bioestatística40
Para mudar o tipo de cálculo a resumir, clicar no campo
Soma, e observe que abre outra janela de “Configurações
do Campo de Valor”, onde temos diversas formas de resumir
a variável, em nosso caso devemos mudar para Contagem.
Após de clicar OK, observe a mudança na tabela dinâmica,
na seguinte figura.
Figura 11 – Tabela bivariada: contagem (Passo 10).
Fonte: Autor.
Após de ser editada a tabela dinâmica, mudando os
rótulos de linha e rótulos de colunas e nome das categorias,observamos que o maior número de entrevistados na faixa
etária de 14 a 25 anos (1) e do sexo feminino (2).
Bioestatística 41
Fonte: Autor.
Figura 12 – Gráfico bivariado: contagem (Passo 11).
Para representar os dados da tabela bivariada em
forma de gráfico, coloca-se o cursor, e clicar na janela
superior “análise de tabela dinâmica”, nas alternativas
abertas selecionar “Gráfico Dinâmico”. Após de selecionar
esta janela “Gráfico Dinâmico”, tem-se uma nova janela que
mostra todos os gráficos que podemos selecionar, para este
tipo de variável nominal, podemos selecionar as seguintes
as alternativas de gráficos de “colunas” ou “barras”, veja a
seguinte figura:
Novamente, após de clicar “ok”, aparece o gráfico
selecionado, pode ser editado no título do gráfico, a legenda
e toda a área do gráfico, a seguir um exemplo do gráfico da
distribuição de entrevistados segundo sexo e faixa etária,
onde se observa que o maior número de entrevistados
são do sexo feminino e da faixa etária maior que 14 anos e
menor que 25.
Bioestatística42
Figura 13 – Gráfico bivariado (Passo 12).
Fonte: Autor.
Fonte: Autor.
Em diversas situações, variáveis podem ser expressas
como tabelas com intervalos de classe, em que cada classe
possui limites superiores e inferiores para classificação da
amostra. O procedimento de determinação dos intervalos
de classe é mostrado para construir uma distribuição de
frequências em intervalos de classe.
Figura 14 Intervalos de classe para a variável “ITRAB” (Passo 13).
Bioestatística 43
Fonte: Autor.
No exemplo acima, uma tabela dinâmica foi
construída com a variável de interesse “Itrab” que aparece
em uma nova planilha. Na tabela dinâmica criada, coloca-
se o cursor em uma das células, e seleciona-se “agrupar”.
Figura 15: Variável ITRAB agrupada em 7 intervalos de classe (Passo 14).
Após de selecionar a janela “Agrupar Seleção” se
abre uma nova janela “Agrupamentos”, onde se observa
os seguintes campos devemos indicar: “Iniciar em”, o limite
inferior do primeiro intervalo de classe; “Finalizar em” o
limite superior do último intervalo de classe e “Por” para a
amplitude do intervalo. No exemplo, para agrupar a variável
“Itrab”, dado que o valor mínimo é 0 e o máximo é 34,
indicamos que agrupamento deve-se iniciar em 0, e terminar
em 35 com uma amplitude de 5 (7 intervalos de classe, veja
acima). Subsequentemente, a apresentação da distribuição
de frequências é apresentada em formato de histograma
e polígono de frequências. No exemplo, posiciona-se os
dados a representar (frequência absoluta incluindo o rótulo)
e em seguida a opção “gráfico dinâmico”. Por fim, define-se
o tipo de gráfico adequado ao tipo de variável.
Bioestatística44
Após fechar a janela temos o histograma da variável,
é possível editá-lo para mudança do título e os rótulos do
eixo horizontal. A seguir é apresentado o procedimento para
construção do histograma e polígono de frequências. Para
editar a entrada de dados, clica-se com o botão direito, dentro
da janela aberta marcando “Selecionar Dados”, e na nova janela
“Selecionar Fonte de Dados”, seleciona-se os seguintes itens:
(a) “Intervalo de dados do gráfico”, as células onde os dados se
encontram; (b) “Alterar entre linha e coluna”, alteração dos dados,
entre linha e coluna; e (c)“Entrada de legenda Série”, se estamos
adicionando outra série de dados, e/ou editar a série de dados
apresentada e/ou remover a série apresentada. É recomendável
que você explore as diferentes opções de edição do gráfico.
Figura 16: Histograma de frequência da variável “ITRAB” (Passo 15).
Fonte: Autor.
Para construir o polígono de frequências no mesmo
histograma, devemos colocar o mouse do lado direito, dentro
da janela aberta marcar “Selecionar Dados”, e na nova janela
“Selecionar Fonte de Dados”, esta nova janela no campo
“Entrada de legenda Série”, adicionar a mesma série de
dados, após de clicar Ok temos duas colunas que representa
a frequência absoluta.
Bioestatística 45
Fonte: Autor.
Figura 17: Edição de histograma de frequência (Passo 16).
Bioestatística46
Podemos construir também um histograma
acompanhado de um polígono de frequências relativas.
Para isso basta selecionar o intervalo de dados e mudar o
tipo de gráfico para linhas na opção gráfico dinâmico, como
mostrado a seguir.
Figura 18: Histrograma e polígono de frequências para a variável “Itrab” (Passo).
Fonte: Autor.
Outra figura que podemos construir são as Ogivas,
que são as representações das frequências relativa
acumuladas. A seguir a tabela com estas frequências
acumuladas e colunas indicando os limites inferiores (LI) e
limites superiores (LS) dos intervalos de classe.
Bioestatística 47
Fonte: Autor.
Figura 19: Histrograma e polígono de frequências para a variável “Itrab”.
Após de selecionar as células da frequência relativa
acumulada abaixo de, abrimos a janela “Ferramentas de
Gráfico”, selecionamos um gráfico de linha, após de editar
o título do gráfico e eixo horizontal com os valores do
limite inferior, temos a Ogiva Abaixo de, como se mostra na
seguinte figura.
Bioestatística48
Figura 20: Distribuição de frequências relativas acumuladas - Ogivas.
Fonte: Autor.
Da mesma forma, selecionando as células da
frequência relativa acumulada Acima de, abrimos a janela
“Ferramentas de Gráfico”, selecionamos um gráfico de linha,
após de editar o título do gráfico e eixo horizontal com os
valores do limite superior, temos a Ogiva Acima de, como
se mostra na seguinte figura.
Bioestatística 49
Fonte: Autor.
Figura 21: Distribuição de frequências relativas acumuladas - Ogivas.
Bioestatística50
Após apresentar as opções de apresentação de dados
na plataforma excel, chegou momento de você treinar
melhor os conceitos trabalhados na Unidade I: explore os
demais tipos de gráficos a partir da base dados trabalhada
nessa seção (https://www.ime.usp.br/~noproest/dados/
aeusp.xls). Agora é com você!
https://www.ime.usp.br/~noproest/dados/aeusp.xls
https://www.ime.usp.br/~noproest/dados/aeusp.xls
Bioestatística 51
Aplicando conceitos em um banco de
dados no pacote Microsoft Excel®
Atualmente, existem vários pacotes estatísticos para
tratamento de dados, gratuitos (“R” Statistical software,
Python) e pagos (SPSS, Minitab, Microsoft Excel). Para
expressar as medidas descritivas será empregado o
software excel abaixo por meio de um procedimento
simples para sumarização das medidas descritivas,
permitindo ao usuário a exploração dos dados. Para isso na
aba de “dados” do excel e clique na ferramenta de análise
de dados. Para isso inicialmente, você terá de habilitar a
ferramenta de “análise de dados” do excel. Após habilitar
esta ferramenta, clique no ícone “análise de dados”.
Figura 22: Icone “Análise de dados” da plataforma excel®.
Fonte: Autor.
Bioestatística52
Após selecionar o ícone, você deverá escolher a opção
de análise de dados de “estatística descritiva”, conforme a
figura abaixo:
Figura 23: Estatística descritiva.
Fonte: Autor.
Fonte: Autor.
Após a seleção da opção de estatística descritiva, você
deverá selecionar o conjunto de dados de entrada (coluna),
nova planilha e resumo estatístico, conforme abaixo.
Figura 24: Seleção de dados da variável de interesse.
Bioestatística 53
Fonte: Autor.
Após selecionar o resumo estatístico, o conjunto de
medidas de tendência central, dispersão e separatrizes.
A partir do resumo estatístico obtido para variável “Tempo
de residência em São Paulo em anos” você poderá melhor
interpretar as variáveis de seu interesse e realizar os exercícios
da unidade I. Você está preparado? Então vamos lá!
Figura 25: Resumo estatístico: medidas descritivas.
Bioestatística54
BIBLIOGRAFIA
TRIOLA, M. F. Introdução à Estatística. 10. ed. Rio de
Janeiro: LTC, 2011. 836p.
SAMPAIO, I.B.M. Estatística aplicada à experimentação
animal. Belo Horizonte: FEPMVZ, 2010. 264p.
SHAHBABA, B. Biostatistics with R. New York: Springer,2012. 352p.
SIQUEIRA, A. L.; TIBÚRCIO, J. D. Estatística na Área
da Saúde: conceitos, metodologia, aplicações e prática
computacional. Belo Horizonte: Coopmed, 2011. 520p.
PAGANO, M.; GAUVREAU, K. Princípios de Bioestatística.
2. ed. São Paulo: Pioneira Thompson Learning, 2004. 522p.
ZAR, J.H. Biostatistical analysis. New Jersey: Prentice-
Hall.1984. 718p.