Aula 2 - Bioestatística

Bioestatística I

•

UFRJ

0

Rafaella Rodrigues

04/02/2016

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioestatística I

12.745 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Aula 2
Representações Grácas de Dados
Objetivo: Compreender a importância de se sintetizar (resumir) a informação
dos dados estatísticos para futuras modelagens probabilísticas e inferenciais.
A Análise Exploratória de Dados, como o próprio termo indica, é uma fase
artesanal de extração de informação de um conjunto quase sempre desordenado e
caótico de dados coletados de um certo estudo. Assim, é preciso muitas vezes intu-
ição sobre como trabalhar convenientemente esses dados a m de que informações
valiosas possam vir à tona.
A primeira tentativa de resumir os dados é feita através de grácos con-
venientemente escolhidos para dar voz à informação. (Aqui cabe ressaltar que, da
mesma forma que todo discurso tem uma intenção do falante por trás do que emite,
também o gráco terá uma intencionalidade que deve ser observada a priori.) A fase
seguinte consiste em se obter medidas-resumo que possam nos auxiliar a caracterizar
a distribuição dos dados e nos preparar para um possível modelo de probabilidade
que se ajuste a esses dados.
1 Tabelas e Distribuição de Frequências
Como dissemos na aula anterior, dependendo da natureza da variável (qualitativa,
quantitativa, nominal, ordinal, discreta ou contínua) teremos um direcionamento do
que podemos fazer como síntese de informação.
1.1 Tabela de Frequência para Variáveis Qualitativas
Como a variável em estudo é qualitativa, só podemos contar quantas obser-
vações no estudo têm o atributo em questão. É o que comumente chamamos de
informação no domínio da frequência, pois não há um característico numérico in-
trínseco à mensuração.
Exemplo 1 (Publicado no O Globo, 29/04/2011) Pesquisadores do Instituto
de Segurança Pública (ISP) zeram em 2009 e 2010 uma pesquisa sobre vítimas de
estupro, tendo obtido os seguintes resultados. Em 2009, de 4120 vítimas registradas,
3002 eram do sexo feminino e 1118 eram do sexo masculino ou não identicado (o
1
gênero não consta no registro); já em 2010, de 4589 vítimas registradas, 3751 eram
do sexo feminino e 838 eram do sexo masculino ou não identicado.
Um resumo da informação via tabela de frequência poderia ser da forma:
Categoria 2009 2010
Mulheres 3:002 3:751
Homens ou sem identicação 1:118 838
Vemos que não há muito mais a oferecer como síntese. Poderíamos apenas
acrescentar mais informação, ou então usar a frequência relativa (%), como nos
exemplos abaixo:
Categoria 2009 2010
Mulheres 3:002 3:751
Homens ou sem identicação 1:118 838
Total 4:120 4:589
Categoria 2009 2010
Mulheres 72; 9% 81; 2%
Homens ou sem identicação 27; 1% 18; 2%
Total 100% 100%
A vantagem da última tabela é que podemos já ter uma ideia de aumento ou
redução no índice de estupros de 2009 a 2010.
1.2 Tabela de Frequência para Variáveis Quantitativas Dis-
cretas
Quando a variável é quantitativa discreta, devemos resumir a informação através
de uma tabela que represente a frequência com que cada valor observado aparece no
estudo. Assim, seja o seguinte exemplo:
Exemplo 2 Numa pesquisa realizada em 20 domicílios de classe A do Rio de Janeiro,
com o objetivo de contabilizar o número de lhos por família, um pesquisador obteve
os seguintes dados: 0, 1, 0, 1, 2, 1, 0, 0, 1, 0, 1, 4 ,2, 1, 3, 1, 2, 1, 1, 1.
A variável do estudo é quantitativa discreta (número de lhos por família). As-
sim, poderíamos sintetizar a informação dos dados através da seguinte tabela, con-
tendo tanto a frequência absoluta, quanto a frequência relativa (em percentual). É
importante ter a frequência relativa pois ela é uma espécie de probabilidade empírica
e isso nos ajudará a conceber mais tarde um modelo de probabilidade para a variável
em estudo.
No. de Filhos Frequência Frequência Relativa (%)
0 5 5
20
= 0; 25 = 25%
1 10 10
20
= 0; 50 = 50%
2 3 3
20
= 0; 15 = 15%
3 1 1
20
= 0; 05 = 5%
4 1 1
20
= 0; 05 = 5%
Total 20 20
20
= 1; 00 = 100%
2
1.3 Tabela de Frequência para Variáveis Quantitativas Con-
tínuas
Quando a variável é quantitativa contínua (seus resultados se situam num in-
tervalo da reta real), então devemos resumir a informação através de uma tabela que
represente a frequência com que cada valor observado aparece dentro de um dado
intervalo, chamado de classe. Vejamos como construir uma tabela de frequência a
partir de um exemplo:
Exemplo 3 Um pesquisador, contratado pela empresa de Telefonia Celular A, de-
seja estudar o tempo (em minutos gastos) por mês pelos seus assinantes. Para isso,
ele seleciona uma amostra aleatória de 30 clientes e obtém os seguintes dados: 102,
124, 108, 86, 103, 82, 71, 104, 112, 118, 87, 95, 103, 116, 85, 122, 87, 100, 105,
97, 107, 67, 78, 125, 109, 99, 105, 99, 101, 92.
Como a variável tempo é quantitativa contínua (mesmo mensurando-a em unidades
de minutos), a ideia é construir uma tabela de frequências em classes. A primeira
pergunta que surge é: quantas classes utilizar? Não há resposta absoluta para essa
questão e em geral é por tentativas que escolhemos a melhor. Claro que um número
pequeno de classes não vai revelar uma boa distribuição dos dados e tampouco um
número excessivo de classes, pois caríamos potencialmente com uma frequência ou
nenhuma frequência por cada classe...
Em geral testamos inicialmente um número de classes k, dado por
k �= pn ou então k = 1 + 3; 3 log n
onde n é o número de observações coletadas e log é o logaritmo decimal. No nosso
caso, teríamos k = 5, pois n = 30 e
p
n = 5; 477225:::
Vamos construir agora nossa tabela de frequências com os seguintes passos:
Passo 1) Obtenha os valores máximo e mínimo da amostra: Valor mínimo =
67 e Valor máximo = 125.
Passo 2) Escolha o número de classes para a tabela de frequência: k = 5 (pela
nossa discussão anterior).
Passo 3) Calcule a amplitude total dos dados (A) (a diferença entre o valor
máximo e o valor mínimo). No nosso exemplo, temos
A = 125� 67 = 58.
Passo 4) Calcule a amplitude das classes (h) onde h :=
A
k
. Assim temos
h =
58
5
= 11; 6, que arredondaremos para h = 12.
3
Passo 5) Calcule os limites das classes. O limite inferior da classe é o valor
mais baixo que pertence a ela e o limite superior é o mais alto. Use o valor mínimo
(67) como limite inferior da primeira classe.
Passo 6) Dena as 5 classes (intervalos), a saber: [67; 79), [79; 91), [91; 103),
[103; 115) e [115; 127].
Passo 7) Conte quantas observações se situam em cada classe, respeitando os
intervalos fechados à esquerda e abertos à direita, e coloque as observações numa
tabela do tipo abaixo.
Classes Frequência Frequência Relativa (%)
67 ` 79 3 10% = 3
30
� 100%
79 ` 91 5 16; 67% = 5
30
� 100%
91 ` 103 8 26; 66% = 8
30
� 100%
103 ` 115 9 30% = 9
30
� 100%
115 ` 127 5 16; 67% = 5
30
� 100%
Total 30 100% = 30
30
� 100%
Veremos depois que a tabela de frequências para dados quantitativos contínuos
enseja a construção de um gráco extremamente importante na Estatística chamado
Histograma. Voltaremos a esse exemplo mais tarde.
2 Representação Gráca de Dados
A representação gráca é uma forma importante de veicular informações sin-
tetizadas de estudos, sobretudo na mídia. Por isso, é importante os professores
explorarem esse rico material em sala de aula, pois os alunos não poderão adquirir
um letramento estatístico adequado sem aprender a interpretá-los. Nossa sugestão
é que você, professor, peça aos alunos para trazerem recortes de jornais ou revis-
tas com grácos para a sala de aula, e proponha discussões não somente sobre os
seus aspectos estruturais (geometria, função, etc.) mas também a intencionalidade
do discurso gráco. Assim os alunos poderão adquirir cidadania e espírito crítico
através da educação estatística, pois é possível encontrar na mídia muitos grácos
intencionalmente mal construídos em suas escalas para gerar uma interpretação er-
rônea dos dados coletados. Além disso, deve-seenfatizar em sala de aula o papel
da representação gráca no processo de análise estatística de dados e muita atenção
deve ser dada à especicidade de cada gráco para os estudos estatísticos.
2.1 Gráco em Setores para Variáveis Qualitativas
Esse tipo de gráco, também conhecido como gráco de pizza, é usado quando
desejamos enfatizar numa mensuração categórica qual a partipação de cada categoria
no todo observado. O ângulo de cada setor corresponde ao produto da frequência
relativa de cada categoria com os 360� (ou 2� radianos) da circunferência. Assim
voltando ao exemplo 1, temos a seguinte veiculação na mídia:
4
Embora vários programas de computador, como Excell, fazem os grácos
automaticamente, vejamos como os ângulos são calculados para a construção a mão
via compasso e esquadro a ser proposta em sala de aula aos alunos, dialogando assim
com o conteúdo de geometria aprendido classes anteriores.
Para o gráco em setor de 2009, o percentual de participação do sexo femi-
nino foi de 72,9%. Assim, o ângulo referente ao setor feminino é dado por
0; 729� 360� = 262� 260 2400
ou
0; 729� 2� �= 4; 58
Já para o gráco em setor de 2010, o percentual de participação do sexo
feminino foi de 81,2%. Assim, o ângulo referente ao setor feminino é dado por
0; 812� 360� = 292� 190 1200
ou
0; 812� 2� �= 5; 10
2.2 Gráco em Barras para Variáveis Qualitativas ou Quan-
titativas Discretas
Esse tipo de gráco tem uma certa similaridade de intenção com o gráco em
setores, exceto pelo fato de que não estamos mais interessados em enfatizar a partic-
ipação de cada categoria no todo considerando todas as categorias conjuntamente.
A ideia é expressar informações individualizadas, e representadas por barras cuja
5
altura representa a frequência nas categorias. Vejamos o exemplo a seguir, repre-
sentando em barras o número de cópias de jornais (em milhares de exemplares) em
alguns países.
Número de cópias de jornal que circulam diariamente
72.047
58.247
30.000
25.467 23.848
18.343
8.941 6.551 6.281 5.697
0
10.000
20.000
30.000
40.000
50.000
60.000
70.000
80.000
Jap
ão
EU
A
Rú
ssi
a
Ale
ma
nh
a
Índi
a
Ingl
ate
rra
Fra
nça
Bra
sil
Itáli
a
Pol
ôni
a
País
Mil
har
es
de
exe
mp
lar
es
Vemos que aqui a intenção não é comparar qual a fatia de participação dos
jornais publicados no Japão na soma de todas as publicações de países em estudo. A
comparação é no sentido de informações isoladas. Vemos também que não existe um
lugar geométrico denido para a variável qualitativa país. Portanto, qualquer ordem
é possivel de ser escolhida (a ordem escolhida aí foi a decrescente para enfatizar os
maiores editores de jornais).
Quando a variável é quantitativa discreta, então o lugar geométrico está bem
denido e as barras são construídas nesses pontos, com altura igual (ou proporcional)
à frequência observada.
Cabe observar que alguns autores distinguem gráco em barras (barra hor-
izontal) e gráco em colunas (barras verticais). Não faremos no entanto essa dis-
tinção. Abaixo se encontra um exemplo de barras horizontais veiculado no jornal O
Globo de 30 de abril de 2011.
6
2.3 Gráco em Linha para Variáveis Quantitativas
Esse tipo de gráco é usado sobretudo quando temos observações temporais
de uma variável em estudo e desejamos representá-la no tempo (abscissa) a m
de reconhecer possíveis tendências e/ou sazonalidade (comportamento periódicos
repetidos). O exemplo a seguir ilustra bem a utilidade do gráco em linha para a
evolução do preço do dólar comercial ao longo de um certo período de tempo.
Evolução do preço do dólar comercial
0.0
0.5
1.0
1.5
2.0
2.5
12/98 02/99 04/99 06/99 08/99
Data
Va
lo
r d
o 
dó
la
r
Outro exemplo extraído do jornal O Globo de 30 de abril de 2011, referente
ao crescimento da população brasileira desde o século 19, encontra-se a seguir.
7
2.4 Histograma para Variáveis Quantitativas Contínuas
A ideia agora é representar uma gura geométrica compacta para que possamos
futuramente pensar num modelo probabilístico contínuo para a variável em estudo.
Voltemos ao exemplo 3 do tempo (em minutos gastos) por mês pelos assinantes da
Telefonia Celular A. O gráco das frequências por intervalo dado por
Classes Frequência
67 ` 79 3
79 ` 91 5
91 ` 103 8
103 ` 115 9
115 ` 127 5
Total 30
num histograma teria a seguinte caracterização:
8
2.5 Diagrama de Ramo-Folha para Variáveis Quantitativas
Contínuas
Esse gráco tem a mesma proposta do histograma, isto é, mostrar onde se
situam as maiores incidências da variável, mas o gráco é construído com os próprios
valores numéricos. Tomemos novamente o exemplo 3 do tempo (em minutos gastos)
por mês pelos assinantes da Telefonia Celular A. Os valores vão de 67 a 125. A ideia
é tomar as dezenas como os ramos e as unidades com as folhas. Assim os ramos vão
de 6 a 12 e dispomos as folhas da seguinte forma:
Observe que, girando o gráco acima para a esquerda, temos uma ideia de
histograma e de como seria uma função que cobrisse a última folha de cada ramo,
conforme a imagem abaixo.
9
2.6 Diagrama de Dispersão para a relação de duas variáveis
quantitativas
Esse gráco de pares ordenados no plano cartesiano é usado quando desejamos
avaliar a relação recíproca entre duas variáveis quantitativas de interesse. Por ex-
emplo, suponha que desejemos saber se há uma relação entre número de faltas em
sala de aula e média nal das provas numa dada disciplina. Para isso, suponha que
tomemos uma amostra de 7 alunos obtendo o seguinte conjunto de pares de dados
dos alunos.
Aluno Faltas Média Final
1 8 78
2 2 92
3 5 90
4 12 58
5 15 43
6 9 74
7 6 81
Assim, cada aluno representa um par ordenado de informação (x; y), onde x
representa o número de faltas e y a média nal. O diagrama de dispersão, também
conhecido na literatura como scatter plot, é a representação gráca desses pares
ordenados. Com os dados acima, teríamos o seguinte gráco.
10
O que podemos depreender, ao menos intuitivamente, a partir do gráco
acima? Que parece haver uma relação quase linear entre faltas e média nal na
disciplina, e que quanto maior o número de faltas mais baixa tende a ser a média
nal e vice-versa. Esse gráco é de extrema importância para que possamos medir a
correlação linear entre duas variáveis quantitativas em estudo, o chamado coeciente
de correlação.
Agora que já sabemos como representar gracamente de diversas formas os
nossos dados coletados podemos começar a resumir a informação de um ponto de
vista numérico. Esse será o objetivo a ser alcançado pela próxima aula.
Com os recursos de que dispõe, construa tabelas e/ou grácos que achar conve-
nientes para resumir pictogracamente os seguintes dados:
Exercício 1 Área dos continentes em milhões de km2: América, 42.960; Europa:
10.498; Ásia: 43.608; África: 30.335; Oceania: 8.923; Antártida: 16.500. (Fonte:
Atlas Geográco Mundial da Folha de São Paulo.)
Exercício 2 Lucro líquido em US$ bilhões, das companhias em Bolsa: 1990: 1; 0;
1991: �1; 4; 1992: 1; 5; 1993: 3; 8; 1994: 11; 5; 1995: 6; 4; 1996: 11; 4. (Fonte:
Economática.)
Exercício 3 Mercado Brasileiro de chocolate:
� Divisão por empresas: Lacta: 35,4%; Nestlé: 31,6%; Garoto: 22,0%; Neug-
bauer: 3,6%; Ferrero Rocher: 0,9%; outros: 6,5%. (Fonte: Eletropaulo.)
� Produção e Consumo em mil toneladas:
Ano 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001
Produção 196 220 251 294 296 305 329 313 327 327
Consumo 169 199 237 292 305 302 332 295 322 298
(Fonte: Folha de São Paulo, 24 de julho de 2002)
11
Exercício 4 Para um dado teste de QI, selecionou-se uma amostra de 15 pessoas
e registrou-se o tempo em minutos para fazê-lo, obtendo-se os seguintes valores: 30,
20, 10, 40, 25, 20, 10, 60, 15, 40, 5, 30, 12, 10, 10. Faça um histogramae um
diagrama de ramos e folhas para os dados coletados.
Exercício 5 (Fórum de Discussões) Proponha uma atividade prática em sala de
aula para a geração de dados estatísticos com o propósito de caracterização gráca
dos resultados obtidos.
12