estatIstica-descritiva-1

•

UNISINOS

0

Daniela Kleinhans

08/04/2014

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioestatística I

12.756 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

�PAGE �
�PAGE �12�
CONCEITOS BÁSICOS
ESTATÍSTICA: Ciência (ou método) que trata da coleta, organização, descrição e análise de dados. Pode ser dividida em duas áreas:
ESTATÍSTICA DESCRITIVA: trata da organização e descrição de dados.
ESTATÍSTICA INFERENCIAL OU INDUTIVA: trata da análise e interpretação de dados
POPULAÇÃO (OU UNIVERSO): Conjunto de elementos que possuem alguma característica em comum e que interessa estudar. Quando estudamos todos os elementos de uma população, estamos fazendo um CENSO ou um RECENSEAMENTO.
AMOSTRA: É um subconjunto de uma população. Quando estudamos apenas uma amostra de uma população, estamos fazendo uma AMOSTRAGEM.
VARIÁVEL: É a característica de interesse dos elementos de uma população. Uma variável pode ser:
QUALITATIVA: expressa uma qualidade ou um atributo.
- NOMINAL: fornece categorias distintas entre si (ex: estado civil ou gênero dos elementos de uma população).
- ORDINAL: fornece categorias ordenadas de acordo com a intensidade do fenômeno (ex: classe social ou nível de escolaridade dos elementos de uma população).
 QUANTITATIVA: expressa uma quantidade.
- DISCRETA: assume valores isolados ao longo de uma escala (ex: número de filhos ou número de concursos prestados pelos elementos de uma população).
- CONTÍNUA: pode assumir qualquer valor ao longo de uma escala (ex: peso ou altura dos elementos de uma população).
ESTATÍSTICA DESCRITIVA
I - ORGANIZAÇÃO DE DADOS:
SÉRIE ESTATÍSTICA: Conjunto de dados organizados de acordo com algum critério (tempo, local ou categoria). Pode ser apresentada por meio de tabelas e/ou gráficos.
Ex 1: Número de estabelecimentos de saúde no Brasil
1986 a 2009
	Ano
	Número de estabelecimentos
	1986
	30872
	1987
	32450
	1988
	33632
	1989
	34831
	1990
	35701
	1992
	49676
	1999
	56134
	2002
	65342
	2005
	77004
	2009
	94070
FONTE: IBGE – Pesquisa de Assistência Médico-Sanitária – 1976/2009
Ex. 2: Capitais brasileiras com maior prevalência de incapacidade funcional em mobilidade de idosos com 80 anos ou mais - 2000
	Capital
	Incidência (%)
	Teresina
	62,6
	Rio Branco
	58,2
	Aracaju
	57,7
	Maceió
	57,3
	João Pessoa
	56,1
	Recife
	56,0
	Natal
	55,0
	Belém
	54,1
	Palmas
	52,0
	Fortaleza
	51,3
FONTE: IBGE – Censo Demográfico 2000
	Acima, vimos dois exemplos de séries (uma temporal e outra geográfica) apresentadas sob a forma de tabelas. Vamos falar um pouco sobre gráficos. Alguns dos principais tipos de gráficos são:
GRÁFICO DE LINHA: Mostra, por meio de uma linha, a evolução de um fenômeno. Por isto, é particularmente apropriado para representar uma série temporal. Exige que se trabalhe com algum dado contínuo (como o tempo), uma vez que a linha desenhada expressa a noção de continuidade.
Número de estabelecimentos de saúde no Brasil
1986 a 2009
FONTE: IBGE – Pesquisa de Assistência Médico-Sanitária – 1976/2009
GRÁFICO DE COLUNAS OU DE BARRAS: Expressa por meio de colunas (verticais) ou de barras (horizontais) as grandezas para um dado fenômeno. De uma maneira geral, qualquer tipo de dado pode ser representado por um gráfico de colunas ou um gráfico de barras.
Capitais brasileiras com maior prevalência de incapacidade funcional em mobilidade de idosos com 80 anos ou mais - 2000
FONTE: IBGE – Censo Demográfico 2000
GRÁFICO DE SETORES: É apropriado para representar divisões percentuais de um todo. Consiste em dividir uma circunferência em setores correspondendo a cada uma das categorias da variável. Preferencialmente, usamos este gráfico quando trabalhamos com uma variável qualitativa nominal.
Estado civil para uma amostra de alunos da universidade X – 2012
FONTE: Setor de Registros
DISTRIBUIÇÃO DE FREQUÊNCIAS: É uma tabela em que os valores (ou categorias) de uma variável são associados às suas frequências (número de repetições). 
POR PONTO: os valores (ou categorias) são listados individualmente.
Ex: Número de disciplinas matriculadas por uma amostra de alunos
Universidade X – 2012/2
	Número de disciplinas
	Número de alunos
	1
	12
	2
	28
	3
	44
	4
	50
	5
	23
	6
	13
	7
	10
	Total
	180
FONTE: Setor de Registros
Elementos desta distribuição de freqüências:
Valores observados (X)
Frequências absolutas simples (f)
Se, por exemplo, quisermos nos referir à frequência absoluta simples da terceira linha, escreveremos f3. Neste exemplo, esta frequência é 44, que significa que 44 alunos estão matriculados em 3 disciplinas.
OBSERVAÇÃO: Se fôssemos construir um gráfico para esta tabela, o mais indicado seria o gráfico de colunas.
POR INTERVALOS OU CLASSES: os valores da variável são divididos em classes e conta-se o número de repetições de cada classe.
Ex: Peso para uma amostra de alunos
Universidade X – 2012/2
	Peso (kg)
	Número de alunos
	45 (( 50
	5
	50 (( 55
	17
	55 (( 60
	24
	60 (( 65
	38
	65 (( 70
	35
	70 (( 75
	29
	75 (( 80
	14
	80 (( 85
	12
	85 (( 90
	6
	Total
	180
FONTE: Ambulatório
Elementos desta distribuição de frequências:
frequência absoluta simples (f): no exemplo, f3=24, significando que 24 alunos pesam de 55 kg a menos de 60 kg.
limite inferior de classe (li): indica o ponto de início de cada classe.
limite superior de classe (ls): indica o fim de cada classe.
amplitude de classe (h): indica a extensão de cada classe. 
 . No exemplo, 
Ponto médio de classe (X): indica o ponto central do intervalo, usado como representante de todos os valores contidos na classe.
�� EMBED Equation.2 . No exemplo, 
OBSERVAÇÃO: Se fôssemos fazer um gráfico para esta tabela, o mais indicado seria um gráfico de colunas, colocando no eixo horizontal os limites de classe (inferiores e superiores). Neste caso em particular, o gráfico de colunas recebe o nome de HISTOGRAMA. Outra alternativa seria substituir cada intervalo pelo seu ponto médio. Desta forma, passaríamos a ter um gráfico de linha que é chamado de POLÍGONO DE FREQUÊNCIAS.
TIPOS DE FREQUÊNCIAS QUE PODEM APARECER EM UMA DISTRIBUIÇÃO:
ABSOLUTAS: trabalham com o número de observações:
- SIMPLES (f): em cada linha da tabela.
- ACUMULADAS (F): até cada linha da tabela. 
RELATIVAS: trabalham com proporções ou percentuais de observações:
- SIMPLES (fr): em cada linha da tabela. 
- ACUMULADAS (Fr): até cada linha da tabela. 
Vamos voltar à tabela do peso para a amostra de alunos e complementá-la com as frequências vistas:
Peso para uma amostra de alunos
Universidade X – 2012/2
	Peso (kg)
	No de alunos (f)
	F
	fr (%)
	Fr (%)
	45 (( 50
	5
	5
	2,8
	2,8
	50 (( 55
	17
	22
	9,4
	12,2
	55 (( 60
	24
	46
	13,3
	25,5
	60 ((65
	38
	84
	21,1
	46,6
	65 (( 70
	35
	119
	19,4
	66,0
	70 (( 75
	29
	148
	16,1
	82,1
	75 (( 80
	14
	162
	7,8
	89,9
	80 ((85
	12
	174
	6,7
	96,6
	85 (( 90
	6
	180
	3,3
	100,0
	Total
	180
	-
	100,0
	-
FONTE: Ambulatório
Vejamos algumas interpretações:
f4= 38 alunos pesam de 60 a menos de 65 kg.
F5= 119 alunos pesam de 45 a menos de 70 kg.
fr2= 9,4% dos alunos pesam de 50 a menos de 55 kg.
Fr6= 82,1% dos alunos pesam de 45 a menos de 75 kg.
F7-F3=162-46= 116 alunos pesam de 60 a menos de 80 kg.
EXERCÍCIO 1: Os dados a seguir representam o número de sessões semanais de fisioterapia realizados pelos pacientes de uma clínica. Construa, para estes dados, a distribuição de frequências mais indicada.
	4
	2
	3
	1
	5
	3
	2
	3
	4
	2
	3
	3
	3
	2
	3
	4
	2
	5
	4
	1
	2
	5
	3
	4
	3
	3
	2
	2
	2
	3
 
EXERCÍCIO 2: Os dados a seguir representam o tempo gasto (em minutos) pelos funcionários de uma empresa pararealizar uma tarefa. Construa, para estes dados, uma distribuição de frequências com cinco classes de amplitudes iguais entre si.
	22
	26
	29
	20
	33
	27
	39
	28
	30
	25
	28
	32
	31
	22
	26
	28
	32
	29
	31
	28
	30
	37
	21
	23
	34
	25
	38
	27
	29
	30
	21
	31
	37
	25
	28
	24
	26
	28
	28
	31
	27
	28
	36
	32
	21
	30
	25
	26
	27
	29
II - DESCRIÇÃO DE DADOS: É feita através de medidas sintéticas que dão informações sobre determinadas características do conjunto.
MEDIDAS DE TENDÊNCIA CENTRAL OU DE POSIÇÃO: Dão informações sobre o posicionamento de um conjunto de dados.
MÉDIA ARITMÉTICA: É um valor abstrato que dá uma noção sobre o nível geral do conjunto.
População: 
, onde X representa os valores observados da variável e N representa o número de elementos da população.
Amostra: 
, onde n representa o número de elementos da amostra
EXEMPLO 1: Os dados a seguir representam o número de consultas médicas realizadas no último ano por uma amostra de adultos de uma comunidade. Determine a média.
2	3	1	3	1	2	4	2	
Isto significa que os adultos dessa amostra realizaram, em média, 2,25 consultas médicas no último ano. 
EXEMPLO 2: Considere os dados a seguir, que representam o número de dependentes para uma amostra de funcionários de uma empresa. Determine o valor da média.
	Número de dependentes
	Número de funcionários
	0
	17
	1
	25
	2
	32
	3
	21
	4
	12
	5
	8
	Total
	115
Neste caso, como queremos calcular o número médio de dependentes por funcionário, devemos observar que cada valor ocorreu várias vezes (por exemplo, o valor 2 ocorreu 32 vezes) e deve ser somado tantas vezes quantas ele ocorreu. Isto pode ser feito simplesmente multiplicando-se cada valor (X) pela sua frequência (f):
Em média, cada funcionário da amostra tem 2,09 dependentes.
O procedimento que foi usado para obter a média, neste caso, corresponde ao procedimento de uma média ponderada, em que as frequências correspondem aos pesos de cada um dos valores observados. A fórmula que representa este procedimento é dada por:
EXEMPLO 3: A seguir, encontramos a idade para uma amostra de alunos de uma universidade. Determine a idade média para esta amostra de alunos.
	Idade (anos)
	Número de alunos
	18 (( 20
	27
	20 (( 22
	28
	22 (( 24
	19
	24 (( 26
	11
	26 (( 28
	7
	28 (( 30
	4
	Total
	96
Neste caso, devemos usar o mesmo procedimento do exemplo anterior, ou seja, devemos usar as frequências como pesos. A única diferença é que, como não temos os valores observados da variável, usamos os pontos médios de cada classe. 
	Idade (anos)
	Número de alunos
	X
	fX
	18 (( 20
	27
	19
	513
	20 (( 22
	28
	21
	588
	22 (( 24
	19
	23
	437
	24 (( 26
	11
	25
	275
	26 (( 28
	7
	27
	189
	28 (( 30
	4
	29
	116
	Total
	96
	-
	2118
 , o que significa que cada aluno da amostra tem, em média, 22,06 anos.
PROPRIEDADES DA MÉDIA ARITMÉTICA.
A média é sensível a todos os valores do conjunto. Isto pode constituir uma desvantagem, pois ela é muito afetada por valores extremos. Isto fica mais evidenciado no exemplo a seguir, relativo aos salários mensais, em salários mínimos, para uma amostra de funcionários.
3		4	5	2	3	49
 salários mínimos. Facilmente podemos observar que este valor não representa bem o conjunto.
A soma dos valores dos desvios das observações em relação à média do conjunto é zero, ou seja, 
 ou 
.
Se somarmos, subtrairmos, multiplicarmos ou dividirmos todos os valores do conjunto por uma constante, a média fica somada, subtraída, multiplicada ou dividida por esta constante. Suponhamos, por exemplo, que os dados abaixo representem o salário, em número de salários mínimos, de uma amostra de funcionários no mês de fevereiro.
	4	5	6	7	
 salários mínimos
Se cada funcionário receber um abono de um salário mínimo no mês de março, teremos a seguinte situação:
		5	6	7	8	
 salários mínimos, que corresponde à média original (5,5) mais o abono de um salário mínimo.
MEDIANA: Divide um conjunto ordenado em dois grupos de iguais tamanhos, de forma que metade das observações é menor ou igual à mediana e a outra metade é maior ou igual à mediana.
Simbologia: População: 
 e Amostra: 
Se o número de observações for ímpar, a mediana será o valor central;
Se o número de observações for par, a mediana será a média aritmética dos dois valores centrais.
EXEMPLO 4: Voltando aos dados do exemplo 1 (número de consultas médicas), encontre o valor da mediana.
Neste caso, a primeira coisa a fazer é ordenar os dados:
1		1	2	2	2	3	3	4
Como temos 8 observações, a mediana é a média da quarta e quinta observações, ou seja, 
Isto significa que metade dos adultos realizou duas consultas ou menos e a outra metade realizou duas ou mais consultas.
MODA: É simplesmente o valor que mais se repete em um conjunto. Podem existir conjuntos com apenas uma moda ou com duas ou mais modas. Além disto, podem existir conjuntos que não possuam moda.
Simbologia: População: 
 e Amostra: 
EXEMPLO: No exemplo 1, a moda é 2, ou seja, o mais comum é realizar duas consultas. No exemplo 2, a moda também é 2, que é o número de dependentes mais frequente por funcionário.
QUESTÃO: Imagine que os dados a seguir representem o peso (em kg) dos integrantes de duas equipes esportivas (dados populacionais):
Equipe A: 	60	65	70	75	80
Equipe B: 	68	69	70	71	72
Se formos analisar as medidas de tendência central de cada uma das equipes, observamos que elas coincidem, uma vez que, tanto na equipe A quanto na equipe B, a média e a mediana são iguais a 70 kg e a moda não existe. Mas analisando os dois conjuntos, observamos diferenças entre eles. Enquanto que, no primeiro, os valores estão mais distantes entre si, no segundo eles estão mais concentrados. Esta diferença de comportamento não é percebida por qualquer medida de tendência central.
MEDIDAS DE VARIABILIDADE: Indicam o grau de dispersão dos valores em relação aos valores centrais.
VARIÂNCIA ABSOLUTA: É baseada na diferença entre cada valor e a média do conjunto. É, por definição, a média quadrática das diferenças dos valores em relação à sua média.
Na verdade, o objetivo da variância era fazer uma média das diferenças dos valores em torno da média. Como estas diferenças somam zero (vide propriedade 2 da média aritmética), temos que elevá-las ao quadrado antes de somá-las. Por isto, trabalhamos com média quadrática de diferenças. Este é o grande inconveniente da variância, pois ela é uma medida quadrática, expressa no quadrado da unidade original.
Vamos encontrar a variância para os dados da equipe A:
60		65	70	75	80		
Temos que fazer a diferença de cada valor em relação à média e elevar ao quadrado cada uma delas.
Somando estes quadrados, temos 250. Para fazer a média dos quadrados, dividimos esta soma por 5, que é o número de observações. Isto nos dá uma variância absoluta de 250/5=50 kg2.
Fazendo o mesmo cálculo para os dados da equipe B, chegamos a uma variância absoluta de 10/5=2 kg2.
Como esta é uma medida de dispersão, percebe-se que ela consegue expressar como os pesos são mais distantes na equipe A.
Vamos apresentar agora a fórmula que generaliza este raciocínio:
População: 
Amostra: 
Usamos n-1 no denominador da variância amostral (ao invés de n) para obtermos uma melhor aproximação da variância populacional.
Quando trabalhamos com a variância absoluta, temos uma medida quadrática, o que a torna muito abstrata. Afinal, o que significa dizer que a variância é de 50 kg2? Para eliminarmos esta dificuldade, devemos extrair a raiz quadrada do resultado. Obtemos, então, a medida de dispersão mais conhecida: o DESVIO-PADRÃO.
DESVIO-PADRÃO: É a raiz quadrada da variância absoluta. Ele é expresso na mesma unidade da variável original, sendo maisútil nas aplicações práticas. Ele dá uma ideia do afastamento médio das observações em relação à média.
População: 
 
Amostra: 
Na questão das equipes esportivas, o desvio-padrão da equipe A é 
 kg; o da equipe B é 
kg. Isto significa que, na equipe A, o peso médio dos atletas é de 70 kg e o peso de cada atleta se afasta, em média, 7,07 kg em relação aos 70 kg. Na equipe B, o peso médio também é de 70 kg, sendo que cada atleta se afasta, em média, 1,41 kg desta média.
EXEMPLO: Os dados a seguir representam o tempo gasto (em minutos) por uma amostra de alunos para resolver um exercício. Determine a média e o desvio-padrão.
12		15	14	18	13	17	13	15	18
Média: 
, ou seja, os alunos da amostra gastaram, em média 15 minutos para resolver o exercício.
Desvio-padrão: 
Precisamos primeiro calcular a variância absoluta, usando a fórmula 
. 
Somando estes resultados, obtemos 40. Logo: 
Logo, o desvio-padrão é 
, significando que cada aluno se afastou, em média 2,24 minutos do tempo médio do grupo que era de 15 minutos.
COEFICIENTE DE VARIAÇÃO OU DE VARIABILIDADE: É uma medida de variabilidade relativa, particularmente apropriada para comparar diversos grupos com relação à variabilidade. Indica a importância do desvio-padrão, comparado com a média do conjunto, podendo ser expresso em percentual. Quanto menor for o coeficiente de variação, menos importante é o desvio-padrão e mais homogêneo é o grupo.
População: 
Amostra: 
EXEMPLO: Considere dois conjuntos, A e B, sobre os quais temos as seguintes informações:
A: Média de 10 unidades e Desvio-padrão de 3 unidades
B: Média de 500 unidades e Desvio-padrão de 5 unidades
Em qual dos conjuntos houve maior homogeneidade?
Se olhássemos apenas para o desvio-padrão, diríamos que há maior homogeneidade no conjunto A, porque o desvio-padrão é menor. Acontece que uma variação média de 3 unidades em torno de 10 unidades é muito mais importante que uma variação média 5 unidades em torno de 500 unidades. Por isto é que precisamos do coeficiente de variação.
Conjunto A: 
, ou seja, neste conjunto, o desvio-padrão representa 30% do valor da média.
Conjunto B: 
, ou seja, neste conjunto, o desvio-padrão representa 1% do valor da média.
Assim, o conjunto B é o mais homogêneo.
� EMBED Excel.Sheet.8 ���
_1232385744.unknown
_1232553689.unknown
_1232556154.unknown
_1232557727.unknown
_1232561423.unknown
_1374311700.unknown
_1374312106.unknown
_1405756211.unknown
_1374311750.unknown
_1232562059.unknown
_1232562261.unknown
_1232561635.unknown
_1232558283.unknown
_1232559174.unknown
_1232558036.unknown
_1232557591.unknown
_1232557655.unknown
_1232557067.unknown
_1232557164.unknown
_1232554258.unknown
_1232555202.unknown
_1232555251.unknown
_1232554557.unknown
_1232553921.unknown
_1232554197.unknown
_1232553728.unknown
_1232551859.unknown
_1232552252.unknown
_1232553429.unknown
_1232553474.unknown
_1232552057.unknown
_1232551131.unknown
_1232551317.unknown
_1232551011.unknown
_1232384898.unknown
_1232385484.unknown
_1232385648.unknown
_1232384968.unknown
_1232384636.unknown
_1232384873.unknown
_1232384591.unknown
_1232383049.xls
Gráfico6
		250
		170
		50
		10
		20
Número de entrevistados
Plan1
		Mês		Inflação
		jan.		0.38
		fev.		0.23
		mar.		0.27
		abr.		0.12
		maio		0.13
		jun.		-0.07
		jul.		0.11
		ago.		-0.02
		set.		0.16
		out.		0.43
		nov.		0.42
		dez.		0.62
Plan1
		
Inflação
Mês
Inflação (%)
Plan2
		País		Preço
		Brasil		327.71
		Índia		222.27
		Suécia		213.03
		Dinamarca		208.25
		Bélgica		205.81
		França		205.8
		Finlândia		205.8
		Irlanda		205.79
		Grã-Bretanha		195.04
		Áustria		192.86
Plan2
		
Preço
País
Preço (dólares)
Plan3
		Estado civil		Número de entrevistados
		solteiro		250
		casado		170
		divorciado		50
		viúvo		10
		outros		20
Plan3
		
Número de entrevistados