Buscar

Curso de analise estatistica_UNIFESP_2007

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

*
Curso de Análise Estatística
UNIFESP 2007
Prof. Dr. Clóvis de Araújo Peres
clovis36@terra.com.br
*
FILOSOFIA DO CURSO
É um curso de estatística que não exige conhecimento prévio e os conceitos são introduzidos através de exemplificação prática, dando ênfase na intuição e não na argumentação matemática.
O curso é dividido em duas partes:
Na primeira parte serão discutidos conceitos fundamentais de estatística descritiva e inferencial, que permitem ao aluno entender a essência do pensamento estatístico. 
Na segunda parte iremos realizar a análise estatística completa de projetos de pesquisa desde o planejamento até a conclusão. Os projetos são escolhidos de forma a contemplar o ensino de diferentes técnicas de análise estatística.
É importante que o aluno participe de todas as etapas de discussões com perguntas relacionadas com a sua área de atuação.  
O material didático distribuído é apenas um guia do roteiro do curso.
*
Programa do Curso
Parte 1: Definições e conceitos básicos.
I	 - Definição de Estatística;
II	 - Interação entre a Estatística e o Método Científico;
III	 - Tipos de variáveis geradoras de dados;
IV - Planejamento de pesquisa Observacional e Experimental : 
 diferentes formas de obtenção de dados;
V	 - Descrição de um conjunto de dados obtidos por Levantamentos 
 Populacionais, Amostrais ou Experimentos Controlados através de: 
 medidas-resumo, tabelas e gráficos apropriados para cada 
 situação;
VI - Conceitos essenciais para se entender a Análise Estatística 
 Inferencial: erro amostral, intervalo de confiança para uma amostra 
 e determinação de tamanho de amostra. 
VII - Noções sobre Teste de Hipóteses para comparação de dois 
 grupos, variáveis Numéricas e Categóricas.
VIII - Noções sobre Intervalo de Confiança para comparação de dois 
 grupos, variáveis Numéricas e Categóricas. 
*
Programa do Curso
Parte 2: Análise Estatística de Projetos de Pesquisa com o uso 
 do computador.
I - Estudo da relação entre variáveis categóricas: Chi-
 Quadrado, Teste exato de Fisher.
II - Estudo da relação entre uma variável resposta numérica e 
 variáveis explicativas categóricas: Análise de Variância.
III - Estudo da relação entre variáveis numéricas: Análise de 
 Regressão.
 Referências:
 - Practial Statistics For Medical Research, Douglas G. 
 Alltman. Chapman& Hall/CRC
 - Introdução à Estatística Médica, José Francisco Soares e 
 Arminda Lucia Siqueira. Departamento de Estatística UFMG
*
I – Definição de Estatística
É um campo de estudos que produz metodologia para:
 
Decidir qual é o melhor Plano para a realização de uma Pesquisa científica ou observacional (analítica ou descritiva);
üOrganizar e Sumarizar dados obtidos por classificação, contagem ou mensuração, ou transformações destes, e
ü Fazer inferências sobre populações de unidades (indivíduos, objetos, animais) quando apenas uma parte (amostra) é estudada (classificada, contada ou medida).
Sub-áreas da Estatística:
(1) Planejamento de experimentos e técnicas de amostragem;
(2) Estatística Descritiva;
(3) Estatística Inferencial. CAP
*
II- Interação entre estatística e pesquisa científica 
*
III – Tipos de variáveis geradoras de dados
*
III - Tipos de variáveis geradoras de dados
*
 IV - Planejamento da Pesquisa
Tipos de Pesquisa
IV.A. Observacional: coletamos informações sobre variáveis categóricas e numéricas de interesse, em indivíduos de um ou mais grupos, mas não realizamos intervenções. Quanto à forma de obtenção dos dados, pode ser prospectivo, retrospectivo ou transversal.
Exemplos: Levantamento Populacional, Levantamento 
 Amostral e Estudo Epidemiológico. 
IV.B. Experimental: coletamos as informações como no caso anterior, mas os resultados são influenciados pelo pesquisador com intervenções. Em geral é necessário grupo controle. A forma de obtenção dos dados é, em geral, prospectiva, longitudinal. 
Exemplos: Ensaios Clínicos, experimentos nas áreas de 
 agronomia, industria e laboratórios. 
*
IV.A Pesquisas Observacionais
IV.A.1 – Levantamentos populacionais
Contínuos – quando os eventos vão sendo registrados à medida que ocorrem . 
 Ex : registros de óbitos, nascimentos, casamentos
Periódicos – são aqueles que acontecem ciclicamente. 
 Ex: censos populacionais que ocorrem a cada 10 anos.
Ocasionais – são aqueles realizados sem preocupação de continuidade ou periodicidade pré estabelecidas. 
 Obs: A análise estatística recomendada: Descritiva ou Exploratória de 
 dados. 
*
IV.A Pesquisas Observacionais
IV.A.2 –Levantamentos Amostrais
 - Etapas:
Definição do objetivo;
Descrição da população (população objetivo e amostrada);
Unidade amostral e unidade de informação;
Forma de obtenção da informação (instrumentos de coleta);
Escolha do Plano Amostral apropriado:
Amostra casual simples
Amostra estratificada
Amostra em múltiplos estágios
*
 - Condições de vida das famílias da RMSP;
- Pesquisa de Emprego e Desemprego da RMSP;
- Grau de satisfação dos usuários da SABESP;
- Estimação da prevalência de cefaléia no município de Marília
- Grau de satisfação de usuários da rede hospitalar do município de Guarulhos;
- Perfil sócio-econômico dos favelados e encortiçados do município de São Paulo;
- Estudo do rendimento escolar na rede Estadual de Ensino na RMSP.
IV.A Pesquisas Observacionais
IV.A.2 –Levantamentos Amostrais Exemplos
*
IV.A Pesquisas Observacionais 
IV.A.3 –Estudos Epidemiológicos 
 
 	
	São, em geral, necessários quando informações preliminarmente coletadas indicam que um estudo epidemiológico mais detalhado deve ser conduzido para estudar a associação entre uma variável resposta dicotômica (doença, óbito) e variáveis explicativas categóricas e numéricas
COORTES
	Em estudos de coorte prospectivo todos os indivíduos incluídos são não doentes e divididos em 2 grupos, expostos e não expostos. O coorte é seguido por um período de tempo e taxas de incidência da doença são comparadas entre expostos e não expostos. Este estudo também pode ser conduzido retrospectivamente selecionando dois grupos de indivíduos expostos e não expostos comparando-se taxas de incidência da doença em um período de tempo passado. 
*
	
CASO-CONTROLE
	Em estudos de caso-controle um grupo de doentes (casos) e um grupo de não doentes (controles) são selecionados. A proporção de indivíduos que foram expostos por um período de tempo é calculada nos grupos e comparadas.
TRANSVERSAL
	Em estudos transversais ou de prevalência, exposição a fatores de risco e de ocorrência da doença são avaliados simultaneamente num ponto no tempo em um grupo de indivíduos. Taxas de prevalência da doença são comparadas entre expostos e não expostos.
IV.A Pesquisas Observacionais 
IV.A.3 –Estudos Epidemiológicos
*
IV.B Pesquisa Experimental
 - Etapas:
Objetivo;
Descrição das situações experimentais que serão
comparadas (Tratamentos);
Descrição da população experimental;
Escolha da unidade experimental;
Escolha do Plano Experimental:
Completamente casualizado (amostras não pareadas)
Blocos casualizados (amostras pareadas)
Experimentos “Cross-over”
*
 IV.B Pesquisa Experimental
 
Exemplo # 1 - Teste do efeito do Metoprolol em pacientes de 65 a 74 anos que tiveram Infarto Agudo do Miocárdio.    
 
Comentários:
Os pacientes foram aleatorizados a cada um dos grupos e após o seguimento de 3 meses foi registrado o estado vital;
O estudo é um Ensaio Clínico completamente aleatorizado, prospectivo, com amostras independentes isto é, não pareada 
É o estudo da relação entre duas variáveis
categóricas dicotômicas, uma resposta e a outra explicativa. 
*
IV.B Pesquisa Experimental 
Exemplo # 2 Comparação de 3 grupos de gestantes - normais (N), tolerância diminuída (TD) e diabéticas (D) em relação a hemoglobina glicosilada (HbA).    
 
Comentários:
É um plano experimental completamente casualizado com um critério de classificação. Três amostras independentes de 10 gestantes, uma para cada classe, amostras não pareadas.
Estudo da relação entre uma variável numérica resposta, (HbA) e uma explicativa categórica, classe de gestantes. 
*
IV.B Pesquisa Experimental
Exemplo # 3: Estudo sobre perda de peso(kg) em obesos para 2 diferentes terapias e 4 diferentes dietas. 
 
Comentários:
É um plano experimental completamente casualizado com dois critérios de classificação. São 8 amostras independentes de 5 indivíduos, não pareadas, uma para cada combinação (dieta, terapia).
Estudo da relação entre duas variáveis categóricas explicativas, dieta e terapia, e uma numérica, resposta.
 
*
IV.B Pesquisa Experimental
 
Comentários:
1)   O Plano Experimental utilizado foi “Cross-Over”. Cada indivíduo é submetido às 2 drogas em períodos diferentes. 30 indivíduos recebem a droga A e os outros 30 recebem a droga B no primeiro período. Em um segundo período, após a eliminação do efeito residual, os dois grupos recebem as drogas em ordem contrária.
 2)   São amostras pareadas onde cada indivíduo é controle dele mesmo.
 
Exemplo # 4 : Comparação de duas drogas para normalizar a pressão sanguínea em hipertensos 
*
V – Análise exploratória de dados
 
 A Análise Descritiva ou Exploratória de dados consiste em obter:
 - Medidas que resumem informações de um conjunto de dados quanto a posição central e variabilidade.
 - Gráficos e tabelas que mostram a distribuição dos dados.
 Estes conceitos serão apresentados de acordo com o seguinte esquema:
Variável numérica
 
1) Medidas de Variabilidade e de Posição: Amplitude, Desvio padrão, Média, Mediana e Quartil;
2) Representação gráfica: Histograma e Box-plot;
3) Propriedades da distribuição normal.
b) Variável categórica
 medidas de variabilidade e de posição obtidas das frequencias. 
 representação gráfica: gráfico de barras e pizza.
*
Variável numérica: 
 
  Exemplo 1: Duas amostras de 20 indivíduos
1) Medida de variabilidade – Amplitude 
Amostra 1: 
Estatura mínima: 140 cm
Estatura máxima: 180 cm 
Amostra 2: 
Estatura mínima: 150 cm 
Estatura máxima: 170 cm 
Questão 2: Quanto a variabilidade individual de uma amostra é maior do que a outra?
Resposta:
Questão 1: Em qual das duas amostras os indivíduos variam mais em relação à estatura?
Resposta: 
CONCEITOS:
V – Análise exploratória de dados
*
Variável numérica: 
 
  Exemplo 2: Duas amostras de 6 indivíduos
(os valores abaixo representam a estatura, em cm) 
1) medidas de variabilidade e de posição – Media e Desvio padrão
Amostra 1: 150, 151, 153, 155, 158, 160
Amostra 2: 150, 155, 155, 155, 155, 160 
Questão 1: Em qual das duas amostras os indivíduos variam mais em relação à estatura? 
Resposta:
Questão 2: Quanto a variabilidade de uma amostra é maior que a da outra? 
Resposta:
CONCEITOS:
V – Análise exploratória de dados
*
Variável numérica : 
 
  	
2) Representação gráfica para amostras grandes - Histograma
a) Histograma (distribuição de freqüência empírica)
V – Análise exploratória de dados
*
Variável numérica : 
  	b)Representação gráfica para amostras pequenas - BoxPlot : (forma de agrupar dados através dos percentis) 
	Exemplo : Estudo sobre Diabetes Gestacional - Comparação de 3 grupos de gestantes, normais, tolerância diminuídas e diabéticas em relação a hemoglobina glicosilada (HbA). 
	Box-Plot do nível de Hemoglobina glicosilada, segundo grupo de gestantes.
V – Análise exploratória de dados
*
Variável numérica: 
3) Noções sobre a Distribuição Normal
Propriedades da Distribuição Normal
68% dos valores individuais estão entre  -  e  + 
90% dos valores individuais estão entre  - 1,64 e  + 1,64
95% dos valores individuais estão entre  - 1,96 e  + 1,96
99,7% dos valores individuais estão entre  - 3 e  + 3
Média = Mediana = Moda
Coeficiente de Assimetria = 0 [-1; 1] ou [-2;2]
Coeficiente de Curtose = 0 [-1; 1] ou [-2;2]
V – Análise exploratória de dados
*
Variável numérica : 
·       4) Curva normal ajustada à distribuição de freqüência empírica 
V – Análise exploratória de dados
*
Variável categórica : 
 1) medidas de variabilidade e de posição
Exemplo: Duas amostras de 20 indivíduos classificados em relação ao sexo. 
.
	Questão 1: Em qual das duas amostras os indivíduos variam mais em relação ao sexo? 
	Resposta:
 Questão 2: Quanto a variabilidade de uma amostra é maior que a da outra?
 Resposta:
CONCEITOS:
V – Análise exploratória de dados
*
Variável categórica: 
 2) Representação gráfica: gráfico de barras e pizza 
V – Análise exploratória de dados
Gráf1
		76.6490765172
		23.3509234828
Fonte : PED-Dez/1999
Percentual
Distribuição de Chefes de Famílias segundo gênero
Plan1
		
		
		
		Quadro 3- Distribuição de Chefes de Famílias segundo gênero
		
				sexo		freqüência		porcentagem (%)
				masculino		1743		76.6
				feminino		531		23.4
				total		2274		100.00
		
				Fonte PED -Dez/1999
		
		
		
						masculino		76.6
						feminino		23.4
Plan2
		
Plan2
		76.6490765172
		23.3509234828
Fonte : PED-Dez/1999
Percentual
Distribuição de Chefes de Famílias segundo gênero
Plan3
		
*
VI - Conceitos essenciais para se entender a análise estatística inferencial: erro amostral e intervalo de confiança.
Essência da Estatística Inferencial
	Considere uma população de indivíduos representada por uma variável numérica (Albumina Sérica). 
*
VI - Conceitos essenciais para se entender a análise estatística inferencial: erro amostral e intervalo de confiança.
Questão de interesse 
	“Queremos estimar por meio de uma amostra de tamanho n a média populacional µ”. 
*
 Considerações sobre a solução
 
a) Tipo de Amostra: Amostra probabilística;
b) Para qualquer tamanho de amostra n a média da amostra é “sempre” diferente da média µ da população;
c) A distância entre a média da amostra e a média da população é chamada de Erro Amostral (EA).
VI - Conceitos essenciais para se entender a análise estatística inferencial: erro amostral e intervalo de confiança.
*
 Considerações sobre a solução 
 
d) Para uma determinada população com uma determinada variância, quanto maior for o tamanho da amostra menor será o EA 
 e) Para um determinado tamanho de amostra quanto mais espalhada for a população em torno da média (variância), maior será o EA 
Conclusão: Portanto podemos escrever que o erro amostral (EA) é proporcional ao quociente 
Ou
*
Formulas para se calcular Erro amostral, tamanho da amostra e construir intervalo de confiança para médias e proporções 
*
VII Comparação de dois grupos:
 (Testes de Hipóteses)
 > - Roteiro para testes de hipóteses
a) Formulação das hipóteses estatísticas:
 Hipótese Nula (Ho)
 Hipótese Alternativa (Ha)
b) Determinação de uma medida de afastamento da hipótese
c) Obtenção de um Sistema de Referência
d) Calculo do valor p [ Nível de Significância observado, p-value” ], 
 que representa a probabilidade de errar quando o pesquisador rejeita Ho)
 CAP
*
VII Comparação de dois grupos:
 (Testes de Hipóteses)
 EXEMPLO 1: Variável Numérica, Amostras não pareadas
Comparação de motoristas que se declaram hiper-tensos e normais em relação ao Índice de Massa Corpórea (IMC)
*
VII Comparação de dois grupos:
(Testes de Hipóteses)
Representamos o IMC médio por: 
μ1 , IMC médio dos hipertensos 
μ2, IMC médio dos normais
 b) Medida de afastamento da hipótese nula
versus
Formulação das Hipóteses:
Solução:
onde
*
Sistema de Referência: Distribuição t-Student com (nsim+nnão–2) graus de liberdade;
c) Nível de Significância Descritivo: p=0,0001;
Conclusão: O IMC médio dos indivíduos com pressão alta é estatisticamente maior do que o IMC médio dos indivíduos com pressão normal (p=0,0001).
*
VII Comparação de dois grupos:
 (Testes de Hipóteses)
EXEMPLO 2: Variável Categórica, Amostras não pareadas
Estudo sobre presença de sintomas da doença entre vacinados e não vacinados
*
VII Comparação de dois grupos: (Testes de Hipóteses)
Solução:
Formulação das Hipóteses:
 b) Medida de afastamento da hipótese nula
*
c) Sistema de Referência: Distribuição de Qui-quadrado com 1 grau de liberdade;
d) Nível de Significância Descritivo: p=0,0011;
Conclusão: A proporção de indivíduos com sintoma da doença, entre os vacinados, é estatisticamente menor que entre os não vacinados (p=0,0011).
VII Comparação de dois grupos: (Testes de Hipóteses)
*
VIII Comparação de dois grupos (Intervalo de Confiança-variável numérica) 
Cálculo do erro padrão (EP) da diferença entre as médias; 
Roteiro para Intervalo de Confiança
Variável Numérica:
Cálculo da diferença observada (d) entre as duas médias;
Cálculo do erro amostral da diferença das médias EA(x1 – x2) = c(EP), onde c corresponde ao coeficiente de confiança;
*
VIII Comparação de dois grupos (Intervalo de Confiança-variável numérica) 
Roteiro para Intervalo de Confiança (cont.)
Variável Numérica:
Cálculo do intervalo de confiança (IC)
Interpretação do intervalo de confiança.
*
EXEMPLO 1: Variável Numérica, Amostras não pareadas
Comparação de motoristas que se declaram hiper-tensos e normais em relação ao Índice de Massa Corpórea (IMC)
VIII Comparação de dois grupos (Intervalo de Confiança-variável numérica) 
 
*
Interpretação: 
 
Com 95% de Confiança, a diferença média de IMC entre hiper-tensos e normais foi de 1,56 kg/(cm)2, podendo atingir um valor mínimo de 0,76 kg/(m)2 e um valor máximo de 2,36 kg/(m)2
*
VIII Comparação de dois grupos (Intervalo de Confiança-variável categórica) 
Cálculo do erro padrão (EP) da diferença entre as proporções: 
Roteiro para Intervalo de Confiança
Variável Categórica:
Cálculo da diferença observada (p1-p2) entre as duas proporções;
Cálculo do erro amostral da diferença das proporções EA(p1 – p2) = c(EP), onde c é o coeficiente de confiança;
*
VIII Comparação de dois grupos (Intervalo de Confiança-variável categórica) 
Roteiro para Intervalo de Confiança (cont.)
Variável Categórica:
Cálculo do intervalo de confiança (IC)
Interpretação do intervalo de confiança.
*
EXEMPLO 2: Variável Categórica, Amostras não pareadas
Estudo sobre presença de sintomas da doença entre vacinados e não vacinados
VIII Comparação de dois grupos (Intervalo de Confiança-variável categórica) 
*
VIII Comparação de dois grupos (Intervalo de Confiança-variável categórica) 
Interpretação:
Com 95% de Confiança, a diferença da proporção de Indivíduos com sintoma, entre os não vacinados e os vacinados, foi de 0,096 (9,6%), podendo atingir um valor mínimo de 0,051(5,1%) e um valor máximo de 0,141(14,1%).
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Outros materiais

Outros materiais