Baixe o app para aproveitar ainda mais
Prévia do material em texto
Curso de Análise Estatística - Ângela T. Paes 1 Curso de Análise Estatística - Ângela T. Paes 1. Exercício de identificação e classificação de variáveis 1. Exercício de identificação e classificação de variáveis -- exemplos de estudos.exemplos de estudos. 2. Exercício sobre organização do banco de dados. 2. Exercício sobre organização do banco de dados. 3. Exercício sobre 3. Exercício sobre BoxBox--plotplot.. Exercícios da aula anteriorExercícios da aula anterior Revisão das aulas anterioresRevisão das aulas anteriores ••Introdução à Estatística, organização do banco de dados, Introdução à Estatística, organização do banco de dados, tipos tipos de variáveisde variáveis, descrição de um conjunto de dados., descrição de um conjunto de dados. Análise DescritivaAnálise Descritiva ••Variáveis qualitativas: Variáveis qualitativas: frequênciasfrequências, gráficos de barras e , gráficos de barras e setores.setores. •• Variáveis quantitativas: medidas de posição (média, Variáveis quantitativas: medidas de posição (média, mediana, mediana, quartisquartis, , percentispercentis),gráficos (histograma, ),gráficos (histograma, boxbox--plotplot, , dotdot plotplot). Faltou falar sobre ). Faltou falar sobre medidas de dispersãomedidas de dispersão.. Curso de Análise Estatística - Ângela T. Paes Exemplo 1: Duas amostras de 20 indivíduos Amostra 1: Estatura mínima: 140 cm Estatura máxima: 180 cm Amostra 2: Estatura mínima: 150 cm Estatura máxima: 170 cm Em qual das duas amostras os indivíduos variam mais em relação à estatura? CONCEITOS: amplitudeCONCEITOS: amplitude Medidas de dispersão (variabilidade)Medidas de dispersão (variabilidade) ��Distância entre os valores máximo e mínimo: Distância entre os valores máximo e mínimo: amplitude = valor máximo amplitude = valor máximo –– valor mínimovalor mínimo �� Desvantagem: considera apenas os extremos, ignora a Desvantagem: considera apenas os extremos, ignora a distribuição dos dadosdistribuição dos dados Curso de Análise Estatística - Ângela T. Paes Exemplo 2: Duas amostras de 6 indivíduos (os valores abaixo representam a estatura, em cm) Amostra 1: 150, 151, 153, 155, 158, 160 Amostra 2: 150, 155, 155, 155, 155, 160 Questão 1: Em qual das duas amostras os indivíduos variam mais em relação à estatura? Medidas de dispersão (variabilidade)Medidas de dispersão (variabilidade) Conclusão: nem sempre a amplitude é uma boa medida de variabilidade pois considera apenas os extremos. Problema: encontrar uma medida de variabilidade que leve em conta todos os valores. (Exemplo dos salários) Curso de Análise Estatística - Ângela T. Paes Medidas de dispersão (variabilidade)Medidas de dispersão (variabilidade) �� No exemplo dos salários, verificamos que amostras com a No exemplo dos salários, verificamos que amostras com a mesma média podem ter variabilidades muito diferentes.mesma média podem ter variabilidades muito diferentes. ��Como medir a variabilidade de um conjunto de dados?Como medir a variabilidade de um conjunto de dados? �� A forma mais comum de medir a variabilidade é quantificáA forma mais comum de medir a variabilidade é quantificá--la la pelas distâncias das observações com relação à média.pelas distâncias das observações com relação à média. �� Para qualquer conjunto de dados, a soma dos desvios em Para qualquer conjunto de dados, a soma dos desvios em relação á média é zero. relação á média é zero. ��Proposta: Distâncias quadráticas em relação à média Proposta: Distâncias quadráticas em relação à média (variância).(variância). Curso de Análise Estatística - Ângela T. Paes Variância PopulacionalVariância Populacional �� Média das distância quadráticas:Média das distância quadráticas: µµ: : médiamédia populacionalpopulacional σσ: : desvio padrão populacionaldesvio padrão populacional �� Sua unidade de medida é igual ao quadrado da unidade de Sua unidade de medida é igual ao quadrado da unidade de medida dos dados.medida dos dados. N X XVar N i i 2 12 )( )( ∑ = − == µ σ Curso de Análise Estatística - Ângela T. Paes Variância e desvio padrão amostralVariância e desvio padrão amostral �� Variância amostral:Variância amostral: �� Desvio padrão amostral:Desvio padrão amostral: 1 )( )( 2 1 − − == ∑ = n Xx XDP n i i σ 1 )( )( 2 12 − − == ∑ = n Xx XVar n i i σ Curso de Análise Estatística - Ângela T. Paes 2 Curso de Análise Estatística - Ângela T. Paes Coeficiente de variação (CV)Coeficiente de variação (CV) �� Representa a variabilidade como uma fração em relação à Representa a variabilidade como uma fração em relação à média. média. �� É comum apresentar o CV em porcentagem (CV x 100)É comum apresentar o CV em porcentagem (CV x 100) �� Pode ser usado para comparar a dispersão de dois conjuntos Pode ser usado para comparar a dispersão de dois conjuntos de dados, sem que eles estejam necessariamente na mesma de dados, sem que eles estejam necessariamente na mesma unidade de medida.unidade de medida. X DP)X(CV)X(CV =⇒= µ σ Curso de Análise Estatística - Ângela T. Paes Coeficiente de variação (CV) Coeficiente de variação (CV) -- exemploexemplo Idade de alunos de graduação (2º ano de Medicina) e pós Idade de alunos de graduação (2º ano de Medicina) e pós graduação da graduação da UnifespUnifesp.. O grupo de alunos de graduação é muito mais homogêneo em O grupo de alunos de graduação é muito mais homogêneo em relçãorelção á idade do que o grupo de alunos de pós graduação.á idade do que o grupo de alunos de pós graduação. Os desvios padrão de variáveis diferentes (ou de grupos com Os desvios padrão de variáveis diferentes (ou de grupos com tamanhos muito diferentes) não são comparáveis, mas os CVtamanhos muito diferentes) não são comparáveis, mas os CV´´s s são.são. Graduação (n=109) Pós graduação (n=101) Média 20,4 33,5 DP 1,9 9,5 CV 0,09 = 9% 0,28 = 30% Curso de Análise Estatística - Ângela T. Paes Distribuição das idades dos alunos de graduação e Distribuição das idades dos alunos de graduação e pós da pós da UnifespUnifesp Curso de Análise Estatística - Ângela T. Paes Exemplo: Duas amostras de 20 indivíduos Em qual das duas amostras os indivíduos variam mais em relação ao sexo? Variabilidade para uma proporçãoVariabilidade para uma proporção Seja p a proporção de homens e (1-p) a proporção de mulheres. Variância = p.(1-p) DP = Var = p.(1-p) Var(amostra 1)=0,50.(1-0,50)=0,25 Var(amostra 2)=0,75.(1-0,75)=0,1875 Curso de Análise Estatística - Ângela T. Paes Variabilidade entre amostrasVariabilidade entre amostras �� VVimos que o imos que o desvio padrãodesvio padrão é uma medida de é uma medida de variabilidade individualvariabilidade individual, pois avalia na amostra , pois avalia na amostra o quanto os indivíduos se distanciam da média.o quanto os indivíduos se distanciam da média. �� Se tivermos várias amostras, é interessante Se tivermos várias amostras, é interessante avaliar a variabilidade avaliar a variabilidade de uma amostra para de uma amostra para outraoutra em relação a suas estimativas (médias e em relação a suas estimativas (médias e proporções).proporções). ��Note que diferentes amostras produzem Note que diferentes amostras produzem diferentes médias amostrais.diferentes médias amostrais. Amostras 1.70 1.65 1.83 1.72 1.68 1.56 População 1.64,...,1.79 701x .= 1.68,...,1.72 711x .= 1.70,...,1.84 761x .= M M Amostras diferentes produzem médias diferentesAmostras diferentes produzem médias diferentes Curso de Análise Estatística - Ângela T. Paes 3 Variabilidade das médias amostraisVariabilidade das médias amostrais Cada amostra produziu uma média diferente, ou seja, amédia amostral também tem sua variabilidade. Então, como saber se a média da amostra que selecionamos é uma boa estimativa da média populacional? Como cada amostra resulta em uma média diferente, é Como cada amostra resulta em uma média diferente, é interessante ter uma interessante ter uma medida de precisãomedida de precisão da média da média amostral baseada em sua variabilidade.amostral baseada em sua variabilidade. Para isso é preciso conhecer um pouco mais sobre a distribuição das médias das amostras que podem ser retiradas de uma mesma população. Índice de Massa Corpórea - IMC (Kg/m2) Fr eq u ên ci a 20 25 30 35 0 5 10 15 20 25 30 Distribuição da população dos 109 alunos quanto ao IMCDistribuição da população dos 109 alunos quanto ao IMC MÉDIA = 22,715 kg/mMÉDIA = 22,715 kg/m2 2 DP = 3,314 kg/m2 DP = 3,314 kg/m2 n = 109n = 109 COMANDO NO Rcmdr: GRÁFICOS – HISTOGRAMA Hist(DADOS_ALUNOS$imc, scale="frequency",breaks="Sturges", col="darkgray",xlab="Índice de Massa Corpórea - IMC (Kg/m2)",ylab="Frequência") Como se Como se distribuem as distribuem as médias das médias das amostras retiradas amostras retiradas desta população?desta população? Como se distribuem as médias de amostras de Como se distribuem as médias de amostras de uma mesma população?uma mesma população? Fr e qu ên c ia 20 25 30 35 0 15 Am o st ra s n = 5 20 25 30 35 0 30 Am o s tra s n = 20 20 25 30 35 0 30 Índice de Massa Corpórea - IMC (Kg/m2) Am o s tra s n = 50 20 25 30 35 0 20 Distribuição das médias amostraisDistribuição das médias amostrais População (N=109) Médias amostrais 200 amostras de tamanho 5 Médias amostrais 200 amostras de tamanho 50 média populacional Médias amostrais 200 amostras de tamanho 20 COMANDO NO Rcmdr: Distribuições – Distribuições contínuas – Distribuição Normal – Amostragem da distribuição Normal Fr eq u ên cia 20 25 30 35 0 5 15 25 Am o s tra s n = 5 20 25 30 35 0 20 40 Índice de Massa Corpórea - IMC (Kg/m2) Am o s tra s n = 50 20 25 30 35 0 10 20 30 Distribuição das médias amostraisDistribuição das médias amostrais População Médias amostrais 200 amostras de tamanho 5 Médias amostrais 200 amostras de tamanho 50 média populacional Teorema do Limite CentralTeorema do Limite Central Na prática, não se pode calcular a variabilidade da média, pois em geral o pesquisador dispõe de uma única amostra para estimar a verdadeira média µ e não de todas as amostras possíveis. No entanto, pode-se mostrar matematicamente que se extrairmos muitas amostras de tamanho n de uma mesma população com média µ e desvio padrão σ, a distribuição das médias amostrais vai se aproximando de uma DISTRIBUIÇÃO NORMAL com média igual à verdadeira média µ e desvio padrão σ/√n . Este resultado é conhecido como Teorema do Limite Central (TLC). Distribuição da média amostral Distribuição da média amostral –– ERRO PADRÃOERRO PADRÃO Segundo o TLC, a média amostral tem distribuição Segundo o TLC, a média amostral tem distribuição aproximadamente Normal com média aproximadamente Normal com média com média µµ e desvio padrão σσ/√n/√n onde onde µ µ é a média populacional, é a média populacional, σσ é o é o desvio padrão populacional e desvio padrão populacional e nn é o tamanho da amostraé o tamanho da amostra. O desvio padrão das médias amostrais σ/√n é conhecido como erro padrão e pode ser estimado por: n DPEP = DP: desvio padrão amostral n: tamanho da amostra Curso de Análise Estatística - Ângela T. Paes 4 Curso de Análise Estatística - Ângela T. Paes Recapitulando:Recapitulando: •• Desvio Padrão:Desvio Padrão: variabilidade dos valores variabilidade dos valores individuais em torno da médiaindividuais em torno da média •• Erro Padrão:Erro Padrão: variabilidade das estimativasvariabilidade das estimativas •• variabilidade entre as médias (ou proporções) variabilidade entre as médias (ou proporções) amostrais que podem ser retiradas da populaçãoamostrais que podem ser retiradas da população •• mede a mede a incertezaincerteza da média (ou proporção) de da média (ou proporção) de uma única amostra como uma estimativa da uma única amostra como uma estimativa da média (proporção) da populaçãomédia (proporção) da população •• quanto maior a amostra, menor a incertezaquanto maior a amostra, menor a incerteza n DPEP = Curso de Análise Estatística - Ângela T. Paes Observações sobre o erro padrãoObservações sobre o erro padrão Note que o erro padrão é Note que o erro padrão é diretamente proporcionaldiretamente proporcional ao desvio padrão da variável e ao desvio padrão da variável e inversamente inversamente proporcionalproporcional ao tamanho da amostra.ao tamanho da amostra. Portanto Portanto medidas com alta variabilidademedidas com alta variabilidade e e amostras amostras pequenaspequenas resultam em um erro padrão grande, o resultam em um erro padrão grande, o que implica que implica baixa precisãobaixa precisão da média amostral como da média amostral como uma estimativa da média populacional.uma estimativa da média populacional. Como medir essa precisão?Como medir essa precisão? Para qualquer tamanho de amostra n, a média da amostra é “sempre” diferente da média µ da população . A distância entre a média da amostra e a média da população é chamada de Erro Amostral (EA). Não é possível calcular diretamente o erro amostral, pois a média populacional não é conhecida, mas intuitivamente sabemos algumas de suas propriedades. Erro AmostralErro Amostral • Para uma determinada população com um determinado desvio- padrão, quanto maior for o tamanho da amostra menor será o EA • Para um determinado tamanho de amostra quanto mais espalhada for a população em torno da média (desvio-padrão), maior será o EA • Portanto podemos escrever que o erro amostral (EA) é proporcional ao erro padrão Erro Amostral (fatos intuitivos)Erro Amostral (fatos intuitivos) Erro amostral ( EA ) : medida de precisão da estimativa associada a um certo nível de confiança EPCEA ⋅= EP é o erro padrão da estimativa C é o coeficiente de confiança, que pode ser obtido a partir da distribuição Normal padrão. Curso de Análise Estatística - Ângela T. Paes Dimensionamento de amostrasDimensionamento de amostras •• Para estudos nos quais o objetivo principal é Para estudos nos quais o objetivo principal é estimar uma média ou uma proporção na população, estimar uma média ou uma proporção na população, o cálculo do tamanho da amostra pode ser baseado o cálculo do tamanho da amostra pode ser baseado no erro amostral, no coeficiente de confiança e em no erro amostral, no coeficiente de confiança e em uma estimativa da variabilidade.uma estimativa da variabilidade. 2 .. .... =⇒=⇒ =⇒== EA DPc n EA DPc n DPcnEA n DP cEPcEA Curso de Análise Estatística - Ângela T. Paes 5 Curso de Análise Estatística - Ângela T. Paes 2 2 2 EA DP cn = Dimensionamento de amostras Dimensionamento de amostras –– estimação de uma médiaestimação de uma média Exemplo: Um médico de um determinado hospital está interessado em saber qual a idade média das mulheres que morrem devido à problemas cardíacos. Com base em estudos anteriores, estima-se que o desvio padrão é em torno de 10 anos. Considerando um um erro de 2 anos e um nível de confiança de 95%, qual deve ser o tamanho da amostra? pacientesn 96 2 1096,1 2 2 2 ≅= Curso de Análise Estatística - Ângela T. Paes 2 2 )1.( EA pp cn − = Dimensionamento de amostras Dimensionamento de amostras –– estimação de uma proporçãoestimação de uma proporçãoExemplo: Um pesquisador deseja estimar a prevalência de tuberculose em sua cidade entre crianças até 5 anos de idade. Ele supõe que a verdadeira taxa dificilmente excede 20% e deseja que a diferença entre a prevalência real e estimada seja de até 5%. Qual deveria ser o tamanho de amostra para um nível de confiança de 95%? criançasn 246 05,0 )20,01.(20,096,1 22 ≅ − = Curso de Análise Estatística - Ângela T. Paes ExercíciosExercícios Perguntas para reflexão:Perguntas para reflexão: 1. O que é distribuição Normal? 1. O que é distribuição Normal? 2. Por quê a distribuição Normal é tão importante?2. Por quê a distribuição Normal é tão importante? 3. Na prática, como verificamos se a distribuição do dados é Normal?3. Na prática, como verificamos se a distribuição do dados é Normal? 4. Quais as consequências de uma distribuição não Normal?4. Quais as consequências de uma distribuição não Normal? 5. Quais as alternativas de análise quando a distribuição não é Normal?5. Quais as alternativas de análise quando a distribuição não é Normal? PROBLEMA 1:PROBLEMA 1: SabeSabe--se que, entre indivíduos normais, a média de Glicemia se que, entre indivíduos normais, a média de Glicemia em jejum é de 80 em jejum é de 80 mgmg/dl. Em uma pesquisa realizada com 49 pacientes /dl. Em uma pesquisa realizada com 49 pacientes hipertensos, encontrouhipertensos, encontrou--se uma glicemia média de 86 se uma glicemia média de 86 mgmg/dl e desvio /dl e desvio padrão de 12 padrão de 12 mgmg/dl. Existe evidência estatística de que a glicemia /dl. Existe evidência estatística de que a glicemia entre os hipertensos difere da glicemia de indivíduos normais?entre os hipertensos difere da glicemia de indivíduos normais? PROBLEMA 2:PROBLEMA 2: Um estudo registrou o tempo (em meses) entre a remissão de Um estudo registrou o tempo (em meses) entre a remissão de uma doença e a recidiva de 25 pacientes, sendo 12 homens e 13 uma doença e a recidiva de 25 pacientes, sendo 12 homens e 13 mulheres. Sabendo que o tempo médio nos homens foi de 10 (mulheres. Sabendo que o tempo médio nos homens foi de 10 (dpdp=6,55) =6,55) e nas mulheres foi de 7,8 (e nas mulheres foi de 7,8 (dpdp=4,3), você acha que existe evidência =4,3), você acha que existe evidência estatística para concluir que as mulheres retornam mais cedo ao estatística para concluir que as mulheres retornam mais cedo ao hospital?hospital?
Compartilhar