Baixe o app para aproveitar ainda mais
Prévia do material em texto
Tanto a ciência quanto a sociedade interessam-se pelo levantamento de dados para promoção da saúde e qualidade de vida. Pesquisas na área médica possibilitam diagnósticos precoces, proporcionando a prevenção de doenças e viabilizando o avanço de tratamentos. Assim, na busca pela melhor evidência científica, técnicas estatísticas são úteis e necessárias para obtenção de informações fidedignas. Metodologia: Observação C Questionamento C Formulação de hipótese C Planejamentos C Experimentação C Analise de resultados C Conclusão C Divulgação. Podemos dividir a Estatística em: Estatística descritiva (Análise exploratória dos dados): primeiro contato com dados. • Interesse: redução, análise e interpretação dos dados através de cálculos de medidas resumo e gráficos. • Tenta-se obter dos dados a maior quantidade possível de informação. Probabilidade: auxilia na modelagem de fenômenos aleatórios (não previsíveis), ou seja, aqueles em que está presente a incerteza (ex: curtida na foto no Instagram, previsão do tempo, São Paulo será rebaixado). • Ferramenta fundamental para a inferência estatística Inferência Estatística: conjunto de técnicas que permite, a partir de dados amostrais, tirar conclusões sobre a população de interesse, controlando erros. • População: conjunto de todos os elementos ouresultados sob investigação. • Amostra: qualquer subconjunto da população. Probabilístico: reúne todas as técnicas que usam mecanismos aleatórios de seleção dos elementos de uma amostra, atribuindo a cada um deles uma probabilidade de pertencer à amostra. Não probabilístico: amostras intencionais, amostras de voluntários. Amostragem: AMOSTRAGEM PROBABILÍSTICA: É uma amostra selecionada de uma forma que cada item ou pessoa na população estudada têm uma probabilidade (não nula) conhecida de ser incluída na amostra. Amostragem Aleatória Sistemática: indivíduos da população são ordenados de alguma forma – alfabeticamente ou através de algum outro método. Um ponto de partida aleatório é sorteado, e então cada k-ésimo membro da população é selecionado para a amostra. Amostragem Aleatória Estratificada: a população é inicialmente dividida em subgrupos (estratos) e uma subamostra é selecionada a partir de cada estrato da população. Amostragem por Conglomerados: a população é inicialmente subdividida inicialmente em subgrupos (estratos) e uma amostra de estratos é selecionada. A seguir, todas as amostras são observadas individualmente. AMOSTRAGEM NÃO PROBABILÍSTICA: É uma amostra selecionada de uma forma quando que a escolha dos respondentes não segue um modelo aleatório. Além disso,não existe um controle estatístico de representação do universo pesquisado em sua amostra. Tipos de variáveis: Variáveis Quantitativas: são características que podem ser descritas por números. Podendo ser: • Variáveis discretas: a variável é avaliada em números que são resultados de contagens e, por isso, somente fazem sentido números inteiros. Exemplos: número de filhos, número de bactérias por litro de leite, número de cigarros fumados por dia. • Variáveis contínuas: a variável é avaliada em números que são resultados de medições e, por isso, podem assumir valores com casas decimais e devem ser medidas por meio de algum instrumento. Exemplos: massa (balança), altura (régua), tempo (relógio), pressão arterial. Variáveis Qualitativas: são definidas por categorias, ou seja, representam uma classificação dos indivíduos. Podendo ser: • Variáveis nominais: não existe ordenação dentre as categorias. Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio. • Variáveis ordinais: existe uma ordenação entre as categorias. Exemplos: escolaridade (1º, 2º, 3º graus), estágio da doença (inicial, intermediário, terminal). Escalas para Medidas de Atitudes: 1. Escalas de diferencial semântico Escalas bipolares de 7 pontos, podendo-se atribuir valores numéricos ou não aos 7 pontos. Alguns adjetivos bipolares utilizados são: ótimo/péssimo, fácil/difícil, forte/fraco, etc. 2. Escalas Likert Neste tipo de escala, os respondentes são solicitados a concordarem ou discordarem das afirmações e também informarem o grau de concordância ou discordância. A cada resposta é atribuído um número refletindo a direção da atitude do respondente. O somatório dos pontos obtidos para cada afirmação será a pontuação da atitude do respondente. Alguns termos utilizados nas escalas Likert são: (1) Concordo totalmente; concordo; indiferente; discordo; discordo totalmente (2) Nunca; às vezes; indiferente; muitas vezes; sempre (3) Leve; moderada; normal; severa; profunda Medidas de Posição: são medidas que indicam a localização dos dados. Medidas de Dispersão: são medidas que indicam a variabilidade/ dispersão dos dados. Medidas de posição Mínimo (min): o menor valor observado Máximo (max): o maior valor observado Moda: é o valor que ocorre com maior frequência no conjunto de dados. Média Aritmética: ✓É o “ponto de equilíbrio” da distribuição dos dados; ✓É um valor que aponta para onde mais se concentram os dados de uma distribuição. ✓É a medida de tendência central mais utilizada; ✓Leva em conta todos os valores da variável; ✓É afetada por valores extremos; 𝑚é𝑑𝑖𝑎(𝜇) = 𝑠𝑜𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎çã𝑜 𝑡𝑎𝑚𝑎𝑛ℎ𝑜 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 𝑥 = ∑ 𝑥1𝑛𝑖=1 𝑛 Mediana (Md): é o valor que dividi um conjunto de dados ao meio. Mediana de um nº par 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = 𝑚é𝑑𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑛 2 𝑒 𝑛 + 2 2 Média: funciona bem com muitos métodos estatísticos, é sensível a valores extremos. • Mediana: costuma ser uma boa escolha quando há valores extremos. • Moda: apropriada para dados ao nível nominal. →A medida mais usada, e mais importante e informativa, é a média. Assim, mediana e moda só devem ser usadas quando a média falha em informar a tendência central dos dados. Quartis: ➔ Dividem os dados ordenados em 4 partes iguais: ▪ 25% dos dados estão abaixo do 1o quartil (Q1) ▪ 50% dos dados estão abaixo do 2o quartil (Q2 ou mediana) ▪ 75% dos dados estão abaixo do 3o quartil (Q3) ➔ Não é afetada por valores extremos Decis ➔São os 9 valores que dividem um conjunto de dados em 10 partes iguais ➔D1, D2, D3,.... e D9 Percentis ➔São os 99 valores que dividem um conjunto de dados em 100 partes iguais ➔P1, P2, P3,.... e P99 Medidas de Dispersão Finalidade: encontrar um valor que resuma a variabilidade dos dados. Medidas: • Amplitude • Variância • Desvio Padrão • Coeficiente de Variação Amplitude (A): É a diferença entre o máximo e o mínimo de um conjunto de dados. • É uma medida simples que não leva em consideração a distribuição dos dados. 𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒(𝐴) = 𝑚á𝑥 − 𝑚𝑖𝑛 Conjuntos de dados diferentes podem ter a mesma amplitude. ➢A amplitude se baseia apenas nos valores extremos. ➢A amplitude não mede bem a variabilidade. Variância (Var): é uma medida de dispersão que indica quão longe em geral os seus valores se encontram da média. Variância populacional: 𝜎2 = ∑ (𝑋𝑖 − 𝜇)2𝑁𝑖=1 𝑁 Variância amostral 𝑆2 = ∑ (𝑥𝑖 − �̅�) 2𝑛 𝑖=1 𝑛 − 1 Desvio Padrão (dp): raíz quadrada da variância. Coeficiente de Variação (CV): razão entre o desvio padrão e a média. ➢é uma medida de dispersão relativa; ➢expressa a variabilidade em relação à média; 𝐶𝑉 = 𝑑𝑝 (𝑋) �̅� 𝑥100 ➢quanto menor o CV mais homogêneo é o conjunto de dados; ➢elimina o efeito da magnitude dos dados . ➢ Costuma-se considerar que o CV superior a 50% indica alto grau de dispersão e,consequentemente, pequena representatividade da média. ➢ Enquanto que para valores inferiores a 50%, a média será tanto mais representativa quanto menor for o valor de seu CV. Distância Interquartil: Medida de dispersão alternativa, dq=q(0,75)-q(0,25) • Os quartis q(0,25)=q1, q(0,5)=q2e q(0,75)=q3 são medidas de localização resistentes de uma distribuição. • Resistente: quando for pouco afetada por mudanças de uma pequena porção dos dados. Boxplot Como fazer um boxplot? 1°) colocar as variáveis em ordem 2°) achar a mediana (a mediana será o Q2) 3°) achar a mediana entre o menor número e a mediana Q1 4°) achar a mediana entre a mediana e o maior número Q3 5°) achar o limite superior e o limite inferior 6° ) achar os outliers (variável que está fora dos limites) 7°) montar o gráfico A partir do retângulo, para cima, segue uma linha até o ponto mais remoto que não exceda LS=q3+(1,5)dq, chamado limite superior. De modo similar, da parte inferior do retângulo, para baixo, segue uma linha até o ponto mais remoto que não seja menor do que LI=q1-(1,5)dq , chamado limite inferior. Os valores compreendidos entre esses dois limites são chamados valores adjacentes. As observações que estiverem acima do LS ou abaixo do LI estabelecidos serão chamadas outliers. Distribuição normal Probabilidade A teoria da probabilidade é usada para medir a incerteza e para ajudar a tirar conclusões a partir de um estudo baseado em uma amostra. Fenômeno aleatório é a situação ou acontecimento cujos resultados não podem ser previstos com certeza. Distribuição de frequência: instrumento importante na avaliação da variabilidade de um fenômeno aleatório Epidemiologista utiliza o modelo probabilístico para verificar a ocorrência, ou não, de certos eventos na história natural da doença. Diversas taxas e indicadores são casos especiais de aplicações das probabilidades. Uma variável X é dita aleatória quando podemos associar probabilidades aos seus possíveis valores. A curva contínua da figura (modelo teórico) denomina-se curva Normal. ➔É a mais importante das distribuições (representa fenômenos naturais) ➔Os dados estão distribuídos normalmente em torno da média (formato de “sino”) ➔Média (μ) = Moda = Mediana A forma dessa curva sino pode ser expressa matematicamente em termos de dois conceitos estatísticos já discutidos - média e desvio padrão. Definição: Dizemos que a v. a. X tem distribuição normal com parâmetros μ e σ2,− ∞ < μ < +∞ e 0 < σ2< +∞, se sua densidade de probabilidade é ➔x pode assumir qualquer valor real; ➔ A curva é simétrica em torno da média (formato de “sino”) ➔ Média (μ) = Moda = Mediana ➔ O desvio-padrão determina a largura da curva ➔ É completamente determinada pela média (μ) e pelo desvio padrão (σ) ➔Toda a área sob a curva foi mapeada a partir de uma distribuição Normal Padrão, com variável contínua Z, média(μ)=0 e desvio padrão(σ)=1. ➔Fórmula para padronização: permite que uma variável (X), com distribuição normal, média ( μ ) e desvio padrão ( σ ) , seja transformada em uma variável Normal Padronizada Z. 𝑍 = 𝑋 − 𝜇 𝜎 Propriedades: • A área total abaixo da curva é igual a 1 ou 100%; • Aproximadamente 68% (≈2/3) dos valores de x situam-se entre os pontos (μ- σ) e (μ+ σ);• Aproximadamente 95% dos valores de x estão entre (μ-2σ) e (μ+2σ); • Aproximadamente 99,7% dos valores de x estão entre (μ-3σ) e (μ+3σ). Inferência Estatística: conjunto de técnicas que permite, a partir de dados amostrais, tirar conclusões sobre a população de interesse. Foi observado que a variação natural das médias amostrais tende a seguir uma distribuição em forma de sino, com a maioria dos valores agrupados simetricamente em torno da média populacional e, poucos valores caindo nas caudas. Erro Padrão (EP) ➔Erro padrão de um estimador. ➔Mede a Variabilidade Amostral. Desvio Padrão mede Variabilidade Individual. Estimação Intervalar A estimativa obtida geralmente não será exatamente igual ao valor verdadeiro de parâmetro. Assim, seria interessante medir o possível erro cometido na estimação de um determinado parâmetro.Daí, surge a ideia de estabelecer limites, que com certa probabilidade incluam o verdadeiro valor do parâmetro desconhecido. Estimação Intervalar (Intervalo de Confiança) • Faixa de valores que permite estimar o parâmetro com um certo “grau de confiança”. • Medida de precisão das estimativas pontuais ➔há 95% de confiança de que o verdadeiro valor da média esteja entre xҧ− 1,96 EP e xҧ+ 1,96 EP. ➔95% das amostras de tamanho n vão fornecer uma média que se afasta da verdadeira no máximo 1,96 erros padrão. ➔Quanto maior a amplitude do intervalo, menor a precisão e maior a incerteza associada à estimativa. ➔ Os intervalos de confiança podem ser utilizados não só para obter estimativas, mas também para comparar estimativas obtidas em diferentes amostras (ou subgrupos de uma mesma amostra) 𝐸𝑃 = 𝐷𝑃 √𝑛
Compartilhar