Baixe o app para aproveitar ainda mais
Prévia do material em texto
Dados & Variáveis Estatística é a ciência que fornece os princípios e os métodos para coleta, organização, resumo, análise e interpretação de informações. DADOS ESTATÍSTICO: é toda informação coletada e registrada que se refere a uma variável. AMOSTRA: Conjunto de dados coletados e qou selecionados de uma população estatística definida. AMOSTRAGEM: É o método de retirada/coleta de informações dos elementos amostrais. VARIÁVEIS As variáveis assumem valores diferentes em diferentes unidades. Variável Preditora: O fator que precede ao desfecho. Por exemplo -> Idade; Gênero; Atividade Física; Alimentação; Estresse; Tabagismo; Sedentarismo. Variável Desfecho: são variáveis que são monitorizadas durante um estudo para documentar o impacto que uma dada intervenção ou exposição tem na saúde de uma dada população. Exemplos típicos de desfechos são cura, piora clínica e mortalidade. O desfecho primário é a variável que é a mais relevante para responder à questão da pesquisa. Tipos de variáveis Qualitativas ou categorizadas • Os dados são distribuídos em categorias mutuamente exclusivas • Não se diferem em grau de importância • Descrevem características • Representadas por palavras (não numéricos) VARIÁVEL QUALITATIVA NOMINAL • A variável é nominal quando os dados são distribuídos em categorias mutuamente exclusivas nomeadas em qualquer ordem (SEM PREFERÊNCIA) • São variáveis nominais: cor de cabelos (loiro, castanho, preto, ruivo), tipo de sangue (O, A, B, AB), não ter ou ter determinada doença. VARIÁVEL QUALITATIVA ORDINAL • A variável é ordinal quando os dados são distribuídos em categorias mutuamente exclusivas que têm ordem natural. • São variáveis ordinais: escolaridade (primeiro grau, segundo grau, terceiro grau), classe social (A, B, C, D, E), gravidade de uma doença (leve, moderada, severa) etc. Quantitativa ou numérica Expressa por números VARIÁVEL QUANTITATIVA DISCRETA • A variável discreta só pode assumir alguns valores em dado intervalo. Quantidade finita ou enumerada. Números inteiros. • Utilizado em ESCALAS • São variáveis discretas: número de filhos (nenhum, 1, 2, 3, 4, 5 ou mais), quantidade de visitas ao médico no último ano (zero, 1, 2, 3, 4 ou mais), número de pessoas na fila de espera de um serviço de saúde. VARIÁVEL QUANTITATIVA CONTÍNUA • A variável contínua assume qualquer valor em dado intervalo (pode ser um número inteiro ou não) • Não possuem finitude > imprecisão na detecção • São variáveis contínuas: peso, temperatura corporal, tempo, distância, pressão sanguínea. Medidas de Tendência Central e Medidas de Dispersão Medidas de Tendência Central MÉDIA A média (Me) é calculada somando-se todos os valores de um conjunto de dados e dividindo-se pelo número de elementos deste conjunto. Como a média é uma medida sensível aos valores da amostra, é mais adequada para situações em que os dados são distribuídos mais ou menos de forma uniforme, ou seja, valores sem grandes discrepâncias. MEDIANA A Mediana (Md) representa o valor central de um conjunto de dados ordenados. Para encontrar o valor da mediana é necessário colocar os valores em ordem crescente ou decrescente. Quando o número de dados é ímpar, existe um único valor na posição central. Esse valor é a mediana. Por exemplo, o conjunto de dados {3; 5; 9} tem mediana 5 Quando o número de dados é par, existem dois valores na posição central. A mediana é a média desses dois valores. Por exemplo, o conjunto {3; 5; 7; 9} tem a mediana 6, porque 6 é a média de 5 e 7 É recomendado quando o conjunto de dados apresenta um outlier (valor aberrante/discrepante). EX: Renda familiar mensal de pacientes que tiveram febre amarela (Reais): 500 1.000 800 1.100 700 2.000 900 1.500 10.000.000 Média: 1.112.055,56 reais/mês Mediana: 1.000 reais/mês > Representa melhor o grupo MODA A Moda (Mo) representa o valor mais frequente de um conjunto de dados, sendo assim, para defini-la basta observar a frequência com que os valores aparecem. Um conjunto de dados é chamado de bimodal quando apresenta duas modas, ou seja, dois valores são mais frequentes. Medidas de Dispersão São parâmetros estatísticos usados para determinar o grau de variabilidade dos dados de um conjunto de valores. A utilização desses parâmetros torna a análise de uma amostra mais confiável, visto que as variáveis de tendência central (média, mediana, moda) muitas vezes escondem a homogeneidade ou não dos dados. AMPLITUDE É definida como a diferença entre a maior e a menor observação de um conjunto de dados, isto é: A = Xmaior - Xmenor DESVIO PADRÃO O desvio padrão é uma medida de variabilidade que mede a dispersão dos dados e permite, por conta disso, interpretação de interesse. Para calcular o desvio padrão, é preciso, primeiro, calcular o desvio e a variância. → Desvio → Variância • Calcule o desvio de cada observação em relação à média; • Eleve cada desvio ao quadrado; • Some os quadrados dos desvios; • Divida o resultado por n-1 (n é o número de observações) Variância da amostra é a soma dos quadrados dos desvios de cada observação em relação à média, dividida por (n – 1) → Desvio Padrão Desvio padrão é a raiz quadrada da variância, com sinal positivo. o Quanto maior o valor do Dp, maior é a dispersão dos dados da pesquisa (mais diferentes entre si). o Usamos o Dp quando foi calculada a Média QUARTIL Os quartis são pontos que dividem o conjunto de dados ordenados em quatro partes, de modo que cada parte contenha 25% dos dados. O primeiro quartil (Q1) ocupa a posição central entre a mediana e o dado de menor valor. O segundo quartil é a mediana do conjunto de dados. O terceiro quartil (Q3) ocupa a posição central entre a mediana e o dado de maior valor. Então, se um item está “no quartil superior”, significa que está entre os 25% de itens de maior valor. Organize os dados em ordem crescente. Encontre a mediana, que é o segundo quartil; marque esse valor; → Número ímpar de dados Exemplo: Conjunto 1, 2, 3, 4, 5, 6, 7, 9, 10 é ímpar. Então, a mediana é o valor central dos dados ordenados, ou seja, 5. Para obter o primeiro quartil, separe os dados iguais ou menores do que a mediana. Primeiro quartil é a mediana do novo conjunto de dados, ou seja, 3. 1, 2, 3, 4, 5. Para obter o terceiro quartil, separe os dados iguais ou maiores do que a mediana. Terceiro quartil é a mediana do novo conjunto de dados, ou seja, 7. 5, 6, 7, 9, 10 → Número par de dados A mediana dos dados 0, 1, 2, 3, 4, 5, 5, 7, 9, 10 é a média dos dois valores que estão no centro dos dados ordenados, ou seja, 4,5. 0, 1, 2, 3, 4, 5, 6, 7, 9, 10. Para obter o primeiro quartil, separe os dados menores do que a mediana. O primeiro quartil é a mediana desse novo conjunto de dados, ou seja, 2. 0, 1, 2, 3, 4. Para obter o terceiro quartil, separe os dados maiores do que a mediana. O terceiro quartil é a mediana desse novo conjunto de dados, ou seja, 7. 5, 6, 7, 9, 10 → Distância Interquartílica 3º quartil – 1º quartil Quadros, Tabelas e Gráficos TABELAS Formatação: título, cabeçalho, conteúdo, fonte e, se necessário, nota(s) explicativa(s). Mínimo possível de linhas na horizontal e as bordas laterais não podem ser fechadas. Conteúdo: O dado numérico se destaca como informação central (dados quantitativos). Este sinal significa que o extremo inferior está incluído no intervalo, mas o superior não. Utilizado para variáveis quantitativas contínuas. QUADROS Formatação: título, cabeçalho, conteúdo, fonte e, se necessário, nota(s) explicativa(s). Terá suas laterais fechadas e sem limite de linhas horizontais. Conteúdo: Síntese de informações textuais (dados qualitativos).GRÁFICO BOX PLOT Distância Interquartílica = Q3 – Q1 = 100 – 65 = 35 LS = 1,5 x Distância Interquartílica = +52,5 LI = 1,5 x Distância Interquartílica = -52,5 Outlier = ponto ou asterisco Histograma e Normalidade CURVA DE GAUSS o Curva simétrica o Maioria dos dados encontrados nas ciências da natureza seguem esta distribuição. o A média, a mediana e a moda coincidem e estão no centro da distribuição; a curva é simétrica em torno da média. Logo, 50% dos valores são iguais ou maiores do que a média e 50% dos valores são iguais ou menores do que a média; o Na maioria das vezes, se a variável é contínua, o histograma se assemelha à distribuição normal. TESTE DE NORMALIDADE o Toda vez que utilizamos um teste, só o fazemos testando hipóteses. o Para os testes de normalidade as hipóteses são: • H0 (hipótese nula): distribuição normal (p>0.05) • H1 (hipótese alternativa): distribuição não normal (p<0.05) → Testes mais utilizados: Kolmogorov-Smirnov e Shapiro-Wilk Valor Z Mede a posição de um dado em relação à média (quão distante da média está). Distância em desvio padrão. Média = μ (mi) Desvio padrão = σ (sigma) → Espera-se que 68% dos valores estarão dentro de 1 desvio padrão da média. E 95% dentro de 2 desvios padrões. Valor Z é uma medida de posição que indica a área de distância que um valor se encontra a partir da média na escala horizontal do gráfico. O valor de média se torna ZERO (0) e todo desvio se torna UM (1). Na prática desejamos calcular probabilidades para diferentes valores de μ e σ. Para isso, a variável X cuja distribuição é N (μ, σ ) é transformada numa forma padronizada Z com distribuição N (0, 1 – distribuição normal padrão) pois tal distribuição é tabelada! A quantidade z é dada por: Exemplo: Qual é a probabilidade de a variável Z, que tem distribuição normal reduzida, assumir um valor entre zero e 1,25? A probabilidade de Z assumir um valor entre zero e 1,25 corresponde à área escurecida no gráfico. Essa probabilidade é encontrada na Tabela. Para achar a probabilidade pedida: na primeira coluna da Tabela, procure o valor 1,2; encontrado o valor 1,2, siga na linha que começa com esse valor até a coluna que começa com 0,05.; no cruzamento de 1,2 com 0,05, você encontra 0,3944 (também está em negrito); 0,3944 é a probabilidade de Z assumir um valor entre zero e 1,25. Escrevemos: 𝑃(≤ 𝑍 ≤ 1,25) = 0,3944 Exemplo: Qual é a probabilidade de a variável Z, que tem distribuição normal reduzida, assumir um valor igual ou maior que 1,25? A probabilidade de Z assumir valor igual ou maior que 1,25 é a medida da área escurecida no gráfico. Então: a probabilidade de ocorrer valor entre zero e 1,25, que corresponde à área com hachuras é: P (0 ≤ Z ≤ 1,25) = 0,3944; a probabilidade de Z assumir valor maior ou igual à média zero é 0,5000; 𝑃(𝑍 ≥ 0) = 0,5000 Logo, a probabilidade de ocorrer valor maior ou igual a 1,25 (área escura) é: 𝑃(𝑍 ≥ 1,25) = 0,5000 − 0,3944 = 0,1056 Exemplo: Qual é a probabilidade de a variável Z, que tem distribuição normal reduzida, assumir valor menor do que -0,51? A probabilidade pedida é a área escurecida no gráfico; como a curva é simétrica, a probabilidade de ocorrer valor igual ou menor do que -0,51 é igual à probabilidade de ocorrer valor igual ou maior que 0,51. A probabilidade é dada na Tabela; encontre a linha que começa com 0,5 e a siga, até achar a coluna que tem 0,01 no cabeçalho. No cruzamento da linha que começa com 0,5 e da coluna que começa com 0,01, está 0,1950, que corresponde à área com hachuras. Escrevemos: 𝑃(0 ≤ 𝑍 = 0,51) = 𝑃(−0,51 ≤ 𝑍 ≤ 0) = 0,1950 A probabilidade de ocorrer valor menor ou igual a zero (a média) é 0,5000: 𝑃(𝑍 ≤ 0) = 0,5000 então, 𝑃(𝑍 ≤ −0,51) = 0,5000 − 0,1950 = 0,3050 Amostra População (ou Universo) é o conjunto de unidades sobre o qual desejamos informação. Amostra é todo subconjunto de unidades retiradas da população para obter a informação desejada. MÉTODOS DE AMOSTRAGEM AMOSTRA PROBABILÍSTICA A amostra probabilística é constituída por unidades retiradas da população por procedimento casual ou aleatório. Amostra Casual Simples A amostra é obtida por sorteio Amostra Estratificada Se a população estiver naturalmente dividida em grupos distintos de pessoas, o pesquisador deve obter uma amostra aleatória estratificada. Para isso, agrupa as pessoas similares em estratos e obtém, de cada estrato, uma amostra casual simples proporcional ao tamanho do estrato, formando, então, uma só amostra. AMOSTRA SEMIPROBABILÍSTICA Usa-se o procedimento parcialmente aleatório. Amostra sistemática A amostra sistemática é constituída por unidades retiradas da população seguindo um sistema preestabelecido. Você ordena as unidades, numera e retira para a amostra a k-ésima unidade. O número k é obtido por sorteio. Amostra por conglomerados Conglomerados são grupos de unidades que já existem na população por alguma razão. Um asilo é um conglomerado de idosos; uma escola de ensino médio é um conglomerado de adolescentes; um hospital é um conglomerado de doentes, ou seja, locais com pessoas com características similares. Na amostragem por conglomerados, um conglomerado é selecionado ao acaso da população. Amostra por Quotas Na amostragem por quotas, as pessoas são selecionadas para a amostra porque têm uma característica bem específica. A ideia de quota é semelhante à de estrato, com uma diferença básica: a amostra estratificada é selecionada ao acaso da população, enquanto a amostra por quotas não é aleatória. NÃO PROBABILÍSTICA Conveniência A amostra não probabilística ou de conveniência é constituída por unidades reunidas em uma amostra simplesmente porque o pesquisador tem fácil acesso a essas unidades. O professor que toma os alunos de sua classe como amostra de toda a escola está usando uma amostra de conveniência. Testes Diagnósticos Padrão-ouro (gold standard) é a referência utilizada para confirmar a presença ou ausência da doença, sendo confirmada por diferentes clínicos. O médico precisa ter uma estimativa da probabilidade de erro dos testes diagnósticos, isto é, uma estimativa da probabilidade de obter um resultado positivo para quem não tem a doença e da probabilidade de um resultado negativo para quem tem a doença. Dizemos que o resultado do teste é: Verdadeiro-positivo (VP): quando detecta a doença em quem tem a doença. Falso-negativo (FN): quando não detecta a doença em quem tem a doença. Verdadeiro-negativo (VN): quando não detecta a doença em quem não tem a doença. Falso-positivo (FP): quando detecta a doença em quem não tem a doença. Sensibilidade (S) do teste: é a proporção de verdadeiros-positivos (resultados positivos corretos) no total de pessoas com a doença. Especificidade (E) do teste: é a proporção de verdadeiros-negativos (resultados negativos corretos) no total de pessoas sem a doença. Exemplo: Considere que um teste diagnóstico para detectar determinada doença foi aplicado em 1.000 participantes de pesquisa: 400 tinham a doença e 600 não tinham a doença. Os resultados do teste foram positivos em 380 doentes e negativos em 360 participantes sem a doença. → O teste é sensível, porque a probabilidade de dar resultado positivo quando a pessoa tem a doença é alta (acertou em 95% dos casos da amostra). Entretanto, o teste não é específico, porque a probabilidade de dar negativo em pessoas que não têm a doença é relativamente baixa (acertou em 60% dos controles da amostra). TESTE SENSÍVEL Se o teste é sensível, uma pessoa que não tem a doença pode receber a informação de que tem a doença. Escolha um teste sensível se: • A doença não puder ser negligenciada.Se a pessoa tiver a doença, o teste tem alta probabilidade de mostrar que a pessoa é doente. • For necessário detectar pessoas doentes na população. TESTE ESPECÍFICO A probabilidade de ocorrerem falsos-negativos é alta Escolha um teste específico se: • O diagnóstico da doença for traumático. Para a pessoa que não tem a doença, o teste indica isso com alta probabilidade. • Para fechar um diagnóstico. Se o resultado for negativo, a pessoa muito provavelmente não tem a doença. ACURÁCIA (A) É a proporção dos resultados corretos (tanto positivos como negativos) na amostra. A acurácia não é adequada para julgar um teste diagnóstico. Isso porque um valor alto de acurácia não diz se o teste tem maior probabilidade de detectar verdadeiros-positivos ou de detectar verdadeiros- negativos. VALORES PREDITIVOS Na prática clínica, o que importa é o diagnóstico correto. Em outras palavras, o que interessa é saber a probabilidade de o paciente ter a doença, dado que o teste resultou positivo, e a probabilidade de o paciente não ter a doença, dado que o teste resultou negativo. → Valores preditivos são muito úteis para os clínicos, mas têm a desvantagem de depender da prevalência da doença. Valor preditivo de um teste positivo (VPP): é a proporção de resultados positivos corretos no total de resultados positivos. Valor preditivo de um teste negativo (VPN): é a proporção de resultados negativos corretos no total de resultados negativos. Exemplo: Um teste diagnóstico para detectar determinada doença foi aplicado em 1.000 participantes de pesquisa: 400 tinham a doença e 600 não tinham a doença. Os resultados do teste foram positivos em 380 dos casos e negativos em 360 dos controles. RAZÃO DE VEROSSIMILHANÇA Razão de verossimilhanças é a razão entre a probabilidade de resultados positivos nas pessoas que têm a doença e a probabilidade de resultados positivos em quem não tem a doença. A razão de verossimilhança pode ser vista como indicadora do valor do teste para aumentar a certeza sobre diagnósticos positivos. Se >1 = relacionado ao teste positivo (presença da doença). Se <1 = relacionado ao teste negativo (ausência da doença). Hipóteses Hipótese de nulidade [H0]: Geralmente afirma que não há diferença entre os grupos experimentais. Hipótese alternativa [H1]: Contradiz a nulidade Erro Tipo I: Rejeitou uma hipótese verdadeira Erro Tipo II: Aceitou uma hipótese falsa CLASSIFICAÇÃO DE HIPÓTESE Unilateral • Somente um aumento ou uma diminuição. Bilateral • Altera” TESTES ESTATÍSTICOS ❖ p-valor (probabilidade) • Evidências para rejeitar hipótese de nulidade ❖ Se p<0.05 • Rejeitamos a H0 • Estatisticamente significante Qual teste escolher? TESTE T-STUDENT Teste t Pareado • Compara média (dados paramétricos) de dois grupos • Antes e depois no mesmo grupo experimental • Recrutar voluntários aos pares (mesmas características) submetidos a tratamentos diferentes • Mãe e filho ou gêmeos Teste t não pareado • Compara média (dados paramétricos) de dois grupos diferentes • 2 grupos de pessoas com tratamentos diferentes (convencional x novo / convencional x placebo). • 2 grupos de indivíduos com características diferentes
Compartilhar