Baixe o app para aproveitar ainda mais
Prévia do material em texto
Bioestatística 1 Conceitos Básicos Estatística Ø Pessoa que cursou a matéria estatística; Ø Resultado/ Número. Conjunto de métodos destinados ao planejamento, coleta, organização, resumo, análise e interpretação dos dados de uma pesquisa. - Ferramenta útil para uma tomada de decisão (frente a uma incerteza). População Todos os elementos de um conjunto bem definido. Não necessariamente são pessoas. N: tamanho da população (número de elementos total) Amostra Subconjunto de elementos da população definida. Parte do todo que pegamos para analisar. Pegamos uma parte para definir o todo. n: tamanho da amostra (número de elementos avaliados) População X Amostra O tamanho da amostra será sempre menor ou, no máximo, igual ao tamanho da população. Essa relação está relacionada ao objetivo da pesquisa. A amostra deve parecer/ representar com a população. Ou seja, se na população tem fumantes e não fumantes, na amostra também deve apresentar esses dois tipos. Estudo populacional -> analisa TODOS os elementos (CENSO) Ø Vantagens: exatidão nas respostas para aquele momento da pesquisa (ausência de erro). Ø Desvantagens: Muitas vezes é inviável, seja por tempo, custo ou acesso aos elementos. Estudo Amostral -> estuda uma amostra da população Ø Vantagens: menor tempo, menor custo, viabiliza a pesquisa. Ø Desvantagens: presença de erro amostral Erro Amostral Diferença entre o valor observado na amostra e o verdadeiro valor na população. Em estudos amostrais não é possível calcular qual o erro amostral cometido, uma vez que o valor real é desconhecido. Toda pesquisa tem, mas não é possível calcular. O erro amostral pode invalidar toda uma pesquisa. Margem de Erro Limite tolerável para o erro amostral. O quanto você aceita que seu erro amostral atinja em sua pesquisa. Valor escolhido pelo pesquisador na fase de PLANEJAMENTO da pesquisa, para cálculo do tamanho da amostra. Quanto mais pessoas você entrevistar, mais chance você tem de ter pouco erro. Quanto mais complexa é sua população (o fator de estudo que tem muitos subgrupos), maior pode ser seu erro amostral, pois fica mais difícil trazer uma representatividade pra amostra. Na margem de erro você escolhe e não leva em conta a qualidade da pesquisa. | Lívia Nascimento – FAMINAS BH 2/2020 Erro Amostral X Margem de Erro Variável Característica variável entre os elementos da população que se tem interesse de avaliar. O conjunto de varia1veis a serem avaliadas na amostra depende do objetivo da pesquisa. Ø Idade (anos completos) Ø Altura (m) Ø Salário Ø Sexo Ø Grau de instrução Banco de Dados Planilha organizada contendo os dados de todas as variáveis, de todos os elementos da amostra. Inferência Conclusões feitas para uma população, retiradas a partir de resultados de uma amostra. Para que os resultados gerados através de uma pesquisa tenham validade cientifica e possam ser utilizadas para realizar inferências assertivas, e1 necessário que cada uma das fases do método estatístico sejam cuidadosamente planejadas e executadas. Fases do Método Estatístico | Lívia Nascimento – FAMINAS BH 2/2020 | Lívia Nascimento – FAMINAS BH 2/2020 Bioestatística 1 Fases do método estatístico 1) Definição do problema/ objetivos • O objetivo do estudo deve ser bem definido. • Qual a principal variável de interesse? • Quais a variáveis secundarias? • Qual a população alvo do estudo? 2) Planejamento da pesquisa • Tipo de investigação Observacional -> levantamento de dados Experimental -> intervenção do pesquisador. • Tipo de estudo: populacional x amostral. • Plano amostral: Tipo de amostra -> representatividade da população; Tamanho da amostra -> calcular quantos elementos vão participar; margem de erro. • Ética: Comitê de Ética em Pesquisa (pesquisas com ser vivo devem passar por esse comitê). • Termo de Consentimento Livre e Esclarecido: documento breve que explica pro participante quais são os riscos dessa pesquisa. 3) Elaboração instrumento coleta de dados • Qual será o tipo de instrumento de coleta de dados? Questionário -> entrevistador x auto- preenchimento. Formulário. Muitas vezes os participantes tentam responder o que é “certo”, e não a sua realidade. Por isso, deve- se tentar diminuir o fator de constrangimento. • Levantamento das variáveis de interesse e das possíveis formas de obte2-las; • Excluir variáveis desnecessárias! • Instrumentos de mensuração? • Pesquisa Bibliográfica • Treinamento (padronização) de equipe e de instrumentos de mensuração. • Teste piloto. Aplicar esse questionário em pessoas que não fazem parte da sua população alvo/ pessoas que participarão da pesquisa. Acontece antes da entrevista, para testar se o questionário está coeso DICAS • Perguntas fechadas (múltipla escolha). • Exaustivas -> abrangem todas as opções possíveis de resposta (se necessário, incluir opção “outros”). • Mutuamente excludentes -> apenas uma opção pode ser escolhida. • IMPARCIALIDADE!!! • Elaboração da pergunta • Opções de resposta -> número de opções positivas = número de opções negativas • Perguntas quantitativas -> informar unidade de medida. • Evite perguntas que não abrangem toda a ppulacao alvo. “Se SIM...” 4) Coleta de dados • Treinamento de equipe e calibragem de instrumentos de mensuração. • Assegurar que os elementos são selecionados de acordo com o plano amostral. • Evitar interferências que possam afetar nos resultados da pesquisa. • Preenchimento completo do questionário/ formulário. • Verificação de qualidade (inconsistências). | Lívia Nascimento – FAMINAS BH 2/2020 | Lívia Nascimento – FAMINAS BH 2/2020 Bioestatística 1 Fases do método estatístico 4) Coleta de dados • Evitar interferências que possam afetas nos resultados de pesquisa • Preenchimento completo do questionário • Verificação de qualidade (inconsistências) 5) Banco de Dados A codificação do questionário/formulário minimiza e agiliza o processo de digitação das informações. Para questões com única resposta, aplica-se um código para cada opção: Sexo 1- Feminino 2- Masculino Cor do próximo carro 1- Preto 2- Branco 3- Prata 4- Outros Para questões cm mais de uma opção de resposta, trata-se cada opção como se fosse uma questão separada, codificando cada uma como: 1 – sim ou 0 – não Assinale as opções de lazer que desfrutou nos últimos 3 meses. 6) Análise de dados Fases de produção de resultados da pesquisa. Trata-se do resumo das informações obtidas na amostra • Calculo de estatísticas descritivas • Tabelas de frequências • Gráficos • Cruzamento de dados Ajuste de modelos probabilísticos e testes de hipóteses. 7) Conclusões e inferências Qual era o objetivo da pesquisa? Qual a resposta obtida? Qual conclusão? Quais as decisões a serem tomadas? Amostragem Processo ou técnica de escolha de amostra adequada para analise de uma população. Amostragem Probabilística: processo de selecionar elementos de uma população bem definida que| Lívia Nascimento – FAMINAS BH 2/2020 atribui a cada elemento da população uma probabilidade de inclusão na amostra calculável e diferente de zero. Tem um processo de sorteio e as probabilidades de inclusão são calculadas. Só essas são válidas cientificamente. Amostras não-probabilísticas: não há aleatoriedade (sorteio) para a escolha dos elementos da população. PLANO AMOSTRAL Cálculo do tamanho da amostra (n), margem de erro e definição das regras de seleção da amostra. A descrição de um plano amostral probabilístico deve especificar: • O universo de investigação – população alvo • Os critérios de estratificação – quando for o caso • Os procedimentos de seleção e de reposição das unidades amostrais – tipo de amostra • A margem de erro tolerável. AMOSTRA ALEATÓRIA SIMPLES Vai selecionar n elementos da população de tal forma que cada elemento tenha a mesma chance de ser escolhido P = n/N Limitação: lista/cadastro de todas os elementos da população. • Rifa; • Loteria; • Exame de sangue – todas as células do sangue estão na carol, no exame de sangue, qualquer uma das células tiveram a mesma chance de serem capturadas. AMOSTRA ALEATÓRIA ESTRATIFICADA A população é dividida em estratos. Em seguida é utilizada a AAS na seleção de uma amostra de cada estrato. Nesse você garante a representatividade de todos os grupos sejam representados. AAE é utilizada para garantir que cada um dos estratos seja representados na amostra de forma proporcional. Exemplos: • Sexo; • Renda • Bairro. Nesse caso, a amostra é realizada separadamente POR estrato, garantindo a representatividade de todos eles. Limitação: lista/cadastro de todas os elementos da população. | Lívia Nascimento – FAMINAS BH 2/2020 AMOSTRA ALEATÓRIA EM CONGLOMERADOS Divide-se a população em um grande numero de subpopulações – conglomerados – distintos. Seleciona-se alguns conglomerados através de AAS e todos os indivíduos destes conglomerados são observados. 1 estágio. Exemplos: • Bairros; • Escolas; • Residências. Neste caso, a população é dividida em subpopulações e o elemento sorteado é o conglomerado e não o individuo. AMOSTRA ALEATÓRIA EM DOIS ESTÁGIOS Nesse caso a população é dividida em subpopulações como na AAC. 1º estagio: alguns aglomerados são escolhidos usando a AAS. 1º estágio: alguns elementos são selecionados de cada conglomerado – selecionado no primeiro estagio – utilizando-se de AAS. Pode ter mais de dois estágios, que continuam chamando de AA2E. AMOSTRA SISTEMÁTICA Só 1 sorteio, sorteias o primeiro elemento. Utilizada quando se tem disponível a relação ordenada de todos os elementos da população. Sorteia-se através de AAS um numero entre 1 e (N/n). Este será o primeiro selecionado. Os demais Comum fazer quando tem uma lista ordenada, tipo, uma lista com as matrículas. TAMANHO DA AMOSTRA Chamamos de erro amostral a diferença entre o valor estimado para um parametro a partir dos dados coletados em uma amostra e o verdadeiro valor do parâmetro da população. Parâmetro: característica da população. Por exemplo: idade média, proporção de fumantes. | Lívia Nascimento – FAMINAS BH 2/2020 FÓRMULA PARA CÁLCULO DO TAMANHO DA AMOSTRA Tamanho da amostra sempre arredonda para mais! | Lívia Nascimento – FAMINAS BH 2/2020 Bioestatística 1 Estatística Descritiva Conjunto de métodos utilizados para resumir (descrever) bancos de dados. Primeiro passo para compreensão dos resultados em uma pesquisa. Trata-se da construção de tabelas e gráficos, além do calculo de medidas estáticas, como medias e desvios, que resumem a informação. TIPOS DE VARIÁVEIS Quantitativas: Ø Discretas: numero inteiros – numero de filhos, de unidades de lote, de funcionários de uma empresa. Ø Contínuas: admitem decimais – peso, altura, salario, idade. Toda informação quantitativa pode se transformar em qualitativa, já o contrario não é possível. Qualitativas ou Categóricas: não indica grandeza, não é maior ou melhor. Ø Ordinais: existe uma ordenação – grau de satisfação, escolaridade e faixa-etária. Faixa etária é qualitativa porque perdeu o detalhamento, diferente da idade, que é quantitativa, pois conseguimos saber o valor exato. Ø Nominais: não apresenta ordem – sexo, cor, bairro, ordem alfabética. TABELAS DE FREQUÊNCIAS SIMPLES Titulo: conteúdo da tabela. Fonte: deve sempre descrever a origem dos dados – dados fictícios, fonte IBGE + endereço do site + data de acesso. Variável X: é apresentada na primeira coluna. Fi: frequência absoluta, é o numero de casos na categoria “i” da variável x. N = tamanho da amostra -> observação: a soma das frequências de todas as categorias da variável x deve ser no tamanho da amostra (total de informações coletadas) Frequência relativa: é a proporção, em porcentagem, de casos na categoria “i” da variável X. Ø Calculada na forma: frequência total/tamanho da amostra x 100. Gráfico de pizza só pode ser usado quando as somas das fatias dão 100%. | Lívia Nascimento – FAMED XVI/2 Porcentagem facilita a compreensão daquele resultado. Percentual é calculado a partir do grupo, Nenhum gráfico é mais certo que o outro, depende das informações que você quer comparar. Representação de variáveis quantitativas. | Lívia Nascimento – FAMED XVI/2 BOXPLOT – cruza a variável quantitativa com a categórica – comum na área da saúde. | Lívia Nascimento – FAMED XVI/2 Bioestatística 1 Medidas de Tendência Central e de Posição Exclusiva para medidas quantitativas; servem para resumir um conjunto de dados. MEDIDAS DE TENDÊCIA CENTRAL Existe a tendência de valores observados em uma amostra se agruparem em torno de valores centrais. MÉDIA É a soma de todos os dados dividido pelo tamanho da amostra. A média não representa o individuo, mas sim se todos fossem iguais. Ø Em caso de variáveis quantitativas discretas (números inteiros) -> não se arredonda o valor, mas serve para compreender o valor. Ø Podemos usar apenas 1 casa decimal, por exemplo, em numero de filhos. MÉDIA para DADOS AGRUPADOS: É a soma de todos os dados divididos pelo tamanho da amostra. Salário médio = R$ 1.814,29/ funcionário A media é sensível a valores extremos. Ø Sempre utilizada com ressalvas, pois na presença de outliers (extremo) é sensível, e pode gerar uma informação equivocada sobre o grupo. MEDIANA É o “valor do meio” de um conjunto de dados ordenado. | Lívia Nascimento – FAMED XVI/2 Seu conjunto de dados deve estar na ordem crescente, caso o contrario, não conseguimos retirar nenhum dado útil. Se o valor da amostra (n) é impar: a mediana sera o valor do elemento que ocupa a posição (n+1) /2 ENCONTRA-SE A POSIÇÃO DA MEDIANA, NÃO O VALOR EM SI 50% dos alunos tem 21 anos ou menos, e 50% dos alunos tem 21 anos ou mais. Se o valor da amostra (n) é par: a mediana será a media dos valores dos elementos que ocupam as posições: n/2 + (n/2) +1. A medianaserá o salario de 1500. Mediana é menos sensível a esses outliers. Ou seja, a presença de extremos não afeta muito a mediana. A média usa todos os valores que você coletou, diferente da média. MODA É o valor mais frequente de um banco de dados. Ø Se nenhum valor é o mais frequente que os demais -> não tem moda. Ø Se há empates: o conjunto de dados é dito multimodal. | Lívia Nascimento – FAMED XVI/2 SIMETRIA eu prefiro a média, pois usa todos os dados; ASSIMETRIA: prefiro a mediana, pois ela não é afetada por esses valores extremos. Media e medianas próximos: use a média Media e mediana diferentes: use a mediana QUARTIS Os quartis são medidas de posição que dividem o banco de dados em 4 partes, iguais em quantidade de valores. Encontra-se primeiro a mediana. Ø 22% dos alunos tem 19 anos ou menos; Ø 75% dos alunos tem 19 anos ou mais; Ø 50% dos alnunso tem 23 anos ou menos; Ø 50% dos alunos tem 23 anos ou mais; Ø 75% dos alunos tem 25 anos ou menos; Ø 25% dos alunos tem 25 anos ou mais. CARACTERÍSTICAS: Ø Em quantidade de valores; sempre é igual Ø O tamanho da caixa varia pela diferença das características dessas pessoas. Ø Compara grupos; Ø Mostra do menor para o maior; Ø Mostra onde estão mais concentrados os dados. Ø Espalhamento ou variabilidade É muito comum que os dados de artigos na área médica serem apresentados dessa forma. Endemia: quando a quantidade de casos ultrapassa o terceiro quartil daquele mês. | Lívia Nascimento – FAMED XVI/2 Bioestatística 1 Estatística Descritiva Medidas de dispersão/ variabilidade: o conjunto de dados tem uma variação grande ou pequena. Medidas de tendência central são importantes, mas sozinhas são incompletas. Medidas de dispersão (variação) são medidas estatísticas que informam sobre o grau de variabilidade de um conjunto de dados. AMPLITUDE TOTAL DESVIO (d) É a distância (diferença) de cada valor em relação a media. | Lívia Nascimento – FAMED XVI/2 DESVIO-PADRÃO Pode ser interpretado como a media dos desvios individuais. O desvio padrão está na mesma unidade de medida da variável em análise. Não arredondamos esse valor. | Lívia Nascimento – FAMED XVI/2 VARIÂNCIA É o desvio-padrão ao quadrado, ou seja, a variância é a media dos quadrados dos desvios individuais. Esta medida é bastante citada na literatura e também usada para cálculo de outras medidas estatísticas. FAIXAS DE REFERÊNCIA As faixas de referência são criadas entre dois desvios padrão para mais e dois desvios padrões para menos. PROPRIEDADE: DESVIO-PADRÃO COEFICIENTE DE VARIAÇÃO Grau de variação dos dados em relação à media. | Lívia Nascimento – FAMED XVI/2 | Lívia Nascimento – FAMED XVI/2 Bioestatística 1 Teste de Hipóteses Fazendo cálculos de probabilidade para verificação de ocorrência de hipóteses. Eu não posso afirmar nada sem ter um teste de hipótese que comprove isso. São métodos analíticos destinados a verificação cientifica de uma hipótese acerca de um parâmetro da população. Comparações ou decisões tomadas com base em pesquisas amostrais estão sempre sujeitas a erro que podem ocorrer ao acaso independentemente da qualidade técnica e primazia do planejamento da pesquisa. Comparação de dois grupos – o resultado diferente não é apenas um acaso amostral, é um resultado diferenciado. Significativa à foi feito um teste estatístico que comprove o estudo. O que os testes estatísticos vão falar é se a diferença que existe é dada apenas por um acaso amostral ou uma diferença significativa. DEFINIÇÃO DAS HIPÓTESES H0: hipótese nula Hipótese conservadora (assume igualdade entre os grupos comparados); H1: Hipótese alternativa Hipótese que necessita de maiores evidencias para ser considerada verdadeira (será sempre a hipótese de diferença entre os grupos comparados). | Lívia Nascimento – FAMED XVI/2 A principio tudo é igual, só vou falar que existe diferença se houver comprovação suficiente. ERRO DE DECISÃO Erro tipo 1: você decide, a partir da sua amostra, rejeitar a hipótese nula (mas foi um acaso da amostra). Erro tipo 2: falar que os resultados são iguais, quando na verdade são diferentes. Considera menos grave à pois a ciência se desenvolve ,os testes e pesquisas continuam sendo feitos. CONTROLE DE ERRO ESCOLHA DO TESTE Para cada tipo de comparação que se deseja realizar, em uma investigação cientifica, há uma coleção de testes estatísticos disponíveis e em desenvolvimento. Na Teoria de Estatística Clássica, há dois grandes grupos de testes estatísticos: • Testes paramétricos; • Testes não paramétricos. TESTES PARAMÉTRICOS Ø Possuem pressupostos – em geral, acerca da forma de distribuição dos dados; Ø São mais eficientes – capacidade de perceber diferenças entre grupos // mais sensíveis. TESTES NÃO PARAMÉTRICOS Ø Tem maior aplicabilidade – não consegui verificar os pressupostos; Ø Tem menor eficiência que seus correspondentes paramétricos DECISÃO P – valor: probabilidade de significância (de cometer o erro tipo I); Probabilidade de errar ao rejeitar o H0. P-valor: resultado que você obtém, probabilidade de você errar se você rejeitar a hipótese nula. Resultado da sua amostra (ou seja, não é | Lívia Nascimento – FAMED XVI/2 padronizado). E aí você consegue decidir se você vai rejeitar a hipótese nula ou não. CONDUÇÃO DE TESTES DE HIPÓTESES 1. Definir as hipóteses do teste; 2. Definir o nível de confiança; 3. Escolha o teste adequado; 4. Cálculo do p-valor; 5. Conclusão do teste. | Lívia Nascimento – FAMED XVI/2 | Lívia Nascimento – FAMED XVI/2 Bioestatística 1 Risco Relativo e Razão das chances Proporção: medida de frequência relativa; É dada pela frequência absoluta de casos do fenômeno de interesse sobre o total avaliado. PORCENTAGEM RAZÃO Quociente entre duas medidas relacionadas entre si. O denominador não inclui o numerador. Numero de casos sobre o numero de não casos. • Mede a forca da associação entre um determinado fator de exposição e a ocorrência da doença. #b1 #6c #54#dff #19 #eb | Lívia Nascimento – FAMED XVI/2 MEDIDAS DE EFEITOS Resultados de pesquisas epidemiológicas são frequentemente expressos por meio de medidas de efeitos, tais como risco relativo ou razão de chances. RISCO OU CHANCE? Criar tabela com os dados da pesquisa. RISCO RELATIVO RAZÃO DAS CHANCES | Lívia Nascimento – FAMED XVI/2 Estudos de Coorte à Estudos transversais de caso-controle à RAZÃO DE PREVALÊNCIA A razão de prevalências (RP) é usada em estudos transversais de cálculo de prevalências. | Lívia Nascimento – FAMEDXVI/2 INTERPRETAÇÃO DE RR, RC e RP Estar exposto é um fator de proteção ao invés de aumentar o risco à diminuem a chance de ocorrência daquele evento. INTERVALO DE CONFIANÇA (IC) para RR, RC e RP | Lívia Nascimento – FAMED XVI/2 | Lívia Nascimento – FAMED XVI/2 | Lívia Nascimento – FAMED XVI/2 | Lívia Nascimento – FAMED XVI/2 | Lívia Nascimento – FAMED XVI/2 Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020 TRANSCRIÇÃO BIOESTATÍSTICA Aula 13 – Correlação Linear Aula online 06/11/2020 Análise de duas variáveis quantitativas, é para saber se tem alguma associação linear. Não conseguir comparar grupos se tem variável categórica. 1) Quanto maior o tempo e experiência de profissão, maior o salário de uma pessoa. Quanto maior o tempo de trabalho maior o salário (associação positiva). 2) Duas variáveis quantitativas, o tempo de espera para iniciar o tratamento, esse tempo influencia o tempo de vida do paciente... e o tempo de espera tem vários motivos para acontecer (pode ser devido ao SUS, ou o paciente negar que tem a doença... quanto maior o tempo de esperar menor a sobrevida do paciente (associação negativa). Se a natureza da associação for exponencial, quadrática, o que iremos estudar será associação linear, então essas associações não entram. Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020 Eixo X, coloca a variável que vai tentar explicar e dar resposta. Gráfico com associação de altura x sapato. Cada pontinho é uma pessoa. Associação positiva (não quer dizer nada, se é bom ou ruim), somente que altura está relacionada a número de sapatos. Os espaços vazios, tem variabilidade, mas existe uma limitação dessa variabilidade. A medida em que a altura aumenta, o número de sapato também aumenta, existe então uma relação. Relação crescente: ler gráfico é da esquerda para direita. Concentração diagonal das variáveis é que o devemos analisar. Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020 Alunos da turma de mestrado, tempo de conclusão do primeiro curso de graduação, a concentração diagonal é pequena. Consigo afirmar que não encontra pessoas com 25 ou 30 anos que terminaram curso de graduação, existe uma associação mais fraca nesse exemplo em relação ao anterior. Será que a idade da pessoa explica o tempo de conclusão do curso na graduação. Quando um gráfico não tem nenhuma relação, nenhuma associação e não vê nenhuma diagonal, é subjetivo, eu quero ver, mas o gráfico não mostra. Correlação perfeita não acontece na área da saúde. Não tem variabilidade, e os pontos ficam em cima de uma reta. Correlação forte: exemplo tempo de experiência e salário, só que está pensando em um grupo bem homogêneo, pode ser que tenha 3 pessoas que formaram juntas e tenham salários diferentes. Pode ter uma pessoa que formou há 6 anos que ganha mais do que alguém que formou há 5 anos. Associação crescente, quanto maior o tempo de experiência, maior o salário, pode ser vista também. Correlação fraca: depende de vários fatores, se tem mais fatores que explicam a resposta, a variabilidade é maior e por isso a correlação mais fraca. Variável negativa é decrescente e positiva é crescente. E só mostra como a variável x está afetando a variável y. Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020 Cov: co-variância de x e y (calculada é a soma para todos os indivíduos, menos a média) Cada indivíduo tem um par de informações, x é o tempo de serviço daquele indivíduo e y é o salário. Média do X Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020 Média do Y Em relação a X, quem está abaixo da média recebe sinal negativo e quem está acima recebe positivo. Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020 Cada indivíduo vai receber um sinal Chamamos de primeiro, segundo, terceiro e quarto quadrante. Se cair no primeiro e quarto quadrante serão negativos e segundo e terceiro positivo Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020 Menos tempo de experiência, negativo, abaixo da média. Quando estão em segundo e terceiro quadrante, covariância positiva. E primeiro e quarto quadrante, covariância negativa. Se não tiver associação vai dar zero. Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020 Desvio padrão (sd), medida de variabilidade. Correlação é para analisar o sentido da associação, positiva, negativa ou nula. Correlação r, vai dividir pelo sd, para saber se é forte ou fraca. " O sinal não tem a ver com a força da associação”. Não paramétrico: Menor capacidade de observar diferença significativa. Exemplo: o tempo de experiência não vai influenciar no salário da pessoa (r=0), não tem correlação linear. Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020 O programa estatístico além de calcular o r e p, traça essa reta, mas não é obrigatória ter a reta. Olhar direto o p-valor para saber se tem correlação significativa ou não. Só interpreta o r se o p-valor for significativo. p-valor é uma probabilidade então multiplica por 100. Nesse exemplo tem correlação positiva, então agora olha o r, é uma correlação, é moderada forte indicando que quanto maior a idade, maior deverá ser o tempo de conclusão do curso de graduação. Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020 No gráfico, renda que influência no gasto com alimentação. p-valor 0,6% é menor que 5%, então tem correlação significativa positiva forte (acima de 0,8 é forte), quanto maior a renda familiar, maior o gasto com alimentação. A única diferença do segundo gráfico para o primeiro é que no segundo não tem o ponto superior direito (mês dezembro). Correlação significativa moderada fraca. Se tira mês de dezembro, ela é significava, mas passa a ser forte a correlação. A correlação é negativa, quanto maior o preço por unidade, menor a quantidade vendida, ou seja, quanto mais caro, menos eu vendo. Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020 Quando teve poucos casos por dia, também teve poucos óbitos no dia, e o contrário também. Camilla Magalhães - 2º Período – Etapa 2 – out e nov/2020 1 Testes de Hipóteses Aluna: Lívia Nascimento de Souza Disciplina: Bioestatística Medicina – 2o período – Turma 2 A. As hipóteses apresentadas pelo artigo 1 foram: • Hipótese nula: proporção de fumantes mulheres é igual a proporção de fumantes homens. • Hipótese alternativa: proporção de fumantes mulheres é diferente da proporção de fumantes homens. B. P < 0,001 à Isso significa dizer que a probabilidade de erro ao afirmar que o consumo de tabaco é diferente significativamente entre os dois gêneros é menor que 0,1%. C. Ao nível de 95% de confiança, concluiu-se que o tabagismo ocorreu mais em homens (23,1% dos homens e 9,9% das mulheres), ou seja, houve diferença significativa. A. As hipóteses apresentadas pelo artigo 1 foram: 2 • Hipótese nula: a proporção de mulheres que consomem ansiolíticos é igual a proporção de homens que consomem ansiolíticos; • Hipótese alternativa: a proporção de mulheres que consomem ansiolíticos é diferente da proporção de homens que consomem ansiolíticos. B. P = 0,038 à Isso significa dizer que a probabilidade de erro ao afirmar que o uso de ansiolíticos é diferente significativamente entre os dois gêneros é de 3,8%.C. Ao nível de 95% de confiança, concluiu-se que o uso de ansiolíticos se mostrou mais comum entre as mulheres, ou seja, houve diferença significativa. A. As hipóteses apresentadas pelo artigo 1 foram: • Hipótese nula: a proporção de mulheres que consomem remédios para emagrecer é igual a proporção de homens que consomem esses mesmos remédios; • Hipótese alternativa: a proporção de mulheres que consomem remédios para emagrecer é diferente da proporção de homens que consomem esses remédios. B. P = 0,150 à Isso significa dizer que a probabilidade de erro ao afirmar que o uso de remédios para emagrecer é diferente significativamente entre os dois gêneros é de 15%. C. Ao nível de 95% de confiança tal estudo demonstrou que não há diferença significativa entre o uso de remédios para emagrecer, proporcionalmente, por homens e mulheres. 3 A. As hipóteses apresentadas pelo artigo 2 foram: • Hipótese nula: a proporção de mulheres que apresentam diabetes é igual a proporção de homens que apresentam essa doença; • Hipótese alternativa: a proporção de mulheres que apresentam diabetes é diferente da proporção de homens que apresentam essa doença. B. P = 0,2196 à Isso significa dizer que a probabilidade de erro ao afirmar que a prevalência de diabetes é diferente significativamente entre os dois gêneros é de 21,96%. C. Ao nível de 95% de confiança, tal estudo demonstrou que não há diferença significativa em relação a prevalência da diabetes entre homens e mulheres. A. As hipóteses apresentadas pelo artigo 2 foram: • Hipótese nula: a proporção de idosos com diabetes que foram hospitalizados é igual a proporção de idosos com diabetes que não foram hospitalizados; • Hipótese alternativa: a proporção de idosos diabéticos que foram hospitalizados é diferente da proporção de idosos diabéticos que não foram hospitalizados. 4 B. P = 0,0029 à Isso significa dizer que a probabilidade de erro ao afirmar que a prevalência de diabetes em idosos é diferente significativamente entre aqueles que foram hospitalizados ou não é de 0,29%. C. Ao nível de 95% de confiança tal estudo demonstrou que há diferença significativa em relação a prevalência de diabetes por ocorrência de hospitalização, sendo que aqueles que foram hospitalizados apresentaram uma maior proporção. Os fatores sócio-demográficos que apresentaram significância estatística foram: • Idade; • Sexo; • História familiar; • Classe social. Os fatores de risco para a dependência de álcool que apresentaram significância estatística foram: • Tabagismo; • Consumo diário de chimarrão. Exercícios – Medidas de Efeito Aluna: Lívia Nascimento de Souza Disciplina: Bioestatística A prevalência de diabetes em paciente que apresentaram uma ou mais hospitalizações é 1,63 vezes maior em comparação com pacientes que não tiveram nenhuma hospitalização. A. O fator que está significativamente associado à ocorrência de acidentes de trabalho é a presença de horas extras, visto que seu IC é maior que 1. B. Os trabalhadores que fazem hora extra apresentam 3,72 vezes mais chance de sofrerem um acidente de trabalho do que aqueles funcionários que não fazem hora extra. C. Sobre os fatores de proteção encontrados: a. Sexo à nesse caso, os funcionários do sexo feminino apresentam 2,41 vezes menos chances de sofrerem um acidente de trabalho do que os funcionários do sexo masculino. b. Uso de EPI à os funcionários que fazem uso do EPI apresentam 15,92 vezes menos chances de sofrerem um acidente de trabalho do que os funcionários que não utilizam esses equipamentos. c. Equipe à os funcionários que fazem parte da equipe de produção apresentam 1,96 vezes menos chances de sofrerem um acidente de trabalho que os funcionários que estão na equipe de montagem. D. Por ordem de importância, algumas medidas podem ser tomadas para redução de acidentes de trabalho nessa indústria: 1. Diminuição das horas extras; 2. Incentivar o uso do EPI por uma maior quantidade de funcionários; A. A partir da interpretação da tabela, podemos aferir que o shampoo A tem 10,96 vezes mais chances de apresentar mais brilho que o shampoo B. B. Um erro de interpretação comum é achar que o resultado representa 10,96 vezes mais brilho, enquanto que na realidade é 10,96 vezes MAIS CHANCE, ou seja, não é algo afirmativo, de que com certeza, com o uso do shampoo, o cliente obterá mais brilho. Apesar de a razão de chances ter permanecido a mesma, o tamanho da amostra é importante, pois possibilita um maior grau de confiabilidade no estudo, pois diminui a margem de erro. Diante disso, pôde- se perceber que o RC se manteve igual nos dois estudos, todavia, o IC (95%) se alterou drasticamente, devido ao fato de a amostra do estudo 2 ser 10x menor que a amostra do estudo 1, de modo que o intervalo de confiança ficasse maior. Assim, pôde-se perceber que, enquanto o estudo 1 é considerado um fator significativo de risco, o estudo 2 é um fator não significativo. Correlação Linear Anna Carolina Lustosa Lima MSc. Estatística – UFMG Pergunta principal: O salário de um profissional está associado ao seu tempo de profissão? O tempo entre diagnóstico e início do tratamento está associado ao tempo de sobrevida de um paciente de câncer de mama? Duas Variáveis quantitativas (X e Y) estão associadas? Correlação Linear Para avaliar a existência de associação linear entre duas variáveis quantitativas, primeiramente recorremos à construção de um gráfico de dispersão. Adequado apenas para o cruzamento de duas Variáveis Quantitativas Gráficos de Dispersão Escolhemos para o eixo Y do gráfico a variável resposta, ou seja, aquela que possivelmente é afetada pelo valor observado na variável posicionada no eixo X, denominada variável explicativa (covariável). Gráficos de Dispersão Gráficos de Dispersão Gráficos de Dispersão Gráficos de Dispersão Cálculo do Coeficiente de Correlação de Pearson Cálculo do Coeficiente de Correlação de Pearson Cálculo do Coeficiente de Correlação de Pearson x y Cálculo do Coeficiente de Correlação de Pearson x y x Cálculo do Coeficiente de Correlação de Pearson x y x _ +_ + Cálculo do Coeficiente de Correlação de Pearson x y y ++ _ _ Cálculo do Coeficiente de Correlação de Pearson x y y x Cálculo do Coeficiente de Correlação de Pearson x y y x _ +_ + Cálculo do Coeficiente de Correlação de Pearson x y y x _ + ++ _ _ _ + Cálculo do Coeficiente de Correlação de Pearson x y y x _ + + + + _ _ _ + Cálculo do Coeficiente de Correlação de Pearson x y y x _ + + + + +_ _ _ + Cálculo do Coeficiente de Correlação de Pearson x y y x _ + + + + +_ _ _ _ + Cálculo do Coeficiente de Correlação de Pearson x y y x _ + + + + +_ _ _ _ _ + Cálculo do Coeficiente de Correlação de Pearson x y y x + + _ _ Cálculo do Coeficiente de Correlação de Pearson x y y x _ _ + + Cálculo do Coeficiente de Correlação de Pearson x y y x + + _ _ / / / / Cálculo do Coeficiente de Correlação de Pearson x y y x + + _ _ / / / / Cálculo do Coeficiente de Correlação de Pearson x y y x + + Cálculo do Coeficiente de Correlação de Pearson x y y x + + Cálculo do Coeficiente de Correlação de Pearson x y y x + + Cálculo do Coeficiente de Correlação de Pearson x y y x _ _ Cálculo do Coeficiente de Correlação de Pearson x y y x _ _ Cálculo do Coeficiente de Correlação de Pearson x y y x _ _ Coeficiente de Correlação O coeficiente de correlação, r (ou ), procura mensurar a força e o sentido (+ ou -) da associação entre duas variáveis quantitativas.0 0,2 0,4 Forte Moderada Forte Moderada Moderada Fraca Fraca Fraca Moderada Fraca Moderada Moderada Forte Forte 0,6 0,8 1,0-0,2-0,4-0,6-0,8-1,0 Ausência de Correlação Correlação Positiva Perfeita Correlação Negativa Perfeita Coeficiente de Correlação 0-0,2-0,4-0,6-0,8-1,0 Ausência de Correlação Correlação Perfeita Forte Moderada Forte Moderada Moderada Fraca Fraca Ausência de Correlação Correlação Perfeita 00,20,40,60,81,0 Escolha do Coeficiente Paramétrico x Não-Paramétrico Coeficiente de Correlação de Pearson Coeficiente de Correlação de Spearman Usado apenas quando ambas as variáveis possuem distribuição Normal Não há restrição, porém é menos eficiente. Definição das Hipóteses H0: r = 0 (ausência de correlação linear) H1: r 0 (presença de correlação linear) Definição das Hipóteses H0: r = 0 (ausência de correlação linear) H1: r 0 (correlação linear) p-valor ≤ 0,05 correlação significativa Definição das Hipóteses H0: r = 0 (ausência de correlação linear) H1: r 0 (correlação linear) p-valor ≤ 0,05 correlação significativa p-valor > 0,05 ausência de correlação Coeficiente de Correlação Coeficiente de Correlação Coeficiente de Correlação Exercício 1 Os dados ilustrados no gráfico a seguir correspondem à Renda Familiar (X) e Gasto com Alimentação (Y), para uma amostra de 25 famílias. Interprete o coeficiente de correlação calculado. Exercício 1 Os dados ilustrados no gráfico abaixo correspondem à Renda Familiar (X) e Gasto com Alimentação (Y), para uma amostra de 25 famílias. Interprete o coeficiente de correlação calculado. Renda Familiar G a s to A li m e n ta ç ã o 200150100500 60 50 40 30 20 10 0 r = 0,954r = 0,954 p = 0,006 Exercício 1 Os dados ilustrados no gráfico abaixo correspondem à Renda Familiar (X) e Gasto com Alimentação (Y), para uma amostra de 25 famílias. Interprete o coeficiente de correlação calculado. Renda Familiar G a s to A li m e n ta ç ã o 200150100500 60 50 40 30 20 10 0 r = 0,954r = 0,954 p = 0,006 Há correlação significativa, positiva forte indicando que quanto maior a Renda Familiar, maior o Gasto com Alimentação. Exercício 2 Uma empresa está estudando como varia a demanda de certo produto em função de seu preço de venda. Os gráficos a seguir apresentam os preços praticados e volume de vendas ao longo de um ano. No segundo gráfico o valor do mês de dezembro foi omitido. Exercício 2 Uma empresa está estudando como varia a demanda de certo produto em função de seu preço de venda. Os gráficos a seguir apresentam os preços praticados e volume de vendas ao longo de um ano. No segundo gráfico o valor do mês de dezembro foi omitido. Qual gráfico é mais adequado para estudar o volume de vendas em função do preço do produto? Justifique e interprete r. 200190180170160 260 250 240 230 220 210 200 190 Preço/unidade(X) U n id a d e s V e n d id a s (Y ) Y = 307.6 - 0,5 X r = -0,252 190185180175170165160 250 240 230 220 210 200 190 Preço/unidade(X) U n id a d e s V e n d id a s (Y ) Y = 564.9 - 2,0 X r = -0,960r = -0,252 p = 0,050 r = -0,960 p = 0,003 Exercício 2 O segundo gráfico é melhor, pois retirando-se o mês atípico de vendas de dezembro, é possível verificar correlação significativa, negativa forte indicando que quanto maior o Preço por unidade, menor o número de Unidades Vendidas. 200190180170160 260 250 240 230 220 210 200 190 Preço/unidade(X) U n id a d e s V e n d id a s (Y ) Y = 307.6 - 0,5 X r = -0,252 190185180175170165160 250 240 230 220 210 200 190 Preço/unidade(X) U n id a d e s V e n d id a s (Y ) Y = 564.9 - 2,0 X r = -0,960r = -0,252 p = 0,052 r = -0,960 p = 0,003 Exercício 3 Os dados ilustrados no gráfico a seguir correspondem ao número de casos de tuberculose diagnosticados no Brasil (Y) por ano (X). Interprete o coeficiente de correlação calculado para estas duas variáveis. Exercício 3 Os dados ilustrados no gráfico a seguir correspondem ao número de casos de tuberculose diagnosticados no Brasil (Y) por ano (X). Interprete o coeficiente de correlação calculado para estas duas variáveis. 20162014201220102008200620042002 6500 6000 5500 5000 4500 4000 Ano T u b e rc u lo se r = -0,968 p-valor= 0,000 Exercício 3 Os dados ilustrados no gráfico a seguir correspondem ao número de casos de tuberculose diagnosticados no Brasil (Y) por ano (X). Interprete o coeficiente de correlação calculado para estas duas variáveis. 20162014201220102008200620042002 6500 6000 5500 5000 4500 4000 Ano T u b e rc u lo se r = -0,968 p-valor= 0,000 Há correlação negativa forte indicando que com o passar do tempo (Anos) o número de casos de Tuberculose no Brasil têm reduzido significativamente. Exercício 4 Os dados ilustrados no gráfico a seguir correspondem ao número de Óbitos por COVID- 19, por número de Casos novos, por dia, no Brasil. Interprete o coeficiente de correlação linear calculado para estas duas variáveis. Exercício 4 Os dados ilustrados no gráfico a seguir correspondem ao número de óbitos por COVID-19, por número de casos novos, por dia, no Brasil. Interprete o coeficiente de correlação linear calculado para estas duas variáveis. Há correlação significativa, positiva forte indicando que quanto maior o número de Casos Novos, maior o Número Óbitos por COVID-19, no Brasil. Exercício 4 Os dados ilustrados no gráfico a seguir correspondem ao número de óbitos por COVID-19, por número de casos novos, por dia, no Brasil. Interprete o coeficiente de correlação linear calculado para estas duas variáveis. POR HOJE É SÓ!
Compartilhar