Baixe o app para aproveitar ainda mais
Prévia do material em texto
Bioestatística 3º Período Juliana Vieira Queiroz Almeida 2º Semestre 2018 1 Bioestatística 2º Semestre 2018 FAMINAS - Profª. Anna Carolina Lustosa Estudante: Juliana Vieira Queiroz Almeida Contato: annaufmg@hotmail.com (principal) anna.lima@faminasbh.edu.br Introdução à estatística Estatística: conjunto de métodos destinados ao planejamento, coleta, organização, resumo, análise e interpretação dos dados de uma pesquisa. - Na presença de incerteza, a estatística é uma ferramenta útil para tomada de decisão. População X amostra População: Todos os elementos (não necessariamente pessoa) de um conjunto bem definido, ou seja, o que eu quero estudar; grupo de interesse. - Ex: gestantes mineiras. Amostra: Subconjunto de elementos da população definida. - Ex: gestantes mineiras de 15 a 17 anos. - O ideal é que seja aleatória, mas há as amostras de conveniência que levam a tendenciosidade. - O tamanho da amostra (n) será sempre menor ou, no máximo, igual ao tamanho da população (N). N: Tamanho da população (nº total de elementos). n: Tamanho da amostra (nº de elementos avaliado). Pesquisa populacional: quando se consegue pesquisar a população. Erro Amostral: diferença entre o valor observado na amostra e o verdadeiro valor na população. Exemplo: 85% (disseram que votarão em tal candidato) resultado final de 84% erro amostral de -1%. Não se sabe onde está o erro sempre, mas sabe-se que há erro. Margem de erro: costuma ser dado entre a amostra. Ex: 85% (disseram que votarão em tal candidato) ± 2% (margem de erro) resultado entre 83% e 87%. - Qual margem de erro é aceitável nessa pesquisa? se calcula o tamanho da amostra. Ou vice-versa. Variável: Característica variável entre os elementos da população, que se tem interesse de avaliar. - O conjunto de variáveis a serem avaliadas na amostra depende do objetivo da pesquisa. - Exemplos: Idade (anos completos); altura (m); salário (R$); sexo; grau de instrução. Interferência: conclusões feitas para uma população, retiradas a partir de resultados de uma amostra. - Para que os resultados gerados através de uma pesquisa tenham validade científica e possam ser utilizados para realizar inferências assertivas, é necessário que cada uma das fases do método estatístico seja corretamente executada. Fases do método estatístico 1) Definição do problema/Objetivos - O objetivo do estudo deve ser bem definido. - Qual a principal variável de interesse? - Quais as variáveis secundárias? - Qual a população alvo do estudo? 2) Planejamento da pesquisa - Momento mais demorado de uma pesquisa, pensando nos problemas que podem ocorrer. mailto:annaufmg@hotmail.com mailto:anna.lima@faminasbh.edu.br 2 - Tipo de Investigação: # Observacional Levantamento de dados. # Experimental Intervenção do pesquisador. Por exemplo: equivalência de medicamentos. - Tipo de estudo: Populacional x Amostral. # Critério: é possível fazer em toda a população? Se sim, populacional; se não, amostral. - Plano Amostral. # Tipo de amostra Representatividade da População. De alunos da FAMINAS, de diferentes cursos e períodos. # Tamanho da amostra Robustez do Estudo. Coopera para a margem de erro. - Ética: se for uma pesquisa com seres vivos ou seres humanos tem-se critérios e documentos a serem organizados para que a pesquisa seja aprovada. # Crie um ambiente para que a pessoa responda a verdade, não o que é certo. # Se você procura um problema, você deve haver meios de solucionar esse. Caso você não tenha meios de atuar no problema, não faça a pesquisa pois ela gera frutos, consequências. # Questionários de auto-preenchimento: não deve ser entregue ao indivíduo, talvez ele não saiba ler análise da população, da cultura, da classe social majoritária, entre outros. - Termo de consentimento: qualquer pesquisa deve ser voluntária. 3) Elaboração Instrumento Coleta de Dados - Qual será o tipo de Instrumento de coleta de dados? # Questionário Entrevistador (devem ser treinados) x Auto-preenchimento. # Formulário: não se pergunta peso e altura, se mede. # Instrumento de Mensuração: balanças, por exemplo, deve passar pelo mesmo processo de calibração. - Levantamento das Variáveis de interesse e das possíveis formas de obtê-las Excluir variáveis desnecessárias. - Pesquisa Bibliográfica: ajuda com o questionário, pode-se aproveitar muitas ciosas ou saber o que não fazer. - Treinamento (padronização) de equipe e de instrumentos de mensuração: para padronização das perguntas. - Teste Piloto: antes de começar as entrevistas com amostra e público alvo, se faz com pessoas de um ambiente que você convive para ver se as perguntas estão claras, com intenção de melhorar o questionário. # Importante ter a opção “não quero ter carro”, por exemplo. - Dicas para coleta de dados: # Deve-se deixar claro quando se pode marcar mais de uma opção. # Perguntas fechadas (múltipla escolha); exaustivas, abrangem todas as opções possíveis de resposta (se necessário, incluir a opção “outros”); mutuamente excludentes (apenas uma opção pode ser escolhida). “-l” Significa inclusive. Exemplo: Idade: 20 -l 30 inclui o 30 nessa opção. Idade: 45 l-l 50 45 e 50 inclusos. Se for com entrevistador, se treina esses. Se for para autopreenchimento, pode-se colocar 20 – 29, 30 – 39, e assim por diante. # Imparciais: elaboração da pergunta e opções de resposta, sendo o nº opções positivas igual ao nº de opções negativas. Pode-se colocar um quadro com “nunca”, “3 vezes por semana”, “todos os dias” e várias linhas de preenchimento. # Perguntas quantitativas Informar unidade de medida; Idade ____ anos completos; salário ____ R$; peso ____ g; peso _____ Kg. # Evite perguntas que não abrangem toda a população alvo. “Se SIM...”. Coloque as opções de quantidade na mesma questão. Exemplo: você faz atividade física? “Não”; “Sim, 3 vezes por semana”; “Sim, 5 vezes por semana”. 4) Coleta de dados - Verificação de efetividade do Treinamento de equipe e de instrumentos de mensuração. 3 - Assegurar que os elementos são selecionados de acordo com o plano amostral: IBGE faz com que o coordenador da região volte em 10% das casas conferindo as respostas. - Evitar interferências que possam afetar nos resultados da pesquisa: evitar a mãe ou pai do lado dependendo da pergunta, criando um ambiente para respostas concretas. - Preenchimento completo do questionário/formulário: prontuário muitas vezes não tem todas as informações, como por exemplo, tabagismo, alcoolismo – médico não anota –; muitas informações são retiradas para aproveitar as outras completas. - Verificação de qualidade (inconsistências): é preciso corrigir, de modo que essa deve ser feita por quem teve contato com o entrevistado muitas vezes a informação cai – é tirada do formulário –, de modo que se aumenta a margem de erro. 5) Banco de dados - A codificação do questionário/formulário minimiza e agiliza o processo de digitação das informações. - Para questões com única opção de resposta, aplica-se um código para cada opção: # Sexo: 1- Feminino; 2- Masculino. # Para evitar erros por espaços ou caixa alta ou não, é melhor codificar e colocar apenas F ou M, evitando erros nos gráficos e na amostragem. - Para questões com mais de uma opção de resposta, trata-se cada opção como se fosse uma questão separada, codificando cada uma como: “1-Sim” ou “0-Não” gera um banco de dados como a tabela ao lado. # Nome não é importante, dando se um número, um código, no lugar facilitando a correção. # Assinale as opções de lazer que desfrutou nos últimos 3 meses: ( ) Clube; ( ) Parque Ecológico; ( ) Parque de Diversão; ( ) Cinema; ( ) Shopping; ( ) Viagem. - Quadros 6) Análise deDados - É a fase de produção de resultados da pesquisa. - Trata-se do resumo das informações obtidas na amostra. # Cálculo de estatísticas descritivas. # Tabelas de frequências. # Gráficos. # Cruzamento de dados. # Ajuste de modelos: verificar se o tabagismo aumenta ou diminui a chance de desenvolver alguma outra doença. Probabilidade. 7) Conclusões e Inferências - Qual era o objetivo da pesquisa? - Qual a resposta obtida? - Qual conclusão? - Quais as decisões a serem tomadas? Trabalho realizar as fases do método estatístico Lembrar da ética, se você quer fazer sobre o nível de satisfação de um lugar, você deve entregar para o responsável do local do qual você está pesquisando e, antes da pesquisa, pedir a autorização para a realização dessa e se é possível fazer mudanças. Tema: Qualidade de lazer. Componentes: Ana Magalhães, Isadora, Juliana, Laryssa e Rayssa. Objetivo: O objetivo desta pesquisa é avaliar a qualidade do lazer dos estudantes de medicina do terceiro período, turma 2, da Faculdade de Minas - BH. 4 População-alvo: Estudantes de medicina da FAMINAS-BH que cursam o terceiro período na turma 2. Primeira versão do questionário com 10 a 15 perguntas (máximo). Amostragem Na amostragem aleatória, da população se seleciona, aleatoriamente, os indivíduos de modo que possa se ter uma estatística. Quando há interferência estatística, pela amostra se seleciona a população. Nessa se cumpre com a flexibilidade de população, por classe social, etnia, gênero, entre outros. - Deve haver o sorteio para que todos tenham chance de ser selecionados. Amostra Aleatória Simples (AAS) Definição: Consiste na seleção de n elementos da população de tal forma que cada elemento tenha a mesma chance de ser escolhido. - Cálculo por p = n / N. - Neste caso, todos os elementos da população a têm a mesma chance de ser selecionado e, portanto, a amostra não consegue garantir a representatividade de sub-grupos. # No caso de controle de qualidade do estacionamento, do banheiro, não importa o subgrupo, mas por exemplo, o controle do acervo da biblioteca, não seria possível, pois diferentes cursos têm acesso a diferentes acervos. Limitação: Lista e cadastro de todos os elementos da população. - Exemplos: Rifa, loteria, exame de sangue, entre outros. Amostra Aleatória Estratificada (AAE) Como ocorre: A população é dividida em estratos. Em seguida é utilizada a AAS na seleção de uma amostra de cada estrato. - AAE é utilizada para garantir que cada um dos estratos seja representado na amostra de forma proporcional, pois se pega uma porcentagem equivalente à da população na amostra. Garante representatividade. - Exemplos: Sexo, renda, bairro. # Amostra estratificada de caixa ou lote de lâmpadas. Se pega 3, por exemplo, de cada caixa e testa. Caso essa funcione, se aceita o lote, caso contrário, se recusa. - Também é usada para comparativo: “os efeitos colaterais são iguais em homens e mulheres?” “... alunos de medicina e direito?” Amostra Aleatória por Conglomerados (AAC) Divide-se a população em um grande número de subpopulações (conglomerados) distintos. Seleciona-se alguns conglomerados através de AAS e todos os indivíduos destes conglomerados são observados. - Exemplos: bairros, escolas e residências. - Sorteia-se lotes e os testa. - Pode ser um grupo muito grande, ai se faz a AA2E. Amostra Aleatória em Dois Estágios (AA2E) Neste caso a população é dividida em subpopulações como na AAC. 1º Estágio: Alguns conglomerados são escolhidos usando a AAS. 2º Estágio: Alguns elementos são selecionados de cada conglomerado (selecionado no 1º estágio) utilizando se de AAS. O estratificado pega alunos de várias escolas, o de dois estágios seriam apenas de uma. - Pode ser de múltiplos estágios, mas o nome não muda. Sorteia município, escolas, salas, alunos (3 estágios). 5 Amostra sistemática (AS) Utilizada quando se tem disponível a relação ordenada de todos os elementos da população. - Quando se tem uma lista ordenada é fácil de pegar uma amostra assim e garante que - Sorteia-se através de AAS um nº entre 1 e (N – tamanho da população/n – tamanho da amostra). Este será o 1º selecionado. # Se a razão N (1000)/n (10) é igual a 100 e o número sorteado foi 5, o 1º indivíduo é o 5º, o 2º o 105º, o 3º o 205º, e assim por diante até chega ao 10, no qual o indivíduo é o 905º. Após ele não há mais como fazer a amostra pois não há mais população. - Os demais são sistematicamente determinados somando-se (N/n) ao primeiro número sorteado. Exemplos: Controle de qualidade em linhas de produção; casas em uma determinada rua. Tamanho da amostra Chamamos de erro amostral a diferença entre o valor estimado para um parâmetro a partir dos dados coletados em uma amostra e o verdadeiro valor do parâmetro na população. - Uma média de uma amostra sempre terá um erro amostral (diferença entre o errado e o total), uma margem de erro. Só haverá a média correta caso haja o estudo de toda população. # O cálculo do erro da amostra é obtido Parâmetro: característica da população. - Por exemplo: Idade média, proporção de fumantes, entre outros. A determinação do Tamanho da Amostra (n) depende do erro amostral máximo tolerável (E), ou seja, o quanto se admite errar na estimação do parâmetro de interesse. Só é possível calcular o E pelo valor real, o que nunca se tem. - Pesquisas Eleitorais: # Candidato A: 34% ± 2%. # Significa que o resultado da pesquisa foi de 34%, mas que se admite que o valor real esteja entre 32% e 36% Cálculo do tamanho da amostra Notação: N = Tamanho da População E = Erro Amostral máximo tolerável no = Tamanho inicial da amostra n = Tamanho da amostra Primeiro se calcula o no e depois o n. Com isso se sabe o tamanho da amostra com uma margem de erro já pré-definida. Deve-se sempre arredondar pra cima. Atividade 1 Suponha que no curso de Medicina da FAMINAS-BH há 1000 alunos matriculados, determine o tamanho de amostra necessário para realizar uma pesquisa com margem de erro tolerável de: a) 2% no = 1 / 0,02² 2500 n = (1000 x 2500) / (1000 + 2500) n = (25 x 105) / (3500) 714,28 Ou seja, o tamanho da amostra deve ser de 715 para que haja um erro tolerável de 2%. b) 5% no = 1 / 0,05² 400 n = (1000 x 400) / (1000 + 400) n = 4 x 105 / 1400 n = 285,74 Ou seja, o tamanho da amostra deve ser de 286 para que haja um erro tolerável de 5%. c) 10% no = 1 / 0,10² 100 n = (1000 x 100) / (1000 + 100) n = 1 x 105 / 1100 n = 90,90 Ou seja, o tamanho da amostra deve ser de 91 para que haja um erro tolerável de 10%. Atividade 2 Considerando que na turma de 3º período de Medicina da FAMINAS-BH há 50 alunos matriculados, determine o tamanho de amostra necessário para realizar uma pesquisa com margem de erro tolerável de: a) 2% no 2500 n = (86 x 2500) / (86 + 2500) n = 215 x 103 / 2586 n = 83,13 Ou seja, o tamanho da amostra deve ser de 84 para que haja um erro tolerável de 2%. b) 5% no 400 n = (86 x 400) / (86 + 400) n = 34400 / 486 70,78 Ou seja, o tamanho da amostra deve ser de 71 para que haja um erro tolerável de 5%. c) 10% no 100 n = (86 x 100) / (86 + 100) n = 86 x 100 / 186 n = 46,23 Ou seja, o tamanho da amostra deve ser de 47 para que haja um erro tolerável de 10%. 6 Estatística descritiva – Tabelas de Frequências e Gráficos Definição: é o conjunto de métodos utilizados para resumir bancos de dados. - É o primeiro passo para a compreensão dos resultados de uma pesquisa. - Trata-se da construção de tabelas e gráficos, além do cálculo de medidas estatísticas, tais como médias, que resumem a informação de um banco de dados tornando-a compreensível. Variáveis - Quantitativa: # Discretas (número inteiros): nº de filhos, unidadesde lote, de funcionários na empresa, idade (anos completos). # Contínuas (admite decimais): peso, altura, salário, idade (anos, meses e dias). - Qualitativas ou categóricas # Ordinárias (existe uma ordenação): grau de satisfação, escolaridade, faixa-etária (não é idade). # Nominais: não há um critério de avaliação, não há pior ou melhor; sexo, cor, bairro. Em estatística não se usa valores absolutos, mas sim porcentagens para que haja uma melhor avaliação. - Proporção (frequência relativa ou fr) = nº de casos (frequência absoluta ou fi) / total (tamanho da amostra ou n). - Porcentagem = proporção x 100 # Não há problemas em arredondar pois há o erro amostral, o importante é se há predomínio ou não. Gráfico de setores (pizza), gráfico de barras e tabela de frequência costumam ser usados para representar variáveis categóricas, sendo uma barra para cada categoria (sim e não). - A tabela de frequência tem que ter as laterais extremas (de fora) abertas, sem linhas limitantes – ABNT –, se não vira quadro, usado para informações, textos. - O de setores não deve ser utilizado quando houverem muitas fatias. Gráficos de Barras Cruzado: se apresenta “sim” e “não” para mulheres e em seguida para homens. - Cruzamento de duas variáveis categóricas. - É importante a olhar a proporção, pois a maneira em que é exposto a informação, pode dar diferença. Gráficos de Barra Várias Variáveis: apresenta variáveis categóricas que apresentam as mesmas categorias, como sim e não. - No gráfico só se mostra os ‘sim”. - Pode colocar uma linha no 50% para melhorar o entendimento do gráfico. Gráfico de pontos: a quantidade de ponto indica quantas pessoas e gênero em um gráfico de altura, por exemplo. Histograma: gráfico onde as barras são juntas; usado para variáveis quantitativas categorizadas. - Gráfico à direita. Boxplot: usado para variáveis quantitativas categorizadas, onde se tem gênero x altura, onde se separa em grupos com o mesmo número de indivíduos onde o traço do meio simboliza 50% do grupo avaliado. - Mostra a variabilidade. Gráfico de dispersão: há o cruzamento de variáveis quantitativas. - Pode-se avaliar gênero, altura, quantidade de indivíduos entrevistados e o número de pessoas. - Pode ser crescente, decrescente ou em “nuvem”, ou seja, sem diagonal. Gráfico de linhas análise de tendência. - Cruzamento de duas variáveis quantitativas e uma categórica. 7 - Deve-se ter cuidado pois não se sabe se é relacionado a recusa antigamente a fazer o exame, no caso do de próstata, de forma que impedia o diagnóstico, ou outro. - Para se conectar, tem que ser para avaliar/acompanhar ao longo do tempo. Não se usa para outra função. Estatística descritiva Medidas de Tendência Central - Existe a tendência de valores observados em uma amostra se agruparem em torno dos valores centrais. - Adequado apenas para variáveis quantitativas. - Ao lado, se vê na imagem que, quando os dados são simétricos, sendo comum ao avaliar alturas de um gênero, a moda, média e mediana costumam ser iguais. Quando há mais dados discrepantes para menos, a média é puxada para baixo, a mediana é sempre mediana, e a moda é onde há o pico. Quando é discrepante para mais, a mediana permanece mediana, a média é puxada deslocada para os maiores valores e a moda no pico. Pensar no gráfico de pontos facilita o entendimento para a mediana e média. Média: É a soma de todos os dados dividido pelo tamanho da amostra. - Não se arredonda a média, sabe-se que ela é superior ou inferior ao valor inteiro encontrado. X = X1 + X2 + ... + Xn n Média para dados agrupados: X = (X1 + X2 + ... + Xn) x fi sendo x a variável e fi a frequência n absoluta/número de casos. Se for fazer a média se pega 38 e divide por 25 1,52. Ninguém tem 1 animal e meio sabe-se que a média é superior a um animal de estimação. Mediana: é o “valor do meio” de um conjunto de dados ordenados. - Se “n” é ímpar: a mediana será o valor do elemento que ocupa a posição (n + 1)/2. - Se “n” é par: a mediana será a média dos valores dos elementos que ocupam as posições n/2 e (n/2) + 1. Após achar essas posições, pega o valor de âmbar e se divide por 2. O que se achar é o valor da mediana. Média X mediana - A média é mais sensível, pois considera todos os dados. Assim, a presença de valores extremos pode afetar consideravelmente esta medida. - A mediana não é afetada pela presença de valores extremos/discrepantes (outlier) pois seu cálculo considera apenas o(s) valor(es) central(is) de um conjunto de dados. # Salários em uma empresa com 19 operários (1 salário mínimo cada) e 1 diretor (25 salários mínimos) a média é igual 2,2 salários mínimos cada. Se for olhar a mediana, esta é igual a 1 mediana tende a representar a maioria e média representar os gastos da empresa. - Se a média e a mediana forem próximas, escolha a média, pois ela considera a amostra como um todo. Quando há grande diferente, prefira a mediana, pois o distanciamento delas mostra que há valores discrepantes. Moda: É o valor mais frequente de um banco de dados. - Se nenhum valor é mais frequente que os demais (vários valores se repetem a mesma quantidade de vezes) ∄ Moda. - Se há empates o conjunto de dados é dito multimodal (deve ter pelo menos um que não está na moda, ai os outros passam a ser moda). Atividade avaliativa 1) Determine a média, mediana e moda do salário dos funcionários de uma empresa. Animais de estimação X 0 1 2 3 4 Total fi 5 9 7 1 3 25 Xi x fi 0 9 14 3 12 38 8 - Média: (8 x 1000) + (15 x 1500) + (10 x 5000) / 33 (8000 + 22500 + 50000) / 33 R$2.439,39 - Mediana: (n + 1)/2 34/2 17º R$ 1.500,00 - Moda: R$1.500,oo 2) Determine a média, mediana e moda, dos seguintes conjuntos de dados: a) Nº de exacerbações de pacientes com fibrose cística: Média: (6x0) + (3x1) + (12x2) + (3x8) + (4x6) / 35 (0 + 3 + 24 + 24 + 24) / 35 75/35 2,14. Mediana: (35 + 1)/2 A mediana é encontrada no 18º, e esse é um paciente com 2 exacerbações. Moda: 2 exacerbações. b) Idade de pacientes com câncer de mama: Média: (25x4) + (35x37) + (45x86) + (55x97) + (65x72) + (75x63) + (85x30) + (95x4) / 393 (100 + 1.295 + 3.870 + 5.335 + 4.680 + 4.725 + 5.550 + 380)/393 25.935/393 65,99 anos. Mediana: (393 + 1)/2 197 A mediana é encontrada no 197º, e esse é um paciente de 50 a 59 anos. Moda: É mais frequente em pacientes com idade de 50 a 59 anos. Medidas de Dispersão/Variablidade Situação: tenho 1,50m e não sei nada. Quero atravessar o rio, fui informada que a profundidade média do rio é de 1m. Posso atravessar? - Não se pode tomar decisão baseada na tendência central. Medidas de dispersão (variação) são medidas estatísticas que informam sobre o grau de variabilidade de um conjunto de dados. - Adequado apenas para variáveis quantitativas. Amplitude total: variação máxima ocorrida na minha amostra. É a diferença entre o maior e o menor valor. AT = XMÁX – XMIN Desvio: é a diferença entre cada valor em relação a média. D1 = (XINDIVIDUAL – XMÉDIA). - A soma dos desvios é sempre igual a zero - Exemplo: x = idade. Foi pego o Xi de 5 indivíduos, sendo essas 20, 21, 19, 26, 19. Em seguida se calcula a média = ∑ Xi1 / n 105 / 5 21. O indivíduo 1, 2, 3, 4 e 5 estão, respectivamente, -1, 0, -2, 5, -1 acima da média. A somatório dos desvios é igual a zero. # Em seguida se faz a soma do quadrado dos desvios, sendo respectivamente, 1, 0, 4, 25 e 4, que totaliza 34. Em seguida se divide a soma por (n – 1), 34 / (5-1) 8,5 (variância). Em seguida se faz a raiz da variância para “tirar” o elevado. Assim se obtém 2,91 desvio. - Deve-se deixar pelo menos umacasa decimal por o número não ser inteiro. Desvio padrão (σ) - Ao se usar σ, quer dizer que se avalia toda a população. Ao usar sd, quer dizer que é a amostra. - 1º Passo: diferença (Xi – X média) - 2º Passo: Quadrado (Xi – X média)² - PODE ser necessário fazer o produto de forma (Xi – X média)² x F1 - 3º Passo: Soma ∑ (Xi – X média)² x F1 - 4º Passo: Divisão ∑ (Xi – X média)² x F1 / (n-1) - 5º Passo: Raiz √ (∑ [Xi – X média)² x F1 / (n-1) ] - Exemplo: nº de tvs por indivíduos. Há 4 indivíduos que não tem TV, 5 que tem 1, 7 que tem 2, 12 que tem 3, 6 que tem 4. Se soma o (Xi x Fi) que dá 79 e se calcula a média, que deu 2,3. A diferença (Xi – X) deu, Fibrose cística Nº de exacerbações 0 1 2 3 4 Total Nº de pacientes 6 3 12 8 6 35 Câncer de mama Nº de pacientes 4 37 86 97 72 63 30 4 393 Idade 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90-100 Total 9 respectivamente, 2,3, 1,3, 0,3, 0,7 e 1,7, sendo que esses devem ser multiplicados pela frequência que eles aparecem para que a somatória dos desvios seja zero. Em seguida se faz os outros passos, quadrado, nesse caso, o produto, soma, divisão e raiz. - Quando os dados de uma variável possuem distribuição normal (simétrica em torno da média), vale a seguinte regra: # Se se permite 1 σ para mais ou para cima, ainda se abrange de forma restrita a população, sendo σ o sd e tendo como valor inicial a média. Então no exemplo anterior de idade, média foi 21 e o sd foi 2,9. O Valor inicial é 21, e se aumentar 1 σ, se tem 23,9, 2 σ se têm 26,8. E assim por diante. - O desvio padrão não pode ser usado para comparar grupos. Coeficiente de variação (cv) - Usado para comparar grupos. - Valia se o grau de variação é moderado ou acentuada. - Medida usada para comparar a variabilidade de conjuntos de dados distintos. - cv < 35% dados são homogêneos. Cv ≥ 35% dados são heterogêneos. Quartis - Q1: mediana da mediana. 50% l 50% - Q2: mediana. Mín Q2 Máx - Q3: mediana da segunda metade da mediana. Mín Q1 Q2 Q3 Máx - Cada quarti contém 25%. # Quando menos condensado, mais disperso é o valor. Quando menos condensado, menos disperso é o valor e mais compactado é o gráfico. Atividade avaliativa 1) Estudo amostral x Estudo populacional a) Qual a diferença? O estudo amostral ocorre com parte da população, enquanto o da população são todos aqueles presentes no local escolhido durante uma determinada época. b) Cite vantagens e desvantagens de cada um. As vantagens do amostral é que é um grupo mais fácil de manter controle, de se notar mudanças, e pode haver menos erros durante a pesquisa; as desvantagens é que há erros amostrais neste que é um grupo limitado da população, de forma que não abrange 100% dos possíveis casos e possíveis resultados. As vantagens da população é que não há erro amostral, se há um resultado mais confiável e no qual se sabe todas as possibilidades possíveis. A desvantagem é que pode ser inviável, muito trabalhoso, e provavelmente impossível dependendo do tamanho da população, nem sempre as pessoas aceitam participar do estudo. c) Qual deve ser o critério de escolha? O tipo de estudo, se há necessidade de se obter valores toda a população, se é possível fazer o estudo em toda população, se há material suficiente, entre outros. d) Defina erro amostral: é a diferença do valor achado na amostra e o verdadeiro valor na população. Nem sempre se sabe onde ele se encontra. e) Defina margem de erro: costuma ser dado na amostra, sendo que essa é calculada antes da pesquisa e tem a ver com a diferença entre o estudo populacional e o amostral. 2) Um empresário deseja conhecer o grau de satisfação do seu cliente e assim melhorar o atendimento da sua loja. Para o estudo, decidiu entrevistar 50 dos 154 clientes cadastrados. Então, a cada 3 clientes, que passavam pelo caixa da loja, solicitava que um desse uma nota de 1 a 10 pelo atendimento recebido. a) Qual o objetivo do estudo do empresário? Melhorar o atendimento da sua loja. b) Quem é a população alvo do estudo? Os clientes. c) Qual o tamanho da amostra? 50. d) Qual o tipo de amostragem escolhida pelo empresário? Amostra sistêmica. 10 e) Neste estudo, o empresário já “passou” por quais fases do método estatístico, e quais ainda faltam? Pelas quatro primeiras, sendo essas, definição do problema/objetivo, planejamento da pesquisa, definição da instrumentalização da coleta de dados e coleta de dados. 3) A diretoria Administrativa da Companhia que trabalho está cogitando alterar alguns benefícios dos funcionários. No intuito de verificar a viabilidade do projeto, solicitou à minha gerência que gerasse dados atualizados sobre o perfil do funcionário, tais como: Situação de Moradia (Imóvel Próprio/Imóvel Alugado) Meio de transporte Nº de dependentes Estudos (Curso em andamento/ Não está estudando) Segundo informação obtida no RH, atualmente estão registrados 3200 funcionários na Companhia. Os resultados deverão ser apresentados na reunião Gerencial nesta 6ª feira. a) Que tipo de estudo você sugere realizar (Populacional/Amostral)? Justifique. Amostral, pois ele possui uma grande quantidade de funcionários, podendo ser difícil ter acesso a todos. b) Se a diretoria determinar que deva ser utilizado um estudo amostral, qual o tipo de amostra você sugere utilizar? Justifique. Amostra aleatório estratificada, de forma que possa se pegar indivíduos de todas as áreas da Companhia de forma equilibrada. c) Calcule o tamanho de amostra necessário para realizar a pesquisa com margem de erro de 6%. 4) Identifique a população-alvo e o tipo de amostragem utilizado, para as seguintes situações: a) Escolhidos ao acaso, 1819 pacientes que haviam recebido alta em hospitais foram indagados sobre sua opinião a respeito dos cuidados que receberam amostragem aleatória simples; população de todos pacientes que receberam alta. b) A soja é plantada num campo de 48 acres de área. O campo está dividido em sub-regiões de um acre. Uma amostra de plantas é coletada em cada uma das 48 sub-regiões a fim de se estimar a colheita sojas plantadas; amostragem aleatório estratificada. c) Uma lista de administradores é compilada e ordenada. Após se escolher aleatoriamente um número inicial, todo vigésimo nome é selecionado até se atingir a quantidade de 1000 administradores. Os administradores são questionados a respeito do uso de mídia digital administradores na lista; amostragem sistemática. d) Um município apresenta cerca de 1/3 da população residente na zona rural. Foram escolhidas ao acaso, 100 pessoas do meio rural e 200 do meio urbano, com idades de 65 anos ou mais, e indagadas sobre sua saúde e sua experiência com medicamentos prescritos população do município; amostragem aleatória estratificada. e) Após um furacão, a região atingida pelo desastre foi dividida em 200 pequenas áreas de igual tamanho. Trinta delas foram selecionadas e um morador, escolhido ao acaso, de cada residência pertencente às áreas selecionadas foi entrevistado para ajudar a identificar o perfil das famílias atingidas famílias atingidas; amostra aleatório em dois estágios. 5) Relacione corretamente: a) Amostra Aleatória Simples b) Amostra Aleatória Estratificada c) Amostra Aleatória por Conglomerados d) Amostra Aleatória em 2 Estágios e) Amostra Sistemática ( B ) Um carregamento de leite é inspecionado pela vigilância sanitária. Em cada lote uma caixa é selecionada ao acaso para verificação da conformidade do produto. ( E ) Em uma linha de produção de uma montadora de carros, um a cada cinco veículos é testado pelo departamento de qualidade. ( A ) Escolhidos aleatoriamente 30 pessoas que possuem cartãofidelidade de uma grande rede de supermercados para bonificação e descontos. ( A ) Em uma bairro foram selecionadas aleatoriamente 15 casas e todos os moradores foram questionados sobre os seus hábitos de higiene. 11 6) O governo brasileiro deseja conhecer a proporção de presos, do sistema semi-aberto, que conseguiram emprego e estão trabalhando, enquanto cumprem a pena. Para isso o governo pretende realizar uma pesquisa de âmbito nacional. Através das informações contidas na tabela ao lado responda: a) Qual o método de amostragem que você sugere para o estudo? Justifique sua resposta. Amostra aleatório estratificada, pois poderá se ter uma noção de casos em todas as regiões do Brasil, ou seja, será uma pesquisa em âmbito nacional. b) Calcule o tamanho da amostra considerando um erro de 4%. no = 1 / 0,04² 625; N = (15000 x 625) / (15000 + 625) 9375000 / 15625 600 7) Quero saber, dentre os 2000 alunos de uma universidade, qual a proporção de alunos que tem filhos. Considerando minhas limitações de tempo e recursos, decidi entrevistar 50 alunos. Para realizar a pesquisa sorteei aleatoriamente 5 turmas, em seguida selecionei aleatoriamente 10 alunos de cada uma destas turmas para responder ao meu questionário. a) Qual o objetivo do estudo? Saber a proporção de alunos que tem filhos. b) Qual é a população-alvo do estudo? Mães ou pais. c) Qual o tamanho da amostra utilizado? 50 alunos. d) Qual o tipo de amostragem escolhida? Amostra aleatória em dois estágios. e) Neste estudo, quais as fases do método estatístico já foram realizadas e quais faltam realizar? Definição do objetivo, planejamento da pesquisa e elaboração do instrumento da coleta de dados. f) Qual deveria ser o tamanho da amostra para garantir um erro amostral máximo de 5%? no = 400 N = (400 x 2000) / (2400) 333.33 o tamanho da amostra deve ser de 334 indivíduos. 8) Classifique as variáveis em categóricas/qualitativas (nominais ou ordinais) ou quantitativas (contínuas ou discretas): a) Cor dos olhos das alunas: qualitativa nominal. b) Número de defeitos em aparelhos de TV: quantitativa discreta. c) Comprimento dos pregos produzidos por uma empresa: quantitativa contínua. d) A face obtida em cada jogada de um dado: quantitativa discreta. e) A pontuação em testes, de questões fechadas (pode valer 1,5), de uma turma de alunos de estatística: quantitativa contínua. f) O salário mensal dos empregados de uma firma de contabilidade: quantitativa contínua. g) O número do RG dos empregados de uma firma de contabilidade: qualitativa nominal (a pessoa 2 não é metade da 4, não é quantitativo). h) As idades de uma amostra de 350 pacientes de clínicas de repouso: quantitativa contínua. i) Grau de escolaridade da população de Minas Gerais: qualitativa ordinal. j) Grau de confiança do eleitor no Presidente da República: qualitativa ordinal. 9) Duas pesquisas foram realizadas com o objetivo de estimar o salário médio de médicos recém- formados (dados fictícios). Os resultados das pesquisas estão apresentados abaixo: Selecione abaixo a afirmativa CORRETA. a) A igualdade das médias em ambas as pesquisas demonstra que o salário de médicos recém- formados é fixo. b) O tamanho da amostra não afeta a confiabilidade dos resultados de uma pesquisa. c) A pesquisa 1, tem menor margem de erro e, portanto, é mais confiável. d) A pesquisa 2, tem menor margem de erro e, portanto, é mais confiável. e) Os resultados de ambas as pesquisas são igualmente confiáveis. 12 10) Para comparar o desempenho dos alunos da rede pública nos ENEM, foi feito um levantamento de dados e calculada a proporção (%) de alunos aprovados em universidades federais. Para cada estado, calcule a média, mediana e moda. Desenhe um gráfico de linhas e compare os estados de acordo com os resultados. - MG: Média = 39,57; Mediana = 38; Moda = inexistente. - SP: Média = 39,57; Mediana = 38; Moda = inexistente. - RJ: Média = 39,57; Mediana = 37; Moda = 35. 11) Uma turma de 20 alunos tirou as seguintes notas no exame de estatística: 62 57 63 72 59 70 68 64 56 71 52 63 100 100 60 82 48 45 72 63 a) Calcule a nota média da turma: 66,35. b) Calcule a nota mediana da turma: (63 + 63) / 2 63. c) Qual das medidas é melhor para resumir este banco de dados? Justifique sua resposta. A média, pois nela se encontra o valor médio de todas as notas da turma. d) Construa uma tabela de frequências de duas classes para estes dados. Pode ser vista acima. 12) Uma pesquisa com 95 mulheres da zona rural de São Domingos do Prata sobre o número de filhos apontou os seguintes resultados: a) Qual a média do nº de filhos? (12x0) + (6x1) + (23x2) + (34x3) + (6x4) + (14x5) / 95 248 / 95 2,61. b) Mediana? 48º 3 filhos. c) Moda? 3 filhos. d) Desvio-padrão? -2,61; -1,61; -0.61; 0,39; 1,39; 2,39. 13) Entrevistados 50 presos de penitenciárias de Belo Horizonte, e questionados sobre o número de vezes que já estiveram detidos. Calcule a média, a mediana, a moda, desvio-padrão e coeficiente de variação; Média: (10x0) + (24x1) + (12x2) + (4x3) / 50 1,2 vezes. Mediana: 25º e 26º (1 + 1) / 2 1 vez. Moda: 1 vez. Desvio padrão: -1,2; -0,2; 0,8; 1,8. 14) Uma empresa com 7 estagiários, 5 funcionários de nível médio, 28 funcionários de nível superior e 5 funcionários de diretoria, em que os salários são divididos da seguinte forma: a) Qual o salário médio da empresa? (7x1) + (5x1) + (28x3) + (5x6) / 45 2,8 sm. b) Qual a mediana? 23º 3 sm. c) Qual a melhor medida para representar estes dados, média ou mediana? Média, pois a média e a mediana são próximas, porém a média avalia a todos os funcionários. d) Desvio-padrão? -1,8; -1,8; 0,2; 3,2. e) Coeficiente de Variação? 15) Uma amostra de 120 universitários informou o número de parceiros sexuais que já tiveram até o momento: a) Calcule a média, a mediana e a moda; Média: (18x0) + (42x3) + (36x8) + (15x13) + (9x18) / 120 771 / 120 6,42 parceiros. Mediana: 60º e 61º 1-5 parceiros e 6-10 parceiros 5,5 parceiros. Moda: 1 a 5 parceiros. b) Qual a proporção de alunos que não tiveram nenhum parceiro sexual? 120 é igual a 100%, logo, 18 é igual a 15%. Nota Nº % 0-69 13 65 70-100 7 35 Total 20 13 16) Qualidade de vida é uma expressão que indica as condições de vida das pessoas e envolve diversas áreas como o bem físico, mental, psicológico e emocional, relacionamento profissional e outros parâmetros que afetam a vida humana. Um grupo de alunos da disciplina de Bioestatística da PUC-Betim elaborou um questionário com o objetivo de conhecer a qualidade de vida dos alunos de Medicina Veterinária desta universidade. Foi aplicado um questionário com 15 perguntas a uma amostra de 100 alunos de Medicina Veterinária, escolhidos aleatoriamente. Alguns dos resultados desta pesquisa estão apresentados nos gráficos abaixo. Avalie os resultados e redija suas interpretações. A maioria da população é masculina (54 alunos); Avaliando as respostas com somente a opção “sim e não”: 75 alunos acham que sua vida tem sentido; 33 acham que tem energia suficiente para o dia a dia; 48 são satisfeitos com sua saúde; 40 necessitam de tratamento médico para levar sua vida diária; 39 possuem dinheiro suficiente para suas necessidades; e 28 praticam atividade física como lazer. Respostas com mais de duas opções: 44 avaliam sua qualidade de vida como ótima, 48 como boa e 8 como ruim. Respostas quantitativas: Quando pedido para atribuir uma nota de 0 a 100% (mostrado no gráfico de pontos) para o porcentual de energia diária a moda foi > que 75% e menor que < 90%. Quando pedido para avaliar de 0 a 100% a felicidade a moda foi > que 96%. Quando colocado em um gráfico de dispersão, é perceptível que a maioria dos alunos classificaram sua porcentagem de felicidade e energiadiária como maior que 60%. 17) Os dados abaixo foram retirados do estudo: Prevenção do Suicídio: Manual Dirigido a Profissionais das Equipes de Saúde Mental – Ministério da Saúde, Brasil. Para cada gráfico apresentado abaixo responda: O gráfico apresentado é adequado? Interprete o resultado. O gráfico ao lado é adequado pois é possível entender em quais idades a taxa de suicídio foi mais comum no ano de 2004. Pode-se perceber, de acordo com a tabela que a taxa de suicídio é maior em indivíduos de 70 a 79 anos e menor em indivíduos de 10 a 14 anos. 46.0% Feminino 54.0% Masculino Sexo Qualidade de Vida % RuimBoaÓtima 50 40 30 20 10 0 8 48 44 Como você avalia sua Qualidade de Vida? 25.0% Não 75.0% Sim Você acha que sua Vida tem sentido? % Energia Diária 907560453015 Atribua uma nota de 0 a 100% para o seu percentual de Energia Diária % Felicidade 96847260483624 Atribua uma nota de 0 a 100% relativo ao seu Grau de Felicidade % Felicidade % E n e rg ia D iá ri a 100908070605040302010 100 80 60 40 20 0 r = 0 898 14 O gráfico à direita é adequado pois mostra a taxa de mortalidade por suicídio ao longo dos anos, sendo a linha em preto a taxa de homens e a vermelha de mulheres. Esse tipo de gráfico é adequado para representar informações com o passar dos anos, podendo ser visto quando houve o aumento ou queda da taxa de acordo com o ano e sexo. O gráfico ao lado não é o mais indicado para essa quantidade de informações, pois o gráfico de pizzas é melhor quando usado para menos dados. Nesse caso, os dados poderiam ficar melhor ordenados caso fossem colocados em um gráfico de barras, possibilitando avaliar com maior facilidade quais os transtornos mentais são mais e menos prevalentes de acordo com o estudo. 18) O gerente de uma clínica dermatológica deseja comparar o tempo gasto para conclusão de um determinado procedimento entre as equipes do turno diurno e o noturno. Para isso registrou durante um mês os tempos alcançados por seus funcionários. Os resultados estão apresentados na tabela. Estatísticas descritivas para o tempo de execução do procedimento (minutos). a) Qual equipe trabalha com tempos mais homogêneos? Justifique sua resposta: A equipe do turno noturno, pois esse o desvio padrão dele foi menor. 19) Com o objetivo de comparar os preços dos carros comercializados por 2 importantes montadoras nacionais (X e Y), foram escolhidos ao acaso 10 carros de cada uma dessas marcas, e observado o valor atual constante na tabela FIPE (Fundação Instituto de Pesquisas Econômicas). Estatísticas descritivas dos preços de carros de duas montadoras nacionais. A mediana é Q2. Fonte: Tabela FIPE. Com base nas estatísticas descritivas apresentadas na tabela acima, assinale V ou F para as afirmativas abaixo: ( F ) Tanto a mediana quanto a média mostram que os preços praticados por ambas as montadoras (não) são similares. ( F ) A média (mediana) representa melhor a medida de tendência central, pois considera todos os dados colhidos na amostra. ( V ) A mediana representa melhor a medida de tendência central, pois desconsidera valores discrepantes. ( V ) A diferença acentuada entre a média e a mediana na montadora X indica a presença de valores discrepantes na amostra. ( V ) 25% dos carros da montadora Y têm valor igual ou maior que R$89.830,20. ( F ) 75% dos carros da montadora X têm valor igual ou maior que R$88.560,40. ( F ) O coeficiente de variação mostra que os preços praticados por ambas as montadoras é homogêneo. ( F ) A variabilidade de preços observada na montadora Y é maior que na montadora X. ( V ) A medida adequada para comparar a variabilidade de preços das montadoras é o coeficiente de variação. ( F ) A medida adequada para comparar a variabilidade de preços das montadoras é o desvio-padrão. Probabilidade Noções de probabilidade Definição: medida matemática/estatística que procura mensurar a chance de ocorrência de um evento de interesse. 15 Definição clássica de probabilidade: P(A) = número de possibilidade de “A” Total de possibilidades - P(A) = #A / #Ω - Exemplo: joga um dado e se sair número maiores de 4 você ganha uma bala P(A) = 2 / 6 P(A) = 0,333... Definição frequentista de probabilidade: P(A) = nº de vezes que “A” ocorreu N - É uma estimativa para a probabilidade, calculada através de dados amostrais. Espaço amostral (Ω): conjunto de todos os resultados possíveis. Propriedades Estamos acostumados a lidar com porcentagem, mas probabilidade é dada em decimal. I) 0 ≤ P(a) ≤ 1 II) P(A) = 1 evento certo III) P(A) = 0 evento impossível IV) P(A) ~ 0 evento improvável l l l probabilidade 0 0,5 1 0 100 l l 100% O 0,5 (50%) é o maior índice de incerteza que se pode ter de alguma coisa. A regra pede para usar 4 casas decimais na probabilidade, a menos que seja um número inteiro, como 0,5, ai se usa duas, “0,50”. Probabilidade de ter dor de cabeça na sala - P(F) = 28/40 = 0,70 - P(M) = 1 – 0,70 = 0,30 - P(D) = 14/40 = 0,35 - P(D/F) = 14/28 – 0,50 - P(D/M) = 0 - P (D Ω F) = 14/40 = 0,35 - / = dado que. - Ω = e. Testes de hipóteses Definição: Testes de Hipóteses são métodos analíticos destinados a verificação científica de uma hipótese a cerca de um parâmetro da população. - Comparações ou decisões tomadas com base em pesquisas amostrais estão sempre sujeitas a erro que podem ocorrer ao acaso independentemente da qualidade técnica e primazia do planejamento da pesquisa. Exemplos de aplicação: A proporção de fumantes é igual entre homens e mulheres? Os salários de advogados e professores, em atuação no município de Belo Horizonte, são iguais? A prevalência de um determinado sintoma de uma doença é maior em pacientes acima de 60 anos? - Os salários, de médicos recém-formados, são iguais entre homens e mulheres? # Suponha uma pesquisa realizada com 50 médicos e 50 médicas, obteve os seguintes resultados: Sabemos que R$12.000 é a média feminina e é diferente de R$12.500, que é a média masculina, entretanto queremos saber se esta diferença é apenas um acaso amostral ou se, de fato, há diferença significativa entre os grupos comparados. Definição das Hipóteses H0: Hipótese nula hipótese conservadora (Assume igualdade entre os grupos comparados). Como se fosse o anterior = ao que se quer provar. H1: Hipótese Alternativa necessita de maiores evidências para ser considerada verdadeira (será sempre o complementar de H0). Anterior ≠ ao que se quer provar. 16 Erro de Decisão Controle de Erro Erro Tipo I: o nível de aceitação deve ser definido antes da realização dos testes. - = Nível de Significância - 1- = Nível de Confiança Erro Tipo II: nem sempre controlado, é definido na etapa de cálculo do tamanho amostral. - = Probabilidade de Erro Tipo II - 1- = Poder do Teste Escolha do Teste Para cada tipo de comparação que se deseja realizar, em uma investigação científica, há uma coleção de testes estatísticos disponíveis e em desenvolvimento. Na Teoria de Estatística Clássica, há dois grandes grupos de testes estatísticos, os paramétricos e os não paramétricos. - Paramétricos: possuem pressupostos (em geral, acerca da forma de distribuição dos dados); são mais eficientes (capacidade de perceber diferenças entre grupos). - Não paramétricos: Têm maior aplicabilidade (não possuem pressupostos); têm menor eficiência que seus correspondentes paramétricos. Decisão p-valor p-valor: Probabilidade de significância (Erro 1) Probabilidade de errar ao rejeitar H0, ou seja, probabilidade de errar ao afirmar que há diferença significativa. Quando menor que 0,5, há diferença, quando maior, não há (hipótese nula, ou seja, é anulada/nãotem valor). A decisão de um teste de hipóteses é tomada a partir do p-valor encontrado. - p-valor ≤ α rejeitar H0 - p-valor > α não rejeitar H0 Quando equivalente a 95% de confiança 5% de significância. Probabilidade de errar ao afirmar que existe diferença significativa deve ser no máximo de 5%. - p-valor ≤ 0,05 rejeitar H0 - p-valor > 0,05 não rejeitar H0 Condução de Testes de Hipóteses 1º passo definir as hipóteses do teste 2º passo definir o nível de confiança 3º passo escolha do teste adequado 4º passo cálculo do p-valor 5º passo conclusão do teste Atividade avaliativa Questão 1 Defina o p-valor. Questão 2 Procure um artigo científico que tenha resultados de testes estatísticos e identifique no artigo o nível de confiança determinado, defina as hipóteses de teste e redija a conclusão do teste aplicado. Questão 3 A taxa de Leucócitos no plasma de 44 voluntários sadios foi avaliada antes e após a participação em um 17 estudo de bioequivalência de medicamentos. Defina as hipóteses apropriadas para verificar se ocorreu alteração na taxa de Leucócitos dos voluntários participantes do estudo. Interprete o p-valor do teste. Com base nos resultados apresentados abaixo, qual a conclusão do teste, considerando-se 95% de confiança? P-value: 0.198 Questão 4 A taxa de Hemoglobina no plasma de 44 voluntários sadios foi avaliada antes e após a participação em um estudo de bioequivalência de medicamentos. Defina as hipóteses apropriadas para verificar se ocorreu alteração na taxa de Hemoglobina dos voluntários participantes do estudo; interprete o p-valor do teste. Qual a conclusão do teste, considerando-se 95% de confiança? P-value: 0.006 Questão 5 Uma pesquisa de análise de sobrevivência foi realizada no intuito de verificar quais variáveis estão associadas à ocorrência de óbito por câncer de mama. A tabela abaixo apresenta os resultados da análise de sobrevivência de pacientes, atendidos pelo setor oncológico do Hospital Bom Pastor (Varginha-MG), no período de 1998 a 2009. A partir dos resultados apresentados na tabela acima, quais as variáveis estão significativamente associadas à ocorrência de óbito por câncer de mama? (considere 95% de confiança) Questão 6 Para verificar se o uso de fertilizante na cultura de tomates interfere no resultado do fruto, foram selecionados e pesados 15 tomates de um canteiro em que foi adicionado o fertilizante e 15 tomates de um canteiro sem adição de fertilizante. Sem 14.3 13.8 15.2 12.5 13.5 14.1 15.1 14.0 12.2 11.8 14.5 11.7 14.5 13.6 15.4 Com 14.2 14.8 14.7 16.5 16.3 15.9 17.2 15.1 14.9 16.2 14.3 16.8 15.1 15.0 15.6 P-Value = 0.000 Defina as hipóteses apropriadas para verificar se há diferença no peso do tomate produzido com e sem fertilizante; interprete o p-valor do teste. Qual a conclusão do teste, considerando-se 95% de confiança? Correlação Linear Introdução Duas variáveis (X e Y) estão associadas? - Eixo X: variável explicativa; Eixo Y: variável de resposta. - O salário de um profissional está associado ao seu tempo de profissão? Teria que se aumentar a medida que se ganha experiência. - O tempo entre diagnóstico e início do tratamento está associado ao tempo de sobrevida de um paciente de câncer de mama? Quanto maior o tempo de espera, menor a sobrevida desse e maior a gravidade do seu problema. Para avaliar a existência de associação linear entre duas variáveis quantitativas, primeiramente recorremos à construção de um gráfico de dispersão. - Adequado apenas para o cruzamento de duas variáveis quantitativas. Gráficos de Dispersão Escolhemos para o eixo Y do gráfico a variável resposta, ou seja, aquela que possivelmente é afetada pelo valor observado na variável posicionada no eixo X, denominada variável explicativa (covariável). Vemos que a correlação pode ser positiva ou negativa, de forma que a primeira é quando uma cresce, e a outra cresce também, crescente, a segunda é quando uma cresce e a outra diminui (“quanto mais filhos, menos tempo a mulher tem”), decrescente (nem sempre fácil de identificar, são desvios no gráfico de pontos). Variáveis p-valor Faixa etária 0,010 Raça/cor 0,954 Escolaridade 0,522 Estadiamento 0,031 Histórico de câncer na família 0,040 Alcoolismo 0,998 Tabagismo 0,682 18 Variação perfeita: não tem variabilidade e tem forte relação. Cerveja 5 reais cada. Comprei 5, pago 25, 10, pago 50. Variação forte: tem variabilidade, mas ainda tem forte relação, 2 cervejas 5 reais, 3 cervejas 12. Variação fraca: tem alta variabilidade e pouca relação. Coeficiente de Correlação O coeficiente de correlação, r (ou ), procura mensurar a força e o sentido (+ ou -) da associação entre duas variáveis quantitativas. Dependendo do resultado de r, vemos que quanto mais perto de zero, mais fraca é a correlação, quanto mais próxima de 1, mais forte. Sendo o fato de ser negativa e positiva definida pelo sinal. - Ao lado vemos: forte negativa (-1 a -0,8) moderada forte (-0,8 a -0,6) moderada (- 0.6 a -0.4) moderada fraca (-0,4 a -0,2) fraca (-0,2 a 0) nula (0) fraca positiva (a 0,2) moderada fraca (0,2 a 0,4) moderada (0,4 a 0,6) moderada forte (0,6 a 0,8) forte positiva (0,8 a 1). Em A vemos uma correção negativa perfeita; em B vemos uma correlação positiva moderada forte; em C vemos uma correlação zera por não haver associação linear entre as variáveis; e em D achamos valores negativos e positivos que se anulam, de forma que a correlação é zero. Coeficiente de Pearson: usado apenas quando ambas as variáveis possuem distribuição normal, ou seja, quando há uma média central (cada valor é subtraído da média). - Se a média não representa bem, se usa outro. Coeficiente de Spearman: não há restrição, porém é menos eficiente. Definição das Hipóteses H0: r = 0 (ausência de correlação linear) H1: r ≠ 0 (presença de correlação linear) Se r = 0,619 (p-valor = 0,001) vemos relação moderada forte, indicando que quanto maior a idade do indivíduo, maior o tempo de conclusão (anos). Se r = 0,325 (p-valor = 0,105) vemos que não há correlação, pois o p-valor é alto e o r é baixo, de forma que devemos considerar como ausência de correlação. Atividade Avaliativa Questão 1 Os dados ilustrados no gráfico abaixo correspondem à Renda Familiar (X) e Gasto com Alimentação (Y), para uma amostra de 25 famílias. Interprete o coeficiente de correlação calculado para estas duas variáveis. O coeficiente, por ser maior que 0,8, é considerado como positivo forte, ou seja, o gasto com a alimentação está fortemente relacionado a renda familiar de cada família de forma crescente – quando maior a renda, maior o gasto com alimentação. Questão 2 Uma amostra de 10 famílias foi selecionada e observadas as seguintes variáveis: renda, número de filhos e média de anos estudo da família. Interprete os coeficientes de correlação calculados para estas variáveis. No gráfico de 19 nº de filho por média de anos de estudo da família temos r de - 0,737, de forma que a correlação é moderada forte negativa, ou seja, quanto maior o nº de filhos, menor é a média de anos de estudo da família. No gráfico de nº de filhos por renda, vemos r de - 0,759, também sendo moderado forte negativa, de forma que quanto maior o nº de filhos, menor a renda. E por fim, no gráfico de renda por média de anos de estudo da família, temos r = 0,947, ou seja, há relação forte positiva entre as variáveis de forma que, quanto maior a renda, maior é a média de anos de estudo da família. Questão 3 Os dados ilustrados no gráfico abaixo correspondem ao número de casos de tuberculose diagnosticados no Brasil (Y) por ano (X). Interprete o coeficiente de correlação calculado para estas duas variáveis. O coeficiente de relação é de -0,968, ou seja, é forte negativo. Com isso vemos que temos uma linear decrescente e que ao passardos anos menor foi o número de casos de tuberculose diagnosticada no Brasil. Questão 4 Procurando quantificar os efeitos da escassez de sono sobre a capacidade de resolução de problemas simples, um pesquisador tomou ao acaso 10 sujeitos e os submeteu a experimentação. Deixou-os sem dormir por diferentes números de horas, após o que solicitou que os mesmos resolvessem 50 "contas de adicionar" de um teste. Os resultados da pesquisa estão ilustrados no gráfico a seguir. Interprete o coeficiente de correlação calculado. Como r = -0,801, vemos que a correlação é forte e negativa, ou seja, é uma relação decrescente e pouco variável. Sendo assim, quanto maior foi o número de acerto, menor foi a quantidade de horas sem dormir. Questão 5 Uma empresa está estudando como varia a demanda de certo produto em função de seu preço de venda. Os gráficos ao lado apresentam os preços praticados e volume de vendas ao longo de um ano, sendo que no segundo gráfico o valor do mês de dezembro foi omitido. Qual gráfico é mais adequado para estudar o volume de vendas em função do preço do produto? Justifique. O segundo é mais adequado, pois a correlação é mais forte (forte negativa no segundo e fraca moderada no primeiro) e a variabilidade é menor, de forma que uma avaliação do gráfico é mais fácil de ser feita e estudada. Além disso, os valores estão mais coerentes com a média, de forma que há menos desfalques dos valores reais e mostra que há mais forte correlação entre as variáveis X e Y. Regressão linear Definição: Modelo linear para o ajuste de duas variáveis quantitativas. - Equação para se estimar a condicional (valor esperado) de uma variável y, dados os valores de algumas outras variáveis x. Os estatísticos propuseram formas de avaliar a reta, vendo sua variabilidade, não sendo uma Análise de regressão linear simples Passos: - 1º passo: Identificar uma correlação linear entre 2 variáveis - 2º passo: Estimas uma equação que descreva a relação entre estas variáveis. A relação mais simples é aquela descrita pela equação de uma reta. - y = Bo + B1 x, sendo y a variável resposta, B0 o coeficiente linear (intercepto), B1 o coeficiente angular (inclinação) e x a variável explicativa. # Quando o x é igual a zero, o que sobra na equação é Bo. Se B1 é positivo, há uma reta crescente e o 20 valor deste é a inclinação da reta. Se B1 é negativo, há uma reta decrescente e cada vez que se aumenta x, aumenta-se a inclinação. Se Bo é zero, se tem uma reta (sem inclinação). Modelo de regressão linear ^y = ^Bo + ^B1 x valores estimados de y. y = ^Bo + ^B1 xi + Li valores observados de y. Na prática, existe variabilidade na resposta, o que significa que os pontos observados oscilam ao redor da reta estimada. - Vemos que pode haver uma associação entre tempo e salário, mas que esse não define a reta. Denominamos de resíduos do modelo a diferença entre os valores observados na amostra os valores estimados através da reta de regressão. Temos Li = yi – ^yi, sendo ^yi o valor esperado (a reta). Os pontos acima da reta são os resíduos (erros do modelo) positivos, os abaixo são os negativos. Ajuste da reta de regressão Na primeira reta vemos uma superestimação dos valores de y. Na segunda vemos a subestimação dos valores de Y. Sendo assim, na terceira reta, vemos uma reta ideal, de forma que quando se soma os resíduos positivos e negativos se acha zero, pois eles devem se anular. - Assim, o melhor ajuste da reta é aquela que os resíduos oscilam em torno da reta (positivos e negativos) de tal forma que a média dos resíduos seja igual à zero. Ainda assim, é possível determinar diversas retas com esta propriedade (Li = zero). - A reta azul e a verde ao lado não são adequadas, pois se espera a menor distância da reta e do resíduo. Além disso que a soma da distância entre a reta e o resíduo é levada ao quadrado, se espera o menor valor possível. O método de mínimos quadrados estima os calores de Bo e B1 de tal forma que minimiza as distâncias dos resíduos, ou seja, determina Bo e B1, de maneira que os pontos se aproximem da reta da “melhor forma possível”. Interpretação dos coeficientes Bo: é o valor esperado de y, quando o x = 0 (nem sempre interpretável). B1 = indica a variação (aumento ou redução) esperada de y, a cada unidade de x. Coeficiente de determinação (R²) Trata-se de uma medida de qualidade do ajuste da reta de regressão: fiz uma reta de regressão, calculei, ela está bem ajustada aos dados? O coeficiente de determinação, R², mede a proporção da variação em Y, que é explicada pela variável X, ou seja, quanto da variação de Y pode ser explicada pelo modelo de regressão. - Quanto da variação do salário pode ser explicada só pelo tempo? Ou seja, se exclui as outras variáveis e só avalia uma. O coeficiente de determinação será um valor entre 0% e 100%. Quando maior for o valor de R² melhor o grau de ajuste do modelo de regressão. - Quando mais próximo de 100, maior é a capitação da variabilidade de Y. # Ela está na mesma empresa e todo ano o salário dela aumenta 200 reais – somente o salário, ou ele majoritariamente explica. Quando mais próximo de zero, mostra que não depende somente do tempo (ele não explica muito). - Na imagem ao lado mais à esquerda vemos R² ~ 100%, e na à direita vemos R² ~ 0%. 21 Atividade – exemplo Exemplo: taxa de mortalidade infantil em Betim. 20 ^y = 2500,2 – 1,24x reta de regressão estimada. Sendo x = ano. 16 R² = 72,3% 12 1 – Interprete Bo e Bi Não faz sentido interpretar Bo nesse caso, 8 pois no ano zero não existia Betim. B1 pode ser visto como uma 4 redução na taxa de mortalidade de 1,24/cem mil a cada ano. 2 – Qual a taca esperada em 2018? y = 2500,2 – 1,24 (2018) 2002 2003 2004 2005 2006 2500,1 – 2502,33 - 2,12 3 – Se a progressão continuar constante, quando teremos uma taxa de 1 óbito a cada cem mil? 1 = 2500,1 – 1,24x 1,24x = 2500,2 – 1 1,24x = 2499,2 x = 2015,48. 4 – Interprete R² ela pode explicar a variabilidade da taxa de mortalidade. Atividade Avaliativa – Regressão linear Questão 1 É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação, uma nutricionista selecionou 18 mulheres com idade entre 40 e 79 anos, e observou em cada uma dela a idade (X) e a massa muscular (Y). a) Interprete os coeficientes da reta de regressão. A massa muscular é a variável resposta, ou seja, a variável afetada pela idade (Explicativa). Bo com a idade zero, a massa muscular não pode ser estimada. B1 a cada ano, há a redução de 0,027g. b) Qual a massa muscular esperada para uma mulher de 75 anos? 1,027x = 148,2 – 1,027,7 y = 148,2 – 77,025 y = 70,975. c) Em que idade espera-se que a massa muscular seja igual à 100? 1,027x = 148,2 – 100 y = 48,2 / 1,027 y = 46,932.814 Proporção, porcentagem e razão – Medidas de Efeito – RR e RC Proporção: medida de frequência relativa. - É dada pela frequência absoluta de casos do fenômeno de interesse sobre o total avaliados. - Proporção = nº de casos / total. - Varia de 0 a 1. Porcentagem: mais usada para divulgar resultados de pesquisas. - Porcentagem = proporção x 100 - Varia de 0 a 100%. Razão: Quociente entre duas medidas relacionadas entre si; (o denominador não inclui o numerador, são duas entidades separadas e distintas). - Medem a força da associação entre um determinado fator de exposição e a ocorrência da doença quantas vezes a ocorrência da doença é maior no grupo de expostos em relação ao grupo de não expostos. # Razão = expostos/não expostos ou doentes/não doentes. Medidas De efeito Resultados de pesquisas epidemiológicas são frequentemente expressos por meio de medidas de efeito, tais como risco relativo (relative risk) ou razão de chances (OddsRatio). - O uso dessas medidas ajuda a identificar fatores associados a doenças, condições ou comportamentos. - Embora amplamente utilizadas nas pesquisas epidemiológicas os conceitos e métodos podem ser aplicados nas diversas áreas do conhecimento. - O aparecimento e/ou desenvolvimento de uma determinada doença (ou desfecho de interesse) pode ocorrer com maior frequência na presença de alguns fatores, os quais são usualmente chamados de fatores de risco. Entretanto, ainda existe certa confusão quanto à decisão de qual medida de efeito deve ser usada e como se faz a interpretação de tal medida. Cálculo de Risco ou Chance - Imagem ao lado. 22 Risco Relativo Baseado nessas probabilidades, o RR pode ser calculado pela probabilidade de expostos / por não expostos, sendo assim (a/a+b) / (c/c+d). O resultado equivale a dizer que, o valor encontrado é o risco de vezes mais do indivíduo de ser acometido pelo o que está sendo estudado. Ou seja, é dizer o quanto mais de risco o indivíduo tem caso um fator estudado seja presente. Exemplo: o risco de morte perinatal de um recém-nascido de baixo peso é 17,7 vezes o risco de morte perinatal de um recém-nascido com peso ≥2.500 g. Razão de Chances Pode ser calculada pela divisão da chance dos expostos terem o desfecho pela chance dos expostos não terem o desfecho. Portanto, é (a/b) / (c/d) ad / bc. O resultado mostra a chance do indivíduo ser acometido por ter determinado fator em comparação com alguém que não tem o fator. Exemplo: calcula-se que a chance de morte perinatal de um recém-nascido de baixo peso é 22,1 vezes a chance de um recém-nascido com peso ≥2.500g. Como escolher? Estimativas de RR só podem ser feitas quando partimos da exposição e observamos o evento, o que ocorre em Estudos de Coorte (acompanhamento), sendo um estudo longitudinal. Entretanto, a forma mais frequente de estudos comparativos são os Estudos Caso-Controle, nestes casos utilizamos a RC. Como interpretar? Sabe-se que o RR (ou a RC), por se tratar da razão entre duas quantidades, será igual a 1 quando o risco (ou chance) for igual entre expostos e não-expostos. - Se RR (ou RC) for maior que 1, temos um fator de risco; - Se RR (ou RC) for menor que 1, temos um fator de proteção nesse caso calcula-se 1/RR ou 1/RC O resultado pode ser interpretado como o número de vezes menos chance de ocorrência em relação ao grupo exposto. Assim, baseados no IC (Intervalo de Confiança) para o RR (ou RC), podemos afirmar que: - Se o IC obtido contiver o valor 1, o fator não é significativo nem para risco nem para proteção. - Se o IC for todo maior que 1 temos um fator significativo de risco. - Se o IC for todo menor que 1 temos um fator significativo de proteção. Lista de Exercícios – RR e RC Questão 1 Uma indústria automobilística deseja reduzir o índice de acidentes de trabalho dos seus funcionários. Com este objetivo decidiu investigar alguns possíveis fatores de risco para a ocorrência dos acidentes. a) Observe os resultados do estudo na tabela abaixo e identifique quais os fatores estão significativamente associados à ocorrência de acidentes de trabalho. Temos como fatores de risco horas extras, e fator de proteção sexo feminino, uso de EPIs e produção. Como não associados tempos idade e turno. b) Interprete os fatores de risco encontrados. Vimos uma maior chance de acidentes com trabalhadores que realizavam hora extra, demonstrando que o cansaço com excesso de trabalho é prejudicial para saúde do trabalhador e para empresa. Assim, abolir horas extra é uma importante medida para evitar acidentes. Fatores Acidente RC IC (95%) 1/RC Sim Não Li Ls Sexo Fem 13 425 0.41 0.23 0.76 Masc 64 868 2.41 Idade ≤ 35 52 744 1.53 0.94 2.50 > 35 25 549 0.65 Horas Extras Sim 50 430 3.72 2.29 6.02 Não 27 863 0.27 Turno Diurno 39 798 0.64 0.40 1.01 Noturno 38 495 1.57 Uso de EPI Sim 14 1008 0.06 0.03 0.11 Não 63 285 15.92 Equipe Produção 58 1108 0.51 0.30 0.88 Montagem 19 185 1.96 Total 77 1293 23 c) Interprete os fatores de proteção encontrados. Vemos que o uso de EPIs de forma obrigatória é necessário, assim como melhor treinamento dos funcionários do sexo masculino e o reforço das instruções de segurança com os funcionários que trabalham na montagem, como forma de reduzir os acidentes. d) Por ordem de importância, quais as medidas devem ser tomadas para a redução de acidentes de trabalho nesta indústria? Uso de EPIs, treinamento dos funcionários do sexo masculino, medidas de proteção reforçadas e proibição de horas extras. Questão 2 Com o objetivo de aumentar minha renda, estou produzindo deliciosas palhas italianas artesanais e vendendo na padaria do meu bairro. Na primeira semana, as palhas italianas foram expostas ao lado da caixa registradora. Na segunda semana, as palhas italianas foram colocadas na vitrine do setor de confeitaria, no interior da loja. A quantidade de clientes que passaram pela loja e a quantidade de palhas italianas vendidas, em cada semana, estão apresentadas na tabela abaixo. a) Qual das medidas de efeito (RR ou RC) é mais adequada para este estudo? Justifique. O uso de RR é mais adequado, pois partimos da exposição, que é o local onde as palha-italianas foram expostas, para observar o evento, que é o número de doces que foram ou não vendidos em cada situação. b) Interprete o resultado. O risco de venda de uma palha-italiana exposta na caixa é 2,88 maior que o risco de venda no interior da padaria. Questão 3 É comum observarmos em embalagens de shampoo frases do tipo: “10x mais volume” “8x mais hidratação” “3x mais brilho” Este tipo de informação é proveniente de estudos como o exemplo apresentado na tabela abaixo. a) Interprete o resultado. A chance de se obter maior volume utilizando o shampoo A é 10,96 vezes a chance de se obter maior volume utilizando o shampoo B. b) Comente qual o erro de interpretação é comum o cliente cometer ao ler a embalagem do shampoo? O cliente pode interpretar que o shampoo aumentará o volume do seu cabelo em 10 vezes, ao invés ded que há 10 vezes mais chance de aumentar o volume. Questão 4 Observe os resultados da tabela abaixo. Qual a importância do tamanho da amostra no estudo? Caso o tamanho da amostra não seja significativo, o intervalo de confiança não será valido, não indicando nem um fator de risco nem um fator de proteção. Lista de Exercícios – Bioestatística – 2ª etapa Questão 1 Defina o p-valor. P-valor: probabilidade de errar ao afirmar uma diferença significativa. - Quando > 0,05, Ho: A = B. - Quando ≤ 0,05, H1: A ≠ B. Questão 2 Um grupo de alunos da disciplina de Bioestatística da PUC-Betim elaborou um questionário com o objetivo de conhecer a qualidade de vida dos alunos de Medicina Veterinária desta universidade. O Gráfico abaixo apresenta a correlação entre o % de Energia diária e o % de felicidade Local Comprou? RC IC (95%) RR IC (95%) Sim Não Li Ls Li Ls Caixa 132 924 3.15 2.21 4.50 2.88 2.06 4.02 Interior 43 948 Total 175 1872 Shampoo Mais Volume RC IC (95%) Sim Não Total Li Ls A 81 19 100 10.96 5.65 21.28 B 28 72 100 Total 109 91 Estudo Shampoo Mais Volume RC IC (95%) Sim Não Total Li Ls 1 A 70 30 100 3.50 1.95 6.29 B 40 60 100 2 A 7 3 10 3.50 0.55 22.30 B 4 6 10 24 declarado por estes alunos. Avalie os resultados e redija suas interpretações. Vemos que quanto mais feliz o indivíduo é, maios energia diária ele relata ter. Vemos que o r é igual a 0,898, sendo uma correlação positiva forte. Questão 3 Uma loja de eletrodomésticos está interessada em verificar o efeito do preço de um produto sobre o volume de vendas e o lucro. Os gráficos abaixo procuram avaliar a existência de correlação entre estas variáveis a) Interprete o coeficiente de correlaçãocalculado em cada um dos gráficos. O primeiro gráfico é uma correlação negativa muito forte, de modo que quanto maior o preço, menor o índice de vendas, por ser avaliado unidades vendidas e preço por unidade. Já no segundo, vemos que é uma correlação muito forte positiva, de modo que quanto mais unidades são vendidas, maior é o lucro, de forma que o preço estabelecido compensa. E já no terceiro gráfico vemos lucro por unidades vendidas, com uma correlação negativa média, de forma que o lucro diminui com o aumento das vendas. b) É mais vantajoso para a loja adotar preços maiores ou menores? Justifique. Deve ser adotado um preço que permita que o lucro seja alto, assim como o número de vendas. Esse pode ser estimado por volta de 180 pelos gráficos mostrados acima. Questão 4 A expectativa de vida é uma medida estatística que procura mensurar o tempo de sobrevida esperado. A correlação entre idade e expectativa de vida é: a) Positiva b) Negativa c) Nula d) Irregular e) Perfeita Ela é negativa pois, quando mais velho o indivíduo é, menos tempo ele espera viver. Uma criança de 10 anos diz querer viver mais 100, um indivíduo de 30 anos, espera viver mais 50, por exemplo. Questão 5 A Tabela abaixo apresenta os resultados da análise de correlação linear, realizada através do cálculo do coeficiente de correlação de Pearson, entre a contagem de eosinófilos e as variáveis: Idade, IgE Total, IgE DP, IgE BT, IgE LV, IgG HP e os resultados de Prick test DP, BT, CÃO e CAVALO, dos participantes da pesquisa “Associação de Infecção por Helicobacter pylori e o Desenvolvimento de Esofagite Eosinofílica”. Fonte: Dados coletados na pesquisa. a) Quais as covariáveis estão associadas à contagem de eosinófilos dos pacientes? Para ver quais estão associadas, devemos olhar o p-valor, sendo essas então, idade, IgDP, IgG HP e Prick test DP. b) Interprete os coeficientes de correlação significativos. Quanto maior a idade, menor a contagem de eosinófilos, entretanto é uma associação fraca; o IgE DP é uma relação moderada positiva, de forma que quanto mais IgE DP, maior a contagem; IgG HP é uma relação moderada negativa, de forma que quanto mais IgG HP encontrados, menor é a contagem de eosinófilos; Prick test DP tem uma correlação fraca positiva e, quanto maior o Prick Test DP, maior é a contagem de eosinófilos. Questão 6 Atkinson et al. (1994) investigaram em que medida partículas de chumbo potencialmente tóxica emitidas por veículos automotores são absorvidas por ciclistas que participam de competições. A tabela abaixo, fornece níveis de chumbo no sangue e horas semanais de treinamento de 10 ciclistas. Covariáveis R p-valor Idade -0,323 0,015 IgE total 0,158 0,246 IgE DP 0,406 0,002 IgE BT 0,160 0,240 IgE LV 0,178 0,190 IgG HP -0,440 0,001 Prick test DP 0,365 0,006 Prick test BT 0,031 0,820 Prick test CÃO 0,111 0,414 Prick test CAVALO 0,021 0,877 Horas de treinamento (A) 8 10 10 12 15 18 18 21 25 25 Chumbo no sangue (B) 0,53 0,25 0,34 0,25 0,29 0,30 0,53 0,53 0,53 0,87 25 a) Interprete os coeficientes da reta de regressão. Deve-se lembrar que o Bo vem sozinho, e o B1 vem com a variável. Nisso vemos que o 0,1178 é o Bo e 0,02001 hrs é o B1. O Bo é o quanto se espera da variável y, quando x é igual a zero (nesse caso, a taxa de chumbo esperada quando o indivíduo não treina). O B1 varia com o tempo de treino da pessoa (sendo hrs as horas de treino, sendo o valor visto, o valor que será multiplicado pelas horas de treino). b) Interprete o coeficiente de determinação do modelo de regressão. R² é o coeficiente de determinação, ou seja, o grau de ajuste, mostrada no gráfico como R-sq, com valor de 40,8% que equivale a porcentagem de chumbo no sangue que pode ser explicada pela atividade física. Ou seja, outros 59,2% são coisas que afetam a quantidade de chumbo no corpo e não podem ser previstas pelo estudo mostrado. c) Qual a taxa de chumbo esperada de chumbo para um atleta que treina 20 horas por semana? Pb = 0,1178 + (0,02001 x 20) A taxa de Pb esperada nesse indivíduo é de 0,518. d) Para quantas horas de treino semanal é esperada uma taxa de chumbo de 0,7? 0,7 = 0,1178 + 0,02001 hrs 0,02001 hrs = 0,5822 Ele precisa treinar 29 horas/semana. Questão 7 A cada 10 anos o Instituto Brasileiro de Geografia e Estatística (IBGE) realiza o censo demográfico da população brasileira. O gráfico ao lado apresenta a população brasileira por ano do censo no período de 1940 à 2010, a reta de regressão linear estimada e o coeficiente de correlação calculado. a) Há correlação significativa entre o tempo e o tamanho da população? Sim, pois vemos que o p-valor equivale a zero, e r = 0,995, sendo uma correlação forte positiva. b) Interprete os coeficientes da reta de regressão. Temos Bo como 4.640 x 106 e B1 como 2.251.768 ano. Sendo Bo importante para compor a equação, mas não possível de interpretar (Brasil não existia no ano um e a população não pode ser negativa) e B1 a quantidade que se deve aumentar a cada ano, o crescimento populacional anual. c) Interprete o coeficiente de determinação do modelo de regressão. R² ou R-sq é de 99,1%, ou seja, através dessa reta de regressão é possível prever que o tempo explica o grau de ajuste/a variabilidade em 99,1%. d) A partir dos resultados apresentados acima qual o número de habitantes esperados para a população brasileira do ano de 2018? Pop = - 4.340 x 106 + 2.251.768 x 2018 Pop = -4.340 x 106 + 4.544.067.824 Pop = 204,067,824 habitantes. e) Qual a taxa de crescimento da população? De 1% por ano. Questão 8 O número de casos diagnosticados de hanseníase, por localidade no Brasil, está disponível no site do DATASUS do Ministério da Saúde. O gráfico abaixo apresenta o número de casos de Hanseníase diagnosticados em Minas Gerais, no período de 2002 à 2015, a reta de regressão linear estimada e o coeficiente de correlação calculado. 26 a) A redução do número de casos de Hanseníase a cada ano em Minas Gerais é estatisticamente significativa? Justifique. Sim, sendo uma correlação negativa forte, havendo uma reta descendente, pois o p-valor é de 0,005 e r = -0,934. b) Interprete o coeficiente de correlação calculado. É uma correlação negativa forte, indicando que quanto maior o tempo, menor o número de casos. c) Qual o número esperado de casos de hanseníase em Minas Gerais no ano de 2017? A cada ano se espera 174,8 casos a menos. d) Interprete o coeficiente de determinação calculado. R-sq é de 91,5%, de forma que o tempo explica 91,5% da variabilidade dos casos da doença. e) Se a tendência observada, pela reta de regressão, continuar constante, em que ano é esperado que a doença seja erradicada em Minas Gerais? Hanseníase = 353.404 – 174,8 ano zero = 353.404 – 174,8 ano Ano = 353,404 / 174,8 Ano = 2021,76, ou seja, se continuar assim, a doença será erradicada em 2022. Questão 9 Os alunos da Carol foram questionados no primeiro dia de aula se estavam se sentindo felizes. A proporção de alunos que se declararam felizes naquele dia está associada ao gênero do aluno? a) Defina as hipóteses de interesse. Ho = Proporção felizes FEMININO = Proporção felizes MASCULINO e H1 = Proporção felizes FEMININO ≠ Proporção felizes MASCULINO. b) Usando os resultados abaixo onde foi realizado um teste estatístico para comparação da proporção de felizes entre gêneros, qual a conclusão do teste, considerando-se 95% de confiança? Com 95% de confiança, não há diferença significativa na proporção de felicidade entre os sexos feminino e masculino. Questão 10 A taxa de Linfócitos no plasma de 44 voluntários sadios foi avaliada antes e após a participação em um estudo de bioequivalência de medicamentos. P-value = 0.359 a) Defina as hipóteses apropriadas para verificar se ocorreu alteração na taxa de Linfócitos dos voluntários participantes do estudo. Ho: taxa de linfócitos ANTES
Compartilhar