Baixe o app para aproveitar ainda mais
Prévia do material em texto
Bioestatística – Laís Nunes [2º semestre] TIPOS DE VARIÁVEIS As variáveis são valores que representam determinadas características dentro de uma pesquisa. Esses valores variam de elemento para elemento. É a medida em cada elemento da amostra ou população. Essas variáveis podem ter valores numéricos ou não numéricos e são classificadas assim: Variáveis quantitativas: dados expressos por números. Elas podem ser de dois tipos: Variáveis discretas Variáveis contínuas Variáveis qualitativas: dados não podem ser quantificados, pois possuem categorias exclusivas. Essas variáveis podem ser de dois tipos: Variável nominal Variável ordinal VARIÁVEIS QUANTITATIVAS Também chamada de numérica, são representadas por meio de números resultantes de uma contagem ou mensuração. VARIÁVEL DISCRETA Características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros (NÚMEROS INTEIROS). Geralmente são o resultado de contagens. Exemplos: número de filhos, número de bactérias por litro de leite, número de cigarros fumados por dia, números de filhos, número de partos; número do primeiro filho, idade; VARIÁVEL CONTÍNUAS Os valores pertencem a um intervalo de números reais e representam uma mensuração como por exemplo altura ou peso de uma pessoa. Nesses casos NÚMEROS FRACIONADOS fazem sentido. Exemplos: tempo (relógio), pressão arterial, peso (balança), altura (régua), glicemia, renda; VARIÁVEIS QUALITATIVAS Também chamada de categóricas, representam uma qualidade (ou atributo) de um indivíduo pesquisado, são definidas por várias categorias. São características que não possuem valores quantitativos, ou seja, representam uma classificação dos indivíduos. VARIÁVEL NOMINAL São nomeadoras, dividem os indivíduos iguais ou não em relação a um a característica. Variáveis expressas na escala nominal podem ser apenas "iguais" ou "diferentes" entre si. Não é feito qualquer ranking, ou seja, não são ordenadas. Os números atribuídos s ervem apenas para identificar se pertencem ou não pertencem a uma categoria ou identificação. Sendo assim, NÃO EXISTE GRADUAÇÃO ENTRE AS CATEGORIAS. Exemplo: sexo, cor dos olhos, cor do cabelo, fumante/não fumante, doente/sadio, estado civil, gênero, nacionalidade; VARIÁVEL ORDINAL Existe uma ordenação entre as categorias, ou seja, QUANDO OCORRE UMA GRADUAÇÃO ENTRE AS CATEGORIAS. Exemplos: escolaridade (1o, 2o, 3o graus), estágio da doença (inicial, intermediário, terminal), mês de observação, atendimento (bom, ruim, regular), mês de observação (janeiro, fevereiro, …, dezembro.), tipo sanguíneo (A,B,O,AB); Bioestatística – Laís Nunes [2º semestre] OBSERVAÇÕES Observação 1: Uma variável quantitativa pode ser coletada da forma qualitativa. A variável idade se avaliada por anos completos e quantitativa (contínua), mas se for avaliada por meio de faixas etárias (0 a 5 anos, 6 1 8 anos, etc.) é qualitativa (ordinal). Isso tudo vai ser determinado pela maneira que você coletar os dados. Observação 2: Nem sempre que uma variável for representada por números significa que ela é quantitativa. O número da casa, número de identidade são exemplos dessa situação. CONCEITOS FUNDAMENTAIS Unidade: é a menor unidade que fornece uma informação. Ex: pessoa, animal, fato, planta, etc; Unidade experimental: indivíduos submetidos a uma situação de experimento controlado. Ex: tratamento e o controle de algo, sendo assim, manipulativos, pois podem ser feito alterações, podendo ser em laboratórios ou de campo; Unidade de observação: estudos planejados que não interferem ou alteram o universo estudado. Ex: diagnostico de áreas, levantamento de doença, etc; Dados: são informação (numéricas ou não) obtidas a partir de uma determinada variável. Ex: uma pessoa de 35 anos é fumante e tem diabetes; Variável: é a condição ou característica que se mede (observa) no estudo, variando de uma unidade ou de um indivíduo para outro, são classificadas em dois tipos. Ex: peso, altura, sexo, etc; Quantitativa (ou numérica): dados expressos por números, como por exemplo a contagem de cada tipo de bactéria. Ex: idade, estatura, peso; Qualitativa (ou categórica): dados não podem ser quantificados, pois possuem categorias exclusivas, como por exemplo tipos de bactérias. Ex: cor dos olhos, sexo, local de nascimento. População ou universo: é o conjunto de unidades, que tenham algo em comum, sobre a qual desejamos obter informações (=objeto de interesse). Ex.: Comunidade de espécies, pacientes, exames, prontuários, brasileiros, etc. Amostra: subconjunto de unidades, fração ou porção retiradas de uma população para obter a informação desejada (=objeto de estudo). As amostras devem ser representativas, com margem de erro conhecidas, para permitir obter respostas razoáveis. Ex: parcela representativa dos brasileiros. TIPOS DE AMOSTRAGENS Antes de se obter uma amostra é necessário definir os critérios que serão usados para selecionar as unidades que comporão essa amostra. A amostra é obtida a partir de uma população bem definida, bem meio de processos bem definidos pelo pesquisador. Subdivide-se em dois grupos: Probabilística, aleatória ou casual; Não probabilística. PROPABILÍSTICA, CASUAL OU ALEATÓRIA Uma amostra aleatória ou probabilística é localizada por n unidades retiradas ao acaso da população. Em outras palavras, a amostra aleatória é obtida por sorteio, logo, toda unidade da população tem a possibilidade de pertencer à amostra; Cada elemento da população possui a mesma probabilidade se ser selecionado para compor a amostra → mecanismos aleatórios de seleção. Amostragem aleatória simples: obtida por sorteio de uma população constituída por unidades homogêneas para a variável que você quer estudar. Nessa forma de amostragem, os indivíduos de uma população têm uma chance igual ou maior que zero de serem selecionados para a compor a amostra. Ela é chamada de amostra aleatória simples pois, a seleção de elementos é feita em forma de sorteio, dessa forma, não há critério ou filtro no processo de amostragem. Exemplo — um professor coloca os nomes dos alunos em um boné e seleciona alguns sem olhar, para obter uma amostra de alunos. Amostragem aleatória estratificada: é usada quando a população é constituída por unidades heterogêneas para a variável que se quer estudar. Nesse caso, as unidades da população devem ser identificadas; depois, as unidades similares devem ser reunidas em subgrupos chamados de estratos. O sorteio é feito dentro de cada estrato, ou seja, os membros de cada grupo são escolhidos aleatoriamente. Exemplo — um conselho estudantil entrevista 100 alunos obtendo amostras aleatórias de 25 calouros, 25 alunos do segundo ano, 25 alunos do terceiro ano, e 25 alunos do último ano. Amostragem aleatória sistemática: os membros da população são colocados em determinada ordem. Um ponto inicial é selecionado aleatoriamente, e sempre nº de membro é selecionado para entrar na amostra. Exemplo — o diretor de uma escola usa uma lista com os nomes dos alunos em ordem alfabética e escolhe um ponto inicial aleatório. Sempre o 20º aluno é selecionado para responder à pesquisa. Amostragem aleatória por agrupamento: primeiro, a população é dividida em grupos. A amostra geral é formada por todos os membros de alguns dos grupos. Os grupos são selecionados aleatoriamente. Bioestatística – Laís Nunes [2º semestre] Exemplo — uma companhia aérea decide entrevistar seus clientes em um dia, então, eles selecionam, aleatoriamente, 555 voos desse dia e entrevistam todos os passageiros dos voos selecionados. Amostragem aleatória por conglomerado: diferente das amostras probabilísticas anteriormente apresentadas, que selecionam primeiroo indivíduo, a amostra por conglomerados tem como fase inicial a seleção de um grupo (cidade ou estado em um país) para compor a amostragem. Exemplo — os bairros de uma cidade são conglomerados de pessoas com características variadas de idade, renda, cor, sexo, etc. NÃO PROBABILÍSTICOS É aquela em que a coleta é baseada em critérios definidos previamente, em que nem todos o universo tem a mesma chance de ser entrevistado, mas que no final o trabalho de campo o resultado seja representati- vo e passível de extrapolação; A seleção da amostra depende do julgamento do pesquisador. Há uma escolha deliberada dos elementos para compor a amostra → mecanismos não aleatórios de seleção; Um exemplo de aplicação de uma amostra não probabilística são as pesquisas eleitorais. Neste tipo de levantamento, o procedimento mais comum é uma amostragem por cotas, em que as entrevistas são baseadas em um perfil já conhecido da população. Amostragem por conveniência: Esta técnica é muito comum e consiste em selecionar uma amostra da população que seja acessível. Ou seja, os indivíduos empregados nessa pesquisa são selecionados porque eles estão prontamente disponíveis, não porque eles foram selecionados por meio de um critério estatístico. Geralmente essa conveniência representa uma maior facilidade operacional e baixo custo de amostragem, porém tem como consequência a incapacidade de fazer afirmações gerais com rigor estatístico sobre a população. Exemplo — um pesquisador entrevista pessoas que estão passando pela rua. Amostragem por julgamento: o pesquisador seleciona aqueles elementos que ele julga representarem quem melhor possuem características definidas previamente para sua amostra. Exemplo — em uma pesquisa sobre desempenho acadêmico, um pesquisador resolve entrevistar somente aqueles alunos que tenham coeficiente de rendimento acadêmico acima de 7, julgando que estes dariam respostas mais condizentes com o assunto. Amostragem por quotas: consiste em um refinamento da amostragem acidental ou por conveniência. Nela, os elementos a serem selecionados devem estar de acordo com as proporções de características da população. Exemplo — se em uma população, existem 20% de indivíduos da classe econômica A, 50% da classe B e 30% da classe C, a amostra acidental ou por conveniência deve respeitar essas proporções (amostragem por quotas), selecionando 20% de indivíduos da classe econômica A, 50% da classe B e 30% da classe C. Amostragem por bola de neve: ela recebe esse nome, pois a última pessoa entrevistada indica ou convida uma próxima para participar do questionário, fazendo com que a amostragem se comporte como uma bola de neve, presentando um caráter acumulativo na hora das escolhas dos respondentes. Exemplo — quando não tem acesso a população de forma facilitada. ESTATÍSTICA DESCRITIVA É o ramo da estatística que visa sumarizar e descrever qualquer conjunto de dados, ou seja, é aquela estatística que está preocupada em sintetizar os dados de maneira direta, preocupando-se menos com variações e intervalos de confiança dos dados; É a etapa inicial da análise de dados utilizada para resumir e compreender os dados; QUANDO USAR A ESTATISTICA DESCRITIVA? É utilizada com frequência em situações em que nos deparamos com uma quantidade grande de informações e precisamos torná-las mais condensadas para que assim se consiga trabalhar com elas. E isso é feito através da média, mediana, moda, desvio padrão e demais recursos que a estatística descritiva traz para nos auxiliar nesse processo. MEDIDAS DE TENDÊNCIA CENTRAL OU MEDIDAS DE POSIÇÃO DA ESTATÍSTICA DESCRITIVA Esses tipos de medidas são utilizados dentro da estatística descritiva para indicar a localização dos dados. Média: nada mais é do que a soma de todos os valores da base de dados dividida pelo número de elementos no total. A equação matemática que a representa é: Bioestatística – Laís Nunes [2º semestre] Exemplo — uma fábrica de garrafas, um Green Belt fez uma coleta de dados ao longo de alguns dias sobre o número de garrafas perdidas por dia e obteve: Número de garrafas perdidas por dia: 9, 5, 10, 7, 4, 8, 5, 2, 5, 5, 4, 12, 3, 8. Nesse caso, temos que a média aritmética será de 6,21 garrafas perdidas por dia, pois soma os 14 números e divide por 14, ou seja, 9+5+10+7+4+8+5+2+5+5+4+12+3+8/14=6,21. Moda: é o valor ou atributo (variável qualitativa), é o mesmo que dizer que esse número é o que mais aparece nessa base de dados, ou seja, é o valor com maior frequência. Vale lembrar que, se na sua base de dados nenhum valor se repetir, logo não teremos moda neste caso. Exemplo — o número de garrafas perdidas por dia é: 9, 5, 10, 7, 4, 8, 5, 2, 5, 5, 4, 12, 3, 8. Olhando para a nossa amostra, podemos concluir que a moda será 5, uma vez que esse valor é o que aparece com maior frequência nessa base de dados, aparecendo quatro vezes. Mediana: é a medida de posicionamento central dos dados, é o termo central de um conjunto de dados colocados em ordem crescente ou decrescente. Se a quantidade de valores ordenados for ímpar, a mediana é exatamente o número localizado no meio da lista. Se a quantidade de valores ordenados for par, a mediana é calculada como a média dos dois valores centrais. Exemplo — Seguindo no mesmo exemplo citado anteriormente, no qual O Número de garrafas perdidas por dia é: 9, 5, 10, 7, 4, 8, 5, 2, 5, 5, 4, 12, 3, 8. Para determinarmos a mediana desses dados, primeiramente temos de ordená- los de forma crescente ou decrescente. Optei por colocar na ordem crescente. Base de dados = 2, 3, 4, 4, 5, 5, 5, 5, 7, 8, 8, 9, 10, 12. Como nossa base de dados contém um número par de amostras, não possuímos um único valor central, mas sim dois. Nesse caso são os números 5 e 5. Então, para determinar a mediana, basta calcular a média aritmética desses dois números. Fazendo isso, encontramos que a mediana dessa amostra é 5. Desvio Padrão: é uma medida que expressa o grau de dispersão de um conjunto de dados. Ou seja, o desvio padrão indica o quanto um conjunto de dados é uniforme. Quanto mais próximo de 0 for o desvio padrão, mais homogêneo são os dados. S = Desvio padrão; n = número de amostras; x= média das amostras. Exemplo —Suponha que desejemos saber o desvio padrão da seguinte amostra: 9, 5, 10, 7, 4. 1. Primeiro se calcula a média: 9+5+10+7+4/5= 7 2. 3. Por fim, como última medida que iremos apresentar da estatística descritiva, temos o coeficiente de variação, que é uma medida de dispersão relativa, muito útil para comparar duas ou mais variáveis. Sua fórmula é dada por: 4. Seguindo os dados do exemplo anterior, teremos o seguinte o coeficiente de variação: CORRELAÇÃO E REGRESSÃO LINEAR Existem situações nas quais há interesse em estudar o comportamento conjunto de uma ou mais variáveis; Em muitos casos, a explicação de um fenômeno de interesse pode estar associado a outros fatores (variáveis) que contribuem de algum modo para a ocorrência deste fenômeno. O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio do gráfico de dispersão. São duas técnicas estreitamente relacionadas, que visa estimar uma relação que possa existir entre duas variáveis na população: Correlação: resume o grau de relacionamento entre duas variáveis (X e Y, por exemplo); Regressão: tem como resultado uma equação matemática que descreve o relacionamento entre variáveis. CORRELAÇÃO LINEAR SIMPLES (R) Para avaliar se existe associação linear entre duas variáveis quantitativas, é com um a utilização do coeficiente de correlação (produto-momento) de Pearson (r). Esse coeficiente avalia o quanto duas séries de dados numéricos repousam sobre um a linha reta, indicando assim o grau de sua associação linear; Vantagem de ser um número puro, independente da unidade de medida das variáveis, facilitando a interpretação dos dados. https://www.voitto.com.br/blog/artigo/curso-green-belt https://www.voitto.com.br/blog/artigo/curso-green-belt Bioestatística – Laís Nunes [2º semestre] O objetivo do estudo da correlação é determinar (mensurar) o grau de relacionamento entre duas variáveis; Caso os pontos das variáveis, representados num plano cartesiano (X, Y) ou gráfico de dispersão, apresentem uma dispersão ao longo de uma reta imaginária, dizemos que os dados apresentam uma correlação linear. Ocorre quando a alteração no valor de uma variável (dita independente) provoca alterações no valor da outra variável (dita dependente); VARIAÇÃO DO COEFICIENTE DE CORRELAÇÃO (R) O coeficiente de correlação de Pearson mede apenas relações que são lineares (existem outros tipos de relações, as não lineares); O coeficiente de correlação varia de -1 a +1, portanto, r = 1 (correlação positiva perfeita entre as variáveis) r = 0 (não há correlação entre as variáveis) r = −1 (correlação negativa perfeita entre as variáveis), como podemos ver nos gráficos abaixo: O sinal positivo indica que as variáveis são diretamente proporcionais, enquanto que o sinal negativo indica que a relação entre as variáveis é inversamente proporcional; A tabela de correlação indica a intensidade da relação entre as variáveis, observe a baixo: Coeficiente Correlação 0-0 até 0,25 Muito fraca 0,25 até 0,50 Fraca 0,50 até 0,75 Moderada 0,75 até 0,90 Forte 0,90 até 1 Muito forte DIAGRAMA DE DISPERSÃO Um diagrama de dispersão mostra a relação entre duas variáveis quantitativas, medidas sobre os mesmos indivíduos. Os valores de uma variável aparecem no eixo horizontal, e os da outra, no eixo vertical (comumente, coloca-se no eixo x um parâmetro); No Eixo X a variável que é alterada por uma modificação no processo (variável independente). Geralmente uma possível causa de um problema; No Eixo Y a variável que pode mudar de acordo com a mudança da variável em ´x´ (variável dependente). Geralmente um indicador de qualidade ou efeito gerado por uma causa. ANALISANDO O DIAGRAMA DE DISPERSÃO Esses aspectos abaixo são relevantes na análise dos Diagramas: DIREÇÃO (crescente, decrescente); FORMA (linear, não-linear, aglomerados); PONTOS DISCREPANTES. REGRESSÃO LINEAR SIMPLES Técnica de análise de dados que permite quantificar o efeito de X sobre Y, partindo de um modelo linear (reta). Com regressão linear, é possível estimar o valor de Y (variável dependente) a partir de um valor de X (variável independente). Análise que verifica se há uma relação de causa-efeito entre duas variáveis quantitativas; Dependente Y X Independente Existe regressão de y sobre x, ou seja, a variável dependente varia em função da variável independente. Exemplo de variáveis independentes (X) e dependentes (Y); Bioestatística – Laís Nunes [2º semestre] Variável independente, X Variável dependente, Y Temperatura do forno (°C) Resistência mecânica da cerâmica (MPa) Quantidade de aditivo (%) Octanagam da gasolina Renda(R$) Consumo(R$) Memória RAM do computador (Gb) Tempo de resposta do sistema (s) Área construída do imóvel (m 2) Preço do imóvel (R$) RETA DE REGRESSÃO LINEAR Diferentes retas podem ser traçadas, a olho nu, e um diagrama de dispersão (cada pessoa terá uma tendência diferente); Nenhuma reta passará exatamente por todos os pontos (se a correlação não for máxima); Precisamos encontrar uma reta que esteja tão próxima dos pontos quanto possível; Os erros de predição para a reta são erros em y (direção vertical); Se um diagrama de dispersão sugere uma relação linear, é de interesse representar este padrão através de uma reta; Usa-se o método dos mínimos quadrados para ajustar uma reta de regressão ao conjunto de pontos do diagrama; A reta de regressão descreve como uma variável resposta (dependente) y varia em relação a uma variável explanatória (independente) x; Variáveis: Variável resposta (y) (dependente): Mede um resultado em um estudo Variável explanatória (x) (independente): Procura explicar os resultados observados. COEFICIENTE DE DETERMINAÇÃO (R 2) O coeficiente de determinação é o quadrado do coeficiente de correlação e representa a “variância explicada”, ou seja, qual a proporção da variabilidade de Y que pode ser explicada pela variabilidade de X; Informa a fração da variabilidade de um a característica que pode ser explicada estatisticamente por outra variável; Mede a precisão da reta ajustada; Indica a proporção da variação total de Y explicada pela variação X (reta ajustada); Quanto mais próximo de 1 estiver o coeficiente de determinação, melhor será o grau de explicação da variação de Y em termos da variável X; É uma medida sempre positiva, e é obtida, na regressão linear simples, elevando-se o coeficiente de correlação de pearson ao quadrado. FÓRMULAS PARA USAR NO EXCEL Coeficiente de correlação (r): para se obter esse coeficiente de correlação =CORREL(dependente (Y));(independente (X)) ENTER e sai o resultado que queremos. Coeficiente de determinação (r2): para se obter esse coeficiente de determinação =RQUAD(dependente (Y));(independente (X)) ENTER e sai o resultado que queremos, logo em seguida aperta na porcentagem. Média: =MÉDIA(B6:B17), ou =MÉDIA(selecione as células ENTER e sai o resultado que queremos. Moda: =MODO(B6:B17) ou =MODO (selecione as células ENTER e sai o resultado que queremos. Mediana =MED(B6:B17) ou =MOD(selecione as células ENTER e sai o resultado que queremos. Desvio padrão: 1º Passo: Clique sobre a célula na qual você quer calcular o desvio padrão e digite "=DESVPADA" (sem aspas). Em seguida, clique duas vezes sobre a função; 2º Passo: Agora, selecione a tabela com os números para o cálculo do desvio padrão; 3º Passo: Por fim, pressione Enter. O desvio padrão será calculado automaticamente e o resultado será exibido na célula. Bioestatística – Laís Nunes [2º semestre]
Compartilhar