Baixe o app para aproveitar ainda mais
Prévia do material em texto
Júlia Figueirêdo – HABILIDADES GERAIS V ASPECTOS EM BIOESTATÍSTICA: VARIÁVEIS ESTATÍSTICAS: As variáveis são características atribuídas a indivíduos, populações ou objetos, de forma a favorecer a descrição estatística. Para que esse propósito seja alcançado, tais descritores devem oscilar dentro da amostra em análise. A determinação desses parâmetros é importante para poder dividir adequadamente os grupos comparados, além de direcionar os testes a serem aplicados e determinar o mecanismo de cálculo amostral. As variáveis apresentam duas grandes naturezas, a saber: Variáveis qualitativas (categóricas): não são expressas por índice de quantidade, mas sim por múltiplas categorias que atribuem juízo ao indivíduo ou objeto alvo. Segmentam-se ainda em: o Variáveis nominais: não há uma única ordenação a ser seguida dentro das categorias (ex.: sexo, etnia, etilista/não etilista); o Variáveis ordinais: os parâmetros definidos apresentam uma organização lógica (ex.: meses do ano, escolaridade); o Variáveis dicotômicas: apresenta apenas dois estados (sim/não, vivo/morto); o Variáveis policotômicas: pode se dividir em múltiplas categorias. Variáveis quantitativas (numéricas): podem ser descritas por meio de escalas ou valores numéricos, dividindo-se em: o Variáveis contínuas: correspondem a valores que podem ser fracionados infinitamente sem perder o sentido numérico, geralmente estando associados a medições realizadas com instrumentos específicos (ex.: temperatura, peso, altura e idade); Variáveis contínuas intervalares: a presença de valores nulos não indica a ausência do evento em análise; Variáveis contínuas de razão: o “zero” indica a ausência do fenômeno em análise. o Variáveis discretas: determina o resultado de contagens, aceitando como detentores de sentido apenas números inteiros (ex.: número de irmãos, número de plaquetas dispersas no sangue, quantidade de refeições realizadas num dia). Cabe salientar que, para alguns parâmetros, é possível realizar uma “transformação de variáveis”, permitindo a expressão de uma informação por mais de um tipo de descrição. Um exemplo é a idade, que pode ser contínua, especificando anos, meses e dias, discreta, ao “arredondar” o ano, ou até mesmo tornar-se uma variável qualitativa ordinal, por meio de grupos etários. INFERÊNCIA ESTATÍSTICA: A inferência estatística tem como finalidade a produção de afirmações que partam de um conjunto representativo aleatório (amostra) em direção ao todo, ao universo que está sendo estudado (população). Relação de inferência estatística entre amostra e população Júlia Figueirêdo – HABILIDADES GERAIS V Para garantir a verossimilhança dos dados coletados na pesquisa, a representatividade da amostra é crucial, devendo ser escolhidos indivíduos que correspondam às características gerais (idade, sexo, etnia, renda média, etc.) da população. A conclusão das proposições analisadas por esse modelo estatístico visa determinar a probabilidade de que os resultados encontrados sejam decorrentes da variação amostral. Para tanto, são empregados os testes de hipótese (fornecem o valor de p) e o intervalo de confiança (IC). A execução do teste de hipóteses tem como objetivo a verificação de qual afirmação sobre um determinado parâmetro é verdadeira, existindo duas possibilidades: Hipótese estatística nula (H0): representa nulidade, ou seja, a ausência de quaisquer relações entre os pontos testados, independentemente do que já existe na literatura (Ex.: não existe relação entre A e B); Hipótese alternativa (Ha ou H1): determina a presença de determinada variação, provando ou não a hipótese científica (crença do pesquisador). o Nota-se que não existe relação direta de dependência entre a hipótese científica e a hipótese estatística. Estabelecidas as proposições hipotéticas, a coleta e análise de dados estabelecerá qual delas é verdadeira e, portanto, deverá ser aceita pelo pesquisador (decisão correta). No entanto, dois tipos de erro podem ocorrer a partir da apreciação incorreta dos resultados obtidos, a saber: Erro tipo I (α): ocorre quando a hipótese nula é rejeitada pelo pesquisador, mesmo que seja verdadeira. Dá origem ao falso-positivo, tipo mais grave de erro estatístico; o É admissível uma probabilidade de até 5% para cometer esse tipo de erro, consolidando assim o nível de confiança. O valor de p é utilizado para refletir a chance de ocorrência do erro alfa, e determina a presença de relevância estatística. É de escolha arbitrária, normalmente assumindo valor 0,05. Se p < 0,05 a hipótese nula deve ser rejeitada. Erro tipo II (β): representa a probabilidade de aceitar a hipótese nula quando ela é falsa. É aceitável quando ocorre em frequência inferior a 10-20%. Possibilidades de interação entre a realidade e o resultado do teste de hipóteses estatísticas Cabe ressaltar que diferenças estatisticamente significativas nem sempre são clinicamente relevantes, ou seja, nem sempre justificam uma possível mudança de conduta. Associação entre o resultado do teste de hipóteses e o valor de significância estatística da pesquisa Além do já mencionado valor de p, o intervalo de confiança (IC) também pode Júlia Figueirêdo – HABILIDADES GERAIS V ser utilizado para prever a precisão estatística de um estudo, tendo como valor geral 95%. Esse dado permite afirmar que, em 100 estudos investigando os mesmos aspectos, 95 apresentarão os mesmos resultados da atual pesquisa. ESTATÍSTICA DESCRITIVA: A estatística descritiva tem como propósito a exposição de dados coletados sem realizar inferências, ou seja, sem extrapolar os resultados para o universo de pesquisa. São definidos como dados todas as informações obtidas a partir de contagens, medições, observações ou respostas. A representação dos dados e de suas características irá depender do tipo de variável associada a eles, a saber: Variáveis categóricas: podem ser expressas de forma absoluta, empregando números e porcentagens; Variáveis numéricas: empregam medidas de tendência central ou medidas de dispersão para serem expostas. Dessa forma, é possível identificar diversos mecanismos de apresentação da informação, como: Medidas de tendência central: buscam identificar a porção central de um grupo de amostras, empregando como principais parâmetros: o Média aritmética: corresponde ao somatório de todos os valores dividido pelo número de elementos. O número resultante desse processo é uma estimativa do ponto central das variáveis, sofrendo interferência de valores extremos; o Mediana: representa o ponto central de um conjunto de dados ordenados de forma crescente. Em um total de valores ímpar, a mediana será o índice central, ao passo que, caso seja par, ela será representada pelas duas posições de centro. Não há influência de valores extremos; o Moda: identifica o valor que aparece com maior frequência num conjunto de dados (numérico ou nominal). Pode não haver moda (amodal), apenas um valor (unimodal), duas repetições mais comuns (bimodal) ou ser multimodal; Definições e aplicabilidade das principais medidas de tendência central Medidas de dispersão/variabilidade: determinam a variabilidade de um conjunto de dados, expondo as diferenças entre os elementos de uma amostra. Os principais mecanismos utilizados são: o Amplitude: utiliza os dois valores extremos (A = valor máx. – valor mín.) de um conjunto para determinar a variabilidade, ainda que não seja muito precisa; o Intervalo interquartil (x(y-z)): os quartis são pontos de segmentações no grupo amostral, dividindo o conjunto em quatro segmentos iguais. O 2º quartil (Q2)representa a mediana do conjunto amostral, ao passo que os demais quartis correspondem à média dos valores neles contidos. O intervalo Júlia Figueirêdo – HABILIDADES GERAIS V interquartil propriamente dito é a diferença entre Q3 e Q1; o Desvio-padrão (±): é uma medida de variabilidade bastante atrelada à variância, calculada a partir da diferença entre a média e cada valor coletado, elevando o resultado ao quadrado e extraindo a razão entre essa soma e o número total de dados. O desvio-padrão em si é a raiz quadrada da variância, representando um limite aceitável de oscilação em relação à média (para mais ou para menos). Cálculo da variância, que deve ter sua raiz quadrada estabelecida para determinar o desvio-padrão NORMALIDADE ESTATÍSTICA: A distribuição normal representa uma curva simétrica para a apresentação de dados, podendo também ser denominada como distribuição de Gauss ou distribuição paramétrica. Nesses gráficos, o cume corresponde simultaneamente à média, moda e à mediana, e não há frequência elevada de valores extremos. Exemplo da concentração de dados num gráfico gaussiano Comparação entre curvas não-paramétricas e um gráfico normal Para curvas normais, os dados podem ser expressos com o auxílio da média e do desvio-padrão, ao passo que, em representações não- paramétricas, as informações são apresentadas por meio da mediana e do intervalo interquartil. A presença ou não de normalidade pode ser avaliada por um amplo conjunto de parâmetros da estatística descritiva, que normalmente tendem a uma mesma classificação. Estes instrumentos são: Observação do histograma: o histograma é um gráfico que demonstra a distribuição de frequências, com barras equivalentes a classes distintas previamente tabuladas. O formato da curva associada ao histograma pode auxiliar na determinação de normalidade; Histograma numa curva em distribuição normal Análise do tamanho do desvio-padrão: caso o desvio-padrão seja ≤ 50% da média, a distribuição dos dados é normal; Skewness: esse parâmetro determina a simetria do gráfico, podendo ser positivo (cauda para direita, com mediana < média), valor zero (simetria absoluta) ou negativo (cauda para a esquerda, com mediana > média); Esquematização gráfica do skewness, baseada num número já fornecido pelo histograma Júlia Figueirêdo – HABILIDADES GERAIS V Kurtosis: corresponde ao achatamento do gráfico, tendo como “padrão-ouro” de perfeição o valor 1, criando uma curva de Gauss. O gráfico pode ser considerado como normal ou paramétrico para valores de kurtosis entre -5 e +5. Gráfico representando kurtosis positiva, negativa e nula Alguns testes estatísticos também podem ser empregados para determinar a normalidade, representada pela veracidade de H0. Os principais mecanismos utilizados para estabelecer essa relação são: Teste de Kolmogorov-Smirnov: é mais adequado para amostras grandes (n > 50); Teste de Shapiro-Wilk: se utiliza principalmente na avaliação de grupos amostrais pequenos (n < 50). Representação da apresentação dos resultados de testes estatísticos de Kolmogorov-Smirnov e Shapiro-Wilk num artigo. A coluna “sig.” Reflete o valor de p (sempre que p < 0,05 a amostra é não- paramétrica) FORMAS GRÁFICAS DE APRESENTAÇÃO: A escolha do tipo de gráfico a ser utilizado para a expressão dos dados amostrais da pesquisa irá depender do caráter de normalidade desse conjunto. Em grupos amostrais não-paramétricos, o gráfico boxplot pode ser utilizado, apresentando, uma vez que permite a observação da mediana (traço central, mais forte), do intervalo interquartil (diferença entre os lados superior e inferior do retângulo) e de pontos outliers, que excedem a curva, tanto além quanto aquém das medidas centrais. Exemplo de gráfico bloxplot Os gráficos de dispersão, por sua vez, são utilizados para associar pares de dados, desde que ambos sejam de caráter numérico. Toda análise realizada deve ser feita tomando como base pares de pontos (variáveis) associadas a um desfecho. Exemplo de gráfico de dispersão que associa a satisfação de um cliente e o número de dias de atraso num certo serviço As tabelas de frequência têm como objetivo expor a distribuição da variável, podendo ou não utilizar apresentações gráficas, como o histograma, já explanado anteriormente. Caso seja necessário avaliar duas variáveis, a forma de representação gráfica Júlia Figueirêdo – HABILIDADES GERAIS V será escolhida levando em consideração as características de cada uma, assim como mencionado no gráfico de dispersão. Correlação entre o método de exibição dos dados e o tipo de variável escolhida
Compartilhar