Resumo Completo de Estatística

Estatística I

UFRN

11
Dislike0

Crie agora seu perfil grátis para visualizar sem restrições.

Você viu 1 do total de 13 páginas deste material

Prévia do material em texto

https://www.passeidireto.com/perfil/maxilostudy
RESUMO COMPLETO DE ESTATÍSTICA
*ESTATÍSTICA DESCRITIVA (descreve e resume dados) usada para a descrição de dados por meio do uso de números ou medidas estatísticas que possam melhor representar todos os dados coletados durante execução de uma pesquisa. 
“A estatística descritiva envolve a organização, resumo e representação dos dados. As ferramentas utilizadas para isso são as bem conhecidas tabelas de frequência; gráficos; cálculo de medidas de tendência central como média, mediana e moda; e cálculo de medidas de variação como variância e desvio padrão”.
A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigorou está área da estatística como por exemplo o programa SPSS.
É considerada um passo inicial para a escolha adequada e o uso dos testes estatísticos de hipóteses.
A estatística descritiva pode ser dividida em:
MEDIDAS DE TENDÊNCIA CENTRAL [média, moda, mediana]
Usa um valor que representa o que é mais típico e que pode ser usado para representar todos os demais valores coletados numa pesquisa.
As principais medidas de tendência central são: a média, a moda e a mediana.
*MÉDIA: incorpora o valor de cada participante da pesquisa. 
· Como calcular? contar o número total de casos (“n”), somar todos os valores e dividir pelo número total.
Observando-se exclusivamente a média não se percebe a informação sobre o restante dos valores e por isso é preciso recorrer às medidas de dispersão para se perceber que os dados dos grupos não são iguais.
Ex: 2,5,3,7,8
Média = [(2+5+3+7+8) / 5] = 5
*MEDIANA: é a posição cujo valor numérico situa-se na metade da distribuição dos demais valores quando organizados em ordem crescente.
Ex: 2,5,3,7,8
Dados ordenados: 2,3,5,7,8 => Md = 5
*MODA: é o valor que ocorre mais frequentemente e não providencia uma indicação de todos os valores coletados numa pesquisa, mas sim daquele que mais se repetiu.
INDICAÇÃO DE APLICAÇÃO DE CADA MEDIDA:
MÉDIA: 
· Dados intervalares e escalares
· Distorção com valores discrepantes só usa média.
MEDIANA: 
· Dados intervalares e escalares
· Dados ordinais
MODA: 
· Dados intervalares e escalares
· Dados ordinais
· Dados nominais só usa moda.
MEDIDAS DE TENDÊNCIA DE DISPERSÃO OU VARIAÇÃO
Usa um valor que revela como os dados variam em torno desse valor que é mais típico.
As principais medidas de dispersão são a variância, o desvio padrão e a amplitude interquartílica.
Discrepância: a distância do valor até a média.
VARIÂNCIA: A soma de todas as discrepâncias pode ser igual a zero, então para poder usar essas discrepâncias é recomendável quadrar cada valor da discrepância antes de usá-lo matematicamente. A média desses valores quadrados é conhecida como variância. A unidade de medida da variável analisada também fica quadrada.
DESVIO PADRÃO: utilizada para demonstrar a variabilidade dos dados; estima o grau em que o valor de determinada variável se desvia da média. A raiz quadrada da variância é o desvio padrão.
AMPLITUDE TOTAL: distância entre os valores mais alto mais baixo. É calculada pela subtração entre o maior e o menor valor de um conjunto de dados.
AMPLITUDE INTERQUARTÍLICA: medida de posição que se relaciona com a mediana. 
Os quartis representam aposição 25% e 75% na escala, de maneira que o primeiro quartil representa o valor que corresponde ao primeiro quarto da distribuição (25% dos valores abaixo dessa posição) eo terceiro quartil representa o valor que corresponde aoterço quarto da distribuição (75% dos valores acima dessaposição).
INDICAÇÃO DE APLICAÇÃO DE CADA MEDIDA:
AMPLITUDE e AMPLITUDE INTERQUARTILÍTICA: 
· Dados intervalares e escalares
· Dados ordinais
· Descrição da variabilidade da amostra
DESVIO PADRÃO: 
· Dados intervalares e escalares
· Descrição da variabilidade da amostra
· Participação da inferência estatística só desvio padrão.
Indicação de onde cada medida pode ser aplicada:
A MÉDIA e o DESVIO PADRÃO são mais bem empregados em dados com distribuição normal ou simétrica.
A MEDIANA e a AMPLITUDE INTERQUARTÍLICA para dados com distribuição assimétrica.
HIERARQUIA DAS VARIÁVEIS: contínuas discretas categóricas ordenadas nominais e dicotômicas.
OBS: JAMAIS PRÉ-CATEGORIZE SUAS VARIÁVEIS SE ELAS PODEM SER MENSURADAS DE FORMA MAIS EXATA!
VARIÁVEIS QUANTITATIVAS ou NUMÉRICAS (numéricas/medidas)
· Variáveis CONTÍNUAS valores intermediários são quantificadas em uma escala infinita de valores, são mais informativas com intervalos quantificáveis (ex: peso 70,3kg, idade, % de oclusão de artérias coronárias). 
· Variáveis DISCRETAS ORDENADAS – números inteiros - (número de cigarros fumados por dia, número de doses diárias de bebida alcoólica, escolaridade: número total de anos cursados). 
Estudos com essa variável aumentam a eficiência a eficiência estatística, resulta em estudo com maior poder e menor tamanho da amostra. 
OBS!!! Para variáveis contínuas usa-se a o coeficiente de correlação intraclasse.
Comparadas as médias.
VARIÁVEIS QUALITATIVAS ou CATEGÓRICAS
Fenômenos que não são facilmente quantificáveis podem ser classificados em categorias. 
Variáveis categóricas com dois valores possíveis são denominadas DICOTÔMICAS ou binária (ex: recorrência de câncer de mama tratado, vivo/morto, masculino/feminino, ensino médio completo/sem ensino médio, presente/ausente). 
· Variáveis NOMINAIS apresentam categorias não-ordenadas (ex: sangue tipo O, cor do cabelo)
· Variáveis ORDINAIS são categorias ordenadas com intervalos não-quantificáveis – ordem natural - (odor: forte, moderado, leve / depressão: nenhuma, leve, moderada, grave).
OBS!!! Para variáveis categóricas usa-se o percentual de concordância e estatística kapa. 
Risco absoluto, diferença de riscos e risco relativo (razão de risco), odds-ratio (razão de chances).
VARIÁVEIS PREDITORAS:
VARIÁVEL CONFUDIDORA: aquela associada a variável preditora e é causa da variável de desfecho.
*ESTATÍSTICA INFERENCIAL: usada para formular conclusões e fazer inferências após a análise de dados coletados em pesquisas. 
“Na estatística inferencial estamos sempre interessados em utilizar as informações de uma amostra para chegar a conclusões sobre um grupo maior, ao qual não temos acesso. Nesse sentido, uma ferramenta muito utilizada na estatística inferencial é a probabilidade”.
Usa os testes de hipóteses e a estimação para fazer as comparações e predições e tirar conclusões que servirão para as populações baseados em dados de amostras. Somente é possível após testar as hipóteses estatísticas. 
TERMOS:
· VARIÁVEL: Toda característica sobre a qual se coletam dados em pesquisas denominada variável. 
· PARÂMETRO: Características mensuráveis da população.
· INFERÊNCIA: Processo de conhecer a população, de emitir conclusões sobre ela, com base nas observações ou medições efetuadas nos indivíduos da amostra.
Dois procedimentos são usualmente empregados para lidar com o acaso e avaliar a significância estatística dos resultados, em que há a determinação do valor p, são eles:
· INTERVALO DE CONFIANÇA (IC): revela a precisão dos dados da amostra, está relacionado com a variabilidade (estatística do desfecho principal) das estimativas de acurácia, indica margem de erro, fornece amplitude de valores onde esta localizado o parâmetro populacional, faixa de valores para a média ou proporção da amostra, ou para o parâmetro que está sendo estimado (p. ex., risco relativo). 
O seu cálculo está diretamente relacionado com o erro tipo I ou α (alfa)
Quanto menor o α mais amplo o intervalo de confiança ou seja, mais confiável aquele estimador. 
Tanto o IC como o erro padrão são calculados de acordo com as características e resultados obtidos nas amostras, servindo para interpretação da relevância clínica da variável diagnóstica. 
Normalmente o IC adotado nas áreas da saúde é o de 95%. 
Uma propriedade do IC é possibilitar a interpretação conjunta do acaso e do tamanho do efeito (diferentemente do valor p).
Ex: Se uma diferençadetectada se encontra fora do IC estabelecido o resultado (o achado de uma investigação) é considerado estatisticamente significativo e relevante do ponto de vista clínico.
· Grandes amostras produzem estimativas mais precisas caracterizadas por pequenos intervalos de confiança.
· Pequenas amostras produzem amplos intervalos de confiança o que significa imprecisão.
Obs.: Tamanho de amostra e IC são inversamente relacionados.
Obs.: Na atualidade é preferível utilizar o IC do que o valor de p, pois fornece mais informações para os resultados.
Obs: Prevalência (Ex: 12,8% = prevalência por ponto); IC (Ex: 11% a 14,7% = estimativa por intervalo).
· VALOR P: a estratégia de calcular o valor p permite ao investigador quantificar a magnitude de associação observada em comparação com a que poderia resultar do mero acaso.
NÍVEL DE SIGNIFICÂNCIA (ou teste de significância) aceitável e mais usado na área de saúde é de 5%, valor p ou p-valor (< 0,05): denominado o nível descritivo, que tem relação direta com o poder do teste
É “probabilidade mínima de erro ao concluir que existe significância estatística”. 
O valor p é influenciado pelo tamanho da amostra.
Os testes estatísticos de hipóteses calculam a probabilidade de o evento pesquisado ocorrer assumindo-se que a hipótese nula seja verdadeira. 
Essa probabilidade é conhecida como valor de p (indica se o acaso é explicação plausível para os achados). 
ATENÇÃO: O erro mais comum entre os leitores é acreditar que o valor de p representa a probabilidade de a hipótese nula ser verdadeira.
· ☑ Valor P < 0,05 ☑ = rejeita-se a hipótese nula e aceita-se a hipótese alternativa; há diferença ou associação entre os grupos analisados, há significância estatística. Esse raciocínio se aplica aos ensaios clínicos de superioridade. 
· ❎ Valor P > 0,05 ❎ = aceita-se a hipótese nula e rejeita-se a hipótese alternativa; “não há diferença estatisticamente significante em X variável analisada” sem significância estatística. Esse raciocínio se aplica aos ensaios clínicos de não inferioridade ou de equivalência.
A maioria dos resultados dos programas atuais de estatística fornece o valor p para a modalidade bicaudal. 
· TESTE UNICAUDAL: há uma única direção de resultados. 
Ex: o tratamento novo é melhor do que o habitual?
· TESTE BICAUDAL (não direcional ou bilateral): o objetivo consiste em saber se há diferenças entre os grupos, sem se importar qual grupo é privilegiado. 
Ex: há diferença entre os grupos?
A hipótese é uma presunção numérica acerca de um parâmetro desconhecido ao pesquisador, uma das funções da hipótese é de se constituir em guia para a investigação e para a coleta de dados e sua análise, resume os elementos principais do estudo: a amostra e as variáveis preditora e de desfecho. 
As hipóteses NÃO são necessárias em estudos descritivos (aqueles que não apresentam estratégia de comparação), mas são imprescindíveis em estudos que fazem testes estatísticos. A hipótese antecede a análise de dados. 
São elas:
· Hipótese do investigador (experimental): é geralmente a suposição que relaciona as duas variáveis principais da pesquisa, designadas como causa e efeito, ou exposição e desfecho.
· Hipótese de nulidade (H0) refere-se à ausência de efeito ou de associação (das variáveis preditora e de desfecho na população), representa a diferença entre os valores observados. A palavra nula significa não haver diferença ou relação entre os eventos pesquisados, ou grupos comparados.
Um resultado estatisticamente não significativo (p > 0,05) implica na NÃO rejeição da hipótese nula: o ACASO é explicação provável para os resultados.
· Hipótese alternativa H1 (afirmativa): defende que existe diferença entre pelo menos duas populações estudadas e quando positiva diz haver diferença entre os grupos analisados.
A hipótese alternativa pode ser unilateral (apenas uma direção da associação será testada) ou bilateral (ambas as direções serão testadas). As unilaterais são usadas em casos raros.
O investigador deve determinar uma HIPÓTESE PRINCIPAL como foco de delineamento e para estimativa de tamanho de amostra, mas caso seja de interesse também pode ser determinado hipóteses secundárias. 
ERROS ESTATÍSTICOS (acaso/erro aleatório) possíveis ao se basear nas hipóteses para formular conclusões:
· ERROS TIPO I: resultado falso positivo, ou seja, rejeitar a hipótese nula quando na verdade essa é verdadeira.A probabilidade de ocorrer o erro tipo I é conhecida como nível de significância estatística ou alfa (α).
Como evitar? Evitam-se amostras grandes demais, pois significa trabalho desnecessário de coleta de dados e encarecimento do projeto, além do fato de que diferenças triviais, irrelevantes do ponto de vista prático, podem ser rotuladas como estatisticamente significativas.
· ERROS TIPO II: resultado falso negativo, ou seja, aceitar a hipótese nula quando na verdade essa é falsa. Conhecido como beta (β) ou poder estatístico (probabilidade de se detectar uma diferença estatisticamente significativa entre os grupos em comparação se a diferença real na população for igual a magnitude de efeito).
Como evitar? Evitam-se amostras pequenas que não permitam conclusões confiáveis, pois ocorre a possibilidade de diferença importantes não serem significativas do ponto de vista estatístico. 
· Erro Aleatório: método quantitativo para esse erro IC e valor p.
· Erro Sistemático: método quantitativo para esse erro análise de sensibilidade.
VIÉS DE CONFUNDIMENTO: terceiro evento confundidor de achados. 
Como evitar? Restrição de grupos populacionais; randomização; estratificação; emparelhamento das variáveis; analise estatística multivariada. 
MAGNITUDE DE UM EFEITO: magnitude de associação que espera encontrar na amostra/diferença mínima que o investigador deseja detectar entre os dois grupos em comparação.
VARIABILIDADE (OU DISPERSÃO): quanto maior a dispersão na variável de desfecho entre os sujeitos, maior a probabilidade de os valores nos grupos se sobrecruzarem, e maior a dificuldade de se demonstrar uma diferença entre eles.
As INFERÊNCIAS ESTATÍSTICAS podem ser: 
· Análise bivariada: primeira analisa a relação entre uma variável dependente e uma independente.
· Análise multivariada: analisa a relação entre uma variável dependente e múltiplas variáveis independentes (a influência de diversas variáveis é investigada simultaneamente) e verifica o potencial de confusão ou confundimento dessas sobre aquela. A adoção dessa estratégia de análise implica no uso de procedimentos complexos para neutralizar o efeito das variáveis que dificultam a interpretação e para testar interações. São utilizados em pesquisas clinica ou epidemiológica.
TESTE ESTATÍSTICO PARAMÉTRICO (DISTRIBUIÇÃO NORMAL, GAUSSIANA, EM SINO OU SIMÉTRICA): definida por dois parâmetros: a média (μ) e a variância (σ²). Com estes dados, é possível calcular as probabilidades relacionadas a uma variável contínua com essa distribuição.
TESTE ESTATÍSTICO NÃO PARAMÉTRICO (DISTRIBUIÇÃO NÃO-NORMAL OU ASSIMÉTRICA):aplicados para dados que tenham distribuição assimétrica ou provenientes de escalas ordinais e nominais, e dados de amostras com pequeno número total de participantes.
A decisão de qual teste usar para cada situação em particular requer o esclarecimento de alguns pontos, como: 
· Escala de medida dos dados; 
· Número de grupos; 
· Relação entre os participantes, ou seja, se os grupos são independentes ou relacionados;
· Intenção do pesquisador de estabelecer diferença ou relação entre os grupos.
AMOSTRA:
DISTRIBUIÇÃO DA AMOSTRA:
AMOSTRAS DEPENDENTES (PAREADAS): ocorre quando cada observação no primeiro grupo for pareada com a mesma observação no segundo grupo; os dois grupos são compostos pelos mesmos indivíduos.
AMOSTRAS INDEPENDENTES (NÃO-PAREADA): cada grupo é composto por indivíduos distintos, assim podemos comparar.
Os testes estatísticos deverão obedecer às características de distribuição e pareamento. Para escolha do melhor teste a ser empregado devemos considerar a quantidade degrupos ou observações.
SENSIBILIDADE: Sensibilidade é a probabilidade de um teste apresentar resultado positivo em um indivíduo acometido por uma doença, sendo calculada utilizando-se apenas os indivíduos doentes, como a razão entre os casos doentes com resultado positivo (VP – verdadeiro positivo) sobre o total de doentes que inclui também os casos falso-negativos (FN).
Sensibilidade = VP
 (VP+FN)
ESPECIFICIDADE: Especificidade é definida como a probabilidade do teste apresentar resultado negativo em paciente sem doença, sendo calculada utilizando-se apenas os indivíduos sem doença, como a razão entre os casos não doentes com resultado negativo (VN – verdadeiro negativo) sobre o total de não doentes que inclui os casos falso positivos (FP).
Especificidade = VN
		 (VN+FP)
A escolha do teste estatístico depende de muitos fatores como: tipo de variável, tamanho de amostra, número de grupos, distribuição de dados etc.
Testes de hipóteses mais usados:
· TESTES T DE STUDENT: teste paramétrico que compara a média de duas amostras (só pode ser utilizado se ambas as amostras são paramétricas); determina se o valor médio de uma variável de desfecho contínua em um grupo difere significativamente da de outro grupo (curva em forma de sino). Geralmente é utilizado para comparar desfechos contínuos.
Condições para uso do teste: 
· População que originou a amostra deve ter distribuição simétrica;
· Variâncias das amostras devem ser iguais ou próximas; 
· Amostras devem ser independentes.
Passo a passo para estatística desse teste:
1. Calcular as médias amostrais e os respectivos desvios padrões
2. Encontrar diferença entre as duas médias amostrais
3. Calcular o erro padrão
4. Dividir o valor da diferença entre as médias pelo valor do erro padrão.
5. Uma vez encontrado o valor de t deve-se consultar uma tabela de valores críticos da estatística t de acordo com os graus de liberdade adequados a cada caso. 
6. Se o valor de t encontrado for maior ou igual ao valor de t tabelado pode-se rejeitar a hipótese de nulidade. 
7. O valor da estatística t pode também ser convertido ao valor de p. 
8. Se o valor de p for menor do que nível de significância adotado para a pesquisa deve-se rejeitar a hipótese de nulidade.
· Test t não-pareado: variável de desfecho comparada em dois grupos
· Test t pareado: o desfecho é a mudança em um par de medidas (ex: antes e depois de uma investigação)
· Test t para uma única amostra pareada: compara a mudança média em um par de valores em um único grupo com uma mudança de zero.
· QUI-QUADRADO (x2): teste não paramétrico usado para responder perguntas de pesquisa que envolvem taxas, proporções ou frequências, e é usado também para comparar a proporção de sujeitos que apresentam desfecho dicotômico em dois grupos. O teste não requer que os dados assumam uma distribuição simétrica. Esse teste é sempre bilateral.
Existem dois testes: 
· Qui-quadrado de independência: é o mais usado e avalia a frequência de dados de dois ou mais grupos.
· Qui-quadrado de aderência: é usado para comparar dados amostrais com dados depopulações conhecidas.
Passo a passo para estatística qui-quadrado para duas amostras:
1. Calcular as proporções amostrais
2. Encontrar a diferença entre essas duas proporções
3. Calcular a proporção amostral geral que será usada no cálculo do erro padrão
4. Calcular o erro padrão e dividir o valor da diferença entre as proporções pelo valor do erro padrão. 
5. A hipótese nula pode ser rejeitada se valor de p for menor do que o nível de significância adotado na pesquisa ou se o valor encontrado for maior ou igual a um valor tabelado.
Estima-se a magnitude de efeito (efeito da intervenção sobre o desfecho principal) em termos do risco relativo (razão de risco).
COEFICIENTE DE CORRELAÇÃO (R): é uma medida da força de associação linear entre as duas variáveis. Varia de -1 a +1. Quanto mais próximo o valor de r for de 1, mais forte será a associação, quanto mais próximo de 0 mais fraca.
ANOVA: usado para simultaneamente testar a igualdade entre mais de dois grupos. 
As diversas formas desse teste são: 
· Anova um fator para uma variável independente
· Anova dois fatores para duas variáveis independentes
Anova medidas repetidas analisa participantes que servem como controle para eles mesmos.
Condições para uso:
A amostra deve ter distribuição simétrica, amostras devem ser escolhidas deforma aleatória e a homocedasticidade deve ser avaliada. Avariância representa a dispersão dos dados que serão analisados. A homocedasticidade representa a homogeneidade das variâncias e é um pressuposto que deve ser observado para a execução do teste.
Os mais comuns e suas indicações são: 
· Qui-quadrado e teste exato de Fisher proporções ou frequências; 
· Testes U de Mann-Whitney, Wilcoxon, Kruskal-Wallis e Friedman dados ordinais; 
· eKruskal-Wallis e Friedman comparações intergrupos.
Guia geral para escolha dos testes:
Principais testes para cada situação:
2