Baixe o app para aproveitar ainda mais
Prévia do material em texto
Inferência Estatística COMANDOS GERAIS EM R STUDIO - Ctrl+L: Limpar o console (O console é a única parte que roda o código) - help(“nomedafunção”): Para saber o que a função faz: digita - library(nomedopacote): Para abrir um pacote - As setas para cima e para baixo do teclado volta/avança os comandos digitados; INICIALIZAÇÕES: Definindo variáveis: utilizo = ou <- Ex.: m = log(2) m <- log(2) Definindo vetores: nomedovetor = c( ) *O c significa concatenar *Para chamar uma posição no vetor basta fazer: nomedovetor[posição desejada] *Se estou trabalhando com caracteres faço: nomedovetor= c(“caractere”, ... , “caractereN”) Definindo matrizes (crio uma matriz vazia): nomedamatriz =matrix(nrow=número de linhas, ncol=número de colunas) *Para atribuir valores à matriz: nomedamatriz[numdalinha, numdacoluna]= valor correspondente *Para criar e atribuir valores em sequência à matriz: nomedamatriz=matrix(sequência(ex.: 1:24), nrow=número de linhas, ncol=número de colunas) *t(x)-matriz transposta *solve(x)-matriz inversa FUNÇÕES GERAIS: - mean (variável): Média - sd (variável): Desvio Padrão - var (variável): Variância - cov (variável): Covariância - cor (x,y): Correlação linear (R) - length (variável): Tamanho da amostra - plot (variável) ou plot(x,y): Plotar gráfico - hist. (variavel): Plota um histograma - abs (variavel): Assume o valor absoluto da variável - demo (graphics): Mostra a capacidade de plotar gráficos no R FUNÇÕES EM R PARA OS TIPOS DE DISTRIBUIÇÃO: Distribuição Normal: - pnorm (valor em questão, média, desvio padrão da média) Dá como saída a probabilidade - qnorm (probabilidade em questão) Dá como saída Z – indicar a probabilidade atentando para o fato de ser unilateral ou bilateral - dnorm - densidade Distribuição T-student: (quando não conheço desvio padrão) - pt (valor em questão, graus de liberdade(n-1)) Dá como saída a probabilidade - qt (probabilidade em questão, graus de liberdade(n-1)) Dá como saída Z –indicar a probabilidade atentando para o fato de ser unilateral ou bilateral dt - densidade Distribuição chi-quadrado(x²): - com n-1 graus de liberdade - pchisq (valor em questão, graus de liberdade(n-1)) Dá como saída a probabilidade - qchisq-(probabilidade em questão, graus de liberdade(n-1)) Dá como saída Z - faz o cálculo através da probabilidade complementar - dchisq -densidade CAP.7) DISTRIBUIÇÕES DE AMOSTRAGEM E ESTIMAÇÃO DE PARÂMETROS Parâmetros (população) Medida Estatística (amostra) μ Média x-barra σ² Variância s² σ Desvio padrão s p Proporção p^ *Teorema do Limite Central: Esse teorema afirma que quando o tamanho da amostra aumenta, a distribuição amostral da sua média aproxima-se cada vez mais de uma distribuição normal. Na inferência estatística a utilidade do teorema central do limite vai desde estimar os parâmetros como a média populacional ou o desvio padrão da média populacional, a partir de uma amostra aleatória dessa população, ou seja, da média amostral e do desvio padrão da média amostral até calcular a probabilidade de um parâmetro ocorrer dado um intervalo, sua média amostral e o desvio padrão da média amostral. Distribuição Normal: Para uma população: Para duas populações: CAP.8) INTERVALOS DE CONFIANÇA CASOS: 1. Para média (μ), σ² conhecida Normal 2. Para média (μ), σ² desconhecida T de Student 3. Para variância (σ²) Chi-Quadrado 4. Para proporção (p), grandes amostras Normal(binomial) 1. Para média (μ), σ² conhecida Normal *BILATERAL: Em R: LI <- mean(x) - qnorm(1-α/2)*(σ/sqrt(n)) LS <- mean(x) + qnorm(1-α/2)*(σ/sqrt(n)) *UNILATERAL: Em R: LS <- mean(x) + qnorm(1-α)*(σ/sqrt(n)) Em R: LS <- mean(x) - qnorm(1-α)*(σ/sqrt(n)) *OBS1.: Escolha do tamanho da amostra: onde: *OBS2.: Se n for muito grande: Troca σ por s, ou seja, desvio padrão populacional por desvio padrão amostral. 2. Para média (μ), σ² desconhecida T de Student *BILATERAL: Em R: LI <- mean(x) - qt(1-α/2, n-1)*(s/sqrt(n)) Ls <- mean(x) + qt(1-α/2, n-1)*(s/sqrt(n)), onde s é o desvio padrão amostral (calculado por s=sd(x)) *UNILATERAL: Em R: Troca qt(1-α/2, n-1) por qt(1-α, n-1) 3. Para variância (σ²) Chi-Quadrado *BILATERAL: Em R: LI <- [(n-1)*s²]/qchisq(1-α/2, n-1) LS <- [(n-1)*s²]/qchisq(α/2, n-1), onde s é o desvio padrão amostral (calculado por s=sd(x)) *UNILATERAL: (troca α/2 por α) Em R: LI <- [(n-1)*s²]/qchisq(1-α, n-1) Em R: LS <- [(n-1)*s²]/qchisq(α, n-1) 4. Para proporção (p), grandes amostras Normal(binomial) *BILATERAL: Em R: LI <- p^ - qnorm(1-α/2)*sqrt((p^*(1-p^))/n) LS <- p^ + qnorm(1-α/2)*sqrt((p^*(1-p^))/n) *UNILATERAL: Em R: LI <- p^ - qnorm(1-α)*sqrt((p^*(1-p^))/n) Em R: LS <- p^ + qnorm(1-α)*sqrt((p^*(1-p^))/n) OBS.: Escolha do tamanho da amostra: , onde E = p^ - p OBS2.: Para unilateral de limite superior (upper bound): CAP.9) TESTE DE HIPOTÉSE Ho é V Ho é F Rejeitar Ho ERRO TIPO I Sem erro Aceitar Ho Sem erro ERRO TIPO II α = valor P = Probabilidade (Erro Tipo I) = Área da região crítica (área hachurada abaixo) β = Probabilidade (Erro Tipo II) RELAÇÃO ENTRE IC E TESTE DE HIPÓTESE: BILATERAL: Ho = θo (Hipótese nula) θ pode ser μ, σ² ou p Ha ≠ θo (Hipótese alternativa) (casos possíveis) - Verifica-se se pertence ao intervalo de confiança (IC) * Se θo pertencer ao IC: Aceita-se Ho * Senão: Rejeita-se Ho CASOS: 1. Para média (μ), σ² conhecida Normal 2. Para média (μ), σ² desconhecida T de Student 3. Para variância (σ²) Chi-Quadrado 4. Para proporção (p), grandes amostras Normal(binomial) 1. Para média (μ), σ² conhecida Normal (Zteste) = zo = μo: *BILATERAL: Em R: alfa = valorp <- 2*[1-pnorm(xbarra, μo, σ/sqrt(n))] beta = pnorm(LS, μo, , σ/sqrt(n)) - pnorm(LI, μo, , σ/sqrt(n) ) *UNILATERAL: Em R: alfa = valorp <- [1-pnorm(xbarra, μo, σ/sqrt(n))] (upper bound) alfa = valorp <- pnorm(xbarra, μo, σ/sqrt(n)) (lower bound) Obs1.: Escolha do tamanho da amostra: , se for unilateral alfa=alfa/2 2. Para média (μ), σ² desconhecida T de Student (Tteste) = To = μo 3. Para variância (σ²) Chi-Quadrado (Chiteste) = σ²o 4. Para proporção (p), grandes amostras Normal(binomial) (Zteste) = zo = po *BILATERAL: Em R: alfa = valorp <- 2*[1-pnorm( p^, po, sqrt(p*(1-p)/n))] beta = pnorm( LS, po, , σ/sqrt(n)) - pnorm( LI, po, , sqrt(p*(1-p)/n) ) *UNILATERAL: Em R: alfa = valorp <- [1-pnorm( p^, po, sqrt(p*(1-p)/n))] (upper bound) alfa = valorp <- pnorm( p^, po, sqrt(p*(1-p)/n)) (lower bound) Obs1.: Escolha do tamanho da amostra: CAP.11) REGRESSÃO LINEAR #Declarar x, y x = c() y = c() Regressão Simples: Linear -> y = bo + b1x nomedaregressao<-lm(y~x) #Plotar reta de regressão simples: lines (x, predict(nomedaregressao)) ou abline (intercept, x) ou abline (nomedaregressao) #Plotar gráfico com segmentos plot (x,y) abline (nomedaregressao) residuals (nomedaregressao): resíduos (y-y^) predict (nomedaregressao): previsão (y^) Visualizar informações: Intercept = bo; x = b1; estimate = valor estimado; std error = erro padrão; t value = quantos erros padrões o coeficiente está distante de 0; pr(>[t]) = analisa T.H. para H0: bo ou b1=0, se for alta (mais de 5%), você rejeita a regressão; probabilidade de estar fora do intervalo definido t-value R² = indica se o modelo é bom, está entre 0 e 1; R² ajustado = ajusta o valor de R² considerando uma maior quantidade de parâmetros; summary (nomedaregressao) = resumo do que foi feito aov (nomedaregressao) = análise de variância textxy (x, y, resíduos) = colocar os valores do erro residuais# Intervalos de confiança: Se xo não pertence à x: predict ((lm(y~x), data.frame(x=xo), interval = "prediction", level = 1-alpha) Dá valores do intervalo de confiança da predição fit - valor "y=bo+b1xo" lwr - limite inferior upr - limite sperior Se xo pertence à x: predict (lm(y~x), data.frame(x=xo), interval = "confidence", level = 1-alpha) Dá valores do intervalo de confiança segments (x,y,x,nomedavariavel,col="cor desejada") Obs.: nomedavariavel2=signif(parâmetro, número de casas decimais)-coloca o parâmetro pra duas casas decimais # Analisando a F-statistic -usa a distribuição "f" pf (valor de F, grau de liberdade 1 (n-p), grau de liberdade 2 (n-p-1)) valor de F=MQm/MQe Se valor de F>0 -verifico a validade do teste através de 1-pf = p-valor (indica a probabilidade de F ser 0) EXEMPLOS: # Resumo do que foi feito – summary (nomedaregressao) Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -78.74 -27.64 -18.15 36.58 82.79 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2984.285 576.792 5.174 0.00207 ** x -7.627 1.940 -3.932 0.00770 ** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 61.25 on 6 degrees of freedom Multiple R-squared: 0.7204, Adjusted R-squared: 0.6738 F-statistic: 15.46 on 1 and 6 DF, p-value: 0.007698 # Análise de variância – aov (nomedaregressao) summary(aov(lm(y~x)) Df Sum Sq Mean Sq F value Pr(>F) x 1 57989 57989 15.46 0.0077 ** Residuals 6 22508 3751 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Compartilhar