Baixe o app para aproveitar ainda mais
Prévia do material em texto
INFERÊNCIA ESTATÍSTICA COMANDOS GERAIS EM R STUDIO - Ctrl+L: Limpar o console (O console é a única parte que roda o código) - help(“nomedafunção”): Para saber o que a função faz: digita -library(nomedopacote): Para abrir um pacote -As setas para cima e para baixo do teclado volta/avança os comandos digitados; INICIALIZAÇÕES: Definindo variáveis: utilizo = ou <- Ex.: m = log(2) m <- log(2) Definindo vetores: nomedovetor =c( ) *O c significa concatenar *Para chamar uma posição no vetor basta fazer: nomedovetor[posição desejada] *Se estou trabalhando com caracteres faço: nomedovetor= c(“caractere”, ... , “caractereN”) Definindo matrizes (crio uma matriz vazia): nomedamatriz =matrix(nrow=número de linhas, ncol=número de colunas) *Para atribuir valores à matriz: nomedamatriz[numdalinha, numdacoluna]= valor correspondente *Para criar e atribuir valores em sequência à matriz: nomedamatriz=matrix(sequência(ex.: 1:24), nrow=número de linhas, ncol=número de colunas) *t(x)-matriz transposta *solve(x)-matriz inversa FUNÇÕES GERAIS: - mean(variável): Média - sd(variável): Desvio Padrão - var(variável):Variância - cov(variável): Covariância - cor(x,y):Correlação linear (R) -length(variável): Tamanho da amostra - plot(variável) ou plot(x,y): Plotar gráfico - hist (variavel): Plota um histograma - abs(variavel): Assume o valor absoluto da variável - demo (graphics): Mostra a capacidade de plotar gráficos no R FUNÇÕES EM R PARA OS TIPOS DE DISTRIBUIÇÃO: Distribuição Normal: - pnorm (valor em questão, média, desvio padrão da média) Dá como saída a probabilidade - qnorm (probabilidade em questão) Dá como saída Z –indicar a probabilidade atentando para o fato de ser unilateral ou bilateral - dnorm-densidade Distribuição T-student: (quando não conheço desvio padrão) -pt(valor em questão, graus de liberdade(n-1)) Dá como saída a probabilidade -qt(probabilidade em questão, graus de liberdade(n-1)) Dá como saída Z –indicar a probabilidade atentando para o fato de ser unilateral ou bilateral dt- densidade Distribuição chi-quadrado(x²):-com n-1graus de liberdade -pchisq(valor em questão, graus de liberdade(n-1)) Dá como saída a probabilidade -qchisq-(probabilidade em questão, graus de liberdade(n-1)) Dá como saída Z -faz o cálculo através da probabilidade complementar - dchisq-densidade CAP.7) DISTRIBUIÇÕES DE AMOSTRAGEM E ESTIMAÇÃO DE PARÂMETROS Parâmetros(população) Medida Estatística (amostra) μ Média x-barra σ² Variância s² σ Desvio padrão s p Proporção p^ *Teorema do Limite Central: Esse teorema afirma que quando o tamanho da amostra aumenta, a distribuição amostral da sua média aproxima-se cada vez mais de uma distribuição normal. Na inferência estatística a utilidade do teorema central do limite vai desde estimar os parâmetros como a média populacional ou o desvio padrão da média populacional, a partir de uma amostra aleatória dessa população, ou seja, da média amostral e do desvio padrão da média amostral até calcular a probabilidade de um parâmetro ocorrer dado um intervalo, sua média amostral e o desvio padrão da média amostral. Distribuição Normal: Para uma população: Para duas populações: CAP.8) INTERVALOS DE CONFIANÇA CASOS: 8.1. Para média (μ), σ² conhecida Normal 8.2. Para média (μ), σ² desconhecida T de Student 8.3 Para variância (σ²) Chi-Quadrado 8.4 Para proporção (p), grandes amostras Normal(binomial) 8.1. Para média (μ), σ² conhecida Normal *BILATERAL: Em R: LI <- mean(x) - qnorm(1-α/2)*(σ/sqrt(n)) LS <-mean(x) + qnorm(1-α/2)*(σ/sqrt(n)) *UNILATERAL: Em R: LS <- mean(x) + qnorm(1-α)*(σ/sqrt(n)) Em R: LS <- mean(x) - qnorm(1-α)*(σ/sqrt(n)) *OBS1.: Escolha do tamanho da amostra: onde: *OBS2.: Se n for muito grande: Troca σ por s, ou seja, desvio padrão populacional por desvio padrão amostral. 8.2 Para média (μ), σ² desconhecida T de Student *BILATERAL: Em R: LI <- mean(x) -qt(1-α/2, n-1)*(s/sqrt(n)) Ls<- mean(x) + qt(1-α/2, n-1)*(s/sqrt(n)), onde s é o desvio padrão amostral (calculado por s=sd(x)) *UNILATERAL: Em R: Troca qt(1-α/2, n-1) por qt(1-α, n-1) 8.3 Para variância (σ²) Chi-Quadrado *BILATERAL: Em R: LI <- ((n-1)*s²)/qchisq(1-α/2, n-1) LS <- ((n-1)*s²)/qchisq(α/2, n-1), onde s é o desvio padrão amostral (calculado por s=sd(x)) *UNILATERAL: (troca α/2 por α) Em R: LI <- ((n-1)*s²)/qchisq(1-α, n-1) Em R: LS <- ((n-1)*s²)/qchisq(α, n-1) 8.4 Para proporção (p), grandes amostras Normal(binomial) *BILATERAL: Em R: LI <- p^ - qnorm(1-α/2)*sqrt((p^*(1-p^))/n) LS <- p^ + qnorm(1-α/2)*sqrt((p^*(1-p^))/n) *UNILATERAL: Em R: LI <- p^ - qnorm(1-α)*sqrt((p^*(1-p^))/n) Em R: LS <- p^ + qnorm(1-α)*sqrt((p^*(1-p^))/n) OBS.: Escolha do tamanho da amostra: , onde E = p^ - p OBS2.: Para unilateral de limite superior (Limite superior): CAP.9) TESTES DE HIPOTÉSE Ho é V Ho é F Aceitar Ho Sem erro ERRO TIPO II Rejeitar Ho ERRO TIPO I Sem erro α = valor P = Probabilidade (Erro Tipo I) = P(Rejeitar H0/H0 é Verdadeiro); = Área da região crítica (área hachurada abaixo); β = Probabilidade (Erro Tipo II)=P(Não rejeitar H0/H0 é falso); RELAÇÃO ENTRE IC E TESTE DE HIPÓTESE: BILATERAL: Ho =θo (Hipótese nula) θ pode ser μ, σ² ou p Ha ≠ θo (Hipótese alternativa) (casos possíveis) - Verifica-se se pertence ao intervalo de confiança (IC) * Se θo pertencer ao IC: Aceita-se Ho * Senão: Rejeita-se Ho CASOS: 9.1 Para média (μ), σ² conhecida Normal 9.2 Para média (μ), σ² desconhecida T de Student 9.3 Para variância (σ²) Chi-Quadrado 9.4 Para proporção (p), grandes amostras Normal(binomial) 9. 1 Para média (μ), σ² conhecida Normal (Zteste) =zo =μo: *BILATERAL: Em R: Dado IC de xbarra: valorp=alfa <- 2*(pnorm(LI do xbarra, μo, σ/sqrt(n))) Ou valorp = alfa <- 1 - (pnorm(LS do xbarra, μo, σ/sqrt(n))-pnorm(LI do xbarra, μo, σ/sqrt(n))) beta = pnorm(LS, μo, , σ/sqrt(n)) - pnorm(LI,μo, , σ/sqrt(n)) Dado xbarra: Se xbarra < μo valorp=alfa <- 2*(pnorm(xbarra, μo, σ/sqrt(n))) Se xbarra > μo valorp=alfa <- 2*(1-pnorm(xbarra, μo, σ/sqrt(n))) Obs: Se Z0>Z(alfa/2) ou Z0< -Z(alfa/2): Rejeita-se H0; Se –Z(alfa/2)<Z0<Z(alfa/2): Não rejeita H0; *UNILATERAL: Em R: P-VALOR= alfa <- (1-pnorm(xbarra, μo, σ/sqrt(n))) (gráfico: Limite superior) P-VALOR= alfa <- pnorm(xbarra, μo, σ/sqrt(n)) (gráfico: Limite inferior) Z0< - Z(alfa): rejeita-se H0; Obs1.: Escolha do tamanho da amostra: , se for unilateral alfa=alfa/2 Testes de hipótese para a média com variância conhecida: critérios de rejeição de H0 2. Para média (μ), σ² desconhecida T de Student 3. Para variância (σ²) Chi-Quadrado (Chiteste) =σ²o 4. Para proporção (p), grandes amostras Normal(binomial) (Zteste) = zo = po *BILATERAL: Dado IC de p^: Em R: alfa = valorp<- 2*(pnorm( LI do p^, po, sqrt(p*(1-p)/n))) ou valorp = alfa <- 1 – (pnorm( LS do p^, po, sqrt(p*(1-p)/n)) - pnorm( LI do p^, po, sqrt(p*(1-p)/n)) beta = pnorm(LS, po, , σ/sqrt(n)) - pnorm(LI, po, , sqrt(p*(1-p)/n) ) Dado p^: Se p^ < po valorp<- 2*(pnorm(p^, po, sqrt(p*(1-p)/n))) Se p^ > po valorp<- 2*(1 – pnorm(p^, po, sqrt(p*(1-p)/n))) *UNILATERAL: Em R: alfa = valor-p<- (1-pnorm( p^, po, sqrt(p*(1-p)/n))) (limite superior) alfa = valor-p<- pnorm( p^, po,sqrt(p*(1-p)/n)) (limite inferior) Obs1.: Escolha do tamanho da amostra: CAP.11) REGRESSÃO LINEAR #Declarar x, y x =c() y =c() Regressão Simples: Linear->y=bo+b1x nomedaregressao<-lm(y~x) #Plotar reta de regressão simples: lines(x, predict(nomedaregressao)) ou abline(intercept, x) ou abline(nomedaregressao) #Plotar gráfico com segmentos plot(x,y) abline(nomedaregressao) residuals(nomedaregressao): resíduos (y-y^) predict(nomedaregressao):previsão (y^) Visualizar informações: Intercept= bo; x= b1; estimate=valor estimado; stderror= erro padrão; t value =quantos erros padrões o coeficiente está distante de 0; pr(>[t])=analisa T.H. para H0: bo ou b1=0, se for alta(mais de 5%), você rejeita a regressão; probabilidade de estar fora do intervalo definido t-value R² = indica se o modelo é bom, está entre 0 e 1; R² ajustado= ajusta o valor de R² considerando uma maior quantidade de parâmetros; summary(nomedaregressao) = resumo do que foi feito aov (nomedaregressao) = análise de variância textxy (x, y, resíduos) = colocar os valores do erro residuais # Intervalos de confiança: Se xo não pertence à x: predict((lm(y~x), data.frame(x=xo), interval = "prediction", level = 1-alpha) Dá valores do intervalo de confiança da predição fit - valor "y=bo+b1xo" lwr - limite inferior upr - limite sperior Se xo pertence à x: predict(lm(y~x), data.frame(x=xo), interval = "confidence", level = 1-alpha) Dá valores do intervalo de confiança segments(x,y,x,nomedavariavel,col="cor desejada") Obs.: nomedavariavel2=signif(parâmetro, número de casas decimais)-coloca o parâmetro pra duas casas decimais #Analisando a F-statistic -usa a distribuição "f" pf (valor de F, grau de liberdade 1 (n-p), grau de liberdade 2 (n-p-1)) valor de F=MQm/MQe Se valor de F>0 -verifico a validade do teste através de 1-pf = p-valor (indica a probabilidade de F ser 0) EXEMPLOS: # Resumo do que foi feito – summary(nomedaregressao) Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -78.74 -27.64 -18.15 36.58 82.79 Coefficients: EstimateStd. Error t valuePr(>|t|) (Intercept) 2984.285 576.792 5.174 0.00207 ** x -7.627 1.940 -3.932 0.00770 ** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 61.25 on 6 degreesoffreedom Multiple R-squared: 0.7204, Adjusted R-squared: 0.6738 F-statistic: 15.46 on 1 and 6 DF, p-value: 0.007698 #Análise de variância –aov(nomedaregressao) summary(aov(lm(y~x)) Df Sum SqMeanSq FvaluePr(>F) x 1 57989 57989 15.46 0.0077 ** Residuals 6 22508 3751 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Compartilhar