Buscar

etapa_2__analise_de_dados_no_

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 25 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 25 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 25 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ANÁLISE DE 
DADOS NO R
ETAPA 2
Autor
Everaldo Freitas Guedes
Reitor da UNIASSELVI
Prof. Hermínio Kloch
Pró-Reitora do EAD
Prof.ª Francieli Stano Torres
Edição Gráfica e Revisão
UNIASSELVI
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
1 AMOSTRAGEM
A amostragem é o processo de seleção de uma amostra, que possibilita 
o estudo de características de uma população e tem por objetivo produzir 
estimadores para parâmetros populacionais desconhecidos (BOLFARINE; 
BUSSAB, 2005). 
• Parâmetro: é a medida usada para descrever uma característica numérica 
populacional. Genericamente representamos por 𝜃. A média (𝜇) e a variância 
(𝜎2) são alguns exemplos de parâmetros populacionais.
• Estimador: é uma característica denominada na amostra, uma função de 
seus elementos. Genericamente, representaremos por . A média amostral 
( ) , a variância amostral ( ) são exemplos de estimadores.
• Estimativa: é o valor numérico determinado por um estimador. Por exemplo, 
S2 =20.
1.1 População
Uma população é o conjunto formado por todas as unidades elementares 
(indivíduos ou objetos) que têm pelo menos uma variável comum e observável 
(MORETTIN, 2010). Por exemplo:
a) População de alunos do primeiro período de uma faculdade.
b) População dos operários da indústria automobilística.
c) População de alturas em cm das pessoas de determinado bairro.
d) População de peças fabricadas numa linha de produção.
Uma população pode ser:
• Finita: é aquela população cujo número/indivíduos (ou de objetos) é 
limitado. Exemplo: a população de alunos do primeiro período de uma 
faculdade. 
ANÁLISE DE 
DADOS NO R
ETAPA 2
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
• Infinita: é aquela população cujo número/indivíduos (ou de objetos) 
é ilimitado. Exemplo: a população de peças fabricadas numa linha de 
produção. 
Designaremos como tamanho de uma população finita o número de 
elementos que a compõem. Usaremos � para designar esse número.
1.2 Amostra
Fixada uma população, qualquer subconjunto formado exclusivamente 
por seus elementos é denominado amostra dessa população. Usaremos n.
para indicar o número de elementos da amostra, o seu tamanho.
Ex.: considere uma população de tamanho fixo , isto é, 
Uma sequência qualquer de n. unidades de é denominada amostra de 
, isto é, tal que . O rótulo é chamado de i-ésimo 
componente de S.
• Amostragem Aleatória Simples (AAS)
Consideremos uma população com elemento genérico , 
com e a amostra com elemento genérico , com . Uma 
amostra é dita aleatória simples quando todos os elementos da população 
têm a mesma probabilidade de serem selecionados. Dada uma população, 
realizamos os seguintes procedimentos: 
1. Enumerar os N elementos da população.
2. Sortear, com ou sem reposição, n números compreendidos entre 1 a N.
3. Os elementos correspondentes aos números escolhidos formarão a amostra 
de tamanho n.
FIGURA 1 – ILUSTRAÇÃO DE AMOSTRAGEM ALEATÓRIA SIMPLES DE UMA POPULAÇÃO (N=12)
FONTE: O autor
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
#### Utilizando a linguagem R
pop <- rnorm(1000, m=1.7, s=.3)
n <- 1/100 # percentagem da população a ser amostrada
amo <- sample(x=pop, size=n * length(pop))
boxplot(pop, amo, names=c('pop', 'amo'))
• Amostragem sistemática
Consideremos uma população com elemento genérico 
 e a amostra com elemento genérico , com 
. Neste tipo de amostragem, os elementos que constituirão a amostra 
são escolhidos segundo um fator de repetição (um intervalo fixo). A aplicação 
da amostragem sistemática requer que a população esteja ordenada segundo 
um critério qualquer, de modo que, cada um de seus elementos possa ser 
unicamente identificado pela sua posição. Por exemplo: uma lista de todos 
os elementos, uma fila de pessoas etc. 
Assim, dada uma população, realizamos os seguintes procedimentos: 
• Definir a quantidade de elementos da amostra.
• Obter um intervalo de amostragem .
• Sortear um número r inteiro entre 1 e .
• A amostra será composta pelos elementos na ordem: 
Ex.: suponha uma população com N = 12 e n = 4, k = 3 e r = 2. Então, 
n = (2,5,8,11), conforme ilustramos na imagem a seguir.
FIGURA 2 – ILUSTRAÇÃO DE AMOSTRAGEM SISTEMÁTICA
FONTE: O autor
#### Utilizando a linguagem R
#. AMOSTRAGEM SISTEMÁTICA - AS
## x = População (vetor)
## p = Percentagem da população a ser amostrada
## r = Número inteiro entre 1 e k: primeiro elemento a ser sorteado
a_sis <- function(x, p=20, r=NULL){
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
FONTE: O autor
 k <- round(1/p * 100)
 if (is.null(r))
 r <- sample(1:k, 1) # Elemento de aleatoriedade!
 n <- 0:round((p / 100 * length(x)) - 1)
 idx <- (n * k) + r
 res <- x[idx]
 return(res)}
pop <- rnorm(1000, m=1.7, s=.3)
a_sis(pop, r=3)
2 INFERÊNCIA 
A Inferência estatística é um conjunto de técnicas que objetiva estudar 
a população através de evidências fornecidas por uma amostra (MAGALHÃES; 
LIMA, 2002). 
O processo de generalização, que é característico do método indutivo, 
está associado a uma margem de incerteza. A medida da incerteza é 
tratada mediante técnicas e métodos que se fundamentam na Teoria das 
Probabilidades. 
FIGURA 3 – VISÃO ESQUEMÁTICA DO PROCESSO DE INFERÊNCIA ESTATÍSTICA
A inferência estatística consiste em, através de uma amostra, estimar 
os valores dos parâmetros, ou também testar se algumas hipóteses são 
válidas sobre determinados parâmetros. Estes são os problemas da inferência 
paramétrica conhecidos como problemas de estimação e testes de hipóteses, 
respectivamente.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
2.1 ESTIMAÇÃO PONTUAL
 
Procura encontrar um valor numérico único que esteja bastante próximo 
do verdadeiro valor do parâmetro. Uma forma de obter estimadores pontuais é 
através do método dos momentos, que preconiza a estimação de momentos 
populacionais por seus equivalentes momentos amostrais. Seja , o 
k-ésimo momento populacional e , o k-ésimo ( ) momento 
amostral de uma amostra aleatória . O método dos momentos 
consiste na obtenção de estimadores para resolvendo-se as 
equações .
Demonstração: k = 1 (momento natural)
, em que e
(é um estimador viesado)
multiplicando pelo fator de correção de
Bessel temos:
(é um estimador não viesado)
Logo, o 2º momento é a variância amostral.
Existem outros métodos de estimação, tais como, método dos mínimos 
quadrados e da máxima verossimilhança, que não serão abordados nesta 
apostila. 
Exemplo de aplicação utilizando a linguagem R:
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
library(fitdistrplus)
y <- rnorm(1000)
hist.(y, prob=TRUE)
fit <- fitdist(y, distr = "norm", method = "mle")
summary(fit) 
2.2 ESTIMAÇÃO INTERVALAR
Procura determinar um intervalo que contenha o verdadeiro valor 
do parâmetro, com alto grau de confiança (margem de segurança), que 
é a probabilidade do intervalo de confiança conter o verdadeiro valor do 
parâmetro. Este procedimento permite julgar a magnitude do erro que 
podemos estar cometendo.
Formalizando um pouco, se denotarmos o parâmetro de interesse por 
, desejamos obter um intervalo com limite inferior 
LI
 e limite superior 
LS
, 
tal que
,
Em que (nível de significância) é um valor pequeno e 1 - é próximo 
de 1. Os limites deste intervalo são variáveis aleatórias, pois dependem da 
amostra selecionada. Um intervalo deste tipo é denominado intervalo de 1 - 
(x 100)% confiança para o parâmetro .
2.2.1 Intervalo de confiança para a média de uma população 
A média é uma importante característica da população. Vejamos como 
obter intervalos de confiança para este parâmetro populacional. Temos que 
distinguir algumas situações que podem surgir na prática:
• Amostras grandes 
 
Se n é suficientemente grande (em geral , n > 30), mesmo sem 
conhecermos a distribuição da população, os l imites do Intervalo de 
Confiança para a média (µ) poderãoser calculados com base na distribuição 
Normal padrão. Neste caso, o Intervalo de Confiança de 1 - ( X 100)% para 
a média µ de uma população normal é dado por:
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
Obs.: se população for não normal , podemos ut i l izar o desvio 
padrão amostral S no lugar de (desvio-padrão populacional). Note que 
.
• Amostras pequenas – população normal
 
Se n é pequeno (n ≤ 30) e o desvio-padrão populacional for conhecido, 
o Intervalo de Confiança de 1 - ( X 100)% para a média µ de uma população 
normal é dado por:
• Amostras pequenas – população não normal
 
Se n é pequeno (n ≤ 30) e o desvio-padrão populacional for 
desconhecido, o Intervalo de Confiança de 1 - ( X 100)% para a média µ de 
uma população normal é dado por:
Ex.: o consumo diário de alimentos observado em certa amostra da 
população é, em calorias (x100), igual a: 10; 11; 11; 12; 13; 13; 13; 13; 13; 14; 
14; 14; 15; 15; 16; 16. Construir um intervalo de confiança para a média com 
um nível de confiança de 90%.
#### Utilizando a linguagem R
dados <- c(10,11,11,12,13,13,13,13,13,14,14,14,15,15,16,16) 
media <- mean(dados)
S <- sd(dados)
t = 1.753 #(ver tabela T Student)
IC_LI = (media - t*(S/sqrt(n)))
IC_LS = (media + t*(S/sqrt(n)))
print(cbind(IC_LI, media, IC_LS))
2.2.2 Intervalo de confiança para uma proporção populacional
Seja x o nº de elementos de uma amostra de tamanho n e um 
estimador de p. Se o tamanho da amostra for suficientemente grande, é 
possível construir um intervalo de 1 - ( X 100)% de confiança para , baseado 
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
em que segue uma distribuição normal padrão. Assim, o 
intervalo de confiança de 1 - ( X 100)% para a proporção populacional p é 
dado por:
Ex.: examinam-se 98 animais, encontrando-se 53 infectados com 
determinado vírus. Construir um intervalo de 95% de confiança para a 
proporção p de animais infectados.
#### Utilizando a linguagem R
n = 98 
p=53/n
z = 1.96 #(ver tabela normal padronizada)
IC_LI = (p - z*sqrt(p*(1-p)/n))
IC_LS = (p + z*sqrt(p*(1-p)/n))
print(cbind(IC_LI, p, IC_LS)) 
2.3 TESTES DE HIPÓTESES
Os testes de hipóteses estabelecem uma regra de decisão segundo a qual 
aceitaremos ou não a hipótese de interesse a partir de uma amostra aleatória 
de uma população. Por exemplo, podemos estar interessados em determinar 
se uma moeda é honesta, se certas quantidades são independentes, ou se 
populações distintas são similares do ponto de vista probabilístico. 
Denominaremos uma hipótese por H
0
: “hipótese nula” e H
1
: “hipótese 
alternativa”. Os testes podem ser unilaterais, por exemplo, H
1
 : µ > 15 ou H
1
 
: µ < 15 ou bilaterais, por exemplo, H
1
 : µ ≠ 15. A decisão entre as hipóteses 
é tomada com base no valor-p, que pode ser interpretado como o menor 
nível de significância com que se rejeitaria a hipótese nula. Por exemplo, em 
testes de hipótese, pode-se rejeitar a hipótese nula a 5% caso o valor-p seja 
menor que 5%.
2.3.1 Teste de normalidade
O Teste Shapiro-Wilks é útil para a verificação do pressuposto de 
normalidade. Testa-se as hipóteses H
0 
: os dados seguem uma distribuição 
normal contra H
1 
: os dados não seguem uma distribuição normal. 
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
#### Utilizando a linguagem R
x = rnorm(100)
shapiro.test(x)
Como p-valor foi igual a 0.6816, nós não rejeitamos a hipótese H
0 
: ao 
nível de 95% de confiança.
2.3.2 Testes de hipóteses para média populacional 
A média de uma população é uma de suas característ icas mais 
importantes e frequentemente temos que tomar decisões a seu respeito. 
Vamos denotar um valor fixo qualquer por µ. 
• Amostras grandes e amostras pequenas – população normal
Assim como vimos no caso dos Intervalos de Confiança, podemos 
utilizar a distribuição normal para encontrar a região crítica do teste, que é 
denotada por:
Obs.: se população for não normal , podemos ut i l izar o desvio 
padrão amostral S no lugar de (desvio-padrão populacional). Note que 
.
Ex.: suponha que queremos testar as hipóteses H
0 
: µ = 15 e H
1 
: µ ≠ 15 
de uma sequência aleatória de tamanho 100.
#### Utilizando a linguagem R
library(BSDA)
x=rnorm(n=100, mean=15, sd=10)
z.test(x, alternative=”two.sided”,mu=15,sigma.x=sd(x),conf.level=0.95)
Como p-valor foi igual a 0,1255, nós não rejeitamos a hipótese H
0 
: µ = 
15 ao nível de 95% de confiança.
• Amostras pequenas – população não normal
 
Neste caso, precisamos usar o desvio padrão amostral S para estimar 
, e utilizaremos a distribuição t de Student para encontrar a região crítica 
do teste, que é denotada por:
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
Ex.: suponha que queremos testar as hipóteses H
0 
: µ = 15 e H
1 
: µ ≠ 15 
de uma sequência aleatória de tamanho 25.
#### Utilizando a linguagem R
x=rnorm(n=25, mean=15, sd=10)
t.test(x, alternative=”two.sided”,mu=15,sigma.x=sd(x),conf.level=0.95)
Como p-valor foi igual a 0.1287, nós concluímos não rejeitamos a 
hipótese H
0 
: µ = 15 ao nível de 95% de confiança.
2.3.3 Teste para proporções 
Neste caso, se é a proporção populacional e um valor fixo, a 
estatística de teste é:
Ex.: a fábrica A de automóveis afirma que 60% dos consumidores 
compram carros produzidos por ela. Uma fábrica concorrente deseja testar 
a veracidade desta afirmação, ou seja, H
0 
: = 0.6 e H
1 
: ≠ 0.6. Para isso 
decide realizar uma pesquisa por amostragem com 300 proprietários de 
veículos. 
#### Utilizando a linguagem R
prop.test(x=180,n=300,alternative = “two.sided”,conf.level = 0.95)
Como p-valor foi igual a 0.0005, nós rejeitamos a hipótese H
0 
: = 0.6 
ao nível de 95% de confiança.
3 CORRELAÇÃO E REGRESSÃO
Em problemas das mais diferentes áreas do conhecimento é de grande 
interesse verificar se duas ou mais características (variáveis) de um fenômeno 
que está sendo investigado estão, de alguma forma, relacionadas. 
Algumas vezes, o interesse é apenas medir o grau de associação 
(correlação) e outras vezes deseja-se obter um modelo matemático-estatístico 
que descreva a relação funcional entre as variáveis (regressão). 
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
3.1 DIAGRAMA DE DISPERSÃO
Para estudar a relação entre duas variáveis devemos partir da coleta 
de uma amostra de pares de observações. Para isto, é necessário realizar 
um experimento em que se faz simultaneamente medidas de duas variáveis 
x e y para uma amplitude de diferentes condições experimentais. Sejam 
 os n pares de observações.
Um Diagrama de Dispersão é um procedimento para visualizarmos a 
forma da relação entre as variáveis x e y. É a representação dos pares de 
valores num sistema cartesiano.
FIGURA 4 – TIPOS DE RELAÇÕES ENTRE AS VARIÁVEIS
FONTE: O autor
Na figura anterior, podemos observar que em A e em B, a relação é 
linear (decrescente e crescente, respectivamente). Em C, não existe relação 
entre as variáveis e em D, a relação é não linear.
A presença ou ausência de relação linear pode ser investigada sob dois 
pontos de vista:
• Quantificando a força dessa relação: coeficiente de correlação de pearson.
• Explicitando a forma dessa relação: regressão linear simples e múltipla.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
3.2 COEFICIENTE DE CORRELAÇÃO DE PEARSON
 
O coeficiente de correlação, também chamado de Coeficiente de 
Correlação de Pearson, mede o grau de associação linear entre duas variáveis 
quantitativas e é calculado por:
Em que, - 1 ≤ r
(x,y) 
≤ + 1, de modo que, r
(x,y)
 = -1 significa uma correlação 
linear perfeita negativa, r
(x,y) 
= 0 significa ausência de correlação linear e r
(x,y)
 
= 1 significa uma correlação linear perfeita positiva.
O teste de hipóteses para o coeficiente de correlação de Pearson testa 
as hipóteses H
0
 : p = 0 contra H
0
 : p ≠ 0 por meio da estatística: 
#### Utilizando a linguagem R
y: Consumo de cerveja diário por mil habitantes, em litros
y <- c(290,374,393,425,406,370,365,320,269)x: Temperatura máxima (ºC)
x <-c(16,31,38,39,37,36,36,22,10)
plot(x,y) #diagrama de dispersão
cor.test(x,y, method="pearson")
Como p-valor obtido é menor que 5%, nós rejeitamos a hipótese H
0
 : p 
= 0 ao nível de 95% de confiança. Logo, podemos concluir que r
(x,y)
= 0,9615 
é diferente de zero.
3.3 ANÁLISE DE REGRESSÃO
A Análise de Regressão tem por finalidade analisar a relação entre uma 
variável resposta ou dependente “y“ e uma ou mais variáveis preditoras ou 
explicativas “x“, para identificar uma função que a descreva. 
A escolha dessa função é, geralmente, realizada por meio da observação 
do gráfico de dispersão e os modelos de regressão podem ser usados para:
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
a) Descrição dos dados: é possível construir de um modelo que relacione, 
por exemplo, o efeito do ar-condicionado no consumo de energia elétrica.
b) Estimação dos parâmetros: podemos utilizar a análise de regressão para 
conhecermos qual o número médio de kilowatt/hora consumido usando 
o ar-condicionado por uma hora.
c) Predição: é possível utilizar regressão para predizer valores para a variável 
resposta. 
3.3.1 Regressão linear simples 
 
Quando estamos estudando o comportamento de apenas duas variáveis 
x e y que supostamente se relacionam através de uma função linear, devemos 
considerar a seguinte equação:
Em que é o intercepto e é o incremento em y resultante do 
incremento de uma unidade em x e é chamado de inclinação da reta. O erro 
aleatório é geralmente pensado como uma “falha” da equação linear em 
se ajustar aos dados exatamente. 
• Método de mínimos quadrados
 
A determinação das estimativas dos parâmetros dessa reta é denominada 
ajustamento. O método mais usado para ajustar uma reta usa um princípio 
chamado de Mínimos Quadrados, que é baseado na soma dos quadrados 
dos resíduos, , ou seja:
Os candidatos a ponto de mínimo da função E são aqueles para os 
quais são nulas as derivadas parciais de E em relação a cada um de seus 
parâmetros, isto é:
Tendo em vista que:
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
e que:
Obtemos o seguinte sistema de equações, denominado equações 
normais, cujas incógnitas são os parâmetros e da equação:
Ex.: determine pelo Método dos Quadrados Mínimos a equação da reta 
que melhor se ajusta aos pontos: x
i
 = {-1; -0,1; 0,2; 1} e y
i
 = {1; 1,099; 0,808; 1}. 
Como são n = 4, =0,1, =2,05, =3,907 , e =0,0517 , as 
equações normais do problema são, de acordo com
A solução deste sistema é = 0,9773 e = 0,0224.
#### Utilizando a linguagem R
x =c(-1,-0.1,0.2,1)
y =c(1,1.099, 0.808, 1)
model = lm(y~x)#a função lm significa linear model
summary(model)
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
FIGURA 5 – ILUSTRAÇÃO DA SAÍDA DO R
FONTE: O autor
Assim, a reta que melhor se ajusta à tabela de pontos dada é: 
.
• Observações 
É provável que ao ajustarmos uma reta de regressão haja alguma 
diferença entre o valor observado y e o valor estimado , isto é, . É 
esperado os erros do modelo estimado atenda as seguintes suposições:
1. O erro tem média zero.
2. O erro tem variância constante.
3. Os erros são não correlacionados.
4. O erro tem distribuição normal, isto é, .
A qualidade da reta de regressão pode ser medida pelo Coeficiente de 
Determinação (R2), que é uma medida sintética que diz quão bem a reta de 
regressão da amostra se ajusta aos dados. Este coeficiente varia entre 0 e 1, 
e será denotado por: 
Quanto mais próximo de 1 melhor será a reta de regressão. O coeficiente 
de determinação deve ser interpretado como a proporção entre a variação 
total da variável dependente Y e a variação de Y que é explicada pela da 
variável independente X. 
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
#### Utilizando a linguagem R
x =c(-1,-0.1,0.2,1)
y =c(1,1.099, 0.808, 1)
model = lm(y~x)
summary(model)
summary(model)$r.squared # exibe o R2 
plot(x,y)
abline(model, col="red")
plot(model$residuals, col="red", pch=19)#exibe os erros graficamente
3.3.2 Regressão linear múltipla 
É um modelo mais geral quando a variável resposta pode ser relacionada 
a k variáveis preditoras, x
1
, x
2
, ..., x
n
 e, neste caso, o modelo é denotado por:
Ex.: utilizando o banco de dados USArrests, ajuste um modelo de 
regressão linear múltipla para predizer Y “UrbanPop”. Veja essa relação no 
diagrama de dispersão e estime os coeficientes do modelo.
#### Utilizando a linguagem R
library(datasets)
dados <- head(USArrests) #data set do R
View(dados)
str(dados)
attach(dados)
### diagrama de dispersão
plot(UrbanPop,Murder)
plot(UrbanPop,Assault)
plot(UrbanPop,Rape)
pairs(dados, col = 2, pch = 19)
###correlação
cor(dados)
###o modelo
model <- lm(UrbanPop ~ Murder + Assault + Rape, data=dados) 
summary(model) 
shapiro.test(model$residuals) # testa a normalidade dos resíduos
library(car) # testa a multicolinearidade
vif(model)
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
FIGURA 6 – ILUSTRAÇÃO DA SAÍDA DO R
FONTE: O autor
Assim, o modelo que melhor se ajusta à tabela de pontos dada é: 
.
6 ANÁLISE DE VARIÂNCIA DE FATOR ÚNICO
Em muitos experimentos, o pesquisador se defronta com a situação de 
comparar mais de duas populações simultaneamente. Por exemplo, deseja-
se comparar a eficiência de diversas marcas de remédios para o tratamento 
de uma mesma doença ou deseja-se comparar o consumo em km/litro de 
um modelo de carro abastecido com combustíveis do mesmo tipo, porém 
de marcas diferentes. 
Questões como esta podem ser resolvidas utilizando-se uma importante 
técnica conhecida como Análise de Variância.
Suponha um proced imento exper imenta l com k t ra tamentos 1 
(populações) ou diferentes níveis de um único fator2. A variável resposta para 
cada k tratamento é uma variável aleatória. Conforme ilustramos na figura 
5, y
ij
 é a observação da j-ésima unidade experimental no i-ésimo tratamento 
ou fator. Existem n observações no i-ésimo tratamento. 
1 Um tratamento é uma condição imposta ou objeto que se deseja medir ou avaliar em um experimento.
2 Fator é uma variável independente obtida quando é realizado um estudo de investigação e o nível é a forma particular deste 
fator. Por exemplo, em um estudo sobre os efeitos da presença de três tipos de diferentes soluções de açúcar (glicose, sacarose e 
frutose) no crescimento de bactérias, o fator é o açúcar e cada tipo de solução é um nível em estudo.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
FIGURA 7 – DADOS PARA EXPERIMENTO COM UM ÚNICO FATOR
FONTE: Adaptado de Silva et al. (2016)
Observe que y
i
. representa a soma total das observações do i-ésimo 
tratamento, . representa a média das observações do i-ésimo tratamento, 
y.. é a soma de todas as observações e .. representa a média de todas as 
observações, isto é, a média global amostral. Simbolicamente essas medidas 
são expressas por:
Em que N = n X k, número total de observações. Observe que o “ponto” 
subscrito na notação matemática representa a soma.
6.1 O MODELO 
Um modelo para descrever os dados é denotado por:
De modo que é a observação do i-ésimo tratamento na j-ésima 
unidade experimental; é a média do i-ésimo nível do fator ou tratamento, 
sendo um valor fixo e desconhecido, é o erro aleatório associado ao i-ésimo 
tratamento na j-ésima unidade experimental assumido como: , 
independentes e identicamente distribuído. A variância é assumida como 
constante para todos nos níveis de fator. Isto implica que . Assim, 
 é a parte sistemática que representa a média da população i, que é fixa, 
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
e é a parte aleatória, a informação referente a outros fatores que podem 
influenciar as observações, mas não são incorporadas em .
O interesse é testar a igualdade média dos tratamentos. Assim, as 
hipóteses apropriadas são:
A hipótese nula supõe que as observações amostrais dentro de cada 
tratamento podem ser vistas como provenientes de populações com médias 
iguais. Reescrevendo. A média é a média 
geral.
Ao realizar a análise de variância, a ideia básica é de que existe uma 
distribuição de probabilidade para a variável resposta em cada nível do 
fator. Para efeito de inferências sobre o modelo é necessário assumir que:
• são variáveis aleatórias independentes.
• tem distribuição normal com média .
• a variância deve ser constante para todos nos níveis de fator.
6.2 DECOMPOSIÇÃO DA SOMA TOTAL DE QUADRADO
O nome análise de variância é atribuído devido a uma decomposição 
da variabilidade total das suas componentes. A soma total de quadrado (SQT) 
é dada por:
É uma medida de variabilidade total dos dados. A soma total entre os 
tratamentos (SQE) é dada por:
A soma total dentre os tratamentos (SQD) pode ser obtida a partir da 
diferença entre SQT e SDE, isto é, 
.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
Análise de Variância pode ser resumida através da Tabela ANOVA (Análise 
da Variância) e esta será utilizada para testar as hipóteses de interesse, por 
meio da estatística F cuja distribuição de Fisher-Snedecor com (k - 1) e (N - 
k) graus de liberdade.
QUADRO 1 – ANOVA
FONTE: O autor
Ex.: o tempo de resposta em milissegundos foi determinado para três tipos 
diferentes de circuitos em uma calculadora eletrônica. Os resultados foram:
Construa a ANOVA.
#### Utilizando a linguagem R
maquinas <- c(rep("A",5),rep("B",5),rep("C",5))
##dados
dadosA <- c(19,22,20,18,25)
dadosB <- c(20,21,33,27,40)
dadosC <- c(16,15,18,26,17)
amostras <- c(dadosA,dadosB,dadosC)
### JUNTA OS OBJETOS
dados = data.frame(maquinas,amostras)
##CALCULA MÉDIAS E VARIANCIAS
medias <- aggregate(amostras ~ maquinas, data = dados, mean)
variancias <- aggregate(amostras ~ maquinas, data = dados, var)
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
print(cbind(medias, variancias))
###EXIBE O BOXPLOT
boxplot(amostras ~ maquinas, data = dados)
##EXIBE A ANOVA
anova(lm(amostras ~ maquinas, data = dados))
FIGURA 8 – ILUSTRAÇÃO DA SAÍDA DO R
FONTE: O autor
Como p-valor foi igual a 0.04648, nós não rejeitamos a hipótese 
 ao nível de 95% de confiança. Isso significa que existe pelo 
menos uma diferença entre os pares de médias.
REFERÊNCIAS 
ASSUNÇÃO, R. Fundamentos Estatísticos de ciência de Dados. BOOK-
WEBSITE.COM, 2017. Disponível em: https://homepages.dcc.ufmg.
br/~assuncao/EstatCC/FECD.pdf. Acesso em: 7 jun. 2021. 
BOLFARINE, H.; BUSSAB, W. O. Elementos de Amostragem. São Paulo: 
Edgard Blucher, 2005.
BOLFARINE, H.; SANDOVAL, M. C. Introdução à Inferência Estatística. 
Coleção Matemática Aplicada – Sociedade Brasileira de Matemática, 2001.
BOSCHETTI, A.; MASSARON, L. Python Data Science Essentials. 2. ed. 
Birmingham – UK: Editora Packt, 2016.
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 7. ed. São Paulo: 
Saraiva, 2012.
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados. O' 
Reilly, Rio de Janeiro: Alta Books, 2019.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
CASELLA, G.; BERGER, L. R. Inferência Estatística. Estados Unidos: 
Cengage Learning, 2011. 
CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de dados: 
conceitos básicos, algoritmos e aplicações. São Paulo: Editora Saraiva, 
2016.
COCHRAN, W. G. Sampling Techniques. Wiley, 
1977. Disponível em: https://www.wiley.com/en-us/
Sampling+Techniques%2C+3rd+Edition-p-9780471162407. Acesso em: 7 
jun. 2021. 
DAMIANI, A. et al. Ciência de Dados em R. 2021. Disponivel em: https://
livro.curso-r.com/. Acesso em: 7 jun. 2021. 
EMC EDUCATION SERVICES. Data Science and Big Data Analytics: 
Discovering, Analyzing, Visualizing and Presenting Data. Wiley, 2015.
GROLEMUND, G. Hands-On Programming with R. Rio de Janeiro: ed 
O’Reilly, 2014.
GRUS, J. Data Science do Zero. Rio de Janeiro: Alta Books, 2016.
LOH, S. BI na era do big data para cientistas de dados: indo além de 
cubos e dashboards na busca pelos porquês, explicações e padrões. Porto 
Alegre, 2014.
MASSARON, L; MUELLER, J.P. Python for Data Science For Dummies. Nova 
Jersey: Wiley, 2015.
MAGALHÃES, M. N.; LIMA, A. C. P. Noções de Probabilidade e Estatística. 
São Paulo: EDUSP, 2002.
MILONE, G. Estatística Geral e Aplicada. São Paulo: Thomson Learning, 
2006.
MORETTIN, L. G. Estatística básica: Probabilidade e Inferência volume 
único. 7. ed. São Paulo: Pearson, 2010.
MORETTIN, P. A.; SINGER, J. M. Introdução à Ciência de Dados 
Fundamentos e Aplicações. São Paulo: Departamento de Estatística 
Universidade de São Paulo, 2019.
MONTGOMERY, D. C. Design and Analysis of Experiments. 5. Ed. São 
Paulo: Jhon Wiley & Sons, 2001.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
OLIVEIRA, P. F.; GUERRA, S.; MCDONNELL, R. Ciência de dados com R - 
Introdução. ed IBPAD, 2018. Disponível em: https://cdr.ibpad.com.br/cdr-
intro.pdf. Acesso em: 7 jun. 2021. 
PINHEIRO, H. P. O Que São Dados? Disponível em: https://www.ime.
unicamp.br/~hildete/dados.pdf. Acesso em: 3 abr. 2021. 
RStudio Team (2020). RStudio: Integrated Development for R. RStudio, 
PBC, Boston, MA URL. Disponível em: http://www.rstudio.com/. Acesso 
em: 7 jun. 2021. 
SILVA, G. et al. Notas de aula MAT236 - métodos estatísticos. Bahia: 
Universidade Federal da Bahia, 2016.
TOLEDO, G. L.; OVALLE, I. I. Estatística Básica. 2. ed. São Paulo: Atlas, 
1985.
TORGO, L. Data Mining with R- Learning with Case Studies. Estados 
Unidos: CRC Press, 2011. 
USUELLI, M. R Machine Learning Essentials. Reino Unido: Packt Publishing, 
2014.
WICKHAM, H. Advanced R. Estados Unidos: CRC Press, 2015.
WICKHAM, H.; GROLEMUND, G. R for data Science. Rio de Janeiro: Ed. 
O’Reilly, 2017.

Continue navegando