probabilidade

•

UTFPR

Murillo Busnello

12/12/2022

Prévia do material em texto

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ 
DIGITE AQUI O NOME DO DEPARTAMENTO OU COORDENAÇÃO 
DIGITE AQUI O NOME DO CURSO 
 
 
 
MURILLO ALMEIDA BUSNELLO 
RA: 2374854 
 
 
 
 
 
 
ANÁLISE DE DADOS EM “R” 
 
 
 
 
TRABALHO DE PROBABILIDADE E ESTATÍSTICA 
 
 
 
 
 
 
PONTA GROSSA 
 
 - 
 
RESUMO 
Trabalho da disciplina de probabilidade e estatística com o objetivo de coletar 
e analisar dados de uma planilha “Excel” utilizando o software “RStudio”. 
Neste relatório contém dados da estatística descritiva e probabilidade, 
possuindo média aritmética, mediana, variância, desvio padrão, coeficiente de 
variação, quartil amostral e mediana de variabilidade interquartil. Há também a 
análise desses dados através de gráficos como histograma e boxplot e do teste 
Shapiro-Wilk. 
Palavras chave 
 
 
 
 
 
 
 
 
13 
1 INTRODUÇÃO 
Atualmente o mundo não se baseia mais de tomada de decisões baseadas 
em achismos e crenças, necessita-se de dados concretos para que assim, por meios 
adequados, o profissional interprete e execute sua decisão. Por esse motivo, a 
estatística descritiva é de extrema importância e de acordo com o conteúdo obtido 
em sala e em videoaula -para a realização deste trabalho. 
2 METODOLOGIA 
O relatório foi escrito de acordo com a linguagem de programação “R”, com o 
auxílio do aplicativo “RStudio”, no qual foram escritos comandos de acordo com a 
videoaula do professor Rafael Ribaski Borges, disponibilizada através do software 
“Moodle”. 
O trabalho possui o conteúdo de duas planilhas “Excel” no qual precisei retirar 
os dados de uma coluna “RA:2374854” obtendo dois conjuntos numéricos para 
utilizar formulas estatísticas e interpreta-las. 
14 
3 RESULTADOS E DISCUSSÕES 
3.1 DADOS 
Primeiramente, é necessário coletar os dados das planilhas “Excel” e eu 
utilizei o comando “library(readr)”, e logo após “dados1 
=read_csv("C:/Users/Murilo/Downloads/arquivo_trabalho.csv")” “dados2 
=read_csv("C:/Users/Murilo/Downloads/arquivo_trabalho2.csv")”, com o objetivo de 
inserir as planilhas no software. 
Executei “x=dados1$ra2374854” e “y=dados2$ra2374854” para selecionar 
somente as colunas desejadas das duas planilhas, que em meu caso eram as 
colunas “ra2374854”, obtive um conjunto de dados que logo em seguida separei em 
vetores utilizando “f=c(x)” e “g=c(y)”. Somente por questão de organização inseri 
“sort(x)” e “sort(y) para o programa organizar os valores em ordem crescente. 
IMAGEM VALORES 
Em seguida iniciei as análises de dados. A média é calculada somando-se 
todos os valores de um conjunto de dados e dividindo-se pelo número de elementos 
deste conjunto. Por meio de “mean(f)” e “mean(g)” obtive-as sendo média “f” 
=50.622 e média “g”= 50.581. 
Agora vamos para a mediana, que consiste no número central de um 
conjunto de dados ordenados, sendo que, se o conjunto for de n= par, tira-se a 
média dos dois algarismos centrais. Obtive-as por “median (f)” obtendo 51.05 e 
“median (g)” 49.05. 
A variância que tem por definição “quadrado do desvio-padrão; a esperança 
matemática do quadrado do desvio de uma variável aleatória” (segundo Oxford 
Languages) foi adquirida pelos comandos “RStudio” como: “var (f)” e “var (g)” 
resultando em 115.7048 e 102.5248. 
O desvio-padrão indica o grau de variação de um conjunto de elementos. 
Como mencionado acima, para achar o desvio-padrão basta tirar a raiz quadrada da 
variância. Comandos utilizado “sd (f)” = 10.75661 e “sd(g)” = 10.12545. 
Com os valores de desvio-padrão e média criaremos por comandos as 
formulas “cv1=100*sd (f)/mean (f)” e “cv2=100*sd(g)/mean(g)”, obtendo os 
coeficientes de variação cv1= 21.24889 e cv2= 20.01829. 
https://languages.oup.com/google-dictionary-pt
https://languages.oup.com/google-dictionary-pt
15 
Para complementar, pode-se pedir para o “R” fazer os quartis das amostras. 
Os quartis para Neto (2004) “Cada um dos três valores que dividem uma distribuição 
de frequências em quatro partes de frequências iguais. O primeiro quartil 
corresponde ao 25º percentil, o segundo à mediana e o terceiro ao 75º percentil”. 
Utilizando o comando “quantile (f)” obtêm: 
 
Inserindo “quantile (g)” obtêm: 
 
Utilizando o comando “IQR (f)” e “IQR (g)”, obtém-se uma medida de 
variabilidade interquartil. Resultando em 14.575 e 12.675. 
 
3.2 GRÁFICOS 
Por meio do “RStudio” consegui desenvolver os gráficos de Boxplot, 
histograma, gráfico de probabilidade normal e um diagrama de ramo e folhas para a 
análise de dados. 
O Boxplot 1 foi obtido por meio dos comandos “boxplot (f, ylab="Valores", 
main= "Boxplot 1") 
points(1,mean(f),col="red") para “f”: 
16 
 
E o Boxplot 2 por meio de “boxplot(g, ylab="Valores",main= "Boxplot 2") 
points(1,mean(g),col="red")” para “g”: 
 
 
 
 
 
17 
Utilizando o teste Shapiro-Wilk conseguimos verificar qual o tipo de 
distribuição da amostra, sendo que quanto mais próximos a 1, mais se aproxima de 
uma distribuição normal. Comandos em “RStudio”: “shapiro.test(f)” e “shapiro.test(g)” 
geraram os seguintes resultados: 
 
 
 O histograma é um gráfico de barras utilizado para demonstrar uma 
frequência de dados. Ele é obtido pelo comando “hist(f,probability = TRUE, xlab = 
"Valores",ylab = "Frequência Relativa", main="Histograma 1") 
lines(density(y),col="red")” para o Histograma 1; 
 
 E pelo comando “hist(g,probability = TRUE, xlab ="Valores",ylab = 
"Frequência Relativa", main="Histograma 2") 
18 
lines(density(y),col="black")” para o Histograma 2: 
 
Digitando os comandos “qqnorm(f,col="black",xlab = "Quantis Teóricos", ylab 
= "Quantis Amostrais",main = "Prob Normal Vetor(f)") 
qqline(f,col="red")” e “qqnorm(g,col="black",xlab = "Quantis Teóricos", ylab = 
"Quantis Amostrais",main = "Prob Normal Vetor(g)") 
qqline(g,col="red")” obtemos uma relação entre os quantis teóricos e amostrais. 
19 
 
Concluido temos o diagrama de ramo e folhas através de “stem(f,scale=5)“ e 
“stem(g,scale=5)”, adquirindo os seguintes resultados: 
 
 
 
20 
The decimal point is at the | 
 
 18 | 0 
 20 | 
 22 | 7 
 24 | 
 26 | 
 28 | 
 30 | 93 
 32 | 0289 
 34 | 
 36 | 29 
 38 | 3703679 
 40 | 102356 
 42 | 4437 
 44 | 2458 
 46 | 4169 
 48 | 0041234579 
 50 | 2266924689 
 52 | 013133688 
 54 | 1335478 
 56 | 3673 
 58 | 799477 
 60 | 125813 
 62 | 0756 
 64 | 6 
 66 | 1374 
 68 | 
 70 | 8 
 72 | 7 
 74 | 
 76 | 14 
The decimal point is at the | 
 
21 
 24 | 84 
 26 | 
 28 | 
 30 | 
 32 | 59 
 34 | 12 
 36 | 779 
 38 | 5687 
 40 | 249577 
 42 | 191 
 44 | 122558828 
 46 | 353338 
 48 | 011122444789011999 
 50 | 167812346 
 52 | 68 
 54 | 0178 
 56 | 1399119 
 58 | 5818 
 60 | 1027 
 62 | 38812 
 64 | 38 
 66 | 165 
 68 | 1 
 70 | 3 
 72 | 45 
 74 | 
 76 | 9 
 
 Os intervalos de confiança são obtidos através dos comandos “t.test(f)” e 
“t.test(g)” 
22 
 
 
4 CONCLUSÃO 
Este trabalho foi uma coleta dados da coluna “ra2374854” por meio do 
software “RStudio”, tornando-se evidente que os dois conjuntos de dados possuem 
diferenças notórias, e com a elaboração dos gráficos ficou tudo muito mais nítido. 
O desenvolvimento das duas planilhas gerou dados surpreendentes e de 
grande aprendizado acadêmico. Como citado antes a estatística descritiva facilita 
muito o entendimento do conteúdo. 
 
23 
REFERÊNCIAS 
BORGES,Rafael; R básico. Julho/2022. Disponível em 
<https://www.youtube.com/watch?v=XfT3E1d3zg0&ab_channel=RafaelRBorgesRafa
el>. 
AMORIM, Viviam; Estatística descritiva: Breve histórico, conceitos e exemplos 
aplicáveis no ensino médio. Dezembro/2014. Disponível em 
<https://repositorio.ufms.br/bitstream/123456789/2146/1/VIVIAM%20CICARINI%20D
E%20SOUZA%20AMORIM.pdf>. 
WOLFFENBÜTTEL, Andréa; O que é? Desvio padrão. Junho/2006 < 
https://www.ipea.gov.br/desafios/index.php?option=com_content&id=2104:catid=28#:~:text=Desvio%20padr%C3%A3o&text=%C3%89%20um%20par%C3%A2metro%20
muito%20usado,desses%20tr%C3%AAs%20dias%20foi%2029%C2%BA.> 
OXFORD LANGUAGES. < https://languages.oup.com/google-dictionary-pt/ >; 
CÓDIGOS 
library(readr) 
dados1 =read_csv("C:/Users/Murilo/Downloads/arquivo_trabalho.csv") 
x=dados1$ra2374854 
f=c(x) 
sort(x) 
mean(f) 
median (f) 
var (f) 
https://www.youtube.com/watch?v=XfT3E1d3zg0&ab_channel=RafaelRBorgesRafael
https://www.youtube.com/watch?v=XfT3E1d3zg0&ab_channel=RafaelRBorgesRafael
https://www.ipea.gov.br/desafios/index.php?option=com_content&id=2104:catid=28#:~:text=Desvio%20padr%C3%A3o&text=%C3%89%20um%20par%C3%A2metro%20muito%20usado,desses%20tr%C3%AAs%20dias%20foi%2029%C2%BA
https://www.ipea.gov.br/desafios/index.php?option=com_content&id=2104:catid=28#:~:text=Desvio%20padr%C3%A3o&text=%C3%89%20um%20par%C3%A2metro%20muito%20usado,desses%20tr%C3%AAs%20dias%20foi%2029%C2%BA
https://www.ipea.gov.br/desafios/index.php?option=com_content&id=2104:catid=28#:~:text=Desvio%20padr%C3%A3o&text=%C3%89%20um%20par%C3%A2metro%20muito%20usado,desses%20tr%C3%AAs%20dias%20foi%2029%C2%BA
https://languages.oup.com/google-dictionary-pt/
24 
sd (f) 
cv1=100*sd (f)/mean (f) 
cv1 
quantile (f) 
IQR (f) 
boxplot (f, ylab="Valores", main= "Boxplot 1") 
points(1,mean(f),col="red") 
shapiro.test(f) 
hist(f,probability = TRUE, xlab = "Valores",ylab = "Frequência Relativa", 
main="Histograma 1") 
lines(density(y),col="red") 
qqnorm(f,col="black",xlab = "Quantis Teóricos", ylab = "Quantis Amostrais",main = 
"Prob Normal Vetor(f)") 
qqline(f,col="red") 
stem(f,scale=5) 
t.test(f) 
 
 
25 
-library(readr) 
dados2 =read_csv("C:/Users/Murilo/Downloads/arquivo_trabalho2.csv") 
y=dados2$ra2374854 
g=c(y) 
sort(y) 
mean(g) 
median (g) 
var (g) 
sd (g) 
cv2=100*sd(g)/mean(g) 
cv2 
quantile (g) 
IQR (g) 
boxplot(g, ylab="Valores",main= "Boxplot 2") 
points(1,mean(g),col="red") 
shapiro.test(g) 
26 
hist(g,probability = TRUE, xlab ="Valores",ylab = "Frequência Relativa", 
main="Histograma 2") 
lines(density(y),col="black") 
qqnorm(g,col="black",xlab = "Quantis Teóricos", ylab = "Quantis Amostrais",main = 
"Prob Normal Vetor(g)") 
qqline(g,col="red") 
stem(g,scale=5) 
t.test(g)