Prévia do material em texto
UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ DIGITE AQUI O NOME DO DEPARTAMENTO OU COORDENAÇÃO DIGITE AQUI O NOME DO CURSO MURILLO ALMEIDA BUSNELLO RA: 2374854 ANÁLISE DE DADOS EM “R” TRABALHO DE PROBABILIDADE E ESTATÍSTICA PONTA GROSSA - RESUMO Trabalho da disciplina de probabilidade e estatística com o objetivo de coletar e analisar dados de uma planilha “Excel” utilizando o software “RStudio”. Neste relatório contém dados da estatística descritiva e probabilidade, possuindo média aritmética, mediana, variância, desvio padrão, coeficiente de variação, quartil amostral e mediana de variabilidade interquartil. Há também a análise desses dados através de gráficos como histograma e boxplot e do teste Shapiro-Wilk. Palavras chave 13 1 INTRODUÇÃO Atualmente o mundo não se baseia mais de tomada de decisões baseadas em achismos e crenças, necessita-se de dados concretos para que assim, por meios adequados, o profissional interprete e execute sua decisão. Por esse motivo, a estatística descritiva é de extrema importância e de acordo com o conteúdo obtido em sala e em videoaula -para a realização deste trabalho. 2 METODOLOGIA O relatório foi escrito de acordo com a linguagem de programação “R”, com o auxílio do aplicativo “RStudio”, no qual foram escritos comandos de acordo com a videoaula do professor Rafael Ribaski Borges, disponibilizada através do software “Moodle”. O trabalho possui o conteúdo de duas planilhas “Excel” no qual precisei retirar os dados de uma coluna “RA:2374854” obtendo dois conjuntos numéricos para utilizar formulas estatísticas e interpreta-las. 14 3 RESULTADOS E DISCUSSÕES 3.1 DADOS Primeiramente, é necessário coletar os dados das planilhas “Excel” e eu utilizei o comando “library(readr)”, e logo após “dados1 =read_csv("C:/Users/Murilo/Downloads/arquivo_trabalho.csv")” “dados2 =read_csv("C:/Users/Murilo/Downloads/arquivo_trabalho2.csv")”, com o objetivo de inserir as planilhas no software. Executei “x=dados1$ra2374854” e “y=dados2$ra2374854” para selecionar somente as colunas desejadas das duas planilhas, que em meu caso eram as colunas “ra2374854”, obtive um conjunto de dados que logo em seguida separei em vetores utilizando “f=c(x)” e “g=c(y)”. Somente por questão de organização inseri “sort(x)” e “sort(y) para o programa organizar os valores em ordem crescente. IMAGEM VALORES Em seguida iniciei as análises de dados. A média é calculada somando-se todos os valores de um conjunto de dados e dividindo-se pelo número de elementos deste conjunto. Por meio de “mean(f)” e “mean(g)” obtive-as sendo média “f” =50.622 e média “g”= 50.581. Agora vamos para a mediana, que consiste no número central de um conjunto de dados ordenados, sendo que, se o conjunto for de n= par, tira-se a média dos dois algarismos centrais. Obtive-as por “median (f)” obtendo 51.05 e “median (g)” 49.05. A variância que tem por definição “quadrado do desvio-padrão; a esperança matemática do quadrado do desvio de uma variável aleatória” (segundo Oxford Languages) foi adquirida pelos comandos “RStudio” como: “var (f)” e “var (g)” resultando em 115.7048 e 102.5248. O desvio-padrão indica o grau de variação de um conjunto de elementos. Como mencionado acima, para achar o desvio-padrão basta tirar a raiz quadrada da variância. Comandos utilizado “sd (f)” = 10.75661 e “sd(g)” = 10.12545. Com os valores de desvio-padrão e média criaremos por comandos as formulas “cv1=100*sd (f)/mean (f)” e “cv2=100*sd(g)/mean(g)”, obtendo os coeficientes de variação cv1= 21.24889 e cv2= 20.01829. https://languages.oup.com/google-dictionary-pt https://languages.oup.com/google-dictionary-pt 15 Para complementar, pode-se pedir para o “R” fazer os quartis das amostras. Os quartis para Neto (2004) “Cada um dos três valores que dividem uma distribuição de frequências em quatro partes de frequências iguais. O primeiro quartil corresponde ao 25º percentil, o segundo à mediana e o terceiro ao 75º percentil”. Utilizando o comando “quantile (f)” obtêm: Inserindo “quantile (g)” obtêm: Utilizando o comando “IQR (f)” e “IQR (g)”, obtém-se uma medida de variabilidade interquartil. Resultando em 14.575 e 12.675. 3.2 GRÁFICOS Por meio do “RStudio” consegui desenvolver os gráficos de Boxplot, histograma, gráfico de probabilidade normal e um diagrama de ramo e folhas para a análise de dados. O Boxplot 1 foi obtido por meio dos comandos “boxplot (f, ylab="Valores", main= "Boxplot 1") points(1,mean(f),col="red") para “f”: 16 E o Boxplot 2 por meio de “boxplot(g, ylab="Valores",main= "Boxplot 2") points(1,mean(g),col="red")” para “g”: 17 Utilizando o teste Shapiro-Wilk conseguimos verificar qual o tipo de distribuição da amostra, sendo que quanto mais próximos a 1, mais se aproxima de uma distribuição normal. Comandos em “RStudio”: “shapiro.test(f)” e “shapiro.test(g)” geraram os seguintes resultados: O histograma é um gráfico de barras utilizado para demonstrar uma frequência de dados. Ele é obtido pelo comando “hist(f,probability = TRUE, xlab = "Valores",ylab = "Frequência Relativa", main="Histograma 1") lines(density(y),col="red")” para o Histograma 1; E pelo comando “hist(g,probability = TRUE, xlab ="Valores",ylab = "Frequência Relativa", main="Histograma 2") 18 lines(density(y),col="black")” para o Histograma 2: Digitando os comandos “qqnorm(f,col="black",xlab = "Quantis Teóricos", ylab = "Quantis Amostrais",main = "Prob Normal Vetor(f)") qqline(f,col="red")” e “qqnorm(g,col="black",xlab = "Quantis Teóricos", ylab = "Quantis Amostrais",main = "Prob Normal Vetor(g)") qqline(g,col="red")” obtemos uma relação entre os quantis teóricos e amostrais. 19 Concluido temos o diagrama de ramo e folhas através de “stem(f,scale=5)“ e “stem(g,scale=5)”, adquirindo os seguintes resultados: 20 The decimal point is at the | 18 | 0 20 | 22 | 7 24 | 26 | 28 | 30 | 93 32 | 0289 34 | 36 | 29 38 | 3703679 40 | 102356 42 | 4437 44 | 2458 46 | 4169 48 | 0041234579 50 | 2266924689 52 | 013133688 54 | 1335478 56 | 3673 58 | 799477 60 | 125813 62 | 0756 64 | 6 66 | 1374 68 | 70 | 8 72 | 7 74 | 76 | 14 The decimal point is at the | 21 24 | 84 26 | 28 | 30 | 32 | 59 34 | 12 36 | 779 38 | 5687 40 | 249577 42 | 191 44 | 122558828 46 | 353338 48 | 011122444789011999 50 | 167812346 52 | 68 54 | 0178 56 | 1399119 58 | 5818 60 | 1027 62 | 38812 64 | 38 66 | 165 68 | 1 70 | 3 72 | 45 74 | 76 | 9 Os intervalos de confiança são obtidos através dos comandos “t.test(f)” e “t.test(g)” 22 4 CONCLUSÃO Este trabalho foi uma coleta dados da coluna “ra2374854” por meio do software “RStudio”, tornando-se evidente que os dois conjuntos de dados possuem diferenças notórias, e com a elaboração dos gráficos ficou tudo muito mais nítido. O desenvolvimento das duas planilhas gerou dados surpreendentes e de grande aprendizado acadêmico. Como citado antes a estatística descritiva facilita muito o entendimento do conteúdo. 23 REFERÊNCIAS BORGES,Rafael; R básico. Julho/2022. Disponível em <https://www.youtube.com/watch?v=XfT3E1d3zg0&ab_channel=RafaelRBorgesRafa el>. AMORIM, Viviam; Estatística descritiva: Breve histórico, conceitos e exemplos aplicáveis no ensino médio. Dezembro/2014. Disponível em <https://repositorio.ufms.br/bitstream/123456789/2146/1/VIVIAM%20CICARINI%20D E%20SOUZA%20AMORIM.pdf>. WOLFFENBÜTTEL, Andréa; O que é? Desvio padrão. Junho/2006 < https://www.ipea.gov.br/desafios/index.php?option=com_content&id=2104:catid=28#:~:text=Desvio%20padr%C3%A3o&text=%C3%89%20um%20par%C3%A2metro%20 muito%20usado,desses%20tr%C3%AAs%20dias%20foi%2029%C2%BA.> OXFORD LANGUAGES. < https://languages.oup.com/google-dictionary-pt/ >; CÓDIGOS library(readr) dados1 =read_csv("C:/Users/Murilo/Downloads/arquivo_trabalho.csv") x=dados1$ra2374854 f=c(x) sort(x) mean(f) median (f) var (f) https://www.youtube.com/watch?v=XfT3E1d3zg0&ab_channel=RafaelRBorgesRafael https://www.youtube.com/watch?v=XfT3E1d3zg0&ab_channel=RafaelRBorgesRafael https://www.ipea.gov.br/desafios/index.php?option=com_content&id=2104:catid=28#:~:text=Desvio%20padr%C3%A3o&text=%C3%89%20um%20par%C3%A2metro%20muito%20usado,desses%20tr%C3%AAs%20dias%20foi%2029%C2%BA https://www.ipea.gov.br/desafios/index.php?option=com_content&id=2104:catid=28#:~:text=Desvio%20padr%C3%A3o&text=%C3%89%20um%20par%C3%A2metro%20muito%20usado,desses%20tr%C3%AAs%20dias%20foi%2029%C2%BA https://www.ipea.gov.br/desafios/index.php?option=com_content&id=2104:catid=28#:~:text=Desvio%20padr%C3%A3o&text=%C3%89%20um%20par%C3%A2metro%20muito%20usado,desses%20tr%C3%AAs%20dias%20foi%2029%C2%BA https://languages.oup.com/google-dictionary-pt/ 24 sd (f) cv1=100*sd (f)/mean (f) cv1 quantile (f) IQR (f) boxplot (f, ylab="Valores", main= "Boxplot 1") points(1,mean(f),col="red") shapiro.test(f) hist(f,probability = TRUE, xlab = "Valores",ylab = "Frequência Relativa", main="Histograma 1") lines(density(y),col="red") qqnorm(f,col="black",xlab = "Quantis Teóricos", ylab = "Quantis Amostrais",main = "Prob Normal Vetor(f)") qqline(f,col="red") stem(f,scale=5) t.test(f) 25 -library(readr) dados2 =read_csv("C:/Users/Murilo/Downloads/arquivo_trabalho2.csv") y=dados2$ra2374854 g=c(y) sort(y) mean(g) median (g) var (g) sd (g) cv2=100*sd(g)/mean(g) cv2 quantile (g) IQR (g) boxplot(g, ylab="Valores",main= "Boxplot 2") points(1,mean(g),col="red") shapiro.test(g) 26 hist(g,probability = TRUE, xlab ="Valores",ylab = "Frequência Relativa", main="Histograma 2") lines(density(y),col="black") qqnorm(g,col="black",xlab = "Quantis Teóricos", ylab = "Quantis Amostrais",main = "Prob Normal Vetor(g)") qqline(g,col="red") stem(g,scale=5) t.test(g)