Logo Studenta

T2 FE

¡Estudia con miles de materiales!

Vista previa del material en texto

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
FACULTAD DE INGENIERÍA
Fundamentos de Estadística
Grupo: 04 - Semestre: 2020-2
Tarea 2:
Estadística descriptiva en R
FECHA DE ENTREGA: 13/02/2020
Alumno:
Téllez González Jorge Luis
Facultad de Ingenierı́a Fundamentos de Estadı́stica
Índice
1. Importación de datos 2
1.1. Excel a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Importación a R: El salario mı́nimo diario . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2. Cálculo de medidas numéricas en R 4
2.1. Tendencia central: Media, Mediana y Moda . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2. Primer cuartil y tercel decil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3. Rango, Varianza y Desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.4. Sesgo y Curtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.5. Histograma, Diagrama de caja y Diagrama de tallos y hojas . . . . . . . . . . . . . . . . . 5
3. Resumen de resultados 7
4. Conclusiones 7
1
Facultad de Ingenierı́a Fundamentos de Estadı́stica
1. Importación de datos
R es un entorno y lenguaje de programación con un enfoque al análisis estadı́stico, el cual nació como una
reimplementación del lenguaje S. Este lenguaje es ampliamente utilizado en investigación cientı́fica, siendo
además muy popular en los campos de aprendizaje automático, minerı́a de datos, investigación biomédica,
bioinformática y matemáticas financieras.
Figura 1: Lenguaje R.
En el siguiente trabajo se mostrará como trabajar de forma descriptiva una serie de datos desorde-
nados, con el fin de obtener parámetros que describan a estos datos y nos brinden mayor información sobre
ellos. Con tal propósito será utilizado el IDE RStudio que será de utilidad para trabajar de forma eficiente y
más cómoda.
1.1. Excel a R
El entorno de RStudio permite la importación de datos desde una hoja de cálculo de Microsoft Excel c© de
forma sencilla: tan solo hace falta ir a la pestaña File −> Import Dataset −> From Excel...
Figura 2: Herramienta de importación incluida
2
Facultad de Ingenierı́a Fundamentos de Estadı́stica
Es importante instalar previamente un paquete o package del repositorio de CRAN (la página web
principal de la comunidad del lenguaje R). En este caso, el paquete readxl es el indicado para leer e importar
archivos .xlsx provenientes de Excel.
1.2. Importación a R: El salario mı́nimo diario
A continuación se nos han brindado una serie de datos referentes al salario mı́nimo diario, en pesos, de 55
oficios distintos en México, como puede verse a continuación.
Figura 3: Datos referentes al salario mı́nimo capturados.
Estos datos serán importados a Excel por medio de las herramientas anteriormente mencionadas.
Ası́, una ventana nos indicará los datos que serán importados al entorno de R. Se tiene especial cuidado de
desmarcar la opción First Row as Names para evitar que R interprete los datos superiores como los tı́tulos
de las columnas de la hoja de cálculo, y en cambio, tome en cuenta todos los datos.
Figura 4: Datos importados a RStudio.
3
Facultad de Ingenierı́a Fundamentos de Estadı́stica
Una vez que los datos han sido importados, lo que prosigue es transformar estos datos en un arreglo
unidimensional de forma que pueda ser utilizado en las funciones de cálculo correspondientes. Esto se logra
usando la función unlist sobre los datos importados y asignando el arreglo de salida a una variable nueva.
Figura 5: Datos tranformados a un arreglo. No se incluyen nombre o referencias a las columnas.
Hecho lo anterior ya se tiene lo necesario para continuar con los cálculos solicitados.
2. Cálculo de medidas numéricas en R
2.1. Tendencia central: Media, Mediana y Moda
La Media se calcula con la función mean la cual ya viene incluida en la bibliotecas estándar de RStudio.
Caso similar ocurre con la Mediana y su función de cálculo median. El caso especial ocurre con la Moda,
debido a que R no cuenta con una función para su cálculo. En este caso, se optó por instalar el paquete
modeest y usar la implementación asselin la cual devuelve la moda de los datos presentes en el arreglo.
Figura 6: Resultados obtenidos para las medidas de tendencia central.
2.2. Primer cuartil y tercel decil
RStudio ya cuenta con una función definida para calcular cuartiles denominada quantile la cual solicita el
arreglo a trabajar y los cuantiles que se desean calcular.
Figura 7: Resultados obtenidos para los cuantiles solicitados.
2.3. Rango, Varianza y Desviación estándar
RStudio también cuenta con funciones definidas para el rango, la varianza insesgada y la desviación
estándar. Su declaración, sintaxis y resultado se muestra a continuación.
4
Facultad de Ingenierı́a Fundamentos de Estadı́stica
Figura 8: Resultados obtenidos para las medidas de dispersión.
2.4. Sesgo y Curtosis
Como sucede con otras medidas, para calcular los parámetros de forma se requiere instalar y declarar un
paquete especial denominado moments. Con esta biblioteca cargada, se procede a calcular el Sesgo y la
Curtosis (CA1) para los datos del arreglo.
Figura 9: Biblioteca moments y su contenido.
Figura 10: Cálculo de los parámetros de forma.
2.5. Histograma, Diagrama de caja y Diagrama de tallos y hojas
Al igual que en casos anteriores, RStudio posee las funciones adecuadas para representar gráficamente los
datos de acuerdo a un modelo predefindo.
Figura 11: Gráficas declaradas.
En la parte derecha del entorno de trabajo se encuentra una pestaña denominada plots. En esta parte
del IDE se mostrarán las gráficas solicitadas para el arreglo de datos.
5
Facultad de Ingenierı́a Fundamentos de Estadı́stica
Figura 12: Histograma de los datos.
Figura 13: Diagrama de caja de los datos.
Figura 14: Diagrama de tallos y hojas de los datos.
6
Facultad de Ingenierı́a Fundamentos de Estadı́stica
3. Resumen de resultados
El valor obtenido en los tres parámetros de tendencia fue muy similar (alrededor de 135), lo cual nos
puede indicar a primera vista que la distribución de los datos tiene una distribución muy similar a la
gaussiana, tal que se cumple de forma muy cercana que Xmo = Xmediana = Xmed .
De los cálculos de los cuartiles se puede inferir que el 25% de los oficios se asocian a un salario
mı́nimo de 129.465, mientras que el 30% tiene asociado un salario mı́nimo de 130.550.
De las medidas de dispersión es posible observar que la dispersión de los salarios mı́nimos no es tan
marcada (alrededor de 6.467735 unidades). Ası́ mismo, el rango indica que los salarios no presentan
diferencias tan significativas ası́ como datos atı́picos o aberrantes.
El sesgo obtenido (0.1137755) verifica la inferencia inicial sobre la distribución gaussiana que pre-
sentan los datos, es decir, los datos poseen una distribución muy simétrica o insesgada. Ası́ mismo,
el valor obtenido (1.99) para la curtosis indica que los datos posee un achatamiento platicúrtico con
respecto a la distribución gaussiana tı́pica.
Las gráficas indican los salarios que se encuentran de forma más frecuente en toda la muestra: los
cuales se ubican entre [125,130] y [135, 140]. Por otra parte, el diagrama de caja muestra gráficamente
la mediana obtenida (135.58) y el rango de los salarios representado por los bigotes del diagrama.
Finalmente, el diagrama de tallos y hojas muestra los valores que se repiten con mayor frecuencia
tomando como tallo los primeros tres dı́gitos y como hojas los decimales de cada salario. R muestra
los tallos de forma sistemática, es decir, siguiendo un patrón; que en este caso puede observarse de
dos en dos.
4. Conclusiones
El primer acercamiento al lenguaje R ha resultado un poco complicado en un inicio, debido a que el entorno
es muy diferente a otros lenguajes de programación. Sin embargo, debido a que posee una sintaxis relativa-
mente flexible y una gran facilidad ala hora de importar datos e incluir nuevas bibliotecas, pude realizar los
cálculos solicitados y verificar la potencia que R tiene en el análisis estadı́stico en comparación con otros
lenguajes de programación.
A partir de los datos obtenidos realicé inferencias relacionadas a la dispersión de los salarios y
su distribución. Ası́ mismo, pude observar las herramientas que R dispone con el fin de realizar gráficas
descriptivas que brindan información organizada y clara sobre los salarios, en un principio, sin un orden
claro.
Finalmente, considero que R será a partir de este punto en mi carrera un lenguaje obligado a com-
prender y manejar adecuadamente pues, como se comentó en un principio, R es un lenguaje altamente
utilizado junto con Python en áreas como los algoritmos de Aprendizaje automático o Machine Learning.
7
Facultad de Ingenierı́a Fundamentos de Estadı́stica
Referencias
[1] Convert list to vector with unlist function in R. Recuperado de: http://www.
datasciencemadesimple.com/convert-list-to-vector-with-unlist-function-in-r/.
Fecha de consulta: 12/02/2020.
[2] Importacion de datos de EXCEL con RStudio - Guia Rapida. Recuperado de: http:
//rstudio-pubs-static.s3.amazonaws.com/253338_f93c4322ee204a1e993a68553abf6d43.
html. Fecha de consulta: 12/02/2020.
[3] Quantile Calculations in R. Recuperado de: https://tolstoy.newcastle.edu.au/R/e17/help/
att-1067/Quartiles_in_R.pdf. Fecha de consulta: 12/02/2020.
[4] R (lenguaje de programación). Recuperado de: https://es.wikipedia.org/wiki/R_(lenguaje_
de_programaci%C3%B3n). Fecha de consulta: 12/02/2020.
[5] Resumen de los comandos básicos del programa. Recuperado de: https://webs.um.es/gustavo.
garrigos/quim2011/comandos_de_R.pdf. Fecha de consulta: 12/02/2020.
Los créditos de las fotografı́as pertenecen a sus respectivos autores. c©
LATEX
8
http://www.datasciencemadesimple.com/convert-list-to-vector-with-unlist-function-in-r/
http://www.datasciencemadesimple.com/convert-list-to-vector-with-unlist-function-in-r/
http://rstudio-pubs-static.s3.amazonaws.com/253338_f93c4322ee204a1e993a68553abf6d43.html
http://rstudio-pubs-static.s3.amazonaws.com/253338_f93c4322ee204a1e993a68553abf6d43.html
http://rstudio-pubs-static.s3.amazonaws.com/253338_f93c4322ee204a1e993a68553abf6d43.html
https://tolstoy.newcastle.edu.au/R/e17/help/att-1067/Quartiles_in_R.pdf
https://tolstoy.newcastle.edu.au/R/e17/help/att-1067/Quartiles_in_R.pdf
https://es.wikipedia.org/wiki/R_(lenguaje_de_programaci%C3%B3n)
https://es.wikipedia.org/wiki/R_(lenguaje_de_programaci%C3%B3n)
https://webs.um.es/gustavo.garrigos/quim2011/comandos_de_R.pdf
https://webs.um.es/gustavo.garrigos/quim2011/comandos_de_R.pdf

Continuar navegando

Materiales relacionados