El objetivo de esta "Introducción a R para arqueólogos y otros investigadores de ciencias sociales", es el explorar, de manera introductoria, la aplicación de R y especialmente de sus herramientas de análisis estadístico, al trabajo de investigación arqueológica, que guarda similitudes con otras disciplinas. Se incluye acá una introducción básica al software R como lenguaje de programación y como entorno para análisis estadísticos, y ejemplos de análisis de datos y otros usos específicos de R.
¿Qué es R?
R es un software estadístico y en ese sentido se puede comparar con los paquetes estadísticos Systat, SPSS, Knime, Stata, Statistica, y SAS. Aunque SPSS fue hasta hace poco el paquete estadístico de mayor expansión, R ya aparece desde el año 2015 liderando en varios de los sondeos (Rexer Analytics, KDnuggets, LinkedIn, Quora) como el paquete estadístico más popular en la investigación científica, superando a SPSS por más del doble.
R también es un lenguaje de programación, comparable a C, Java, Python, ó S. En el ranking de popularidad de lenguajes de programación (publicado por la IEEE), R ocupabaen 2017 el No 6, superando a lenguajes como Perl, VBA, o JavaScript.
Como lenguaje, R es un dialecto de S, un lenguaje que fuera creado por John Chambers, en los laboratorios de la compañía Bell en los años 70 del siglo XX.
R fue creado entre 1992 y 1995 por Ross Ihaka y Robert Gentleman en la Universidad de Auckland, Nueva Zelanda, y es mantenido por el equipo núcleo “R core Team” que incluye a Chambers como miembro.
R es Software Libre (GNU-GPL) , desde 2000 y es un software de Código Abierto multiplataforma. Se obtiene de forma gratuita, se puede modificar por el usuario y funciona en plataformas como Unix, Mac, y Win.
El proyecto R es apoyado por la “R Foundation for Statistical Computing”, pero R también es una comunidad formada por todos los usuarios (más de 2 millones), algunos de los cuales desarrollan muchos de los paquetes diferentes de R, que suman ya más de 12,000.
Cómo se obtiene R
R se obtiene del sitio http://www.r-project.org/, en el cual se selecciona un servidor “CRAN” (Comprehensive R Archive Network) y se baja el instalador para cada plataforma. Por ejemplo, desde Colombia, se puede seleccionar un servidor de la Universidad ICESI en Cali: http://www.icesi.edu.co/CRAN/ y bajar el instalador para Windows, Mac ó Unix.
Cómo se instala R
Una vez descargado el instalador, y activado, se selecciona el idioma de instalación (por ejemplo, Español). Se deberá cerrar otras aplicaciones y leer la información legal.
Seleccione el lugar de instalación (p.ej. “C:\Program Files”) y seleccione "componentes" (se recomienda escoger "todos").
Las opciones de instalación incluyen el tipo de manejo de interfaz, que puede ser SDI (Interfaz de un único documento) o MDI (Interfaz de múltiples documentos). El modo SDI sólo permite una ventana de documento abierta en cada momento. El modo MDI permite múltiples ventanas de documento abiertas en la misma instancia, de manera que en MDI hay una ventana dentro de la cual se pueden abrir múltiples ventanas secundarias, cada una con un documento independiente, lo que puede congestionar las páginas. Se recomienda el modo SDI.
La ayuda de R se puede mostrar en formato de html, o txt, y este último es más sencillo.
R se puede conectar a la red mediante Internet, o también mediante Internet2 (que es una red de colaboración entre universidades y centros de investigación). Se recomienda escoger Internet2, ya que Internet es ahora usada más que todo por corporaciones que tienden a bloquean varios de los recursos útiles para obtener y transmitir información.
Se recomienda entonces responda “Sí” a las opciones: “SDI”, “txt”, “Internet2” (Si ellas aparecen como opciones).
Seleccione luego la carpeta de inicio (por ejemplo, R). Seleccione luego tareas adicionales y "aceptar".
R se instalará (cierre luego el instalador).
Ubique el ícono “R” en el Escritorio, o busque “R” en Programas. El icono de la forma “R i386 3.5.2” activa “R GUI” (la interfaz gráfica de usuario) en modo de 32 bits, que es el más recomendable. El icono de la forma "R x64 3.5.1" activa "RGUI" en modo de 64 bits. Este modo puede ser más veloz en ejecutar los cálculos, pero no es compatible con muchos paquetes útiles escritos para 32 bits. Se recomienda tener ambas versiones instaladas ya que el uso de algunos paquetes de R (por ejemplo RODBC) depende de su compatibilidad con el sistema operativo, y con otros programas (como Office) que están limitados a escoger solo una de estas dos opciones.
Cómo se interactúa con R
R cuenta con varias diferentes formas en que el usuario puede interactuar con el interpretador del lenguaje R para que este ejecute las operaciones pertinentes. La principal forma es directamente en la línea de comandos de la consola. La consola es la ventana principal de la interfaz gráfica de usuario. La consola recibe en su línea de comandos un texto que debe contener código escrito correctamente en lenguaje R. La línea de comandos se reconoce por el cursor intermitente a la derecha del símbolo ">", usualmente de color rojo.
Una vez escrito o pegado el texto en esta línea, se envía al interpretador oprimiendo la tecla INTRO (cambio de línea).
Por ejemplo:
> 2+2
[1] 4
Las líneas ejecutadas, y los resultados se acumulan, en el orden de ejecución, sobre la línea de comandos, de manera que va quedando guardado el historial de los comandos ejecutados y de las respuestas de R para toda la sesión de trabajo. Por lo general, los resultados aparecerán en pantalla en color azul, para distinguirlos de los comandos en rojo. Al inicio de una línea de resultados, aparecerá un par de corchetes con un número, por ejemplo [1]. Este número indica el elemento con que inicia la línea de los resultados, y depende del tamaño de la ventana y de la cantidad de partes que contengan los resultados.
Así mismo, una línea de comandos puede ser más larga que la ventana, entonces, R puede "leer" una parte incompleta del comando que se separe al oprimir INTRO y espera que en la próxima línea se complete la sintaxis válida de la línea para poder así ejecutarla. Al ingresar una parte de un comando muy largo, hay que separar entonces la línea de manera que el interpretador entienda que no se han completado las instrucciones. Por ejemplo:
> 1+1+1+1+1+1+1+1+1+1+1+1+1+
1+1+1
[1] 16
En este ejemplo, dado que la primera línea termina en el operador de suma, R espera un número, con lo que entiende que viene otra línea de comando con más información. La segunda línea sí completa correctamente la suma, con lo que R entiende que ya se debe realizar la suma y reporta el resultado.
Ejecución desde el editor de código
Aunque se puede trabajar desde la consola, el código R generalmente se remite directamente desde el editor de código. R cuenta con su propio editor de código, que se activa seleccionando Archivo|Nuevo script. Un script es un archivo de texto (editable en Bloc de notas o cualquier otro editor de texto) que contiene múltiples líneas de código, que se archivan para su uso posterior.
Para enviar al interpretador una o más líneas seleccionadas de código R, desde el editor, se usa normalmente la combinación de teclas CTR-R. Para poder incluir comentarios en un script, se usa # para indicar partes del código que no se ejecutan. Este es un ejemplo de script:
###
# Ejemplo de script
# El texto a la derecha de "#" no se ejecuta.
1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1 # Esta línea suma 16
sum(rep(1, 16)) # Esta línea también suma 16
#
Ventanas
Además de la ventana de la consola y de la ventana del editor de código, R también usa ventanas de resultados gráficos. Es entonces muy común al trabajar en R tener al menos tres ventanas abiertas, como se muestra en el gráfico: