Notas de programación de R para Certificado de analista de datos de IBM

Instalación de un paquete
instalar.paquetes(“tidyverse”)
Cargando un paquete
biblioteca (tidyverse)
La función install.packages() muestra una lista de los paquetes actualmente instalados en una sesión de RStudio. Luego puede ubicar los nombres de los paquetes y lo que se necesita para usar las funciones del paquete.
paquetes.instalados()
CRAN es un archivo en línea de uso común con paquetes R y otros recursos R. CRAN se asegura de que los recursos que comparte sigan los estándares de calidad requeridos y
son auténticos y válidos. El paquete dplyr es el paquete tidyverse que contiene un conjunto de funciones, como select(), que ayudan con la manipulación de datos. Por ejemplo, select() selecciona solo variables relevantes según sus nombres.

Compre el catálogo completo de notas de análisis de datos

Vectores

Un vector es un grupo de elementos de datos del mismo tipo, almacenados en una secuencia en R. No puede tener un vector que contenga tanto elementos lógicos como numéricos.

Hay dos tipos de vectores: vectores atómicos y listas. Hay seis tipos principales de vectores atómicos: lógico, entero, doble, de caracteres (que contiene cadenas), complejo,
y crudo.

Una forma de crear un vector es utilizando la función c() (llamada función "combinar"). La función c() en R combina múltiples valores en un vector. En R, esta función es solo la letra “c” seguida de los valores que desea en su vector dentro del paréntesis, separados por una coma: c(x, y, z,…)

Cada vector que cree tendrá dos propiedades clave: tipo y longitud.

Puede determinar con qué tipo de vector está trabajando utilizando la función typeof(). Coloque el código del vector dentro del paréntesis de la función. Cuando ejecute la función, R le dirá el tipo.

Puede determinar la longitud de un vector existente, es decir, el número de elementos que contiene, utilizando la función length().

También puede comprobar si un vector es de un tipo específico utilizando una función is: is.logic(), is.double(), is.integer(), is.character().

Se pueden nombrar todos los tipos de vectores. Los nombres son útiles para escribir código legible y describir objetos en R. Puede nombrar los elementos de un vector con la función nombres().

Resumen de código para vectores

x <-c(1, 3, 5) ### creando un vector y asignándolo a x
nombres(x) <- c(“a”,”b”,”c”) ### creando nombres para los elementos
es.carácter(x) ### comprobando si el vector es un carácter
vector
tipo de (x) ### comprobando el tipo de vector.

Liza

Las listas se diferencian de los vectores atómicos porque sus elementos pueden ser de cualquier tipo, como fechas, marcos de datos, vectores, matrices y más. Las listas pueden incluso contener otras listas.

Puede crear una lista con la función list(). Similar a la función c(), la función list() es simplemente una lista seguida de los valores que desea en su lista entre paréntesis.

Si desea saber qué tipos de elementos contiene una lista, puede utilizar la función str().

Código

lista(“a”, 1L, 1.5, VERDADERO)
str(lista(“a”, 1L, 1.5, VERDADERO))
z <- lista(lista(lista(1, 3, 5)))
cadena(z)
### Listas de nombres
lista(“Chicago” = 1, “Nueva York” = 2, “Los Ángeles” = 3)

Fecha y hora

En R, existen tres tipos de datos que hacen referencia a un instante en el tiempo:

Una cita (“2016-08-16″)
Una hora dentro de un día (“20-11-59 UTC”)
Y una cita-hora. Esta es una fecha más una hora (“2018-03-31
18-15-48 UTC”).

Convirtiendo de cadenas

Los datos de fecha/hora a menudo vienen como cadenas. Puede convertir cadenas en fechas y fechas y horas utilizando las herramientas proporcionadas por lubridate. Estas herramientas calculan automáticamente el formato de fecha/hora. Primero, identifique el orden en que aparecen el año, mes y día en sus fechas. Luego, ordena las letras y, m y d en el mismo orden. Eso le da el nombre de la función de lubricación que
analiza tu fecha. Por ejemplo, para la fecha 2021-01-20, utiliza el orden ymd:

Código

ymd(“2021-01-20”)
mdy ("20 de enero de 2021")
dmy(“20-enero-2021”)
ymd(20210120)

La salida ### para todos está a continuación
#> [1] “2021-01-20”

Crear componentes de fecha y hora

La función ymd() y sus variaciones crean fechas. Para crear una fecha y hora a partir de una fecha, agregue un guión bajo y una o más de las letras h, mys (horas, minutos, segundos) al nombre de la función.

Código

ymd_hms(“2021-01-20 20:11:59”)
### #> [1] “2021-01-20 20:11:59 UTC”
mdy_hm(“20/01/2021 08:01”)
### #> [1] “2021-01-20 08:01:00 UTC”

Cambiar entre objetos de fecha y hora existentes

Puede utilizar la función as_date() para convertir una fecha y hora en una fecha. Por ejemplo, coloque la fecha y hora actual (ahora()) entre paréntesis de la función.

Código

as_date(ahora())
#> [1] “2021-01-20”

marcos de datos

Un marco de datos es una colección de columnas, similar a una hoja de cálculo o una tabla SQL. Cada columna tiene un nombre en la parte superior que representa una variable e incluye una observación por fila. Los marcos de datos ayudan a resumir los datos y organizarlos en un formato que sea fácil de leer y usar.

Si necesita crear manualmente un marco de datos en R, puede usar la función data.frame(). La función data.frame() toma vectores como entrada. Entre paréntesis, ingrese el nombre de la columna, seguido de un signo igual y luego el vector que desea ingresar para esa columna.

La función mutate() se puede utilizar para realizar cambios en los datos.
marco

Código

### La columna _x_ es un vector con los elementos 1, 2, 3 y la columna _y_ es un vector con los elementos 1.5, 5.5, 7.5
marco.datos(x = c(1, 2, 3), y = c(1.5, 5.5, 7.5))

Archivos

Utilice la función dir.create para crear una nueva carpeta o directorio para guardar sus archivos. Coloque el nombre de la carpeta entre paréntesis de la función.

Utilice la función file.create() para crear un archivo en blanco. Coloque el nombre y el tipo de archivo entre paréntesis de la función. Los tipos de archivos normalmente serán algo así como .txt, .docx o .csv.

Se puede copiar un archivo usando la función file.copy(). Entre paréntesis, agregue el nombre del archivo a copiar. Luego, escriba una coma y agregue el nombre de la carpeta de destino a la que desea copiar el archivo.

Puede eliminar archivos R usando la función unlink(). Ingrese el nombre del archivo entre paréntesis de la función.

Código

dir.create (“carpeta_destino”)
archivo.create (“nuevo_archivo_texto.txt”)
archivo.create (“nueva_palabra_archivo.docx”)
archivo.create (“nuevo_csv_archivo.csv”)
archivo.copia (“nuevo_archivo_texto.txt”, “carpeta_destino”)
desvincular (“algún_.archivo.csv”)

matrices

Una matriz es una colección bidimensional de elementos de datos. Esto significa que tiene filas y columnas. Por el contrario, un vector es una secuencia unidimensional de elementos de datos. Pero al igual que los vectores, las matrices sólo pueden contener un único tipo de datos. Por ejemplo, no se pueden tener tanto lógicas como números en una matriz.

Para crear una matriz en R, puede utilizar la función Matrix(). La función Matrix() tiene dos argumentos principales que ingresa entre paréntesis. Primero, agrega un vector. El vector contiene los valores que desea colocar en la matriz. A continuación, agregue al menos una dimensión de matriz. Puede optar por especificar el número de filas o el número de columnas utilizando el código nrow = o ncol =.

Por ejemplo, imagine que desea crear una matriz 23 (dos filas por tres columnas) que contenga los valores 38. Primero, ingrese un vector que contenga esa serie de números: c(38. Luego, ingrese una coma. Finalmente, ingrese nrow = 2 para especificar el número de filas.

También puede optar por especificar el número de columnas (ncol =) en lugar del número de filas (nrow =).

Código

matriz(c(3:8), nrow = 2)
matriz(c(3:8), ncol = 2)

Operadores lógicos y declaraciones condicionales.

Los operadores lógicos devuelven un tipo de datos lógico como VERDADERO o FALSO.
Hay tres tipos principales de operadores lógicos:
● AND (a veces representado como & o && en R)
● O (a veces representado como | o || en R)
● NO (!)

Analicemos cómo crear declaraciones condicionales en R usando tres declaraciones relacionadas:
● si()
● más()
● si no ()
La declaración if establece una condición y, si la condición se evalúa como VERDADERA, se ejecuta el código R asociado con la declaración if.
si (x > 0) {
imprimir(“x es un número positivo”)
}
La declaración else se usa en combinación con una declaración if. Así se estructura el código en R:

Código
x<-7
si (x > 0) {
imprimir(“x es un número positivo”)
}
demás {
imprimir (“x es un número negativo o cero”)
}
En algunos casos, es posible que desee personalizar aún más su declaración condicional agregando la declaración else if. La declaración else if se sitúa entre la declaración if y la declaración else.

Código
x<--1
si (x < 0) {
imprimir(“x es un número negativo”)
}
de lo contrario si (x == 0) {
imprimir(“x es cero”)
}
demás {
imprimir(“x es un número positivo”)
}
La principal diferencia entre los operadores lógicos de elementos (&,|) y los operadores lógicos (&&, ||) es la forma en que se aplican a las operaciones con vectores. Las operaciones con doble signo, Y
(&&) y OR lógico (||), solo examinan el primer elemento de cada vector. Las operaciones con signo único, AND (&) y OR (|), examinan todos los elementos de cada vector.

Una tubería es una herramienta para expresar una secuencia de múltiples operaciones en R (en este caso filtrar y agrupar). El operador de una tubería es %>%.

Código

mtcars %>%
filtro(carburador > 1) %>%
grupo_por(cil) %>%

Tibbles

Los Tibbles son como marcos de datos simplificados que se configuran automáticamente para mostrar solo las primeras 10 filas de un conjunto de datos y solo tantas columnas como quepan en la pantalla. En general, puedes realizar más cambios en los marcos de datos, pero los tibbles son más fáciles de usar.

Código

### cargando tidyverse
biblioteca (tidyverse)
### cargando conjunto de datos de diamantes
datos (diamantes)
### ver el conjunto de datos
Ver (diamantes)
### crea el tibble a partir del conjunto de datos
as_tibble(diamantes)

Importación de datos

Puede utilizar la función data() para cargar estos conjuntos de datos en R. Si ejecuta la función de datos sin un argumento, R mostrará una lista de los conjuntos de datos disponibles.
Si desea cargar un conjunto de datos específico, simplemente ingrese su nombre entre paréntesis de la función data()

lector

El paquete readr es parte del núcleo tidyverse. Además de utilizar los conjuntos de datos integrados de R, también es útil importar datos de otras fuentes para utilizarlos en la práctica o el análisis. El paquete readr en R es una gran herramienta para leer datos rectangulares. Los datos rectangulares son datos que encajan bien dentro de un rectángulo de filas y columnas, donde cada columna hace referencia a una sola variable y cada fila hace referencia a una sola observación.

El objetivo de readr es proporcionar una forma rápida y sencilla de leer datos rectangulares. readr admite varias funciones read_. Cada función hace referencia a un formato de archivo específico.

read_csv(): archivos separados por comas (CSV)
read_tsv(): archivos separados por tabulaciones
read_delim(): archivos generales delimitados
read_fwf(): archivos de ancho fijo
read_table(): archivos tabulares donde las columnas están separadas por
espacio en blanco
read_log(): archivos de registro web

Código

### Para enumerar los archivos de muestra, puede ejecutar el
Función readr_example() sin argumentos
readr_ejemplo()
### Cuando ejecuta la función, R imprime una especificación de columna que proporciona el nombre y el tipo de cada columna.
read_csv(readr_example(“mtcars.csv”))
read_csv(“mtcars.csv”)

leerxl

Para importar datos de hojas de cálculo a R, puede utilizar el paquete readxl. El paquete readxl facilita la transferencia de datos de Excel a R. Readxl admite tanto el formato de archivo .xls heredado como el formato de archivo .xlsx moderno basado en xml.

Código

biblioteca (readxl)
leerxl_ejemplo()
read_excel(readxl_example(“escribeme.xlsx”))
### Puede utilizar la función excel_sheets() para enumerar los nombres de las hojas individuales.
excel_sheets(readxl_example(“escribirme.xlsx”))
### También puede especificar una hoja por nombre o número. Simplemente escriba “hoja =” seguido del nombre o número de la hoja. Por ejemplo, puede utilizar la hoja denominada "numeric_coercion" de la lista anterior.
read_excel(readxl_example(“type-me.xlsx”), hoja =“coerción_numérica”)
### Cuando ejecuta la función, R devuelve un tibble de la hoja

Operadores

En R, existen cuatro tipos principales de operadores:

Aritmética
Relacional
Lógico
Asignación

datos ordenados

Hay razones de peso para utilizar ambos formatos. Pero como analista, es importante saber cómo ordenar los datos cuando sea necesario. En R, es posible que tenga un marco de datos en un formato amplio que tenga varias variables y condiciones para cada variable. Puede que se sienta un poco desordenado.

Ahí es donde entra en juego pivot_longer(). Como parte del paquete tidyr, puede usar esta función de R para alargar los datos en un marco de datos aumentando el número de filas y disminuyendo el número de columnas. De manera similar, si desea convertir sus datos para que tengan más columnas y menos filas, debe usar la función pivot_wider().

Visualizando datos con ggplot2

El paquete ggplot2 le permite crear gráficos personalizables de alta calidad de sus datos. Como repaso, ggplot2 se basa en la gramática de gráficos, que es un sistema para describir y construir visualizaciones de datos. La idea esencial detrás de la gramática de los gráficos es que puedes construir cualquier trama a partir de los mismos componentes básicos, como bloques de construcción.

Estos bloques de construcción incluyen:

Un conjunto de datos
Un conjunto de geoms: un geom se refiere al objeto geométrico utilizado para representar sus datos. Por ejemplo, puede utilizar puntos para crear un diagrama de dispersión, barras para crear un gráfico de barras, líneas para crear un diagrama de líneas, etc.
Un conjunto de atributos estéticos: una estética es una propiedad visual de un objeto en su trama. Puedes pensar en una estética como una conexión o mapeo entre una característica visual de tu trama.
y una variable en sus datos. Por ejemplo, en un diagrama de dispersión, la estética incluye cosas como el tamaño, la forma, el color o la ubicación (eje x, eje y) de sus puntos de datos.

Para crear un gráfico con ggplot2, primero elige un conjunto de datos. Luego, determina cómo organizar visualmente sus datos en un sistema de coordenadas eligiendo una geom para representar sus puntos de datos y una estética para mapear sus variables.

Código

instalar.paquetes('ggplot2')
instalar.paquetes('dplyr')
### Instalar conjunto de datos
install.packages('pingüinos palmerianos')
biblioteca (ggplot2)
biblioteca (dplyr)
### cargar el conjunto de datos
biblioteca (pingüinos palmer)
datos (pingüinos)
### Ver el conjunto de datos
Ver (pingüinos)
### ggplot(data = penguins):** En ggplot2, comienzas un gráfico con la función ggplot(). La función ggplot() crea un sistema de coordenadas al que puedes agregar capas. El primer argumento de la función ggplot() es el conjunto de datos que se utilizará en el gráfico. En este caso, se trata de "pingüinos".
### Luego, agrega un símbolo “+” para agregar una nueva capa a su gráfico. Completa su trama agregando una o más capas a ggplot().
### geom_point()**: A continuación, elige una geom agregando una función geom. La función geom_point() usa puntos para crear diagramas de dispersión, la función geom_bar usa barras para crear gráficos de barras, etc. En este caso, elija la función geom_point para crear un diagrama de dispersión de puntos. El paquete ggplot2 viene con muchas funciones geom diferentes. Aprenderá más sobre las geoms más adelante en este curso.
### (mapping = aes(x = flipper_length_mm, y = body_mass_g))**: Cada función geom en ggplot2 toma un argumento de mapeo. Esto define cómo se asignan las variables de su conjunto de datos a las propiedades visuales. El argumento de mapeo siempre está emparejado con la función aes(). Los argumentos x e y de la función aes() especifican qué variables asignar al eje x y al eje y del sistema de coordenadas. En este caso, desea asignar la variable “flipper_length_mm” al eje x y la variable “body_mass_g” al eje y.
ggplot(datos = pingüinos) + geom_point(mapeo = aes(x = longitud_aleta_mm, y = masa_cuerpo_g))
### o especificar también atributos estéticos
ggplot(pingüinos, aes(x = longitud_aleta_mm, y = body_mass_g, color = transportista, tamaño = tiempo_aire, forma = transportista )) + geom_point()
### El suavizado** permite la detección de una tendencia de datos incluso cuando no se puede notar fácilmente una tendencia en los puntos de datos trazados. La funcionalidad de suavizado de Ggplot2 es útil porque agrega una **línea de suavizado** como otra capa a un gráfico; La línea de suavizado ayuda a que los datos tengan sentido para un observador casual.
### **Suavizado de juego** útil para suavizar gráficos con una gran cantidad de puntos.
ggplot(pingüinos, aes(x = longitud_aleta_mm, y = body_mass_g)) + geom_point() + geom_smooth(método=”gam” , fórmula = y ~s(x))
### **Suavizado con pérdida** El proceso de suavizado con pérdida es mejor para suavizar trazados con menos de 1000 puntos.
ggplot(pingüinos, aes(x = longitud_aleta_mm, y = body_mass_g)) + geom_point() + geom_smooth(método=”loess”)
### geom_jitter()
### El analista podría utilizar la función geom_jitter() para facilitar la búsqueda de los puntos. La función geom_jitter() agrega una pequeña cantidad de ruido aleatorio a cada punto del gráfico, lo que ayuda a lidiar con la superposición de puntos.
### La función facet_wrap(~ nombre_variable) le permite mostrar grupos o subconjuntos más pequeños de sus datos.
### labs () para crear un título para su visualización y anotar () para agregar notas a su trama.
### **ggsave('filename.jpg')** para guardar su trazado

Documentación e informes.

R Markdown es una herramienta útil que le permite guardar y ejecutar código, y generar informes que pueden compartir las partes interesadas.
R Markdown es un formato de archivo para crear documentos dinámicos con R. Estos documentos, también conocidos como cuadernos, son registros de análisis que le ayudan a usted, a los miembros de su equipo y a las partes interesadas a comprender lo que hizo en su análisis para llegar a sus conclusiones. Puede publicar un cuaderno como un archivo html, pdf o Word, o en otro formato como una presentación de diapositivas.

Funciones

- arreglar ()

La función dplyr organizar() se puede utilizar para reordenar (u ordenar) filas por una o más variables.

Reordenar las filas por Sépalo.Longitud en orden ascendente
Reordenar las filas por Sépalo.Longitud en orden descendente. Utilice la función desc():
Reordenar filas por múltiples variables: Sepal.Length y Sepal.width

Código

my_data %>% organizar(Sepal.Length)
my_data %>% organizar(desc(Sepal.Length))
organizar (mis_datos, -Sepal.Longitud)

– as_data_frame()

Convertir datos cargados en tibble

Código

# Crear mis_datos
mis_datos <- iris
# Convertir a una biblioteca tibble (“tibble”)
mis_datos <- as_data_frame(mis_datos)
# Imprimir
mis datos

- datos()

Para enumerar conjuntos de datos disponibles

– unir()
La función unir() se puede utilizar para combinar columnas.
– nombres_limpios()
La función clean_names() se asegurará automáticamente de que los nombres de las columnas sean únicos y consistentes
– colnames (conjunto de datos o marco de datos)

Obtener una lista de los nombres de las columnas

– skim_ without_charts (conjunto de datos) o vislumbre () o resumen ()

Obtenga una vista completa e información sobre el conjunto de datos.

– filtro ()
La función de filtro permite al analista de datos especificar qué parte de los datos desea ver

Código

Pregunta 5

Un analista de datos está trabajando con los datos de los pingüinos. Ellos
escribe el siguiente código:
pingüinos %>%
La variable _especie_ incluye tres especies de pingüinos: Adelia, Barbijo y Gentoo. ¿Qué fragmento de código agrega el analista para crear un marco de datos que solo incluye el
¿Especies papúa?
filtro(especie == “Gentoo”)

– mutar ()

Manipular marcos de datos y columnas.

Código

Pregunta 7
Un analista de datos está trabajando con un marco de datos llamado _salary_data_. Quieren crear una nueva columna llamada _total_wages_ que suma datos en las columnas _standard_wages_ y _overtime_wages_. ¿Qué fragmento de código permite al analista crear la columna _total_wages_?
mutar(datos_salario, salarios_total = salarios_estándar + horas extras_salarios)

- inclinación()

La función sesgo() se puede utilizar para calcular la cantidad promedio en la que el resultado previsto y el resultado real difieren para determinar si el modelo de datos está sesgado.

Caso de estudio

Como parte del equipo de ciencia de datos de Gourmet Analytics, utiliza el análisis de datos para asesorar a empresas de la industria alimentaria. Usted limpia, organiza y visualiza datos para llegar a información que beneficiará a sus clientes. Como miembro de un equipo colaborativo, compartir su análisis con otros es una parte importante de su trabajo.

Su cliente actual es Chocolate and Tea, una prometedora cadena de cafeterías.

El restaurante combina un extenso menú de finos tés con barras de chocolate de todo el mundo. Su diversa selección incluye de todo, desde chocolate con leche y plátano hasta chocolate blanco con mandarina y chocolate amargo con pistacho e higos. La lista enciclopédica de barras de chocolate es la base del atractivo de la marca Chocolate and Tea. Las ventas de barras de chocolate son el principal motor de ingresos.

Chocolate and Tea tiene como objetivo servir barras de chocolate altamente valoradas por la crítica profesional. También ajustan continuamente el menú para asegurarse de que refleje la diversidad global de la producción de chocolate. El equipo directivo actualiza periódicamente la lista de barras de chocolate para alinearse con las últimas calificaciones y garantizar que la lista contenga barras de una variedad de países.

Le han pedido que recopile y analice datos sobre las últimas calificaciones de chocolate. En particular, les gustaría saber qué países producen las barras de chocolate súper amargo (un alto porcentaje de cacao) mejor calificadas. Estos datos les ayudarán a crear su próximo menú de barras de chocolate.

Código

biblioteca (tidyverse)
### Antes de comenzar a trabajar con sus datos, debe importarlos y guardarlos como un marco de datos. Para comenzar, abre su espacio de trabajo de RStudio y carga la biblioteca tidyverse. Usted carga un archivo .csv que contiene los datos en RStudio y lo almacena en una carpeta de proyecto llamada flavours_of_cacao.csv.
### **Utiliza la función read_csv() para importar los datos del archivo .csv. Supongamos que el nombre del marco de datos es bars_df y que el archivo .csv está en el directorio de trabajo.** **¿Qué fragmento de código le permite crear el marco de datos?**
bars_df <- read_csv(“sabores_de_cacao.csv”)
### Ahora que ha creado un marco de datos, desea obtener más información sobre cómo se organizan los datos. El marco de datos tiene cientos de filas y muchas columnas.
### **Suponga que el nombre de su marco de datos es flavours_df.**
**¿Qué fragmento de código le permite revisar los nombres de las columnas en el marco de datos?**
nombres de columnas (sabores_df)
### A continuación, comienza a limpiar sus datos. Cuando revisa los encabezados de las columnas en su marco de datos, observa que la primera columna se llama _Company…Maker.if.known._ (Nota: el punto después de _known_ es parte del nombre de la variable). En aras de la claridad y la coherencia. , decide cambiar el nombre de esta columna a _Empresa_ (sin punto al final).
cambiar nombre(Empresa…Creador.si.conocido. <- Compañía)
### Después de obtener una vista previa y limpiar sus datos, usted determina qué variables son más relevantes para su análisis. Su enfoque principal está en _Rating_, _Cocoa.Percent_ y _Company_. Decide utilizar la función select() para crear un nuevo marco de datos con solo estas tres variables. **Agregue el fragmento de código que le permite seleccionar las tres variables.**
seleccione (Calificación, Cacao.Porcentaje, Empresa)
### A continuación, seleccione las estadísticas básicas que pueden ayudar a su equipo a comprender mejor el sistema de calificaciones en sus datos.
### **Suponga que la primera parte de su código es:**
### trimmed_flavors_df %>%
### **Desea utilizar las funciones resume() y max() para encontrar la calificación máxima para sus datos. Agregue el fragmento de código que le permite encontrar el valor máximo para la variable** **_Rating_**
###Después de completar su análisis del sistema de calificación, determina que cualquier calificación mayor o igual a 3,9 puntos puede considerarse una calificación alta. También sabes que Chocolate and Tea considera que una barra es chocolate súper amargo si el porcentaje de cacao de la barra es mayor o igual a 75%. Decide crear un nuevo marco de datos para descubrir qué barras de chocolate cumplen estas dos condiciones.
###**Supongamos que la primera parte de su código es:**
### mejores_flavors_trimmed_df <- trimmed_flavors_df %>%
###**Desea aplicar la función filter() a las variables** **_Cocoa.Percent_** **y** **_Rating_****. Agregue el fragmento de código que le permite filtrar el marco de datos para barras de chocolate que contengan al menos 75% de cacao y tengan una calificación de al menos 3,9 puntos.**
filtro (Porcentaje de cacao >= '75%' y calificación >= 3,9)
### Ahora que ha limpiado y organizado sus datos, está listo para crear algunas visualizaciones de datos útiles. Su equipo le asigna la tarea de crear una serie de visualizaciones basadas en las solicitudes del equipo de gestión de Chocolate y Té. Decide utilizar ggplot2 para crear sus imágenes.
### **Supongamos que su primera línea de código es:**
### ggplot(datos = best_trimmed_flavors_df) +
### **Desea utilizar la función geom_bar() para crear un gráfico de barras. Agregue el fragmento de código que le permite crear un gráfico de barras con la variable** **_Rating_** **en el eje x**
geom_bar(mapping = aes(x =Calificación))
### Su gráfico de barras revela las ubicaciones que producen las barras de chocolate mejor calificadas. Para tener una mejor idea de la calificación específica de cada ubicación, le gustaría resaltar cada barra.
### **Supongamos que está trabajando con lo siguiente código:**
### ggplot(datos = best_trimmed_flavors_df) +
### geom_bar(mapping = aes(x = Empresa.Ubicación))
### **Agregue un fragmento de código a la segunda línea de código para asignar la estética** **_fill_** **a la variable** **_Rating_****.**
### **NOTA: los tres puntos (…) indican dónde agregar el fragmento de código.**
geom_bar(mapping = aes(x = Empresa.Ubicación, fill=Calificación))
### Un compañero de equipo crea una nueva trama basada en los datos de la barra de chocolate. El compañero de equipo te pide que hagas algunas revisiones a su código.
### **Supongamos que su compañero de equipo comparte el siguiente código
pedazo:**
### ggplot(datos = best_trimmed_flavors_df) +
geom_bar(mapping = aes(x = Empresa)) +
### **¿Qué fragmento de código agrega a la tercera línea para crear facetas envolventes de la variable** **_Company_**
facet_wrap(~Empresa)
### Su equipo ha creado algunas visualizaciones básicas para explorar diferentes aspectos de los datos de la barra de chocolate. Te has ofrecido como voluntario para agregar títulos a las tramas. Comienzas con un diagrama de dispersión.
### **Supongamos que la primera parte de su fragmento de código es:**
### ggplot(data = trimmed_flavors_df) + geom_point(mapping = aes(x = Cocoa.Percent, y = Rating)) +
### **¿Qué fragmento de código agregas a la tercera línea para agregar el título** **_Chocolate sugerido_** **a tu trama**
labs(título = “Chocolate sugerido”)
### A continuación, crea un nuevo diagrama de dispersión para explorar la relación entre diferentes variables. Desea guardar su gráfico para poder acceder a él más adelante. Usted sabe que la función ggsave() guarda de forma predeterminada el último gráfico que mostró en RStudio, por lo que está listo para escribir el código para guardar su diagrama de dispersión.
### **Suponga que sus dos primeras líneas de código son:**
### ggplot(data = trimmed_flavors_df) + geom_point(mapping = aes(x = Cocoa.Percent, y = Rating))
### **¿Qué fragmento de código agrega a la tercera línea para guardar su trazado como un archivo jpeg con** **_chocolate_** **como nombre de archivo**
ggsave(“chocolate.jpeg”)

Acerca del Autor

Instructor de Ciberseguridad y Nadador

Ver Artículos