R Note di programmazione per Certificato di analista dati IBM

Installazione di un pacchetto
install.packages("tidyverse")
Caricamento di un pacco
libreria(tidyverse)
La funzione installato.packages() mostra un elenco di pacchetti attualmente installati in una sessione RStudio. È quindi possibile individuare i nomi dei pacchetti e ciò che è necessario per utilizzare le funzioni del pacchetto.
pacchetti.installati()
CRAN è un archivio online comunemente utilizzato con pacchetti R e altre risorse R. CRAN si assicura che le risorse che condivide seguano gli standard di qualità richiesti e
sono autentici e validi Il pacchetto dplyr è il pacchetto tidyverse che contiene un insieme di funzioni, come select(), che aiutano con la manipolazione dei dati. Ad esempio, select() seleziona solo le variabili rilevanti in base ai loro nomi.

Acquista il catalogo completo delle note sull'analisi dei dati

Vettori

Un vettore è un gruppo di elementi di dati dello stesso tipo, memorizzati in una sequenza in R. Non è possibile avere un vettore che contenga sia elementi logici che numerici.

Esistono due tipi di vettori: vettori atomici e liste Esistono sei tipi principali di vettori atomici: logico, intero, doppio, carattere (che contiene stringhe), complesso,
e crudo.

Un modo per creare un vettore è utilizzare la funzione c() (chiamata funzione "combina"). La funzione c() in R combina più valori in un vettore. In R, questa funzione è semplicemente la lettera "c" seguita dai valori che desideri nel tuo vettore tra parentesi, separati da una virgola: c(x, y, z, ...)

Ogni vettore che creerai avrà due proprietà chiave: tipo e lunghezza.

Puoi determinare con quale tipo di vettore stai lavorando utilizzando la funzione typeof(). Inserisci il codice per il vettore tra parentesi della funzione. Quando esegui la funzione, R ti dirà il tipo.

Puoi determinare la lunghezza di un vettore esistente, ovvero il numero di elementi che contiene, utilizzando la funzione length().

Puoi anche verificare se un vettore è di un tipo specifico utilizzando una funzione is: is.logical(), is.double(), is.integer(), is.character().

È possibile nominare tutti i tipi di vettori. I nomi sono utili per scrivere codice leggibile e descrivere oggetti in R. Puoi nominare gli elementi di un vettore con la funzionenames().

Riepilogo del codice per i vettori

x <- c(1, 3, 5) ### crea il vettore e lo assegna a x
nomi(x) <- c(“a”,”b”,”c”) ### creando nomi per gli elementi
è.carattere(x) ### controlla se il vettore è un carattere
vettore
tipodi(x) ### verifica del tipo di vettore.

Elenchi

Le liste sono diverse dai vettori atomici perché i loro elementi possono essere di qualsiasi tipo, come date, frame di dati, vettori, matrici e altro. Gli elenchi possono contenere anche altri elenchi.

Puoi creare una lista con la funzione list(). Simile alla funzione c(), la funzione list() è semplicemente una lista seguita dai valori che desideri inserire nella tua lista tra parentesi.

Se vuoi scoprire quali tipi di elementi contiene una lista, puoi usare la funzione str().

Codice

lista("a", 1L, 1.5, VERO)
str(lista("a", 1L, 1.5, TRUE))
z <- lista(lista(lista(1 , 3, 5)))
str(z)
Elenchi di nomi ###
list(“Chicago” = 1,“New York” = 2,“Los Angeles” = 3)

Data e ora

In R ci sono tre tipi di dati che si riferiscono ad un istante nel tempo:

Una data (“2016-08-16″)
Un'ora all'interno di un giorno (“20-11-59 UTC”)
E una data-ora. Questa è una data più un'ora (“2018-03-31
18-15-48 UTC”).

Conversione da stringhe

I dati di data/ora spesso vengono forniti sotto forma di stringhe. Puoi convertire le stringhe in date e date-ora utilizzando gli strumenti forniti da lubridate. Questi strumenti elaborano automaticamente il formato data/ora. Innanzitutto, identifica l'ordine in cui l'anno, il mese e il giorno compaiono nelle date. Quindi, disponi le lettere y, m e d nello stesso ordine. Questo ti dà il nome della funzione di lubrificazione che lo farà
analizza la tua data. Ad esempio, per la data 2021-01-20, utilizzi l'ordine ymd:

Codice

aa("20-01-2021")
mdy(“20 gennaio 2021”)
dmy("20-gen-2021")
aa(20210120)

L'output ### per tutti è riportato di seguito
#> [1] “2021-01-20”

Creazione di componenti data-ora

La funzione ymd() e le sue varianti creano date. Per creare una data-ora da una data, aggiungi un carattere di sottolineatura e una o più lettere h, m e s (ore, minuti, secondi) al nome della funzione

Codice

ymd_hms("2021-01-20 20:11:59")
### #> [1] “2021-01-20 20:11:59 UTC”
mdy_hm("20/01/2021 08:01")
### #> [1] “2021-01-20 08:01:00 UTC”

Passaggio tra oggetti data-ora esistenti

È possibile utilizzare la funzione as_date() per convertire una data-ora in una data. Ad esempio, inserisci la data e l'ora correnti, now(), tra parentesi della funzione

Codice

come_data(ora())
#> [1] “2021-01-20”

Frame di dati

Un frame di dati è una raccolta di colonne, simile a un foglio di calcolo o a una tabella SQL. Ogni colonna ha un nome in alto che rappresenta una variabile e include un'osservazione per riga. I frame di dati aiutano a riepilogare i dati e a organizzarli in un formato facile da leggere e utilizzare.

Se è necessario creare manualmente un frame di dati in R, è possibile utilizzare la funzione data.frame(). La funzione data.frame() accetta i vettori come input. Tra parentesi, inserisci il nome della colonna, seguito da un segno di uguale, quindi il vettore che desideri inserire per quella colonna.

La funzione mutate() può essere utilizzata per apportare modifiche ai dati
telaio

Codice

### La colonna _x_ è un vettore con gli elementi 1, 2, 3 e la colonna _y_ è un vettore con elementi 1.5, 5.5, 7.5
data.frame(x = c(1, 2, 3) , y = c(1.5, 5.5, 7.5))

File

Utilizza la funzione dir.create per creare una nuova cartella, o directory, in cui conservare i tuoi file. Inserisci il nome della cartella tra parentesi della funzione.

Utilizza la funzione file.create() per creare un file vuoto. Inserisci il nome e il tipo del file tra parentesi della funzione. I tipi di file saranno solitamente qualcosa come .txt, .docx o .csv.

La copia di un file può essere eseguita utilizzando la funzione file.copy(). Tra parentesi aggiungi il nome del file da copiare. Quindi, digita una virgola e aggiungi il nome della cartella di destinazione in cui desideri copiare il file.

È possibile eliminare i file R utilizzando la funzione unlink(). Immettere il nome del file tra parentesi della funzione.

Codice

dir.create (“cartella_destinazione”)
file.create (“nuovo_file_testo.txt”)
file.create (“nuova_parola_file.docx”)
file.create (“nuovo_csv_file.csv”)
file.copy (“nuovo_file_testo.txt”, “cartella_destinazione”)
scollega ("qualche_.file.csv")

Matrici

Una matrice è una raccolta bidimensionale di elementi di dati. Ciò significa che ha sia righe che colonne. Al contrario, un vettore è una sequenza unidimensionale di elementi di dati. Ma come i vettori, le matrici possono contenere solo un singolo tipo di dati. Ad esempio, non è possibile avere sia elementi logici che numerici in una matrice.

Per creare una matrice in R, puoi utilizzare la funzione matrice(). La funzione matrice() ha due argomenti principali da inserire tra parentesi. Innanzitutto, aggiungi un vettore. Il vettore contiene i valori che vuoi inserire nella matrice. Successivamente, aggiungi almeno una dimensione della matrice. Puoi scegliere di specificare il numero di righe o il numero di colonne utilizzando il codice nrow = o ncol =.

Ad esempio, immagina di voler creare una matrice 23 (due righe per tre colonne) contenente i valori 38. Innanzitutto, inserisci un vettore contenente quella serie di numeri: c(38. Quindi, inserisci una virgola. Infine, inserisci nrow = 2 per specificare il numero di righe.

Puoi anche scegliere di specificare il numero di colonne (ncol = ) invece del numero di righe (nrow = ).

Codice

matrice(c(3:8), nriga = 2)
matrice(c(3:8), ncol = 2)

Operatori logici e istruzioni condizionali

Gli operatori logici restituiscono un tipo di dati logico come TRUE o FALSE.
Esistono tre tipi principali di operatori logici:
● AND (a volte rappresentato come & o && in R)
● OR (a volte rappresentato come | o || in R)
● NON (!)

Parliamo di come creare istruzioni condizionali in R utilizzando tre istruzioni correlate:
● se()
● altro()
● altrimenti se()
L'istruzione if imposta una condizione e, se la condizione restituisce TRUE, viene eseguito il codice R associato all'istruzione if.
se (x > 0) {
print("x è un numero positivo")
}
L'istruzione else viene utilizzata in combinazione con un'istruzione if. Ecco come è strutturato il codice in R:

Codice
x<-7
se (x > 0) {
print("x è un numero positivo")
}
altro {
print ("x è un numero negativo o zero")
}
In alcuni casi, potresti voler personalizzare ulteriormente la tua istruzione condizionale aggiungendo l'istruzione else if. L'istruzione else if si trova tra l'istruzione if e l'istruzione else.

Codice
x <- -1
se (x < 0) {
print("x è un numero negativo")
}
altrimenti se (x == 0) {
print("x è zero")
}
altro {
print("x è un numero positivo")
}
La differenza principale tra gli operatori logici per elemento (&,|) e gli operatori logici (&&, ||) è il modo in cui si applicano alle operazioni con i vettori. Le operazioni con doppi segni, AND
(&&) e OR logico (||), esaminano solo il primo elemento di ciascun vettore. Le operazioni con segni singoli, AND (&) e OR (|), esaminano tutti gli elementi di ciascun vettore.

Una pipe è uno strumento per esprimere una sequenza di più operazioni in R (in questo caso filtraggio e raggruppamento). L'operatore per una pipe è %>%.

Codice

mtauto %>%
filtro(carboidrati > 1) %>%
gruppo_per(cil) %>%

Tibbles

I tibble sono come frame di dati semplificati che vengono impostati automaticamente per visualizzare solo le prime 10 righe di un set di dati e solo il numero di colonne che possono essere visualizzate sullo schermo. Nel complesso, puoi apportare più modifiche ai frame di dati, ma i tibble sono più facili da usare.

Codice

### caricamento tidyverse
libreria(tidyverse)
### caricamento del set di dati dei diamanti
dati (diamanti)
### visualizza il set di dati
Visualizza (diamanti)
### crea il tibble dal set di dati
as_tibble(diamanti)

Importazione dati

È possibile utilizzare la funzione data() per caricare questi set di dati in R. Se si esegue la funzione data senza argomento, R visualizzerà un elenco dei set di dati disponibili.
Se vuoi caricare un set di dati specifico, inserisci semplicemente il suo nome tra parentesi della funzione data()

lettore

Il pacchetto readr fa parte del nucleo di tidyverse. Oltre a utilizzare i set di dati integrati di R, è anche utile importare dati da altre fonti da utilizzare per esercitazioni o analisi. Il pacchetto readr in R è un ottimo strumento per leggere dati rettangolari. I dati rettangolari sono dati che si adattano bene all'interno di un rettangolo di righe e colonne, in cui ciascuna colonna si riferisce a una singola variabile e ciascuna riga si riferisce a una singola osservazione.

L'obiettivo di readr è fornire un modo veloce e intuitivo per leggere dati rettangolari. readr supporta diverse funzioni read_. Ciascuna funzione si riferisce a un formato file specifico.

read_csv(): file separati da virgole (CSV).
read_tsv(): file separati da tabulazioni
read_delim(): file delimitati generali
read_fwf(): file a larghezza fissa
read_table(): file tabulari in cui le colonne sono separate da
spazio bianco
read_log(): file di registro web

Codice

### Per elencare i file di esempio, è possibile eseguire il file
funzione readr_example() senza argomenti
readr_esempio()
### Quando si esegue la funzione, R stampa una specifica di colonna che fornisce il nome e il tipo di ciascuna colonna
read_csv(readr_example(“mtcars.csv”))
read_csv("mtcars.csv")

readxl

Per importare i dati del foglio di calcolo in R, è possibile utilizzare il pacchetto readxl. Il pacchetto readxl semplifica il trasferimento dei dati da Excel a R. Readxl supporta sia il formato di file legacy .xls che il moderno formato di file .xlsx basato su xml.

Codice

libreria(readxl)
readxl_esempio()
read_excel(readxl_example("tipo-me.xlsx"))
### È possibile utilizzare la funzione excel_sheets() per elencare i nomi dei singoli fogli
fogli_excel(readxl_example("tipo-me.xlsx"))
### È inoltre possibile specificare un foglio per nome o numero. Basta digitare "foglio =" seguito dal nome o dal numero del foglio. Ad esempio, puoi utilizzare il foglio denominato "coercizione_numerica" dall'elenco sopra.
read_excel(readxl_example(“type-me.xlsx”), foglio =“coercizione_numerica”)
### Quando si esegue la funzione, R restituisce un tibble del foglio

Operatori

In R esistono quattro tipi principali di operatori:

Aritmetica
Relazionale
Logico
Incarico

Dati ordinati

Ci sono ragioni convincenti per utilizzare entrambi i formati. Ma come analista, è importante sapere come riordinare i dati quando necessario. In R, potresti avere un frame di dati in un formato ampio che ha diverse variabili e condizioni per ciascuna variabile. Potrebbe sembrare un po' disordinato.

È qui che entra in gioco pivot_longer(). Come parte del pacchetto tidyr, puoi utilizzare questa funzione R per allungare i dati in un frame di dati aumentando il numero di righe e diminuendo il numero di colonne. Allo stesso modo, se desideri convertire i tuoi dati per avere più colonne e meno righe, utilizzeresti la funzione pivot_wider().

Visualizzazione dei dati con ggplot2

Il pacchetto ggplot2 ti consente di creare grafici personalizzabili e di alta qualità dei tuoi dati. Come ripasso, ggplot2 si basa sulla grammatica della grafica, che è un sistema per descrivere e costruire visualizzazioni di dati. L'idea essenziale dietro la grammatica della grafica è che puoi costruire qualsiasi trama partendo dagli stessi componenti di base, come i mattoni da costruzione.

Questi elementi costitutivi includono:

Un set di dati
Un insieme di geometrie: una geometria si riferisce all'oggetto geometrico utilizzato per rappresentare i tuoi dati. Ad esempio, puoi utilizzare i punti per creare un grafico a dispersione, le barre per creare un grafico a barre, le linee per creare un diagramma a linee, ecc.
Un insieme di attributi estetici: un'estetica è una proprietà visiva di un oggetto nella tua trama. Puoi pensare a un'estetica come a una connessione, o mappatura, tra una caratteristica visiva della tua trama
e una variabile nei tuoi dati. Ad esempio, in un grafico a dispersione, l'estetica include elementi come la dimensione, la forma, il colore o la posizione (asse x, asse y) dei punti dati.

Per creare un grafico con ggplot2, scegli prima un set di dati. Quindi, determini come organizzare visivamente i tuoi dati su un sistema di coordinate scegliendo una geometria per rappresentare i tuoi punti dati e l'estetica per mappare le tue variabili.

Codice

install.packages('ggplot2')
install.packages('dplyr')
### Installa set di dati
install.packages('palmerpenguins')
libreria(ggplot2)
libreria(dplir)
### carica il set di dati
biblioteca(pinguini palma)
dati(pinguini)
### Visualizza il set di dati
Visualizza(pinguini)
### ggplot(data = penguins):** In ggplot2, inizi una trama con la funzione ggplot(). La funzione ggplot() crea un sistema di coordinate a cui puoi aggiungere livelli. Il primo argomento della funzione ggplot() è il set di dati da utilizzare nel grafico. In questo caso si tratta di “pinguini”.
### Quindi, aggiungi un simbolo "+" per aggiungere un nuovo livello alla trama. Completa la trama aggiungendo uno o più livelli a ggplot().
### geom_point()**: Successivamente, scegli un geom aggiungendo una funzione geom. La funzione geom_point() utilizza i punti per creare grafici a dispersione, la funzione geom_bar utilizza le barre per creare grafici a barre e così via. In questo caso, scegli la funzione geom_point per creare un grafico a dispersione di punti. Il pacchetto ggplot2 viene fornito con molte funzioni geom diverse. Imparerai di più sulle geometrie più avanti in questo corso.
### (mapping = aes(x = flipper_length_mm, y = body_mass_g))**: ogni funzione geom in ggplot2 accetta un argomento di mappatura. Ciò definisce il modo in cui le variabili nel set di dati vengono mappate alle proprietà visive. L'argomento mapping è sempre abbinato alla funzione aes(). Gli argomenti xey della funzione aes() specificano quali variabili mappare sull'asse x e sull'asse y del sistema di coordinate. In questo caso, vuoi mappare la variabile "flipper_length_mm" sull'asse x e la variabile "body_mass_g" sull'asse y.
ggplot(data = penguins) + geom_point(mapping = aes(x = flipper_length_mm, y = massa_corporea_g))
### oppure specificare anche gli attributi estetici
ggplot(pinguini, aes(x = flipper_length_mm, y = body_mass_g, colore=portante, dimensione=air_time, forma = portante )) + punto_geografico()
### Smoothing** consente il rilevamento di un trend dei dati anche quando non è possibile notare facilmente un trend dai punti dati tracciati. La funzionalità di smussamento di Ggplot2 è utile perché aggiunge una **linea di smussamento** come un altro livello a una trama; la linea di livellamento aiuta i dati ad avere senso per un osservatore casuale
### **Smussamento gam** utile per livellare grafici con un numero elevato di punti.
ggplot(pinguini, aes(x = flipper_length_mm, y = body_mass_g)) + geom_point() + geom_smooth(metodo=”gam” , formula = y ~s(x))
### **Smussatura con loess** Il processo di livellamento con loess è ideale per livellare i grafici con meno di 1000 punti.
ggplot(pinguini, aes(x = flipper_length_mm, y = body_mass_g)) + geom_point() + geom_smooth(metodo=”loess”)
### jitter_geometrico()
### L'analista potrebbe utilizzare la funzione geom_jitter() per facilitare la ricerca dei punti. La funzione geom_jitter() aggiunge una piccola quantità di rumore casuale a ciascun punto del grafico, il che aiuta a gestire la sovrapposizione dei punti.
### La funzione facet_wrap(~ variable_name) consente di visualizzare gruppi più piccoli, o sottoinsiemi, di dati.
### labs () per creare un titolo per la visualizzazione e annotare () per aggiungere note alla trama.
### **ggsave('filename.jpg')** per salvare la trama

Documentazione e relazioni

R Markdown è uno strumento utile che consente di salvare ed eseguire codice e generare report condivisibili per le parti interessate.
R Markdown è un formato di file per creare documenti dinamici con R. Questi documenti, noti anche come notebook, sono record di analisi che aiutano te, i membri del tuo team e le parti interessate a comprendere ciò che hai fatto nell'analisi per raggiungere le conclusioni. Puoi pubblicare un taccuino come file html, pdf o Word oppure in un altro formato come una presentazione.

Funzioni

- organizzare ()

La funzione dplyr organizzare() può essere utilizzata per riordinare (o ordinare) le righe in base a una o più variabili.

Riordina le righe in base a Sepal.Length in ordine crescente
Riordina le righe in base a Sepal.Length in ordine decrescente. Utilizza la funzione desc():
Riordina le righe in base a più variabili: Sepal.Length e Sepal.width

Codice

miei_dati %>% organizzare(Lunghezza.Sepal)
miei_dati %>% organizzare(desc(Sepal.Length))
organizzare(miei_dati, -Sepal.Lunghezza)

– as_data_frame()

Converti i dati caricati in tibble

Codice

# Crea i miei_dati
miei_dati <- iride
# Converti in una libreria tibble (“tibble”)
i miei_dati <- as_data_frame(i miei_dati)
Stampa #
i miei dati

- dati()

Per elencare i set di dati disponibili

- unire()
La funzione unite() può essere utilizzata per combinare colonne
– nomi_puliti()
La funzione clean_names() assicurerà automaticamente che i nomi delle colonne siano univoci e coerenti
– colnames(dataset o dataframe)

Ottieni un elenco dei nomi delle colonne

– skim_without_charts(dataset) o scorcio () o riepilogo ()

Ottieni una visualizzazione completa e informazioni sul set di dati.

– filtro ()
La funzione di filtro consente all'analista di dati di specificare quale parte dei dati desidera visualizzare

Codice

Domanda 5

Un analista di dati sta lavorando con i dati dei pinguini. Essi
scrivere il seguente codice:
pinguini %>%
La variabile _specie_ comprende tre specie di pinguini: Adelie, Chinstrap e Gentoo. Quale porzione di codice aggiunge l'analista per creare un frame di dati che includa solo il file
Specie Gentoo?
filtro(specie == “Gentoo”)

– mutare ()

Manipolare dataframe e colonne

Codice

Domanda 7
Un analista di dati sta lavorando con un frame di dati chiamato _salary_data_. Vogliono creare una nuova colonna denominata _total_wages_ che somma i dati nelle colonne _standard_wages_ e _overtime_wages_. Quale porzione di codice consente all'analista di creare la colonna _total_wages_?
mutate(dati_stipendio, salario_totale = salario_standard + straordinari_salari)

- pregiudizio()

La funzione bias() può essere utilizzata per calcolare la quantità media di differenza tra il risultato previsto e il risultato effettivo al fine di determinare se il modello di dati è distorto.

Argomento di studio

Come parte del team di data science di Gourmet Analytics, utilizzi l'analisi dei dati per fornire consulenza alle aziende del settore alimentare. Pulisci, organizzi e visualizzi i dati per ottenere approfondimenti che andranno a vantaggio dei tuoi clienti. Come membro di un team collaborativo, condividere la tua analisi con gli altri è una parte importante del tuo lavoro.

Il tuo attuale cliente è Chocolate and Tea, una catena di caffè emergente.

Il ristorante combina un ampio menu di tè pregiati con tavolette di cioccolato provenienti da tutto il mondo. La loro vasta selezione comprende di tutto, dal cioccolato al latte al platano, al cioccolato bianco al mandarino, al cioccolato fondente con pistacchio e fico. L'elenco enciclopedico delle tavolette di cioccolato è alla base dell'attrattiva del marchio Chocolate and Tea. Le vendite di barrette di cioccolato sono il principale motore delle entrate.

Chocolate and Tea mira a servire barrette di cioccolato molto apprezzate dalla critica professionale. Inoltre, adattano continuamente il menu per assicurarsi che rifletta la diversità globale della produzione di cioccolato. Il team di gestione aggiorna regolarmente l'elenco delle barrette di cioccolato per allinearlo alle valutazioni più recenti e garantire che l'elenco contenga barrette provenienti da diversi paesi.

Ti hanno chiesto di raccogliere e analizzare i dati sulle ultime valutazioni del cioccolato. In particolare, vorrebbero sapere quali paesi producono le tavolette di cioccolato super fondente (un'alta percentuale di cacao) con la valutazione più alta. Questi dati li aiuteranno a creare il prossimo menu della barretta di cioccolato.

Codice

libreria(tidyverse)
### Prima di iniziare a lavorare con i dati, è necessario importarli e salvarli come frame di dati. Per iniziare, apri l'area di lavoro RStudio e carica la libreria tidyverse. Carica un file .csv contenente i dati in RStudio e archivialo in una cartella di progetto denominata sapori_di_cacao.csv.
### **Utilizzare la funzione read_csv() per importare i dati dal file .csv. Supponiamo che il nome del frame di dati sia bars_df e che il file .csv sia nella directory di lavoro.** **Quale porzione di codice ti consente di creare il frame di dati?**
bars_df <- read_csv(“sapori_di_cacao.csv”)
### Ora che hai creato un frame di dati, vuoi saperne di più su come sono organizzati i dati. Il frame di dati ha centinaia di righe e molte colonne.
### **Supponiamo che il nome del frame di dati sia sapori_df.**
**Quale porzione di codice ti consente di rivedere i nomi delle colonne nel frame di dati?**
colnames(sapori_df)
### Successivamente, inizi a pulire i tuoi dati. Quando controlli le intestazioni delle colonne nel frame di dati, noti che la prima colonna è denominata _Azienda…Maker.if.known._ (Nota: il punto dopo _known_ fa parte del nome della variabile.) Per motivi di chiarezza e coerenza , decidi di rinominare questa colonna _Azienda_ (senza punto alla fine).
rename(Azienda…Produttore.se.conosciuto. <- Azienda)
### Dopo aver visualizzato in anteprima e pulito i dati, determini quali variabili sono più rilevanti per la tua analisi. Il tuo obiettivo principale è _Rating_, _Cocoa.Percent_ e _Company_. Decidi di utilizzare la funzione select() per creare un nuovo frame di dati con solo queste tre variabili. **Aggiungi la parte di codice che ti consente di selezionare le tre variabili.**
seleziona (Valutazione, Cacao.Percent, Azienda)
### Successivamente, seleziona le statistiche di base che possono aiutare il tuo team a comprendere meglio il sistema di classificazione nei tuoi dati.
### **Supponiamo che la prima parte del codice sia:**
### sapori_rifilati_df %>%
### **Vuoi utilizzare le funzioni summary() e max() per trovare la valutazione massima per i tuoi dati. Aggiungi il pezzo di codice che ti consente di trovare il valore massimo per la variabile** **_Rating_**
###Dopo aver completato l'analisi del sistema di valutazione, stabilisci che qualsiasi valutazione maggiore o uguale a 3,9 punti può essere considerata una valutazione alta. Sai anche che Chocolate and Tea considera una barretta come cioccolato super fondente se la percentuale di cacao della barretta è maggiore o uguale a 75%. Decidi di creare un nuovo frame di dati per scoprire quali barrette di cioccolato soddisfano queste due condizioni.
###**Supponiamo che la prima parte del codice sia:**
### best_trimmed_flavors_df <- trimmed_flavors_df %>%
###**Vuoi applicare la funzione filter() alle variabili** **_Cocoa.Percent_** **e** **_Rating_****. Aggiungi il pezzo di codice che ti consente di filtrare il frame di dati per le barrette di cioccolato che contengono almeno cacao 75% e hanno una valutazione di almeno 3,9 punti.**
filtro (Percentuale di cacao >= '75%' e valutazione >= 3,9)
### Ora che hai pulito e organizzato i tuoi dati, sei pronto per creare alcune utili visualizzazioni di dati. Il tuo team ti assegna il compito di creare una serie di visualizzazioni in base alle richieste del team di gestione di Chocolate and Tea. Decidi di utilizzare ggplot2 per creare le tue immagini.
### **Supponiamo che la prima riga di codice sia:**
### ggplot(dati = best_trimmed_flavors_df) +
### **Si desidera utilizzare la funzione geom_bar() per creare un grafico a barre. Aggiungi la parte di codice che ti consente di creare un grafico a barre con la variabile** **_Rating_** **sull'asse x**
geom_bar(mappatura = aes(x =Valutazione))
### Il grafico a barre rivela le località che producono le barrette di cioccolato con il punteggio più alto. Per avere un'idea migliore della valutazione specifica per ciascuna posizione, ti consigliamo di evidenziare ciascuna barra.
### **Supponiamo che tu stia lavorando con quanto segue codice:**
### ggplot(dati = best_trimmed_flavors_df) +
### geom_bar(mapping = aes(x = Company.Location))
### **Aggiungi un pezzo di codice alla seconda riga di codice per mappare l'estetica** **_fill_** **alla variabile** **_Rating_****.**
### **NOTA: i tre punti (…) indicano dove aggiungere il pezzo di codice.**
geom_bar(mapping = aes(x = Company.Location, fill=Votazione))
### Un compagno di squadra crea un nuovo grafico basato sui dati della barretta di cioccolato. Il compagno di squadra ti chiede di apportare alcune revisioni al suo codice.
### **Supponi che il tuo compagno di squadra condivida il seguente codice
pezzo:**
### ggplot(dati = best_trimmed_flavors_df) +
geom_bar(mapping = aes(x = Azienda)) +
### **Quale pezzo di codice aggiungere alla terza riga per creare sfaccettature avvolgenti della variabile** **_Company_**
facet_wrap(~Azienda)
### Il tuo team ha creato alcune visualizzazioni di base per esplorare diversi aspetti dei dati della barretta di cioccolato. Ti sei offerto volontario per aggiungere titoli alle trame. Inizi con un grafico a dispersione.
### **Supponiamo che la prima parte del pezzo di codice sia:**
### ggplot(data = trimmed_flavors_df) + geom_point(mapping = aes(x = Cocoa.Percent, y = Rating)) +
### **Quale pezzo di codice aggiungi alla terza riga per aggiungere il titolo** **_Cioccolata suggerita_** **alla tua trama**
labs(titolo = “Cioccolata consigliata”)
### Successivamente, creerai un nuovo grafico a dispersione per esplorare la relazione tra le diverse variabili. Vuoi salvare la tua trama in modo da potervi accedere in seguito. Sai che la funzione ggsave() per impostazione predefinita salva l'ultimo grafico visualizzato in RStudio, quindi sei pronto per scrivere il codice per salvare il tuo grafico a dispersione.
### **Supponiamo che le prime due righe di codice siano:**
### ggplot(data = trimmed_flavors_df) + geom_point(mapping = aes(x = Cocoa.Percent, y = Rating))
### **Quale pezzo di codice aggiungi alla terza riga per salvare la trama come file jpeg con** **_chocolate_** **come nome del file**
ggsave("cioccolato.jpeg")

Analista dati IBM, Programmazione R

Mostra commenti

Motasem

Circa l'autore

Creo note sulla sicurezza informatica, note di marketing digitale e corsi online. Fornisco anche consulenza di marketing digitale, inclusi ma non limitati a SEO, annunci Google e Meta e amministrazione CRM.

Visualizza articoli

R Note di programmazione per analisti di dati

R Note di programmazione per Certificato di analista dati IBM

Acquista il catalogo completo delle note sull'analisi dei dati

Vettori

Riepilogo del codice per i vettori

Elenchi

Data e ora

Conversione da stringhe

Creazione di componenti data-ora

Passaggio tra oggetti data-ora esistenti

Frame di dati

File

Matrici

Operatori logici e istruzioni condizionali

Tibbles

Importazione dati

lettore

readxl

Operatori

Dati ordinati

Visualizzazione dei dati con ggplot2

Documentazione e relazioni

Funzioni

Converti i dati caricati in tibble

Per elencare i set di dati disponibili

Ottieni un elenco dei nomi delle colonne

Ottieni una visualizzazione completa e informazioni sul set di dati.

Manipolare dataframe e colonne

Argomento di studio

Lascia un commento Annulla risposta

Motasem

Circa l'autore

Altre storie

Spiegazione dello scripting multisito | ProvaHackMe Junior Penetration Tester

Istinto del Guerriero contro Istinto del Saccheggiatore

Premere ESC per chiudere

R Note di programmazione per Certificato di analista dati IBM

Acquista il catalogo completo delle note sull'analisi dei dati

Vettori

Riepilogo del codice per i vettori

Elenchi

Data e ora

Conversione da stringhe

Creazione di componenti data-ora

Passaggio tra oggetti data-ora esistenti

Frame di dati

File

Matrici

Operatori logici e istruzioni condizionali

Tibbles

Importazione dati

lettore

readxl

Operatori

Dati ordinati

Visualizzazione dei dati con ggplot2

Documentazione e relazioni

Funzioni

Converti i dati caricati in tibble

Per elencare i set di dati disponibili

Ottieni un elenco dei nomi delle colonne

Ottieni una visualizzazione completa e informazioni sul set di dati.

Manipolare dataframe e colonne

Argomento di studio

Lascia un commento Annulla risposta

Motasem

Circa l'autore

Condividi articolo:

Altre storie

Spiegazione dello scripting multisito | ProvaHackMe Junior Penetration Tester

Istinto del Guerriero contro Istinto del Saccheggiatore