R-Programmierhinweise für IBM Data Analyst-Zertifikat

Installieren eines Pakets
install.packages("tidyverse")
Laden eines Pakets
Bibliothek (Tidyverse)
Die Funktion installed.packages() zeigt eine Liste der Pakete an, die derzeit in einer RStudio-Sitzung installiert sind. Sie können dann die Namen der Pakete finden und erfahren, was zur Verwendung der Funktionen aus dem Paket erforderlich ist.
installierte.Pakete()
CRAN ist ein häufig verwendetes Online-Archiv mit R-Paketen und anderen R-Ressourcen. CRAN stellt sicher, dass die von ihm freigegebenen R-Ressourcen den erforderlichen Qualitätsstandards entsprechen und
sind authentisch und gültig. Das dplyr-Paket ist das tidyverse-Paket, das eine Reihe von Funktionen wie select() enthält, die bei der Datenmanipulation helfen. select() wählt beispielsweise nur relevante Variablen anhand ihrer Namen aus.

Kaufen Sie den kompletten Data Analytics Notes-Katalog

Vektoren

Ein Vektor ist eine Gruppe von Datenelementen desselben Typs, die in einer Sequenz in R gespeichert sind. Es ist kein Vektor möglich, der sowohl logische als auch numerische Werte enthält.

Es gibt zwei Arten von Vektoren: atomare Vektoren und Listen. Es gibt sechs Haupttypen von atomaren Vektoren: logische, ganzzahlige, doppelte, Zeichen- (die Zeichenfolgen enthalten), komplexe,
und roh.

Eine Möglichkeit, einen Vektor zu erstellen, ist die Verwendung der Funktion c() (die sogenannte „combine“-Funktion). Die Funktion c() in R kombiniert mehrere Werte zu einem Vektor. In R besteht diese Funktion einfach aus dem Buchstaben „c“, gefolgt von den Werten, die Sie in Ihrem Vektor haben möchten, in Klammern, getrennt durch ein Komma: c(x, y, z, …)

Jeder von Ihnen erstellte Vektor hat zwei Schlüsseleigenschaften: Typ und Länge.

Mit der Funktion typeof() können Sie bestimmen, mit welchem Vektortyp Sie arbeiten. Platzieren Sie den Code für den Vektor in den Klammern der Funktion. Wenn Sie die Funktion ausführen, teilt Ihnen R den Typ mit.

Mit der Funktion length() können Sie die Länge eines vorhandenen Vektors ermitteln, also die Anzahl der darin enthaltenen Elemente.

Sie können auch mithilfe einer is-Funktion prüfen, ob ein Vektor ein bestimmter Typ ist: is.logical(), is.double(), is.integer(), is.character().

Alle Arten von Vektoren können benannt werden. Namen sind nützlich, um lesbaren Code zu schreiben und Objekte in R zu beschreiben. Sie können die Elemente eines Vektors mit der Funktion names() benennen.

Codezusammenfassung für Vektoren

x <- c(1, 3, 5) ### Vektor erstellen und x zuordnen
Namen(x) <- c(„a“, „b“, „c“) ### Erstellen von Namen für die Elemente
ist.Zeichen(x) ### Überprüfung, ob der Vektor ein Zeichen ist
Vektor
Typ von (x) ### überprüft den Vektortyp.

Listen

Listen unterscheiden sich von atomaren Vektoren, da ihre Elemente von jedem beliebigen Typ sein können – wie etwa Daten, Datenrahmen, Vektoren, Matrizen und mehr. Listen können sogar andere Listen enthalten.

Sie können mit der Funktion list() eine Liste erstellen. Ähnlich wie die Funktion c() besteht die Funktion list() nur aus einer Liste, gefolgt von den Werten, die Sie in Ihrer Liste haben möchten, in Klammern.

Wenn Sie herausfinden möchten, welche Arten von Elementen eine Liste enthält, können Sie die Funktion str() verwenden.

Code

Liste(„a“, 1L, 1,5, WAHR)
str(Liste(„a“, 1L, 1,5, WAHR))
z <- Liste(Liste(Liste(1, 3, 5)))
str(z)
### Benennungslisten
Liste(„Chicago“ = 1,„New York“ = 2,„Los Angeles“ = 3)

Datum (und Uhrzeit

In R gibt es drei Arten von Daten, die sich auf einen bestimmten Zeitpunkt beziehen:

Ein Datum („2016-08-16“)
Eine Uhrzeit innerhalb eines Tages („20-11-59 UTC“)
Und ein Datum/Uhrzeit. Dies ist ein Datum plus eine Uhrzeit („2018-03-31
18-15-48 UTC“).

Konvertieren von Zeichenfolgen

Datums-/Zeitdaten werden häufig als Zeichenfolgen geliefert. Sie können Zeichenfolgen mithilfe der von lubridate bereitgestellten Tools in Datums- und Datums-/Zeitangaben umwandeln. Diese Tools berechnen das Datums-/Zeitformat automatisch. Ermitteln Sie zunächst die Reihenfolge, in der Jahr, Monat und Tag in Ihren Daten erscheinen. Ordnen Sie dann die Buchstaben y, m und d in derselben Reihenfolge an. Dadurch erhalten Sie den Namen der lubridate-Funktion, die
Analysieren Sie Ihr Datum. Für das Datum 2021-01-20 verwenden Sie beispielsweise die Reihenfolge ymd:

Code

ymd(„2021-01-20“)
mdy(„20. Januar 2021“)
dmy(„20. Januar 2021“)
ymd(20210120)

### Ausgabe für alle ist unten
#> [1] „20.01.2021“

Erstellen von Datums-/Uhrzeitkomponenten

Die Funktion ymd() und ihre Varianten erstellen Datumsangaben. Um aus einem Datum eine Datums-/Uhrzeitangabe zu erstellen, fügen Sie dem Namen der Funktion einen Unterstrich und einen oder mehrere der Buchstaben h, m und s (Stunden, Minuten, Sekunden) hinzu.

Code

ymd_hms(„2021-01-20 20:11:59“)
### #> [1] „2021-01-20 20:11:59 UTC“
mdy_hm(„20.01.2021 08:01“)
### #> [1] „2021-01-20 08:01:00 UTC“

Wechseln zwischen vorhandenen Datums-/Uhrzeitobjekten

Mit der Funktion as_date() können Sie ein Datum und eine Uhrzeit in ein Datum umwandeln. Setzen Sie beispielsweise das aktuelle Datum und die aktuelle Uhrzeit – now() – in die Klammern der Funktion

Code

als_Datum(jetzt())
#> [1] „20.01.2021“

Datenrahmen

Ein Datenrahmen ist eine Sammlung von Spalten – ähnlich einer Kalkulationstabelle oder SQL-Tabelle. Jede Spalte hat oben einen Namen, der eine Variable darstellt, und enthält eine Beobachtung pro Zeile. Datenrahmen helfen dabei, Daten zusammenzufassen und in einem Format zu organisieren, das leicht zu lesen und zu verwenden ist.

Wenn Sie in R manuell einen Datenrahmen erstellen müssen, können Sie die Funktion data.frame() verwenden. Die Funktion data.frame() verwendet Vektoren als Eingabe. Geben Sie in die Klammern den Namen der Spalte ein, gefolgt von einem Gleichheitszeichen und dann dem Vektor, den Sie für diese Spalte eingeben möchten.

Mit der Funktion mutate() können Änderungen an Daten vorgenommen werden.
rahmen

Code

### Die Spalte _x_ ist ein Vektor mit den Elementen 1, 2, 3 und die Spalte _y_ ist ein Vektor mit den Elementen 1,5, 5,5, 7,5
Datenrahmen(x = c(1, 2, 3), y = c(1,5, 5,5, 7,5))

Dateien

Verwenden Sie die Funktion dir.create, um einen neuen Ordner oder ein neues Verzeichnis zum Speichern Ihrer Dateien zu erstellen. Setzen Sie den Namen des Ordners in die Klammern der Funktion.

Verwenden Sie die Funktion file.create(), um eine leere Datei zu erstellen. Setzen Sie den Namen und den Typ der Datei in die Klammern der Funktion. Ihre Dateitypen sind normalerweise etwa .txt, .docx oder .csv.

Das Kopieren einer Datei kann mit der Funktion file.copy() erfolgen. Fügen Sie in den Klammern den Namen der zu kopierenden Datei hinzu. Geben Sie dann ein Komma ein und fügen Sie den Namen des Zielordners hinzu, in den Sie die Datei kopieren möchten.

Sie können R-Dateien mit der Funktion unlink() löschen. Geben Sie den Namen der Datei in die Klammern der Funktion ein.

Code

dir.create („Zielordner“)
datei.erstellen („neue_textdatei.txt“)
datei.erstellen(„neue_Word_Datei.docx“)
Datei.erstellen („neue_CSV-Datei.csv“)
file.copy („neue_Textdatei.txt“, „Zielordner“)
Verknüpfung aufheben („some_.file.csv“)

Matrizen

Eine Matrix ist eine zweidimensionale Sammlung von Datenelementen. Das heißt, sie hat sowohl Zeilen als auch Spalten. Im Gegensatz dazu ist ein Vektor eine eindimensionale Folge von Datenelementen. Aber wie Vektoren können Matrizen nur einen einzigen Datentyp enthalten. Sie können beispielsweise nicht sowohl logische als auch numerische Werte in einer Matrix haben.

Um eine Matrix in R zu erstellen, können Sie die Funktion matrix() verwenden. Die Funktion matrix() hat zwei Hauptargumente, die Sie in Klammern eingeben. Fügen Sie zunächst einen Vektor hinzu. Der Vektor enthält die Werte, die Sie in die Matrix einfügen möchten. Fügen Sie als Nächstes mindestens eine Matrixdimension hinzu. Sie können die Anzahl der Zeilen oder die Anzahl der Spalten angeben, indem Sie den Code nrow = oder ncol = verwenden.

Angenommen, Sie möchten eine 23-Matrix (zwei Zeilen mal drei Spalten) mit den Werten 38 erstellen. Geben Sie zunächst einen Vektor mit dieser Zahlenreihe ein: c(38. Geben Sie dann ein Komma ein. Geben Sie abschließend nrow = 2 ein, um die Anzahl der Zeilen festzulegen.

Sie können auch die Anzahl der Spalten (ncol = ) statt der Anzahl der Zeilen (nrow = ) angeben.

Code

Matrix(c(3:8), Anzahl Zeilen = 2)
Matrix(c(3:8), ncol = 2)

Logische Operatoren und bedingte Anweisungen

Logische Operatoren geben einen logischen Datentyp wie TRUE oder FALSE zurück.
Es gibt drei Haupttypen logischer Operatoren:
● UND (in R manchmal als & oder && dargestellt)
● ODER (in R manchmal als | oder || dargestellt)
● NICHT (!)

Lassen Sie uns besprechen, wie Sie in R mithilfe von drei verwandten Anweisungen bedingte Anweisungen erstellen:
● wenn()
● sonst()
● sonst wenn()
Die if-Anweisung legt eine Bedingung fest, und wenn die Bedingung als WAHR ausgewertet wird, wird der mit der if-Anweisung verknüpfte R-Code ausgeführt.
wenn (x > 0) {
drucken(„x ist eine positive Zahl“)
}
Die else-Anweisung wird in Kombination mit einer if-Anweisung verwendet. So ist der Code in R aufgebaut:

Code
x <- 7
wenn (x > 0) {
drucken(„x ist eine positive Zahl“)
}
anders {
print („x ist entweder eine negative Zahl oder Null“)
}
In manchen Fällen möchten Sie Ihre bedingte Anweisung möglicherweise noch weiter anpassen, indem Sie die else if-Anweisung hinzufügen. Die else if-Anweisung steht zwischen der if-Anweisung und der else-Anweisung.

Code
x <- -1
wenn (x < 0) {
drucken(„x ist eine negative Zahl“)
}
sonst wenn (x == 0) {
drucken("x ist null")
}
anders {
drucken(„x ist eine positive Zahl“)
}
Der Hauptunterschied zwischen elementweisen logischen Operatoren (&,|) und logischen Operatoren (&&, ||) besteht in der Art und Weise, wie sie auf Operationen mit Vektoren angewendet werden. Die Operationen mit doppelten Vorzeichen, AND
(&&) und das logische ODER (||) untersuchen nur das erste Element jedes Vektors. Die Operationen mit einzelnen Zeichen, UND (&) und ODER (|), untersuchen alle Elemente jedes Vektors.

Eine Pipe ist ein Werkzeug zum Ausdrücken einer Folge mehrerer Operationen in R (in diesem Fall Filtern und Gruppieren). Der Operator für eine Pipe ist %>%.

Code

mtcars %>%
Filter (Vergaser > 1) %>%
gruppieren nach(Zyl.) %>%

Tibbles

Tibbles sind wie optimierte Datenrahmen, die automatisch so eingestellt sind, dass nur die ersten 10 Zeilen eines Datensatzes und nur so viele Spalten angezeigt werden, wie auf den Bildschirm passen. Insgesamt können Sie mehr Änderungen an Datenrahmen vornehmen, aber Tibbles sind einfacher zu verwenden.

Code

### tidyverse wird geladen
Bibliothek (Tidyverse)
### Diamanten-Datensatz wird geladen
Daten (Diamanten)
### Datensatz anzeigen
Ansicht (Diamanten)
### erstelle das Tibble aus dem Datensatz
as_tibble(Diamanten)

Datenimport

Sie können die Funktion data() verwenden, um diese Datensätze in R zu laden. Wenn Sie die Datenfunktion ohne Argument ausführen, zeigt R eine Liste der verfügbaren Datensätze an.
Wenn Sie einen bestimmten Datensatz laden möchten, geben Sie einfach seinen Namen in die Klammern der data()-Funktion ein

lesen

Das readr-Paket ist Teil des Kerns von tidyverse. Neben der Verwendung der integrierten Datensätze von R ist es auch hilfreich, Daten aus anderen Quellen zu importieren, um sie zu Übungszwecken oder für Analysen zu verwenden. Das readr-Paket in R ist ein großartiges Tool zum Lesen rechteckiger Daten. Rechteckige Daten sind Daten, die gut in ein Rechteck aus Zeilen und Spalten passen, wobei sich jede Spalte auf eine einzelne Variable und jede Zeile auf eine einzelne Beobachtung bezieht.

Das Ziel von readr ist es, eine schnelle und benutzerfreundliche Möglichkeit zum Lesen rechteckiger Daten bereitzustellen. readr unterstützt mehrere read_-Funktionen. Jede Funktion bezieht sich auf ein bestimmtes Dateiformat.

read_csv(): Komma-getrennte (CSV) Dateien
read_tsv(): durch Tabulatoren getrennte Dateien
read_delim(): allgemeine durch Trennzeichen getrennte Dateien
read_fwf(): Dateien mit fester Breite
read_table(): tabellarische Dateien, in denen die Spalten getrennt sind durch
Leerzeichen
read_log(): Web-Logdateien

Code

### Um die Beispieldateien aufzulisten, können Sie den
readr_example()-Funktion ohne Argumente
readr_beispiel()
### Wenn Sie die Funktion ausführen, druckt R eine Spaltenspezifikation aus, die den Namen und den Typ jeder Spalte angibt
CSV lesen (Beispiel lesen („mtcars.csv“))
read_csv(„mtcars.csv“)

lesenxl

Um Tabellendaten in R zu importieren, können Sie das Paket readxl verwenden. Das Paket readxl erleichtert die Übertragung von Daten aus Excel in R. Readxl unterstützt sowohl das alte XLS-Dateiformat als auch das moderne, XML-basierte XLSX-Dateiformat.

Code

Bibliothek (readxl)
readxl_beispiel()
Excel_lesen(xl_lesen("tippen-Sie-mich.xlsx"))
### Sie können die Funktion excel_sheets() verwenden, um die Namen der einzelnen Tabellen aufzulisten
excel_sheets(readxl_example("type-me.xlsx"))
### Sie können ein Blatt auch nach Name oder Nummer angeben. Geben Sie einfach „sheet =“ gefolgt vom Namen oder der Nummer des Blatts ein. Sie können beispielsweise das Blatt mit dem Namen „numeric_coercion“ aus der obigen Liste verwenden.
read_excel(readxl_example("type-me.xlsx"), Blatt =„numerische_Koerzion“)
### Wenn Sie die Funktion ausführen, gibt R einen Teil des Blattes zurück

Betreiber

In R gibt es vier Haupttypen von Operatoren:

Arithmetik
Relational
Logisch
Abtretung

Saubere Daten

Es gibt überzeugende Gründe, beide Formate zu verwenden. Als Analyst ist es jedoch wichtig zu wissen, wie man Daten bei Bedarf aufräumt. In R haben Sie möglicherweise einen Datenrahmen in einem breiten Format, der mehrere Variablen und Bedingungen für jede Variable enthält. Das kann sich etwas chaotisch anfühlen.

Hier kommt pivot_longer() ins Spiel. Als Teil des tidyr-Pakets können Sie diese R-Funktion verwenden, um die Daten in einem Datenrahmen zu verlängern, indem Sie die Anzahl der Zeilen erhöhen und die Anzahl der Spalten verringern. Wenn Sie Ihre Daten so konvertieren möchten, dass sie mehr Spalten und weniger Zeilen haben, verwenden Sie die Funktion pivot_wider().

Daten visualisieren mit ggplot2

Mit dem ggplot2-Paket können Sie hochwertige, anpassbare Diagramme Ihrer Daten erstellen. Zur Auffrischung: ggplot2 basiert auf der Grammatik der Grafik, einem System zum Beschreiben und Erstellen von Datenvisualisierungen. Die grundlegende Idee hinter der Grammatik der Grafik besteht darin, dass Sie jedes Diagramm aus denselben Grundkomponenten erstellen können, wie Bausteine.

Zu diesen Bausteinen zählen:

Ein Datensatz
Eine Reihe von Geoms: Ein Geom bezieht sich auf das geometrische Objekt, das zur Darstellung Ihrer Daten verwendet wird. Sie können beispielsweise Punkte verwenden, um ein Streudiagramm zu erstellen, Balken, um ein Balkendiagramm zu erstellen, Linien, um ein Liniendiagramm zu erstellen usw.
Eine Reihe ästhetischer Attribute: Eine Ästhetik ist eine visuelle Eigenschaft eines Objekts in Ihrem Plot. Sie können sich eine Ästhetik als eine Verbindung oder Abbildung zwischen einem visuellen Merkmal in Ihrem Plot vorstellen.
und eine Variable in Ihren Daten. In einem Streudiagramm umfasst die Ästhetik beispielsweise Dinge wie Größe, Form, Farbe oder Position (x-Achse, y-Achse) Ihrer Datenpunkte.

Um ein Diagramm mit ggplot2 zu erstellen, wählen Sie zunächst einen Datensatz aus. Anschließend legen Sie fest, wie Sie Ihre Daten visuell in einem Koordinatensystem organisieren, indem Sie ein Geom zur Darstellung Ihrer Datenpunkte und eine Ästhetik zur Abbildung Ihrer Variablen auswählen.

Code

install.packages('ggplot2')
install.packages('dplyr')
### Datensatz installieren
install.packages('palmerpenguins')
Bibliothek (ggplot2)
Bibliothek (dplyr)
### Datensatz laden
Bibliothek (Palmerpenguins)
Daten (Pinguine)
### Datensatz ansehen
Ansicht (Pinguine)
### ggplot(data = penguins):** In ggplot2 beginnen Sie ein Diagramm mit der Funktion ggplot(). Die Funktion ggplot() erstellt ein Koordinatensystem, dem Sie Ebenen hinzufügen können. Das erste Argument der Funktion ggplot() ist der im Diagramm zu verwendende Datensatz. In diesem Fall sind es „penguins“.
### Dann fügen Sie ein „+“-Symbol hinzu, um Ihrem Diagramm eine neue Ebene hinzuzufügen. Sie vervollständigen Ihr Diagramm, indem Sie ggplot() eine oder mehrere Ebenen hinzufügen.
### geom_point()**: Als Nächstes wählen Sie ein Geom aus, indem Sie eine Geom-Funktion hinzufügen. Die Funktion geom_point() verwendet Punkte, um Streudiagramme zu erstellen, die Funktion geom_bar verwendet Balken, um Balkendiagramme zu erstellen usw. Wählen Sie in diesem Fall die Funktion geom_point, um ein Streudiagramm von Punkten zu erstellen. Das Paket ggplot2 enthält viele verschiedene Geom-Funktionen. Später in diesem Kurs erfahren Sie mehr über Geoms.
### (mapping = aes(x = flipper_length_mm, y = body_mass_g))**: Jede geom-Funktion in ggplot2 nimmt ein Mapping-Argument. Dies definiert, wie Variablen in Ihrem Datensatz visuellen Eigenschaften zugeordnet werden. Das Mapping-Argument wird immer mit der Funktion aes() gepaart. Die x- und y-Argumente der Funktion aes() geben an, welche Variablen der x-Achse und der y-Achse des Koordinatensystems zugeordnet werden sollen. In diesem Fall möchten Sie die Variable „flipper_length_mm“ der x-Achse und die Variable „body_mass_g“ der y-Achse zuordnen.
ggplot(Daten = Pinguine) + geom_point(Mapping = aes(x = Flossenlänge_mm, y = Körpermasse_g))
### oder geben Sie auch Ästhetik-Attribute an
ggplot(Pinguine, aes(x = Flossenlänge_mm, y = Körpermasse in g, Farbe = Träger, Größe = Luftzeit, Form = Träger )) + geom_point()
### Glättung** ermöglicht die Erkennung eines Datentrends, selbst wenn Sie anhand der aufgezeichneten Datenpunkte keinen Trend erkennen können. Die Glättungsfunktion von Ggplot2 ist hilfreich, da sie einer Grafik eine **Glättungslinie** als weitere Ebene hinzufügt. Die Glättungslinie hilft dabei, die Daten für einen gelegentlichen Beobachter verständlicher zu machen.
### **Gam-Glättung** nützlich zum Glätten von Diagrammen mit einer großen Anzahl von Punkten.
ggplot(Pinguine, aes(x = Flossenlänge_mm, y = Körpermasse in g)) + geom_point() + geom_smooth(Methode=”gam” , Formel = y ~s(x))
### **Löss-Glättung** Der Löss-Glättungsprozess eignet sich am besten zum Glätten von Diagrammen mit weniger als 1000 Punkten.
ggplot(Pinguine, aes(x = Flossenlänge_mm, y = Körpermasse in g)) + geom_point() + geom_smooth(Methode=”loess”)
### geom_jitter()
### Der Analyst könnte die Funktion geom_jitter() verwenden, um die Punkte leichter auffindbar zu machen. Die Funktion geom_jitter() fügt jedem Punkt im Diagramm eine kleine Menge zufälligen Rauschens hinzu, was dabei hilft, mit der Überlappung von Punkten umzugehen.
### Mit der Funktion facet_wrap(~ variable_name) können Sie kleinere Gruppen oder Teilmengen Ihrer Daten anzeigen.
### Labs (), um einen Titel für Ihre Visualisierung zu erstellen, und verwenden Sie Annotate (), um Ihrem Diagramm Notizen hinzuzufügen.
### **ggsave('filename.jpg')** um Ihren Plan zu speichern

Dokumentation und Berichte

R Markdown ist ein nützliches Tool, mit dem Sie Code speichern und ausführen sowie gemeinsam nutzbare Berichte für Stakeholder erstellen können.
R Markdown ist ein Dateiformat zum Erstellen dynamischer Dokumente mit R. Diese Dokumente, auch als Notizbücher bezeichnet, sind Analyseaufzeichnungen, die Ihnen, Ihren Teammitgliedern und Stakeholdern helfen zu verstehen, was Sie in Ihrer Analyse getan haben, um zu Ihren Schlussfolgerungen zu gelangen. Sie können ein Notizbuch als HTML-, PDF- oder Word-Datei oder in einem anderen Format wie einer Diashow veröffentlichen.

Funktionen

- arrangieren ()

Mit der dplyr-Funktion „arrange()“ können Zeilen nach einer oder mehreren Variablen neu angeordnet (oder sortiert) werden.

Zeilen nach Sepal.Length in aufsteigender Reihenfolge neu anordnen
Ordnen Sie die Zeilen nach Sepal.Length in absteigender Reihenfolge neu an. Verwenden Sie die Funktion desc():
Zeilen nach mehreren Variablen neu anordnen: Sepal.Length und Sepal.width

Code

meine_daten %>% anordnen(Sepal.Length)
meine_Daten %>% anordnen(desc(Sepal.Length))
anordnen(meine_Daten, -Sepal.Length)

– als_Datenrahmen()

Geladene Daten in Tibble konvertieren

Code

# Meine_Daten erstellen
meine_daten <- iris
# In eine Tibble-Bibliothek konvertieren („tibble“)
meine_Daten <- als_Datenrahmen(meine_Daten)
# Drucken
meine Daten

- Daten()

So listen Sie verfügbare Datasets auf

- Vereinen()
Mit der Funktion unite() können Spalten kombiniert werden
– saubere_namen()
Die Funktion clean_names() stellt automatisch sicher, dass die Spaltennamen eindeutig und konsistent sind
– Spaltennamen (Datensatz oder Datenrahmen)

Holen Sie sich eine Liste der Spaltennamen

– skim_without_charts(Datensatz) oder insight () oder summary ()

Erhalten Sie einen umfassenden Überblick und Informationen zum Datensatz.

– Filter ()
Mit der Filterfunktion kann der Datenanalyst angeben, welchen Teil der Daten er anzeigen möchte

Code

Frage 5

Ein Datenanalyst arbeitet mit den Daten der Pinguine. Sie
schreiben Sie den folgenden Code:
Pinguine %>%
Die Variable _species_ umfasst drei Pinguinarten: Adeliepinguin, Zügelpinguin und Eselspinguin. Welchen Codeblock fügt der Analyst hinzu, um einen Datenrahmen zu erstellen, der nur die
Eselspinguin-Arten?
Filter(Art == „Eselspinguin“)

– mutieren ()

Datenrahmen und Spalten manipulieren

Code

Frage 7
Ein Datenanalyst arbeitet mit einem Datenrahmen namens _Gehaltsdaten_. Er möchte eine neue Spalte mit dem Namen _Gesamtlöhne_ erstellen, die Daten in den Spalten _Standardlöhne_ und _Überstundenlöhne_ zusammenfasst. Mit welchem Codeblock kann der Analyst die Spalte _Gesamtlöhne_ erstellen?
mutieren(Gehaltsdaten, Gesamtlöhne = Standardlöhne + Überstundenlohn)

- Voreingenommenheit()

Mit der Funktion „bias()“ können Sie die durchschnittliche Abweichung zwischen einem vorhergesagten und einem tatsächlichen Ergebnis berechnen und so ermitteln, ob das Datenmodell verzerrt ist.

Fallstudie

Als Teil des Data Science-Teams bei Gourmet Analytics nutzen Sie Datenanalysen, um Unternehmen der Lebensmittelindustrie zu beraten. Sie bereinigen, organisieren und visualisieren Daten, um Erkenntnisse zu gewinnen, die Ihren Kunden zugute kommen. Als Mitglied eines kollaborativen Teams ist das Teilen Ihrer Analysen mit anderen ein wichtiger Teil Ihrer Arbeit.

Ihr aktueller Kunde ist Chocolate and Tea, eine aufstrebende Café-Kette.

Das Lokal kombiniert eine umfangreiche Auswahl an erlesenen Teesorten mit Schokoriegeln aus aller Welt. Die vielfältige Auswahl umfasst alles von Kochbananen-Milchschokolade über Mandarinen-Weißschokolade bis hin zu dunkler Schokolade mit Pistazien und Feigen. Die enzyklopädische Liste an Schokoriegeln ist die Grundlage für die Attraktivität der Marke Chocolate and Tea. Der Verkauf von Schokoriegeln ist der Hauptumsatzträger.

Chocolate and Tea hat sich zum Ziel gesetzt, Schokoriegel anzubieten, die von professionellen Kritikern hoch bewertet werden. Außerdem wird die Speisekarte ständig angepasst, um sicherzustellen, dass sie die globale Vielfalt der Schokoladenproduktion widerspiegelt. Das Managementteam aktualisiert die Liste der Schokoriegel regelmäßig, um sie an die neuesten Bewertungen anzupassen und sicherzustellen, dass die Liste Riegel aus verschiedenen Ländern enthält.

Sie haben Sie gebeten, Daten zu den neuesten Schokoladenbewertungen zu sammeln und zu analysieren. Insbesondere möchten sie wissen, welche Länder die am besten bewerteten Tafeln sehr dunkler Schokolade (mit hohem Kakaoanteil) produzieren. Diese Daten werden ihnen dabei helfen, ihre nächste Schokoladentafelkarte zu erstellen.

Code

Bibliothek (Tidyverse)
### Bevor Sie mit der Arbeit an Ihren Daten beginnen, müssen Sie diese importieren und als Datenrahmen speichern. Öffnen Sie zunächst Ihren RStudio-Arbeitsbereich und laden Sie die Tidyverse-Bibliothek. Sie laden eine CSV-Datei mit den Daten in RStudio hoch und speichern sie in einem Projektordner mit dem Namen flavors_of_cacao.csv.
### **Sie verwenden die Funktion read_csv(), um die Daten aus der CSV-Datei zu importieren. Angenommen, der Name des Datenrahmens lautet bars_df und die CSV-Datei befindet sich im Arbeitsverzeichnis.** **Mit welchem Codeblock können Sie den Datenrahmen erstellen?**
bars_df <- read_csv(„Kakaoaromen.csv“)
### Nachdem Sie nun einen Datenrahmen erstellt haben, möchten Sie mehr darüber erfahren, wie die Daten organisiert sind. Der Datenrahmen hat Hunderte von Zeilen und viele Spalten.
### **Nehmen Sie an, der Name Ihres Datenrahmens ist flavors_df.**
**Mit welchem Codeblock können Sie die Spaltennamen im Datenrahmen überprüfen?**
Spaltennamen(aromen_df)
### Als Nächstes beginnen Sie mit der Bereinigung Ihrer Daten. Wenn Sie sich die Spaltenüberschriften in Ihrem Datenrahmen ansehen, bemerken Sie, dass die erste Spalte _Firma…Hersteller.falls.bekannt._ heißt. (Hinweis: Der Punkt nach _bekannt_ ist Teil des Variablennamens.) Aus Gründen der Klarheit und Konsistenz entscheiden Sie sich, diese Spalte in _Firma_ umzubenennen (ohne Punkt am Ende).
umbenennen(Firma…Hersteller.falls.bekannt. <-Firma)
### Nachdem Sie Ihre Daten in der Vorschau angezeigt und bereinigt haben, bestimmen Sie, welche Variablen für Ihre Analyse am relevantesten sind. Ihr Hauptaugenmerk liegt auf _Rating_, _Cocoa.Percent_ und _Company_. Sie entscheiden sich, die Funktion select() zu verwenden, um einen neuen Datenrahmen mit nur diesen drei Variablen zu erstellen. **Fügen Sie den Codeblock hinzu, mit dem Sie die drei Variablen auswählen können.**
select (Bewertung, Kakaoanteil, Unternehmen)
### Als Nächstes wählen Sie die grundlegenden Statistiken aus, die Ihrem Team helfen können, das Bewertungssystem in Ihren Daten besser zu verstehen.
### **Nehmen Sie an, dass der erste Teil Ihres Codes lautet:**
### getrimmte_aromen_df %>%
### **Sie möchten die Funktionen summary() und max() verwenden, um die maximale Bewertung für Ihre Daten zu ermitteln. Fügen Sie den Codeblock hinzu, mit dem Sie den Maximalwert für die Variable ermitteln können** **_Rating_**
###Nach Abschluss Ihrer Analyse des Bewertungssystems stellen Sie fest, dass jede Bewertung größer oder gleich 3,9 Punkte als hohe Bewertung angesehen werden kann. Sie wissen auch, dass Chocolate and Tea eine Tafel als sehr dunkle Schokolade betrachtet, wenn der Kakaoanteil der Tafel größer oder gleich 75% ist. Sie beschließen, einen neuen Datenrahmen zu erstellen, um herauszufinden, welche Schokoriegel diese beiden Bedingungen erfüllen.
###**Nehmen Sie an, dass der erste Teil Ihres Codes lautet:**
### beste_getrimmte_Aromen_df <- getrimmte_Aromen_df %>%
###**Sie möchten die Funktion filter() auf die Variablen** **_Cocoa.Percent_** **und** **_Rating_**** anwenden. Fügen Sie den Codeblock hinzu, mit dem Sie den Datenrahmen nach Schokoriegeln filtern können, die mindestens 75% Kakao enthalten und eine Bewertung von mindestens 3,9 Punkten haben.**
Filter (Kakao.Prozent >= '75%' & Bewertung >= 3,9)
### Nachdem Sie Ihre Daten bereinigt und organisiert haben, können Sie nun einige nützliche Datenvisualisierungen erstellen. Ihr Team weist Ihnen die Aufgabe zu, eine Reihe von Visualisierungen basierend auf Anfragen des Managementteams für Schokolade und Tee zu erstellen. Sie entscheiden sich, ggplot2 zum Erstellen Ihrer Visualisierungen zu verwenden.
### **Nehmen Sie an, Ihre erste Codezeile lautet:**
### ggplot(Daten = am besten getrimmte_Flavors_df) +
### **Sie möchten die Funktion geom_bar() verwenden, um ein Balkendiagramm zu erstellen. Fügen Sie den Codeblock hinzu, mit dem Sie ein Balkendiagramm mit der Variable** **_Rating_** **auf der x-Achse** erstellen können.
geom_bar(Mapping = AES(x =Bewertung))
### Ihr Balkendiagramm zeigt die Standorte, an denen die am höchsten bewerteten Schokoriegel hergestellt werden. Um eine bessere Vorstellung von der spezifischen Bewertung für jeden Standort zu bekommen, möchten Sie jeden Riegel hervorheben.
### **Angenommen, Sie arbeiten mit den folgenden Code:**
### ggplot(Daten = am besten getrimmte_Flavors_df) +
### geom_bar(mapping = aes(x = Unternehmen.Standort))
### **Fügen Sie der zweiten Codezeile einen Codeblock hinzu, um die Ästhetik** **_fill_** **der Variable** **_Rating_****.** zuzuordnen.
### **HINWEIS: Die drei Punkte (…) zeigen an, wo der Codeblock hinzugefügt werden soll.**
geom_bar(mapping = aes(x = Unternehmen.Standort, fill=Bewertung))
### Ein Teammitglied erstellt ein neues Diagramm basierend auf den Chocolatebar-Daten. Das Teammitglied bittet Sie, einige Änderungen an seinem Code vorzunehmen.
### **Nehmen Sie an, Ihr Teamkollege teilt den folgenden Code
Stück:**
### ggplot(Daten = am besten getrimmte_Flavors_df) +
geom_bar(mapping = aes(x = Unternehmen)) +
### **Welchen Codeblock fügen Sie der dritten Zeile hinzu, um Wraparound-Facetten der Variable zu erstellen?** **_Unternehmen_**
facet_wrap(~Unternehmen)
### Ihr Team hat einige grundlegende Visualisierungen erstellt, um verschiedene Aspekte der Schokoriegeldaten zu untersuchen. Sie haben sich freiwillig bereit erklärt, den Diagrammen Titel hinzuzufügen. Sie beginnen mit einem Streudiagramm.
### **Nehmen Sie an, der erste Teil Ihres Codeblocks ist:**
### ggplot(Daten = getrimmte_Flavours_df) + geom_point(Mapping = aes(x = Cocoa.Percent, y = Rating)) +
### **Welchen Codeblock fügen Sie der dritten Zeile hinzu, um den Titel** **_Vorgeschlagene Schokolade_** **zu Ihrem Plot hinzuzufügen**
labs(title = „Vorgeschlagene Schokolade“)
### Als Nächstes erstellen Sie ein neues Streudiagramm, um die Beziehung zwischen verschiedenen Variablen zu untersuchen. Sie möchten Ihr Diagramm speichern, damit Sie später darauf zugreifen können. Sie wissen, dass die Funktion ggsave() standardmäßig das letzte Diagramm speichert, das Sie in RStudio angezeigt haben. Sie sind also bereit, den Code zum Speichern Ihres Streudiagramms zu schreiben.
### **Nehmen Sie an, Ihre ersten beiden Codezeilen sind:**
### ggplot(Daten = getrimmte_Flavours_df) + geom_point(Mapping = aes(x = Cocoa.Percent, y = Bewertung))
### **Welchen Codeblock fügen Sie der dritten Zeile hinzu, um Ihr Diagramm als JPEG-Datei mit** **_chocolate_** **als Dateinamen** zu speichern?
ggsave(„Schokolade.jpeg“)

Über den Autor

Ich erstelle Notizen zur Cybersicherheit, Notizen zum digitalen Marketing und Online-Kurse. Ich biete auch Beratung zum digitalen Marketing an, einschließlich, aber nicht beschränkt auf SEO, Google- und Meta-Anzeigen und CRM-Verwaltung.

Artikel anzeigen