ملاحظات برمجة R لـ شهادة محلل بيانات آي بي إم

تثبيت الحزمة
install.packages("tidyverse")
جارٍ تحميل الحزمة
مكتبة (مرتبة)
تعرض وظيفة install.packages() قائمة بالحزم المثبتة حاليًا في جلسة RStudio. يمكنك بعد ذلك تحديد أسماء الحزم وما هو مطلوب لاستخدام الوظائف من الحزمة.
حزم مثبتة ()
CRAN هو أرشيف عبر الإنترنت شائع الاستخدام يحتوي على حزم R وموارد R الأخرى. تتأكد CRAN من أن الموارد التي تشاركها تتبع معايير الجودة المطلوبة
أصلية وصالحة حزمة dplyr هي حزمة tidyverse التي تحتوي على مجموعة من الوظائف، مثل Select()، التي تساعد في معالجة البيانات. على سبيل المثال، يختار الدالة Select()‎ المتغيرات ذات الصلة فقط بناءً على أسمائها.

قم بشراء كتالوج ملاحظات تحليلات البيانات الكامل

ثلاثة أبعاد

المتجه عبارة عن مجموعة من عناصر البيانات من نفس النوع، مخزنة في تسلسل في R. لا يمكن أن يكون لديك متجه يحتوي على كل من العناصر المنطقية والرقمية.

هناك نوعان من المتجهات: المتجهات الذرية والقوائم هناك ستة أنواع أساسية من المتجهات الذرية: المنطقية، الصحيحة، المزدوجة، الشخصية (التي تحتوي على سلاسل)، المعقدة،
والخام.

إحدى الطرق لإنشاء متجه هي استخدام الدالة c() (وتسمى الدالة "الدمج"). تجمع الدالة c() في R بين قيم متعددة في متجه. في R، هذه الوظيفة هي مجرد الحرف "c" متبوعًا بالقيم التي تريدها في المتجه الخاص بك داخل الأقواس، مفصولة بفاصلة: c(x, y, z, ...)

سيكون لكل متجه تقوم بإنشائه خاصيتين رئيسيتين: النوع والطول.

يمكنك تحديد نوع المتجه الذي تعمل معه باستخدام الدالة typeof(). ضع رمز المتجه داخل قوس الدالة. عند تشغيل الدالة، سيخبرك R بالنوع.

يمكنك تحديد طول المتجه الموجود – أي عدد العناصر التي يحتوي عليها – باستخدام الدالة length().

يمكنك أيضًا التحقق مما إذا كان المتجه من نوع معين باستخدام دالة is: is.logic(), is.double(), is.integer(), is.character().

يمكن تسمية جميع أنواع المتجهات. الأسماء مفيدة لكتابة تعليمات برمجية قابلة للقراءة ووصف الكائنات في R. يمكنك تسمية عناصر المتجه باستخدام وظيفة الأسماء ().

ملخص الكود للمتجهات

س <- ج(1، 3، 5) ### يقوم بإنشاء المتجه وتعيينه إلى x
الأسماء(x) <- ج("a"،"b"،"c") ### إنشاء أسماء للعناصر
هو.الحرف (س) ### التحقق مما إذا كان المتجه حرفًا
المتجه
نوع(x) ### التحقق من نوع المتجه.

القوائم

تختلف القوائم عن المتجهات الذرية لأن عناصرها يمكن أن تكون من أي نوع، مثل التواريخ وإطارات البيانات والمتجهات والمصفوفات والمزيد. يمكن أن تحتوي القوائم أيضًا على قوائم أخرى.

يمكنك إنشاء قائمة باستخدام وظيفة القائمة (). على غرار الدالة c()، فإن الدالة list() هي مجرد قائمة متبوعة بالقيم التي تريدها في قائمتك داخل الأقواس.

إذا كنت تريد معرفة أنواع العناصر التي تحتوي عليها القائمة، فيمكنك استخدام الدالة str().

شفرة

القائمة ("أ"، 1 لتر، 1.5، صحيح)
شارع (قائمة ("أ"، 1L، 1.5، TRUE))
ض <- قائمة (قائمة (قائمة (1، 3، 5)))
شارع (ض)
### قوائم التسمية
قائمة ("شيكاغو" = 1، "نيويورك" = 2، "لوس أنجلوس" = 3)

التاريخ و الوقت

في لغة R، هناك ثلاثة أنواع من البيانات التي تشير إلى لحظة زمنية:

تاريخ ("2016-08-16")
الوقت خلال يوم ("20-11-59 UTC")
وموعد ووقت. هذا تاريخ بالإضافة إلى الوقت ("2018-03-31
18-15-48 بالتوقيت العالمي").

التحويل من السلاسل

غالبًا ما تأتي بيانات التاريخ/الوقت كسلاسل. يمكنك تحويل السلاسل إلى تواريخ وأوقات تاريخ باستخدام الأدوات التي يوفرها lubridate. تعمل هذه الأدوات تلقائيًا على تحديد تنسيق التاريخ/الوقت. أولاً، حدد الترتيب الذي تظهر به السنة والشهر واليوم في التواريخ. ثم قم بترتيب الحروف y وm وd بنفس الترتيب. يمنحك ذلك اسم وظيفة التشحيم التي ستقوم بذلك
تحليل التاريخ الخاص بك. على سبيل المثال، بالنسبة للتاريخ 2021-01-20، يمكنك استخدام الأمر ymd:

شفرة

يمد("2021-01-20")
mdy("20 يناير 2021")
دمي ("20 يناير 2021")
يمد (20210120)

إخراج ### للجميع أدناه
#> [1] “2021-01-20”

إنشاء مكونات التاريخ والوقت

تعمل الدالة ymd()‎ وأشكالها المختلفة على إنشاء التواريخ. لإنشاء وقت وتاريخ من تاريخ، قم بإضافة شرطة سفلية وواحد أو أكثر من الأحرف h وm وs (الساعات والدقائق والثواني) إلى اسم الوظيفة

شفرة

ymd_hms("2021-01-20 20:11:59")
### #> [1] "2021-01-20 20:11:59 بالتوقيت العالمي"
mdy_hm("01/20/2021 08:01")
### #> [1] "2021-01-20 08:01:00 بالتوقيت العالمي"

التبديل بين كائنات التاريخ والوقت الموجودة

يمكنك استخدام الدالة as_date() لتحويل التاريخ والوقت إلى تاريخ. على سبيل المثال، ضع التاريخ والوقت الحالي —now() — بين قوسي الدالة

شفرة

as_date(الآن())
#> [1] “2021-01-20”

إطارات البيانات

إطار البيانات عبارة عن مجموعة من الأعمدة، تشبه جدول البيانات أو جدول SQL. يحتوي كل عمود على اسم في الأعلى يمثل متغيرًا، ويتضمن ملاحظة واحدة لكل صف. تساعد إطارات البيانات على تلخيص البيانات وتنظيمها بتنسيق يسهل قراءته واستخدامه.

إذا كنت بحاجة إلى إنشاء إطار بيانات يدويًا في R، فيمكنك استخدام الدالة data.frame(). تأخذ الدالة data.frame() المتجهات كمدخلات. بين قوسين، أدخل اسم العمود، متبوعًا بعلامة يساوي، ثم المتجه الذي تريد إدخاله لهذا العمود.

يمكن استخدام الدالة mutate() لإجراء تغييرات على البيانات
إطار

شفرة

### العمود _x_ عبارة عن متجه يحتوي على العناصر 1 و2 و3 و العمود _y_ هو متجه يحتوي على العناصر 1.5، 5.5، 7.5
data.frame(x = c(1, 2, 3) , y = c(1.5, 5.5, 7.5))

ملفات

استخدم وظيفة dir.create لإنشاء مجلد أو دليل جديد للاحتفاظ بملفاتك. ضع اسم المجلد بين قوسين الدالة.

استخدم الدالة file.create() لإنشاء ملف فارغ. ضع اسم ونوع الملف بين قوسين الدالة. عادةً ما تكون أنواع ملفاتك مثل .txt أو .docx أو .csv.

يمكن إجراء نسخ ملف باستخدام الدالة file.copy(). بين قوسين، أضف اسم الملف المراد نسخه. ثم اكتب فاصلة، وأضف اسم المجلد الوجهة الذي تريد نسخ الملف إليه.

يمكنك حذف ملفات R باستخدام وظيفة إلغاء الارتباط (). أدخل اسم الملف بين قوسين الدالة.

شفرة

dir.create ("destination_folder")
ملف.إنشاء ("new_text_file.txt")
file.create ("new_word_file.docx")
file.create ("new_csv_file.csv")
file.copy ("new_text_file.txt"، "destination_folder")
إلغاء الارتباط ("some_.file.csv")

المصفوفات

المصفوفة عبارة عن مجموعة ثنائية الأبعاد من عناصر البيانات. هذا يعني أنه يحتوي على صفوف وأعمدة. على النقيض من ذلك، المتجه هو تسلسل أحادي البعد لعناصر البيانات. ولكن مثل المتجهات، يمكن أن تحتوي المصفوفات على نوع بيانات واحد فقط. على سبيل المثال، لا يمكن أن يكون لديك كل من المنطق والأرقام في المصفوفة.

لإنشاء مصفوفة في R، يمكنك استخدام الدالة Matrix(). تحتوي الدالة المصفوفة () على وسيطتين رئيسيتين تقوم بإدخالهما بين قوسين. أولاً، قم بإضافة ناقل. يحتوي المتجه على القيم التي تريد وضعها في المصفوفة. بعد ذلك، قم بإضافة بُعد مصفوفة واحد على الأقل. يمكنك اختيار تحديد عدد الصفوف أو عدد الأعمدة باستخدام الكود nrow = أو ncol =.

على سبيل المثال، تخيل أنك تريد إنشاء مصفوفة 23 (صفين في ثلاثة أعمدة) تحتوي على القيم 38. أولاً، أدخل متجهًا يحتوي على سلسلة الأرقام تلك: c(38). ثم أدخل فاصلة. وأخيرًا، أدخل nrow = 2 لتحديد عدد الصفوف.

يمكنك أيضًا اختيار تحديد عدد الأعمدة (ncol = ) بدلاً من عدد الصفوف (nrow = ).

شفرة

مصفوفة (ج(3:8)، صف = 2)
مصفوفة (ج (3: 8)، نكول = 2)

العوامل المنطقية والعبارات الشرطية

تقوم العوامل المنطقية بإرجاع نوع بيانات منطقي مثل TRUE أو FALSE.
هناك ثلاثة أنواع أساسية من العوامل المنطقية:
● AND (يتم تمثيلها أحيانًا بالرمز & أو && في R)
● OR (أحيانًا يتم تمثيله كـ | أو || في R)
● ليس (!)

دعونا نناقش كيفية إنشاء عبارات شرطية في R باستخدام ثلاث عبارات مرتبطة:
● إذا()
● آخر ()
● وإلا إذا ()
تحدد عبارة if شرطًا، وإذا تم تقييم الشرط إلى TRUE، فسيتم تنفيذ رمز R المرتبط بعبارة if.
إذا (س > 0) {
طباعة ("x هو رقم موجب")
}
يتم استخدام عبارة else مع عبارة if. هذه هي الطريقة التي يتم بها بناء الكود في R:

شفرة
س <- 7
إذا (س > 0) {
طباعة ("x هو رقم موجب")
}
آخر {
طباعة ("x إما رقم سالب أو صفر")
}
في بعض الحالات، قد ترغب في تخصيص عبارتك الشرطية بشكل أكبر عن طريق إضافة عبارة else if. تأتي عبارة else if بين عبارة if وعبارة else.

شفرة
س <--1
إذا (س < 0) {
طباعة ("x هو رقم سلبي")
}
وإلا إذا (س == 0) {
طباعة ("س هو صفر")
}
آخر {
طباعة ("x هو رقم موجب")
}
يتمثل الاختلاف الرئيسي بين العوامل المنطقية للعناصر (&،|) والعوامل المنطقية (&&، ||) في طريقة تطبيقها على العمليات باستخدام المتجهات. العمليات ذات العلامات المزدوجة، AND
(&&) وOR المنطقي (||)، قم بفحص العنصر الأول من كل متجه فقط. العمليات ذات العلامات الفردية، AND (&) وOR (|)، تفحص جميع عناصر كل متجه.

الأنبوب هو أداة للتعبير عن سلسلة من العمليات المتعددة في R (في هذه الحالة التصفية والتجميع). عامل تشغيل الأنبوب هو %>%.

شفرة

سيارات النقل %>%
الفلتر (الكربوهيدرات > 1) %>%
group_by(cyl) %>%

وجبات خفيفة

تشبه Tibbles إطارات البيانات المبسطة التي يتم ضبطها تلقائيًا لسحب الصفوف العشرة الأولى فقط من مجموعة البيانات، وعدد الأعمدة الذي يمكن احتواؤه على الشاشة فقط. بشكل عام، يمكنك إجراء المزيد من التغييرات على إطارات البيانات، ولكن استخدام Tibbles أسهل.

شفرة

### جاري التحميل
مكتبة (مرتبة)
### تحميل مجموعة بيانات الماس
البيانات (الماس)
### عرض مجموعة البيانات
عرض (الماس)
### يقوم بإنشاء طعام من مجموعة البيانات
as_tibble(الماس)

استيراد البيانات

يمكنك استخدام الدالة data() لتحميل مجموعات البيانات هذه في R. إذا قمت بتشغيل دالة البيانات بدون وسيطة، فسوف يعرض R قائمة بمجموعات البيانات المتاحة.
إذا كنت تريد تحميل مجموعة بيانات محددة، فما عليك سوى إدخال اسمها بين قوسي الدالة data()

قارئ

تعد حزمة القارئ جزءًا من النظام الأساسي. بالإضافة إلى استخدام مجموعات البيانات المضمنة في لغة R، من المفيد أيضًا استيراد البيانات من مصادر أخرى لاستخدامها في الممارسة أو التحليل. تعد حزمة القارئ في لغة R أداة رائعة لقراءة البيانات المستطيلة. البيانات المستطيلة هي البيانات التي يتم وضعها بشكل جيد داخل مستطيل من الصفوف والأعمدة، حيث يشير كل عمود إلى متغير واحد ويشير كل صف إلى ملاحظة واحدة.

الهدف من readr هو توفير طريقة سريعة وسهلة لقراءة البيانات المستطيلة. يدعم القارئ عدة وظائف read_. تشير كل وظيفة إلى تنسيق ملف معين.

read_csv(): ملفات مفصولة بفواصل (CSV).
read_tsv(): ملفات مفصولة بعلامات التبويب
read_delim(): الملفات العامة المحددة
read_fwf(): ملفات ذات عرض ثابت
read_table(): ملفات جدولية يتم فيها فصل الأعمدة
مساحة بيضاء
read_log(): ملفات سجل الويب

شفرة

### لسرد نماذج الملفات، يمكنك تشغيل ملف
الدالة readr_example()‎ بدون وسائط
readr_example()
### عند تشغيل الوظيفة، يقوم R بطباعة مواصفات العمود التي تعطي اسم ونوع كل عمود
read_csv(readr_example("mtcars.csv"))
read_csv("mtcars.csv")

readxl

لاستيراد بيانات جدول البيانات إلى R، يمكنك استخدام حزمة readxl. تسهل حزمة readxl نقل البيانات من Excel إلى R. يدعم Readxl كلاً من تنسيق الملف القديم .xls وتنسيق الملف .xlsx الحديث المستند إلى xml.

شفرة

مكتبة (قراءة XL)
readxl_example()
read_excel(readxl_example(“type-me.xlsx”))
### يمكنك استخدام الدالة excel_sheets() لسرد أسماء الأوراق الفردية
excel_sheets(readxl_example("type-me.xlsx"))
### يمكنك أيضًا تحديد الورقة بالاسم أو الرقم. فقط اكتب "sheet =" متبوعًا باسم أو رقم الورقة. على سبيل المثال، يمكنك استخدام الورقة المسماة "numeric_coercion" من القائمة أعلاه.
read_excel(readxl_example("type-me.xlsx")، الورقة ="الإكراه الرقمي")
### عند تشغيل الدالة، يقوم R بإرجاع جزء من الورقة

العاملين

في لغة R، هناك أربعة أنواع رئيسية من العوامل:

علم الحساب
العلائقية
منطقي
تكليف

بيانات مرتبة

هناك أسباب مقنعة لاستخدام كلا التنسيقين. ولكن كمحلل، من المهم معرفة كيفية ترتيب البيانات عندما تحتاج إلى ذلك. في R، قد يكون لديك إطار بيانات بتنسيق واسع يحتوي على عدة متغيرات وشروط لكل متغير. قد تشعر بالفوضى بعض الشيء.

وهنا يأتي دور Pivot_longer(). كجزء من حزمة Tidyr، يمكنك استخدام وظيفة R هذه لإطالة البيانات في إطار البيانات عن طريق زيادة عدد الصفوف وتقليل عدد الأعمدة. وبالمثل، إذا كنت تريد تحويل بياناتك لتحتوي على عدد أكبر من الأعمدة وصفوف أقل، فيمكنك استخدام الدالة Pivot_wider().

تصور البيانات مع ggplot2

تتيح لك حزمة ggplot2 إنشاء مخططات عالية الجودة وقابلة للتخصيص لبياناتك. كتجديد، يعتمد ggplot2 على قواعد الرسومات، وهو نظام لوصف وبناء تصورات البيانات. الفكرة الأساسية وراء قواعد الرسومات هي أنه يمكنك بناء أي قطعة أرض من نفس المكونات الأساسية، مثل كتل البناء.

تتضمن هذه اللبنات ما يلي:

مجموعة بيانات
مجموعة من الجيوم: تشير جيوم إلى الكائن الهندسي المستخدم لتمثيل بياناتك. على سبيل المثال، يمكنك استخدام النقاط لإنشاء مخطط مبعثر، والأشرطة لإنشاء مخطط شريطي، والخطوط لإنشاء مخطط خطي، وما إلى ذلك.
مجموعة من السمات الجمالية: الجمالية هي خاصية بصرية لكائن ما في قطعة الأرض الخاصة بك. يمكنك التفكير في الجمالية على أنها اتصال أو رسم خرائط بين ميزة مرئية في حبكتك
ومتغير في بياناتك. على سبيل المثال، في مخطط التشتت، تشتمل العناصر الجمالية على أشياء مثل الحجم أو الشكل أو اللون أو الموقع (المحور السيني والمحور الصادي) لنقاط البيانات الخاصة بك.

لإنشاء قطعة أرض باستخدام ggplot2، عليك أولاً اختيار مجموعة بيانات. بعد ذلك، يمكنك تحديد كيفية تنظيم بياناتك بشكل مرئي على نظام إحداثي عن طريق اختيار Geom لتمثيل نقاط البيانات الخاصة بك والجماليات لتعيين المتغيرات الخاصة بك.

شفرة

تثبيت.حزم ('ggplot2')
install.packages('dplyr')
### تثبيت مجموعة البيانات
install.packages('palmerpenguins')
مكتبة (ggplot2)
مكتبة (دبلير)
### قم بتحميل مجموعة البيانات
مكتبة (طيور البطريق)
البيانات (طيور البطريق)
### عرض مجموعة البيانات
عرض (طيور البطريق)
### ggplot(data = penguins):** في ggplot2، تبدأ مؤامرة باستخدام وظيفة ggplot(). تقوم الدالة ggplot() بإنشاء نظام إحداثي يمكنك إضافة طبقات إليه. الوسيطة الأولى للدالة ggplot() هي مجموعة البيانات التي سيتم استخدامها في المخطط. في هذه الحالة، هو "طيور البطريق".
### بعد ذلك، تقوم بإضافة رمز "+" لإضافة طبقة جديدة إلى مخططك. يمكنك إكمال المخطط الخاص بك عن طريق إضافة طبقة واحدة أو أكثر إلى ggplot().
### Geom_point()**: بعد ذلك، يمكنك اختيار Geom عن طريق إضافة وظيفة Geom. تستخدم الدالة Geom_point() النقاط لإنشاء مخططات مبعثرة، وتستخدم الدالة Geom_bar الأشرطة لإنشاء مخططات شريطية، وما إلى ذلك. في هذه الحالة، اختر وظيفة Geom_point لإنشاء مخطط مبعثر للنقاط. تأتي حزمة ggplot2 مع العديد من الوظائف الجغرافية المختلفة. سوف تتعلم المزيد عن الجيومات لاحقًا في هذه الدورة.
### (mapping = aes(x = flipper_length_mm, y = body_mass_g))**: كل دالة جغرافية في ggplot2 تأخذ وسيطة تعيين. يحدد هذا كيفية تعيين المتغيرات في مجموعة البيانات الخاصة بك إلى الخصائص المرئية. يتم دائمًا إقران وسيطة التعيين مع الدالة aes(). تحدد الوسيطتان x وy للدالة aes() المتغيرات التي سيتم تعيينها إلى المحور x والمحور y لنظام الإحداثيات. في هذه الحالة، تريد تعيين المتغير "flipper_length_mm" إلى المحور x، والمتغير "body_mass_g" إلى المحور y.
ggplot(data = طيور البطريق) + Geom_point(mapping = aes(x = flipper_length_mm، y = body_mass_g))
### أو حدد أيضًا السمات الجمالية
ggplot(طيور البطريق, aes(x = flipper_length_mm, y = body_mass_g، اللون = الناقل، الحجم = وقت الهواء، الشكل = الناقل )) + Geom_point()
### يتيح التجانس ** اكتشاف اتجاه البيانات حتى عندما لا تتمكن بسهولة من ملاحظة الاتجاه من نقاط البيانات المرسومة. تعد وظيفة التجانس في Ggplot2 مفيدة لأنها تضيف **خط التجانس** كطبقة أخرى إلى المخطط؛ يساعد خط التجانس البيانات على أن تكون منطقية للمراقب العادي
### **Gam Smoothing** مفيد لتجانس المؤامرات التي تحتوي على عدد كبير من النقاط.
ggplot(طيور البطريق, aes(x = flipper_length_mm, y = body_mass_g)) + Geom_point () + Geom_smooth (الطريقة = "gam" , الصيغة = ص ~ ق (خ))
### **تمهيد اللوس** تعتبر عملية تنعيم اللوس هي الأفضل لتنعيم المخططات التي تحتوي على أقل من 1000 نقطة.
ggplot(طيور البطريق, aes(x = flipper_length_mm, y = body_mass_g)) + Geom_point () + Geom_smooth (الطريقة = "اللوس")
### Geom_jitter()
### يمكن للمحلل استخدام الدالة Geom_jitter() لتسهيل العثور على النقاط. تضيف الدالة Geom_jitter() مقدارًا صغيرًا من الضوضاء العشوائية إلى كل نقطة في المخطط، مما يساعد في التعامل مع تداخل النقاط.
### تتيح لك وظيفةfacet_wrap(~variable_name) عرض مجموعات أصغر أو مجموعات فرعية من بياناتك.
مختبرات ### () لإنشاء عنوان للتصور الخاص بك والتعليق التوضيحي () لإضافة ملاحظات إلى مخططك.
### **ggsave('filename.jpg')** لحفظ قطعة الأرض الخاصة بك

التوثيق والتقارير

R Markdown هي أداة مفيدة تسمح لك بحفظ التعليمات البرمجية وتنفيذها وإنشاء تقارير قابلة للمشاركة لأصحاب المصلحة.
R Markdown هو تنسيق ملف لإنشاء مستندات ديناميكية باستخدام R. هذه المستندات، المعروفة أيضًا باسم دفاتر الملاحظات، هي سجلات تحليل تساعدك وأعضاء فريقك وأصحاب المصلحة على فهم ما فعلته في تحليلك للوصول إلى استنتاجاتك. يمكنك نشر دفتر ملاحظات كملف html، أو pdf، أو Word، أو بتنسيق آخر مثل عرض الشرائح.

المهام

- يرتب ()

يمكن استخدام الدالة dplyr ترتيب () لإعادة ترتيب (أو فرز) الصفوف حسب متغير واحد أو أكثر.

إعادة ترتيب الصفوف حسب Sepal.Length بترتيب تصاعدي
إعادة ترتيب الصفوف حسب Sepal.Length بترتيب تنازلي. استخدم الدالة desc() :
إعادة ترتيب الصفوف حسب متغيرات متعددة: Sepal.Length وSepal.width

شفرة

ترتيب my_data %>% (Sepal.Length)
my_data %>% ترتيب (تنازلي (Sepal.Length))
ترتيب (my_data، -Sepal.Length)

– as_data_frame()

تحويل البيانات المحملة إلى Tibble

شفرة

# قم بإنشاء my_data
my_data <- iris
# تحويل إلى مكتبة tibble ("tibble")
my_data <- as_data_frame (my_data)
طباعة #
بياناتي

- بيانات()

لسرد مجموعات البيانات المتاحة

- توحد()
يمكن استخدام الدالة Unite()‎ لدمج الأعمدة
– أسماء نظيفة ()
ستتأكد الدالة clean_names()‎ تلقائيًا من أن أسماء الأعمدة فريدة ومتسقة
- أسماء الأعمدة (مجموعة البيانات أو إطار البيانات)

الحصول على قائمة بأسماء الأعمدة

- Skim_without_charts (مجموعة البيانات) أو لمحة () أو ملخص ()

احصل على عرض شامل ومعلومات حول مجموعة البيانات.

- منقي ()
تتيح وظيفة التصفية لمحلل البيانات تحديد أي جزء من البيانات يريد عرضه

شفرة

السؤال 5

يعمل محلل البيانات مع بيانات طيور البطريق. هم
اكتب الكود التالي:
طيور البطريق %>%
يتضمن _الأنواع_ المتغيرة ثلاثة أنواع من البطاريق: أديلي، وحزام الذقن، وجنتو. ما هي مجموعة التعليمات البرمجية التي يضيفها المحلل لإنشاء إطار بيانات يتضمن فقط
أنواع الجنتو؟
عامل التصفية (الأنواع == "Gentoo")

- تحور ()

التعامل مع إطار البيانات والأعمدة

شفرة

السؤال 7
يعمل محلل البيانات باستخدام إطار بيانات يسمى _salary_data_. إنهم يريدون إنشاء عمود جديد باسم _total_wages_ يجمع البيانات معًا في العمودين _standard_wages_ و_overtime_wages_. ما هي مجموعة التعليمات البرمجية التي تتيح للمحلل إنشاء عمود _total_wages_؟
mutate(salary_data, Total_wages = Standard_wages + العمل الإضافي_الأجور)

- تحيز()

يمكن استخدام وظيفة التحيز () لحساب متوسط المبلغ الناتج المتوقع والنتيجة الفعلية تختلف من أجل تحديد ما إذا كان نموذج البيانات متحيزًا.

دراسة الحالة

باعتبارك جزءًا من فريق علوم البيانات في Gourmet Analytics، فإنك تستخدم تحليلات البيانات لتقديم المشورة للشركات في مجال صناعة الأغذية. تقوم بتنظيف البيانات وتنظيمها وتصورها للوصول إلى رؤى من شأنها أن تفيد عملائك. باعتبارك عضوًا في فريق تعاوني، فإن مشاركة تحليلك مع الآخرين يعد جزءًا مهمًا من عملك.

عميلك الحالي هو Chocolate and Tea، وهي سلسلة مقاهي ناشئة.

يجمع المطعم بين قائمة واسعة من أنواع الشاي الفاخرة مع ألواح الشوكولاتة من جميع أنحاء العالم. تشمل اختياراتهم المتنوعة كل شيء بدءًا من شوكولاتة حليب الموز، إلى شوكولاتة اليوسفي البيضاء، إلى الشوكولاتة الداكنة مع الفستق والتين. القائمة الموسوعية لألواح الشوكولاتة هي أساس جاذبية العلامة التجارية للشوكولاتة والشاي. مبيعات ألواح الشوكولاتة هي المحرك الرئيسي للإيرادات.

تهدف الشوكولاتة والشاي إلى تقديم ألواح الشوكولاتة التي تحظى بتقدير كبير من قبل النقاد المحترفين. كما يقومون أيضًا بتعديل القائمة باستمرار للتأكد من أنها تعكس التنوع العالمي لإنتاج الشوكولاتة. يقوم فريق الإدارة بتحديث قائمة ألواح الشوكولاتة بانتظام لتتماشى مع أحدث التقييمات وللتأكد من أن القائمة تحتوي على ألواح من مجموعة متنوعة من البلدان.

لقد طلبوا منك جمع وتحليل البيانات حول أحدث تقييمات الشوكولاتة. وعلى وجه الخصوص، يرغبون في معرفة البلدان التي تنتج ألواح الشوكولاتة الداكنة الأعلى تصنيفًا (نسبة عالية من الكاكاو). ستساعدهم هذه البيانات في إنشاء قائمة ألواح الشوكولاتة التالية.

شفرة

مكتبة (مرتبة)
### قبل أن تبدأ العمل مع بياناتك، تحتاج إلى استيرادها وحفظها كإطار بيانات. للبدء، عليك فتح مساحة عمل RStudio وتحميل مكتبة tidyverse. يمكنك تحميل ملف .csv يحتوي على البيانات إلى RStudio وتخزينه في مجلد مشروع يسمى Flavors_of_cacao.csv.
### **يمكنك استخدام الدالة read_csv() لاستيراد البيانات من ملف .csv. افترض أن اسم إطار البيانات هوBars_df وأن الملف .csv موجود في دليل العمل.** **ما هي مجموعة التعليمات البرمجية التي تتيح لك إنشاء إطار البيانات؟**
Bars_df <- read_csv("flavors_of_cacao.csv")
### الآن بعد أن قمت بإنشاء إطار بيانات، فأنت تريد معرفة المزيد حول كيفية تنظيم البيانات. يحتوي إطار البيانات على مئات الصفوف والكثير من الأعمدة.
### **افترض أن اسم إطار البيانات الخاص بك هو Flavors_df.**
**ما هي مجموعة التعليمات البرمجية التي تتيح لك مراجعة أسماء الأعمدة في إطار البيانات؟**
أسماء الأعمدة (flavors_df)
### بعد ذلك، تبدأ في تنظيف بياناتك. عندما تقوم بفحص عناوين الأعمدة في إطار البيانات الخاص بك، تلاحظ أن العمود الأول يسمى _Company...Maker.if.known._ (ملاحظة: الفترة بعد _known_ هي جزء من اسم المتغير.) من أجل الوضوح والاتساق ، قررت إعادة تسمية هذا العمود _Company_ (بدون نقطة في النهاية).
إعادة تسمية (الشركة…Maker.if.known. <- الشركة)
### بعد معاينة بياناتك وتنظيفها، يمكنك تحديد المتغيرات الأكثر صلة بتحليلك. ينصب تركيزك الأساسي على _Rating_ و_Cocoa.Percent_ و_Company_. لقد قررت استخدام وظيفة التحديد () لإنشاء إطار بيانات جديد باستخدام هذه المتغيرات الثلاثة فقط. **أضف مجموعة التعليمات البرمجية التي تتيح لك تحديد المتغيرات الثلاثة.**
حدد (التقييم، نسبة الكاكاو، الشركة)
### بعد ذلك، عليك تحديد الإحصائيات الأساسية التي يمكن أن تساعد فريقك على فهم نظام التصنيفات في بياناتك بشكل أفضل.
### **افترض أن الجزء الأول من الكود الخاص بك هو:**
### قلص_النكهات_df %>%
### **تريد استخدام الدالتين تلخيص() وmax() للعثور على الحد الأقصى لتصنيف بياناتك. أضف مجموعة التعليمات البرمجية التي تتيح لك العثور على الحد الأقصى لقيمة المتغير** **_Rating_**
###بعد الانتهاء من تحليلك لنظام التصنيف، تحدد أن أي تقييم أكبر من أو يساوي 3.9 نقطة يمكن اعتباره تقييمًا مرتفعًا. أنت تعلم أيضًا أن Chocolate and Tea تعتبر القطعة من الشوكولاتة الداكنة للغاية إذا كانت نسبة الكاكاو في القطعة أكبر من أو تساوي 75%. لقد قررت إنشاء إطار بيانات جديد لمعرفة أي ألواح الشوكولاتة تلبي هذين الشرطين.
###**افترض أن الجزء الأول من الكود الخاص بك هو:**
### best_trimmed_flavors_df <- Trimmed_flavors_df %>%
###**تريد تطبيق الدالة filter() على المتغيرات** **_Cocoa.Percent_** **and** **_Rating_****. أضف مقطع التعليمات البرمجية الذي يتيح لك تصفية إطار البيانات الخاص بألواح الشوكولاتة التي تحتوي على 75% كاكاو على الأقل ولها تصنيف لا يقل عن 3.9 نقطة.**
مرشح (نسبة الكاكاو >= '75%' والتقييم >= 3.9)
### الآن بعد أن قمت بتنظيف بياناتك وتنظيمها، أصبحت جاهزًا لإنشاء بعض تصورات البيانات المفيدة. يقوم فريقك بتكليفك بمهمة إنشاء سلسلة من التصورات بناءً على الطلبات المقدمة من فريق إدارة الشوكولاتة والشاي. لقد قررت استخدام ggplot2 لإنشاء العناصر المرئية الخاصة بك.
### **افترض أن السطر الأول من التعليمات البرمجية هو:**
### ggplot(البيانات = best_trimmed_flavors_df) +
### **أنت تريد استخدام الدالة Geom_bar() لإنشاء مخطط شريطي. أضف مجموعة التعليمات البرمجية التي تتيح لك إنشاء مخطط شريطي باستخدام المتغير** **_Rating_** **على المحور السيني**
Geom_bar(mapping = aes(x =Rating))
### يكشف المخطط الشريطي الخاص بك عن المواقع التي تنتج ألواح الشوكولاتة الأعلى تقييمًا. للحصول على فكرة أفضل عن التقييم المحدد لكل موقع، قد ترغب في تمييز كل شريط.
### ** افترض أنك تعمل مع ما يلي شفرة:**
### ggplot(البيانات = best_trimmed_flavors_df) +
### Geom_bar(mapping = aes(x = Company.Location))
### **أضف مجموعة التعليمات البرمجية إلى السطر الثاني من التعليمات البرمجية لتعيين الشكل الجمالي** **_fill_** **إلى المتغير** **_Rating_****.**
### **ملاحظة: تشير النقاط الثلاث (...) إلى مكان إضافة مجموعة التعليمات البرمجية.**
Geom_bar(mapping = aes(x = Company.Location, fill=Rating))
### يقوم أحد أعضاء الفريق بإنشاء قطعة أرض جديدة بناءً على بيانات قطعة الشوكولاتة. يطلب منك زميل الفريق إجراء بعض المراجعات على الكود الخاص به.
### **افترض أن زميلك في الفريق يشارك الكود التالي
قطعة:**
### ggplot(البيانات = best_trimmed_flavors_df) +
Geom_bar(mapping = aes(x = الشركة)) +
### **ما هي مجموعة التعليمات البرمجية التي تضيفها إلى السطر الثالث لإنشاء التفاف حول جوانب المتغير** **_Company_**
facet_wrap(~الشركة)
### قام فريقك بإنشاء بعض التصورات الأساسية لاستكشاف الجوانب المختلفة لبيانات قطع الشوكولاتة. لقد تطوعت لإضافة عناوين إلى المؤامرات. عليك أن تبدأ مع مخطط التشتت.
### **افترض أن الجزء الأول من مجموعة التعليمات البرمجية الخاصة بك هو:**
### ggplot(data = Trimmed_flavors_df) + Geom_point(mapping = aes(x = Cocoa.Percent, y = Rating)) +
### **ما هي مجموعة التعليمات البرمجية التي تضيفها إلى السطر الثالث لإضافة العنوان** **_الشوكولاتة المقترحة_** **إلى قطعة أرضك**
labs(العنوان = "الشوكولاتة المقترحة")
### بعد ذلك، قم بإنشاء مخطط تبعثر جديد لاستكشاف العلاقة بين المتغيرات المختلفة. تريد حفظ قطعة الأرض الخاصة بك حتى تتمكن من الوصول إليها لاحقًا. أنت تعلم أن وظيفة ggsave() تقوم افتراضيًا بحفظ المخطط الأخير الذي قمت بعرضه في RStudio، لذا فأنت جاهز لكتابة الكود لحفظ مخطط التشتت الخاص بك.
### **افترض أن أول سطرين من التعليمات البرمجية لديك هما:**
### ggplot(data = Trimmed_flavors_df) + Geom_point(mapping = aes(x = Cocoa.Percent, y = Rating))
### **ما هي مجموعة التعليمات البرمجية التي تضيفها إلى السطر الثالث لحفظ مؤامرة كملف jpeg مع ** **_chocolate_** ** كاسم الملف **
ggsave("chocolate.jpeg")

عن المؤلف

أقوم بإنشاء ملاحظات حول الأمن السيبراني وملاحظات التسويق الرقمي والدورات التدريبية عبر الإنترنت. أقدم أيضًا استشارات التسويق الرقمي بما في ذلك، على سبيل المثال لا الحصر، تحسين محركات البحث وإعلانات Google وMeta وإدارة CRM.

عرض المقالات