تفاصيل العمل

قبل (الجدول الأيسر):

Tweet ID: أرقام تعريف للتغريدات. نلاحظ وجود الرقم "66" مكرر لـ "Emma".

Name (الاسم): أسماء المستخدمين.

tweet (التغريدة): محتوى التغريدة.

date (التاريخ): تواريخ التغريدات، بتنسيق غير موحد ("6/28/19"، "7/1/19").

m_reply_to: عمود يبدو أنه يشير إلى الردود. يحتوي على "NaN" وقيمة "1" وقيمة "501".

likes (إعجابات): عدد الإعجابات.

ملاحظات أسفل الجدول:

Repeated Rows (صفوف مكررة): توجد أسهم تشير إلى الصفوف المتكررة لـ "Emma" ذات "Tweet ID" رقم 66.

Missing Values (قيم مفقودة): سهم يشير إلى "NaN" في عمود "m_reply_to".

بعد (الجدول الأيمن):

tweet_id: تم توحيد اسم العمود من "Tweet ID" إلى "tweet_id" (حروف صغيرة وشرطة سفلية). وتم إزالة الصف المكرر لـ "Emma"، فلم يعد يظهر "66" مرتين.

name (الاسم): كما هو.

tweet (التغريدة): محتوى التغريدة، مع تغيير في التنسيق لبعض التغريدات (مثال: إضافة رمز تعبيري). هذا يشير إلى "بيانات منظفة (Cleaned Data)".

date (التاريخ): تم توحيد تنسيق التاريخ من "6/28/19" إلى "2019-06-28"، وهو تنسيق قياسي (YYYY-MM-DD). هذا أيضًا يمثل "بيانات منظفة".

likes (إعجابات): بقي العمود، ولكن القيم تبدو أنها تم تعديلها في بعض الحالات (مثال: 10 أصبحت 2، 0 أصبحت 8 - هذا قد يشير إلى معالجة أو تحديث للقيم أو أن القيم تغيرت بناءً على إزالة الصفوف المكررة وتجميع البيانات).

retweets (إعادة التغريد): تم إضافة عمود جديد باسم "retweets" ويحتوي على قيم، مما يدل على أن العمود "m_reply_to" تم إزالته واستبداله بهذا العمود، أو أن هذا العمود تم استخراجه أو إضافته من مصادر أخرى.

ملاحظات أسفل الجدول:

Standardized Column Names (أسماء أعمدة موحدة): تشير إلى التغييرات في تسمية الأعمدة.

Cleaned Data (بيانات منظفة): تشير إلى تحسين جودة البيانات داخل الأعمدة (مثل تنسيق التاريخ ومحتوى التغريدات).

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
5
تاريخ الإضافة