تفاصيل العمل

قبل (الجدول الأيسر):

صفوف مكررة (Duplicate Rows): يظهر "John Smith" مرتين بنفس "معرف التغريدة (Tweet Id)" ولكن بتواريخ مختلفة، مما يشير إلى إدخال محتمل مكرر.

قيم مفقودة (Missing Values): يُظهر عمود "الإعجابات (Likes)" لـ "John Smith" (الإدخال الأول) "NaN" (ليس رقمًا)، مما يشير إلى قيمة مفقودة.

معالجة البيانات المفقودة (Handle Missing Data): هذه مهمة عامة مشار إليها، تتعلق بـ "NaN".

عمود غير ضروري (Unnecessary Column): تم تسمية عمود "الإعجابات (Likes)" بأنه غير ضروري.

قيم مفقودة (Missing Values): تسمية عامة تشير إلى خلية فارغة تحت "الإعجابات (Likes)" لـ "Anna Lee" (على الرغم من أنها تظهر "0" في الصورة المقدمة، إلا أن التسمية تشير إلى المساحة أدناه، مما يوحي بأنها قد تكون فارغة).

أسماء أعمدة غير قياسية (Non-standard Column Names): أسماء الأعمدة مثل "Tweet Id" و "Date" ليست بتنسيق موحد.

بعد (الجدول الأيمن):

إزالة الصفوف المكررة (Duplicate Rows Removed): تم حذف إدخال "John Smith" المكرر، ولم يتبق سوى إدخال واحد.

معالجة القيم المفقودة (Missing Values Handled): اختفت "NaN" في "الإعجابات" (يبدو أن عمود "الإعجابات" نفسه قد تم حذفه أو استبداله، لأنه غير موجود في جدول "بعد").

إزالة العمود غير الضروري (Unnecessary Column Removed): لم يعد عمود "الإعجابات" موجودًا.

توحيد أسماء الأعمدة (Standardized Column Names):

تم تغيير "Tweet Id" إلى "tweet_id".

تم تغيير "Date" إلى "Jan.Jloa'21" (يبدو هذا مثالاً لتنسيق تاريخ موحد، على الرغم من أن المعنى الدقيق ليس حاسمًا لمفهوم تنظيف البيانات).

تم إدخال عمود جديد "Abc"، ليحل محل "الإعجابات" ويُظهر قيمًا مثل "Feb" و "Apr"، مما يشير إلى نوع مختلف من المعلومات.

باختصار، لقد قمت بإجراء العديد من عمليات تنظيف البيانات، بما في ذلك إزالة التكرارات، ومعالجة البيانات المفقودة، وإزالة الأعمدة غير الضرورية، وتوحيد أسماء الأعمدة.

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
5
تاريخ الإضافة