مقدمة
نادراً ما تأتي البيانات الواقعية نظيفة. باستخدام Python ومكتباتها، سنجمع البيانات من مجموعة متنوعة من المصادر وبصيغ متنوعة، ونتحقق من جودتها ونظامها، ثم نقوم بتنظيفها. هذا ما يسمى بمعالجة البيانات.
سنوثق ذلك في دفتر Jupyter، بالإضافة إلى عرضها من خلال التحليلات والتصورات باستخدام Python (ومكتباتها) و / أو SQL.
مجموعة البيانات التي سنعمل على معالجتها ( وتحليلها وتصورها) هي أرشيف تغريدات مستخدم تويتر @dog_rates، المعروف أيضًا باسم WeRateDogs
. WeRateDogs هو حساب على تويتر يقيم كلاب الأشخاص بتعليق فكاهي حول الكلب. هذه التقييمات تكون دائمًا مقامها 10. البسط؟ دائمًا أكبر من 10. 11/10، 12/10، 13/10، إلخ.
لماذا؟ لأن "هم كلاب جيدة برنت".
يمتلك WeRateDogs أكثر من 4 ملايين متابع وحصل على تغطية إعلامية دولية.
يحتوي هذا الأرشيف على بيانات تغريدة أساسية (معرف التغريدة، الطابع الزمني، النص، إلخ.) لجميع التغريدات الـ 5000+ كما كانت في 1 أغسطس 2017. المزيد عن هذا قريبًا.
نظرة عامة على خطوات المشروع
المهام في هذا المشروع هي كما يلي:
الخطوة 1: جمع البيانات
الخطوة 2: تقييم البيانات
الخطوة 3: تنظيف البيانات
الخطوة 4: تخزين البيانات
الخطوة 5: تحليل وتصور البيانات
الخطوة 6: التقرير
معالجة البيانات في pdf
تحليلات البيانات والتصورات