يعرض هذا العمل المرحلة الجوهرية في مشاريع تنقيب البيانات، وهي مرحلة توصيف البيانات (Data Description) وفحص خصائصها الإحصائية قبل البدء ببناء النماذج التنبؤية. يركز المشروع على دراسة سلوك المستخدمين وعلاقته بمتغيرات ديموغرافية ونفسية.
قاموس البيانات (Data Dictionary): بناء جدول يحدد المتغيرات (Variables) وأنواعها سواء كانت Nominal (مثل الجنس والمنطقة) أو Numeric (مثل العمر وساعات الاستخدام)، مع وصف دقيق لكل متغير وقيمه المتاحة.
التحليل الإحصائي الوصفي (Descriptive Statistics): استخراج المقاييس الإحصائية لكل ميزة (Feature)، بما في ذلك:
مقاييس النزعة المركزية: حساب المتوسط الحسابي (Mean)، الوسيط (Median)، والمنوال (Mode) لفهم التوزيع العام للبيانات.
مقاييس التشتت والقيم القصوى: تحديد أعلى قيمة (Maximum) وأقل قيمة (Minimum) لكل متغير.
جودة وتدقيق البيانات (Data Quality): التحقق من نسبة البيانات المفقودة (Missing Data)، حيث تظهر النتائج احترافية عالية في جمع البيانات بنسبة 0% من البيانات المفقودة لجميع المتغيرات، مما يضمن دقة النماذج اللاحقة.
تحليل أنماط السلوك: استكشاف متغيرات حيوية مثل "ساعات النوم"، "درجة الصحة النفسية"، و"نقاط الإدمان الرقمي"، وربطها بالأداء الأكاديمي والحالة الاجتماعية.