المشروع ده بيوضح خطوات تنظيف داتا خام لـ FPS Benchmark فيها 24,624 raw و 44 column. الداتا الخام كانت فيها مشكلتين أساسيتين، الأول إن الأعمدة النصية كانت متخزنة كـ Python byte literals يعني بالشكل ده `b'Intel Core i9'` فاتعملهم stripping عشان يرجعوا نص عادي. والمشكلة التانية إن في 4 أعمدة كانت فيهم nulls كتير جداً لدرجة إنها مكانتش بتفيد، فاتشالوا خالص. العمود `GpuNumberOfExecutionUnits` كان فاضي 100%، و`GpuNumberOfComputeUnits` كان فاضي 78%، و`CpuDieSize` مع `CpuNumberOfTransistors` كانوا فاضيين حوالي 53%.
بعد التنظيف الداتا فضلت بنفس الـ 24,624 صف من غير ما يتمسح منهم حاجة، بس الأعمدة بقت 40 بدل 44 وصفر nulls في أي عمود، وبكده الداتا بقت جاهزة تتستخدم في أي تاسك تاني زي machine learning أو neural networkingبالـ FPS من مواصفات الـ CPU والـ GPU.