برنامج مستدام ل استخراج بيانات الوظائف من موقع wuzzuf

تفاصيل العمل

قمت بتطوير برنامج مستدام لسحب البيانات وظائف بايثون من موقع wuzzuf ...

كان عمل هذا البرنامج يمثل تحدي ، حيث ان اغلب عمليات web scraping مثل wuzzuf تكون لمرة واحدة فقط أو بعد فترة وجيزة يقوم البرنامج بتعطل وذلك بسبب التقنيات التي تتبعها هذه المواقع لمحاربة web scraping مثل : اسماء الكلاسات المتغيرة ، التي تتغير كل فترة و العناصر المضافة ب JavaScript وغيرها.

ولهذا توجب اعتماد تقنية خاصة ل عمل web scraping لهذه الموقع....

التقنية: ببساطة تستغل فكرة ثبات هيكل html وتعتمد عليه وعلى ترتيب العناصر بالنسبة للأبناء والآباء .

البرنامج مكتوب بلغة بايثون

يوجد ملف مرفق باسم "Scraping_Data.xlsx" يحتوي البيانات المسحوبة في فترة عمل البرنامج

يوجد ملف مرفق باسم "WUZZUF Scraping.rar" يحتوي السورس كود للبرنامج فيه :

ملف document يعبر عن الكود الخام التحضيري لعملية سحب البيانات .

ملف myLib يحتوي دوال فيها نفس كودdocument بطريقة مرتبة لكي يتم استخدامه ك مكتبة

ملف main الملف التشغيلي للبرنامج

ملاحظة : صحيح اني الذكرت ان هذا البرنامج مستدام ولكن في الحقيقة لاشيء مضمون او دائم ، هي فقط طريقة تجعل البرنامج يعمل لأطول فترة ممكنة .

وقد يقوم الموقع في يوم ما بالتغلب على هذه التقنية من اجل منع سحب البيانات منه .

ملفات مرفقة