كود بايثون سحب البيانات من أي موقع (Web Scraper) مجاناً وبخطوتين


مرحباً بكم، إليكم كود بايثون كامل وجاهز لسحب

هل تبحث عن طريقة سريعة واحترافية لجمع البيانات من الإنترنت تلقائياً؟ سواء كنت تريد جمع أسعار المنتجات، عناوين الأخبار، أو تحليل البيانات، فإن لغة بايثون (Python) توفر لك الحل السحري لتوفير ساعات من العمل اليدوي.
في هذا المقال المقدم من مدونة Bebo Tech، سنشرح لك خطوة بخطوة كيفية بناء سكربت ذكي يقوم بسحب العناوين والبيانات من أي موقع إلكتروني باستخدام أقوى مكتبات بايثون: Requests و BeautifulSoup.

مميزات السكربت:
  • مجاني تماماً: يعتمد على مكتبات مفتوحة المصدر.
  • سريع ومرن: يمكنك تشغيله على أي نظام تشغيل (ويندوز، ماك، لينكس).
  • سهل التعديل: يمكنك تكييفه لسحب أي نوع من البيانات (نصوص، روابط، صور).

الكود البرمجي الكامل (جاهز للنسخ)
(تأكد من تبديل لوحة تحكم مدونتك إلى وضع HTML ولصق الكود أدناه لكي يظهر للزوار داخل صندوق منظم)


البيانات من أي موقع إلكتروني بسهولة:


# لتشغيل الكود يجب أولاً تثبيت هذه المكتبات في جهازك:
# pip install requests beautifulsoup4

import requests
from bs4 import BeautifulSoup

def scrape_website(url):
    try:
        headers = {'User-Agent': 'Mozilla/5.0'}
        response = requests.get(url, headers=headers)
        
        if response.status_code == 200:
            soup = BeautifulSoup(response.text, 'html.parser')
            headlines = soup.find_all(['h1', 'h2', 'h3'])
            
            print(f"\n--- تم العثور على {len(headlines)} عنوان في الموقع --- \n")
            
            for index, headline in enumerate(headlines, 1):
                clean_text = headline.text.strip()
                if clean_text:
                    print(f"{index}: {clean_text}")
                    
        else:
            print(f"فشل الاتصال بالموقع. كود الخطأ: {response.status_code}")
            
    except Exception as e:
        print(f"حدث خطأ غير متوقع: {e}")

if __name__ == "__main__":
    print("مرحباً بك في أداة Web Scraper الذكية ببايثون")
    target_url = input("أدخل رابط الموقع الذي تريد سحب بياناته: ")
    scrape_website(target_url)

تأكد من نسخ الكود كاملاً وتثبيت المكتبات المطلوبة لتشغيله بنجاح.

شرح طريقة عمل الكود ببساطة
لكي تفهم كيف يعمل هذا السكربت، قمنا بتقسيمه إلى 3 مراحل أساسية:
  1. استدعاء المكتبات (requests): تقوم هذه المكتبة بدور المتصفح؛ حيث تذهب إلى الرابط الذي تدخله وتجلب كود الـ HTML الخاص بالصفحة بالكامل.
  2. تحليل المحتوى (BeautifulSoup): تقوم هذه المكتبة بقراءة كود الـ HTML المعقد وترتيبه، وتسمح لنا بالبحث عن عناصر محددة داخله بسهولة.
  3. تصفية البيانات (find_all): في هذا السكربت، أمرنا البرنامج بالبحث عن الأوسمة ['h1', 'h2', 'h3'] وهي الأوسمة المسؤولة عن العناوين في المواقع، ثم قمنا بتنظيف النصوص وطباعتها بشكل مرقم ومفهوم.

نصيحة هامة لتشغيل السكربت بنجاح:
قبل تشغيل الكود على جهازك، افتح الـ Terminal أو موجه الأوامر واكتب الأمر التالي لتثبيت المكتبات اللازمة:
pip install requests beautifulsoup4
شاركنا في التعليقات: ما هو الموقع الذي تريد سحب بياناته؟ وإذا واجهتك أي مشكلة في التشغيل، اطرح استفسارك وسيقوم فريق Bebo Tech بالرد عليك فوراً!

Comments