# وب اسکرپینگ چیست؟
به دوره آموزش وب اسکرپینگ با پایتون خوش آمدید! وب اسکرپینگ فرآیند استفاده از ربات ها برای استخراج محتوا و داده ها از یک وب سایت است. این اطلاعات جمع آوری شده و سپس به فرمتی که برای کاربر مفیدتر است استخراج می شود. اگرچه استخراج اطلاعات را می توان به صورت دستی نیز انجام داد، اما در بیشتر موارد ابزارهای خودکار ترجیح داده می شوند زیرا می توانند هزینه کمتری داشته باشند و با سرعت بیشتری کار کنند. اما در بیشتر موارد، استخراج اطلاعات کار ساده ای نیست. وب سایت ها اشکال و ساختارهای مختلفی دارند، در نتیجه اسکراپرهای وب از نظر عملکرد و ویژگی ها متفاوت هستند.
قبل از اینکه شروع به دیدن دوره آموزش وب اسکرپینگ پایتون کنید بهتر است به این موضوع دقت کنید که برخی از وب سایت ها به صراحت کاربران را از web scraping با ابزارهای خودکار منع می کنند. وب سایت ها این کار را به دو دلیل ممکن انجام می دهند:
1. سایت دلیل خوبی برای محافظت از داده های خود دارد. به عنوان مثال، Google Maps به شما اجازه نمیدهد که خیلی سریع نتایج زیادی درخواست کنید.
2. درخواستهای مکرر زیاد به سرور یک وبسایت ممکن است پهنای باند آن را مصرف کند، سرعت وبسایت را برای سایر کاربران کاهش دهد و سرور را بیش از حد تحت فشار قرار دهد به شکلی که وبسایت نتواند به طور کامل پاسخ درخواست ها را بدهد.
قبل از استفاده از مهارتهای پایتون برای وب اسکرپینگ، همیشه باید خطمشی استفاده قابل قبول وبسایت مورد نظر خود را بررسی کنید تا ببینید آیا دسترسی به وبسایت با ابزارهای خودکار نقض شرایط استفاده از آن است یا خیر. وب اسکرپینگ اطلاعات بر خلاف میل یک وب سایت عملی غیر اخلاقی است. در این دوره وب اسکرپینگ همواره بر رعایت اصول حرفهای و اخلاقی تاکید شده است.
# در دوره وب اسکرپینگ پایتون چه چیزی می آموزیم؟
در این دوره آموزش وب اسکرپینگ با سه ابزار بسیار پرکاربرد پایتون آشنا خواهید شد. ابتدا با پکیج requests کار خواهید کرد که برای ارسال درخواست های http استفاده میشود. کتابخانه requests یکی از محبوب ترین کتابخانه های پایتون برای وب اسکرپینگ است که ماهانه 300 میلیون بار دانلود میشود. سپس به سراغ کتابخانه Beautiful Soup پایتون خواهیم رفت که برای تجزیه اسناد HTML و XML استفاده میشود و معمولا در کنار کتابخانه requests قرار میگیرد. در نهایت با بخش های مختلف فریمورک Scrapy آشنا خواهید شد. کتابخانه scrapy یک ابزار رایگان و منبع باز است که برای خزش در صفحات وب طراحی شده است و در اکثر پروژه های وب اسکرپینگ پایتون استفاده میشود.
# پیش نیازهای دوره وب اسکرپینگ پایتون
برای تماشای دوره آموزش وب اسکرپینگ پایتون نیاز به دانش پیش زمنیه زیادی ندارید. از آنجایی که قرار است از پایتون برای استخراج اطلاعات سایت ها استفاده کنیم پس منطقی است که ابتدا پایتون بلد باشیم. این دوره آموزش وب اسکرپینگ مناسب افرادی است که پایتون را بلد هستند. نیازی نیست خیلی در پایتون حرفهای باشید ولی باید به مسائل ابتدایی و همچنین شی گرایی پایتون مسلط باشید. برای یادگیری پایتون میتوانید دوره آموزش پایتون را ببینید. همچنین لازم است که ویدیو آموزش پروتکل Http را نیز ببینید.
سورس کد این دوره را میتوانید از اینجا دانلود کنید.
مطالب این دوره به شکل کامل آپدیت شده است.