تخفیف عضویت ویژه تا 25 اردیبهشت

دوره آموزش وب اسکرپینگ(web scraping) در پایتون

# وب اسکرپینگ چیست؟

به دوره آموزش وب اسکرپینگ با پایتون خوش آمدید! وب اسکرپینگ فرآیند استفاده از ربات ها برای استخراج محتوا و داده ها از یک وب سایت است. این اطلاعات جمع آوری شده و سپس به فرمتی که برای کاربر مفیدتر است استخراج می شود. اگرچه استخراج اطلاعات را می توان به صورت دستی نیز انجام داد، اما در بیشتر موارد ابزارهای خودکار ترجیح داده می شوند زیرا می توانند هزینه کمتری داشته باشند و با سرعت بیشتری کار کنند. اما در بیشتر موارد، استخراج اطلاعات کار ساده ای نیست. وب سایت ها اشکال و ساختارهای مختلفی دارند، در نتیجه اسکراپرهای وب از نظر عملکرد و ویژگی ها متفاوت هستند.

قبل از اینکه شروع به دیدن دوره آموزش وب اسکرپینگ پایتون کنید بهتر است به این موضوع دقت کنید که برخی از وب سایت ها به صراحت کاربران را از web scraping با ابزارهای خودکار منع می کنند. وب سایت ها این کار را به دو دلیل ممکن انجام می دهند:

 

1. سایت دلیل خوبی برای محافظت از داده های خود دارد. به عنوان مثال، Google Maps به شما اجازه نمی‌دهد که خیلی سریع نتایج زیادی درخواست کنید.

2. درخواست‌های مکرر زیاد به سرور یک وب‌سایت ممکن است پهنای باند آن را مصرف کند، سرعت وب‌سایت را برای سایر کاربران کاهش دهد و سرور را بیش از حد تحت فشار قرار دهد به شکلی که وب‌سایت نتواند به طور کامل پاسخ درخواست ها را بدهد.

 

قبل از استفاده از مهارت‌های پایتون برای وب اسکرپینگ، همیشه باید خط‌مشی استفاده قابل قبول وب‌سایت مورد نظر خود را بررسی کنید تا ببینید آیا دسترسی به وب‌سایت با ابزارهای خودکار نقض شرایط استفاده از آن است یا خیر. وب اسکرپینگ اطلاعات بر خلاف میل یک وب سایت عملی غیر اخلاقی است. در این دوره وب اسکرپینگ همواره بر رعایت اصول حرفه‌ای و اخلاقی تاکید شده است.

 

# در دوره وب اسکرپینگ پایتون چه چیزی می آموزیم؟

در این دوره آموزش وب اسکرپینگ با سه ابزار بسیار پرکاربرد پایتون آشنا خواهید شد. ابتدا با پکیج requests کار خواهید کرد که برای ارسال درخواست های http استفاده میشود. کتابخانه requests یکی از محبوب ترین کتابخانه های پایتون برای وب اسکرپینگ است که ماهانه 300 میلیون بار دانلود میشود. سپس به سراغ کتابخانه Beautiful Soup پایتون خواهیم رفت که برای تجزیه اسناد HTML و XML استفاده میشود و معمولا در کنار کتابخانه requests قرار میگیرد. در نهایت با بخش های مختلف فریمورک Scrapy آشنا خواهید شد. کتابخانه scrapy یک ابزار رایگان و منبع باز است که برای خزش در صفحات وب طراحی شده است و در اکثر پروژه های وب اسکرپینگ پایتون استفاده میشود.

 

مهم ترین ابزارهای وب اسکرپینگ پایتون

 

# پیش نیازهای دوره وب اسکرپینگ پایتون

برای تماشای دوره آموزش وب اسکرپینگ پایتون نیاز به دانش پیش زمنیه زیادی ندارید. از آنجایی که قرار است از پایتون برای استخراج اطلاعات سایت ها استفاده کنیم پس منطقی است که ابتدا پایتون بلد باشیم. این دوره آموزش وب اسکرپینگ مناسب افرادی است که پایتون را بلد هستند. نیازی نیست خیلی در پایتون حرفه‌ای باشید ولی باید به مسائل ابتدایی و همچنین شی گرایی پایتون مسلط باشید. برای یادگیری پایتون میتوانید دوره آموزش پایتون را ببینید. همچنین لازم است که ویدیو آموزش پروتکل Http را نیز ببینید.

 

سورس کد این دوره را میتوانید از اینجا دانلود کنید.

مطالب این دوره به شکل کامل آپدیت شده است.



0

intro

3:17

رایگان

1

requests

8:29

رایگان

2

Beautiful Soup

18:21

3

got example

18:17

4

hacker news

19:21

5

querystring

21:26

6

login

17:36

7

headers

10:38

8

cookie

17:22

10

scrapy

16:47

11

selectors

21:41

12

items

30:12

13

pipeline

15:18

14

follow

14:7

15

Requests

9:51

16

LinkExtractor

10:10

17

Rule

17:20

18

FormRequest

16:57

19

download files

10:18

20

Feeds

11:40

21

middleware

22:14

22

splash

12:37

23

done

3:2

دوره های پیشنهادی

دوره آموزش ریاضیات یادگیری ماشین
دوره آموزش ریاضیات یادگیری ماشین
تکمیل ضبط
امیرحسین بیگدلو
دوره آموزش شل اسکریپت نویسی(shell scripting)
دوره آموزش شل اسکریپت نویسی(shell scripting)
تکمیل ضبط
امیرحسین بیگدلو
دوره آموزش pandas پایتون
دوره آموزش pandas پایتون
تکمیل ضبط
امیرحسین بیگدلو



مونگارد