دوره آموزش وب اسکرپینگ(web scraping) در پایتون

به دوره آموزش وب اسکرپینگ با پایتون خوش آمدید! در این دوره آموزش وب اسکرپینگ با سه ابزار بسیار پرکاربرد پایتون آشنا خواهید شد. ابتدا با پکیج requests کار خواهید کرد که برای ارسال درخواست های http استفاده میشود. کتابخانه requests یکی از محبوب ترین کتابخانه های پایتون برای وب اسکرپینگ است که ماهانه 300 میلیون بار دانلود میشود. سپس به سراغ کتابخانه Beautiful Soup پایتون خواهیم رفت که برای تجزیه اسناد HTML و XML استفاده میشود و معمولا در کنار کتابخانه requests قرار میگیرد. در نهایت با بخش های مختلف فریمورک Scrapy آشنا خواهید شد. کتابخانه scrapy یک ابزار رایگان و منبع باز است که برای خزش در صفحات وب طراحی شده است و در اکثر پروژه های وب اسکرپینگ پایتون استفاده میشود.

 

# وب اسکرپینگ چیست؟

وب اسکرپینگ فرآیند استفاده از ربات ها برای استخراج محتوا و داده ها از یک وب سایت است. این اطلاعات جمع آوری شده و سپس به فرمتی که برای کاربر مفیدتر است استخراج می شود. اگرچه استخراج اطلاعات را می توان به صورت دستی نیز انجام داد، اما در بیشتر موارد ابزارهای خودکار ترجیح داده می شوند زیرا می توانند هزینه کمتری داشته باشند و با سرعت بیشتری کار کنند. اما در بیشتر موارد، استخراج اطلاعات کار ساده ای نیست. وب سایت ها اشکال و ساختارهای مختلفی دارند، در نتیجه اسکراپرهای وب از نظر عملکرد و ویژگی ها متفاوت هستند.

 

مهم ترین ابزارهای وب اسکرپینگ پایتون

 

# پیش نیازهای دوره وب اسکرپینگ پایتون

برای تماشای دوره آموزش وب اسکرپینگ پایتون نیاز به دانش پیش زمنیه زیادی ندارید. از آنجایی که قرار است از پایتون برای استخراج اطلاعات سایت ها استفاده کنیم پس منطقی است که ابتدا پایتون بلد باشیم. این دوره آموزش وب اسکرپینگ مناسب افرادی است که پایتون را بلد هستند. نیازی نیست خیلی در پایتون حرفه‌ای باشید ولی باید به مسائل ابتدایی و همچنین شی گرایی پایتون مسلط باشید. برای یادگیری پایتون میتوانید دوره آموزش پایتون را ببینید. همچنین لازم است که ویدیو آموزش پروتکل Http را نیز ببینید.

 

سورس کد این دوره را میتوانید از اینجا دانلود کنید.

مطالب این دوره به شکل کامل آپدیت شده است.



0

intro

3:17

رایگان

1

requests

8:29

رایگان

2

Beautiful Soup

18:21

3

got example

18:17

4

hacker news

19:21

5

querystring

21:26

6

login

17:36

7

headers

10:38

8

cookie

17:22

10

scrapy

16:47

11

selectors

21:41

12

items

30:12

13

pipeline

15:18

14

follow

14:7

15

Requests

9:51

16

LinkExtractor

10:10

17

Rule

17:20

18

FormRequest

16:57

19

download files

10:18

20

Feeds

11:40

21

middleware

22:14

22

splash

12:37

23

done

3:2

دوره های پیشنهادی

دوره آموزش گیت(git)
دوره آموزش گیت(git)
تکمیل ضبط
امیرحسین بیگدلو
دوره آموزش ساخت Forum با فلسک
دوره آموزش ساخت Forum با فلسک
تکمیل ضبط
امیرحسین بیگدلو
دوره آموزش طراحی پایگاه داده(database)
دوره آموزش طراحی پایگاه داده(database)
تکمیل ضبط
امیرحسین بیگدلو



مونگارد