search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

18小時從零掌握Python網路爬蟲

課程目標

1. 快速系統掌握Python網路爬蟲,在最短的時間內,了解Python和網路的基本知識、爬蟲的原理和流程,節約大量學習的時間成本和試錯成本

2. 親自動手寫爬蟲,學會解決異常和問題,搭好爬蟲框架,方便程序的複製和移植

3. 掌握基本功,熟悉各種概念,形成自己的爬蟲體系,並進一步掌握複雜、動態頁面的高級Python爬蟲以及反爬蟲策略

特訓內容

第一課. Python基礎知識(第一天上午)

1、 軟體運行與基本操作

2、 變數與運算:字元、數值

3、 數據結構:列表(list)和字典(dict),用於儲存抓取下來的數據

4、 字元串操作:清洗數據

5、 函數定義和類:搭建爬蟲框架

6、 條件判斷(if):解決爬蟲過程中選擇的問題

7、 循環迭代(for... while...):控制爬蟲持續抓取數據

8、 錯誤與異常的處理:(try... except...)以及藉助網路解決問題

第二課.請求網頁(第一天下午)

(網路爬蟲的原理,最重要的一步)

1、 HTML基礎知識介紹:網頁類型,HTML語言

2、 爬蟲思路

3、 庫:requests(詳細介紹,利用該強大的模塊請求各類網頁)

4、 文件讀寫操作及中文亂碼解決

第三課.提取信息(第二天上午)

1、 利用瀏覽器分析網頁:使用瀏覽器自帶的開發者工具

2、 正則表達式及模塊詳細介紹:re (用於從網頁中獲取所需的結構化的數據)

第四課. 保存數據(第二天下午)

1、 文件存儲格式介紹

2、 文件讀寫

3、 庫:csv,pandas,os,用於創建文件夾和存儲數據

4、 合併數據

5、 初級爬蟲實戰:鏈家、校友捐贈

第五課. 高級爬蟲進階(第三天上午)

複雜動態網頁:

1、 抓包知識與操作詳解(核心)

2、 請求網頁的方式:get和post

3、 靜態網頁和動態網頁

4、 json格式數據獲取

常見反爬蟲策略:

5、 headers簡介及作用

6、 cookies簡介及作用(反爬蟲+模擬登陸)

7、 控制頻率

8、 驗證碼識別(選講)

高效率爬蟲:

9、 多線程(選講)

講師簡介

葉澤心,西南財經大學經濟與管理研究院,四川爬爬帥數據科技有限公司首席技術顧問,曾獲全國大學生數學建模競賽一等獎。擁有非常豐富的經濟金融及社科類數據爬蟲經驗,對各類網站的數據抓取情況都非常熟悉,總結出了一套完整系統而又簡潔實用的數據抓取方法,抓取過國家統計局、環保部、大眾點評、土地市場網、公眾環境研究中心等上百家網站的公開數據。

另外,現場將會有兩名助教,他們有著豐富的python爬蟲經驗,將在現場隨時指導學員。

課程信息報名諮詢

諮詢聯繫人:

電話:010-56204616;

18600520319;

財務服務支持:

13552535030;

可識別報名

注意事項

1、報名截止日期:2017年8月17日 17:00(具體截止日期根據實際招生而定,人員招滿,將會立即關閉報名通道)。

2、如您報名後有事不能參加,請在報名之後的10-15天之內辦理退費,並將收取6%的手續費!2017年8月10日17:00之後不再接受退費!人數不滿30人不開班!

3、本次會議可提供增值稅普通發票,如需開具,請在購買時點開「是否開發票」項,並根據自己單位財務部門要求填寫抬頭和類目信息(一旦開具不能重開),發票類目為:網路會議費、信息服務費、會議費、諮詢費,報名時可以直接任選其一,其他類目無法開具。信息填寫完整的老師可現場領取發票。

4. 請大家自備手提電腦,提前安裝Python軟體(為節約時間,特訓前我們會在微信群中發送網盤鏈接並提供安裝指導)

5. 本次特訓對參與者的Python編程基礎沒有任何要求

6. 本次特訓核心內容均為原創,暫無指定教材或網路課程

7. 參與者會得到電子版的內部課件及爬蟲源代碼以便後續鞏固

8. 食宿及交通費用自理

9. 結束后,在微信群中可繼續享受長期免費答疑

FAQ

1. 什麼是網路爬蟲?

網路爬蟲是一種按照一定的規則,自動地抓取網頁信息的程序。因此,人們根據自己的需求,編寫程序制定網路爬蟲使其自動地抓取特定網頁的信息。網路爬蟲可以使計算機代替手工做事,大大提高獲取數據的效率。

2. 為什麼要學習網路爬蟲?

經濟學家的研究也越來越離不開數據的支持。以2012年第1期的《經濟研究》為例,11篇學術文章, 除了一篇純理論研究的文章外,其餘10篇均引用了各種數據。 在經濟學工作者常常訪問的論壇里也充斥大量關於數據的下載、交換和交易的信息。

為了獲取所需的數據, 經濟學家不得不投入大量資金來搜集、 購買各種資料庫。如果數據已經被很好的整理,即使需要高價購置,對經濟學家而言已屬幸運,實際上很多研究所需的數據往往無處尋覓或者分散在多處。 好在隨著互聯網的發展,電子商務、電子政務的逐漸推廣,部分數據在網站上直接公開了,只是並未以良好的格式加以組織、對研究者不夠友好。

——鍾鋥光《經濟學家也要學點網路爬蟲技術》

不僅僅是經管類研究,在社科類研究中,使用爬蟲技術,能方便、大批量的抓取網站上的數據,佔得先機,擁有自己獨特的資料庫,用於實證研究,發表高水平論文。

3. 為什麼選擇python?

(1)語言開源免費,簡單易懂,非常容易上手,效率高

(2)強大的數據處理功能,能夠便捷地對數據格式化、結構化

(3)非常豐富的模塊,只需導入相應模塊就可實現各種功能,研究者可以避免瑣碎的語法,將精力集中在功能的實現上

(4)相較C++、JAVA等計算機編程語言,python對於經管及社科類研究者而言更易上手,諾獎得主Sargent據說也在學習python,其與博士生合作編寫的《Quantitative Economics》中的案例正是基於python語言。

4. 學習該課程會有什麼收穫?

(1)快速系統入門python網路爬蟲,在最短的時間內,了解python和網路的基本知識、爬蟲的原理和流程,大量節約學習的時間成本和試錯成本。

(2)掌握基本功,熟悉各種概念,為後續開展自己的python爬蟲項目打下堅實的基礎

(3)親自動手寫爬蟲,學會解決異常和問題,搭好爬蟲框架,方便程序的複製和移植

5. python爬蟲掌握程度分級?

(1)初級:掌握爬蟲和網路基本知識,能夠自己動手寫簡單的爬蟲,可以抓取靜態網頁數據

(2)高級:了解反爬蟲機制和應對策略,掌握抓包技術,能夠以post的方式請求網頁,解決登錄問題,以及抓取動態網頁數據

(3)專家級:多線程,分散式,主要在於提高數據抓取的效率(學習難度較大,多為計算機專業人才掌握)

學習完本課程可以完全掌握高級程度的python爬蟲,可以滿足研究中幾乎全部的爬蟲需要,學習完本課程后研究者可以自主抓取大部分網站所需的數據用於研究。

6. 為什麼不直接用一些完善框架,例如scrapy?

(1)對於初學者來講,最重要的是理解原理,把基礎學好。很多時候一個問題解決不了,都是因為某些方面的知識欠缺。本課程力圖為研究者提供一個較為系統全面而又簡潔強大的爬蟲框架。

(2)一般不建議初學者直接學習scrapy框架,初學就去接觸這些框架很容易學的雲里霧裡,容易產生困惑,從而產生畏難情緒。爬蟲實際是輕鬆愉快、很有成就感的一個過程,本課程希望帶給研究者這種體驗,從紛繁複雜的語法中脫離出來,直擊爬蟲的要害,從而輕鬆獲取想要的數據,節約更多的時間用以解決研究中的實際問題。

往期學員評價

廖同學(新加坡國立大學):

這個課非常棒!首先這個課程內容非常實用,可以讓我們在短期內學會抓取大量網頁數據~另外葉老師的課程安排也非常合理,循序漸進有層次,易於理解的同時讓我們溫故知新~最後葉老師也非常耐心負責,會幫我們解決遇到的每個問題,並引導我們自己挑戰實戰項目,鍛煉我們的獨立操作能力~這是非常有收穫的一門課~

羅同學(人民大學):

葉老師上課超棒,講解細緻有條理,每次都會耐心地回答我們的疑問。經過學習,目前我們都基本掌握了初級的爬蟲技術,能獨立請求網頁、獲取信息並存儲數據。葉老師,你值得擁有!

陳同學(上海財經大學):

葉老師是個很nice的老師,不用害怕自己問的問題太傻,都能得到解答。而且能夠讓人明白為什麼要這麼一步步寫,而不是直接把工具遞在手上就完了,經常有發現驚喜的感覺,強推!(據說)葉老師還會請學員吃刨優格噢!

朱同學(西南財經大學):

很早的時候,導師就讓我學下python數據抓取,我自己也在網上搜了不少資料,進行摸索,可是網上資料比較亂,嘗試了幾次,總是會出現這樣或者那樣的小問題,挫敗感比較強,後來就放棄了。這次聽了葉老師的課程,有一種豁然開朗的感覺,回去自己很快就爬下了幾個網站。確實非常適合初學者,能夠幫忙節約大量的時間,真誠推薦!!!

劉同學(西南財經大學):

這個課非常好。首先從內容上來說,葉老師系統的講解了python和網頁的基礎知識,網路爬蟲的原理和流程,熟悉各種爬蟲的概念,內容非常的豐富實用。其次,葉老師上課講解細緻而有條理,每到重要的環節就會停下來,了解學員的掌握情況,幫助學員解決問題,使得學員能夠在每一步上都跟上老師的節奏。最後就是整個課程的實用性,該課程不只讓學員對爬蟲有了初步的了解,還安排了實例課,手把手地教學員完成網頁的抓取,所建立的抓取網頁的模版流程也特別有用。

李同學(西南財經大學):

沒上葉老師課之前,我自己也嘗試著學習使用Python抓取數據。由於是經濟專業,雖然對編程不陌生,但是初步上手Python確實還是有著很迷茫陌生的感覺,而網路上又查詢不到想要的系統的相關教程(包括英文的)。Python確實強大,例如僅請求網頁就有urllib、urllib2、requests等庫,而提取信息又有Beautiful Soup、re、xPath等,但作為初學者,我很難分清楚各自的區別以至於雖然花了大量的時間學習,但卻始終編不出自己想要的爬蟲代碼,倍感沮喪。葉老師的課程刪繁就簡,傳授給了我們經過他摸索總結的一套爬蟲框架,講授最必要的知識,使得我們在最短的時間內可以搭建起自己的爬蟲框架,並以此為參照,後續進一步擴展。現在,很多網站的爬蟲只要在葉老師傳授給我們的框架中做個性化的簡單調整即可,非常的節約時間。並且,掌握了Python爬蟲,使得我們對Python也更為熟悉,將來學習Python的數據分析也木有陌生感。非常值得參與的一門課程!

陳同學(復旦大學):

開課時講完導言PPT就覺得自己報對了,葉大神真是哪哪都爬過,爬數據這門技術,也是哪哪都需要,人才吶!從學術研究,到技術崗位,就業能力,自己能多一門技能真的是很期待~

上完了也覺得超值得,一方面嚴格控制人數的小班教學讓我這種很多question的寶寶可以隨時提問,助教老師也會下來一對一指導.另一方面,少走了很多彎路的感覺,這些知識技巧自己鑽研不知道要好久.....兩天,就能爬網頁上各種信息感覺酷酷的,能把官網上的張校長照片換成萌萌兔。哈哈哈我是不是有點不切題,總而言之,很開心,長姿勢!!!這裡再強調一下,主辦方很細心!準備了插線板,課間茶歇,餐巾紙,名牌.....環境設施條件好當然學的愉快啦~最後一點,真的零基礎都不要擔心,看到同期班裡的老師、博士們、碩士們,覺得自己要跟不上,然而老師細心從頭講,助教輔導解決各種問題,一路走的很順利~

歐陽同學(里昂高等商學院):

葉老師的課條理非常清晰,先展示了他爬過的一些成果,然後概括了一個爬數據的順序,即三大步:請求網頁、提取數據、保存本地,然後從最基本的指令開始教起。且每一個步都會親自指導有疑惑的同學,隨時可以提問,隨時解答,效率非常高,比自己在網上學少走了許多彎路。這就好比烹飪,先給我們呈現了一道美味的菜,而後告訴我們大概的步驟,其次告訴我們每個步驟里需要用到哪些原料,最後,我們就都可以自己動手做出那道菜了,每一步還可以讓廚師在旁邊指點,不至於犯一些自己都察覺不到的錯誤以致於菜品出來味道差強人意卻又找不出原因。

ps:葉老師最後一堂課現場演示如何爬鏈家網的一百多頁數據,簡直激動人心!

附抓取過的部分網站列表

1.

網站:中華人民共和國環境保護部數據中心

難度:簡單

任務:獲取全國各城市歷年空氣質量日度數據(AQI和API)

備註:使用空氣質量數據研究環境問題

2.

網站:國家統計局

難度:簡單

任務:獲取2014年統計用區劃代碼和城鄉劃分代碼

鏈接:

備註:全國性的大型微觀調查的抽樣階段

3.

網站:前程無憂

難度:簡單

任務:獲取全國各城市不同公司的招聘需求信息

備註:分析不同地區、不同行業勞動力市場需求情況

4.

網站:National Environment Agency

難度:簡單

任務:獲取新加坡空氣污染實時數據

鏈接:

5.

網站:鏈家

難度:簡單

任務:獲取二手房成交信息

備註:二手房相關研究

6.

網站:甜蜜家園(糖尿病論壇)

難度:簡單

任務:獲取所有註冊用戶的信息(包括ID、用戶名、性別、居住地、主題數等)

備註:用戶取名的文本分析、論壇用戶活躍度情況等

7.

網站:西安交通大學校友網

難度:簡單

任務:18032條校友捐款數據(包括捐贈者信息、金額、所捐項目等信息)

鏈接:

備註:校友捐贈行為分析等

8.

網站:百度

難度:簡單

任務:輸入關鍵詞獲取新聞量(例如:上市公司名稱+董事長姓名+年份)

備註:衡量輿論或媒體關注等

9.

網站:香港美聯地產網

難度:簡單

任務:獲取香港二手房歷史成交記錄

備註:香港房地產市場相關研究,官方途徑購買賬號使用該數據需2.5萬港幣一年

10.

網站:土地市場網

難度:中等,以post方式請求網頁

任務:獲取縣級土地交易信息

鏈接:

備註:房地產、就業等研究

11.

網站:Weather Underground

難度:中等

任務:獲取城市日度天氣條件數據

鏈接:

備註:使用天氣數據研究相關問題

12.

網站:交通安全綜合服務管理平台

難度:中等,需要會抓包

任務:獲取各城市電子警察信息

鏈接:

備註:城市經濟學的研究

13.

網站:各地最低工資

難度:困難,需要會抓包

任務:獲取全國區/縣級最低工資

備註:最低工資的科學制定,勞動經濟學相關課題

14.

網站:淘寶網

難度:困難,動態網頁,需要登錄

任務:獲取買家評論信息

備註:消費者行為、信譽評價機制的研究

15.

網站:京東網

難度:困難,動態網頁,需要登錄

任務:獲取買家評論信息

16.

網站:大眾點評

難度:困難

任務:獲取消費者點評信息

其他抓過的網站因涉及到相關老師正在進行的科研項目,暫不公布

更多的網站,更多的數據,等你來抓!



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦