Python網路爬蟲從入門到進階工作坊 | 第2季

2017年8月，學術在北京舉辦Python網路爬蟲從入門到進階工作坊（第1季），好評如潮，尤其是老師課後在微信群里的繼續答疑打消了大家的後顧之憂。很多學友回去后自己爬取了網頁數據，對自身的研究提供了很大的便利。數據時代，得數據者得天下，尤其是對於經管及社科研究者而言，當你學會了Python網路爬蟲這個工具，將為你的研究插上加速器，自由獲取網路上相關的研究數據。

以下是第1季部分學員心聲：

張老師（神戶大學）：老師講解很耐心仔細，助教也認真負責幫忙解決問題。

廣東某公司策劃經理：聽了葉老師的課收穫很大，真正零基礎也可以聽得懂。通過課程已經能夠對簡單的網頁數據進行爬蟲抓取。老師和幾位助教都很負責，初次寫數據代碼肯定會有很多錯誤的地方，老師和助教都能及時幫助糾正和解決，比自己看書看網路視頻好多了。

廖老師（新加坡國立大學）：這個課非常棒！首先這個課程內容非常實用，可以讓我們在短期內學會抓取大量網頁數據～另外葉老師的課程安排也非常合理，循序漸進有層次，易於理解的同時讓我們溫故知新～最後葉老師也非常耐心負責，會幫我們解決遇到的每個問題，並引導我們自己挑戰實戰項目，鍛煉我們的獨立操作能力～這是非常有收穫的一門課～

羅老師（人民大學）：葉老師上課超棒，講解細緻有條理，每次都會耐心地回答我們的疑問。經過學習，目前我們都基本掌握了初級的爬蟲技術，能獨立請求網頁、獲取信息並存儲數據。葉老師，你值得擁有！

陳老師（上海財經大學）：葉老師是個很nice的老師，不用害怕自己問的問題太傻，都能得到解答。而且能夠讓人明白為什麼要這麼一步步寫，而不是直接把工具遞在手上就完了，經常有發現驚喜的感覺，強推！(據說)葉老師還會請學員吃刨優格噢！

朱老師（西南財經大學）：很早的時候，導師就讓我學下python數據抓取，我自己也在網上搜了不少資料，進行摸索，可是網上資料比較亂，嘗試了幾次，總是會出現這樣或者那樣的小問題，挫敗感比較強，後來就放棄了。這次聽了葉老師的課程，有一種豁然開朗的感覺，回去自己很快就爬下了幾個網站。確實非常適合初學者，能夠幫忙節約大量的時間，真誠推薦！！！

更為熟悉，將來學習Python的數據分析也木有陌生感。非常值得參與的一門課程！

陳老師（復旦大學）：

開課時講完導言PPT就覺得自己報對了，葉大神真是哪哪都爬過，爬數據這門技術，也是哪哪都需要，人才吶！從學術研究，到技術崗位，就業能力，自己能多一門技能真的是很期待～

上完了也覺得超值得，一方面嚴格控制人數的小班教學讓我這種很多question的寶寶可以隨時提問，助教老師也會下來一對一指導.另一方面，少走了很多彎路的感覺，這些知識技巧自己鑽研不知道要好久.....兩天，就能爬網頁上各種信息感覺酷酷的，能把官網上的張校長照片換成萌萌兔。哈哈哈我是不是有點不切題，總而言之，很開心，長姿勢！！！這裡再強調一下，主辦方很細心！準備了插線板，課間茶歇，餐巾紙，名牌.....環境設施條件好當然學的愉快啦～最後一點，真的零基礎都不要擔心，看到同期班裡的老師、博士們、碩士們，覺得自己要跟不上，然而老師細心從頭講，助教輔導解決各種問題，一路走的很順利～

歐陽同學（里昂高等商學院）：

葉老師的課條理非常清晰，先展示了他爬過的一些成果，然後概括了一個爬數據的順序，即三大步：請求網頁、提取數據、保存本地，然後從最基本的指令開始教起。且每一個步都會親自指導有疑惑的同學，隨時可以提問，隨時解答，效率非常高，比自己在網上學少走了許多彎路。這就好比烹飪，先給我們呈現了一道美味的菜，而後告訴我們大概的步驟，其次告訴我們每個步驟里需要用到哪些原料，最後，我們就都可以自己動手做出那道菜了，每一步還可以讓廚師在旁邊指點，不至於犯一些自己都察覺不到的錯誤以致於菜品出來味道差強人意卻又找不出原因。

ps：葉老師最後一堂課現場演示如何爬鏈家網的一百多頁數據，簡直激動人心！

再看看活動現場，滿屏都是學習的熱情啊！

我們為課程建設的專屬微信群里也是熱烈討論。

因場地限制，第1季現場僅限70人參與了學習。很多學友被學長「無情的」擋在門外。為了彌補大家的遺憾，我們決定在今年10月份開設「Python網路爬蟲從入門到進階工作坊（第2季）」。

還是原來的「配方」，還是原來的「味道」，但是我們會更加升級服務！就等你了！

特訓內容

第一課. Python基礎知識（第一天上午）

1、軟體運行與基本操作

2、變數與運算：字元、數值

3、數據結構：列表（list）和字典（dict），用於儲存抓取下來的數據

4、字元串操作：清洗數據

5、函數定義和類：搭建爬蟲框架

6、條件判斷（if）：解決爬蟲過程中選擇的問題

7、循環迭代（for... while...）：控制爬蟲持續抓取數據

8、錯誤與異常的處理：（try... except...）以及藉助網路解決問題

第二課. 請求網頁（第一天下午）

（網路爬蟲的原理，最重要的一步）

1、 HTML基礎知識介紹：網址，網頁類型，HTML語言

2、爬蟲思路介紹

3、庫：requests（詳細介紹，利用該強大的模塊請求各類網頁）

4、文件讀寫操作及中文亂碼解決

第三課. 提取信息（第二天上午）

1、利用瀏覽器分析網頁：使用瀏覽器自帶的開發者工具

2、正則表達式及模塊詳細介紹：re （用於從網頁中獲取所需的結構化的數據）

3、另外一個利器：Beautiful Soup

第四課. 保存數據（第二天下午）

1、文件存儲格式介紹

2、文件讀寫

3、庫：csv，pandas，os，用於創建文件夾和存儲數據

4、合併數據

5、初級爬蟲實戰：鏈家、校友捐贈

第五課. 高級爬蟲進階（第三天上午）

（動態網頁及反爬蟲知識）

複雜動態網頁：

1、抓包知識與操作詳解（核心）

2、請求網頁的方式：get和post

3、靜態網頁和動態網頁

4、 json格式數據獲取和存儲

常見反爬蟲策略：

5、 headers簡介及作用

6、 cookies簡介及作用（反爬蟲+模擬登陸）

7、控制頻率

8、驗證碼識別

第六課. 複雜動態網站實戰（第三天下午）

（將所學應用於實戰，使學員熟悉使用模板來應對未來可能遇到的不同類型、不同難度的網頁爬蟲）

1、爬蟲總結

2、案例一：空氣污染

3、案例二：電子警察

4、案例三：土地市場網

5、案例四：法律之星

6、案例五：私募基金

7、案例六：投資

8、案例七：專利數據

講師簡介

葉澤心，西南財經大學經濟與管理研究院，四川爬爬帥數據科技有限公司首席技術顧問，曾獲全國大學生數學建模競賽一等獎。擁有非常豐富的經濟金融及社科類數據爬蟲經驗，對各類網站的數據抓取情況都非常熟悉，總結出了一套完整系統而又簡潔實用的數據抓取方法，抓取過國家統計局、環保部、大眾點評、土地市場網、公眾環境研究中心等上百家網站的公開數據。

課程詳情

目的：幫助研究者輕鬆掌握抓取網路數據的方法，享有獨家數據，發表高質量論文

時間：2017年10月20日-22日（三天）

地點：重慶市（詳細地點另行通知）

安排：上午9:00-12:00；下午2:00-5:00；答疑5:00-5:30

費用： 1800元/人

規模： 為保證教學質量，本次特訓營限額70人（含學術vip會員）。

參與對象： 希望突出是針對經管和社科類的人群

課程目標

1. 快速系統掌握Python網路爬蟲，在最短的時間內，了解Python和網路的基本知識、爬蟲的原理和流程，節約大量學習的時間成本和試錯成本

2. 親自動手寫爬蟲，學會解決異常和問題，搭好爬蟲框架，方便程序的複製和移植

3. 掌握基本功，熟悉各種概念，形成自己的爬蟲體系，並進一步掌握複雜、動態頁面的高級Python爬蟲以及反爬蟲策略

報名諮詢

諮詢聯繫人：

張老師：；

財務發票服務支持：

；

識別報名

注意事項

1. 請大家自備手提電腦，提前安裝Python軟體（為節約時間，特訓前我們會在QQ群/微信群中發送網盤鏈接並提供安裝指導）

2. 本次特訓對參與者的Python編程基礎沒有任何要求

3. 本次特訓核心內容均為原創，暫無指定教材或網路課程

4. 參與者會得到電子版的內部課件及爬蟲源代碼以便後續鞏固

5. 食宿及交通費用自理

6. 結束后，在QQ群/微信群中可繼續享受長期免費答疑

7、報名截止日期：2017年10月15日 17:00（具體截止日期根據實際招生而定，人員招滿，將會立即關閉報名通道）。

8、如您報名後有事不能參加，請在報名之後的10-15天之內辦理退費，並將收取6%的手續費！2017年10月6日17:00之後不再接受退費！人數不滿30人不開班！

9、本次會議可提供增值稅普通發票，如需開具，請在購買時點開「是否開發票」項，並根據自己單位財務部門要求填寫抬頭和類目信息（一旦開具不能重開），發票類目為：網路會議費、信息服務費、會議費、諮詢費，報名時可以直接任選其一，其他類目無法開具。信息填寫完整的老師可現場領取發票。

FAQ

1. 什麼是網路爬蟲？

網路爬蟲是一種按照一定的規則，自動地抓取網頁信息的程序。因此，人們根據自己的需求，編寫程序制定網路爬蟲使其自動地抓取特定網頁的信息。網路爬蟲可以使計算機代替手工做事，大大提高獲取數據的效率。

2. 為什麼要學習網路爬蟲？

經濟學家的研究也越來越離不開數據的支持。以 2012 年第 1 期的《經濟研究》為例， 11 篇學術文章，除了一篇純理論研究的文章外，其餘 10 篇均引用了各種數據。在經濟學工作者常常訪問的論壇里也充斥大量關於數據的下載、交換和交易的信息。為了獲取所需的數據，經濟學家不得不投入大量資金來搜集、購買各種資料庫。如果數據已經被很好的整理，即使需要高價購置，對經濟學家而言已屬幸運，實際上很多研究所需的數據往往無處尋覓或者分散在多處。好在隨著互聯網的發展，電子商務、電子政務的逐漸推廣，部分數據在網站上直接公開了，只是並未以良好的格式加以組織、對研究者不夠友好。

——鍾鋥光《經濟學家也要學點網路爬蟲技術》

不僅僅是經管類研究，在社科類研究中，使用爬蟲技術，能方便、大批量的抓取網站上的數據，佔得先機，擁有自己獨特的資料庫，用於實證研究，發表高水平論文。

3. 為什麼選擇python？

（1）語言開源免費，簡單易懂，非常容易上手，效率高

（2）強大的數據處理功能，能夠便捷地對數據格式化、結構化

（3）非常豐富的模塊，只需導入相應模塊就可實現各種功能，研究者可以避免瑣碎的語法，將精力集中在功能的實現上

（4）相較C++、JAVA等計算機編程語言，python對於經管及社科類研究者而言更易上手，諾獎得主Sargent據說也在學習python，其與博士生合作編寫的《Quantitative Economics》中的案例正是基於python語言。

4. 學習該課程會有什麼收穫？

（1）快速系統入門python網路爬蟲，在最短的時間內，了解python和網路的基本知識、爬蟲的原理和流程，大量節約學習的時間成本和試錯成本。

（2）掌握基本功，熟悉各種概念，為後續開展自己的python爬蟲項目打下堅實的基礎

（3）親自動手寫爬蟲，學會解決異常和問題，搭好爬蟲框架，方便程序的複製和移植

5. python爬蟲掌握程度分級？

（1）初級：掌握爬蟲和網路基本知識，能夠自己動手寫簡單的爬蟲，可以抓取靜態網頁數據

（2）高級：了解反爬蟲機制和應對策略，掌握抓包技術，能夠以post的方式請求網頁，解決登錄問題，以及抓取動態網頁數據

（3）專家級：多線程，分散式，主要在於提高數據抓取的效率（學習難度較大，多為計算機專業人才掌握）

學習完本課程可以完全掌握高級程度的python爬蟲，可以滿足研究中幾乎全部的爬蟲需要，學習完本課程后研究者可以自主抓取大部分網站所需的數據用於研究。

6. 為什麼不直接用一些完善框架，例如scrapy？

（1）對於初學者來講，最重要的是理解原理，把基礎學好。很多時候一個問題解決不了，都是因為某些方面的知識欠缺。本課程力圖為研究者提供一個較為系統全面而又簡潔強大的爬蟲框架。

（2）一般不建議初學者直接學習scrapy框架，初學就去接觸這些框架很容易學的雲里霧裡，容易產生困惑，從而產生畏難情緒。爬蟲實際是輕鬆愉快、很有成就感的一個過程，本課程希望帶給研究者這種體驗，從紛繁複雜的語法中脫離出來，直擊爬蟲的要害，從而輕鬆獲取想要的數據，節約更多的時間用以解決研究中的實際問題。

附：抓取過的部分網站列表

網站：中華人民共和國環境保護部數據中心

難度：簡單

任務：獲取全國各城市歷年空氣質量日度數據（AQI和API）

備註：使用空氣質量數據研究環境問題

網站：國家統計局

難度：簡單

任務：獲取2014年統計用區劃代碼和城鄉劃分代碼

鏈接：

備註：全國性的大型微觀調查的抽樣階段

網站：前程無憂

難度：簡單

任務：獲取全國各城市不同公司的招聘需求信息

備註：分析不同地區、不同行業勞動力市場需求情況

網站：National Environment Agency

難度：簡單

任務：獲取新加坡空氣污染實時數據

備註：使用空氣質量數據研究環境問題

網站：鏈家

難度：簡單

任務：獲取二手房成交信息

鏈接：

備註：二手房相關研究

網站：甜蜜家園（糖尿病論壇）

難度：簡單

任務：獲取所有註冊用戶的信息（包括ID、用戶名、性別、居住地、主題數等）

鏈接：

備註：用戶取名的文本分析、論壇用戶活躍度情況等

網站：西安交通大學校友網

難度：簡單

任務：18032條校友捐款數據（包括捐贈者信息、金額、所捐項目等信息）

鏈接：

備註：校友捐贈行為分析等

網站：百度

難度：簡單

任務：輸入關鍵詞獲取新聞量（例如：上市公司名稱+董事長姓名+年份）

備註：衡量輿論或媒體關注等

網站：香港美聯地產網

難度：簡單

任務：獲取香港二手房歷史成交記錄

鏈接：

備註：香港房地產市場相關研究，官方途徑購買賬號使用該數據需2.5萬港幣一年

10.

網站：土地市場網

難度：中等，以post方式請求網頁

任務：獲取縣級土地交易信息

鏈接：

備註：房地產、就業等研究

11.

網站：Weather Underground

難度：中等

任務：獲取城市日度天氣條件數據

鏈接：

備註：使用天氣數據研究相關問題

12.

網站：交通安全綜合服務管理平台

難度：中等，需要會抓包

任務：獲取各城市電子警察信息

鏈接：

備註：城市經濟學的研究

13.

網站：各地最低工資

難度：困難，需要會抓包

任務：獲取全國區/縣級最低工資

備註：最低工資的科學制定，勞動經濟學相關課題

14.

網站：淘寶網

難度：困難，動態網頁，需要登錄

任務：獲取買家評論信息

鏈接：

備註：消費者行為、信譽評價機制的研究

15.

網站：京東網

難度：困難，動態網頁，需要登錄

任務：獲取買家評論信息

鏈接：

備註：消費者行為、信譽評價機制的研究

16.

網站：大眾點評

難度：困難

任務：獲取消費者點評信息

備註：消費者行為、信譽評價機制的研究

其他抓過的網站因涉及到相關老師正在進行的科研項目，暫不公布

據說學霸們都關注了這個公眾號