Zi 字媒體

經濟學家趕"時髦", 機器學習最時尚？

2021/12/25

來源：經濟學教育科研網

作者：金穎琦翻譯整理自Data Geeks AreTaking Over Economics，Noah Smith, Bloomberg; How will machine learning impact economics?, Susan Athey, Quora; 參考Economists are proneto fads, and the latest is machine learning, The Economist.

每當經濟學發生重大轉向，許多「時尚」的新方法和工具會被加入經濟學家的豪華工具包。學者期待熱門新工具的出現能拓展經濟學的前沿。而亦有人認為，新工具也帶來了新風險，甚至可能導致歧途，特別是在初期。

今日，我們組織編譯了一篇關於經濟學趨勢及最新工具的最新文章，涉及經濟學的數據革命、准實驗法、及機器學習的滲透。其中，紐約州立大學金融學教授Noah Smith 簡明生動地探討了經濟學的趨勢，而斯坦福大學經濟學教授、微軟顧問Susan Athey 則基於豐富的經驗分析機器學習在經濟學的應用與前景。

誠然，經濟學界從未停止對於新趨勢或工具的「爭論」。不過，對於短暫狂熱的批評有一點是對的：好的經濟學是要提出正確的問題，而經濟學所有工具中，實踐者的懷疑才是最永恆的。

數據怪咖開始接管經濟學

過去幾十年，經濟學家習慣于思忖世界的運作規則，並寫下一套理論闡述自己的觀點，然後就收工大吉。如果一些統計學家正好為該理論找到了佐證，那再好不過了！不過，通常他們找不到相關佐證，但這樣也無所謂。正如一個老笑話所言，如果一個想法能付諸實踐，那麼經濟學家會問它是否在理論上可行。

正如我彭博社同事Justin Fox的記錄，這種現象在20世紀80年代至90年代開始發生轉變，當時經濟學開始轉向實證研究領域：

經濟學研究性質的轉向
頂級經濟學期刊中的文章方法所佔百分比

這一轉變的關鍵在於，實惠的信息技術爆髮式的發展使得收集與分析數據更為便利。90年代，存在大量未經證實的理論及豐富的新數據，這使得聰明的年輕經濟學家將精力轉向實證研究方向。在物理學中，理論與實驗需要具備截然不同的一套技能，但大多數經濟學家發覺他們從理論轉向數據則相對簡單。權威獎項開始對一些人垂青有加，比如獎勵40歲以下經濟學新星的克拉克獎，這些青年學者的研究注重數據與實踐運用。

然而，在這一進程中出現了第二次轉向——所謂的經濟學中數據革命的第二階段。實證經濟學家的工具開始轉變，這可能會改變經濟學家如今所運用的種種理論。

如今，經濟學理論的核心是基於個人最優假設。比如，經濟學家通常假設商業活動會實現利潤最大化或成本最小化。這被稱為結構模型，因為經濟學家通常認為這類最優化代表了深沉次，根本的經濟結構，正如你身體的任何部分都是有原子與分子構成。將這類模型與數據對照則是所謂的結構推測，這以往構成了實證經濟學的核心。

但是結構性推測有所局限。由於結構模型通常非常複雜，對於「如果提高最低工資標準，多少人對面臨失業？」這類簡單的問題，該模型得出的結論往往受限於模型的假設。倘若微調一個假設條件，就可能得出完全錯誤的結論。

因此，許多經濟學家近年來已經開始尋求其它的方法，完全將理論剝離開來。他們不再採用複雜的最優與效用函數模型，而是僅著眼於所謂的自然實驗，即經濟中的某些偶然變化為重要問題的研究打開一扇窗。比如，你可以研究一批偶然湧入的難民，以回答移民如何影響當地勞動力市場等問題。你不需要一個關於工人與企業行為的複雜模型，只需建立關於X如何影響Y的簡單線性模型。

這種方法的主要轉播者是經濟學家Joshua Angrist與Jörn-Steffen Pischke.他們將自然實驗的興起或所謂的准實驗法稱為「可信性革命」，出版了一本關於該話題的書，名為《基本無害的計量經濟學》。由於准實驗法（quasi-experiment）比結構模型更為簡潔可行，該方法對於我們所提的重要問題不太會給出錯誤的結論。

基於對以往實證研究存在的問題進行探討，Angrist與Pischke認為更多更好的數據和更好的研究設計是進行實證研究的關鍵。在各國的官方數據以及調查數據逐步增加的情況下，良好的研究設計對實證研究者來說尤為重要。他們指出，隨機實驗是最可信和最有影響力的研究設計，從80年代起，經濟研究者就開始尋求隨機實驗數據以期求證因果關係。

隨機實驗設計雖然能夠得到最可信和最有影響力的結果，但是其投入成本是非常大的，研究者很難得到可靠有用的隨機實驗數據的集合。在隨機實驗數據不可得的情況下，Angrist和Pischke認為可以尋找經過良好控制的對照組，因此，准實驗研究設計成為最好的選擇。最為常用的准實驗研究設計的方法有工具變數、斷點回歸法、雙差分。

到目前為止，革命節節勝利。正如經濟學家Matthew Panhans與John Singleton在近期論文的統計顯示，准實驗法相關研究的學術出版率越來越高。他們搜索了包含該方法相關術語的文獻，發現這些術語相比20多年前更為普遍:

准實驗法在經濟學雜誌中的運用

雖然這還是算經濟學文獻的少數派，但增長速率還是很驚人的。准實驗法的相關研究結論似乎引起了政界與媒體更為廣泛的關注與曝光。這可能是由於複雜的結構模型很容易遭受質疑——只需要質疑一個或兩個相關假設（無疑不切實際）。同時，准自然實驗所涉及的數學相對簡單，大多數人更好理解。

趕「時髦」？機器學習最時尚

去年1月，當美國經濟學會年會上的博士生就業時，那個場面用「趕集」來形容最貼切不過了。或者說，按照最新的經濟學論文的「流行」趨勢來看，這些新畢業生好像是「羊群」跟風一般。要知道，當前熱門的經濟學工具是機器學習，倫敦大學學院經濟學教授Imran Rasul正等著閱讀一堆使用這種時髦工具的論文。

經濟學者對學術方法的追求有時幾近瘋狂。Rasul回憶起以往的大批論文，傾向於運用斷點回歸法。據《經濟學人》的統計，發表於美國國家經濟研究局（NBER）的工作論文涉及的關鍵詞顯示了經濟學者對實驗室實驗，隨機對照試驗（RCT）和差異差異方法（即，比較不同組之間隨時間的趨勢）的熱情。

「時髦」的捅躉者；NBER工作論文摘要中涉及方法所佔百分比

當一個熱門的新工具出現時，它應該能拓展經濟學的前沿，並將以前無法回答的問題拉近視野。不過，一些經濟學家認為新的方法也帶來了新的危險;瘋狂可能導致歧途，而不是推動經濟前進，特別是在起步階段。

原則上，這些新工具應該使得經濟學家免受自己草率的理論構建之苦。之前，經濟學家會嘗試用少數參數輸入，來預測事物。通過機器學習，數據可以不言自明; 機器學習知道哪些參數輸入能產生最準確的預測。這種強大的方法似乎提高了經濟學家預測的準確性。

例如，研究人員已經開始用大數據來預測犯罪嫌疑人是否會回到法庭接受審判，從而影響保釋決定。但是，與RCT一樣，強大的演算法可能會致使用戶忽視深層次的誘因。數據科學家Cathy O'Neil在她的新書《數學破壞武器》中指出，一些因素，如種族或來自高犯罪行為的社區，可能是再犯罪的極好預測因素。但他們可以反映種族主義在執法或零容忍的「破窗」政策中，導致貧窮或少數民族社區的高犯罪率。

斯坦福大學的Susan Athey教授則看重機器學習在經濟學領域的運用潛力。她是第一位獲得克拉克獎的女性經濟學家，並作為斯坦福商學研究所院科技經濟學教授、微軟顧問，在經濟學與科技領域深度融合方面頗有建樹。她近日在Quora撰文，論述機器學習對經濟學的影響：

我認為，機器學習將對經濟學產生巨大的影響。初期，計量經濟學家往往採用「現成」的方法，而長遠來看，他們會改進相關方法並使得其滿足社會科學家的需求。社科學家主要研究興趣在於因果關係推斷和反事實政策影響估測，後者指還未嘗試的事情，或如何採取不同政策會發生什麼。經濟學家對此類問題的研究例子不勝枚舉，如價格變更、差別定價、最低工資變化等影響或廣告效果的評估等。我們想要估測變化可能帶來什麼，或者變化未能發生可能產生的後果。

其實，這一影響已經悄然發生了。去年夏天，有 250名經濟學教授在一個周六下午參加了我和Guido Imbens組織的一個NBER研討會，會上我倆為在座的經濟學家講授機器學習的內容，每當我在經濟學家面前做這方面的演講，都會吸引大批聽眾。我想，少數進行該領域研究的其它經濟學家也與我有相同的經歷。幾周前，有好幾百人參加了美國經濟學會舉辦的大數據會議。

機器學習是一個寬泛的術語，在此我將聚焦該領域的兩三方面。機器學習有兩大分支，監督和非監督型機器學習。監督學習通常運用一系列「特徵」或「協變數」（x』s），去預測相關結果（Y）。現在有各種機器學習的方法，比如 LASSO（參見MIT教授Chernozhukov與其合著者的研究，他們將該方法引入經濟學領域）、隨機森林，回歸樹、支持向量機等。

許多機器學習方法有一個共同的特點，都採用交叉檢驗法來選取模型複雜性；即，反覆用一部分數據估測一個模型，然後用另一部分數據來驗證模型，最終找到所謂的"複雜性懲罰項"，用預測的均方誤差衡量（模型預測與實際結果之間的方差），該項與數據的擬合度最高。

在大多數截面計量經濟學中，一般是研究者制定一個模型，而後通過對比2-3個代替模型檢驗該模型的「穩健性」。我相信，隨著我們更頻繁地接觸存在許多協變數組的數據集，並且明白系統性模型選擇的優勢，正規化和系統模型的選擇將成為經濟學實證實踐的標準。

哈佛大學Sendhil Mullainathan、Jon Kleinberg及一眾合著者認為，既有的機器學習預測方法作為重要政策和決策問題的一部分時，會產生一系列問題。他們舉了一些例子，比如是否要為年長的患者實施髖關節置換術；如果能基於他們個人的狀況，預測患者會在一年內去世，那麼你就不應該實施手術。

對於被關押等待審判的犯人，如果能預測誰將出庭，當局就可以讓更多其他犯人獲得假釋。機器學習目前被用在一系列司法程序中的這類決策上。幾周前，Goel, Rao and Shroff 在美國經濟學會的會議上宣講了一篇論文，該論文用機器學習法分析警察在路邊的攔截盤查問題。我在「預測城市」會議期間宣講的內容，也討論了機器學習在公共部門的使用。

除了這些令人著迷的例子外，機器學習預測模型一般建立在與大量社科工作中因果推測根本對立的前提下。監督學習方法的基礎是進行模型選擇（交叉驗證）以優化測試樣本的擬合優度。當且僅當預測準確時，模型才是有效的。然而，計量經濟學導論的基石是預測並非因果推論；一個經典的經濟實例，即價格和數量在許多經濟數據集中都呈正相關。

在消費者購買力更高的高收入城市，公司的定價會更高；他們提高價格，是基於需求高峰的預期。大量的計量經濟學研究旨在降低模型的擬合優度，以便估計價格變動的因果效應。如果價格和數量在數據中是正相關的，任何估計真正因果效應的模型（如果你改變價格，數量會下降）就不會那麼好地擬合數據。在預測企業在特定時間點實際改變價格會有何後果時，涵蓋因果估計的計量經濟學模型更為適用——總之，該模型更適用於在世界變化時做出反事實預測。

像工具變數等方法只能使用數據中的一些信息，如價格中的「凈價」、「外生」或「實驗性」的變化，犧牲當前環境中的預測精度，以了解有助於價格變化決策的更深層次關係。這種模式在機器學習中幾乎沒有受到任何關注。

在一些研究中，我正在探索是否可以利用機器學習法的優點和創新，但想將其應用於因果推斷。這需要改變目標函數，因為在任何測試集中無法觀察到因果參數的地面真值（ground truth, ML terms）。要統計理論發揮更大的作用，我們就需要建立一個估計無法觀察事物的模型（因果效應），以便定義演算法優化的目標。

我也正在為一些廣為運用和最為成功的估計量（如隨機森林）研究一套統計學理論，並對其進行調整，以便將理論用於預測個體的統計處理效果。例如，通過基於回歸樹或隨機森林的方法，我可以基於人們各自的特點，揭示特定的個體會如何對價格變化做出反應。不過，這也存在置信區間。我還寫了一篇關於使用機器學習方法來系統地檢驗因果估測穩健性的論文，並於去年發表在《美國經濟評論》上。我希望這類方法有些可以運用到實踐中，去評估隨機對照試驗，科技公司的A / B測試等，從而發現系統異質性處理的效果。

無監督學習工具與監督學習的不同在於，前者沒有結果變數（無「y」）：這些工具可用於查找類似對象集群，它們通常用於對圖像或視頻進行分組。我在自己的研究中使用了這些工具來找類似主題的新聞文章。比如，一個計算機科學家在YouTube上發現了貓，這可能意味著他們使用無監督的機器學習方法找到一組相似的視頻。我認為這些工具作為實證研究的中間步驟非常有用，因為他們能以數據驅動方式來查找類似的文章、評論、產品、用戶歷史等。

隨著時間的推移，不同經濟學方法和工具的優點或局限性將得到更好的體現，它們將與舊方法一起加入經濟學的工具包。然而，對於短暫狂熱的批評有一點是對的：好的經濟學是要提出正確的問題，而在經濟學所涉及的所有工具中，踐者的懷疑主義才是最永恆的。

學者名片

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點