search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

不僅能答題,還會改作文,人工智慧如何顛覆高考?

為什麼要讓 AI 參加聯考?AI 能夠考到多少分?AI 會如何參與聯考閱卷 , 尤其是主觀題和作文?AI 會如何顛覆和改變現有的教育?

文 | 尚鉞

6月7日-8日兩天,對於絕大多數考生來說,是將要改變他們人生的日子。

不過,今年的考生有些不同。除了人類以外,還有新的一類考生:AI,今年日本人工智慧 Torobo-kun參加東京大學入學考試,已經有學霸君及四川的準星雲學兩家公司宣布將要以自己製作的 AI 挑戰數學聯考。未來,還有更多的 AI 公司準備躍躍欲試,準備做聯考界的 「 Alphago 」

不過,在這個 AI 挑戰聯考的熱潮中,有一些問題仍然值得人們思考:為什麼要讓 AI 參加聯考?AI 能夠考到多少分?AI 會如何參與聯考閱卷 , 尤其是主觀題和作文?AI 會如何顛覆和改變現有的教育?

昨日,科大訊飛輪值總裁吳曉如與矽谷前沿技術教育平台 Udacity 區的負責人 Robert,昨天通過鬥魚直播平台進行 「人工智慧顛覆聯考」 的尖峰對談。以下是其中部分的摘錄。

Robert:到現在人工智慧的技術有什麼樣的一些變化?現在聯考機器人已經可以做出來了嗎?

吳曉如:應該說就是在過去的一段時間裡,大家可能是在做學科領域的知識圖譜的構建。第一就是要讓機器懂數學。什麼叫懂數學?因為機器不是人,它要有一種它的表徵的方式,所以我們要為這個機器構建各種知識的知識圖譜。第二個實際上要在自然語言的理解上下功夫,這其實不是一件很容易的事情,要做很多工作。

現在在數學這個學科上,機器已經能夠做對很多的數學題目。但聯考不是我們的核心,我們真正的目的是在這個過程中,能夠實現一系列技術的突破。這些技術突破要在應用界形成一些反彈應用,叫「沿途下蛋」。比如,現在在電話客服裡面,可以作為一個機器接線員可以幫助人工接很多的電話,可能虛擬的機器人可以走到老師的身邊,可以變成老師的一個AI的助手,幫助老師處理很多教學中的事件。

我們中間有一些研究成果,實際上已經進入到社會裡面,成為大眾應用。在今年全國人大的時候,我們慶峰董事長給我們總理演示了一段我們的機器翻譯系統,就是口語對口語的翻譯系統,其實這個也是我們整個項目中間的一個(應用)因為在英語考試的時候本身就要做各種翻譯。再比如我們現在在聯考的閱卷上,可以幫助老師去更有效率的或者越更準確的去閱卷。

Robert:那你覺得現在我們這個訊飛的聯考機器人就是在我們聯考能考多少分?我們還有多遠要走?

吳曉如:實際上這是比較複雜的一個話題。第一,現在我們這個機器人能考多少分?我還真不能說,因為聯考是一個比較嚴謹的事情。第二個我大概先要講一下訊飛在整個863這個項目裡面我們的定位和角色。

其實這個項目聚集了國內大概是七八家國內當時最優秀的一些單位,包含我們中科院、北京大學、清華大學,我的印象中可能還有南京大學、成都電子科技大學,包含了最優秀的一些研究機構,訊飛是這個研究機構裡面的牽頭單位,執行總裁胡郁是這個項目裡面的首席科學家。

訊飛還有一個角色,就是我們是這個項目的測試單位。測試單位就是比如說做語文的、做數學的,我們提供一些底層的平台技術給大家分享,但是比如說有專門去做語文的、做數學的,他們做的最後的這個結果怎麼樣?要測試。

其實這個測試不是一件很容易的事情,舉個例子,我現在拿一套題目,這套題目已經已經在網上能找到了,那我通過簡單的搜索手段,我也能把這些題目很好地解答出來,那這個算不算機器能夠解答這些問題?肯定不算是。所以我們在測試的時候還要提出一系列的測試的方法,要保障機器是通過真正的後台知識的本體積累和推理分析,能夠就像人一樣把一個題目進行解答。所以訊飛做的測試機構,現在因為還沒有對我們各個試卷在公開公正的情況下進行一個全面的測試,所以你講多少分?可能在大家在場的情況下還不能說這件事。

從另外一個方面來說,現在我為什麼說這個事情比較複雜呢?第一,技術在不斷的進步,但是聯考本身命題也在不斷的進步。其實現在聯考的題目越來越靈活,越來越綜合性,所以這些題目的處理對機器來說越來越困難。所以假定我們當時是在2013年和2014年,我們在這個課題的時候,把2014年作為一個靜態的點來看,我覺得我們到2019年的時候通過2013年的聯考絕對沒有問題,但是我們現在也和有一些考試機構的專家在一起溝通,發現他們在出這個題目的過程中,很多的題目就必須包含你人都有很多的一些理解,你要做很多中間一些邏輯性的轉換,才把一個題目能做得好。所以我覺得從這兩個動態的變化,技術在動態的變化,考試的題目也在動態的變化,機器要到2019年或2020年的時候機器人通過那個時候的考試,實際上我覺得還是有一定的挑戰,這個就是要我們這個項目組裡面大家要做更多的努力。

還有從一方面來說,就從整個未來聯考為社會選拔人才的角度。我們講社會進入到了一個人工智慧的時代,因為人工智慧在高速發展,現在講人工智慧都會下圍棋了,他還可以干很多事情。我今天舉了例子,還可以做翻譯,以後可以做那種速記,可以做電話接線員。從一般邏輯來說,以後通過聯考的大學生們,他應該不只是會做機器會做的事情。

當時我們做聯考機器人時候,其實美國也有一個聯考機器人,華盛頓大學的圖靈研究中心,他們希望他們的機器要通過美國的生物考試。據說日本也有一個同樣的計劃,希望他們的這個機器是能夠通過東京大學的考試。東京大學(在日本)是最好的學校,儘管他的機器已經能夠相當於日本國內的排名前百分之30的水平,但是講它要通過東京大學(的標準)我也覺得(目前)基本不可能,因為東京大學是比較頂尖的學校。當然就是從技術的發展的角度來說,我們覺得達到前 20% 還是比較有信心的。聯考的壓力還是不僅在孩子身上,還要在這個機器人身上。

Robert:這個機器人我看到他還能閱卷,包括識別大家寫的主觀題,作文,對吧?吳總能不能介紹一下,就是這個開發作文閱卷的機器人難點是在哪裡?技術上來看。

吳曉如:實際上我們今天看到這個閱卷,是對作文的閱卷,實際上作文的閱卷它是一種主觀的,整個我們在考試中,它實際上是有客觀題和主觀題客觀題,比如說ABCD,你選了以後他是不會評分,是不會有差異的,但是作文題你即使安排兩個水平比較高的老師,第一組學生的作文進行評閱的話,肯定還是有差異的,所以在這個評閱過程中,需要在從很多不同的一些維度,對這篇作文的水平進行評判。

整個主觀題的自動評閱技術,實際上訊飛一條線走過來,走了很長的時間。有一次,一個我們教育領域的一個主管的領導到訊飛來,我們給他介紹了相關一些技術語音識別的技術。他看了以後,當時就產生了一個聯想,因為他是那時候是主管普通話考試的。所以當時就是說這個技術我們很需要在考普通話的應用上。

(考普通話的應用)實際上以前是一件很麻煩的事,大部分需要測普通話的都是大學生。我給你舉個例子,比如說像北京的首都師範大學,大概有六七千學生以上,那你這六七千學生要都要考普通話,每個考普通話的考生需要2到3個,那時候叫測試員,測試員2到3個老師花10到15分鐘給一個人測,那你就可以想象到要把六七千學生測完是一個多浩大的工作量,所以那時候他跟我說了:你們能不能去解決這個問題?

那我就在想,機器該怎麼去測?最後是採用機器學習的方式去測的。

我們當時是怎麼做的呢?第一個,我們要選定一個學習的對象,最後找了一組最權威的專家,我們請這組專家給我們留下了很多的測試樣本,以這些測試樣本作為我們機器學習的對象。(相當於用)機器建立一個模型,用這個模型來測試。

當時,我們就在現場考試,我們就把機器當成是一個測試員,當時現場考試是有兩百個考生在考,同樣我們也是一樣的,請了一組高水平的專家對這兩百個考生進行了評分,評分完了以後把這一組專家評分的平均分作為標準,當時現場是有20個老師在給這200個學生在測,機器當成第21個人來測,後來測試成績出來以後,我們講兩個指標,第一個21個人和機器結果都和專家的平均分去比,絲毫不差。第二個比我們叫相關度,就是對一組學生排序,專家有一組排序,我們機器有一種排序,結果(專家的)第一名,(機器)排序最高。

當然,對整個普通話測試來說相對來講,因為它是有一個規範的,所以難度比這個作文稍微小一些。但其實沿用的是同樣的思路。

Robert:普通話有兩三個老師去做這個評判,這些老師可能有些是北方的,有些南方的,有西方的,但他們都會有自己的評判標準。機器人改卷如何應對這些主觀性的因素?

吳曉如:機器學習,如果讓他學的是一個水平很差的(樣本),他肯定最後就是有問題。為什麼呢?機器學習要有一個學習的對象和標準。我們希望人工智慧學習頂級專家,學習結果能達到一流專家的水平,能超過大部分的一般人,這個事就是對很多領域裡面我們機器學習提出的一個方法論,所以對於剛才你講的這個問題也是這樣的。

我們在聯考評閱作文的時候,我們看到這個評卷的過程也是比較嚴謹的,一般的來說,首先要一些比較厲害的,就是專家對一組樣本進行打分,打完分以後,所有要參加打分的老師對這組也要去打分,打完分以後他們要在一起討論打分的一些原則,有哪些原則,然後每個老師打分的尺度,如果和這一組專家的打分尺度存在一些偏差的話要調整,它有點像最後測試的專家,要有個校準的過程,就是機器學習。其實學的就是這些訓練有素的專家評分的過程,應該說是學習的對象,有保障性。

當然我們今天在講聯考,實際上作文評分還是離不開學習的問題。我們一篇作文題目,寫了作文以後了,機器給他評分之前,一般的來說我們需要同樣的這一篇作文就隨機的去抽取有高分的、低分的,不同代表性的,大概要抽取出來500份,這個500份也是高水平的專家去打分。打完分以後機器去學習,學習比如說篇章結構、裡面的辭彙、詞句之間的邏輯性,然後不同的段落時間和語義的關聯度,他要學習這些維度和最終給的分數之間的關係,通過這個模型得到一個最終的分數,這就是機器學習。

但實際上在作文評分裡面,機器裡面是有一些文章是不能評的,大概是什麼呢?就是我剛才講500篇作文,它其實是代表了很多類別作文的範式。(處於這種範式的文章)機器就能夠去打分,不是處於這些範式的文章,機器它其實是有一種技術指標,它會把它抽取出來,抽取出來的部分會交給我們專家去打分。

所以這個地方其實大概百分之七八十的工作量交給機器了,機器也很清楚地知道,比如說有一些特別有創意的500篇,裡面的範式不能覆蓋的,比如說還有一些可能寫得非常離奇,亂七八糟的,這些東西機器能夠把它找出來,找出來的部分要讓人去把關。所以就現在整個在作文評分上的應用來說,一個是機器可以處理一部分,和人形成一個補充,可以降低人的工作量,然後把人的優勢和機器的優勢很好地發揮出來。

Robert:那你覺得在教育行業裡面,AI會對教育這個行業會有什麼影響?

吳曉如:實際上我覺得從現在我們整個實際的一些應用情況來看,整個人工智慧在教育裡面會發揮非常大的作用。其中最重要的作用,尤其是在,因為的教育資源尤其是高端的教育資源其實是比較缺乏的,在很多中學、國小教育裡面,它是大班子,一個班有40個、50個學生,這麼多學生的情況下,老師很難能夠去關注每個學生的學習的情況。這時候怎麼辦?這時候人工智慧技術就正好可以發揮作用了。

比如說針對一個孩子上課和老師互動的情況,做作業的一些情況,所有這些東西都可以被轉換成數據。有了數據之後,人工智慧他可以對學生進行分析和畫像。你一個學生,你的知識點問題是在一些什麼地方,對你有問題的地方機器就能描述出來,你在這些地方應該去加強訓練,然後對於你沒有問題的地方,可能你就不用在這個上面去花很多時間。

由這個我們就可以引導到什麼呢?舉個例子,老師們創造了一種辦法,把課堂分成三截,45分鐘的這個課分成三個環節,這三個環節結合人工智慧的一些應用,把它課堂的效率整個提高了大概30%左右。

除了老師的教課過程外,學生學習的過程也可以個性化。

人工智慧在後台,它能及時的對每個學生所作課堂表現和測試題的一些評價,可以繪製出學生掌握的知識結構圖。根據這個結構圖對學生的出現的一些有缺陷的地方、不足的地方提供一些參考的知識點的視頻讓學生去看。然後同時給學生布置的一些題目,就是學生就在這個上面,特別需要訓練的,實際上他是通過後台對每個學生的分析,給每個學生畫了個像,他這樣的話讓學生更多地把時間花在自己叫知識的黑洞上。這樣的話,讓學生提高他的效率,不用把時間花在一些重複的,已經會的事情上,同時他可以把時間更多的解放出來,可以出去搞搞體育活動。

Robert:有一個網友就是寫了一個問題進來,因為它看到美國IBM研發的機器人參加了美國智力問答, 我的了解,這個機器人每次看到一個問題會到一些知識庫搜索一些相關的內容,綜合出來一個最可能對的答案?那麼訊飛的技術跟這個是類似嗎?

吳曉如:應該說這裡面這個技術有類似的地方也有區別的地方。有類似的地方,肯定它後台要有一個它的知識庫。第二個就是對所提問的問題,應該能夠去理解這個問題,然後理解問題以後,它才能到知識庫裡面把這個可能它認為追求的正確的答案調出來,這個從理解、從邏輯分析和決策來說,我覺得這個應該是有很多類似的地方。

但是從我們要完成的聯考任務來說,比那個任務要難很多,原因是第一個,你看現在聯考中的很多題目,很討厭,可不是一句話的問題,它經常是10句話,20句話。所以它一個題目的字變越多,實際上它這個題目內部的邏輯關係就越複雜,一個題目裡面繞來繞去的轉折點就會越來越多。比如數學,數學它裡面的東西如果是一個很容易就用定理能夠把它實現的東西,如果它要把這個定理繞來繞去,就很難,所以題面的理解上會很困難。

第二個,這個裡面大部分是一些偏常識性的理解,就理解完了以後根據常識,在後台能抓一個答案過來的。但是聯考裡面比如說數學,像一些題目,這些題目是需要看計算機是怎麼去表證一個數學定理的,數學定理之間的邏輯關係到底是什麼樣?那人工智慧這個技術要怎麼去?把這種知識要轉換成計算機可以理解的知識。

我們經常講一些叫知識的發現或者要構建一個計算,對數學、對語文這些知識理解的圖譜,所以就從這個意義上來說,應該比那個要難。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦