search
拿到134分的高考機器人Aidam受質疑:錄錯題目卻能解出滿分答案

拿到134分的高考機器人Aidam受質疑:錄錯題目卻能解出滿分答案

獵雲網註:6 月 7 日下午,成都造AI機器人AI-MATHS和學霸君機器人Aidam挑戰2017聯考數學考試,隨即獵雲網了報道了此事(兩家機器人挑戰聯考數學告負,AI+教育還將如何進化?)今日,天涯社區一篇名為「這是學渣榮譽的一刻→揭秘聯考機器人『騙局』」的帖子公開質疑這一「聯考成績」,一度成為關注焦點的聯考機器人,是否只是鏡花水月?本文轉自芥末堆看教育(微信號jiemoedu)。

6 月 7 日下午,學霸君聯考機器人 Aidam 公開挑戰 2017 年全國卷二文科數學卷,並取得 134 分的成績(滿分 150 分)。今日,天涯社區一篇名為「這是學渣榮譽的一刻→揭秘聯考機器人『騙局』」的帖子公開質疑這一「聯考成績」。

在天涯的帖子中,首先質疑了 Aidam 解答數學卷第 17 題的答題過程,存在題目錄入錯誤、推導結論與題干不符等問題,同時還引用了知乎上對數學卷第 18 題答題過程的質疑,如知識元公布順序存疑、存在沒有意義和邏輯關係的解題步驟等。

該帖引發了業界對於學霸君聯考機器人真實能力的質疑,一度成為關注焦點的聯考機器人,是否只是鏡花水月?甚至有相關公司向學霸君隔空喊話,希望學霸君接受原創命題的實測。

對此,學霸君在接受芥末堆採訪時表示,「不想陷入口水戰中」。

Aidam 解題過程受質疑

帖子中提到,數學卷第 17 題學霸君錄入的題目與真實題目不同,在學霸君錄入的題干里,兩個條件相互矛盾,但最終這道題機器人卻拿到了滿分 12 分。

此外,第 17 題的解答過程,也引起了網友質疑。網友指出,根據學霸君錄入的題干,無法得出其解答過程中展示的結果。

網友認為,在第 18 題解題過程中,知識元公布順序存疑,沒有公布題意理解過程,存在沒有意義和邏輯關係的解題步驟。其中最顯著的問題是,在解題過程中給出的兩個互相垂直平面的法向量是一樣的。

根據對答題過程的質疑,文中提出了學霸君是否真的沒有發現問題;為什麼錄錯題目,機器仍能答對;機器在題目尚未錄入時就已經知道答案;是否有「隱形手」幫忙填寫正確答案等質疑問題。

除了解題過程本身的質疑,網路上還有學霸君團隊本身學術能力的質疑。

在知乎問題「如何看待學霸君的聯考機器人 Aidam 聯考全國文科數學卷考了 134 分?」中,排名第一的是一個超過七百個贊的答案。答案質疑了學霸君人工智慧團隊成員沒有相關學術論文的發表記錄,因此不具備相應學術能力。

學霸君如何才能自證清白?

「如果被質疑的內容是真實的,這個質疑確實是十分有力度的。」另一家研發了聯考機器人的準星雲學 CEO 林輝認為,學霸君現在最需要做的是公布發布會現場全流程視頻,因為發布會是要展示出系統經過訓練后能夠自我分析、自我推理的能力,而非通過題目進行搜索匹配的能力。

林輝對學霸君目前沒有公開全流程視頻表示疑惑。在他看來,切斷互聯網和資料庫,全程透明公正是特別重要的,錄題和批閱過程是沒有必要保密的,而沒有斷掉互聯網也肯定會被質疑。

據悉,6 月 7 日下午,準星雲學研發的「準星數學聯考機器人」AI-MATHS 在成都先後解答了北京聯考數學文科卷、全國卷二文科數學卷等多張試卷,並分別獲得 105 分和 100 分的成績。林輝表示,準星雲學的聯考機器人從錄題目、解題目、到人工批閱、全都在會場上接受 863 監督單位科大訊飛的現場監督,執行了全程錄製視頻和斷庫斷網。

此外,自然語言科學家、艾耕科技 CTO 曹斌則認為,除了公開視頻之外,學霸君還可以通過提供 demo 或者 API 讓大家測試來證明自己。

對於學霸君被質疑的「學術問題」,林輝認為,技術團隊並不一定要發表論文,有時也有可能會出現一些「黑科技」。他表示,準星雲學的團隊也積累了很多文章,但沒有很多時間去寫;曹斌則認為,團隊成員之前是不是發表過較高質量的 paper 確實可以成為衡量團隊實力的參照,但是一個技術是否願意發 paper,這是公司的選擇。

Aidam 每天訓練 40-50 萬道題是否靠譜?

在接受公開採訪中,學霸君創始人張凱磊曾說過,聯考機器人 Aidam 每天自己訓練 40-50 萬道題目。

「單從數量來看,40-50 萬對於機器學習來說並不能算是一個很大的訓練量,相反還有些偏小。」但曹斌認為,需要關注的是 40-50 萬什麼樣的題目,是否經過人工標註以及是怎麼標註的?例如,從以文字表達的題目到機器能理解的結構化信息,這樣的數據就需要人去標註。而且不同類型的題目,可能需要的模型也會有區別,這裡就需要大量的人工。

林輝認為,學霸君對於聯考機器人的訓練,只可能是在一種無監督或者半監督的狀態下完成,這就代表機器可能並不知道所解題目的正確與否。「解題與下圍棋的 AlphaGo 並不一樣,AlphaGo 可以根據圍棋的特點計算目數來驗證結果,雖然要求較高的計算量但是並不複雜,但通過自動推理或者邏輯關係,系統難以判斷數學題目的對錯。」他解釋道。

相較於學霸君公開的 40-50 萬道的數據量,準星雲學的聯考機器人只訓練了 400 多套卷子。但林輝告訴芥末堆,準星雲學所有的系統測試均是在系統中有標註,而且完成 400 多套的數量已經是準星雲學現有人力能夠完成的數目。

對於網上的質疑,學霸君也在今天下午給出了回應,「作為一家技術公司,不想陷入到這種口水戰中,一切看實際情況說話,以後會做出更多的成績。」學霸君方面回應稱。

本文來自獵雲網,如若轉載,請註明出處:http://www.lieyunwang.com/archives/324785

熱門推薦

本文由 一點資訊 提供 原文連結

一點資訊
寫了5860316篇文章,獲得23293次喜歡
留言回覆
回覆
精彩推薦