大數據早報：IBM深度學習技術取得重大突破（8.15）

數據早知道，上36dsj看早報！

來源36大數據，作者：奧蘭多

『深度學習』IBM深度學習技術取得重大突破打破FB擴展效率記錄

IBM 公司本周宣布，自己成功開發出了一種可以大幅縮短處理海量數據，並得出有用結論時間的全新深度學習技術。

簡單來說，IBM 使用的「深度學習」技術是人工智慧的其中一個分支，該技術使得電腦可以模仿人腦工作原理，並且已經成為了諸如微軟、Facebook、亞馬遜和谷歌這些科技企業的關注焦點。消息稱，IBM 的目標是將深度學習系統分析數據需要的時間從數天縮短到數小時。

「這些改進可以幫助放射學家根據醫學圖像更快、更準確地找到病變部位。」IBM 研究所研究員、系統加速及記憶模塊總監希拉里-亨特(Hillery Hunter)說道。

截至目前，深度學習主要依靠單一伺服器運行，因為在不同計算機之間移動大量數據非常複雜。而且，如何處理在不同伺服器和處理器之間的數據同步也是一個問題。

當地時間本周二，IBM 宣布已經成功開發出了能夠將這些任務分配到 64 台伺服器的軟體，而這些伺服器最高配置有 256 個處理器，可在數據處理速度方面取得巨大進步。而且，只要是使用 IBM Power 系統伺服器的客戶以及其他參與測試的技術人員，均可獲得這一技術的使用許可權。

據悉，IBM 使用了 64 個自主開發的 Power 8 伺服器，每一個都將通用的英特爾微處理器和英偉達圖形處理器連接起來，並使用快速的 NVLink 連接以促進兩種晶元之間的數據流傳輸。

亨特在接受《財富》雜誌採訪時表示：「我們的想法是改變訓練深度學習模式的速度，並真正提高人們的工作效率。」

對此，Pund-IT 公司創始人查爾斯-金(Charles King)也表示，自己對 IBM 的這一項目印象深刻，他相信 IBM 已經找到了一種「等量擴大」深度學習系統的方法，並通過額外增加處理器的方式大幅提高運算性能。

簡單來說就是，將設備的處理器擴容 100% 理論上應該可以獲得 100% 的等量性能提升。但實際上，由於複雜的流量管理和連接問題，這種等量增長的效益永遠不會發生。

不過 IBM 卻表示，自己研發的這一軟體系統通過由「加州大學伯克利分校」(University of California at Berkeley)創建的「咖啡因深度學習框架」(the Caffe deep learning framework)，成功在 256 個處理器之間實現了 95% 的擴展效率。在此之前，這一等量擴容的記錄是由 Facebook 人工智慧研究公司創造的，其擴展效率達到了 89%。

所謂的「咖啡因深度學習框架」是在 2013 年由加州大學伯克利分校的賈揚清博士在 Github 上發布。發布伊始，這一框架就得到了廣泛關注，該框架以「Layer 層」為單位對深度神經網路結構進行了高度抽象，通過一些精巧的設計顯著優化了執行效率，並且在保持高效的基礎上不失靈活性。

「IBM 最新 95% 的擴展效率實在太優秀了，我簡直不敢相信這是真的。」德克薩斯州奧斯丁市 Moor Insights & Strategy 研究公司總裁和創始人帕特里克-莫海德(PatrickMoorhead)驚訝的表示。

具體來說，IBM 的數據顯示該軟體可以在 7 個小時內識別 750 萬張圖片，準確率為 33.8%。在此之前，微軟保持的最高準確率記錄是 29.8%，但用時則達到了 10 天。換句話說就是，IBM 已經開發出了比現有深度學習技術更快、更精確的技術。當然，這一系統也需要同 IBM 的 Power 系統硬體和集群軟體配合使用。

『新公司』做「數據科學家版Office」，「DataExa」希望推進AI平民化

科技巨頭企業，如Alphabet、Facebook、微軟、BAT等掌握了海量的數據，籠絡了頂尖科學家，擁有更雄厚的資金實力，成為前沿科技底層技術的主要競技者，對於創業者而言，這是一個「神仙打架」的賽道。

垂直領域也有應用數據智能的需求，要將前沿科技落地於垂直行業，存在以下難題：

① 需要找到有實效的落地場景；

② 即懂業務又懂技術的複合型人才一將難求；

③垂直行業的數據源無法打通，「數據孤島」限制應用；

儘管有Tensorflow，PyTorch，Theano和Keras等開源的機器學習平台，讓AI的開發得以部分去中心化，垂直行業的企業要從0到1開發應用仍然有較高的門檻：需要從數據採集開始，再做數據儲存、清洗、挖掘，然後才是機器學習、演算法選擇與調試、模型評估，最後才是產品發布。

能不能有一個工具集成的平台，就像Excel之於財會從業者一樣，幫數據科學家省去重複性高、技術含量低的環節呢？

我們最近接觸的DataExa，是一家提供「行業+數據智能」解決方案的科技公司。

DataExa主要有兩款產品，數據洞察平台DataExa-Insight 以及認知計算平台DataExa-Sati，借用這兩個平台，垂直行業的企業要搭建具體場景的模型或者行業圖譜時，可以省去從第一行代碼到具體與場景結合的前期準備工作。

DataExa-Insight是一個機器學習和深度學習平台。平台內置了邏輯回歸、隨機森林、GBDT等40多種常見的機器學習以及100多個神經網路層，包括細化的CNN、RNN、LSTM、RBM等。演算法中參數配置的顆粒度可以做到與微軟Azure Machine Learning水平相較的程度。

在現有演算法不適用時，DataExa-Insight也支持技術人員自定義演算法，可開放介面，提供SDK做二次開發。創始人兼CEO洪萬福表示，目前這些知名廠商的產品都不支持在可視化建模平台上自定義演算法。

DataExa-Insight的產品開發基於Hadoop、Spark、TensorFlow等開源平台。市場上也有類似的平台，如阿里雲的數加PAI、微軟的Azure Machine Learning，與之相比，DataExa-Insight的優勢在於跳脫了巨頭體系的兼容性——使用通用模型格式，可跨行業重複使用，產品復用度高，研發邊際成本可以下降。

另外，大廠商現階段只支持公有雲服務，而DataExa主要提供私有化部署服務。

DataExa-Insight的另一個亮點在於，支持機器學習和深度學習演算法的可視化建模和模板化建模，數據分析師工作過程中可以更專註於如何與場景中的具體問題結合。

DataExa-Insight的目標還包括數據科學家和不熟悉技術業務分析師。洪萬福表示，因為垂直領域的企業大多初步接觸數據智能行業，所以即使提供標準化開發平台，仍然需要定製化地為客戶開發解決方案，不過行業的最佳實踐可以跨行業應用。DatExa-Insight在公安反恐、消費金融風控、精準營銷等領域都有最佳實踐模型。

DataExa另一款主打產品是語義計算平台DataExa-Sati，基於自然語言處理、圖儲存計算、問答系統、推理引擎等技術，挖掘非結構化、半結構化數據，幫助用戶建構行業知識圖譜的平台。

DataExa-Sati類似的產品有Spark GraphX、Palantir Gotham、IBM Watson、IBM-i2 Analyze等。相比之下，DataExa-Sati的特點是擁有超過150+功能的圖計算引擎，以及類似Wolfram|Alpha的計算推理引擎。

DataExa-Sati可應用於公共安全情報分析、金融徵信、反欺詐、各行業用戶畫像與精準營銷、複雜社交網路圖譜等。

洪萬福表示，公安反恐和金融是DataExa應用比較成熟的領域，市場推廣方面主要通過與渠道商合作。

DataExa創始人兼CEO洪萬福曾任清華同方軟體出口首席架構師、戴爾高級架構師、科宇集團副總裁。團隊其他成員還包括微軟劍橋研究院博士后、劍橋大學機器智能博士、博士后等。

DataExa此前曾獲得千萬級天使投資。

『新科技』最新一代Eagle Prime機器人登場 9月大戰

還記得在兩年前，美國 MegaBots 曾經向日本水道橋重工下戰書，並邀請對方進行一場」真機械人大戰」，在今年 4 月他們更正式宣布賽事將會在 8 月舉行。只可惜來到官方又帶來壞消息，由於場地及搬運方面仍出現問題，所以比賽需要再稍為延遲到 9 月才能舉行。

MegaBots 表示比賽舉行時間之所以一拖再拖，最主要是由於尋找合適場地比預期困難，除了需要符合當地法例外，機械人對戰時亦有可能會破壞場地的設施，再加上之前物色好的場地無法將機械人搬運過去，以及沒有足夠供電設備，所以之後又要尋找另一新場地。雖然現時場地問題基本上已經解決，但如今則輪到水道橋運送機械人出現問題，由於無法確保可以在本月內運送到，因此雙方決定同意將比賽時間推遲到 9 月。此外，由於機械人對戰時有一定危險性，故當日不會開放公眾觀戰，而只會在 YouTube 及 Facebook 直播賽事。

要多等一個月才可看到這場世紀大戰，但在宣布延期的同時，MegaBots 亦公開了他們的參戰機械人片段。據報今次這部 Eagle Prime 是其第三代機械人，雖然外型與最初公布的 Mark II 相似，但卻可以看到其外型設計已有所改善，而且雙手的武器亦有所不同。MegaBots 表示 Eagle Prime 開發費用高達 250 萬美元，高 4.9 米，重量達 12 噸，配備 430 LS3 V8 引擎，最高時速達 16 公里，而駕駛艙則可容納兩人，一人負責駕駛移動，另一人則控制武器，右手配備利爪作為武器，而左手的炮管則可發射出時速 240 公里的漆彈。

『融資』「合享新創」獲數千萬A輪融資，繼續打造的專利資料庫

日前，「合享新創」正式對外宣布，已獲得數千萬元的A輪融資，投資方為北京市重點產業知識產權運營基金。

公司創立於2011年9月15日，並在2017年3月1日正式成立集團，業務線也從專利資料庫拓展到了諮詢服務、合享網、科技專利金融平台、合享資本五大模塊。

專利資料庫可以說是整個集團最基礎的業務。首先，合享會從各個國家的知識產權局採購數據，然後進行結構化深加工，把數據基於專利緯度做關聯。因為專利中包括說明書等複雜內容，所以關聯過程還會用到語義理解、機器學習、深度挖掘等技術，基於這些支撐了incoPat科技創新情報平台、incoMonitor合享創新監測系統、incoIndex合享創新指數、incoIdea合享智慧APP等系列產品。企業客戶可以通過平台查詢、監控專利，以及掌握市面上的熱點趨勢。

例如，當用戶輸入「華為」進行專利信息搜索時，平台能自動顯示的除了「華為技術有限公司」外，還會呈現「深圳華為技術有限公司」等子公司旗下的專利信息，並可看到哪些專利涉及訴訟和交易。專利的基礎信息由機器抓取，而將大公司的各子公司旗下的專利技術聚合在一起和涉及訴訟的各專利間的關係則是由人工進複核。並且，合享新創會為每條專利信息進行評級，判定每條專利的價值度。目前，數據間的關聯聚合是根據專利線索，而之後合享會跟天眼查合作，加入工商、企業年報等其他信息緯度。

根據「合享新創」執行總裁何佳透露，專利資料庫已經收錄了全球100多個國家、超過1.1億條的專利和科技文獻數據，並支持中英雙語的語義檢索。這塊業務也是集團收入的主要來源，企業根據SaaS付年費，平均客單價在5萬／年，已有近1000家付費企業，其中不乏海爾、聯想、海信、松下、格力、三星、百度、小米、oppo、商飛、石化、南方電網、京東、360、漢能、吉利、比亞迪等知名企業。另外，在國內排名前100的專利事務所中，大概也有三分之二是合享的客戶。

在專利資料庫的基礎上，「合享諮詢」主要針對政府、企業、科研院所、金融機構等客戶提供諮詢服務，比如說，幫助政府做多維度區域對比分析，了解驅動各行業的創新專利，便於決策者引入相關技術。同時，還給政府、企業客戶提供培訓，給到整體的解決方案。

「合享網」還在開發中，目前看上去類似一個專利資訊平台＋社區，何佳的設想是，未來可以幫企業找到所需的專家人才等，像專利眾包一樣。

至於「科技專利金融平台」，定位做一個專利託管及交易平台，由平台進行專利買賣雙方的撮合交易。據悉，平台處於起步階段，還沒有實質交易。

最後一塊業務「合享資本」主要是投資相關，合享利用自身的系統發掘好的專利標的進行財務投資。例如，最近投資了一個碳纖維相關的企業，在其下一步的研發中，合享還會利用自身數據積累充當「科研助理」的角色。

據了解，合享新創在全球設立了14個辦公室，包括台灣、日本、韓國、德國等。團隊有130多人，其中60多名為技術人員，剩下的大多為服務人員，公司目前已實現盈虧平衡。而同一賽道上的，還有36氪此前報道過的「智慧芽」。

『比特幣』大賺！比特幣價格破2萬7創歷史新高

上周，比特幣的價值超 3500 美元創歷史新高，但這一紀錄已被打破。

昨晚，外媒報道稱，周六的交易中，比特幣正式突破了 4000 美元，約合人民幣 26645 元。

筆者在火幣網看到，截至發稿時的實時行情是，比特幣的價格站上了 27300 元。

比特幣在 2017 年已經翻了兩番，八月份增長了約 40%。比特幣的市值現在約為 640 億美元，較上周上漲約 100 億美元。

其中，交易量最高的是日本，佔比 46%，其次是人民幣和韓元。

目前，比特幣分成原始版和新版兩個版本，後者名為「比特幣現金(BCC)」，專門用於在網上買賣商品。

『物聯網』和手機無關！安卓8.0 Beta 5版本突然發布：物聯網系統

按照谷歌公開的資料，Android O(安卓 8.0)準備了四個開發者預覽版，上月推送了 Developer Preview 4，接下來就是正式版。

不過在今晨，谷歌突然發布了基於 Android O 的 Developer Preview 5。

仔細了解后發現這是面向 Android Things 設備的版本，也就是物聯網超低功耗操作系統，此前我們針對的主要是平板和手機。

DP5 的主要作用在於方面開發者進行 API 調試和硬體兼容性測試，谷歌承認，該版本仍存在一些穩定性 BUG。

值得一提的是，按照爆料大神 evleaks 的說法，Android O (安卓 8.0) 正式版將於 8 月 21 日推送到 Pixel 設備。

『大公司』HTC公布二季度財報已連續九個季度虧損

8 月 14 日，HTC 剛剛公布了 2017 年第二季度財報，而根據財報內容來看，HTC 已經連續九個季度處於虧損狀態。今年第二季度，HTC 凈虧損額為 19.5 億新台幣(約合 6423 萬美元)，與上一個季度的 20.3 億新台幣(約合 6687 萬美元)虧損額相比稍有緩解，環比降低了 3.9%。二季度 HTC 股價每股收益為 2.37 元新台幣，與第一季度的 2.47 元新台幣相比略有降低，毛利率從 16.3% 降至 13.7%。

不過 HTC 表示，公司二季度的營運支出降至 44 億新台幣，低於上季度的 47 億新台幣和去年同期的 64 億新台幣，主要原因就是公司進行了資源重組，優化管理流程。

整個 2017 年上半年，HTC 的凈虧損總額為 39.83 億新台幣(約合 1.311 億美元)，同比下降了 30%。

HTC 最新的旗艦智能手機 U11 最近在市場上非常受歡迎，其中名為 Edge Sense 的觸控邊框功能受到很多用戶的追捧。只需要輕輕按壓手機的側面，就可以非常快捷的開啟指定應用程序。同時 Edge Sense 功能還將繼續出現在 HTC 下一款中端產品 U Life 11 的身上。這款新機預計在今年年底亮相，配備 1080×1920 解析度的 5.2 英寸顯示屏，同時搭載高通驍龍 630 處理器。

分析人士預測，由於 7 月銷售情況持續低迷，在 HTC 下次公布第三季度財報時，虧損額會繼續上升。從 2016 年第三季度到 2017 年第二季度這段時間裡，HTC 的營收下降了 10.16%，銷售額下降了 2.06%。今年 7 月，HTC 的營收為 61.9 億新台幣(約合 2.039 億美元)。

『融資』用AI提供社交數據分析服務，Converseon獲500萬美元A輪融資

Converseon是一家社交及人工智慧語音技術公司，近日它宣布獲500萬美元A輪融資，投資方為一群私人投資者。加上之前的種子輪融資，它的融資總額已經達到750萬美元。

同時這輪融資還將幫助它推廣其人工智慧支持的SaaS技術Convey.AI和用戶分類平台Conversus。其中Convey.AI曾獲得過不少獎項，它在2010年入選過Forrester Wave，在2012年和2014年入選過Strong Performer。這種人工智慧技術還拿過Dataweek社交數據挖掘方面的最佳創新獎。

Converseon的深度見解解決方案採用了受眾廣告活動分析及社交品牌追蹤方面的技術，這輪融資將幫助這種解決方案進一步實現產品化。

在過去的十幾年裡，這家公司一直是社交智能技術和諮詢領域裡的領導者，但最近它也在大力開發SaaS產品。Convey.AI是一種專註於自然語言處理的人工智慧，它能幫助公司更好地將社交媒體語音中的背景噪音過濾掉，並提供更精準的情感分析。這是一種REST API(即表現層狀態轉移應用程序介面)。

Conversus平台則完全集成了Convery.AI的技術，它將機器學習的能力直接轉交給用戶，從而提供更加個性化的數據分析，並讓這些數據能更加高效地跨組織使用，且能整合到預測模型中幫助公司增加業務成果。它能以客戶忠誠度、客戶關懷和客戶體驗等作為分類依據，快速地建立起客戶分類。

『黑科技』DNA也會遭黑客攻擊？極端情況下將威脅生命

《大西洋月刊》日前撰文介紹了一個計算機安全團隊的實驗，稱隨著基因測序變得越來越普遍，研究人員也面臨著安全隱患。以下為原文內容：

DNA 基本上就是一種存儲信息的方式。它編寫指令，只不過這些指令是用來創造生命的——但是，DNA 也可以用於其他用途。已經有些科學家在使用 DNA 來存儲書籍、音樂、GIF，甚至是亞馬遜的禮品卡了。而現在，華盛頓大學的研究人員第一次通過在 DNA 中編寫惡意程序的方式，入侵了一台計算機。

DNA 鏈是由四個部分組成的，分別用字母A、C、G和T來指代。而這些字母可以用計算機程序中的 1 和 0 來表示。華盛頓大學的團隊將一個惡意軟體轉化成為了實體的 DNA。當這個「假」DNA 鏈被測序的時候，惡意軟體就啟動了，感染了正在對它測序的計算機。該團隊就以這種方式入侵這台計算機，掌握了它的控制權。

該團隊的領導者是計算機安全專家大倉河野(Tadayoshi Kohno)。他說：「目前發生這種攻擊的可能性極小，所以沒有必要擔心得睡不著覺。但是我們想知道這種攻擊是不是可以實現，這會造成什麼問題。」

這種入侵會造成什麼後果?

隨著測序變得越來越普及，這種攻擊的後果也會變得越發嚴重。在 21 世紀初期，要對一個人的基因組測序需要花費大約 1 億美元，而現在只需要不到 1000 美元。這種技術不僅價格下降了，而且也變得更簡單更便攜。現在已經出現了口袋大小的測序器，你可以用它來分析空間站、教室和叢林營地里的 DNA。

但是，DNA 無處不在的特性也帶來了問題。法醫取證時通常會用到 DNA，所以，如果黑客可以攻擊測序器或測序軟體，他們可以通過改變遺傳數據來改變案件的調查過程。如果機器正在處理關於轉基因生物的機密數據，黑客就可以盜取到相關的知識產權了。

而且這裡面還涉及到個人的遺傳數據。美國目前正在給至少 100 萬美國人的 DNA 測序，為精準醫學鋪平道路(根據你的基因來提供治療方案)。大倉河野實驗室的學生彼得·尼(Peter Ney)說：「這些數據非常敏感。如果測序過程被黑，這些數據就可以被盜走，或者遭到修改，讓人以為你患有實際上沒有的遺傳疾病。」

這個實驗有作弊的嫌疑?

大倉河野說：「我們希望搶在黑客之前，了解並預測未來 10 至 15 年內哪些新技術會成為熱點，」2008 年時，他的團隊展示了無線入侵人工心臟，對其重新編程，導致患者病危的可能性。2010 年，團隊又展示了入侵一輛雪佛蘭英帕拉汽車控制系統，遠程操控這輛車的風險。然後他們把注意力轉移到 DNA 測序上。

大倉河野說：「其他安全研究人員還沒有注意到這個新興領域，它激起了我們興趣。我們想知道，你可以用 DNA 生物分子入侵一個計算機系統嗎?」

要做到這一點確實是可能的，但也並不容易。為了讓這個惡意軟體能夠奏效，該團隊先給一個通常用來分析 DNA 數據文件的程序「加了料」，添加了一個漏洞。然後他們再對這個漏洞進行了利用——這聽上去好像是在作弊。

但是團隊表示，這些漏洞在 DNA 分析軟體中其實很常見。軟體工程師在編寫這些程序的時候，並沒有想過黑客入侵的問題，所以這些程序往往並不安全，很少會遵循數字安全的最佳做法。黑客如果使用了合適的惡意軟體，就可能會搞定這些程序以及運行它們的計算機。

真的會有黑客這麼做嗎?

哥倫比亞大學的遺傳學家雅尼夫·埃利克(Yaniv Erlich)說：「我很喜歡這個團隊的創造性，但是他們這種利用漏洞的方式是不現實的。實際上，該團隊的惡意軟體會造成某種小故障，大多數測序中心都可以發現它並修復它。如果黑客的時機掌握得非常巧妙，在這段病毒 DNA 被測序之後立刻發起攻擊，那倒是可以控制被感染計算機。」

(今年早些時候，埃利克用 DNA 編寫了一個計算機病毒，不過該病毒的目的並不是在 DNA 被測序時自行啟動。)

儘管如此，埃利克也認為，DNA 分析程序遵循的安全標準「比較寬鬆」。他說，有傳言稱，一家大型研究機構由於在測序器上使用的是默認的管理員密碼，遭到了勒索病毒的攻擊。

「我希望在未來 5 到 10 年內，人們會重視 DNA 安全性，主動積極地強化系統，防止入侵威脅。」大倉河野說：「現在應該還沒有這樣的威脅，但我們希望它永遠不會出現。」

文章來源36大數據（微信號：dashuju36）

End.