日前,在教育部公布的高校新增專業名單中,有32所高校成為第二批成功申請「數據科學與大數據技術」大學部新專業的高校。站在互聯網「風口」上的大數據,直接催熱了大學里的大數據專業。
從兩次獲批的」數據科學與大數據技術專業」名單中可以看出,該專業學制都為四年,授予工學學位或理學學位。
第一批成功申請該專業的高校共有3所,為北京大學、對外經濟貿易大學及中南大學,於2016年2月獲得教育部批准。
什麼是大數據?
「大數據」是指以多元形式,自許多來源搜集而來的龐大數據組,往往具有實時性。在企業對企業銷售的情況下,這些數據可能得自社交網路、電子商務網站、顧客來訪紀錄,還有許多其他來源。這些數據,並非公司顧客關係管理資料庫的常態數據組。
從技術上看,大數據與雲計算的關係就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分散式計算架構。它的特色在於對海量數據的挖掘,但它必須依託雲計算的分散式處理、分散式資料庫、雲存儲和/或虛擬化技術。(在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據的方法)大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
「大數據」專業學什麼?
大數據領域三個大的技術方向:
方向一、Hadoop大數據開發方向
方向二、數據挖掘、數據分析&機器學習方向
方向三、大數據運維&雲計算方向
三個方向中,大數據開發是基礎。以Hadoop開發工程師為例,Hadoop入門月薪已經達到了 8K 以上,工作1年月薪可達到 1.2W 以上,具有2-3年工作經驗的hadoop人才年薪可以達到 30萬—50萬,一般需要大數據處理的公司基本上都是大公司,所以學習大數據專業也是進大公司的捷徑!
「大數據」專業發展前景如何?
各大高校緊鑼密鼓啟動大數據人才培養,緣於大數據時代催生的大量相關人才缺口。
全球最頂尖管理諮詢公司麥肯錫(McKinsey)出具的一份詳細分析報告顯示,預計到2018年,大數據或者數據工作者的崗位需求將激增,其中大數據科學家的缺口在140000到190000之間,對於懂得如何利用大數據做決策的分析師和經理的崗位缺口則將達到1500000!
儘管目前有很多大數據工作者只是擁有一個大學部學士學位,或者僅接受過簡單的訓練,但是在互聯網時代,每天都有海量的數據信息產生,數據的處理變得越來越複雜,很多大公司已經在尋求擁有更高學歷的高手來補充自己的實力。
「大數據」專業需要具備哪些能力?
(1)計算機科學能力
一般來說,數據科學專業大多要求具備編程、計算機科學相關的專業背景。簡單來說,就是對處理大數據所必需的Hadoop、Mahout等大規模并行處理技術與機器學習相關的技能。
(2)數學、統計、數據挖掘的能力
除了數學、統計方面的素養之外,還需要具備使用SPSS、SAS等主流統計分析軟體的技能。其中,面向統計分析的開源編程語言及其運行環境「R」最近備受矚目。R的強項不僅在於其包含了豐富的統計分析庫,而且具備將結果進行可視化的高品質圖表生成功能,並可以通過簡單的命令來運行。此外,它還具備稱為CRAN(The Comprehensive R Archive Network)的包擴展機制,通過導入擴展包就可以使用標準狀態下所不支持的函數和數據集。R語言雖然功能強大,但是學習曲線較為陡峭,建議從python入手。
(3)數據可視化
信息的質量很大程度上依賴於其表達方式。對數字羅列所組成的數據中所包含的意義進行分析,開發Web原型,使用外部API將圖表、地圖、Dashboard等其他服務統一起來,從而使分析結果可視化,這是對於數據科學家來說十分重要的技能之一。
(4)跨界為王
麥肯錫認為未來需要更多的「translators」,能夠在IT技術,數據分析和商業決策之間架起一座橋樑的複合型人才是最被人需要的。」translators「可以驅動整個數據分析戰略的設計和執行,同時連接的IT ,數據分析和業務部門的團隊。如果缺少「translators「,即使擁有高端的數據分析策略和工具方法也是於事無補的。 天才的」translators「非常罕見。但是大家可以各敬其職,數據戰略家可以使用IT知識和經驗來制定商業決策,數據科學家可以結合對專業知識的深入理解使用IT技術開發複雜的模型和演算法,分析顧問可以結合實際的業務知識與分析經驗聚焦下一個行業爆點。
「大數據」專業畢業以後幹什麼?
事實上,大數據工作者可以施展拳腳的領域非常廣泛,從國防部、互聯網創業公司到金融機構,到處需要大數據項目來做創新驅動。數據分析或數據處理的崗位報酬也非常豐厚,在矽谷,入門級的數據科學家的收入已經是6位數了(美元)。
目前全國各類高校、高職院校已陸續開始圍繞大數據專業建設展開研究並申報大數據專業。作為交叉型學科,大數據的相關課程涉及數學、統計和計算機等學科知識,「數據科學與大數據技術」專業也強調培養具有多學科交叉能力的大數據人才。該專業重點培養具有以下三方面素質的人才:一是理論性的,主要是對數據科學中模型的理解和運用;二是實踐性的,主要是處理實際數據的能力;三是應用性的,主要是利用大數據的方法解決具體行業應用問題的能力。
「大數據」時代,數據可視化工具具有哪些特點?
傳統的數據可視化工具僅僅將數據加以組合,通過不同的展現方式提供給用戶,用於發現數據之間的關聯信息。近年來,隨著雲和大數據時代的來臨,數據可視化產品已經不再滿足於使用傳統的數據可視化工具來對數據倉庫中的數據抽取、歸納並簡單的展現。新型的數據可視化產品必須滿足互聯網爆發的大數據需求,必須快速的收集、篩選、分析、歸納、展現決策者所需要的信息,並根據新增的數據進行實時更新。因此,在大數據時代,數據可視化工具必須具有以下特性:
(1)實時性:數據可視化工具必須適應大數據時代數據量的爆炸式增長需求,必須快速的收集分析數據、並對數據信息進行實時更新;
(2)簡單操作:數據可視化工具滿足快速開發、易於操作的特性,能滿足互聯網時代信息多變的特點;
(3)更豐富的展現:數據可視化工具需具有更豐富的展現方式,能充分滿足數據展現的多維度要求;
(4)多種數據集成支持方式:數據的來源不僅僅局限於資料庫,數據可視化工具將支持團隊協作數據、數據倉庫、文本等多種方式,並能夠通過互聯網進行展現。
目前常用的大數據分析軟體有哪些?
下面介紹目前在大數據方法積累和分析方面使用較多的數據分析工具,大數據就好比是海洋中的水,而分析工具則好比是流水的管道,沒有管道的梳理,再多的水都不能為你所需,所以好的分析工具能快速的將雜亂無章的數據整理成可視化你需要的數據和答案。
一、Excel
Excel作為一個入門級工具,是快速分析數據的理想工具,也能創建供內部使用的數據圖,但是Excel在顏色、線條和樣式上課選擇的範圍有限,這也意味著用Excel很難製作出能符合專業出版物和網站需要的數據圖。
二、Google Chart API
Google Chart提供了一種非常完美的方式來可視化數據,提供了大量現成的圖標類型,從簡單的線圖表到複雜的分層樹地圖等。它還內置了動畫和用戶交互控制。
三、D3
D3(Data Driven Documents)是支持SVG渲染的另一種JavaScript庫。但是D3能夠提供大量線性圖和條形圖之外的複雜圖表樣式,例如Voronoi圖、樹形圖、圓形集群和單詞雲等。
四、R
R語言是主要用於統計分析、繪圖的語言和操作環境。雖然R主要用於統計分析或者開發統計相關的軟體,但也有用作矩陣計算。其分析速度可比美GNUOctave甚至商業軟體MATLAB。
五、Visual.ly
如果你需要製作信息圖而不僅僅是數據可視化,Visual.ly是最流行的一個選擇。
六、Processing
Processing是數據可視化的招牌工具。你只需要編寫一些簡單的代碼,然後編譯成Java。Processing可以在幾乎所有平台上運行。
七、Leaflet
Leaflet是一個開源的JavaScript庫,用來開發移動友好地交互地圖。
八、Openlayers
Openlayers可能是所有地圖庫中可靠性最高的一個。雖然文檔註釋並不完善。且學習曲線非常陡峭,但是對於特定的任務來說,Openlayers能夠提供一些其他地圖庫都沒有的特殊工具。
九、PolyMaps
PolyMaps是一個地圖庫,主要面向數據可視化用戶。PolyMaps在地圖風格化方面有獨到之處,類似CSS樣式表的選擇器。
十、Charting Fonts
Charting Fonts是將符號字體與字體整合(把符號變成字體),創建出漂亮的矢量化圖標。
十一、Gephi
Gephi是進行社會圖譜數據可視化分析的工具,不但能處理大規模數據集並且Gephi是一個可視化的網路探索平台,用於構建動態的、分層的數據圖表。
十二、CartoDB
CartoDB是一個不可錯過的網站,你可以用CartoDB很輕易就把表格數據和地圖關聯起來,這方面CartoDB是最優秀的選擇。
十三、Weka
Weka是一個能根據屬性分類和集群大量數據的優秀工具,Weka不但是數據分析的強大工具,還能生成一些簡單的圖表。
十四、NodeBox
NodeBox是OS X上創建二維圖形和可視化的應用程序,你需要了解Python程序,NodeBox與Processing類似,但沒有Processing的互動功能。https://www.nodebox.net/code/index.php/Home
十五、Kartograph
Kartograph不需要任何地圖提供者像Google Maps,用來建立互動式地圖,由兩個libraries組成,從空間數據開放格式,利用向量投影的Python library以及post GIS,並將兩者結合到SVG和JavaScript library,並把這些SVG資料轉變成互動性地圖。
十六、Modest Maps
Modest Maps是一個很小的地圖庫,在一些擴展庫的配合下,例如Wax、Modest Maps立刻會變成一個強大的地圖工具。
十七、Tangle
Tangle是一個用來探索,Play和可以立即查看文檔更新的交互工具。
十八、Crossfilter
Crossfilter既是圖表,又是互動圖形用戶界面的小程序,當你調整一個圖表中的輸入範圍時,其他關聯圖表的數據也會隨之改變
十九、Raphael
Raphael是創建圖表和圖形的JavaScript庫,與其他庫最大的不同是輸出格式僅限SVG和VML.http://raphaeljs.com/
二十、jsDraw2DX
jsDraw2DX是一個標準的JavaScript庫,用來創建任意類型的SVG互動式圖形,可生成包括線、矩形、多邊形、橢圓、弧線等圖形。http://jsdraw2dx.jsfiction.com/
二十一、Pizza Pie Charts
Pizza Pie Charts是個響應式餅圖圖表,基於Adobe Snap SVG框架,通過HTML標記和CSS來替代JavaScript對象,更容易集成各種先進的技術。
二十二、Fusion Charts Suit XT
Fusion Charts Suit XT是一款跨平台、跨瀏覽器的JavaScript圖表組件,為你提供令人愉悅的JavaScript圖表體驗。它是最全面的圖表解決方案,包含90+圖表類型和眾多交互功能,包括3D、各種儀錶、工具提示、向下鑽取、縮放和滾動等。它擁有完整的文檔以及現成的演示,可以幫助你快速創建圖表。
二十三、iCharts
iCharts提供可一個用於創建並呈現引人注目圖表的託管解決方案。有許多不同種類的圖表可供選擇,每種類型都完全可定製,以適合網站的主題。iCharts有交互元素,可以從Google Doc、Excel表單和其他來源中獲取數據。
二十四、Modest Maps
Modest Maps是一個輕量級、可擴展的、可定製的和免費的地圖顯示類庫,這個類庫能幫助開發人員在他們自己的項目里能夠與地圖進行交互。
二十五、Raw
Raw局域非常流行的D3.js庫開發,支持很多圖表類型,例如泡泡圖、映射圖、環圖等。它可以使數據集在途、複製、粘貼、拖曳、刪除於一體,並且允許我們定製化試圖和層次。
二十六、Springy
Springy設計清涼並且簡答。它提供了一個抽象的圖形處理和計算的布局,支持Canvas、SVG、WebGL、HTML元素。
二十七、Bonsai
Bonsai使用SVG作為輸出方式來生成圖形和動畫效果,擁有非常完整的圖形處理API,可以使得你更加方便的處理圖形效果。它還支持漸變和過濾器(灰度、模糊、不透明度)等效果。
二十八、Cube
Cube是一個開源的系統,用來可視化時間系列數據。它是基於MongoDB、NodeJS和D3.js開發。用戶可以使用它為內部儀錶板構建實時可視化的儀錶板指標。
二十九、Gantti
Gantti是一個開源的PHP類,幫助用戶即時生成Gantti圖表。使用Gantti創建圖表無需使用JavaScript,純HTML-CSS3實現。圖表默認輸出非常漂亮,但用戶可以自定義樣式進行輸出(SASS樣式表)。
三十、Smoothie Charts
Smoothie Charts是一個十分小的動態流數據圖表路。通過推送一個webSocket來顯示實時數據流。Smoothie Charts只支持Chorme和Safari瀏覽器,並且不支持刻印文字或餅圖,它很擅長顯示流媒體數據。
三十一、Flot
Flot是一個優秀的線框圖表庫,支持所有支持canvas的瀏覽器(目前主流的瀏覽器如火狐、IE、Chrome等都支持)。
三十二、Tableau Public
Tableau Public是一款桌面可視化工具,用戶可以創建自己的數據可視化,並將交互性數據可視化發布到網頁上。
三十三、Many Eyes
Many Eyes是一個Web應用程序,用來創建、分享和討論用戶上傳圖形數據。
三十四、Anychart
Anychart是一個靈活的基於Flash/JavaScript(HTML5)的圖表解決方案、跨瀏覽器、跨平台。除了圖表功能外,它還有一款收費的互動式圖表和儀錶。
三十五、Dundas Chart
Dundas Chart處於行業領先地位的NET圖表處理控制項,於2009年被微軟收購,並將圖表產品的一部分功能集成到Visual Studio中。
三十六、TimeFlow
TimeFlow Analytical Timeline是為了暫時性資料的視覺化工具,現在有alpha版本因此有機會可以發現差錯,提供以下不同的呈現方式:時間軸、日曆、柱狀圖、表格等。
三十七、Protovis
Protovis是一個可視化JavaScript圖表生成工具。
三十八、Choosel
Choosel是可擴展的模塊化Google網路工具框架,可用來創建基於網路的整合了數據工作台和信息圖表的可視化平台。
三十九、Zoho Reports
Zoho Reports支持豐富的功能幫助不同的用戶解決各種個性化需求,支持SQL查詢、類四暗自表格界面等。
四十、Quantum GIS(QDIS)
Quantum GIS(QDIS)是一個用戶界面友好、開源代碼的GIS客戶端程序,支持數據的可視化、管理、編輯與分析和印刷地圖的製作。
四十一、NodeXL
NodeXLDE主要功能是社交網路可視化。
四十二、OpenStreetMap
OpenStreetMap是一個世界地圖,由像您一樣的人們所構築,可依據開放協議自由使用。
四十三、OpenHeatMap
OpenHeatMap簡單易用,用戶可以用它上傳數據、創建地圖、交流信息。它可以把數據(如Google Spreadsheet的表單)轉化為互動式的地圖應用,並在網上分享。
四十四、Circos
Circos最初主要用於基因組序列相關數據的可視化,目前已應用於多個領域,例如:影視作品中的人物關係分析,物流公司的訂單來源和流向分析等,大多數關係型數據都可以嘗試用Circos來可視化。
四十五、Impure
Impure是一個可視化編程語言,旨在收集、處理可視化信息。
四十六、Polymaps
Polymaps是一個基於矢量和tile創建動態、互動式的動態地圖。
四十七、Rickshaw
Rickshaw是一個基於D3.JS來創建序互動式的時間序列圖表庫。
四十八、Sigma.js
Sigma.js是一個開源的輕量級庫,用來顯示互動式的靜態和動態圖表。
四十九、Timeline
Timeline即時間軸,用戶通過這個工具可以一目了然的知道自己在何時做了什麼。
五十、BirdEye
BirdEye是Decearative Visual Analytics,它屬於一個群體專案,為了要提升設計和廣泛的開源資料視覺化發展,並且為了Adobe Flex建視覺分析圖庫,這個動作以敘述性的資料庫為主,讓使用者能夠建立多元資料視覺化界面來分析以及呈現資訊。
五十一、Arbor.Js
Arbor.Js提供有效率、以力導向的版面配置演演算法,抽象畫圖表組織以及篩選更新的處理。
五十二、Highchart.js
Highchart.js是單純由JavaScript所寫的圖表資料庫,提供簡單的方法來增加互動性圖表來表達你的網站或網站應用程式。目前它能支援線圖、樣條函數圖。
五十三、Paper.js
Paper.js是一個開源向量圖表敘述架構,能夠在HTML5 Canvas 運作,對於初學者來說它是很容易學習的,其中也有很多專業面向可以提供中階及高階使用者。
五十四、Visualize Free
Visualize Free是一個建立在高階商業後台集游InetScoft開發的視覺化軟體免費的視覺分析工具,可從多元變數資料篩選並看其趨勢,或是利用簡單地點及方法來切割資料或是小範圍的資料。
五十五、GeoCommons
GeoCommons可以使用戶構建富交互可視化應用來解決問題,即使他們沒有任何傳統地圖使用經驗。你可以將實社會化數據或者GeoCommons保存的超5萬份開源數據在地圖上可視化,創造帶交互的可視化分析作品,並將作品嵌入網站、博客或分享到社交網路上。
附:第二批」數據科學與大數據技術專業」獲批名單
第一批」數據科學與大數據技術專業」獲批名單
看完后對「數據科學與大數據技術」這一全新專業心動了嗎?歡迎下方留言說說你對這一專業的看法~
綜合教育部網站
青年報
華中大數據交易所
運營那點事
美國留學聯盟等整理
大學之大 ┃ 這裡的舞台很大,但主角只有你
關注「大學之大」微信平台
請掃描下方二維碼