大數據產業十個最常見的問題

1.什麼是大數據?

大數據(big data)，是指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合。

在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑，而採用所有數據進行分析處理。

大數據的4V特點：Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。

對於「大數據」(Big data)研究機構Gartner給出了這樣的定義。「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

根據維基百科的定義，大數據是指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合。

大數據技術的戰略意義不在於掌握龐大的數據信息，而在於對這些含有意義的數據進行專業化處理。換言之，如果把大數據比作一種產業，那麼這種產業實現盈利的關鍵，在於提高對數據的「加工能力」，通過「加工」實現數據的「增值」。

從技術上看，大數據與雲計算的關係就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理，必須採用分散式架構。它的特色在於對海量數據進行分散式數據挖掘，但它必須依託雲計算的分散式處理、分散式資料庫和雲存儲、虛擬化技術。

2.大數據時代是什麼意思?

大數據時代就是說，在未來，我們認為會存在這樣一個時代。那個時代里，幾乎我們每一個舉動，都會被記錄，並變成數據被存儲起來，無數的數據就組合成了你本人的一個信息庫。通過這個信息庫，你的一言一行，你的思想都變得可預測。

最早提出「大數據」時代到來的是全球知名諮詢公司麥肯錫，麥肯錫稱：「數據，已經滲透到當今每一個行業和業務職能領域，成為重要的生產因素。人們對於海量數據的挖掘和運用，預示著新一波生產率增長和消費者盈餘浪潮的到來。」「大數據」在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日，卻因為近年來互聯網和信息行業的發展而引起人們關注。

大數據作為雲計算、物聯網之後IT行業又一大顛覆性的技術革命。雲計算主要為數據資產提供了保管、訪問的場所和渠道，而數據才是真正有價值的資產。企業內部的經營交易信息、互聯網世界中的商品物流信息，互聯網世界中的人與人交互信息、位置信息等，其數量將遠遠超越現有企業IT架構和基礎設施的承載能力，實時性要求也將大大超越現有的計算能力。如何盤活這些數據資產，使其為國家治理、企業決策乃至個人生活服務，是大數據的核心議題，也是雲計算內在的靈魂和必然的升級方向。

3.大數據、數據分析和數據挖掘的區別

大數據、數據分析、數據挖掘的區別是，大數據是互聯網的海量數據挖掘，而數據挖掘更多是針對內部企業行業小眾化的數據挖掘，數據分析就是進行做出針對性的分析和診斷，大數據需要分析的是趨勢和發展，數據挖掘主要發現的是問題和診斷：

（1）大數據(big data)：

指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產；

在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑，而採用所有數據進行分析處理。大數據的5V特點(IBM提出)：Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)Veracity(真實性) 。

（2）數據分析：

是指用適當的統計分析方法對收集來的大量數據進行分析，提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支持過程。在實用中，數據分析可幫助人們作出判斷，以便採取適當行動。

數據分析的數學基礎在20世紀早期就已確立，但直到計算機的出現才使得實際操作成為可能，並使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。

（3）數據挖掘(英語：Data mining)：

又譯為資料探勘、數據採礦。它是資料庫知識發現(英語：Knowledge-Discovery in Databases，簡稱：KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關，並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

簡而言之：

大數據是範圍比較廣的數據分析和數據挖掘。

按照數據分析的流程來說，數據挖掘工作較數據分析工作靠前些，二者又有重合的地方，數據挖掘側重數據的清洗和梳理。

數據分析處於數據處理的最末端，是最後階段。

數據分析和數據挖掘的分界、概念比較模糊，模糊的意思是二者很難區分。

大數據概念更為廣泛，是把創新的思維、信息技術、統計學等等技術的綜合體，每個人限於學術背景、技術背景，概述的都不一樣。

4.大數據可以做什麼?

（1）對大數據的處理分析正成為新一代信息技術融合應用的結點

移動互聯網、物聯網、社交網路、數字家庭、電子商務等是新一代信息技術的應用形態，這些應用不斷產生大數據。雲計算為這些海量、多樣化的大數據提供存儲和運算平台。通過對不同來源數據的管理、處理、分析與優化，將結果反饋到上述應用中，將創造出巨大的經濟和社會價值。

大數據具有催生社會變革的能量。但釋放這種能量，需要嚴謹的數據治理、富有洞見的數據分析和激發管理創新的環境(Ramayya Krishnan,卡內基·梅隆大學海因茲學院院長)。

（2）大數據是信息產業持續高速增長的新引擎

面向大數據市場的新技術、新產品、新服務、新業態會不斷湧現。在硬體與集成設備領域，大數據將對晶元、存儲產業產生重要影響，還將催生一體化數據存儲處理伺服器、內存計算等市場。在軟體與服務領域，大數據將引發數據快速處理分析、數據挖掘技術和軟體產品的發展。

（3）大數據利用將成為提高核心競爭力的關鍵因素各行各業的決策正在從「業務驅動」轉變「數據驅動」

對大數據的分析可以使零售商實時掌握市場動態並迅速做出應對;可以為商家制定更加精準有效的營銷策略提供決策支持;可以幫助企業為消費者提供更加及時和個性化的服務;在醫療領域，可提高診斷準確性和藥物有效性;在公共事業領域，大數據也開始發揮促進經濟發展、維護社會穩定等方面的重要作用。

（4）大數據時代科學研究的方法手段將發生重大改變

例如，抽樣調查是社會科學的基本研究方法。在大數據時代，可通過實時監測、跟蹤研究對象在互聯網上產生的海量行為數據，進行挖掘分析，揭示出規律性的東西，提出研究結論和對策。

5.大數據的商業價值

（1）對顧客群體細分

「大數據」可以對顧客群體細分，然後對每個群體量體裁衣般的採取獨特的行動。瞄準特定的顧客群體來進行營銷和服務是商家一直以來的追求。雲存儲的海量數據和「大數據」的分析技術使得對消費者的實時和極端的細分有了成本效率極高的可能。

（2）模擬實境

運用「大數據」模擬實境，發掘新的需求和提高投入的回報率。現在越來越多的產品中都裝有感測器，汽車和智能手機的普及使得可收集數據呈現爆炸性增長。Blog、Twitter、Facebook和微博等社交網路也在產生著海量的數據。

雲計算和「大數據」分析技術使得商家可以在成本效率較高的情況下，實時地把這些數據連同交易行為的數據進行儲存和分析。交易過程、產品使用和人類行為都可以數據化。「大數據」技術可以把這些數據整合起來進行數據挖掘，從而在某些情況下通過模型模擬來判斷不同變數(比如不同地區不同促銷方案)的情況下何種方案投入回報最高。

（3）提高投入回報率

提高「大數據」成果在各相關部門的分享程度，提高整個管理鏈條和產業鏈條的投入回報率。「大數據」能力強的部門可以通過雲計算、互聯網和內部搜索引擎把」大數據」成果和「大數據」能力比較薄弱的部門分享，幫助他們利用「大數據」創造商業價值。

（4）數據存儲空間出租

企業和個人有著海量信息存儲的需求，只有將數據妥善存儲，才有可能進一步挖掘其潛在價值。具體而言，這塊業務模式又可以細分為針對個人文件存儲和針對企業用戶兩大類。主要是通過易於使用的API，用戶可以方便地將各種數據對象放在雲端，然後再像使用水、電一樣按用量收費。目前已有多個公司推出相應服務，如亞馬遜、網易、諾基亞等。運營商也推出了相應的服務，如移動的彩雲業務。

（5）管理客戶關係

客戶管理應用的目的是根據客戶的屬性(包括自然屬性和行為屬性)，從不同角度深層次分析客戶、了解客戶，以此增加新的客戶、提高客戶的忠誠度、降低客戶流失率、提高客戶消費等。對中小客戶來說，專門的CRM顯然大而貴。不少中小商家將飛信作為初級CRM來使用。比如把老客戶加到飛信群里，在群朋友圈裡發布新產品預告、特價銷售通知，完成售前售後服務等。

（6）個性化精準推薦

在運營商內部，根據用戶喜好推薦各類業務或應用是常見的，比如應用商店軟體推薦、IPTV視頻節目推薦等，而通過關聯演算法、文本摘要抽取、情感分析等智能分析演算法后，可以將之延伸到商用化服務，利用數據挖掘技術幫助客戶進行精準營銷，今後盈利可以來自於客戶增值部分的分成。

以日常的「垃圾簡訊」為例，信息並不都是「垃圾」，因為收到的人並不需要而被視為垃圾。通過用戶行為數據進行分析后，可以給需要的人發送需要的信息，這樣「垃圾簡訊」就成了有價值的信息。在日本的麥當勞，用戶在手機上下載優惠券，再去餐廳用運營商DoCoMo的手機錢包優惠支付。運營商和麥當勞搜集相關消費信息，例如經常買什麼漢堡，去哪個店消費，消費頻次多少，然後精準推送優惠券給用戶。

（7）數據搜索

數據搜索是一個並不新鮮的應用，隨著「大數據」時代的到來，實時性、全範圍搜索的需求也就變得越來越強烈。我們需要能搜索各種社交網路、用戶行為等數據。其商業應用價值是將實時的數據處理與分析和廣告聯繫起來，即實時廣告業務和應用內移動廣告的社交服務。

運營商掌握的用戶網上行為信息，使得所獲取的數據「具備更全面維度」，更具商業價值。典型應用如移動的「盤古搜索」。

6.大數據技術有哪些?

基礎階段：

Linux、Docker、KVM、MySQL基礎、Oracle基礎、MongoDB、redis。

hadoop mapreduce hdfs yarn：hadoop：Hadoop 概念、版本、歷史，HDFS工作原理，YARN介紹及組件介紹。

大數據存儲階段：hbase、hive、sqoop。

大數據架構設計階段：Flume分散式、Zookeeper、Kafka。

大數據實時計算階段：Mahout、Spark、storm。

大數據數據採集階段：Python、Scala。

大數據商業實戰階段：實操企業大數據處理業務場景，分析需求、解決方案實施，綜合技術實戰應用。

在掌握Java基礎的前提下，各階段的大數據學習需要掌握的專業技術。

7.大數據的趨勢

趨勢一：數據的資源化

何為資源化，是指大數據成為企業和社會關注的重要戰略資源，並已成為大家爭相搶奪的新焦點。因而，企業必須要提前制定大數據營銷戰略計劃，搶佔市場先機。

趨勢二：與雲計算的深度結合

大數據離不開雲處理，雲處理為大數據提供了彈性可拓展的基礎設備，是產生大數據的平台之一。自2013年開始，大數據技術已開始和雲計算技術緊密結合，預計未來兩者關係將更為密切。除此之外，物聯網、移動互聯網等新興計算形態，也將一齊助力大數據革命，讓大數據營銷發揮出更大的影響力。

趨勢三：科學理論的突破

隨著大數據的快速發展，就像計算機和互聯網一樣，大數據很有可能是新一輪的技術革命。隨之興起的數據挖掘、機器學習和人工智慧等相關技術，可能會改變數據世界里的很多演算法和基礎理論，實現科學技術上的突破。

趨勢四：數據科學和數據聯盟的成立

未來，數據科學將成為一門專門的學科，被越來越多的人所認知。各大高校將設立專門的數據科學類專業，也會催生一批與之相關的新的就業崗位。與此同時，基於數據這個基礎平台，也將建立起跨領域的數據共享平台，之後，數據共享將擴展到企業層面，並且成為未來產業的核心一環。

趨勢五：數據泄露泛濫

未來幾年數據泄露事件的增長率也許會達到100%，除非數據在其源頭就能夠得到安全保障。可以說，在未來，每個財富500強企業都會面臨數據攻擊，無論他們是否已經做好安全防範。而所有企業，無論規模大小，都需要重新審視今天的安全定義。在財富500強企業中，超過50%將會設置首席信息安全官這一職位。企業需要從新的角度來確保自身以及客戶數據，所有數據在創建之初便需要獲得安全保障，而並非在數據保存的最後一個環節，僅僅加強後者的安全措施已被證明於事無補。

趨勢六：數據管理成為核心競爭力

數據管理成為核心競爭力，直接影響財務表現。當「數據資產是企業核心資產」的概念深入人心之後，企業對於數據管理便有了更清晰的界定，將數據管理作為企業核心競爭力，持續發展，戰略性規劃與運用數據資產，成為企業數據管理的核心。數據資產管理效率與主營業務收入增長率、銷售收入增長率顯著正相關;此外，對於具有互聯網思維的企業而言，數據資產競爭力所佔比重為36.8%，數據資產的管理效果將直接影響企業的財務表現。

趨勢七：數據質量是BI(商業智能)成功的關鍵

採用自助式商業智能工具進行大數據處理的企業將會脫穎而出。其中要面臨的一個挑戰是，很多數據源會帶來大量低質量數據。想要成功，企業需要理解原始數據與數據分析之間的差距，從而消除低質量數據並通過BI獲得更佳決策。

趨勢八：數據生態系統複合化程度加強

大數據的世界不只是一個單一的、巨大的計算機網路，而是一個由大量活動構件與多元參與者元素所構成的生態系統，終端設備提供商、基礎設施提供商、網路服務提供商、網路接入服務提供商、數據服務使能者、數據服務提供商、觸點服務、數據服務零售商等等一系列的參與者共同構建的生態系統。而今，這樣一套數據生態系統的基本雛形已然形成，接下來的發展將趨向於系統內部角色的細分，也就是市場的細分;系統機制的調整，也就是商業模式的創新;系統結構的調整，也就是競爭環境的調整等等，從而使得數據生態系統複合化程度逐漸增強。

8.大數據和數據大集中有什麼區別?

大數據實質是數據量到了一定程度，怎麼獲取、處理和分析的事情。其他問題比如數據中心怎麼建設、是否採用數據大集中的形式可以說和大數據的實質關係不大。大數據使用的數據可以是集中的一處拿來的，更可能是分佈在多地或者一地的多處的。

數據大集中是一種建設模式。意思主要是不搞分級分地區的部署，而把數據中心統一在一處。比如銀行的南北兩大數據中心、稅務部門的大集中建設，這樣資料庫在物理上是位於一處匯總的(當然為了數據安全，可有異地備份)，對銀行和稅務等部門來說，便於提取和統計，特別是便於總行總局之類的上級部門直接拿到各地業務數據。

9.數據挖掘與統計學的關係

什麼是數據挖掘?

數據挖掘(Data Mining)是採用數學的、統計的、人工智慧和神經網路等領域的科學方法，如記憶推理、聚類分析、關聯分析、決策樹、神經網路、基因演算法等技術，從大量數據中挖掘出隱含的、先前未知的、對決策有潛在價值的關係、模式和趨勢,並用這些知識和規則建立用於決策支持的模型，提供預測性決策支持的方法、工具和過程。

數據挖掘綜合了各個學科技術，有很多的功能，當前的主要功能如下：

(1)、分類：按照分析對象的屬性、特徵，建立不同的組類來描述事物。例如：銀行部門根據以前的數據將客戶分成了不同的類別，現在就可以根據這些來區分新申請貸款的客戶，以採取相應的貸款方案。

(2)、聚類：識別出分析對內在的規則，按照這些規則把對象分成若干類。例如：將申請人分為高度風險申請者，中度風險申請者，低度風險申請者。

(3)、關聯規則：關聯是某種事物發生時其他事物會發生的這樣一種聯繫。例如：每天購買啤酒的人也有可能購買香煙，比重有多大，可以通過關聯的支持度和可信度來描述。

(4)、預測：把握分析對象發展的規律，對未來的趨勢做出預見。例如：對未來經濟發展的判斷。

(5)、偏差的檢測：對分析對象的少數的、極端的特例的描述，揭示內在的原因。例如：在銀行的100萬筆交易中有500例的欺詐行為，銀行為了穩健經營，就要發現這500例的內在因素，減小以後經營的風險。

當然除了以上所列出的還有時間序列分析等一些其他的功能，需要注意的是：數據挖掘的各項功能不是獨立存在的，在數據挖掘中互相聯繫，發揮作用。

數據挖掘與統計學的聯繫

數據挖掘技術是計算機技術、人工智慧技術和統計技術等構成的一種新學科。數據挖掘來源於統計分析，而又不同於統計分析。數據挖掘不是為了替代傳統的統計分析技術，相反，數據挖掘是統計分析方法的擴展和延伸。大多數的統計分析技術都基於完善的數學理論和高超的技巧，其預測的準確程度還是令人滿意的，但對於使用者的知識要求比較高。而隨著計算機能力的不斷發展，數據挖掘可以利用相對簡單和固定程序完成同樣的功能。新的計算演算法的產生如神經網路、決策樹使人們不需了解到其內部複雜的原理也可以通過這些方法獲得良好的分析和預測效果。

由於數據挖掘和統計分析根深蒂固的聯繫，通常的據挖掘工具都能夠通過可選件或自身提供統計分析功能。這些功能對於數據挖掘的前期數據探索和數據挖掘之後對數據進行總結和分析都是十分必要的。統計分析所提供的諸如方差分析、假設檢驗、相關性分析、線性預測、時間序列分析等功能都有助於數據挖掘前期對數據進行探索，發現數據挖掘的題目、找出數據挖掘的目標、確定數據挖掘所需涉及的變數、對數據源進行抽樣等等。所有這些前期工作對數據挖掘的效果產生重大影響。而數據挖掘的結果也需要統計分析的描述功能(最大值、最小值、平均值、方差、四分位、個數、概率分配)進行具體描述，使數據挖掘的結果能夠被用戶了解。因此，統計分析和數據挖掘是相輔相成的過程,兩者的合理配合是數據挖掘成功的重要條件。

數據挖掘與統計學的區別

統計學目前有一種趨勢是越來越精確。當然，這本身並不是壞事，只有越精確才能避免錯誤，發現真理。統計學在採用一個方法之前先要證明，而不是象計算機科學和機器學習那樣注重經驗。有時候同一問題的其它領域的研究者提出一個很明顯有用的方法，但它卻不能被統計學家證明(或者現在還沒有證明)。統計雜誌傾向於發表經過數學證明的方法而不是一些特殊方法。數據挖掘作為幾門學科的綜合，已經從機器學習那裡繼承了實驗的態度。這並不意味著數據挖掘工作者不注重精確，而只是說明如果方法不能產生結果的話就會被放棄。

正是由於統計學的數學精確性，而且其對推理的側重，儘管統計學的一些分支也側重於描述，但是瀏覽一下統計論文的話就會發現這些論文的核心問題就是在觀察了樣本的情況下如何去推斷總體。當然這也常常是數據挖掘所關注的。下面我們會提到數據挖掘的一個特定屬性就是要處理的是一個大數據集。這就意味著，傳統統計學由於可行性的原因，我們常常得到的只是一個樣本，但是需要描述樣本取自的那個大數據集。然而，數據挖掘問題常常可以得到數據總體，例如關於一個公司的所有職工數據，資料庫中的所有客戶資料，去年的所有業務。在這種情形下，統計學的推斷就沒有價值了。

很多情況下，數據挖掘的本質是很偶然的發現非預期但很有價值的信息。這說明數據挖掘過程本質上是實驗性的。這和確定性的分析是不同的。(實際上，一個人是不能完全確定一個理論的，只能提供證據和不確定的證據。)確定性分析著眼於最適合的模型-建立一個推薦模型，這個模型也許不能很好的解釋觀測到的數據。大部分統計分析提出的是確定性的分析。

如果數據挖掘的主要目的是發現，那它就不關心統計學領域中的在回答一個特定的問題之前，如何很好的搜集數據，例如實驗設計和調查設計。數據挖掘本質上假想數據已經被搜集好，關注的只是如何發現其中的秘密。

10.數據倉庫，大數據和雲計算有什麼區別和聯繫?

首先我們先簡單來看一下概念：

數據倉庫：數據倉庫，是為企業所有級別的決策制定過程，提供所有類型數據支持的戰略集合。它是單個數據存儲，出於分析性報告和決策支持目的而創建。為需要業務智能的企業，提供指導業務流程改進、監視時間、成本、質量以及控制。數據倉庫是決策支持系統(dss)和聯機分析應用數據源的結構化數據環境。數據倉庫研究和解決從資料庫中獲取信息的問題。數據倉庫的特徵在於面向主題、集成性、穩定性和時變性。

大數據：大數據(big data)，指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

雲計算：雲計算(cloud computing)是基於互聯網的相關服務的增加、使用和交付模式，通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源。雲是網路、互聯網的一種比喻說法。過去在圖中往往用雲來表示電信網，後來也用來表示互聯網和底層基礎設施的抽象。因此，雲計算甚至可以讓你體驗每秒10萬億次的運算能力，擁有這麼強大的計算能力可以模擬核爆炸、預測氣候變化和市場發展趨勢。用戶通過電腦、筆記本、手機等方式接入數據中心，按自己的需求進行運算。

接下來我們來看一下他們的關係：

1)資料庫和數據倉庫都是數據的一種存儲方式，大數據處理更多的是一種需求(問題)，而雲計算是一種比較綜合的需求(問題)解決方案。

2)由於雲計算本身的特性，天生就面臨大數據處理(存儲、計算等)問題，因為雲計算的基本架構模式是C/S模式，其中S相對集中，而C是廣泛分佈。所有用戶的數據和絕大部分的計算都是在S端完成的(數據量大，計算量大)，加上用戶也天然具有多樣性(地域，文化，需求，個性化等)，因此需求(也包括計算量)就非常大。

3)雲計算當然會涉及到數據的存儲技術，但資料庫技術對於雲計算來說要視具體的情況來分析：

A)對於IaaS而言，資料庫技術不是必需的，也不是必備的功能;

B)對於PaaS來說，資料庫功能應該是必備的功能

C)對於SaaS而言，必然會用到資料庫技術(包括傳統關係資料庫和NoSQL資料庫)。

而對於數據倉庫技術，並不是雲計算所必需的，但由於雲數據的信息價值極大，類似一座金礦，我想雲服務商是不可能放過從這些金礦中提取金子的。

4)大數據首先所面臨的問題就是大數據的存儲問題，一般都會綜合運用各種存儲技術(文件存儲，資料庫存儲)，當然，你完全用文件存儲或者資料庫存儲來解決，也是沒問題的。與雲計算類似，數據倉庫技術不是必需的，但對於數據倉庫技術對於結構化數據進行淘金還是非常有用的，當然，你不用數據倉庫技術也可以，比如Hadoop模式。

在雲計算和大數據處理中，最基礎的技術其實是分散式計算技術。而對於構建分散式計算而言，多線程，同步，遠程調用(RPC,RMI等)，進程管理與通信是其基本技術點。分散式計算編程是一種綜合性應用編程，不僅需要有基本的技術點，還需要一定的組織管理知識。