大數據辭典：吃瓜群眾也該知道的75個大數據術語！

開始文章前，小編不禁想賣弄地問問各位：演算法、分析、描述性分析、預測性分析、規範性分析、批處理、雲計算、集群計算、暗數據……這些大數據專業辭彙你知道是什麼意思嗎？

就知道你的反應會是這樣！每天說800遍的詞偏偏在被問什麼意思的時候懵逼，你這個吃瓜群眾大大的不合格哦！畢竟，想要裝逼，肚子里還是要有點真材實料的。今天小編就要為你介紹75個大數據裝逼必備辭彙的含義，讓它們成為你聊天裝逼的利器吧！

1. 演算法（Algorithm）

演算法是指解題方案的準確而完整的描述，是一系列解決問題的清晰指令，演算法代表著用系統的方法描述解決問題的策略機制。也就是說，能夠對一定規範的輸入，在有限時間內獲得所要求的輸出。如果一個演算法有缺陷，或不適合於某個問題，執行這個演算法將不會解決這個問題。

2. 分析（Analytics）

舉個常見的例子，你的信用卡公司每年會將記錄著你全年資金轉賬情況的年終報表發給你。如果你想具體看看自己在食品、衣物、娛樂等方面消費情況的百分比是怎樣？這個過程就叫「分析」，你正嘗試從原始數據中挖掘有用的信息，來幫助自己決定來年的支出。

那麼，如果你以類似的方法對朋友、網路或者自己的公司發的推文以及 facebook 帖子進行同樣的操作，我們就將其稱之為「大數據分析」了。所謂大數據分析，就是對大量數據進行推理並得出結論的過程。它有三種不同類型的分析方法，下面我們就對其分別進行梳理。

3. 描述性分析（Descriptive Analytics）

如果你告訴我，去年你自己的信用卡消費情況為：食品消費 25%、衣物消費 35%、娛樂消費 20%、剩下 20% 為雜項開支，這種分析方法就稱之為「描述性分析」。

4. 預測性分析（Predictive Analytics）

如果你分析了過去 5 年的信用卡消費記錄，並在其中發現一定的一致性、關聯性，那麼在這種情況下，你就可以較有把握地預測出——來年的消費情況應該和過去幾年是類似的。值得注意的是，我們並非在「預測未來」，而是在「預測事情發生的概率和可能性」。

在大數據預測分析中，數據科學家可能會使用機器學習、數據挖掘以及高級統計過程等先進技術來預測天氣情況、經濟變化等。

5. 規範性分析（Prescriptive Analytics）

這裡我們還是用信用卡的例子來解釋。你可能會很想知道自己的哪類消費（例如食品、娛樂、衣物等）會對整體消費產生巨大影響，而「規範性分析」就是通過引入「動態指標（action）」（如減少食品或衣物或娛樂）以及對由此產生的結果進行分析，從而規定一個可以降低你總開銷的最佳消費項。

如果將其延伸到大數據領域，你可以想象一個管理人員是如何通過研究他面前多種「動態指標」的影響，進而做出「數據驅動」的決策。

6. 批量處理（Batch processing）

儘管從大型計算機（mainframe）時代開始，批量處理就已經存在了。但是在處理大量數據的大數據時代，批量處理又被重新賦予了更重要的意義。批量數據處理是一種處理大量數據（如在一段時間內收集到的一堆交易數據）的有效方法。稍後我會介紹的分散式計算（Hadoop）就是一種專門處理批量數據的方法。

7. Cassandra

Cassandra是由 Apache 軟體基金會（下文有介紹）開發並運營的一款流行的開源數據管理系統。Apache 掌握了很多大數據處理技術，Cassandra 就是他們專門設計用來處理跨分散式伺服器中大量數據的系統。

8. 雲計算（Cloud computing）

雖然雲計算這一詞現在已經家喻戶曉，在此大可不必重述，但為了全篇內容的完整性，小編還是將其歸納在內。本質上來說，軟體及數據在遠程伺服器上進行託管和運行，且這些資源可以從互聯網的任何地方進行訪問，那麼它就可被稱為「雲計算」。

9. 集群計算（Cluster computing）

集群計算指的是計算機集群將一組鬆散集成的計算機軟體或硬體連接起來高度緊密地協作完成計算工作。在某種意義上，他們可以被看作是一台計算機。

集群系統中的單個計算機通常稱為節點，通常通過區域網連接，但也有其它的可能連接方式。集群計算機通常用來改進單個計算機的計算速度和/或可靠性。一般情況下集群計算機比單個計算機，比如工作站或超級計算機性價比要高得多。

10. 暗數據（Dark data）

這是一個生造詞，在小編看來，它是用來嚇唬那些高級管理人員的。簡而言之，暗數據就是一個企業收集、處理和存儲起來的，最後並沒有投入任何特定用途的信息。這些數據可以是社交網路中的信息、電話中心的記錄、會議記錄等。很多估計認為所有公司的數據中有 60% - 90% 可能是「暗數據」，但實際上沒人知道。

11. 數據湖（Data lake）

Data lake這個術語由Pentaho公司的創始人兼首席技術官James Dixon發明的，維基百科對其的解釋為：數據湖是一種在系統或存儲庫中以自然格式存儲數據的方法，它有助於以各種模式和結構形式配置數據，通常是對象塊或文件。數據湖的主要思想是對企業中的所有數據進行統一存儲，從原始數據（這意味著源系統數據的精確副本）轉換為用於報告、可視化、分析和機器學習等各種任務的轉換數據。

12. 數據挖掘（Data mining）

Data mining，又譯為資料探勘、數據採礦。它是資料庫知識發現（Knowledge-Discovery in Databases，簡稱KDD）中的一個步驟。數據挖掘一般是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關，並通過統計、在線分析處理、情報檢索、機器學習、專家系統（依靠過去的經驗法則）和模式識別等諸多方法來實現上述目標。

13. 數據科學家（Data Scientist）

數據科學家是時下非常熱門的一個職位。它指那些通過提取原始數據（就是我們前面提到的數據湖）進而理解、處理並得出自己的見解的人。數據科學家需要具備超人般的技能：分析能力、統計學、計算機科學、創造力、故事敘述以及理解商業背景的能力。難怪這幫傢伙的工資這麼高。

14. 分散式文件系統（Distributed File System，簡稱DFS）

由於大數據量太大，不能存儲在單個系統中，分散式文件系統就是一個能把大量數據存儲在多個存儲設備上的文件系統，它能夠幫助降低存儲大量數據的成本和複雜性。

15. ETL

ETL是Extract-Transform-Load 的縮寫，用來描述將數據從來源端經過抽取（extract）、轉換（transform）、載入（load）至目的端的過程。ETL一詞較常用在數據倉庫，但其對象並不限於數據倉庫。

ETL是構建數據倉庫的重要一環，用戶從數據源抽取出所需的數據，經過數據清洗（下文有釋義），最終按照預先定義好的數據倉庫模型，將數據載入到數據倉庫中去。

16. Hadoop

當想到大數據時，人們會立即想到 Hadoop。Hadoop （logo 是一頭可愛的大象）是一個開源軟體架構，由 Hadoop 分散式文件系統（HDFS）構成，並允許使用分散式硬體對大數據進行存儲、檢索和分析。

如果你真的想讓某人對這個東西印象深刻，你可以跟他說 YARN（Yet Another Resource Scheduler），顧名思義，就是一種資源調度程序。不得不說，取名字的人太有才了。推出 Hadoop 的 Apache 軟體基金會，還推出過 Pig、Hive 以及 Spark（這都是一些軟體的名字）。沒有被這些名字驚艷到？

17. 內存計算（In-memory computing）

「內存計算」的概念由Intel提出，它是指將傳統上位於硬碟里的資料數據（比如電商的整個產品資料庫）全部轉移到內存中，直接在裡邊進行運算分析（in-memory analytics）。此項技術是對傳統數據處理方式的一種加速，是實現商務智能中海量數據分析和實施數據分析的關鍵應用技術。

18. 物聯網（IoT）

最新的流行語就是物聯網（IoT）。IoT 是通過互聯網將嵌入式對象（如感測器、可穿戴設備、汽車、冰箱等）中的計算設備進行互聯，它們能夠發送和接收數據。物聯網生成了海量的數據，提供了大量大數據分析的機會。

19. 機器學習（Machine Learning）

機器學習（Machine Learning）是一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的性能。

它是人工智慧（下文有釋義）的核心，是使計算機具有智能的根本途徑，其應用遍及人工智慧的各個領域，它主要使用歸納、綜合而不是演繹。

20. MapReduce

MapReduce 可能有點難以理解，我試著解釋一下吧。MapReduce 是一種編程模型，用於大規模數據集（大於1TB）的并行運算。最好的理解就是要注意到 Map 和 Reduce 是兩個獨立的、不同的過程。

在 MapReduce 中，程序模型首先將大數據集分割成一些小塊（這些小塊拿技術術語來講叫做「元組」，但是我描述的時候會盡量避免晦澀的技術術語），然後這些小塊會被分發給不同位置上的不同計算機（也就是說之前描述過的「集群計算」），這基本上就是 Map 部分。然後，模型會收集每個計算結果，並將它們「reduce」成一個部分。MapReduce 的數據處理模型和 Hadoop 分散式文件系統緊密相關。

21. 非關係型資料庫（NoSQL）

字面看起來，這個詞好像是「SQL」（結構化查詢語言）的反義詞，SQL 是傳統關係型數據管理系統（RDBMS）的主要內容。但 NOSQL 實際上指的是「不止 SQL」（Not ONLY SQL）。

NoSQL 實際上指的是那些用於處理沒有結構（或專業稱為「schema」）的大量數據的資料庫管理系統。NoSQL 資料庫通常適合大型數據系統，因為它們具備大型非結構化資料庫所需的靈活性和分散式的優先體系結構。

22. R 語言

看到「R」，你能想到這是一個編程語言嗎？然而它就是這樣一種語言。可以這麼說，R 語言是一個在統計工作中工作得很出色的語言。如果你不知道 R 語言，你就稱不上是數據科學家，因為R是數據科學中最受歡迎的語言之一。

23. Spark（Apache Spark）

Apache Spark 是一種快速的內存數據處理引擎，它能夠高效地執行那些需要迭代訪問數據集的流處理、機器學習以及 SQL 工作負載。Spark 通常會比我們前面討論過的 MapReduce 快很多。

24. 流處理（Stream processing）

望文生義，流處理（Stream Processing）就是指源源不斷的數據流過系統時，系統可以不停地連續計算。與流分析技術（指的是能夠持續地計算數值和統計分析的能力）結合起來，流處理解決方案旨在針對大規模數據的實時處理。

25. 結構化 vs 非結構化數據（Structured v Unstructured Data）

這是大數據中的對比之一。結構化數據，即行數據，存儲在資料庫里，可以用二維表結構來邏輯表達實現的數據；而那些不方便用資料庫二維邏輯表來表現的數據即稱為非結構化數據，包括所有格式的辦公文檔、文本、圖片、標準通用標記語言下的子集XML、HTML、各類報表、圖像和音頻/視頻信息等。

26. Apache軟體基金會（ASF）

Apache軟體基金會（Apache Software Foundation，簡稱ASF），是專門為支持開源軟體項目而辦的一個非盈利性組織。它提供了很多大數據的開源項目，目前有 350 多個。

值得一提的是，在它所支持的Apache項目與子項目中，所發行的軟體產品都遵循Apache許可證（Apache License）。

27. Apache Kafka

Apache Kafka是由Apache軟體基金會開發的一個開源消息系統項目，命名於捷克作家Kafka，由Scala寫成。Kafka最初是由LinkedIn開發，並於2011年初開源。該項目的目標是為處理實時數據提供一個統一、高通量、低等待的平台。

28. Apache Mahout

Apache Mahout 是ASF開發的一個開源項目，其主要目標是創建一些可伸縮的機器學習演算法，供開發人員在 Apache 在許可下免費使用。Mahout 包含許多實現，包括集群、分類、CP 和進化程序。此外，通過使用 Apache Hadoop 庫，Mahout 可以有效地擴展到雲中。

29. Apache Oozie

在任何編程環境中，你都需要一些工作流系統通過預定義的方式和定義的依賴關係來安排和運行工作。Oozie 為 pig、MapReduce 以及 Hive 等語言編寫的大數據工作所提供正是這個。

30. Apache Drill、Apache Impala、 Apache Spark SQL

這三個開源項目都提供快速和互動式的 SQL，如與 Apache Hadoop 數據的交互。如果你已經知道 SQL 並處理以大數據格式存儲的數據（即 HBase 或 HDFS），這些功能將非常有用。

31. Apache Hive

知道 SQL 嗎？如果知道那你就很好上手 Hive 了。Hive 有助於使用 SQL 讀取、寫入和管理駐留在分散式存儲中的大型數據集。

32. Apache Pig

Apache Pig 是apache平台下的一個免費開源項目，Pig為大型數據集的處理提供了更高層次的抽象，很多時候數據的處理需要多個MapReduce過程才能實現，使得數據處理過程與該模式匹配可能很困難，有了Pig就能夠使用更豐富的數據結構。

它所使用的腳本語言叫做 Pig Latin，它是一個相對簡單的語言，一條語句就是一個操作，與資料庫的表類似，可以在關係資料庫中找到它（其中，元組代錶行，並且每個元組都由欄位組成）。

33. Apache Sqoop

sqoop是Apache頂級項目，主要用來在Hadoop和關係資料庫中傳遞數據。通過sqoop，我們可以方便的將數據從關係資料庫導入到HDFS，或者將數據從HDFS導出到關係資料庫。

【Sqoop架構】

34. Apache Storm

一個免費開源的實時分散式計算系統。它使得使用 Hadoop 進行批處理的同時可以更容易地處理非結構化數據。

35. 人工智慧（Artificial Intelligence ，簡稱AI）

為什麼 AI 出現在這裡？你可能會問，這不是一個單獨的領域嗎？所有這些技術發展趨勢緊密相連，所以我們最好靜下心來繼續學習！人工智慧（Artificial Intelligence）是研究、開發用於模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。

人工智慧是計算機科學的一個分支，它企圖了解智能的實質，並生產出一種新的能以人類智能相似的方式做出反應的智能機器，該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。

36. 行為分析（Behavioral Analytics）

你是否曾想過谷歌是如何為你需要的產品/服務提供廣告的？行為分析側重於根據用戶的行為如「怎麼做（how）」，「為什麼這麼做（why）」，以及「做了什麼（what）」來得出結論，而不是僅僅針對人物和時間的一門分析學科，它著眼於數據中的人性化模式。

這就涉及了解我們的上網模式、社交媒體互動行為，以及我們的網上購物活動（購物車等），連接這些無關的數據點，然後嘗試預測結果。舉一個例子，在我找到一家酒店並清空購物車后，我收到了度假村假期線路的電話。還需要我解釋更多嗎？

37. B位元組（Brontobytes）

約等於1000 YB（Yottabytes），這是未來數字世界存儲單位的大小。1 B位元組包含了27個0！想知道什麼是Terabyte、Yottabytes、Zettabytes以及它們的大小關係？在文中找答案吧！

38. 商業智能（Business Intelligence，簡稱BI）

這裡依然引用 Gartner 對 BI 的定義，因為它解釋的很好。商業智能是一個總稱，包括應用程序、基礎設施、工具以及最佳實踐，它可以訪問和分析信息，從而改善和優化決策及績效。

39. 生物測定學（Biometrics）

原指用數理統計方法對生物進行分析，現在多指對生物體（一般特指人）本身的生物特徵來區分生物體個體的計算機技術。研究領域主要包括語音、臉、指紋、手掌紋、虹膜、視網膜、體形、個人習慣（例如敲擊鍵盤的力度和頻率、簽字）等，相應的識別技術就有說話人識別、人臉識別、指紋識別、掌紋識別、虹膜識別、視網膜識別、體形識別、鍵盤敲擊識別、簽字識別等。

40. 點擊流分析（Clickstream analytics）

對於一個網站來說，點擊流分析（clickstream analysis，有時也叫做點擊流分析學－clickstream analytics）是收集、分析和彙報有關訪客訪問哪個頁面、訪問頁面的順序以及每個訪客滑鼠連續點擊的結果（即點擊流）的整體數據的過程。

所以，現在你知道為什麼某些百度廣告始終陰魂不散了吧？因為百度大佬知道你在點擊什麼。

41. 聚類分析（Cluster Analysis）

聚類分析（Cluster Analysis）是對於靜態數據分析的一門技術，在許多領域受到廣泛應用，包括機器學習、數據挖掘、模式識別、圖像分析以及生物信息等。聚類是把相似的對象通過靜態分類的方法分成不同的組別，或者更多的子集（subset），這樣讓在同一個子集中的成員對象都有相似的一些屬性，常見的包括在坐標系中更加短的空間距離等。

43. 對比分析（Comparative Analytics）

顧名思義，對比分析是使用諸如模式分析、過濾和決策樹分析等統計技術來比較多個進程、數據集或其他對象。比較分析可用於醫療保健領域，通過比較大量的醫療記錄、文件、圖像等，給出更有效和更準確的醫療診斷。

44. 相關性分析（Correlation analysis）

相關性分析是研究現象之間是否存在某種依存關係，並對具體有依存關係的現象探討其相關方向以及相關程度，是研究隨機變數之間的相關關係的一種統計方法。相關性分析可以幫助發現人們、產品、網路之中的系統，甚至是數據與多個網路結合之間的相關連接和影響。

45. 數據分析師（Data Analyst）

數據分析師是一個非常重要和受歡迎的工作，除了準備報告之外，它還負責收集、編輯和分析數據。我會寫一篇更詳細的關於數據分析師的文章。

46. 數據清洗（Data Cleansing）

數據清洗從名字上也看的出，就是把「臟」的「洗掉」，指發現並糾正數據文件中可識別的錯誤的最後一道程序，包括檢查數據一致性，處理無效值和缺失值等。藉助於自動化或者人工工具和演算法，數據分析師能夠更正並進一步豐富數據，以提高數據質量。

47. 數據即服務（DaaS）

我們有軟體即服務（SaaS，下文有介紹）、平台即服務（PaaS，下文有介紹）、現在我們又有了DaaS，它的意思是：數據即服務，即部署在雲端的資料庫，即用即付，例如亞馬遜雲服務（AWS: Amazon Web Services）。DaaS 提供商能夠幫助我們快速地得到高質量的數據。

48. 數據虛擬化（Data virtualization）

它是數據整合的過程，以此獲得更多的數據信息，這個過程通常會引入其他技術，例如資料庫、應用程序、文件系統、網頁技術、大數據技術等。例如，社交網路利用這個方法來存儲我們的照片。

49. 臟數據（Dirty Data）

既然大數據這麼吸引人，那麼人們也開始給數據加上其他的形容詞來形成新的術語，例如暗數據（dark data）、臟數據（dirty data）、小數據（small data），以及現在的智能數據（smart data）。「臟數據」並不是說那些廢棄或者無用的數據，而是那些不準確的、重複的以及不一致的數據。顯然，你不會想著和臟數據攪在一起。所以，儘快地修正它。

50. 模糊邏輯（Fuzzy logic，簡稱FL）

有多少時候你能100%的確定一件事情？很少吧。我們的大腦將數據聚合成部分的事實，這些事實進一步被抽象為某種能夠決定我們決策的閾值。模糊邏輯是一種計算方式，它使用隸屬度代替布爾代數（boolean algebra）中「0」（表示「假」）和「1」（表示「真」）的二值邏輯。

其出發點就是取消二值邏輯之間非此即彼的對立，用隸屬度表示二值間的過渡狀態，為進行不精確而有效的描述提供便利，也為將符合人類思維習慣的模糊推理、模糊決策移植到計算機中提供理論工具。

51. 遊戲化（Gamification）

在一個典型的遊戲中，會有分數、與別人競爭，以及一些遊戲規則等因素。大數據中的遊戲化就是使用這些概念來收集、分析數據或者激勵用戶。

52. 圖資料庫（Graph Databases）

你是否曾經驚嘆過亞馬遜在你買一件產品的時候告訴你的關於別人在買什麼的信息？對，這就是圖資料庫。

圖資料庫源起歐拉和圖理論，也可稱為面向/基於圖的資料庫。其基本含義是以「圖」這種數據結構存儲和查詢數據，而不是存儲圖片的資料庫。它的數據模型主要是以節點和關係（邊）來體現，也可處理鍵值對。它的優點是快速解決複雜的關係問題。

53. Hadoop 用戶體驗（Hadoop User Experience ，簡稱Hue）

Hue 是一個能夠讓使用 Apache Hadoop 變得更加容易的開源界面。它是一款基於 web 的應用程序，並且具有用於分散式文件系統（HDFS）的文件瀏覽器、用於 MapReduce 的任務設計器、用於調度工作流的框架 Oozie以及一個 shell、 Impala、 Hive UI 和一組 Hadoop API。

54. 高性能分析應用（HANA）

這是 SAP 公司專為大數據傳輸和分析而設計的一個軟／硬體內存平台。

55. HBase

HBase – Hadoop Database，是一個高可靠性、高性能、面向列、可伸縮的分散式存儲系統，利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。它使用 HDFS 作為其底層存儲，既支持利用 MapReduce 進行的批量計算，也支持利用事物交互的批量計算。

56. 負載均衡（Load balancing）

在分散式系統中，負載均衡（Load Balancing）是一種將任務分派到多個服務端進程的方法。例如，將一個HTTP請求派發到實際的Web伺服器中執行的過程就涉及負載均衡的實現。一個HTTP請求到達Web伺服器，這中間涉及多個過程，也存在多種不同負載均衡的方法。

【負載均衡基本原理】

57. 元數據（Metadata）

元數據（Metadata），又稱中介數據、中繼數據，為描述數據的數據（data about data），主要是描述數據屬性（property）的信息，用來支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能。

元數據算是一種電子式目錄，為了達到編製目錄的目的，必須在描述並收藏數據的內容或特色，進而達成協助數據檢索的目的。例如，作者、數據的創建日期、修改日期以及大小，這幾項是基本的文檔元數據。除了文檔文件之外，元數據還被用於圖像、視頻、電子表格和網頁。

58. MongoDB

MongoDB是一個基於分散式文件存儲，而不是傳統的基於表格的資料庫，由C++語言編寫，旨在為WEB應用提供可擴展的高性能數據存儲解決方案。

59. Mashup

幸運的是，這個術語和我們在日常生活中使用的「mashup」一詞有著類似的含義——混搭。實質上，mashup 是將不同的數據集合併到單個應用程序中的方法（例如：將房地產數據和人口統計數據、或地理位置數據結合）。這確實能夠讓可視化變得很酷。

60. 多維資料庫（Multi-Dimensional Databases）

它是針對數據在線分析處理（OLAP）應用程序和數據倉庫進行優化的資料庫。

這裡我們介紹一下數據倉庫（Data warehouse）。數據倉庫是一個與上文提到的「數據湖」類似的概念，但不同的是，它保存的是經過清理和並且其它資源整合后的結構化數據。

61. 多值資料庫（MultiValue Databases）

多值資料庫是一種非關係型資料庫（NoSQL），一種特殊的多維資料庫：能處理3個維度的數據。主要針對非常長的字元串，能夠完美地處理HTML和XML中的字串。

62. 自然語言處理（Natural Language Processing）

自然語言處理是計算機科學的一個分支領域，它研究如何實現計算機與人類語言之間的交互。

63. 神經網路（Neural Network）

神經網路是一種模仿動物神經網路行為特徵，進行分散式并行信息處理的演算法數學模型。這種網路依靠系統的複雜程度，通過調整內部大量節點之間相互連接的關係，從而達到處理信息的目的。

64. 模式識別（Pattern Recognition）

模式識別是通過演算法來識別數據中的模式，並對同一數據源中的新數據作出預測。它與機器學習和數據挖掘緊密相連，甚至被認為是后兩者的代名詞。這種可見性可以幫助研究者發現一些深刻的規律或者得到一些可能被認為很荒謬的結論。

65. 射頻識別（Radio Frequency Identification，簡稱RFID）

這種識別技術使用一種無線非接觸式射頻電磁場感測器來傳輸數據。隨著物聯網的發展，RFID 標籤能夠被嵌入到任何可能的東西裡面，幫助生成很多需要被分析的數據。

66. 軟體即服務（SaaS）

軟體即服務是一種通過Internet提供軟體的模式，廠商將應用軟體統一部署在自己的伺服器上，客戶可以根據自己實際需求，通過互聯網向廠商定購所需的應用軟體服務，按定購的服務多少和時間長短向廠商支付費用，並通過互聯網獲得廠商提供的服務。

67. 半結構化數據（Semi-structured data）

所謂半結構化數據，就是介於完全結構化數據（如關係型資料庫、面向對象資料庫中的數據）和完全無結構的數據（如聲音、圖像文件等）之間的數據，XML、HTML文檔就屬於半結構化數據。它一般是自描述的，數據的結構和內容混在一起，沒有明顯的區分。

68. 情感分析（Sentiment Analysis）

情感分析，又稱傾向性分析，意見抽取（Opinion extraction），意見挖掘（Opinion mining），情感挖掘（Sentiment mining），主觀分析（Subjectivity analysis），它是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。其目標就是要辨別或評價針對一個公司、產品、服務、人或者時間所持有的態度或者情感。

69. 空間分析（Spatial analysis）

空間分析是分析地理信息或拓撲信息這類空間數據，從中得出分佈在地理空間中的數據的模式和規律。

70. 平台即服務（Paas）

所謂PaaS實際上是指將軟體研發的平台作為一種服務，以SaaS的模式提交給用戶。因此，PaaS也是SaaS模式的一種應用。但是，PaaS的出現可以加快SaaS的發展，尤其是加快SaaS應用的開發速度。

71．智能數據（Smart Data）

智能數據是經過一些演算法過濾后的有用且可操作的數據。

72. T位元組（Terabyte）

這是一個相對大的數字數據單位，1TB 等於 1000GB。據估計，10TB 能夠容納美國國會圖書館的所有印刷品，而 1TB 則能夠容納整個百科全書。

73. 可視化（Visualization）

可視化是利用計算機圖形學和圖像處理技術，將數據轉換成圖形或圖像在屏幕上顯示出來，並進行交互處理的理論、方法和技術。它涉及到計算機圖形學、圖像處理、計算機視覺、計算機輔助設計等多個領域，成為研究數據表示、數據處理、決策分析等一系列問題的綜合技術。

74. Y位元組（Yottabytes）

約等於 1000 Zettabytes，或者 250 萬億張 DVD的數據容量。現在，整個數字化宇宙的數據量約為 1 Yottabyte，而且這一數字正以每 18 個月翻一番的速度增長。

75. Z位元組（Zettabytes）

約等於 1000 Exabytes，或者 10 億 Terabytes。

附：存儲容量單位換算表：

1 Bit(比特) = Binary Digit；

8 Bits = 1 Byte；

1,000 Bytes = 1 Kilobyte；

1,000 Kilobytes = 1 Megabyte；

1,000 Megabytes = 1 Gigabyte；

1,000 Gigabytes = 1 Terabyte；

1,000 Terabytes = 1 Petabyte；

1,000 Petabytes = 1 Exabyte；

1,000 Exabytes = 1 Zettabyte；

1,000 Zettabytes = 1 Yottabyte；

1,000 Yottabytes = 1 Brontobyte；

1,000 Brontobytes = 1 Geopbyte；

本次分享到此結束，希望以上75個大數據專業術語可以助您在大數據圈子裡叱吒風雲，任意闖蕩！當然，這份術語名單並非100%包含所有的術語，如果您認為有任何遺漏之處，歡迎留言與我們分享。

撰稿：米洛編輯：唐學菲

【推薦閱讀】

◎◎◎◎◎

☞【安在專訪】做一件事要多久？張耀疆說，十年