search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

大數據中的數據科學自動化

如今,一切似乎都能實現自動化,從無人駕駛汽車到BLS在線更新,但自動化可能影響人們最具變革性的方法之一是數據科學的自動化。

數據科學日益重要,許多組織正在努力通過自動化簡化流程。技術的發展既是一種詛咒又是一種祝福:與大數據和物聯網相結合,數據科學隨著新的數據集和條件而不斷變化,導致分析師每次定期維護和重新創建模型。這個過程可以是乏味和耗時的,但它可以很容易地被自動化替代。自動化系統具有解決問題的能力,無論輸入什麼樣的數據,都可以創建潛在問題的所有可能的解決方案,為工作人員節省寶貴的時間和精力。

然而,在大數據環境中自動化數據科學可能是一個複雜的挑戰,特別是因為仍然有一些領域需要來自數據科學家或軟體開發人員的努力。專家建議將數據科學自動化作為一個兩個層次的過程,其中(1)將獨立的數據科學組件自動化,然後(2)將每個單獨的自動化零件組合在一起,以形成一個連貫的系統。

有四個主要領域可以單獨自動創建一個完全自動化的系統:數據準備,機器學習,生成洞察和結果解釋。這些任務可以在三個主要領域創建自動化模型:

1、數據準備

數據科學的第一步是提取,清理和轉換數據的重複性操作。其任務包括輸入空值和為每個特定演算法變換數據。許多自動化這個過程的組織對任務使用基於規則的邏輯,考慮到數據科學的目的,替換基於規則的系統,這可能不是最佳的選擇。最好的自動化系統將是通過機器學習自動化的自動化數據預處理,這意味著人們給機器更多的權力來決定應用於數據集的什麼功能。

數據準備還可以通過特徵工程自動化,其將原始數據轉換為預測,從而提高機器學習系統的準確性。特徵工程仍處於演算法開發的早期階段。隨著過程的鞏固,它可能在未來的數據科學中發揮重要作用。

2、機器學習

在工作人員的世界中,這個過程由統計學家觀察數據來確定要使用的最佳演算法,然後將信息放入模型中。在自動化世界中,機器為數據選擇最佳演算法,並簡化數學複雜性,使方程和結果易於理解。該過程涉及更高級的自動化,因為機器必須識別輸入模式和自優化以設定方程的邊界。更先進的自動化系統使用基於雲計算的伺服器和元學習等自動理解和計算大量數據。

3、生成洞察

數據科學的最終結果不是一組新的數據,它是以適用於組織的方式解釋數據。程序員或統計學家可以理解數據的輸出及其如何相關,但是直到數據可以被沒有統計知識的人理解為止,該過程才會完成。這意味著將這些數據變成一個全面和透明的故事。

自動化此步驟稍微有些複雜,因為它需要從原始數字結果自動創建用戶友好的文本。這種類型的自動化的領先框架是自然語言生成(NLG),其最好將機器語言轉換為自然的人類語言。

數據科學的自動化處於早期階段,並將隨著進一步的技術的開發和應用而不斷發展。在創建單個模塊后,下一步是創建更多通用平台,可以自動集成數據科學系統的所有方面。這個過程可能很漫長,但結果可能在整個商業世界是強大的。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦