3分彩杀号欢迎您的到來!

                                            Dataops正在改變數據、分析和機器學習

                                            2019-08-06 02:39:30 計算機世界2019年27期

                                            Isaac Sacolick

                                            Dataops團隊將幫助我們充分利用數據。以下內容為我們展示了人員、流程、技術和文化是如何整合在一起的。

                                            你是否注意到大多數企業都在嘗試著利用自己的數據做更多的事情?

                                            企業正在大力投資數據科學項目、自助式商業智能工具、人工智能項目等以提升由數據驅動的決策工作。其中,部分企業通過將數據可視化嵌入到Web和移動產品中,或者從傳感器(物聯網)、可穿戴設備和第三方API收集新型數據的方式開發面向客戶的應用程序。還有部分企業正在利用來自文檔、圖像、視頻和口語等非結構化數據源的信息。

                                            圍繞數據和分析的大部分工作都是從中獲取價值。這包括用于決策的儀表盤、報告和數據可視化,由數據科學家創建的用于預測結果的模型,或整合了數據、分析和模型的應用程序。

                                            基礎數據運營工作(即Dataops)需要在數據做好供人們分析和格式化寫入應用程序以提供給最終用戶的準備工作之前完成。但是這些工作的價值往往會被低估。

                                            Dataops包括匯集、處理、清理、存儲和管理數據的所有工作。為了描述數據集成、數據處理、ETL(提取、轉換和加載)、數據準備、數據質量、主數據管理,數據屏蔽和測試數據管理等不同功能,我們使用了一些復雜的術語。

                                            就像汽車并不僅僅是各個零部件的總和一樣,Dataops也是了如此。Dataops是數據管理實踐中一個相對較新的總稱,其目標是使數據用戶(包括管理人員、數據科學家、應用程序)能夠成功地從數據中獲取業務價值。

                                            Dataops如何與其他技術實踐協同工作

                                            Dataops匯聚了眾多靈活工作方法的諸多特點,推動了數據處理指標和質量的迭代改進。與此同時,它還具有devops的優點,尤其是在自動化數據流方面,能夠更為頻繁地調整數據處理功能,在響應數據運營事件時可縮短恢復時間。

                                            Dataops甚至還發布了一個DataOps宣言,其中包含了20項原則,涵蓋了文化(不斷滿足客戶)、團隊動態(自發組織、每日互動)、技術實踐(創建一次性環境)和質量(監控質量和性能)等眾多方面。

                                            你可能想知道為什么需要這一術語。答案是它們簡化了語言并針對關鍵業務功能定義了角色,這樣有助于推動投資,調整團隊,圍繞業務目標確定優先事項。更好地理解這一新術語的方法是圍繞人員、流程、技術和文化進行定義。

                                            Dataops對人員的分類

                                            在人員方面,有幾個與Dataops相關的角色:

                                            客戶是所生成的數據、分析、應用程序和機器學習的直接受益者。他們可以是實際的產品客戶,或使用服務的客戶,也可以是企業內部的客戶,例如使用分析進行決策的高管和領導者,或者作為業務流程的一部分而使用數據的員工。

                                            數據最終用戶包括數據科學家、儀表盤開發人員、報表編寫人員、應用程序開發人員、公民數據科學家,或是使用數據并通過應用程序、數據可視化、API等工具提供結果的人員。

                                            直接從事數據運營的人員,包括數據庫工程師、數據工程師、管理數據流和數據庫工具的開發人員。

                                            負責數據質量、定義和鏈接的數據管理員。

                                            企業所有者通常是數據服務的購買者,他們會圍繞采購、資金、創建策略和處理(數據供應鏈)做出自己的決策。

                                            定義數據流、開發和操作流程

                                            Dataops有許多流程和規則,它們的成熟程度和投資在很大程度上依賴于業務需求的性質、數據類型、數據復雜性、服務級別和合規性。

                                            一方面,Dataops代表從源到傳遞的數據流。這是通過Dataops開發和操作流程管理的制造流程。數據流或數據管道的開發可以基于不同的數據集成技術、數據清理技術和數據管理平臺。這些流程不僅可以引入數據,還可以為數據管理員提供工具,以管理數據質量和數據規則中的例外情況,啟用數據志和其他的元數據功能,以及執行數據歸檔和刪除程序。

                                            Dataops的第二個方面是開發過程,通過該過程可以維護和增強數據流的各個方面。開發過程包括幾個階段:沙箱管理、開發、編排、測試、部署和監控。其中,編排、測試和部署階段類似于devops CI/CD管道。

                                            Dataops流程還涉及操作和管理基礎設施。與devops一樣,這項工作中的一部分與管理生產數據流,確??煽啃?、安全性和性能密切相關。由于數據科學工作流程具有很大的易變性,尤其是機器學習,因此開發出可擴展性、高性能和數據科學環境以支持不同工作負載也更具挑戰性。

                                            Dataops技術的前景

                                            Dataops涵蓋了大量的數據編排、處理和管理功能,所以很多技術都適用這個術語。此外,由于許多企業正在投資大數據、數據科學和機器學習,因此廠商在這一領域內展開了激烈競爭。

                                            亞馬遜網絡服務(AWS)擁有普通的關系型數據庫、文檔存儲和鍵值數據庫等7種類型的數據庫。Azure也提供了多種類型的數據庫。

                                            大量工具集都集成了數據并創建了數據流,包括數據集成和數據流。數據流中又存在數據質量與主數據管理。

                                            許多工具與Dataops的開發、數據科學和測試密切相關。雖然許多組織機構使用的是Jupyter,但是數據科學工作存在其他選項。例如進行測試可以考慮Delphix和QuerySurge等工具。

                                            Alteryx、Databricks、Dataiku和ai可提供端到端的分析和機器學習平臺。這些平臺融合了數據集、數據科學和devops功能。

                                            其他工具可處理數據安全性、數據屏蔽和其他數據操作。

                                            競爭正在推動數據庫文化

                                            應用程序開發團隊和運營團隊之間的矛盾催生了devops,前者為了加快流程不得不頻繁發布代碼,而后者為了確??煽啃?、性能和安全性會很自然地放慢速度。devops團隊很好地調和了這一矛盾,促進了對自動化,如CI/CD、自動化測試、基礎設施即代碼以及集中監控的投資,幫助彌合了技術隔閡。

                                            Dataops是另一個新生事物。數據科學家、儀表盤開發人員、數據工程師、數據庫開發人員以及其他工程師可共同致力于數據流和數據質量。除了管理版本發布的速度以及基礎設施的性能、可靠性和安全性之外,Dataops團隊還可以提升數據、分析、機器學習模型和數據交付的競爭價值。

                                            競爭價值取決于整體分析工作的可交付成果和Dataops 團隊解決復雜數據處理的方式。數據在數據流中的運行速度有多快?支持多少數據量和什么樣的質量等級?團隊集成新數據源的速度有多快?數據庫平臺是否能夠支持不斷增長的各種數據建模需求?

                                            這些只是Dataops 團隊必須解決的一些問題和性能指標。隨著越來越多的組織機構通過數據和分析投資來獲取業務價值,這也對Dataops 實踐和文化提出了相應的需求。

                                            本文作者Isaac Sacolick為《推動數字化:通過技術實現業務轉型的領導者指南》一書的作者。該指南介紹了許多關于敏捷性、devops和數據科學的實踐,對成功的數字化轉型計劃具有重要的指導意義。

                                            原文網址

                                            https://www.infoworld.com/article/3403665/how-dataops-improves-data-analytics-and-machine-learning.html

                                            ?
                                            3分彩杀号