Copyright ? 2015 深圳市鑫惠廣網絡科技有限公司 粵ICP備2023111395號
數據中臺炙手可熱,然而很多人并不知道數據中臺有什么作用,也不懂為什么人人都在談論數據中臺。總之,提到「數據中臺」4 個字,很多人都會「不明覺厲」。其實簡單來說,數據中臺就是企業用戶數據的鏈接樞紐,數據中臺的搭建就是以數據創造價值的過程。
數據分析學習,在于將別人的知識轉化成自己的知識,食之化盡,舉一反三。那么,從“數據中臺”的視角,來看一下“數據分析”是怎樣的呢?
今天將會從以下四個??來深?探討《從“數據中臺”的視角,來認知“數據分析”》。
1、數據中臺相關概念
2、數據中臺建設方法論
3、數據中臺和數據分析的關系?
4、數據中臺的能力項?
▼
1. 什么是數據中臺
數據中臺是一套可持續“讓企業的數據用起來”的機制,是一種戰略選擇和組織形式,是依據企業特有的業務模式和組織架構,通過有形的產品和實施方法論支撐,構建的一套持續不斷把數據變成資產并服務于業務的機制。數據來自于業務,并反哺業務,不斷循環迭代,實現數據可視、可用、可運營。
2. 數據中臺的三個核心認知
2.1 數據中臺需要提升到企業下一代基礎設施的高度,進行規模化投入;
2.2 數據中臺需要全新的數據價值觀和方法論,并在其指引下形成平臺級能力;
2.3 數據中臺圍繞業務、數據、分析會衍生出全新人才素養要求,需要盡快啟動人才儲備;
3. 數據中臺驅動模式
以上四種驅動模式,最優的就是業務能力驅動模式。需要業務架構師和數據架構師聯合驅動,從公司頂層的視角構建公司業務架構,從業務架構到數據架構從上而下去建設是最好的。但是這種情況還是比較少的。在國企、央企、政府比較多,因為,采用這種方式的公司,一般它對數字化轉型非常重視。
4. 數據中臺推進原則
4.1堅持"業務牽引,咨詢、平臺、實施三位一體推進"原則
?以滿足相關業務應用需求為目標
?總體規劃
?按需搭建平臺
4.2遵循"橫向規劃,縱向切入"建設模式
?規劃必須全盤考慮,打通企業的所有板塊
?數據中臺建設不可能一蹴而就,需要從業務應用出發倒推數據需求
?圍繞單個業務場景的閉環快速搭建數據中臺的各種能力
?按照全景規劃依次迭代,逐步實現全局數據中臺
5. 數據中臺架構原則
5.1 核心紀律嚴明
創建新的架構范例的目的是要敏捷和創新,但它需要實用的治理。這種平衡是一條需要把握的微妙線。第一條神圣的原則體現了這種平衡。在核心上遵守規則意味著存儲數據的各個層需要按照它們的數據管理方法進行結構化。這些層需要有詳細的治理策略,不能留下任何模糊的空間。然而,DataLakeHouse的邊緣,即數據轉換、數據屏蔽和有助于洞察的層,需要具有靈活性。靈活性并不意味著在方法中亂作一團。這些層仍然由Data LakeHouse的策略管理。但是,它們在創建基于需求的新特性時具有一定的靈活性。在邊緣靈活的一個例子是,將來自Data LakeHous的原始數據和來自數據服務層的數據倉庫的數據混合起來,以創建一個ML模型。這些數據集具有不同級別的質量分數和屬性。然而,這種靈活性是可以接受的,因為它有利于快速洞察的創建。
5.2 解耦計算和存儲
Data LakeHouse存儲大量的數據。它以結構化和非結構化的格式將數據存儲在數據湖層和服務層。數據需要用不同類型的計算引擎來處理。它可以是基于批處理的計算,也可以是基于流的計算。緊密耦合的計算和存儲層剝離了Data LakeHouse所需的靈活性。解耦計算和存儲也有成本影響——存儲是廉價和持久的,但計算是昂貴和短暫的。它提供了按需旋轉計算服務和根據需要擴展計算服務的靈活性,還提供了更好的成本控制和成本可預測性。EDW和數據湖模式面臨的一個關鍵挑戰是計算和存儲的緊密耦合。無論是否正在使用,都需要分配計算。隨著存儲的增加,計算也需要相應地伸縮。云計算平臺提供了解耦計算和存儲的靈活性。
5.3 關注功能而不是技術
下一個神圣的原則是關注組件的功能,而不是它的技術化身。這一原則體現了靈活性。正如系統上下文圖中所描述的,Data LakeHouse可以滿足很多人的需求。Data LakeHouse的技術表現形式有大量的技術選擇。它可以部署在任何云平臺上,甚至可以使用不同類型的選擇在內部部署。此外,技術正在迅速變化。許多新產品都在商業上或開放源碼世界中發展,專注于實現特定的功能。讓我們以實時處理為例。
Apache Storm是2011年發布的一款針對實時處理進行了優化的產品。Apache Spark在2010年開源,到2013年成為了事實上的流處理引擎。Apache Spark一直在發展,而Apache Flink現在正在挑戰Apache Spark作為流處理引擎的霸主地位。技術的發展是迅速的。然而,功能仍然是相同的流處理。專注于一個組件完成的任務是至關重要的。此外,隨著技術的發展,我們可以很容易地替換技術來滿足相同的功能。
5.4 創建模塊化架構
模塊化架構指的是由可連接的獨立組件組成的任何系統的設計。模塊化架構的美妙之處在于,您可以替換或添加任何部件(模塊),而不會影響系統的其余部分。模塊化架構確保了Data LakeHouse架構的靈活創建,并且我們可以在不破壞現有功能的情況下無縫添加新功能。例如,假設將來需要向Data LakeHouse架構添加新功能。在這種情況下,可以添加組件,使其遵循與所有其他組件相同的模式。它從數據湖層獲取數據,執行其功能,并將數據存儲到經過處理的數據存儲中,以便為其提供服務。模塊化架構原則確保了數據保持在核心位置。根據不同的功能,可以實例化不同的服務以根據需要使用數據。
5.5 積極開展編碼
防止Data LakeHouse變成沼澤的唯一最重要的原則是在其層內進行編目的程度。因此,執行主動編目是一個神圣的原則。編目是防止數據湖變成數據沼澤的關鍵。勤奮的編目可以確保Data LakeHouse的用戶具有數據感知能力。他們應該理解存儲在不同生命階段的數據的屬性。他們需要理解數據轉換過程的血緣,從數據生成到數據消費。需要對Data LakeHouse架構的所有組件進行編目,以便使用DataLakeHouse提供整個數據生命周期的整體視圖。
6. 常見數據問題
?獨:煙囪系統,數據孤島嚴重。重復開發,成本浪費;
?斷:數據理解與數據價值鏈條的斷層;
?缺:缺標準、缺治理、缺數據、缺流程、缺組織、缺制度;
?難:知數據難、要數據難、懂數據難、溯源難;
?臟:數據質量差;
?安全:數據存在泄漏風險
7. 數據中臺的業務價值和技術價值
7.1 業務價值:從洞察走向賦能業務創新,形成核心壁壘
在以客戶為中心的時代,數據中臺對數字化轉型具有重要作用,以數據中臺為基礎的數據系統將位于企業應用的核心,通過數據從企業降本增效、精細化經營等方面為企業帶來巨大收益。具體來說,包含以下三個層面:
◆以客戶為中心,用洞察驅動企業穩健行動
在以客戶為中心的時代,客戶的觀念和行為正在從根本上改變企業的經營方式以及企業與客戶的互動方式。
數據中臺建設的核心目標就是以客戶為中心的持續規模化創新,而數據中臺的出現,將會極大提升數據的應用能力,將海量數據轉化為高質量數據資產,為企業提供更深層的客戶洞察,從而為客戶提供更具個性化和智能化的產品和服務。
譬如,數據中臺能夠匯聚全渠道的數據,在標簽管理、營銷圈人、效果分析等應用上實現全域的閉環,優化對客戶全生命周期的理解。此外,以數據中臺為基礎,通過數據化運營提升客戶留存、復購和忠誠度,也得到諸多企業的認可。
◆ 以數據為基礎,支持大規模商業模式創新
只有依托數據和算法,將由海量數據提煉的洞察轉化為行動,才能推動大規模的商業創新。數據中臺在通過算法將洞察直接轉化為行動、實現大規模商業創新方面的能力,令人矚目。
另一方面,數據無法被業務用起來的一個原因是數據沒辦法變得可閱讀、易理解。
信息技術人員不夠懂業務,而業務人員不夠懂數據,導致數據應用到業務變得很困難,數據中臺需要考慮將信息技術人員與業務人員之間的障礙打破,信息技術人員將數據變成業務人員可閱讀、易理解的內容,業務人員看到內容后能夠很快結合到業務中去,這樣才能更好地支撐商業模式的創新。
此外,數據中臺提供標準的數據訪問能力,簡化集成復雜性、促進互操作性等特性也非常受企業CIO們的青睞。同時,在快速構建服務能力、加快商業創新、提升業務適配等方面,數據中臺也將會發揮重要的作用。
◆ 盤活全量數據,構筑堅實壁壘以持續領先
在以客戶為中心的時代,只有贏得客戶的企業才能在競爭中保持優勢。企業能否真正做到“客戶至上”,并不斷提高對客戶的快速響應力來滿足客戶的需求,甚至引領市場潮流,持續推進規模化創新,終將決定企業能否在充滿挑戰和機遇的市場上發展壯大,長久保持生命力與競爭力。
7.2 技術價值:能力多、成本低、應用廣
數字化轉型的需求必將催生多元化的數據場景,而多元化的數據場景將會帶來以下技術需求,企業數據中臺建設勢在必行。
◆ 應對多數據處理的需求
針對不同的數據應用場景,需要能夠快速應對多數據處理需求,比如:
要保持原來的報表需求,仍需要保持批量離線計算的能力(Hadoop、Oracle RAC);
針對準實時的指標統計和實時推薦,需要實時流式計算的能力(Storm、Spark Streaming、Flink);
針對決策類業務如海量人群的圈人需求和ad-hoc需求,需要即席計算能力(Greenplum、Elasticsearch、Impala);
針對高并發業務場景(如用戶畫像),需要在線計算能力(MySQL、Redis、Oracle)。
因此,企業需要一個統一的數據中臺來滿足離線/實時計算需求、各種查詢需求(實時查詢和ad hoc),同時在將來新數據引擎(更快的計算框架,更快的查詢響應)出現時,又不需要重構目前的大數據體系。
◆ 豐富標簽數據,降低管理成本
根據全國信標委大數據標準工作組發布的《數據管理能力成熟度模型》(DCMM),針對數據標準提到的數據分類主要有主數據、參考數據和指標數據,但根據目前真實的數據建設情況來看,需要對一類數據進行定義和分類,譬如標簽名為“消費特征”,標簽值為“促銷敏感”“貨比三家”“猶豫不決”。
數據中臺能對這類標簽進行快速定義和有效管理。
◆ 數據的價值能體現業務系統效果而不僅是準確度
過去的數據應用場景主要為報表需求,注重數據的準確性,但在更多數據場景下,特別是對于標簽數據的應用,越來越多的數據是需要不斷“優化”的,數據本身沒有準不準確之分,比如某個會員是屬于促銷敏感人群,這個數據其實更多的說的是概率。
◆ 支持跨主題域訪問數據
企業早期建設的應用數據層ADS(傳統數據倉庫ODS/DW/ADS)更多是為某個主題域所服務的,如營銷域、人力資源域、風控域,而企業在數據應用的時候往往需要打破各個業務主題,會從業務對象主體出發來考慮數據應用,如人(會員、供應商、渠道、員工)和物(商品、倉庫、合同),從全域角度設計完整的面向對象的數據標簽體系。
◆ 數據可以快速復用而不僅是復制
傳統的架構中,要將數據應用到業務中,通用的做法都是通過數據同步能力,把計算的結果同步給業務系統,由業務系統自行處理,這會帶來一個數據管理問題,即無法獲取數據在應用場景中的具體價值和熱度,整個數據血緣鏈路也是割裂的。
—▼—
1.數字化轉型面臨的問題
利用數據中臺,實現數據采集、存儲、處理、分析和服務的統一管理,提高信息和數據的響應時間,提高經營管理工作效率,有利于壓縮開支,降低管理成本,推進數字化轉型發展。”5步走”解決問題!
2.數據中臺建設方法論
?1種戰略行動:把用數據中臺驅動業務發展定位為企業級戰略,全局謀劃;
?2項保障條件:通過宣導統一組織間的數據認知,通過流程加速組織變革;
?3條目標準則:將數據的可見、可用、可運營3個核心準則始終貫穿于中臺建設的全過程,保障建設在正確軌道上;
?4套建設內容:通過技術體系、數據體系、運營體系建設保證中臺建設的全面性和可持續性;
?5個關鍵步驟:通過理現狀、立架構、建資產、用數據、做運營5個關鍵行動控制中臺建設關鍵節點的質量;
—▼—
1.數據中臺架構圖
2.典型應用場景介紹
民生服務、經營決策、風險控制、精準營銷、績效考核
?場景一:在財務管理中使用 BI 找到數據關鍵
BI 可以幫用戶獲取外部、本地的各種財務數據。還可以利用拖放可視化工具,完善客戶對財務狀況的分析。
?場景二:幫助市場營銷活動管理數據
借助 BI,用戶可以監控并分析當前的市場狀況,從而把營銷資源投入到更有效率的渠道上。
?場景三:在銷售活動中預測市場機會,達成業績目標,提高利潤
BI 可以幫用戶管理公司的各種銷售渠道。
?場景四:掌握人力資源的相關信息
BI能幫用戶收集和監測所有重要數據。儀表板還能幫用戶追蹤合規性、人員編制和其他信息,保護公司和員工數據。
?場景五:IT領域提高工作效率
通過BI,用戶可以創建各類儀表板,從而監測并分析從 Active Directory 到 Zendesk等各種服務。如果需要企業級別的商業智能解決方案,您還能將它與 SSAS 服務包無縫集成。
?場景六:在運維工作中以數據為向導
BI 能夠監測包括 Excel表、本地數據庫和云服務等所有來源的數據,并為用戶的產品、商場績效、申報額分析等發現新的可能
3.數據使用者
一旦數據被接入到Data LakeHouse,各種利益相關方將以原始或轉換后的形式使用它。這些利益相關者將從Data LakeHouse中提取用于特定目的的數據。每個消費者都有使用Data LakeHouse的個人動機。一個架構良好的Data LakeHouse應該能夠滿足每一個涉眾的需求。
讓我們看看一些典型的用戶和系統,他們使用來自Data LakeHouse的數據,如下所示:
?數據科學家
我們看到使用Data LakeHouse的第一類人是數據科學家,他們從Data LakeHouse中提取數據,以測試他們可能想要證明或反對的各種假設。數據科學家研究各種類型的數據:結構化的、非結構化的、原始的和處理過的。Data LakeHouse需要能夠確保數據對于特定用途是容易識別的,用戶必須精通許多編程語言和技術,包括Python、R和結構化查詢語言(SQL), 架構需要為這個用戶提供正確的平臺來創建和測試他們的模型。
?數據分析師
使用Data LakeHouse的第二類人是分析師。他們主要是業務驅動的,尋求業務問題的答案,并且精通報表工具或基于SQL的語言。他們主要處理處理過的數據,他們的日常工作包括執行業務分析。通過查詢、聚合和切片數據(主要是清理和處理的數據)來完成這項任務。DataLakeHouse應該迎合這樣的用戶,為他們提供一個平臺,進行有效和無縫的數據分析。
?管理人員
第三類大量使用Data LakeHouse的人是管理人員,他們需要定期的報表以進行業務決策。他們深入研究那些按特定業務需求處理過數據。他們可能是半技術通,可能需要一個使用商業智能(BI)工具創建報表或分析的地方。這些人通常通過報表系統獲取他們所需的報表。
?報表系統
Data LakeHouse的其他關鍵用戶是報表系統。報表系統間接地迎合了希望訂閱預定的、臨時的或自助報表的人員。此外,可能還有其他類型的報表系統是為了監管報表。這些系統定期從Data LakeHouse中提取數據,然后存儲報表以便交付。
?下游應用系統
當數據從上游應用程序接入到Data LakeHouse時,下游應用程序也會使用處理過的信息。這些應用程序可能是OLTP系統,也可能是另一個數據倉庫或數據湖,其任務與企業DataLakeHouse(EDL)不同。通常,用于下游消費的數據要么定期從Data LakeHouse中提取,要么使用一種可行的機制將數據推送到目的地。
?基于應用程序編程接口(API)的系統
Data LakeHouse還需要能夠以API的形式公開數據。DataLakeHouse處理各種類型的數據,需要服務于多個內部和外部系統。雖然緊密耦合的交付機制可能適用于特定的使用者,但基于API的數據使用是一種可伸縮且實用的選擇。此外,基于API的系統還可以公開不屬于組織的外部涉眾所使用的數據。
?數據共享系統
數據共享系統代表了一種新型的數據消費機制。當數據作為數據市場的一部分被消費或共享時,就會使用這種機制。當需要就數據使用的特定條款達成一致時,也可以使用數據共享機制。
—▼—
1.數據匯聚整合
隨著業務的多元化發展,企業內部往往有多個信息部門和數據中心,大量系統、功能和應用重復建設,存在巨大的數據資源、計算資源和人力資源的浪費,同時組織壁壘也導致數據孤島的出現,使得內外部數據難以全局規劃。數據匯聚整合主要是從數據存儲角度來表述,指將原始數據進行集中存放,便于后續使用的讀取使用。
企業看中的數據整合和管理能力包括(管理簡便、集成與運營、確保訪問權限、數據可用):
?數據豐富和完善:對多樣的數據源進行合并和完善;
?管理簡便:可視化任務配置以及豐富的監控管理功能;
數據集成與運營:數據中臺能夠接入、轉換、寫入或緩存企業內部多種來源的數據;
?數據目錄與治理:數據用戶可以方便的定位所需數據,理解數據(包括技術/業務治理);
?數據安全:確保數據的訪問權限;
?數據可用:數據用戶可以簡便、可拓展的訪問異構數據,可用性和易用性高;
?部署靈活:支持本地部署,以及公有云、私有云、混合云等多種部署方式;
2.數據提純加工
企業需要完整的數據資產體系,圍繞著能給業務帶來價值的數據資產進行建設,推動業務數據向數據資產的轉化。
傳統的數字化建設往往局限在單個業務流程,忽視了多業務的關聯數據,缺乏對數據的深度理解。數據中臺必須連通全域數據,通過統一的數據標準和質量體系,建設提純加工后的標準數據資產體系,以滿足企業業務對數據的需求。數據提純加工承擔了數據字段、數據指標的衍生計算任務,為數據開發人員提供可視化或者可編碼的環境進行加工規則的管理和實施,是將數據資產化的重要環節。
企業看中的數據提煉和分析加工能力包括(標簽體系、智能的數據映射、質量保障體系、完善的安全防控):
?完善的安全訪問控制;
?完善的數據質量保障體系;
?規范的、緊密結合業務的可拓展標簽體系;
?面向業務主體的資產平臺;
?智能的數據映射功能,簡化數據資產生成;
3.服務可視化
多數企業期待數據中臺提供數據化運營平臺,幫助企業快速實現數據資產的可視化分析,提供包括實時流數據分析,預測分析,機器學習等更為高級的服務,為企業數據化運營賦能。
企業看重的資產服務化能力包括(數據可視化服務、數據開發平臺、AI服務能力、數據分析能力):
?提供自然語言處理等人工智能服務;
?提供豐富的數據分析功能;
?提供友好的數據可視化服務;
?便捷、快速的服務開發環境,方便業務人員開發數據應用;
?提供實時流數據分析;
?提供預測分析、機器學習等高級服務;
4、價值變現
數據中臺通過打通企業數據,提供以前單個部門或者單個業務單元無法提供的數據服務能力,以實現數據的更大價值變現。
企業看中的業務價值變現能力包括(跨部門實現業務價值、數據應用管理、洞察驅動業務的通路、面向場景的數據應用):
?提供數據應用的管理能力;
?提供數據洞察的直接驅動業務行動的通路;
?提供跨業務場景的能力;
?提供跨部門的普適性業務價值能力;
?提供基于場景的數據應用(推薦引擎、搜索引擎等);
?提供業務行動效果評估功能;
數據中臺是把業務生產資料轉變為數據生產力,同時數據生產力反哺業務,不斷迭代循環的閉環過程,讓數據流通用起來,使數據驅動決策運營,為企業數字化轉型賦能,為社會數字經濟賦能!
▼
總結
以上就是本次分享的全部內容!數據中臺技術可以實現分析用戶購買行為、分析消費場景、分析用戶購買喜好等業務場景化的數據分析,打通各業務體系和產品線的數據,進行計算、存儲、加工,形成數據產品和服務, 從而真正實現數據智能應用。數據中臺在數據可視化分析中起到了十分重要的作用,不管是集中多數據源,還是統一數據分析口徑、為不同場景預設不同的方式以提高數據分析效率等,都對企業信息化、數據化運營管理起到十分重要的作用。
Copyright ? 2015 深圳市鑫惠廣網絡科技有限公司 粵ICP備2023111395號