創建有效的大數據模型的6個(gè)技(jì)巧 - 北京海韻盛欣網絡科技有限責任公司

新聞中心

創建有效的大數據模型的6個(gè)技(jì)巧

發布者：lixidc 發布時間：2018-05-08 閱讀(dú)：1926次

數據建模是一(yī)門(mén)複雜(zá)的科學，涉及組織企業(yè)的數據以适應業(yè)務流程的需求。它需要設計邏輯關系，以便數據可以相(xiàng)互關聯，并支持業(yè)務。然後将邏輯設計轉換成物(wù)理模型，該物(wù)理模型由存儲數據的存儲設備、數據庫和文件(jiàn)組成。

曆史上(shàng)，企業(yè)已經使用像SQL這樣的關系數據庫技(jì)術(shù)來開(kāi)發數據模型，因為(wèi)它非常适合将數據集密鑰和數據類型靈活地鏈接在一(yī)起，以支持業(yè)務流程的信息需求。

不幸的是，大數據現在包含了很大比例的管理數據，并不能(néng)在關系數據庫上(shàng)運行。它運行在像NoSQL這樣的非關系數據庫上(shàng)。這導緻人們認為(wèi)可能(néng)不需要大數據模型。

問題是，企業(yè)确實需要對大數據進行數據建模。

以下(xià)是大數據建模的六個(gè)提示：

1.不要試圖将傳統的建模技(jì)術(shù)強加于大數據

傳統的固定記錄數據在其增長(cháng)中穩定且可預測的，這使得建模相(xiàng)對容易。相(xiàng)比之下(xià)，大數據的指數增長(cháng)是不可預測的，其無數形式和來源也是如此。當網站考慮建模大數據時，建模工(gōng)作應該集中在構建開(kāi)放(fàng)和彈性數據接口上(shàng)，因為(wèi)人們永遠(yuǎn)不知道何時會(huì)出現新的數據源或數據形式。這在傳統的固定記錄數據世界中并不是一(yī)個(gè)優先事(shì)項。

2.設計一(yī)個(gè)系統，而不是一(yī)個(gè)模式

在傳統的數據領域中，關系數據庫模式可以涵蓋業(yè)務對其信息支持所需的數據之間的大多(duō)數關系和鏈接。大數據并非如此，它可能(néng)沒有數據庫，或者可能(néng)使用像NoSQL這樣的數據庫，它不需要數據庫模式。

正因為(wèi)如此，大數據模型應該建立在系統上(shàng)，而不是數據庫上(shàng)。大數據模型應包含的系統組件(jiàn)包括業(yè)務信息需求、企業(yè)治理和安全、用于數據的物(wù)理存儲、所有類型數據的集成、開(kāi)放(fàng)接口，以及處理各種不同數據類型的能(néng)力。

3.尋找大數據建模工(gōng)具

有商業(yè)數據建模工(gōng)具可以支持Hadoop以及像Tableau這樣的大數據報(bào)告軟件(jiàn)。在考慮大數據工(gōng)具和方法時，IT決策者應該包括為(wèi)大數據構建數據模型的能(néng)力，這是要求之一(yī)。

4.關注對企業(yè)的業(yè)務至關重要的數據

企業(yè)每天都會(huì)輸入大量的數據，而這些大數據大部分是無關緊要的。創建包含所有數據的模型是沒有意義的。更好的方法是确定對企業(yè)來說至關重要的大數據，并對這些數據進行建模。

5.提供高(gāo)質量的數據

如果組織專注于開(kāi)發數據的正确定義和完整的元數據來描述數據來自(zì)何處、其目的是什麽等等，那麽可以對大數據模型産生(shēng)更好的數據模型和關系。可以更好地支持支持業(yè)務的數據模型。

6.尋找數據的關鍵切入點

當今最常用的大數據載體之一(yī)就(jiù)是地理位置，這取決于企業(yè)的業(yè)務和行業(yè)，還(hái)有其他用戶需要的大數據常用密鑰。企業(yè)越能(néng)夠識别數據中的這些常用入口點，就(jiù)越能(néng)夠設計出支持企業(yè)關鍵信息訪問路(lù)徑的數據模型。

上(shàng)一(yī)篇|下(xià)一(yī)篇