數(shù)據倉庫是一個面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據集合,它用于支持企業(yè)或組織的決策分析處理。企業(yè)數(shù)據倉庫的建設,是以現(xiàn)有企業(yè)業(yè)務系統(tǒng)和大量業(yè)務數(shù)據的積累為基礎。數(shù)據倉庫不是靜態(tài)的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業(yè)務經營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供給相應的管理決策人員,是數(shù)據倉庫的根本任務。因此,從產業(yè)界的角度看,數(shù)據倉庫建設是一個工程,是一個過程。我公司在儀化公司數(shù)據倉庫規(guī)劃、設計、實施、管理與運維支持中積累了豐富的經驗,可以根據客戶需求規(guī)劃建設各種規(guī)模的數(shù)據倉庫。
數(shù)據倉庫特點:
¨面向主題:操作型數(shù)據庫的數(shù)據組織面向事務處理任務,各個業(yè)務系統(tǒng)之間各自分離,而數(shù)據倉庫中的數(shù)據是按照一定的主題域進行組織的。
¨集成的:數(shù)據倉庫中的數(shù)據是在對原有分散的數(shù)據庫數(shù)據抽取、清理的基礎上經過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據中的不一致性,以保證數(shù)據倉庫內的信息是關于整個企業(yè)的一致的全局信息。
¨相對穩(wěn)定的:數(shù)據倉庫的數(shù)據主要供企業(yè)決策分析之用,所涉及的數(shù)據操作主要是數(shù)據查詢,一旦某個數(shù)據進入數(shù)據倉庫以后,一般情況下將被長期保留,也就是數(shù)據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
¨反映歷史變化:數(shù)據倉庫中的數(shù)據通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應用數(shù)據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。
數(shù)據倉庫系統(tǒng)是一個信息提供平臺,他從業(yè)務處理系統(tǒng)獲得數(shù)據,主要以星型模型和雪花模型進行數(shù)據組織,并為用戶提供各種手段從數(shù)據中獲取信息和知識。
從功能結構化分,數(shù)據倉庫系統(tǒng)至少包含數(shù)據獲取、數(shù)據存儲、數(shù)據訪問三個關鍵部分。
數(shù)據倉庫體系結構:
¨數(shù)據源:是數(shù)據倉庫系統(tǒng)的基礎,是整個系統(tǒng)的數(shù)據源泉。通常包括企業(yè)內部信息和外部信息。
¨數(shù)據的存儲與管理:是整個數(shù)據倉庫系統(tǒng)的核心。數(shù)據倉庫的真正關鍵是數(shù)據的存儲和管理。數(shù)據倉庫的組織管理方式決定了它有別于傳統(tǒng)數(shù)據庫,同時也決定了其對外部數(shù)據的表現(xiàn)形式。要決定采用什么產品和技術來建立數(shù)據倉庫的核心,則需要從數(shù)據倉庫的技術特點著手分析。針對現(xiàn)有各業(yè)務系統(tǒng)的數(shù)據,進行抽取、清理,并有效集成,按照主題進行組織。數(shù)據倉庫按照數(shù)據的覆蓋范圍可以分為企業(yè)級數(shù)據倉庫和部門級數(shù)據倉庫(通常稱為數(shù)據集市)。
¨OLAP(聯(lián)機分析處理)服務器:對分析需要的數(shù)據進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。
¨前端工具:主要包括各種報表工具、查詢工具、數(shù)據分析工具、數(shù)據挖掘工具以數(shù)據挖掘及各種基于數(shù)據倉庫或數(shù)據集市的應用開發(fā)工具。其中數(shù)據分析工具主要針對OLAP服務器,報表工具、數(shù)據挖掘工具主要針對數(shù)據倉庫。
數(shù)據倉庫管理:安全和特權管理;跟蹤數(shù)據的更新;數(shù)據質量檢查;管理和更新元數(shù)據;審計和報告數(shù)據倉庫的使用和狀態(tài);刪除數(shù)據;復制、分割和分發(fā)數(shù)據;備份和恢復;存儲管理。
信息發(fā)布系統(tǒng):把數(shù)據倉庫中的數(shù)據或其他相關的數(shù)據發(fā)送給不同的地點或用戶。基于Web的信息發(fā)布系統(tǒng)是對付多用戶訪問的最有效方法。
技術實現(xiàn)
¨硬件平臺:數(shù)據倉庫的硬盤容量通常要是操作數(shù)據庫硬盤容量的2-3倍。通常大型機具有更可靠的性能和和穩(wěn)定性,也容易與歷史遺留的系統(tǒng)結合在一起;而PC服務器或UNIX服務器更加靈活,容易操作和提供動態(tài)生成查詢請求進行查詢的能力。選擇硬件平臺時要考慮的問題:是否提供并行的I/O吞吐?對多CPU的支持能力如何?
¨網絡結構:數(shù)據倉庫的實施在那部分網絡段上會產生大量的數(shù)據通信,需不需要對網絡結構進行改進。
建立數(shù)據倉庫的步驟
1)收集和分析業(yè)務需求
2)建立數(shù)據模型和數(shù)據倉庫的物理設計
3)定義數(shù)據源
4)選擇數(shù)據倉庫技術和平臺
5)從操作型數(shù)據庫中抽取、凈化、和轉換數(shù)據到數(shù)據倉庫
6)選擇訪問和報表工具
7)選擇數(shù)據庫連接軟件
8)選擇數(shù)據分析和數(shù)據展示軟件
9)更新數(shù)據倉庫
數(shù)據抽取、清理、轉換、和移植
1)數(shù)據轉換工具要能從各種不同的數(shù)據源中讀取數(shù)據
2)支持平面文件、索引文件
3)能以不同類型數(shù)據源為輸入整合數(shù)據
4)具有規(guī)范的數(shù)據訪問接口
5)最好具有從數(shù)據字典中讀取數(shù)據的能力
6)工具生成的代碼必須是在開發(fā)環(huán)境中可維護的
7)能只抽取滿足指定條件的數(shù)據,和源數(shù)據的指定部分
8)能在抽取中進行數(shù)據類型轉換和字符集轉換
9)能在抽取的過程中計算生成衍生字段
10)能讓數(shù)據倉庫管理系統(tǒng)自動調用以定期進行數(shù)據抽取工作,或能將結果生成平面文件
11)必須對軟件供應商的生命力和產品支持能力進行仔細評估