數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、不可更新的、隨時(shí)間不斷變化的數(shù)據(jù)集合,它用于支持企業(yè)或組織的決策分析處理。企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)不是靜態(tài)的概念,只有把信息及時(shí)交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營(yíng)的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時(shí)提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉(cāng)庫(kù)的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉(cāng)庫(kù)建設(shè)是一個(gè)工程,是一個(gè)過(guò)程。我公司在儀化公司數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃、設(shè)計(jì)、實(shí)施、管理與運(yùn)維支持中積累了豐富的經(jīng)驗(yàn),可以根據(jù)客戶需求規(guī)劃建設(shè)各種規(guī)模的數(shù)據(jù)倉(cāng)庫(kù)。
數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn):
¨面向主題:操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的。
¨集成的:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
¨相對(duì)穩(wěn)定的:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
¨反映歷史變化:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過(guò)這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是一個(gè)信息提供平臺(tái),他從業(yè)務(wù)處理系統(tǒng)獲得數(shù)據(jù),主要以星型模型和雪花模型進(jìn)行數(shù)據(jù)組織,并為用戶提供各種手段從數(shù)據(jù)中獲取信息和知識(shí)。
從功能結(jié)構(gòu)化分,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)至少包含數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)訪問(wèn)三個(gè)關(guān)鍵部分。
數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu):
¨數(shù)據(jù)源:是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。
¨數(shù)據(jù)的存儲(chǔ)與管理:是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的核心。數(shù)據(jù)倉(cāng)庫(kù)的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù),同時(shí)也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來(lái)建立數(shù)據(jù)倉(cāng)庫(kù)的核心,則需要從數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)特點(diǎn)著手分析。針對(duì)現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉(cāng)庫(kù)按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)和部門級(jí)數(shù)據(jù)倉(cāng)庫(kù)(通常稱為數(shù)據(jù)集市)。
¨OLAP(聯(lián)機(jī)分析處理)服務(wù)器:對(duì)分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢(shì)。
¨前端工具:主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以數(shù)據(jù)挖掘及各種基于數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對(duì)OLAP服務(wù)器,報(bào)表工具、數(shù)據(jù)挖掘工具主要針對(duì)數(shù)據(jù)倉(cāng)庫(kù)。
數(shù)據(jù)倉(cāng)庫(kù)管理:安全和特權(quán)管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質(zhì)量檢查;管理和更新元數(shù)據(jù);審計(jì)和報(bào)告數(shù)據(jù)倉(cāng)庫(kù)的使用和狀態(tài);刪除數(shù)據(jù);復(fù)制、分割和分發(fā)數(shù)據(jù);備份和恢復(fù);存儲(chǔ)管理。
信息發(fā)布系統(tǒng):把數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點(diǎn)或用戶?;赪eb的信息發(fā)布系統(tǒng)是對(duì)付多用戶訪問(wèn)的最有效方法。
技術(shù)實(shí)現(xiàn)
¨硬件平臺(tái):數(shù)據(jù)倉(cāng)庫(kù)的硬盤容量通常要是操作數(shù)據(jù)庫(kù)硬盤容量的2-3倍。通常大型機(jī)具有更可靠的性能和和穩(wěn)定性,也容易與歷史遺留的系統(tǒng)結(jié)合在一起;而PC服務(wù)器或UNIX服務(wù)器更加靈活,容易操作和提供動(dòng)態(tài)生成查詢請(qǐng)求進(jìn)行查詢的能力。選擇硬件平臺(tái)時(shí)要考慮的問(wèn)題:是否提供并行的I/O吞吐?對(duì)多CPU的支持能力如何?
¨網(wǎng)絡(luò)結(jié)構(gòu):數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施在那部分網(wǎng)絡(luò)段上會(huì)產(chǎn)生大量的數(shù)據(jù)通信,需不需要對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)。
建立數(shù)據(jù)倉(cāng)庫(kù)的步驟
1)收集和分析業(yè)務(wù)需求
2)建立數(shù)據(jù)模型和數(shù)據(jù)倉(cāng)庫(kù)的物理設(shè)計(jì)
3)定義數(shù)據(jù)源
4)選擇數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和平臺(tái)
5)從操作型數(shù)據(jù)庫(kù)中抽取、凈化、和轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)
6)選擇訪問(wèn)和報(bào)表工具
7)選擇數(shù)據(jù)庫(kù)連接軟件
8)選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件
9)更新數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)抽取、清理、轉(zhuǎn)換、和移植
1)數(shù)據(jù)轉(zhuǎn)換工具要能從各種不同的數(shù)據(jù)源中讀取數(shù)據(jù)
2)支持平面文件、索引文件
3)能以不同類型數(shù)據(jù)源為輸入整合數(shù)據(jù)
4)具有規(guī)范的數(shù)據(jù)訪問(wèn)接口
5)最好具有從數(shù)據(jù)字典中讀取數(shù)據(jù)的能力
6)工具生成的代碼必須是在開發(fā)環(huán)境中可維護(hù)的
7)能只抽取滿足指定條件的數(shù)據(jù),和源數(shù)據(jù)的指定部分
8)能在抽取中進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換和字符集轉(zhuǎn)換
9)能在抽取的過(guò)程中計(jì)算生成衍生字段
10)能讓數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)自動(dòng)調(diào)用以定期進(jìn)行數(shù)據(jù)抽取工作,或能將結(jié)果生成平面文件
11)必須對(duì)軟件供應(yīng)商的生命力和產(chǎn)品支持能力進(jìn)行仔細(xì)評(píng)估