帶你深入了解用于數(shù)據(jù)倉庫的IBM DB2產(chǎn)品
OLTP 系統(tǒng)可能是一個(gè) Web 訂購系統(tǒng),可以通過 Web 執(zhí)行交易(比如購買產(chǎn)品)。這些應(yīng)用程序的特征是進(jìn)行細(xì)粒度的單行查詢,可能更新少量的記錄。與之相反,BI 類型的查詢執(zhí)行大型的表掃描,因?yàn)樗鼈儑L試在大量數(shù)據(jù)中尋找數(shù)據(jù)模式。如果要求您匯總西部地區(qū)的所有銷售,這就是倉庫查詢。
簡單地說,OLTP 是簡短的查詢,而 BI 是對大量數(shù)據(jù)進(jìn)行搜索和匯總以便進(jìn)行報(bào)告。當(dāng)然,實(shí)際情況不只如此,但是現(xiàn)在您知道這么多就夠了。
包含操作性數(shù)據(jù) (運(yùn)行企業(yè)的日常交易的數(shù)據(jù))的系統(tǒng)是 OLTP 系統(tǒng)。但是,這些系統(tǒng)包含企業(yè)分析師用來了解企業(yè)運(yùn)營情況的信息。例如,他們可以查看某一時(shí)間段內(nèi)在某個(gè)地區(qū)銷售出了哪些產(chǎn)品。這有助于識(shí)別異常情況或?qū)ξ磥淼匿N售進(jìn)行規(guī)劃。
但是,如果分析師直接訪問操作性(OLTP)數(shù)據(jù)來進(jìn)行報(bào)告和其他 BI 活動(dòng),就會(huì)有幾個(gè)問題:
他們可能沒有查詢操作性數(shù)據(jù)庫的專業(yè)經(jīng)驗(yàn)。一般來說,有查詢操作性數(shù)據(jù)庫的專業(yè)經(jīng)驗(yàn)的程序員會(huì)負(fù)責(zé)全職地維護(hù)數(shù)據(jù)庫及其應(yīng)用程序。
性能對于許多操作性數(shù)據(jù)庫來說非常重要,比如用來處理銀行事務(wù)的數(shù)據(jù)庫。這些系統(tǒng)不能應(yīng)付用戶對操作性數(shù)據(jù)存儲(chǔ)進(jìn)行特殊的查詢。例如,考慮在線支付帳單的情況。在選擇 OK 時(shí),處理支付常常只需要花費(fèi)幾秒?,F(xiàn)在,假設(shè)一個(gè)銀行分析師試圖查明某個(gè)現(xiàn)有的顧客群花費(fèi)了多少錢。這個(gè)分析師運(yùn)行一個(gè)非常復(fù)雜的查詢,導(dǎo)致您的銀行事務(wù)現(xiàn)在要花費(fèi) 30 秒才能完成!顯然,這樣的性能是不可接受的(這可不是分析師希望的結(jié)果)。因此,操作性數(shù)據(jù)存儲(chǔ)和報(bào)告性數(shù)據(jù)存儲(chǔ)(包括 OLAP 數(shù)據(jù)庫)一般是分開的。
但是,在過去幾年里,報(bào)告性數(shù)據(jù)存儲(chǔ)已經(jīng)傾向于變得具有偽操作性和及時(shí)性。這種存儲(chǔ)稱為操作數(shù)據(jù)存儲(chǔ)(ODS)或活躍數(shù)據(jù) 倉庫。例如,考慮電信行業(yè)的情況。ODS 在這些電信運(yùn)營公司中很流行,因?yàn)樗麄冃枰M可能快地識(shí)別出惡意欠費(fèi)的情況。DB2 是少數(shù)幾種同時(shí)適合操作性和報(bào)告性工作負(fù)載的數(shù)據(jù)庫。
操作性數(shù)據(jù)一般沒有采用最適合業(yè)務(wù)分析師使用的格式。與原始的事務(wù)數(shù)據(jù)相比,按照產(chǎn)品、地區(qū)和季節(jié)匯總的銷售數(shù)據(jù)對于分析師要有用得多。
數(shù)據(jù)倉庫 解決了這些問題。在數(shù)據(jù)倉庫中可以存儲(chǔ)信息性數(shù)據(jù) —— 這些數(shù)據(jù)是從操作性數(shù)據(jù)中提取出來的,然后為幫助最終用戶決策進(jìn)行了轉(zhuǎn)換和清理。例如,數(shù)據(jù)倉庫工具可能會(huì)復(fù)制操作性數(shù)據(jù)庫中的所有銷售數(shù)據(jù),執(zhí)行計(jì)算來匯總數(shù)據(jù),并將匯總的數(shù)據(jù)寫入一個(gè)與操作性數(shù)據(jù)庫分開的數(shù)據(jù)庫中。最終用戶可以查詢這個(gè)獨(dú)立的數(shù)據(jù)庫(倉庫),而不會(huì)影響 OLTP 數(shù)據(jù)庫。
用于數(shù)據(jù)倉庫的DB2產(chǎn)品
DB2 是為幫助實(shí)現(xiàn)業(yè)務(wù)智能化而設(shè)計(jì)的。DB2 不但是世界上可伸縮性最好的數(shù)據(jù)庫,它還有一套健壯的業(yè)務(wù)智能化功能。DB2 有兩個(gè) Data Warehouse Editions(DB2 DWE),以低廉的價(jià)格提供一整套數(shù)據(jù)倉庫工具。這些工具的一部分可以在 DB2 DWE 之外單獨(dú)購買,其他工具只能通過 DB2 DWE 包獲得。DB2 DWE 分為 Base 和 Enterprise 兩個(gè)版本。
DB2 DWE 是在強(qiáng)大的 DB2 Enterprise 9 產(chǎn)品上構(gòu)建的并擴(kuò)展了它的功能,提高了數(shù)據(jù)倉庫和分析特性的性能和易用性,幫助進(jìn)行實(shí)時(shí)探察和決策的用戶獲得需要的信息。DB2 DWE 特性包括用于倉庫管理、分析應(yīng)用程序開發(fā)、OLAP、數(shù)據(jù)挖掘以及超大型數(shù)據(jù)庫(VLDB)查詢和資源管理的工具。
DB2 DW Enterprise Edition 中包含的產(chǎn)品有:
DB2 Enterprise
DB2 Data Partitioning特性
這個(gè)特性允許在單一服務(wù)器上或者跨服務(wù)器集群對數(shù)據(jù)庫進(jìn)行分區(qū)。DB2 Data Partitioning 為企業(yè)提供了支持超大型數(shù)據(jù)庫(這是數(shù)據(jù)倉庫環(huán)境中的常見情況)所需的可伸縮性,并可以處理涉及復(fù)雜工作負(fù)載和高并行性的管理任務(wù)。這個(gè)特性可以在 DB2 DWE 產(chǎn)品之外單獨(dú)購買。
DB2 Data Warehouse Edition Design Studio
DWE Design Studio 是通過包含和擴(kuò)展一些基于 Eclipse 的 Rational Data Architect(RDA)建模功能形成的,這是一個(gè)針對 BI 解決方案的開發(fā)環(huán)境。Design Studio 將以下任務(wù)集成在一個(gè)統(tǒng)一的圖形化環(huán)境中:物理數(shù)據(jù)建模(RDA)、DB2 基于 SQL 的倉庫構(gòu)造、OLAP 多維數(shù)據(jù)集建模和數(shù)據(jù)挖掘建模。
這個(gè)設(shè)計(jì)工具使設(shè)計(jì)人員能夠連接源數(shù)據(jù)庫和目標(biāo)數(shù)據(jù)庫、對物理數(shù)據(jù)模型進(jìn)行反向工程、構(gòu)建 DB2 基于 SQL 的數(shù)據(jù)流和挖掘流、設(shè)置 OLAP 多維數(shù)據(jù)集以及準(zhǔn)備將應(yīng)用程序部署到運(yùn)行時(shí)系統(tǒng)上。因?yàn)樗腔?Eclipse 框架的,這個(gè)工具看起來與 DB2 Developer Workbench 相似。
SQL Warehousing Tool
為了支持端到端業(yè)務(wù)智能化解決方案,DB2 DWE 提供了用于倉庫構(gòu)建和維護(hù)的基礎(chǔ)設(shè)施,包括用于應(yīng)用程序設(shè)計(jì)、部署、執(zhí)行和管理的工具。
SQL Warehousing Tool 解決了 DB2 數(shù)據(jù)倉庫環(huán)境中的數(shù)據(jù)集成問題。用戶可以對高層操作的邏輯流進(jìn)行建模,這會(huì)產(chǎn)生組織在執(zhí)行計(jì)劃中的代碼單元。這個(gè)工具提供一個(gè)元數(shù)據(jù)系統(tǒng)和 IDE 來創(chuàng)建、編輯和管理這些流,還提供一個(gè)能夠理解源圖并將它轉(zhuǎn)換為優(yōu)化的 SQL 代碼的代碼生成系統(tǒng)。當(dāng)流的開發(fā)完成時(shí),這個(gè)系統(tǒng)的第二個(gè)部分就要發(fā)揮作用了:將生成的代碼以及相關(guān)聯(lián)的工件打包成一個(gè)數(shù)據(jù)倉庫應(yīng)用程序,這個(gè)應(yīng)用程序可以部署在各種目標(biāo)運(yùn)行時(shí)系統(tǒng)中。
數(shù)據(jù)倉庫應(yīng)用程序開發(fā)人員和架構(gòu)師可以使用 Design Studio 來創(chuàng)建:
源和目標(biāo)數(shù)據(jù)庫和表的物理數(shù)據(jù)模型。
代表數(shù)據(jù)通過轉(zhuǎn)換步驟進(jìn)入目標(biāo)數(shù)據(jù)庫中的轉(zhuǎn)移過程的數(shù)據(jù)流。例如:
1.SQL 數(shù)據(jù)流,它們使用 DB2 倉庫構(gòu)建操作的 SQL 處理功能對來自關(guān)系表、平面文件等來源的數(shù)據(jù)進(jìn)行處理
2.挖掘流,它們將關(guān)鍵的數(shù)據(jù)挖掘操作集成到基于 SQL 的模型中
3.將可選的 DataStage ETL 作業(yè)作為子流集成的 SQL 數(shù)據(jù)流
控制流,它們決定一組相關(guān)數(shù)據(jù)流的次序并為執(zhí)行這些數(shù)據(jù)流定義處理規(guī)則。
部署包,它們包含構(gòu)成完整應(yīng)用程序的所有文件和參數(shù),可以進(jìn)行安裝和執(zhí)行。
可以使用 DB2 Data Warehouse Edition 作為運(yùn)行引擎,使用 IBM WebSphere® Application Server 軟件提供控制和調(diào)度功能,從而執(zhí)行和管理控制流。WebSphere Application Server 為數(shù)據(jù)倉庫應(yīng)用程序提供運(yùn)行時(shí)部署環(huán)境。管理員可以從 Web 客戶計(jì)算機(jī)運(yùn)行基于瀏覽器的 Data Warehouse Edition Administration Console 來訪問 WebSphere。
DB2 Data Warehouse Edition Administration Console
DB2 DWE Administration Console 是一個(gè)用于管理和監(jiān)視 BI 應(yīng)用程序的基于 Web 的應(yīng)用程序。安裝在 WebSphere Application Server 上之后,DWE Administration Console 使用 Web 客戶機(jī)訪問和部署在 DWE 中建模和設(shè)計(jì)的數(shù)據(jù)倉庫應(yīng)用程序。這個(gè)控制臺(tái)使用 WebSphere 安全模型,使用戶能夠以管理員、經(jīng)理和操作員的角色從統(tǒng)一的控制臺(tái)頁面執(zhí)行各種管理任務(wù)。這個(gè)控制臺(tái)支持 5 類功能:
DWE Common:創(chuàng)建數(shù)據(jù)源并為 OLAP 和挖掘啟用數(shù)據(jù)庫。
SQL Warehousing:部署、調(diào)度和監(jiān)視在 Design Studio 中創(chuàng)建的數(shù)據(jù)倉庫應(yīng)用程序。訪問與進(jìn)程相關(guān)聯(lián)的統(tǒng)計(jì)數(shù)據(jù)和日志并排除運(yùn)行時(shí)故障。
OLAP:導(dǎo)入和導(dǎo)出多維數(shù)據(jù)集模型、使用 OLAP 優(yōu)化器并顯示多維數(shù)據(jù)集模型的元數(shù)據(jù)內(nèi)容,比如它的表、聯(lián)結(jié)、度量和屬性。
Mining:查看、導(dǎo)出、更新和刪除挖掘數(shù)據(jù)庫中的模型。還可以將挖掘模型導(dǎo)入到數(shù)據(jù)庫中以及將模型裝載進(jìn)緩存中。這個(gè)挖掘可視化工具可以提供挖掘模型的圖形化表示。
Alphablox:啟動(dòng)本機(jī)的 Alphablox Administration 工具。
DB2 Data Warehouse Edition OLAP Acceleration
以前稱為 DB2 Cube Views。通過使用 DWE Design Studio 和 Administration Console 中的 OLAP 功能,用戶可以創(chuàng)建、操作、優(yōu)化、部署、導(dǎo)入或?qū)С龆嗑S數(shù)據(jù)集模型、多維數(shù)據(jù)集和在 OLAP 分析中使用的其他元數(shù)據(jù)對象。DWE Design Studio 提供了容易使用的向?qū)Ш痛翱趤韼椭脩籼幚?OLAP 元數(shù)據(jù)。
DB2 Data Warehouse Edition Data Mining
通過使用 DB2 DWE 數(shù)據(jù)挖掘特性,可以發(fā)現(xiàn)數(shù)據(jù)中隱藏的關(guān)系,而不需要將數(shù)據(jù)導(dǎo)出到特殊的數(shù)據(jù)挖掘計(jì)算機(jī)上或者借助于少量數(shù)據(jù)樣本。DB2 DWE 為一些建模操作提供了 DB2 擴(kuò)展:市場籃分析、市場分割、分析等等。
DB2 Data Warehouse Edition Data Visualization Feature
用來顯示創(chuàng)建的挖掘模型。
DB2 Alphablox analytics
DB2 Alphablox 提供了快速創(chuàng)建基于 Web 的定制應(yīng)用程序的能力,使應(yīng)用程序能夠適應(yīng)公司的基礎(chǔ)設(shè)施并能夠?yàn)楣痉阑饓?nèi)外的用戶服務(wù)。用 DB2 Alphablox 構(gòu)建的應(yīng)用程序在標(biāo)準(zhǔn) Web 瀏覽器中運(yùn)行,允許從客戶計(jì)算機(jī)執(zhí)行實(shí)時(shí)的高度可定制的多維分析。DB2 Alphablox 與 DWE Cube Views 緊密集成,DWE Cube Views 提供常用的元數(shù)據(jù)并為 Alphablox 多維分析進(jìn)行數(shù)據(jù)庫優(yōu)化。
DB2 Data Warehouse Edition Query Workload Management Feature
DB2 Query Patroller 是 DWE 的查詢工作負(fù)載管理特性。這個(gè)產(chǎn)品也可以在 DB2 DWE 包之外單獨(dú)購買。DB2 Query Patroller 是一個(gè)強(qiáng)大的查詢管理系統(tǒng),可以使用它以下面的方式前瞻性地動(dòng)態(tài)控制 DB2 數(shù)據(jù)庫的查詢流:
為不同規(guī)模的查詢定義不同的查詢類,從而更好地在查詢之間分享系統(tǒng)資源并防止較小的查詢被大型查詢阻斷。
給某些用戶提交的查詢設(shè)置高優(yōu)先級,讓這些查詢可以更早地運(yùn)行。
自動(dòng)地識(shí)別大型查詢,這樣就可以取消它們或者將它們調(diào)度到低谷時(shí)間段運(yùn)行。
跟蹤和取消長時(shí)間運(yùn)行的查詢。
DB2 Query Patroller 的特性使您能夠控制數(shù)據(jù)庫的查詢負(fù)載,讓小型查詢和高優(yōu)先級的查詢可以快速運(yùn)行,并讓系統(tǒng)資源得到高效利用。
還可以收集和分析關(guān)于已經(jīng)完成的查詢的信息,從而判斷查詢、高負(fù)載用戶以及常用表和索引中的趨勢。管理員可以使用 DB2 Query Patroller:
在系統(tǒng)級和用戶級設(shè)置資源使用策略。
通過取消或重新調(diào)度那些影響數(shù)據(jù)庫性能的查詢,動(dòng)態(tài)地監(jiān)視和管理系統(tǒng)的資源使用。
生成有助于識(shí)別數(shù)據(jù)庫使用情況趨勢的報(bào)告,比如訪問了哪些對象以及哪些用戶和用戶組產(chǎn)生的工作負(fù)載最大。
查詢提交者可以使用 DB2 Query Patroller 監(jiān)視他們提交的查詢;存儲(chǔ)查詢結(jié)果供以后檢索或重用,這實(shí)際上可以避免提交重復(fù)的查詢;設(shè)置各種首選項(xiàng)來優(yōu)化他們的查詢提交,比如在查詢完成時(shí)是否希望接收電子郵件通知。
