Smartbi支持多種數據源輕松接入,基本涵蓋了市面上所有主流的數據庫。無可否認多元的數據連接能力使Smartbi能快速連接現有數據源,構建統一的數據分析平臺。但在項目實施過程中,往往會遇到以下的問題:
我們企業數據存儲在不同甚至不同類型的數據庫里面,當用戶查詢數據的范圍比較廣,并不限于一個數據庫時,需要跨多個數據庫進行關聯查詢分析,如果按照傳統的方式:先抽取到要通過ETL把數據都抽取到統一的庫中,就會十分費力?;蚴菍ΜF有業務代碼進行重構,分別從兩個數據庫查詢數據,然后在業務代碼中進行join關聯。數據庫可能是分布在不同實例和不同的主機上,join關聯將變得非常麻煩。
針對這種問題,smartbi提供跨庫聯合數據源(smartbiUnionDB):是系統內置數據源,用于實現跨庫查詢的需要。應對不同接口數據統一訪問問題,無需再進行數據抽取。比如將Oracle和SQLServer兩種數據源關聯,讓不同接口數據統一訪問,無需再進行數據抽取。
圖:數據跨庫整合架構圖
跨庫聯合數據源(smartbiUnionDB):是系統內置數據源,用于實現跨庫查詢的需要。系統自動將新建的關系數據源信息添加到該跨庫聯合數據源中,或通過數據庫關聯界面將需要的數據源手動添加,進行跨庫查詢時使用。
目前支持做跨庫的數據源類型包括:高速緩存庫、Hadoop_Hive、星環、Vertica、CH、Greenplum、Infobright、Oracle、DB2 V9、MySQL、MS SQL Server、Spark SQL、Teradata_v12、Informix、IMPALA、PostgreSQL。
圖:跨庫示意圖
1. 無需落地
Smartbi提供直接的跨庫查詢,并且內置了數據跨庫查詢引擎,在內存中進行關聯,數據無需落地。省去了中間抽取環節,保證查詢數據的實時性。
2. 快速部署,開箱即用
系統內置跨庫引擎,不需額外安裝部署。
3. 快速處理、良好擴展
對于海量大數據跨庫查詢,內置的跨庫引擎能通過線性擴充,并行處理的方案,滿足企業成長需要。
4. 高性能的應用
跨庫數據源支持應用在數據集定義中,通常在可視化數據集和自助數據集中應用比較廣泛。我們常規的這個數據分析底層結構是基于數據源直接連我們的數據連接進行數據的分析展現,那這種情況如果我們的數據量比較少的情況下一般是沒有什么問題,但是我們的數據一旦達到某個級別之后我們的報表性能就會出現很大的一個瓶頸,甚至說導致我們的這個報表長時間刷不出來,以至于我們的系統崩潰,那這個時候就可以直接使用高速緩存庫機制,以保證系統具有較長的生命力和擴展能力最重要保障。
將數據抽取到高速緩存庫后,之后的查詢直接從高速緩存庫取數,來提高查詢性能。如在體驗中心的“體驗式場景5”在分析某公司的emplyees數據情況時,其中的雇員表(300,024條記錄)與薪資表(2,844,047條記錄)進行跨庫關聯,使用前高速緩存之前刷新數據至少要20秒;當數據抽取到高速緩存庫后,切換年份刷新僅需2秒,甚至更快。
體驗
聯系方式
關注我們