當(dāng)前位置:首頁(yè) >  科技 >  IT業(yè)界 >  正文

巨杉湖倉(cāng)一體技術(shù)解讀|流式計(jì)算實(shí)現(xiàn)秒級(jí)數(shù)據(jù)入湖

 2022-09-19 16:57  來(lái)源: 互聯(lián)網(wǎng)   我來(lái)投稿 撤稿糾錯(cuò)

  阿里云優(yōu)惠券 先領(lǐng)券再下單

SequoiaDB從「多模數(shù)據(jù)湖」、「實(shí)時(shí)數(shù)據(jù)湖」發(fā)展到「湖倉(cāng)一體」架構(gòu),為客戶(hù)提供「數(shù)據(jù)核心」所需的全量數(shù)據(jù)存儲(chǔ),實(shí)時(shí)對(duì)客服務(wù),及基于統(tǒng)一數(shù)據(jù)源的分析能力,充分激活客戶(hù)的離線(xiàn)數(shù)據(jù)。當(dāng)中,數(shù)據(jù)入湖的時(shí)效性直接影響整體數(shù)據(jù)應(yīng)用效果,巨杉數(shù)據(jù)庫(kù)通過(guò)對(duì)接業(yè)界主流的Flink,Spark和Storm等主流的流式框架,實(shí)現(xiàn)實(shí)時(shí)生產(chǎn)數(shù)據(jù)的高速入湖,原汁原味的將數(shù)據(jù)保留在巨杉數(shù)據(jù)庫(kù)中。SequoiaDB是巨杉數(shù)據(jù)庫(kù)通過(guò)10年的不斷迭代,從多模數(shù)據(jù)湖架構(gòu)演進(jìn)出來(lái)的“湖倉(cāng)一體”架構(gòu)產(chǎn)品。SequoiaDB的“湖倉(cāng)一體”結(jié)合了數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù),是一個(gè)融合的基礎(chǔ)設(shè)施環(huán)境,支持從原始數(shù)據(jù)到精煉數(shù)據(jù)的整個(gè)過(guò)程,并最終提供優(yōu)化后的數(shù)據(jù)以供消費(fèi)。

秒級(jí)數(shù)據(jù)入湖

從客戶(hù)的結(jié)構(gòu)化數(shù)據(jù)需求出發(fā),巨杉眾多的金融客戶(hù)著眼于盤(pán)活海量的歷史存量數(shù)據(jù),并同時(shí)卸載發(fā)生在傳統(tǒng)Oracle/DB2上的業(yè)務(wù)。因此,巨杉依托自研的SequoiaDB分布式數(shù)據(jù)庫(kù),形成了歷史數(shù)據(jù)平臺(tái)的方案。從業(yè)務(wù)的角度出發(fā),SequoiaDB通過(guò)高性能的連接器,對(duì)接包括Flink,Spark和Storm等主流的流式框架,實(shí)現(xiàn)實(shí)時(shí)生產(chǎn)數(shù)據(jù)的高速入湖,原汁原味的將數(shù)據(jù)保留在巨杉數(shù)據(jù)庫(kù)中。這里起到的作用有點(diǎn)像數(shù)倉(cāng)模型中的ODS層,但巨杉又利用其分布式數(shù)據(jù)庫(kù)高并發(fā)訪(fǎng)問(wèn)的能力,可以直接對(duì)外提供實(shí)時(shí)數(shù)據(jù)訪(fǎng)問(wèn)服務(wù)。

鑒于SequoiaDB多副本高可用的特性,很多用戶(hù)實(shí)際上把巨杉數(shù)據(jù)庫(kù)作為全系統(tǒng)數(shù)據(jù)的全量最終存儲(chǔ)。在部署實(shí)踐里,前端操作型數(shù)據(jù)庫(kù)產(chǎn)生的數(shù)據(jù)變更在通過(guò)ogg/CDC等工具抽取后,通過(guò)批量的方式load到巨杉數(shù)據(jù)庫(kù)中;或是加載到以kafka為代表的各類(lèi)消息隊(duì)列,再通過(guò)流式引擎寫(xiě)入巨杉數(shù)據(jù)庫(kù)中。流式和批量數(shù)據(jù)匯總加工整合即可對(duì)外提供服務(wù),根據(jù)業(yè)務(wù)需要,實(shí)時(shí)入湖的數(shù)據(jù)從業(yè)務(wù)實(shí)際發(fā)生到在巨杉中提供訪(fǎng)問(wèn)服務(wù)時(shí)延在秒級(jí)。

上圖有兩個(gè)核心技術(shù)點(diǎn)需要關(guān)注。一是數(shù)據(jù)入庫(kù)鏈路,從架構(gòu)中可以很清晰的看到通過(guò)流和批兩條數(shù)據(jù)鏈路,這是當(dāng)前比較成熟的一個(gè)典型的Lambda架構(gòu)。為了盡可能的高效接收來(lái)自不同數(shù)據(jù)源的數(shù)據(jù),SequoiaDB開(kāi)發(fā)了Spark connector和Flink connector等多種通用數(shù)據(jù)格式的解析器,打通實(shí)現(xiàn)了高可靠的數(shù)據(jù)鏈路,支持增刪改各類(lèi)操作,并在客戶(hù)場(chǎng)景中解決exactly once數(shù)據(jù)入庫(kù)問(wèn)題。

其次是隨著巨杉數(shù)據(jù)庫(kù)在業(yè)務(wù)系統(tǒng)的深入,很多用戶(hù)發(fā)現(xiàn)把數(shù)據(jù)從取出,做ETL,加載到DW層再做完各類(lèi)統(tǒng)計(jì)分析匯總時(shí),會(huì)存在以下問(wèn)題:

1.時(shí)延較高,無(wú)法滿(mǎn)足實(shí)時(shí)分析的需求

2.搬遷復(fù)制數(shù)據(jù)成本高,數(shù)據(jù)要在不同條件下保存多份,還要開(kāi)發(fā)大量的工具

3.傳統(tǒng)數(shù)倉(cāng)模型不能很好的適應(yīng)業(yè)務(wù)變更,需要的專(zhuān)業(yè)技能門(mén)檻也很高

所以部分客戶(hù)開(kāi)始跟巨杉一起探討直接在海量數(shù)據(jù)湖上做數(shù)據(jù)轉(zhuǎn)換和分析的可能,也就形成了現(xiàn)在巨杉數(shù)據(jù)庫(kù)的“湖倉(cāng)一體”架構(gòu)。

流式數(shù)據(jù)加工

針對(duì)客戶(hù)提出的流式數(shù)據(jù)加工處理,以及未來(lái)越來(lái)越多的實(shí)時(shí)分析場(chǎng)景,SequoiaDB在結(jié)合Spark Streaming和對(duì)接Flink后,提供簡(jiǎn)單易用的數(shù)據(jù)加載工具和列存的數(shù)據(jù)加載功能。SequoiaDB還開(kāi)發(fā)了行存數(shù)據(jù)到列存數(shù)據(jù)的自動(dòng)化轉(zhuǎn)換工具,客戶(hù)只需要基于需求簡(jiǎn)單配置需要轉(zhuǎn)換分析的表,就可以實(shí)現(xiàn)實(shí)時(shí)增量數(shù)據(jù)同步轉(zhuǎn)換,極大的方便簡(jiǎn)化數(shù)據(jù)加工師和分析師的工作??偟膩?lái)說(shuō),客戶(hù)可以在一個(gè)SequoiaDB平臺(tái)實(shí)現(xiàn)低延時(shí)的數(shù)據(jù)入庫(kù),高并發(fā)的即時(shí)數(shù)據(jù)查詢(xún),幾乎透明的行列數(shù)據(jù)轉(zhuǎn)換,以及高性能的數(shù)據(jù)加工分析能力。

結(jié)語(yǔ)

SequoiaDB通過(guò)對(duì)接業(yè)界主流的流式框架,實(shí)現(xiàn)了多源數(shù)據(jù)的快速入湖。未來(lái),巨杉數(shù)據(jù)庫(kù)將繼續(xù)不斷創(chuàng)新,打造更加安全、穩(wěn)定、可靠的數(shù)據(jù)庫(kù)系統(tǒng),持續(xù)助力金融行業(yè)客戶(hù)信息化創(chuàng)新,釋放全量數(shù)據(jù)價(jià)值。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
數(shù)據(jù)分析

相關(guān)文章

  • 進(jìn)博看點(diǎn)|數(shù)據(jù)分析管控供應(yīng)鏈風(fēng)險(xiǎn)

    第六屆進(jìn)博會(huì)期間,全球數(shù)據(jù)和分析驅(qū)動(dòng)的決策賦能機(jī)構(gòu)鄧白氏(Dun&Bradstreet)以“共創(chuàng)可持續(xù)發(fā)展的未來(lái)”為主題亮相服務(wù)貿(mào)易展區(qū)。作為連續(xù)四年參加進(jìn)博會(huì)的“老朋友”,鄧白氏于此次參展期間,在中國(guó)首發(fā)“供應(yīng)鏈ESG解決方案”,并展示一系列數(shù)字化解決方案,賦能中國(guó)企業(yè)構(gòu)建可持續(xù)發(fā)展的韌性供應(yīng)鏈。

    標(biāo)簽:
    數(shù)據(jù)分析
  • 神策分析 2.5 上線(xiàn)經(jīng)營(yíng)分析,可視化分析能力重磅升級(jí)

    近日,神策數(shù)據(jù)發(fā)布了全新的神策分析2.5版本,該版本以經(jīng)營(yíng)分析為主題,支持分析模型與外部數(shù)據(jù)的融合性接入,構(gòu)建全域數(shù)據(jù)融合模型,并提供統(tǒng)一、便捷的指標(biāo)及可視化能力,實(shí)現(xiàn)從用戶(hù)到經(jīng)營(yíng)的全鏈路、全場(chǎng)景分析。經(jīng)營(yíng)分析可以幫助企業(yè)更深入了解用戶(hù)的需求,構(gòu)建從用戶(hù)到經(jīng)營(yíng)的業(yè)務(wù)指標(biāo)體系,尤其針對(duì)需要加強(qiáng)數(shù)據(jù)融合

    標(biāo)簽:
    數(shù)據(jù)分析
  • 全國(guó)生物相分離和相變學(xué)術(shù)研討會(huì)圓滿(mǎn)落幕 榮聯(lián)科技集團(tuán)亮相頂尖學(xué)術(shù)盛會(huì)

    2023年6月1日至4日,第三屆全國(guó)生物相分離和相變學(xué)術(shù)研討會(huì)暨中國(guó)生物物理學(xué)會(huì)生物大分子相分離與相變分會(huì)年會(huì)在上海成功舉辦,榮聯(lián)科技集團(tuán)攜冷凍電鏡數(shù)據(jù)分析整體解決方案亮相活動(dòng),云生數(shù)據(jù)副總經(jīng)理田鳳進(jìn)行了精彩的報(bào)告分享。本次盛會(huì)由中國(guó)生物物理學(xué)會(huì)生物大分子相分離與相變分會(huì)主辦,中國(guó)科學(xué)院上海有機(jī)化學(xué)

    標(biāo)簽:
    數(shù)據(jù)分析
  • 有哪些免費(fèi)且強(qiáng)大的數(shù)據(jù)分析BI工具?

    如今,諸多企業(yè)開(kāi)始進(jìn)入數(shù)據(jù)應(yīng)用階段,開(kāi)始追求數(shù)據(jù)對(duì)業(yè)務(wù)的實(shí)質(zhì)性提升。然而,一些企業(yè)雖然認(rèn)識(shí)到了數(shù)據(jù)的價(jià)值,卻由于缺乏一套高效好用的數(shù)據(jù)分析工具,導(dǎo)致數(shù)據(jù)應(yīng)用效果并不理想。在一些企業(yè)中,尤其是中小企業(yè),由于缺乏預(yù)算,仍然在使用Excel等傳統(tǒng)工具進(jìn)行數(shù)據(jù)分析和可視化展現(xiàn),需要手動(dòng)整合和處理數(shù)據(jù),耗時(shí)耗

    標(biāo)簽:
    數(shù)據(jù)分析
  • Oxylabs 首席執(zhí)行官:了解靜態(tài)和動(dòng)態(tài)數(shù)據(jù)

    數(shù)據(jù)收集的操作行為受到越來(lái)越多的關(guān)注,也變得越來(lái)越復(fù)雜。網(wǎng)絡(luò)抓取以及自動(dòng)獲取過(guò)程總體來(lái)說(shuō)極大地改變了數(shù)據(jù)收集的性質(zhì),舊的挑戰(zhàn)得到解決,而新的問(wèn)題也隨之浮現(xiàn)出來(lái)。

    標(biāo)簽:
    數(shù)據(jù)分析

熱門(mén)排行

信息推薦