當前構(gòu)建大數(shù)據(jù)應(yīng)用的難點是什么?對于這個問題,相信很多資深從業(yè)者都會回答:海量數(shù)據(jù)的高效處理與運維。在大數(shù)據(jù)時代中,它是數(shù)據(jù)庫行業(yè)面臨的基礎(chǔ)性問題,如何將它解決?既是挑戰(zhàn),也是機遇。
在無數(shù)數(shù)據(jù)庫行業(yè)的老將新兵中,我們注意到一批力圖解決大數(shù)據(jù)語境下,數(shù)據(jù)庫使用和運維難題的“引路人”。今天,InfoQ的專訪對象---姚延棟,正是這批大數(shù)據(jù)“引路人”中的一個。
作為Greenplum的第三號員工,在過去十年間,姚延棟曾帶領(lǐng)團隊將Greenplum打造成為世界排名第三的分析型數(shù)據(jù)庫,創(chuàng)下由華人主導(dǎo)的數(shù)據(jù)庫產(chǎn)品最好排名。而在數(shù)據(jù)庫領(lǐng)域從業(yè)數(shù)十年后,他又選擇開啟自己的創(chuàng)業(yè)之旅,與兩位合伙人共同創(chuàng)辦了一家名為四維縱橫的數(shù)據(jù)庫公司。那么,他為什么在這個時間點選擇創(chuàng)業(yè)?當傳統(tǒng)行業(yè)的數(shù)字化轉(zhuǎn)型成為大勢所趨,數(shù)據(jù)庫領(lǐng)域又發(fā)生了什么新故事?我們帶著這些問題,同四維縱橫創(chuàng)始人姚延棟一起聊聊數(shù)據(jù)庫的過去與未來,挑戰(zhàn)與機遇。
行業(yè)中存在一種思維慣性
“創(chuàng)業(yè)是為了打破行業(yè)的慣性。”
“如果把數(shù)據(jù)庫領(lǐng)域比作一個大森林,那么我們就是對地形非常熟悉的原住民。當有人想穿過大森林,卻不知該走哪條路的時候,我們就充當“引路人”來幫助他們穿過森林。倘若沒有我們,那他們可能會按照自己的慣性去走。”
姚延棟在Greenplum效力的十年期間,最初主要從外圍模塊入手打造產(chǎn)品,后來逐步向核心邁進,打磨內(nèi)核模塊,直到團隊駕馭整個數(shù)據(jù)庫內(nèi)核,他坦言這與農(nóng)村包圍城市的過程十分類似。在此期間,他發(fā)現(xiàn)行業(yè)中存在一種慣性思維,而創(chuàng)業(yè)的目的就是為了打破這種慣性。
那么,這個慣性到底指的是什么?
以時序場景為例,現(xiàn)在業(yè)內(nèi)普遍流行使用專用的時序數(shù)據(jù)庫,典型的代表產(chǎn)品有InfluxDB、OpenTSDB 等,而與此同時,幾乎所有場景都需要關(guān)系型數(shù)據(jù)庫。這樣一來,大家就不得不引入多個數(shù)據(jù)庫產(chǎn)品,使得技術(shù)棧以及監(jiān)控運維變得十分復(fù)雜。
雖然專用時序數(shù)據(jù)庫在一定程度上滿足了業(yè)務(wù)對于時序處理的需求,但也存在諸多問題,其中性能低、擴展性差的問題尤為顯著。過去時序數(shù)據(jù)庫大多是為數(shù)據(jù)中心的服務(wù)器監(jiān)控、埋點數(shù)據(jù)處理等簡單場景設(shè)計的,所以,其無法為物聯(lián)網(wǎng)等場景下的大量數(shù)據(jù)源和大量指標提供支持。除此之外,開發(fā)效率低、需要MPP數(shù)據(jù)庫或者大數(shù)據(jù)產(chǎn)品配合以及數(shù)據(jù)孤島化等方面,都是擺在從業(yè)者面前的難題。
應(yīng)運而生的超融合時序數(shù)據(jù)庫
“我一直把數(shù)據(jù)庫的技術(shù)演進和生物界的進化類比去看。”
從上世紀60年代誕生起,數(shù)據(jù)庫技術(shù)就一直在不斷地演進、迭代,其背后主要是兩股力量在推動:一股力量是性能問題,另一股力量是效率問題。
上世紀七八十年代,關(guān)系型數(shù)據(jù)庫開始獨步天下,從業(yè)者主要是基于關(guān)系型數(shù)據(jù)庫來高效存儲和處理應(yīng)用開發(fā)中用到的數(shù)據(jù);到了2000年左右,數(shù)據(jù)規(guī)模大幅增長,而大數(shù)據(jù)處理技術(shù)尚未展露雛形,整個社會對于浩瀚信息的處理仍處于比較迷茫的階段,以至于技術(shù)的迭代速度趕不上數(shù)據(jù)增長的速度。自此,大數(shù)據(jù)處理的性能問題開始顯現(xiàn),數(shù)據(jù)庫領(lǐng)域隨之出現(xiàn)了時序數(shù)據(jù)庫、KV數(shù)據(jù)庫、文檔數(shù)據(jù)庫等專用數(shù)據(jù)庫,以期解決性能從0到1的問題。但由于應(yīng)用要與多個數(shù)據(jù)庫溝通,從多個數(shù)據(jù)庫讀取數(shù)據(jù)到應(yīng)用程序內(nèi)存中再進行關(guān)聯(lián)、聚集以及合并等計算,很多數(shù)據(jù)處理邏輯被迫只能放在應(yīng)用中,開發(fā)和運維效率就不可避免地大打折扣。
如此一來,為了解決效率問題,行業(yè)中又出現(xiàn)了Presto等類型的產(chǎn)品,即在專用的數(shù)據(jù)庫上封裝一個查詢引擎,試圖把數(shù)據(jù)處理邏輯從應(yīng)用處理邏輯中剝離出來。這種方式雖然在一定程度上解決了開發(fā)效率問題,但性能仍是短板,且并未從根本上解決技術(shù)棧復(fù)雜的問題。
我們可以看到,在進化了近50年后,現(xiàn)有的數(shù)據(jù)庫技術(shù)已經(jīng)不能滿足從業(yè)者的需求 --- 他們需要更加簡單易用、省心省力的數(shù)據(jù)庫。在這樣的背景下,為了能給用戶提供簡單易用的接口,真正實現(xiàn)數(shù)據(jù)平民化,姚延棟和他的團隊將關(guān)系數(shù)據(jù)庫、時序數(shù)據(jù)庫和分析數(shù)據(jù)庫融合在同一個數(shù)據(jù)庫產(chǎn)品中,打造了全球唯一一款PB級超融合時序數(shù)據(jù)庫--MatrixDB。

超融合時序數(shù)據(jù)庫解決了什么問題?
目前,超融合時序數(shù)據(jù)庫主要應(yīng)用在兩大場景:第一,時序、時空場景,通常是物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)和智慧城市等領(lǐng)域;第二,實時數(shù)據(jù)分析場景。
談到時序、時空場景,姚延棟分享了一個海量設(shè)備、大量存儲的典型物聯(lián)網(wǎng)場景。“以一家做光纖和5G通訊設(shè)備的國際制造商為例,這家制造商大概有1000萬設(shè)備,每臺設(shè)備每次都會采集300個指標數(shù)據(jù),每次共計需要采集30億指標。”基于這種情況下,MatrixDB實現(xiàn)了超大規(guī)模數(shù)據(jù)的實時加載特性,在保證低延遲和高并發(fā)加載的同時,也減輕了系統(tǒng)資源消耗,充分將快速采集、高效存儲 的特性顯示了出來,使得海量數(shù)據(jù)的存儲問題、秒級采集的頻率要求都能得到完美的解決。
在實時分析 的特性方面,姚延棟又給出了另一個案例:在一個實時數(shù)據(jù)分析的業(yè)務(wù)中,MatrixDB可以實現(xiàn)對IT運營域和OT生產(chǎn)域的數(shù)據(jù)收集,通過ETL/CDC和物聯(lián)網(wǎng)協(xié)議插入數(shù)據(jù)以后,便能將兩張網(wǎng)的數(shù)據(jù)整合在一起,使得公司的全部數(shù)據(jù)一目了然地展現(xiàn)。當企業(yè)再基于這些數(shù)據(jù)進行分析時,就能得到更加精準且全面的結(jié)論。

我們還注意到了MatrixDB的另一個重要特性——模塊化和可插拔 。專用時序數(shù)據(jù)庫通常包含存儲器和簡單的執(zhí)行器,沒有優(yōu)化器和并發(fā)控制等關(guān)系數(shù)據(jù)庫經(jīng)典組件。從本質(zhì)上來看,它是把存儲器“做成”了數(shù)據(jù)庫,以此來解決一個特定的問題。而超融合時序數(shù)據(jù)庫則是把存儲器“做進”數(shù)據(jù)庫,通過把各個核心功能做到模塊化、可插拔,在一個關(guān)系數(shù)據(jù)庫內(nèi)部同時實現(xiàn)多種存儲引擎,以及跨存儲表關(guān)聯(lián)和ACID。 比如有200張表,其中190張是關(guān)系型數(shù)據(jù),這部分可以使用關(guān)系引擎存儲;剩余10張是時序數(shù)據(jù),就可以使用時序引擎存儲,且它們可以相互關(guān)聯(lián)。
與傳統(tǒng)的關(guān)系數(shù)據(jù)庫+專用時序數(shù)據(jù)庫相結(jié)合的架構(gòu)相比,通過支持多種存儲引擎,超融合時序數(shù)據(jù)庫可以讓性能快10-100倍,同時大幅降低成本,提升開發(fā)運維效率。

令人驚喜的是,除了快速采集、高效存儲、實時分析以及模塊化和可插拔特性以外,我們注意到MatrixDB作為一款數(shù)據(jù)庫產(chǎn)品,還提供了機器學(xué)習(xí)的能力。 隨著人工智能技術(shù)的飛速發(fā)展,In-Database Machine Learning成為一個值得關(guān)注的方向,將機器學(xué)習(xí)的算法內(nèi)置到數(shù)據(jù)庫將逐漸成為主流。一方面,借助分布式數(shù)據(jù)庫的并行計算能力,可以使計算速度超越單機;另一方面,由于單機上的內(nèi)存有限,在數(shù)據(jù)量很大的情況下,只能抽樣進行訓(xùn)練,模型精度就會變差。通過In-Database Machine Learning模式,就能實現(xiàn)在全量數(shù)據(jù)上訓(xùn)練,模型精度也將得到進一步提高。
“過去從業(yè)者需要自己寫程序才能實現(xiàn)機器學(xué)習(xí)。”這是姚延棟提到的一個現(xiàn)象,并表示這其中的技術(shù)門檻比較高。“目前,MatrixDB數(shù)據(jù)庫通過直接提供SQL接口,大大降低了機器學(xué)習(xí)的門檻,能夠在一定程度上緩解人才稀缺的問題”。
下一步怎么走?
“未來我們會繼續(xù)在性能和效率兩個維度持續(xù)發(fā)力,并沿著更智能的方向去發(fā)展。” 落實到具體的業(yè)務(wù)層面,姚延棟表示會在提升易用性、構(gòu)建生態(tài)兩個方面重點發(fā)力。
眾所周知,數(shù)據(jù)庫運維對于從業(yè)者來說是一個很大的挑戰(zhàn),也因此衍生出了數(shù)據(jù)庫運維這個行業(yè)。尤其在分布式數(shù)據(jù)庫環(huán)境中,節(jié)點數(shù)量多以及需求多樣化的特點,使得運維的難度更是大幅增加。姚延棟表示:“今后,我們將繼續(xù)致力于降低數(shù)據(jù)庫的使用門檻,使數(shù)據(jù)庫有能力提供自動性能調(diào)優(yōu)、健康檢查等功能。”
在構(gòu)建生態(tài)的方面,他也給出了更高層面的考慮。數(shù)據(jù)庫是基礎(chǔ)軟件,沒有人能夠只使用數(shù)據(jù)庫就解決業(yè)務(wù)問題,必須與很多周邊產(chǎn)品搭配,才能發(fā)揮真正的價值。因此,對于數(shù)據(jù)庫產(chǎn)品來說,生態(tài)的重要性不言而喻。“如果沒有生態(tài),我們相當于把復(fù)雜度問題扔給了用戶,聯(lián)合行業(yè)內(nèi)上下游共建生態(tài)是我們接下來的方向”。
"數(shù)據(jù)庫能定義未來記憶。" 由于MatrixDB數(shù)據(jù)庫更多應(yīng)用于物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)和智慧生活等場景,姚延棟也與InfoQ談到了他對于萬物互聯(lián)時代中數(shù)據(jù)庫的理解,萬物互聯(lián)的目的是為了更智能化,而智能的前提是基于記憶,但事物本身是沒有記憶能力的,如風(fēng)力發(fā)電機、智能手環(huán)等等。“未來我們希望通過超融合時序數(shù)據(jù)庫,賦予一些沒有記憶能力的設(shè)備以記憶,為智能衍生出更多的可能性。”
萬物互聯(lián)時代的智能化到底會是什么樣?這個問題還未有定論,仍然需要等待技術(shù)隨著時代不斷演進,不斷進化才能得到答案。但可以肯定的是,在這之前先建立起事物的記憶能力,能夠為不遠的智能化時代奠定基礎(chǔ)。
談及數(shù)據(jù)庫和四維縱橫的未來,姚延棟希望能夠讓數(shù)據(jù)處理簡單到像用電、用氣、用水一樣,把MatrixDB數(shù)據(jù)庫打造成一個真正的一站式數(shù)據(jù)處理平臺,讓從業(yè)者在進行數(shù)據(jù)處理時,不再需要關(guān)心底層的數(shù)據(jù)存儲以及計算的復(fù)雜性。這是四維縱橫正在探索的方向,也是行業(yè)共同努力的終極目標。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
又是新的一年開始?;厥滓荒昵暗拇藭r,在大家千呼萬喚地期待中,數(shù)據(jù)基礎(chǔ)制度體系的綱領(lǐng)性文件正式發(fā)布。時隔一年之后,數(shù)據(jù)資源入表如約而至。2024年1月1日《企業(yè)數(shù)據(jù)資源相關(guān)會計處理暫行規(guī)定》正式施行,各行各業(yè)海量數(shù)據(jù)巨大的商業(yè)價值開始被量化兌現(xiàn),數(shù)據(jù)產(chǎn)業(yè)正式開啟巨大變革。恰逢此時,作為數(shù)據(jù)資產(chǎn)實現(xiàn)的必
2020年全國兩會期間,合肥工業(yè)大學(xué)應(yīng)用數(shù)學(xué)研究所所長檀結(jié)慶在媒體采訪中提到:“國產(chǎn)數(shù)據(jù)庫只占據(jù)不到7%的市場份額,尤其在數(shù)據(jù)庫最核心的交易業(yè)務(wù)中,鮮有能跟甲骨文同臺競爭并實現(xiàn)替換的產(chǎn)品。”彼時“去IOE”浪潮已經(jīng)興起十多年的時間,但囿于性能、穩(wěn)定性等客觀因素,銀行、能源、電信等傳統(tǒng)業(yè)務(wù),對國產(chǎn)數(shù)據(jù)
2023年8月23日,以“蝶變奮進數(shù)商之都”為主題的“中國數(shù)谷”2023杭州峰會(夏季)在杭州高新區(qū)(濱江)順利舉行。會上,信雅達成為“中國數(shù)谷”數(shù)據(jù)產(chǎn)業(yè)發(fā)展聯(lián)盟首批成員并參與授牌儀式。本次峰會由浙江省發(fā)展和改革委員會,杭州市人民政府指導(dǎo),由杭州市發(fā)展和改革委員會,杭州市數(shù)據(jù)資源管理局,杭州市金融投
近日,高性能、分布式的物聯(lián)網(wǎng)、工業(yè)大數(shù)據(jù)平臺TDengine在精心籌備后進行了官網(wǎng)的全新改版升級(https://www.taosdata.com/)。新官網(wǎng)進行了非常全面的改造,板塊劃分更加具象、功能分區(qū)也更加明確、整體視覺顯著提升,伴隨著這些改進,使用者能夠更便捷、清晰地了解TDengine的產(chǎn)
把脈中國數(shù)據(jù)智能化
2023年,幾乎可以被定義為中國互聯(lián)網(wǎng)公司的“大模型元年”。ChatGPT的全球爆紅,徹底點燃國內(nèi)的大模型賽道,曾經(jīng)的“創(chuàng)業(yè)英雄”、如今的商業(yè)領(lǐng)袖們親自下場,接連發(fā)布生成式人工智能產(chǎn)品與大模型布局。大模型火了,沉寂許久的互聯(lián)網(wǎng)行業(yè)又有了新的“戰(zhàn)事”。同時,大模型的快速發(fā)展也改變了云市場的現(xiàn)狀,企業(yè)對
近日,數(shù)字化市場研究咨詢機構(gòu)愛分析發(fā)布了《2022愛分析·數(shù)據(jù)智能廠商全景報告》,愛分析從技術(shù)研發(fā)能力、服務(wù)客戶數(shù)量、收入規(guī)模等維度對廠商進行了全面專業(yè)的評估
2022年11月18日,首個國家級大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新賽事——2022第一屆中國大數(shù)據(jù)大賽圓滿落幕。工業(yè)和信息化部信息技術(shù)發(fā)展司數(shù)字經(jīng)濟推進處處長張建倫,中國電子技術(shù)標準化研究院副院長孫文龍出席頒獎典禮并致辭
2022年11月17日,在廈門市工業(yè)和信息化局的指導(dǎo)下,以“數(shù)據(jù)確權(quán)”為主題的2022數(shù)據(jù)資產(chǎn)(廈門)論壇在廈門成功舉辦。本次論壇以“數(shù)據(jù)確權(quán)”為主題,由廈門市互聯(lián)網(wǎng)域名應(yīng)用服務(wù)產(chǎn)業(yè)協(xié)會和構(gòu)信網(wǎng)(公信.中國)聯(lián)合主辦
近日,國內(nèi)知名數(shù)字化市場研究咨詢機構(gòu)愛分析正式發(fā)布《2022愛分析·信創(chuàng)廠商全景報告》(以下簡稱“報告”)。報告綜合考慮企業(yè)關(guān)注度、行業(yè)落地進展等因素,遴選出在信創(chuàng)市場中具備成熟解決方案和落地能力的廠商。
10月31日下午,由數(shù)博會執(zhí)委會主辦、數(shù)據(jù)觀(北京)傳媒科技有限公司承辦、貴陽大數(shù)據(jù)交易所協(xié)辦的第四期數(shù)博思享會“實踐先行觀公共數(shù)據(jù)價值與應(yīng)用”活動成功舉辦。
近日,由中國國際數(shù)字經(jīng)濟博覽會組委會主辦,中國電子技術(shù)標準化研究院、河北省工業(yè)和信息化廳承辦的“第一屆中國大數(shù)據(jù)大賽”(簡稱大數(shù)據(jù)大賽)正式啟動。
廣州光點信息科技有限公司自主研發(fā)的數(shù)據(jù)中臺產(chǎn)品GI大數(shù)據(jù)中臺V2.0產(chǎn)品是國內(nèi)率先推出符合新創(chuàng)標準的中臺產(chǎn)品,基于“大數(shù)據(jù)+AI”等技術(shù)全新打造,集數(shù)據(jù)采集、融合、治理、服務(wù)、管理為一體的旗艦平臺。
廣州光點信息科技有限公司自主研發(fā)的數(shù)據(jù)中臺產(chǎn)品GI大數(shù)據(jù)中臺V2.0產(chǎn)品是國內(nèi)率先推出符合新創(chuàng)標準的中臺產(chǎn)品,基于“大數(shù)據(jù)+AI”等技術(shù)全新打造,集數(shù)據(jù)采集、融合、治理、服務(wù)、管理為一體的旗艦平臺