弘則研究:生成式A1驅動向量數據庫加速發(fā)展_第1頁
弘則研究:生成式A1驅動向量數據庫加速發(fā)展_第2頁
弘則研究:生成式A1驅動向量數據庫加速發(fā)展_第3頁
弘則研究:生成式A1驅動向量數據庫加速發(fā)展_第4頁
弘則研究:生成式A1驅動向量數據庫加速發(fā)展_第5頁
已閱讀5頁,還剩139頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

弘則研究科技組電話:021-6194-6708核心觀點提示?toB生成式AI應用均需外掛知識庫以提升大模型精度,將驅動向量數據庫的爆發(fā)。向量數據庫是非結構化數據的特殊形式,它的核心是將各種數據(如文檔、音頻和視頻)轉化為空間向量進行相似性搜索以提高不同數據類型的搜索效率和準確性,這使其在AI和深度學習領域中有著廣泛的應用。生成式AI出現后,尤其是在toB場景中需要應用到向量數據庫在大模型上外掛“企業(yè)知識庫”,企業(yè)內部數據將被存儲在向量數據庫中,以提升大模型精度。?向量數據庫潛在市場空間是傳統結構化關系型數據庫的數倍達到千億美元。據信通院統計數據,全球數據庫市場規(guī)模在2020年為671億美元,到2025年有望達到798億美元,CAGR3.5%,估算關系型數據庫全球龍頭Oracle收入規(guī)模小幾百億美元。僅考慮現有非結構化數據的向量化處理,估算需要的存儲空間增量為之前的數倍。未來隨著生成式AI應用增量數據的爆發(fā),對于向量數據庫的需求會更大。?產業(yè)處在發(fā)展早期,尚未形成寡頭壟斷,廠商具備錯位競爭優(yōu)勢。全球市場不同背景廠商以不同商業(yè)模式切入向量數據庫賽道。美股上市公司中,MongoDB于今年12月在自身非結構化司均對向量數據庫業(yè)務前景非常樂觀。A股上市公司中,星環(huán)科技于今年5月推出向量數據庫Hippo,目前已迭代到1.2版本,已有客戶開始試用。向量數據庫作為B端GenAI落地剛需,已經進入到商業(yè)化推廣和MongoDB),月,英特爾與星環(huán)科技聯合發(fā)布AIGC向量數據庫解決方案銀行和券商等客戶正在POC行業(yè)大模型和向量數據庫市值(億美元,億元)過去財年(FY23,2022)當前財年(FY24,2023)下一財年(FY25,2024)收入3年CAGR毛利率PS收入預期PS收入預期PSMongoDB45%73%2126%--36%72%717%6--星環(huán)科技29%57%2442%42%頭并起,切分不同客戶群體IBMDB2是為大型機設計的關系數據庫采用關系數據庫模型,支持SQL查系統,支持SQL查詢,并提供了一通過與Windows操作系統的緊密集Windows操作系統綁定70-80年代:Oracle最初憑借技術和戰(zhàn)略決策領先IBM推出產品搶占市場,微軟起步較晚且主要客群集中在中小企業(yè)IBM開始構建SystemR,歷史上第一個使用SQL查詢語言的數據時IBM的戰(zhàn)略重心仍在硬件業(yè)務繞IBM產品做協同工作V2,后續(xù)拿到CIA價值5萬美元IBMSQL查詢語言SQL查詢語言硬件+嵌入軟件,認為價值量應該通過硬件體現?System?SystemR在理論和研究上引入了主要關注數據存儲和基本的SQL庫的核心概念,如R樹索引、提供了基本的SQL查詢功能,沒580-90年代:計算機技術和互聯網的大規(guī)模應用驅動關系型數據庫繼續(xù)向高性能、高可靠性方向發(fā)展復雜。企業(yè)開始使用ERP、CRM等復雜的業(yè)務應用SQL成為了標準的查詢語言,被廣泛應用于各種數據庫系統。企業(yè)需要支持SQL的數據庫系統,以確?個人計算機數據庫的興起:在IBMPC之前,數據庫主要運行在大型機和小型機上。但隨著IBMPC的普及,開始出現為個人計算機設計的數據庫系統,如dBASE、FoxPro和Paradox。這些數能是另一臺更強大的計算機)負責數據管理。這種分離使得?數據庫工具和應用的發(fā)展:隨著IBMPC的普及,開始出現了大量的數據庫工具和應用,如查詢工具、報表生成器和數據庫開發(fā)工具。這些工具使得數據庫開發(fā)和管理變得更加簡?數據庫的標準化:IBMPC的普及促進了數據庫技術的標準化。SQL成為了標準的查詢語言,被廣泛應用于各種數據庫系統。這使得開發(fā)者可以使用統一的語言和工具開發(fā)和管理數據庫,而不用擔心不同數據?680-90年代:有力競爭者增加,但最終輸在商業(yè)策略退出市場dBASEIBM???被SAP于2013年收購?????2001年被IBM收購,其技術被整合到DB2?????????????????成為RDBMS成為RDBMS市場的領導主要數據庫為DB215Or????5?0?在NT-based5?0?IBM競爭,依賴操作系統?7進入到21世紀之后,分布式、非結構化、開源、轉云成為重要趨技術進步:存儲和處理非結構化數據的技術(如Hadoop、NoSQL數據庫)得到了廣泛的研究和應用運維簡化:云服務提供了數據庫的自動管理全球化需求:隨著業(yè)務的全球化,企業(yè)需要非結構化、開源和云數據庫趨勢出現后,在新興領域出現大量新進入者,比如MongoDB、Redis、傳統的結構化關系型數據庫最重要的ACID特性使其在特定應用場景中非常重要ACIDACID事務特性??一旦事務被確認一旦事務被確認,它的效果是永久的,即使在系統故障、崩潰或重啟后也不會丟失這通常通過將事務日志持久化到存儲介質上來實現??一致性一致性AtomicityConsistency這意味著事務被視為一個單一的、原子性?事務確保數據庫從一個一致的狀態(tài)轉移到另一個一致的狀AtomicityConsistency這意味著事務被視為一個單一的、原子性?事務確保數據庫從一個一致的狀態(tài)轉移到另一個一致的狀態(tài)。在事務開始之前和結束之后,所有的業(yè)務規(guī)則都必須保持為真?例如,銀行轉賬應確保轉賬前后的總金額保持不變例如,如果在銀行轉賬過程中,從一個賬戶扣款成功,但向另一個賬戶存款失敗,整個事務都會被回滾,確保資金的完整性DurabilityDurability?這確保并發(fā)事務的執(zhí)行不會互相干擾。每個事務應該在一個隔離的環(huán)境中運行,好像沒有其他事務并發(fā)執(zhí)行一樣例如讀未提交、讀已提交、可重復讀和串行化ACID特性在許多應用場景中非常重要,尤其是在需要確保數據完整性和一致性的金融、醫(yī)療和零售等隨著大數據、云計算等技術成熟,關系型數據庫最重要的ACID特性開始制約其發(fā)展互聯網、社交媒體、物聯網和移動設備導致RDBMS在處理PB級別的數據時可能會遇到性能瓶頸互聯網應用和服務需要能夠支持數百萬甚至數響應。傳統的RDBMS可能難以滿足這種高并發(fā)、低延遲的需求云計算的興起要求數據庫能夠輕松地在多個服務器和數據中心之間擴展。傳統的RDBMS 可能更適合其他數據模型。NoSQL數據庫提供了文檔、鍵值、列族和圖等多種數據模型,在互聯網和移動應用中,數據結構可能經常變化。傳統的RDBMS需要固定的表結構,而NoSQL數據庫通常更加靈活,允許數據結構的動態(tài)變化RDBMS可能不具備這種分布式和全球化的能力開源和NoSQL數據庫通常具有較低的總體擁有成本(TCO尤其是在硬件、許可和維分布式:基于CAP理論,在一致性、分區(qū)容錯性和可用性三者之CAP理論CAP理論的的某個數據項在節(jié)點A上被修改,那么在CAP理論的核心觀點是,分布式系統在面對網絡分區(qū)時,必須在一致性和可用性之間做出選擇。例如,一些系統可能會提供可調整的一致性級別,允許開發(fā)者根據需要分布式:集中式數據庫主數據中心來保證ACID特性,而分布式數據庫犧牲掉主數據中心以加速數據流轉A地發(fā)出匯款C地收到匯款A地發(fā)出匯款C地收到匯款異地數據中心進行同步備份。性能上會有瓶頸,Oracle通過RAC技術提升寫入A地數據中心,修改寫入A地數據中心,修改C地收到匯款A地發(fā)出匯款!A地數據中心B地主數據中心C地數據中心C地收到匯款A地發(fā)出匯款!通常使用某種形式的數據復制策略(例如,基于quorum的策略)來確保數據的一致性。A地節(jié)點會嘗試與其他節(jié)點(例如C地節(jié)點)同步這個更改。這通常涉及到一個“多數同意”的過程,其中多數節(jié)點(不僅僅是A和C)必須同意更改才能繼續(xù)。一旦達到了A地數據中心所需的quorum,C地數據中心的節(jié)點會修改對應收款人信息C地數據中心分布式:相較于集中式數據庫,可以提供更強的擴展性、更低的網絡延遲和更強的安全性A地發(fā)起匯款請求,需要首先發(fā)送到B地中心數據庫,然后再將結果返回到A和C地,這個分布式:相比集中式數據庫,現階段分布式受制于數據一致性、遷移成本等,大規(guī)模商用仍存在落地難度分布式數據庫的設計和管理通常比單一節(jié)點的數據庫更復雜。根據CAP理論,分布式系統必須在一致性和可用性之間做出權衡。某些業(yè)務場景,如金融交易,可傳統的關系型數據庫通常有一個成熟的工具和生態(tài)系統,包括備份、監(jiān)控、?一些新興的分布式數據庫,如CockroachDB和TiDB,正在獲得越來越多的關注和采用,這表明分布非結構化:互聯網催生不同數據類型的數據爆發(fā),傳統關系型數據庫面臨困境?文檔型:使用JSON或BSON格式存儲數據,每個文檔可以有不同的結構?提供豐富的查詢API和語言,如MongoDB的查詢語言CAP理論傳統RDBMS的特點和挑戰(zhàn)NoSQL數據庫的特點和優(yōu)勢為了保證ACID特性,采用單一、集中式的架構。雖然可以可能經常變化,這使得RDBMS在適應這些變化上面臨挑戰(zhàn)為了保證ACID特性,可能需要在事務處理中加鎖,這可能放寬了ACID的一些要求,采用最終一致性模云數據庫:2012年左右移動互聯網和物聯網發(fā)展驅動企業(yè)向彈性移動互聯網和物聯網驅使企業(yè)加速上云?CMO非常喜歡公共云。毫無疑問,各地的營銷部門都在內部IT之外部署Web和移動應用程序來與進行大數據分析,因為內部IT缺乏時間、意愿或技能來構建此類系統。這在IT參與規(guī)劃和的支持,GE正忙于在廣泛的工業(yè)產品中嵌入數百萬個傳感器。該平臺的一個關鍵組件是GemFire事?云客戶端很快就會占據統治地位。云的最終目標與任何IT基礎設施相同:交付應用程序。但在瀏覽混合云需求開始出現踐中,“爆發(fā)”到云端往往是不切實際的。但如果至少能管理一部分本地和比2010年增長84.4%。排名前兩位的供應商CATechnologies云數據庫:超融合技術的成熟極大簡化混合云環(huán)境的部署和管理分散式:服務器主要使用其內部的磁盤或外部的直連存儲(DAS)存儲瓶頸:性能、容量等要求的提高整合式:直連存儲→集中式共享存儲模式計算瓶頸:服務器增多、資源利用率、管理成本邊際效應出現計算虛擬化:服務器虛擬化提高資源利用率和運維效率;但服務器與存儲之間使用的仍是三層架構法提供靈活的縱向及橫向擴展能力↓存儲擴張瓶頸:存儲設備數量遞增,傳統架構無法提供靈活的縱向及橫向擴展能力物理融合:將服務器、存儲、存儲網絡交換機放置在同一個機架中以模塊方式銷售。I/O瓶頸:存儲未虛擬化,仍遭遇I/O瓶頸超融合:存儲虛擬化摒棄了三層架構固有的問題,支持以更小的顆粒進行橫向擴展,更高的可用性和可擴展性,很快成為新建、更新數據中心時的首選方案。?簡化管理:超融合基礎設施(HCI)是一種將計算、存儲和網絡功能集成在一起的基礎設施,可以簡化IT管理,使部署和運行應用程序更加容易。這種模式對于混合云環(huán)?靈活性和可擴展性:HCI通過提供一種可以輕松擴展的基礎設施,支持了混合云環(huán)境的靈活性和可擴展性。當需要更多的計算或存儲資源時,可以簡單地添加更多的HCI節(jié)點,而不需要進行復雜的硬件升級或配置更改?一致的操作體驗:HCI可以提供一種一致的操作體驗,無論應用程序是運行在本地的HCI環(huán)境中,還是在云環(huán)境中Azure云上數據庫的混合云解決方案發(fā)言引用發(fā)言引用FY10Q4進一步提高本地WindowsServer,SQLServer和SystemCenter產品與Azure平臺之間的一致性FY15Q2商業(yè)云連續(xù)第六個季度實現三位數收入增長,高級Azure服務的收入大幅增長FY11Q1WindowsAzure訂閱量環(huán)比增長40%FY15Q4我們看到SQL的大量采用,所以這就是AzureDB,機器學習即服務。FY11Q4WindowsAzure繼續(xù)擁有強勁的客戶勢頭,收入增長加速FY16Q1SQL的這一里程碑與我們在Azure中的快速增長及其在云魔力象限中的位置并列FY13Q4增加25%的企業(yè)客戶,超過50%的財富500強企業(yè)使用AzureFY16Q2我們的服務器不是一個獨特的部分,實際上是我們云的邊緣,我們正在通過AzureStack之類的東西來構建FY14Q2Azure客戶凈席位增長超過100%,70%的財富500強公司使用至少一項云服務FY16Q3我們在Azure中的高價值服務中添加了更多差異化服務,即人工智能、IoT和業(yè)務分析FY14Q3Azure收入增長150%以上,得益于新客戶和使用率的增加FY16Q4我們顯然支持我們所有的服務器。我們的每個服務器產品都有云注冊權限,無論是SQL,還是WindowsServerFY14Q4商業(yè)云收入增長147%,Azure大幅增長,今年存儲翻了一番,計算量增加了兩倍。隨著核心服務的使用量增加,超過50%的Azure客戶現在也在使用更高價值的服務FY17Q1這就是SQLServer2016所代表的,因此我們擁有這些獨特的功能,例如能夠在SQL2016中將數據庫中的單個表一直延伸到云中,以獲得無限的表容量,然后讓您的應用程序和查詢工作FY15Q1Azure實現了強勁增長;初創(chuàng)公司和ISV喜歡開放靈活的方法,并且正在Azure上快速構建,40%的收入來自初創(chuàng)公司和ISV?Azure最初主要針對的是大型企業(yè)和政府機構,這些用戶通常已經是微軟的現?微軟的Hyper-V虛擬化技術是一個由微軟開發(fā)的虛擬化平臺,可以作為獨立產品使用,也可以作為WindowsServer的一個功能。虛擬化技術和其他遷移工具使云數據庫:作為云廠商提供的云上打包服務之一,很難單獨量化拆分數據庫產品帶來的影響,但其一定隨著云業(yè)務同向成長250200500-AWSGoogle阿里云——AWSyoyGoogleyoy——Azureyoy阿里云yoy-龍頭AWS云業(yè)務收入規(guī)模千億美元,微軟600億美元,早期數據只能追溯到2015年15Q115Q215Q315Q416Q116Q216Q316Q417Q117Q217Q317Q418Q118Q218Q318Q419Q119Q219Q319Q420Q120Q220Q320Q421Q121Q221Q321Q422Q122Q222Q322Q423Q123Q215Q115Q215Q315Q416Q116Q216Q316Q417Q117Q217Q317Q418Q118Q218Q318Q419Q119Q219Q319Q420Q120Q220Q320Q421Q121Q221Q321Q422Q122Q222Q322Q423Q123Q2200%180%160%140%120%100%80%60%40%20%0%-20%開源:對于廠商來說,開源更多是戰(zhàn)略選擇而非被迫轉型通過提供開源版本的產品,廠商可以迅速擴大其市場份額,吸引更多的用戶。這開源模式鼓勵社區(qū)的參與,這意味著廠商可以利用全球范圍內的速了產品的開發(fā)和改進且避免“重復造輪子”開源有助于建立行業(yè)標準,從而吸引更多的通過開源某些關鍵技術或平臺,廠商可以策略性減少競爭,開源項目通常吸引了大量的開發(fā)者和貢獻者。這為廠商提供相比國內,海外企業(yè)多采用多云策略,因此云廠商戰(zhàn)略重心集中?避免供應商鎖定:企業(yè)不想被單一廠商鎖定,可以?風險分散:使用多云服務分散風險,確保當一個服?滿足特定需求:不同的云服務提供商可能在某些特?合規(guī)性和數據主權:在某些地區(qū)或行業(yè),數據可能有軟件都是以嵌入硬件銷售的方式體現價值)CPU)開源:增值功能+技術支持模式?額外還有服務收費,比如數據維護服務、更新、安全補丁、技術支持等云托管模式(MongoDB)相比其他類型數據庫,向量數據庫更擅長進行大數據量和多數據類型的快速檢索向量數據庫關系型數據庫非結構化數據庫數據存儲專為高維向量數據優(yōu)化結構化數據存儲靈活數據模型,支持非結構化和半結構化數據查詢效率高效的相似性搜索和語成熟的查詢語言(SQL),通常支持簡單的查詢,義搜索適合結構化查詢適合大數據分析擴展性通常支持水平擴展,適有些支持水平擴展,但高度的水平擴展能力,合大規(guī)模數據更多的是垂直擴展適合大數據環(huán)境數據模型通常為高維向量嚴格的模式和完整性約束靈活的數據模型,無需預定義模式事務支持一般不支持或支持有限完全支持事務通常不支持或支持有限應用場景推薦系統、圖像/聲音搜金融系統、企業(yè)資源計社交媒體平臺、大數據索、語義文本搜索劃、客戶關系管理分析、物聯網數據存儲通常較新,但正在迅速發(fā)展非常成熟,有多年的發(fā)展歷史通常較新,但在大數據和云計算領域有快速的發(fā)展所有數據格式均可以轉換成高維向量,通過向量相似性比較進行?向量數據是一種數學表達形式,它由一組有序的數值組成,這些數值可以表示空間中的一個點、一個方向或者一個速度等。在向量數據中,每個數值都有其特定的?通過計算兩個向量之間的距離或夾角,我們可以得到這兩個向量的相似性。這個特性在很多應用中都非常有用,例如在推薦系統中,我們可以通過計算用戶的興趣向量和商品性,來推薦用戶可能感興趣的商品。越相似的向量在?定性判斷向量化數據量大?。阂曨l>音頻≥文檔語義搜索不僅是匹配關鍵字,而是試圖理解真正意圖,帶來更準確、更有上下文的搜索結果向量數據庫廠商主要提供向量化工具、向量和源數據的鍵值對存儲和查詢?鍵值對存儲:同時存儲向量和源數據向量數據庫技術原理開源通用,用戶側對于技術差異的感知并不明顯,更多比拼生態(tài)社區(qū)、服務等軟性能力?召回率:指的是有多少個不同形式、不同提是召回率最高的,能做到60%以上,一般開源的word2vector模型只能做到30%-40%?從用戶感受上,細化向量化工具的維度在確性做到98%還是99%基本在使用上沒什?是否支持一些查詢的索引類型,比如歐式距?技術原理基本通用,現在門檻沒那么高?向量數據庫所提供的向量化工具、向量比對能力是不具備技術層面硬壁壘的,技術原理基本通用且開源,比如向量化工具基本可以在GitHub上下載源代碼?國內廠商從團隊啟動,人員規(guī)模不過百,可以平移NoSQL團隊過來,基本三個月就可以出產品?廠商核心差異在于開源生態(tài)社區(qū):海外開源的起家都在于開源社區(qū)綁定了大量的程序員。像MongoDB、MySQL這些廠商,初級開發(fā)者、剛畢業(yè)的大學生這類群體,基本都比較通用,在大學課程里就包含這些廠商的知識。大量開發(fā)者會支持后續(xù)的產品迭代。MongoDB在傳統NoSQL領域所有測試任務中占主導地位;DB-Engine則側重品牌認知的排名DB-DB-Engine向量數據庫榜單(MTEB)。MTEB涵蓋8個嵌入任務,涵蓋總共58個數據集和112種語言。通過對MTEB上33個模型的基DB-Engine的分數計算方法生成式AI的出現驅動向量數據庫發(fā)展,軟件應用均需要借助向量數據庫進行相似性搜索,進而生成更精準回答互的指令,例如“我想預訂酒店”GPT模型能力為“預訂酒店”與服務的API通信、數據傳遞、認訂服務的API來發(fā)送預訂請求大模型的應用場景中,無論C/B端,只要涉及到個性化、專業(yè)化場景,均需要應用到向量數據庫C端B端訓練不管C/B端推理場景,多輪對話場景必須要用到向量數據庫以保存對話內容,在未來隨著生成式AI將大規(guī)模落地,作為剛需配套的向量數據庫賽道將迎來加速,目前國內外市場均處在較早期階段,市場競爭格局極分散廠商有Milvus、Pinecone(為ChatGPT提供向量數據庫)等;傳統非結構化數據庫廠商如MongoDB也在今廠如阿里、騰訊、華為等均具備向量數據庫產品以補全自C端訓練場景中,不需要對原數據集進行保存,形成的知識會以參數文件的形式進行存儲,因此不需要向量數據庫提供教材,喂數據機器學習、深度學習形成知識儲存在神經網絡訓練大模型時,不斷把知識放進去增加模型的維度和參數,然后擬合成模型原有訓練數據集的2%以上,才會愿意用微調的方式,增加的數據太少對通用大模型造不成影響。微調也有兩種方式,可以選擇全參數調整也可以選擇凍結一部分參數進行調整。這種方式都B端訓練場景中,企業(yè)內部知識數據會存儲在向量數據庫中,用來提升大模型的回答精確度B端“嵌入”訓練B端“嵌入”訓練2)限制大模型泛化能力來提升問答準確度:比如銀行智能客服場景,開卡、提額度等案唯一的。當客戶提出問題,優(yōu)先去向量數據庫搜索唯一的答案,然后C/B端推理場景中,多輪對話場景必須要用到向量數據庫,且數據庫用量會隨著對話數據量同向增長C端推理場景C端推理場景本都需要向量數據庫來存儲每一個用戶的上下文回答,以便能讓大模型越個用戶。因為每一個用戶長期的提問數據是不能內化到大語言模型里的,要一個地方去存儲這些數據,這個就是通過向量數據?C端場景可能會更強調對于多輪對話的長期存儲,數據量增長會推動向量數據庫需求增長。相當于每個C端用戶在通過多輪對話的方式去訓練專屬于自己的個人助理,可以了解健身數據、飲食數據等個人習慣和偏好,這樣大模以C端場景會更希望多輪對話的信息可以長期存儲,這些數據量的增長會推動向量數B端推理場景B端推理場景要調用向量數據庫進行回答)關系型數據庫市場規(guī)模大幾百億美元;受到生成式AI驅動的向量數據庫應用場景更多,潛在市場空間將超過關系型數據庫非關系型數據庫關系型數據庫關系型數據庫798億美元,CAGR3.5%,Oracle、MySQL、SQLServer等都是關系型數據庫,數據庫搜索數據庫數據庫數據庫數據庫數據庫數據庫?關系型數據庫遵循ACID規(guī)則。主要集中在強一致性場景,比如銀行交易、零售電商、車票預訂等?非關系型數據庫放寬或取消了一些ACID的規(guī)則以達到更好的性能和更大的靈活性,擴展性和并發(fā)用等)相比于關系型數據庫的應用場景(核心業(yè)務數據完整),價值更低,因此企業(yè)更傾向于開源免費的非關系型數據庫,導致海外市場不同背景廠商以不同商業(yè)模式切入向量數據庫賽道中國市場云廠商將向量數據庫作為云服務矩陣中的一個SKU提供給客戶以提升全面服務能力MongoDB順應NoSQL和大數據需求誕生,培養(yǎng)生態(tài)社區(qū)逐步實現技術支持+云托管模式的商業(yè)化MongoDBMongoDB發(fā)展歷程開發(fā)出MongoDB雛形API訪問的文檔數據庫MongoDB推出了Atlas服商合作,MongoDB自MongoDB推出ACID事持強事務的NoSQL數據庫MongoDB開始提供MongoDB的商業(yè)付費↓MongoDB。發(fā)布MongoDB企業(yè)版MongoDB上線第一個源社區(qū)和MongoDB大MongoDB下載次數達?MongoDB有別于當時其他的數據庫產品,使用和安裝都非常方便,在代碼中通過API就可以操作數?10gen一直通過開源社區(qū)和MongoDB大學擴大影響力,吸引程序員入駐社區(qū),在社區(qū)按照不同地區(qū)上將MongoDB宣傳成程序員必備技能之一,掌握好這門技術,不愁找不到工作。同時還和很多在線教育網站合作開展MongoDB的培訓課程,從2012年起開始提供付費技術支持互聯網內容服務推動大型數據庫應用,MongoDB早期版本提供大規(guī)模數據處理、分片集群(水平擴展能力)等功能MongoDBMongoDB產品演進?在關系型數據庫中,當數據量達到一定程度,單個節(jié)點服務器資源充分飽和無法保證及時的服務響應時間時,通常會采用分區(qū)分表的數據庫優(yōu)化方案。但是這些方案都是侵?2010年推出具有分片集群的1.6版本,在水平伸縮能力上要強于傳統關系型數據庫。MongoDB的自動分片,可以在一個集群的幾個分片服務器內自動進行數據的分布和均衡。在盡分布到多個存儲節(jié)點的同時,為應用開發(fā)者提供無縫的體驗。開發(fā)者無須關心數MongoDB補足功能以適應全業(yè)務場景,同時簡單易用MongoDBMongoDB產品演進?3.2版本中增加了操作符:$lookup,意味著作為NoSQL數據庫,MongoDB開始支持關系型數據庫的核心功能:關聯。從3.2開始,可以一次同時查詢多個MongoDB的集合(表),不用像以前那樣,如果有多表查詢需要在代碼中發(fā)起多個數據庫查詢,然后在內存中?2018年推出4.0版本具備多文檔ACID強事務機制,之前MongoDB對事務的支持僅限于單文檔內。無法保證原子性和出錯回滾機制,很多交易性的業(yè)務會有意避開MongoDB。而隨著4.0的發(fā)布,MongoDB可以用來支撐幾乎所有的業(yè)務場景?2020年推出的4.4版本解壓縮之后僅3個可執(zhí)MongoDB部署,都只需要這幾個組件):1)mongo:MongoDB與服務器發(fā)生交互;2)mongod:運行MongoDB的主文件,可以作為單個數據庫實例、分片集群的成員或分片集群的配置服務器運行;3)mongos:一個路由器應用程序,用在具有水平伸縮能力收購補全MongoDB能力并加深和開發(fā)者社群關系MongoDB歷次收購提高了MongoDB在高寫入量工作負載下的性能。WiredTiger還為MongoDB帶來了壓縮、記錄級鎖定、多版本并發(fā)控制(MVCC)、多文檔事務以及對非常高插入工作負載的日志結構合并樹(LSMmLabDBaaSmLab目前在其平臺上擁有大約100萬個托管數據庫,包括免費和付費層。這次收購將加深MongoDB與以開發(fā)者為中心的初創(chuàng)公司社群的關系,并有助于MongoDBAtlas的快速擴張Realm這次收購加強了MongoDB與專注于移動和無服務器開發(fā)的開發(fā)者社群的關系。Realm擁有超過10萬名活躍開發(fā)者,其解決方案已被下載超過20億次。這次收購與MongoDB全球云數據庫Atlas以及無服務MongoDB產品版本CloudManagerPremium和OpsManager管理工具,允許運營團隊運行、管理和配置MongoDB,包括能夠對大約100個系統指標進行監(jiān)控和報警,備份數據并將其恢復到任何時間點以進行災難恢復,以及自動執(zhí)分析師可以使用其MongoDBConnectorforBI產品,其中包括其最新發(fā)布Hadoop提供開源連接器,這些產品經常用于數據分析提供了一個彈性的、可管理的產品,包括自動配置和愈合、全面控、可管理的備份和恢復、默認安全等功能。MongoDBAtlas讓客戶從管理數據庫和相關底層基礎設施的復雜性中解脫出來,從而可以和終端用戶體驗,并創(chuàng)新服務自己的客戶,把握新包含開發(fā)人員使用MongoDB所需的核心功能。使用MongoDBAtlas直接從社區(qū)版獲得收入,并通過向上銷售用戶到其企業(yè)高級訂閱MongoDB可以適應不同行業(yè)的不同用例MongoDBMongoDB不同行業(yè)客戶MongoDBMongoDB不同用例MongoDB在2016年推出Atlas向云數據庫轉型據庫服務器和企業(yè)管理功能,使用戶可以完全掌控自管理的MongoDB環(huán)境的管理和安全性?MongoDBAtlas:是一個多云開發(fā)者數據平臺,主要為用戶提供云端的數據庫服務,使得用戶可以更加方便地使用和管理MongoDB商業(yè)模式仍為訂閱?報價按照服務器硬件性能報價(幾核CPU)?客戶可以選擇其CloudManagerPremium產品(適用于希望通過云端管理其平臺的客戶)或OpsManager(適用于內部部署的客戶)?價格包含云基礎設施費用,數據庫廠商再與云廠商結算Atlas客戶數占總客戶數90%以上,收入占比快速提升至65%,跨多云數據庫優(yōu)能力顯現54321029%27%23%25%29%27%23%25%23%23%30%20%10%0%FY22Q2FY22Q4FY23Q2FY23Q4FY24Q2?頭部百大客戶中,47%的企業(yè)客戶中,8成MongoDB的采購是Atlas,驗證海外企業(yè)“多客戶將工作負載從傳統關系型數據庫遷移至MongoDB,帶來客戶數和單客戶ARR共同增長MongoDB遷移工具MongoDB遷移工具?MongoDB自身提供專業(yè)的咨詢和咨詢服務以?MongoDB大學提供相關遷移工具的課程250020005000MongoDB持續(xù)推動客戶數增長,成長空間巨大250020005000MongoDBMongoDB用戶數(萬家)54321050%51%345%40%26%28%26%24%22%22%7050%51%345%40%26%28%26%24%22%22%7055FY22Q2FY22Q4FY23Q2FY23Q4FY24Q260%50%40%30%20%10%0%直銷收入占比直銷收入占比90%85%80%75%70%84%直銷客戶是指通過直銷團隊84%直銷客戶是指通過直銷團隊和渠道合作伙伴銷售的客戶88%88%88%87%87%86%86%85%FY22Q2FY22Q4FY23Q2FY23Q4FY24Q269%39439431%46%48%31%46%18%FY18FY19FY20FY21FY22FY2350050060%30030040%20020020%0財富1000財富100財富500財富2000ARR>$1m客戶數(家)MongoDB引導客戶將更多負載遷移,以此推動單客戶ARR>$1m客戶數(家)25020050048%30%21367%48%30%21367%58%FY19FY20FY21FY22FY2370%60%50%40%30%20%10%0%MongoDBMongoDB客戶三年ARR擴張情況ARR>$100k客戶數(ARR>$100k客戶數(家)500030%29%28%27%26%27%FY22Q2FY22Q4FY23Q2FY23Q4FY24Q231%30%29%28%27%26%25%24%250%200%150%100% 50%0%ARR>$100k客戶ARR>$1m客戶平均ARR100%100%250%200%150%100% 50%0%ARR>$100k客戶ARR>$1m客戶平均ARR100%100%100%195%200%211%MongoDB目前僅占1.8%和1.7%第一年第三年?NetARRExpansion第一年第三年生成式AI的出現在需求側和供給側共同給MongoDB帶來正向的增C端B端訓練訓練不需要對原數據集進行保存,形成的知識會以參數文件的形式進行存儲,想要調用大模型可通過一段Python代碼讀取參數文件即可企業(yè)內部應用多采用嵌入而非微調的方式以節(jié)省成本,內部知識數據會存儲在向量數據庫中,供通用/行業(yè)大模型進行調用以與企業(yè)用戶交互推理不管C/B端推理場景,多輪對話場景必須要用到向量數據庫以保存對話內容,在未來重新開啟對話時才會有“記憶”。數據庫用量會隨著對話數據量同向增長SQL查詢轉換?從連接的關系數據庫中導入存儲過程和嵌入式SQL查詢?遷移工具使用生成式AI將這些轉換為MongoDB查詢?根據在遷移工具中設計的架構創(chuàng)建MongoDB查詢評估:搜索并理解代碼庫,以了解重構應用程序所涉及代碼轉換:建議應用程序代碼與應用程序架構建議一限度地利用MongoDB測試:驗證轉換后的應用程序在MongoDB上的表現是否符合預期紅色為部署流程①將各種源數據(文本、代碼、圖片或視頻等)轉成向量數據(市面上有很多向量化處理工具)②“嵌入”向量數據并存儲源數據,向量數據和源數據類似鍵值對,一一對應存儲③構建對應的提示工程黃色為使用流程①在應用端進行自然語言提問(LangChain技術框架會做規(guī)則判斷和邏輯編排,判定是否需要調用向量數據庫進行回答)②若不需要,則直接由大模型回答或進行互聯網搜索回答;若需要用到內部知識,則向量化工具將提問向量化③在向量數據庫中進行向量相似性搜索④找到對應的內部知識源數據作為論據支撐⑤反饋到大模型進行生成式回答具體應用場景?索引文本/圖像/聲音/視頻、通過專有的增量數據增強基礎LLMs并減少幻覺、問答系統、改進的推薦和相關性評分、動態(tài)個性化、對話式支持、同義詞生成等MongoDB全訂閱收入,營收增速中樞在40%,經營性現金流比例改善明顯,公司指引長期Non-GAAPOPMargin20%+MongoDBMongoDB訂閱業(yè)務營收(億美元)8642040%29%Imm訂閱營收yoy——訂閱占比40%29%I92%93%95%96%96%96%96%97%92%76%61%41%49%47%41%FY18FY19FY20FY21FY22FY23FY24Q1FY24Q2100%80%60%40%20%0%MongoDBMongoDB毛利率整體毛利率——訂閱——服務100% 80% 60% 40% 20% 0%-20%100% 80% 60% 40% 20% 0%-20%-40%-60%FY15FY17FY19FY21FY23FY24Q2MongoDBMongoDB經營性現金流比例10% 0%-10%-20%-30%-40%-50%-60%——10% 0%-10%-20%-30%-40%-50%-60%5%1%-4% -13%-27% -20%-27%-38%-37%-35%-35%-33%-51%FY18FY19FY20FY21FY22FY23 MongoDB費用率100% 50% 0% -50%-100%%%%%-9%毛利率100% 50% 0% -50%-100%%%%%-9%FY17FY19FY21FY23FY24Q2MongoDB連續(xù)兩季度超預期,并上調全年收入指引FY24Q1收入和客戶數超預期,上調全年預期?本季度公司實現營業(yè)收入3.68億美元(+29%),超出華爾街預期的3.47億美元元,訂閱收入為3.547億美元,同比增長29%,Atlas收入增長40%;客戶數達到43,100個,超出華?業(yè)績展望:預計全年實現收入15.22-15.42億美元FY24Q2收入超預期,上調全年預期?本季度公司實現營業(yè)收入4.24億美元(+40%),大幅超出此前3.88-3.92億美元(+28%)的指引,主要由于非Atlas業(yè)務(EA和許可授權)的強勁表現,以及略好于預期的Atlas收入表現。實現毛利率78%(+5pcts),主要由于毛利極高的EA和許可授權收入(包括阿里續(xù)簽)大幅超預期。實現Non-GAAP營業(yè)利潤7910萬美元,對應opmargin19%(+23pcts),亦大幅超出此前3600-3900萬美元的指引??蛻魯党^45,000個,環(huán)比增加1900個客戶,同比增加8,000個。其中,直銷客戶6800個,同比增加1,400個?業(yè)績展望:公司預計Q3將實現收入4-4.04億美元(+21%),實現Non-GAAP營業(yè)利潤4100-4400萬美元;預計全年實現收入15.96-16.08億美元(+26%),較此前15.22-15.42億美元顯著提升。主要反映Q3起始ARR的提升,并繼續(xù)預計Atlas的增長將受到困難宏觀環(huán)境的影響,預計用量增長將與去年Q2放緩后的平均水平相符,但在Q3有輕微的季節(jié)性收益?AI用例:向量數據庫處于預覽階段,但已經看到大型客戶的極大興趣,包括某咨詢公司允許顧問在超過150萬份專家紀要中進行語義檢索數據管理軟件市場空間千億美元,MongoDB單客戶ARR和客戶數共同提升推動增長MongoDB占客戶數據庫投入占比MongoDB占客戶數據庫投入占比IDC測算數據管理軟件市場規(guī)模(十億美元)014%15%14%13%13%10%9%5419%14%15%14%13%13%10%9%5412%12%MDB其他MDB其他98.2%98.3%20%16%MDB其他MDB其他98.2%98.3%ARRARR博客而博客而個迭代(開源UI)合并成ELK在AWS上推出服務的整套數據解決方案商業(yè)組件x-ELKStack的結合為用戶提供實時大數據分析解決方案,后期通過收購進一步補齊能力(2012)開源可插拔數據采集工具,后成為ELK開源UI,主要用于數據可視化,后成為Found(2015)基于AWS提供主機托管服務,后基于此(2017)日志系統相比主要業(yè)務系統對業(yè)務影響不大。ELK構成了最基礎的實時大數據分析?最初合并之時,三大產品的工程師團隊各自為戰(zhàn),導致版本發(fā)布、兼容十分混亂:“如果想使用的整套數據解決方案客戶可以部署內部工作區(qū)搜索,無縫連接到其他生產力工具、CRM、云存儲平臺、協作工具、操作管理平臺和內容管理系統,可以從更多的來源攝指標攝取、搜索、可視化和分析來自IT系統的數字和時間序列數APMAPM提供了對代碼級別應用程序性能的洞察。開發(fā)人員可以對應用程序進行檢測,并看到事客戶和用戶利用合成監(jiān)控來跟蹤和監(jiān)控支持業(yè)務運營的主機、網站、服務和應安全包括對勒索軟件、惡意軟件、網絡釣魚、漏洞利用、無文件XDR當SIEM和端點安全一起部署時,它們提供了強大的安全姿態(tài)和對潛在威脅的廣泛可見性。XDR提供了一個統一的安全堆棧,保護端點、云和更廣泛的環(huán)境云安全通過豐富的云姿態(tài)可見性和對云工作負載的運最低價測算基于云生產配置,120GB存儲空間/2個區(qū)域。按實例類型使用量定價訂閱收入超90%,分為自管型本地部署訂閱和全托管云訂閱,全86420營業(yè)收入營收oy57%42%營業(yè)收入營收oy57%42%24%42%yFY19FY20FY21FY22FY23086420自管型云托管型服務自管型云托管型服務FY19FY20FY21FY22FY2350%-40%50%-40%-30%-20%-10%-占總收入比——占訂閱收入比120%100%80%60%40%20%0%0%-自管型o自管型o云托管型o服務o48%80%80%y42%12%y34%25%FY19FY20FY21FY22FY23FYFY19FY20FY21FY22FY23250002000050000客戶數和ACV價值量共同驅動增長250002000050000ACV>$100K客戶數(家)ACV>$100K客戶數(家)79%9%62%9%40%33%24%FY17FY18FY19FY2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論