酷克數(shù)據(jù)推出AI開發(fā)工具箱HashML 加速企業(yè)級AI應(yīng)用落地投產(chǎn)
近日,業(yè)界領(lǐng)先的國產(chǎn)企業(yè)級云數(shù)倉廠商酷克數(shù)據(jù)發(fā)布了下一代In-Database高級分析和數(shù)據(jù)科學(xué)工具箱HashML,在業(yè)內(nèi)率先實(shí)現(xiàn)為企業(yè)提供隨數(shù)倉部署一步到位、開箱即用的AI能力。
在數(shù)字經(jīng)濟(jì)時(shí)代,描述性分析已經(jīng)非常成熟并被企業(yè)廣泛采納。然而,受限于人才缺口和技術(shù)門檻,更高價(jià)值的預(yù)測性分析和決策性分析,目前普及度仍然相對較低。為了應(yīng)對日益激烈的市場競爭,企業(yè)IT部門迫切需要簡單易用的高級分析工具產(chǎn)品來實(shí)現(xiàn)對業(yè)務(wù)可持續(xù)健康發(fā)展的有效支撐。
圖1: 數(shù)據(jù)分析的不同層級
數(shù)據(jù)倉庫作為企業(yè)數(shù)據(jù)存儲、加工和分析的核心場所,蘊(yùn)藏著規(guī)模龐大的數(shù)據(jù)資產(chǎn)。然而,通用的模型和算法的效果往往只能達(dá)到差強(qiáng)人意的“及格線”。只有通過AI算法與應(yīng)用場景及企業(yè)自有數(shù)據(jù)緊密協(xié)同,才能充分釋放數(shù)據(jù)潛力,達(dá)到驅(qū)動業(yè)務(wù)健康發(fā)展的“優(yōu)秀線”。以HashData為代表的現(xiàn)代企業(yè)數(shù)據(jù)倉庫,為AI模型的訓(xùn)練、部署和推理提供了最佳的數(shù)據(jù)支撐平臺。
為了降低高級分析和AI技術(shù)的應(yīng)用門檻,酷克數(shù)據(jù)基于HashData打造了下一代In-Database高級分析和數(shù)據(jù)科學(xué)工具箱HashML。
HashML提供了從數(shù)據(jù)查詢處理、高級分析到機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的一站式多層次數(shù)據(jù)分析和AI能力。針對近期市場高度關(guān)注的大語言模型,HashML也提供了從高質(zhì)量數(shù)據(jù)挖掘、模型微調(diào)到模型部署和推理的全流程支持。同時(shí),基于HashData內(nèi)置的分布式并行向量數(shù)據(jù)存儲、索引及檢索功能,HashML提供了向量知識庫的構(gòu)建和檢索能力,使得知識增強(qiáng)的大語言模型應(yīng)用開發(fā)變得更加簡單。
HashML繼承了HashData的云原生優(yōu)勢,從模型訓(xùn)練到模型部署都可以做到按需彈性伸縮。同時(shí),HashML也提供了Python和SQL兩種語言支持,無論是數(shù)據(jù)科學(xué)社區(qū)的Python用戶,還是數(shù)據(jù)庫社區(qū)的SQL用戶,都可以低門檻地上手使用。
圖2:HashML主要功能概覽
HashML擁有以下三大產(chǎn)品特色:
·簡單易用:可隨HashData數(shù)據(jù)倉庫一起安裝部署,做到開箱即用,同時(shí)所有模塊API的設(shè)計(jì),都力求標(biāo)準(zhǔn)化,與數(shù)據(jù)科學(xué)社區(qū)流行的第三方庫保持一致,最大程度保障易用性。
·性能卓越:根據(jù)任務(wù)的復(fù)雜度確定并行處理的并發(fā)度,尤其對于較為復(fù)雜的深度模型或大語言模型,可以利用多機(jī)多卡實(shí)現(xiàn)高效的訓(xùn)練和微調(diào),保障作業(yè)時(shí)效性。
·算法豐富:從傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法到常見的深度神經(jīng)網(wǎng)絡(luò),和最新的預(yù)訓(xùn)練大模型,都能提供良好的支持,同時(shí)也針對知識增強(qiáng)的大語言模型應(yīng)用,提供了向量知識庫,能夠高效支持海量語義向量數(shù)據(jù)的存儲和檢索。
簡單易用——標(biāo)準(zhǔn)化接口,低代碼開發(fā)
簡單易用是我們設(shè)計(jì)HashML時(shí)的首要目標(biāo),力求幫助企業(yè)無門檻使用各種經(jīng)典和最前沿的AI算法和模型能力,低成本解決實(shí)際業(yè)務(wù)問題。為了實(shí)現(xiàn)這個(gè)目標(biāo),HashML對編程接口做了高度抽象和標(biāo)準(zhǔn)化??蛻糁恍杈帉懮倭看a就可以完成從數(shù)據(jù)加載到數(shù)據(jù)處理、模型訓(xùn)練、模型部署和推理預(yù)測的全流程工作。例如,針對模型的訓(xùn)練和微調(diào),HashML抽象了統(tǒng)一的fit接口。不論是機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型還是大語言模型,都可以調(diào)用該接口完成模型訓(xùn)練或微調(diào)。
代碼示例1:XGBoost模型訓(xùn)練
代碼示例2:LLaMA2模型微調(diào)
為了方便SQL開發(fā)者使用AI能力,HashML還提供了SQL編程語言接口。下圖顯示了如何通過執(zhí)行SQL語句完成XGBoost模型的訓(xùn)練。
代碼示例3:HashML SQL接口
性能卓越——多機(jī)多卡,彈性伸縮
基于HashData強(qiáng)大的集群資源管理能力,HashML可以根據(jù)算法復(fù)雜度、數(shù)據(jù)量大小、訪問負(fù)載等因素按需分配所需計(jì)算資源,為模型訓(xùn)練、部署和推理提供靈活的計(jì)算環(huán)境。
分布式并行數(shù)據(jù)處理
HashML定義了數(shù)據(jù)模塊,可以幫助開發(fā)者高效地完成數(shù)據(jù)讀寫、數(shù)據(jù)分析、數(shù)據(jù)處理等各種功能。這些功能對于開發(fā)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)模型至關(guān)重要,可以高效快捷地完成數(shù)據(jù)清洗、特征提取、特征變換、樣本生成等一系列任務(wù)。基于封裝良好的編程接口,用戶只需要關(guān)注數(shù)據(jù)處理邏輯的實(shí)現(xiàn),僅需少量的代碼開發(fā),計(jì)算過程就可以由HashData計(jì)算引擎以分布式并行處理的方式高效完成。
分布式并行模型訓(xùn)練
HashML提供了分布式并行模型訓(xùn)練能力,可以按需將模型訓(xùn)練任務(wù)分配給多個(gè)Worker執(zhí)行,同時(shí)可以為每個(gè)Worker指定所需計(jì)算資源(包括CPU核數(shù)和GPU卡數(shù))。對于大多數(shù)常見的訓(xùn)練任務(wù),數(shù)據(jù)并行就足以高效完成模型訓(xùn)練。對于參數(shù)規(guī)模龐大的大語言模型,我們在數(shù)據(jù)并行的基礎(chǔ)上,利用DeepSpeed和Accelerate實(shí)現(xiàn)模型并行。另外,得益于HashData對計(jì)算資源的統(tǒng)一管理,用戶無需費(fèi)心訓(xùn)練作業(yè)具體是在哪些機(jī)器上執(zhí)行,運(yùn)維工作大幅簡化。
彈性可伸縮服務(wù)部署
HashML提供了彈性可伸縮的模型部署和在線推理功能,旨在簡化模型的部署并根據(jù)服務(wù)負(fù)載動態(tài)調(diào)整模型實(shí)例的數(shù)量。除了支持單個(gè)模型的彈性部署,HashML還支持多個(gè)模型的組合部署,這對于需要調(diào)用多個(gè)模型完成一個(gè)業(yè)務(wù)請求的場景非常有用。用戶可以在服務(wù)端完成復(fù)雜業(yè)務(wù)邏輯的開發(fā),客戶端只需要與服務(wù)端進(jìn)行一次交互就能獲得最終的結(jié)果,不僅大幅簡化了業(yè)務(wù)開發(fā),同時(shí)提高了端到端服務(wù)的時(shí)效性。
算法豐富——機(jī)器學(xué)習(xí)深度學(xué)習(xí)全覆蓋,前沿算法快速追蹤
HashML的另一特色就是算法種類豐富,從經(jīng)典的統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法,到知名的深度學(xué)習(xí)算法,都提供了很好的支持。同時(shí),通過密切追蹤技術(shù)發(fā)展動態(tài)并根據(jù)市場需求,HashML也會及時(shí)引入前沿算法。例如,針對當(dāng)前非常熱門的大語言模型,HashML通過融合業(yè)界主流的開源大語言模型,提供了一套完整的大語言模型應(yīng)用開發(fā)框架,可以低成本、快速地完成從高質(zhì)量數(shù)據(jù)挖掘、模型微調(diào)到智能應(yīng)用開發(fā)的全流程工作。
機(jī)器學(xué)習(xí)與深度學(xué)習(xí)
為了滿足各種應(yīng)用場景,HashML內(nèi)置了對經(jīng)典機(jī)器學(xué)習(xí)算法的支持,如Logistic Regression、Random Forest、SVM、XGBoost、LightGBM等,還通過支持主流的深度學(xué)習(xí)框架(如PyTorch),能夠支持各種深度學(xué)習(xí)算法。另外,HashML也允許用戶根據(jù)需要定制開發(fā)新算法。通過對算法開發(fā)框架精心封裝,使得用戶在充分理解算法原理的基礎(chǔ)上,只需關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)的定義和實(shí)現(xiàn),用少量代碼就能完成新算法的開發(fā)和引入。新算法開發(fā)完成后,可以自動具備HashML所提供的分布式并行訓(xùn)練和推理能力。
代碼示例4:自定義神經(jīng)網(wǎng)絡(luò)
大語言模型
ChatGPT的問世使得大語言模型成為了當(dāng)前最受關(guān)注的研究熱點(diǎn)。大語言模型技術(shù)的產(chǎn)生與發(fā)展不僅重塑了人工智能發(fā)展的技術(shù)路線,還在很大程度上改變了AI技術(shù)在企業(yè)的應(yīng)用范式。HashML順應(yīng)技術(shù)趨勢,提供了對大語言模型的支持,包括模型微調(diào)以及知識增強(qiáng)的大語言模型應(yīng)用開發(fā)。HashML對當(dāng)前業(yè)界主流的開源大語言模型都提供了支持,包括ChatGLM、Baichuan、LLaMA-2、Qwen等?;贖ashML,可以非常方便地實(shí)現(xiàn)百億級參數(shù)大語言模型的私有化部署,并在客戶私有環(huán)境實(shí)現(xiàn)模型微調(diào)和智能應(yīng)用開發(fā)。
圖3: 日益繁榮的開源大語言模型生態(tài)
應(yīng)用案例:HashML助力大語言模型在企業(yè)落地應(yīng)用
ReQA: 檢索增強(qiáng)的智能問答
大語言模型使用了大量的文本進(jìn)行訓(xùn)練從而使人機(jī)對話更加智能,但對于特定領(lǐng)域的知識,大語言模型卻顯得捉襟見肘?;贖ashML和大語言模型,可以快速搭建基于向量知識庫的檢索增強(qiáng)的智能問答系統(tǒng)(ReQA)。在ReQA中,企業(yè)通過調(diào)用本地部署的Embedding服務(wù)將自有的知識庫(包括管理制度、產(chǎn)品手冊、技術(shù)手冊、運(yùn)維手冊、工作規(guī)范、流程記錄、FAQ等)進(jìn)行向量化,并存放到HashData形成向量知識庫。當(dāng)回答用戶提問時(shí),通過檢索向量知識庫獲得相關(guān)信息,作為上下文和問題一起提交給大語言模型,這樣大語言模型就能夠生成精準(zhǔn)的回答,從而有效解決困擾大語言模型的生成“幻覺”問題。ReQA在企業(yè)有著非常廣泛的應(yīng)用場景,包括智能客服、銷售助手、文檔閱讀助手等。
圖4:檢索增強(qiáng)的智能問答實(shí)現(xiàn)方案
示范應(yīng)用1:檢索增強(qiáng)的智能問答系統(tǒng)
ChatData:基于自然語言的交互式數(shù)據(jù)查詢分析
雖然SQL是一種普遍使用的數(shù)據(jù)庫查詢語言,但對許多企業(yè)員工來說卻是一道難以逾越的門檻,這無疑限制了業(yè)務(wù)部門直接處理數(shù)據(jù)。針對這個(gè)問題,我們基于HashML和大語言模型開發(fā)了ChatData,使得企業(yè)每個(gè)員工可以無門檻地使用自然語言與權(quán)限范圍內(nèi)的數(shù)據(jù)庫進(jìn)行交互。ChatData大大降低了數(shù)據(jù)分析和應(yīng)用的門檻,有利于充分地釋放企業(yè)數(shù)據(jù)價(jià)值。在ChatData中,首先利用大量高質(zhì)量的<查詢指令,SQL語句>數(shù)據(jù)對大語言模型進(jìn)行微調(diào),使之能夠準(zhǔn)確地將自然語言表達(dá)的用戶查詢意圖轉(zhuǎn)換為正確合法的SQL語句,系統(tǒng)通過執(zhí)行生成的SQL語句完成數(shù)據(jù)查詢并返回結(jié)果。在此基礎(chǔ)上用戶還可以通過自然語言和系統(tǒng)進(jìn)行交互,實(shí)現(xiàn)對查詢結(jié)果的可視化。
圖5:基于自然語言的交互式數(shù)據(jù)查詢分析實(shí)現(xiàn)方案
示范應(yīng)用2:基于自然語言的交互式數(shù)據(jù)查詢分析系統(tǒng)
Data+AI 助力企業(yè)數(shù)智化升級
新一代人工智能技術(shù)正在加速企業(yè)數(shù)字化、智能化進(jìn)程,長遠(yuǎn)來看,將對企業(yè)的研發(fā)、生產(chǎn)、經(jīng)營帶來深遠(yuǎn)影響。企業(yè)需要逐場景深入打磨,讓AI計(jì)算貼近應(yīng)用場景、貼近企業(yè)數(shù)據(jù)資產(chǎn),才能實(shí)現(xiàn)更好的AI落地??峥藬?shù)據(jù)打造的下一代高級分析和數(shù)據(jù)科學(xué)工具箱HashML,致力于大幅降低AI技術(shù)的應(yīng)用門檻,為數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師、AI應(yīng)用開發(fā)者使用先進(jìn)的AI技術(shù)提供便利。我們希望以企業(yè)數(shù)據(jù)倉庫為依托,結(jié)合前沿的AI技術(shù),幫助用戶以低成本快速試錯(cuò),迭代發(fā)掘高價(jià)值應(yīng)用場景,推動AI技術(shù)在企業(yè)規(guī)?;涞?,產(chǎn)生真正的業(yè)務(wù)價(jià)值。未來,我們將持續(xù)迭代完善產(chǎn)品,將HashData打造成強(qiáng)大的企業(yè)級數(shù)據(jù)和AI基礎(chǔ)設(shè)施,助力千行百業(yè)通過分析與智能實(shí)現(xiàn)業(yè)務(wù)價(jià)值!