黄色一级大片视频-黄色一级毛片看一级毛片-黄色一级毛片网站-黄色一级毛片在线观看-免费国产h视频在线观看-免费黄色大片视频

電話咨詢 在線咨詢 產(chǎn)品定制
電話咨詢 在線咨詢 產(chǎn)品定制
010-68321050

積極打造高性能大模型算力集群,加快構(gòu)建高質(zhì)量數(shù)據(jù)集!

五度易鏈 2024-07-29 3306 0

專屬客服號

微信訂閱號

大數(shù)據(jù)治理

全面提升數(shù)據(jù)價(jià)值

賦能業(yè)務(wù)提質(zhì)增效

人工智能作為引領(lǐng)新一輪科技產(chǎn)業(yè)革命的戰(zhàn)略性技術(shù)和新質(zhì)生產(chǎn)力重要驅(qū)動力,正在引發(fā)經(jīng)濟(jì)、社會、文化等領(lǐng)域的變革和重塑。2023年以來,以ChatGPT、GPT-4為代表的大模型技術(shù)因其強(qiáng)大的內(nèi)容生成及多輪對話能力,引發(fā)全球新一輪人工智能創(chuàng)新熱潮,隨著技術(shù)演進(jìn)、產(chǎn)品迭代的日新月異,大模型正在成為科技產(chǎn)業(yè)發(fā)展強(qiáng)勁動能。

  大模型對數(shù)據(jù)數(shù)量和質(zhì)量提出新要求

  人工智能大語言模型的訓(xùn)練需要強(qiáng)大的高性能算力和海量訓(xùn)練數(shù)據(jù)供應(yīng),從行業(yè)發(fā)展前沿趨勢來看,大模型訓(xùn)練使用的數(shù)據(jù)集規(guī)模呈現(xiàn)爆發(fā)式的持續(xù)增長。據(jù)工業(yè)和信息化部賽迪研究院發(fā)布的研究報(bào)告預(yù)測,到2024年年底我國將有5%~8%的企業(yè)大模型參數(shù)從千億級躍升至萬億級,算力需求增速會達(dá)到320%。

  公開資料顯示,2018年GPT-1數(shù)據(jù)集約4.6GB,2020年GPT-3數(shù)據(jù)集達(dá)到了753GB,而2021年Gopher數(shù)據(jù)集已達(dá)10550GB,2023年GPT-4的數(shù)據(jù)量更是GPT-3的數(shù)十倍以上。同時(shí),大模型快速迭代對訓(xùn)練數(shù)據(jù)的數(shù)據(jù)量、多樣性和更新速度方面也提出了更高的要求。

  大語言模型是基于注意力機(jī)制的預(yù)訓(xùn)練模型,足夠多的用于自監(jiān)督學(xué)習(xí)過程的基礎(chǔ)訓(xùn)練數(shù)據(jù)是大模型區(qū)別于傳統(tǒng)人工智能算法模型的主要特點(diǎn),海量數(shù)據(jù)可以為模型提供更多的學(xué)習(xí)樣本和更廣泛的知識覆蓋,有助于模型學(xué)習(xí)到更多的特征和關(guān)系。只有海量多源的數(shù)據(jù)支持預(yù)訓(xùn)練,大模型在后續(xù)的專門任務(wù)中才會表現(xiàn)出更強(qiáng)大的性能和更具啟發(fā)性的生成能力。

  數(shù)據(jù)的豐富性對大模型后續(xù)的泛化和涌現(xiàn)能力非常重要。豐富的數(shù)據(jù)可以為模型提供更多的學(xué)習(xí)場景和挑戰(zhàn),有助于模型學(xué)習(xí)到更復(fù)雜的特征和關(guān)系,從而提高其泛化能力。大模型的目標(biāo)是能夠適應(yīng)各種不同的輸入,并對未見過的數(shù)據(jù)進(jìn)行準(zhǔn)確的預(yù)測。通過使用多維度的訓(xùn)練數(shù)據(jù),模型可以學(xué)習(xí)更廣泛的上下文和語言規(guī)律,提高其泛化能力,節(jié)約資源和時(shí)間,使模型更具有實(shí)用性和可靠性。數(shù)據(jù)維度多樣性的提升能夠推動大模型從單一領(lǐng)域向多領(lǐng)域知識的躍遷,而非僅僅是數(shù)量的增加,如果是簡單的同類型數(shù)據(jù)反饋,單條數(shù)據(jù)反饋和十條同類型數(shù)據(jù)反饋雖然在數(shù)據(jù)的數(shù)量上增加了10倍,但模型的智能并沒有得到拓展和增加,因此數(shù)據(jù)維度多樣性可直接提升大模型在跨領(lǐng)域知識的理解和應(yīng)用的深度,實(shí)現(xiàn)了從單一領(lǐng)域向多領(lǐng)域知識遷移的質(zhì)變。

  數(shù)據(jù)的質(zhì)量對模型的訓(xùn)練結(jié)果至關(guān)重要。數(shù)據(jù)存在大量的噪聲、錯(cuò)誤或冗余,模型可能會學(xué)習(xí)到錯(cuò)誤的特征和關(guān)系,導(dǎo)致其性能下降。高質(zhì)量的數(shù)據(jù)可以為模型提供更準(zhǔn)確、更可靠的學(xué)習(xí)樣本,有助于模型學(xué)習(xí)到更真實(shí)的特征和關(guān)系,從而提高其性能和泛化能力。

  數(shù)據(jù)的時(shí)效性對于大模型的即時(shí)學(xué)習(xí)和適應(yīng)能力具有顯著作用。通過提高數(shù)據(jù)服務(wù)交付時(shí)效提升數(shù)據(jù)服務(wù)開發(fā)效率,實(shí)現(xiàn)大模型對新興趨勢和緊急事件的快速響應(yīng)。

  只有具備以上條件,大模型才能在訓(xùn)練過程中學(xué)習(xí)到更多的知識和規(guī)律,從而在面對新數(shù)據(jù)時(shí)表現(xiàn)出更好的性能和泛化能力。

  積極打造高性能大模型算力集群

  在當(dāng)前的數(shù)字科技領(lǐng)域,算力的發(fā)展已經(jīng)達(dá)到了萬卡級別的龐大規(guī)模,即單體智算集群擁有上萬個(gè)GPU計(jì)算節(jié)點(diǎn)。這種前所未有的強(qiáng)大算力為深度學(xué)習(xí)等復(fù)雜計(jì)算任務(wù)提供了堅(jiān)實(shí)的算力支撐。目前,我國骨干廠商正積極探索打造高性能算力集群,并通過協(xié)同優(yōu)化、工具支持等實(shí)現(xiàn)高效穩(wěn)定的大模型訓(xùn)練,提高算力使用效率。

  百度百舸2.0在計(jì)算、AI存儲、AI容器等模塊上增強(qiáng)能力、豐富功能,并發(fā)布了AI加速套件。AI加速套件通過存訓(xùn)推一體化的方式,對數(shù)據(jù)的讀取和查詢、訓(xùn)練、推理進(jìn)行加速,進(jìn)一步提升AI作業(yè)速度。為了提升集群通信效率,百度發(fā)布了彈性RDMA網(wǎng)卡,相比傳統(tǒng)專用的RDMA網(wǎng)絡(luò),彈性RDMA網(wǎng)絡(luò)和VPC網(wǎng)絡(luò)進(jìn)行了融合,使用戶的使用成本更低,同時(shí)通信延時(shí)降低了50%以上。此外,百度在萬卡集群的運(yùn)維和穩(wěn)定性方面也進(jìn)行了大量優(yōu)化工作,如通過自研的集群組網(wǎng)故障管理機(jī)制,降低了工程師在容錯(cuò)和故障恢復(fù)上的時(shí)間成本,優(yōu)秀的運(yùn)維能力和穩(wěn)定性為大模型的訓(xùn)練提供了有力的保障。

  騰訊云發(fā)布了新一代HCC高性能計(jì)算集群,用于大模型訓(xùn)練、自動駕駛、科學(xué)計(jì)算等領(lǐng)域。基于新一代集群,騰訊團(tuán)隊(duì)在同等數(shù)據(jù)集下,將萬億參數(shù)的AI大模型混元NLP訓(xùn)練由50天縮短到4天。其自研星脈高性能計(jì)算網(wǎng)絡(luò)和高性能集合通信庫TCCL,具備業(yè)界最高的3.2T RDMA通信帶寬,在搭載同等數(shù)量的GPU情況下,為大模型訓(xùn)練優(yōu)化40%負(fù)載性能,消除多個(gè)網(wǎng)絡(luò)原因?qū)е碌挠?xùn)練中斷問題。

  浪潮信息AI團(tuán)隊(duì)在2023年相繼研發(fā)了OGAI(Open GenAl Infra)大模型智算軟件棧、源2.0大模型,從軟硬協(xié)同層面去持續(xù)提升基礎(chǔ)大模型的能力,同時(shí)通過開放算力發(fā)展生態(tài)去探索可能突破的場景。OGAI面向以大模型為核心技術(shù)的生成式AI開發(fā)與應(yīng)用場景,提供從集群系統(tǒng)環(huán)境部署到算力調(diào)度保障和大模型開發(fā)管理的全棧全流程的軟件,從而降低大模型算力系統(tǒng)的使用門檻、優(yōu)化大模型的研發(fā)效率,保障大模型的生產(chǎn)與應(yīng)用。

  加快構(gòu)建高質(zhì)量數(shù)據(jù)集

  首先,深入生產(chǎn)生活場景挖掘高質(zhì)量數(shù)據(jù)集。數(shù)據(jù)是日常活動的科學(xué)記錄,人工智能之所以能夠發(fā)揮支撐和驅(qū)動數(shù)字經(jīng)濟(jì)的重要作用,本質(zhì)上在于忠實(shí)而有效地處理現(xiàn)實(shí)數(shù)據(jù)。深入生產(chǎn)生活場景中挖掘高質(zhì)量數(shù)據(jù)集,是數(shù)據(jù)驅(qū)動時(shí)代的關(guān)鍵任務(wù)。

  以明確的目標(biāo)為先導(dǎo),通過精準(zhǔn)的數(shù)據(jù)采集策略,從源頭獲取真實(shí)、全面的原始數(shù)據(jù)。在數(shù)據(jù)清洗與預(yù)處理環(huán)節(jié),要運(yùn)用專業(yè)技術(shù)和細(xì)致的分析,去除噪聲、填補(bǔ)缺失值,確保數(shù)據(jù)的準(zhǔn)確性和完整性。以制造業(yè)為例,企業(yè)可收集設(shè)備型號、維修記錄等靜態(tài)數(shù)據(jù),以及溫度、振動等實(shí)時(shí)動態(tài)數(shù)據(jù),經(jīng)過清洗和標(biāo)注后,用于訓(xùn)練預(yù)測模型。數(shù)據(jù)集的劃分同樣重要,須確保訓(xùn)練集、驗(yàn)證集和測試集的合理分布,以充分驗(yàn)證模型的性能和泛化能力。此外,數(shù)據(jù)集的文檔編寫和元數(shù)據(jù)管理也不容忽視,它們?yōu)閿?shù)據(jù)集的長期維護(hù)和更新提供了堅(jiān)實(shí)的基礎(chǔ)。

  在實(shí)際操作中需要面對數(shù)據(jù)來源的多樣性、數(shù)據(jù)質(zhì)量的參差不齊、數(shù)據(jù)采集和處理成本的高昂問題,需要制定周密的數(shù)據(jù)采集計(jì)劃,選擇合適的數(shù)據(jù)源,并運(yùn)用先進(jìn)的數(shù)據(jù)清洗和預(yù)處理技術(shù),以確保數(shù)據(jù)的準(zhǔn)確性和一致性。同時(shí),還需要注重?cái)?shù)據(jù)的時(shí)效性和動態(tài)性,及時(shí)更新和維護(hù)數(shù)據(jù)集,以適應(yīng)業(yè)務(wù)的發(fā)展和變化,從海量數(shù)據(jù)中提煉出有價(jià)值的信息,為業(yè)務(wù)決策和模型訓(xùn)練提供有力支持。同時(shí),在數(shù)據(jù)集構(gòu)建全流程過程中,人的因素同樣重要。需要組建專業(yè)的數(shù)據(jù)團(tuán)隊(duì),具備深厚的數(shù)據(jù)分析能力和豐富的業(yè)務(wù)知識,能夠深入理解業(yè)務(wù)需求,從海量數(shù)據(jù)中挖掘出有價(jià)值的信息。與此同時(shí),還需要建立科學(xué)的數(shù)據(jù)管理制度和流程,確保數(shù)據(jù)的安全性和隱私性,防止數(shù)據(jù)泄露和濫用。能夠反映生產(chǎn)生活實(shí)際中深層次現(xiàn)實(shí)規(guī)律的數(shù)據(jù)是具有天然價(jià)值的,而對其進(jìn)行科學(xué)的加工和處理則使其具備了工程上的利用價(jià)值,需要專門的團(tuán)隊(duì)以科學(xué)的態(tài)度、專業(yè)的能力和嚴(yán)謹(jǐn)?shù)木瘢粩嗵剿骱蛯?shí)踐。

  其次,利用人工智能技術(shù)構(gòu)建高質(zhì)量數(shù)據(jù)集。目前,利用現(xiàn)有人工智能技術(shù)構(gòu)建高質(zhì)量數(shù)據(jù)集仍是一項(xiàng)富有挑戰(zhàn)性和發(fā)展前景的任務(wù)。通過充分發(fā)揮人工智能技術(shù)的優(yōu)勢,可以提高數(shù)據(jù)集的準(zhǔn)確性、效率和可解釋性,為人工智能應(yīng)用的發(fā)展提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。

  一是借助人工智技術(shù)的自動標(biāo)注工具正在成為基礎(chǔ)數(shù)據(jù)服務(wù)商和Al算法公司降低成本和提高效率的利器。首先,通過自然語言處理和機(jī)器學(xué)習(xí)技術(shù),可以對大量的文本、圖像、音頻等數(shù)據(jù)進(jìn)行自動標(biāo)注和分類,從而快速生成帶有標(biāo)簽的數(shù)據(jù)集。這種方法可以大大減少人工標(biāo)注的成本和時(shí)間,同時(shí)提高標(biāo)注的準(zhǔn)確性和一致性。其次,人工智能技術(shù)還可以幫助進(jìn)行數(shù)據(jù)清洗和預(yù)處理。利用數(shù)據(jù)清洗算法和異常檢測模型,可以自動識別和修正數(shù)據(jù)中的錯(cuò)誤、噪聲和異常值,確保數(shù)據(jù)的準(zhǔn)確性和可靠性。同時(shí),通過數(shù)據(jù)增強(qiáng)技術(shù),可以在不增加實(shí)際數(shù)據(jù)量的情況下,擴(kuò)充數(shù)據(jù)集的多樣性和泛化能力。此外,人工智能技術(shù)還可以支持?jǐn)?shù)據(jù)集的動態(tài)更新和維護(hù)。通過監(jiān)控?cái)?shù)據(jù)源的變化和引入新的數(shù)據(jù),可以及時(shí)發(fā)現(xiàn)和更新數(shù)據(jù)集中的過時(shí)信息,保持?jǐn)?shù)據(jù)集的時(shí)效性和準(zhǔn)確性。另外,利用自動化測試和驗(yàn)證技術(shù),可以確保數(shù)據(jù)集的質(zhì)量和性能在更新過程中得到保障。

  二是利用現(xiàn)有大模型批量構(gòu)建高質(zhì)量數(shù)據(jù)。大語言模型憑借強(qiáng)大的上下文學(xué)習(xí)能力可以從示例樣本和原始素材中快速構(gòu)建出高質(zhì)量的指令-輸出對,形成種類多樣、內(nèi)容翔實(shí)的指令微調(diào)數(shù)據(jù)集,有力地提升了指令數(shù)據(jù)的數(shù)量、質(zhì)量和可控性,基于這些指令數(shù)據(jù)微調(diào)后的模型,其性能表現(xiàn)也得到了大幅增強(qiáng)。

  作者:中國軟件評測中心 楊璨 莊金鑫 范振銳  來源:中國電子報(bào)、電子信息產(chǎn)業(yè)網(wǎng)

本文為本網(wǎng)轉(zhuǎn)載,出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,如涉及侵權(quán),請權(quán)利人與本站聯(lián)系,本站經(jīng)核實(shí)后予以修改或刪除。

產(chǎn)業(yè)專題

申請產(chǎn)品定制

請完善以下信息,我們的顧問會在1個(gè)工作日內(nèi)與您聯(lián)系,為您安排產(chǎn)品定制服務(wù)

  • *姓名

  • *手機(jī)號

  • *驗(yàn)證碼

    獲取驗(yàn)證碼
    獲取驗(yàn)證碼
  • *您的郵箱

  • *政府/園區(qū)/機(jī)構(gòu)/企業(yè)名稱

  • 您的職務(wù)

  • 備注