午夜精品久久,日韩中文在线不卡,欧美精品一区二区高清在线观看

大模型高質量語料緣何短缺？

發布時間：2024-01-21 17:44:21 2874次瀏覽

　　近期，谷歌官方發布免費開放Gemini pro等系列API(應用程序編程接口)。Gemini發布后僅一天，就有網友實測發現，谷歌的大型模型Gemini承認其使用百度“文心一言”來訓練中文訓練數據(語料)。當被問及身份和創始人時，Gemini稱自己是“百度文心大模型”，并指出其創始人為李彥宏。無獨有偶，早在2023年3月，就有消息爆出谷歌的Bard模型部分訓練數據來源于ChatGPT。

　　“對于從頭開始訓練的模型，語料短缺會在非常大程度上限制大模型發展。”近日，哈爾濱工業大學(深圳)計算機科學與技術學院教授邵睿在接受科技日報采訪時表示，“增加語料對于提升大模型能力的邊際效益正在減弱，高質量語料的缺乏正日益成為限制大模型發展的瓶頸。”

　　高質量語料短缺成為全球共性問題

　　科技部新一代人工智能發展研究中心2023年發布的《中國人工智能大模型地圖研究報告》顯示，從全球已發布的大模型數量來看，中國和美國大幅領先，占全球總數的80%以上。

　　雖然大模型發展如火如荼，但大模型高質量語料短缺已成為全球共性問題。麻省理工學院等高校研究人員預測，到2026年之前，機器學習數據集可能會耗盡所有可用的高質量語料數據。

　　大語言模型對數據供給要求極高。公開數據顯示，訓練GPT-4和Gemini Ultra大概需要4萬億至8萬億個單詞。OpenAI也公開表達過對數據告急的擔憂。

　　研究機構EpochAI亦公開表示，最早在2024年，人類就可能會陷入訓練數據荒，屆時全世界的高質量訓練數據都將面臨枯竭。

　　值得注意的是，當前大模型數據集主要為英文，如BooksCorpus、WiKipedia、Common Crawl、ROOT等，其語料短缺尚難解決，中文語料庫面臨的問題更為嚴峻。

　　中國工程院院士、鵬城實驗室主任高文曾公開表示，全球通用的50億大模型數據訓練集里，中文語料占比僅為1.3%。

　　上海數據交易所市場發展部副總經理章健此前公開表示，當前大模型行業存在語料供應不足的問題，特別在垂直細分領域，一些共享、免費下載的語料數量雖然大，質量卻不高。“我們在追求語料數量增長的同時，也要重視質量，是不是高質量的語料數據。”

　　阿里研究院在《中美大模型的競爭之路：從訓練數據講起》公開撰文稱，中文語料、科研成果等高質量數據集開放程度低，企業用于訓練的語料來源不清晰、權屬不明確，開源后存在一定的合規隱患，使得企業更傾向于自采、自用，大模型數據流通機制尚未形成。

　　如何定義高質量語料？

　　何為高質量語料?記者采訪時，包括騰訊、商湯科技、哈爾濱工業大學(深圳)等企業和高校專業人士均給出一致答案，即高質量語料應具備多樣性、大規模、合法性、真實性、連貫性、無偏見和無害，且相關特征呈現進階式分布。

　　邵睿表示，高質量語料具有多樣性高、句式流暢的特點。關于語料長度和領域的數據，分布多樣且平衡。

　　騰訊機器學習平臺算法負責人康戰輝認為，高質量語料的多樣性涵蓋不同類型的文本，如新聞、小說、詩歌、科技文章等，“這有助于大模型學習到更豐富的語言表達。”

　　而大規模則體現在：大模型需要大量語料來學習語言規律并提高泛化能力。只有擁有充足語料，模型才能更好地捕捉細微的語言特征。

　　與此同時，合法性則要求語料庫中的文本應該是合法且無害，不合法或有害的文本可能導致模型產生不恰當的回答或建議，或無意中泄露隱私。

　　“高質量語料應該具有真實性和連貫性，以便讓大模型更好地理解語境并生成符合邏輯的響應。”康戰輝說，語料庫應該充分反映語料的多樣性并避免偏見，這樣大模型在不同場景下回答不同用戶的問題時才能做到盡可能科學客觀。

　　商湯科技發言人表示：“要解決數據問題，不只是單純的增加數據總量，還需要提高數據質量，甚至要考慮怎么設計數據的所有權和交換機制，推動人工智能數據基礎設施化。”

　　破題高質量語料短缺方法近似

　　記者采訪中了解到，對于高質量語料短缺的問題，業內目前主要采取語料清洗篩選、標注分類、預訓練語言模型、建立共享和協作的平臺等方式。

　　“騰訊大模型的語料資源，從訓練階段可以至少分為預訓練底座數據和精調指令數據。”康戰輝介紹，其數據來源以業界公開的互聯網數據為主，如騰訊自有QQ瀏覽器網頁搜索的優質中文網頁索引，包括搜狗百科在內中文百科等數據，以及來自騰訊各業務自有的公開資訊、知識性數據收集(騰訊新聞語料、微信公眾號文章、騰訊醫典等)。

　　康戰輝透露，騰訊也會采買部分授權數據進行訓練，主要為各類通俗和專業書籍、學科教材、翻譯語料等非公開互聯網可直接下載或者電子化程度不夠高的知識類數據。

　　與康戰輝的答案類似，邵睿也透露，語料有一部分從數據公司購買，有一部分從網絡公開語料或者公開數據集中獲取并整理使用。

　　“數據公司購買的優點是質量較高，并且大多有垂域數據。缺點是數據量較少價格較貴。”邵睿對比稱，“網絡公開語料的優點是通用性較好，數據量大，缺點是數據質量無法保證，數據格式難以統一。”

　　“人類歷史上所產生的有效信息，包括大量的高價值信息可能不一定是互聯網數據，而是沉散在各行各業里的數據。”商湯科技發言人認為，“怎樣更多匯聚數據，設計更多、更好的網絡結構，用更多的計算資源去支撐更大容量的高質量語料，產生更強的智能，這可能是一個長期持續的話題。”

　　而在現階段高質量語料短缺情況下，如何訓練出更“聰明”的大模型?從互聯網“大廠”過往實踐路徑中可窺探一二。例如：騰訊混元大模型立足于完全自研，采用機器指令半自動化擴展，輔助人工最終標注、改寫的方式來自研構建。

　　OpenAI在無數場合介紹過GPT4訓練的經驗，但從未公開過數據清洗的經驗，可謂訓練大模型頂級機密。

　　商湯科技發言人則表示，在數據清洗的過程中投入了上千塊GPU的算力，并建立起大量系統化、工程化的途徑來進行數據配方的試錯，可迅速發現大數據庫中的有效數據再到小參數模型上進行驗證。

　　多措并舉補齊高質量語料短缺

　　數據、算法、算力是AI發展三要素，通俗來講數據猶如食材、算法好比食譜、算力則是烹飪工具。盡管高質量語料短缺已成為全球共性問題，且破題高質量語料短缺方法近似，但業界正試圖通過多種方式補齊高質量語料短缺問題。

　　記者梳理發現，2023年7月，深圳數交所聯合近50家單位成立“開放算料聯盟”。該聯盟將圍繞高質量中文訓練數據和多模態訓練數據，協調數據要素、數據治理、訓練數據、數據標注、合成數據等相關標準制定，協助數據交易所增加與大模型相關的新品類和新專區。

　　同樣是2023年7月，在2023世界人工智能大會現場，中國大模型語料數據聯盟成立。同年8月，上海人工智能實驗室宣布，聯合中國大模型語料數據聯盟成員單位共同開源發布“書生·萬卷”1.0多模態預訓練語料。本次開源的數據總量超過2TB，包含超5億個文本、2200萬個圖文交錯文檔、1000個影像視頻。

　　1月2日，廣東省政務服務數據管理局在官網發布《廣東省加快數字政府領域通用人工智能應用工作方案》，透露廣東政務大模型發展路線圖。