www288cd.com-国产精品久久99,手机在线一区二区三区,久久精品国产一区二区三区,午夜精品区一区二区三

大模型高質量語料緣何短缺?

2426次瀏覽

  近期,谷歌官方發布免費開放Gemini pro等系列API(應用程序編程接口)。Gemini發布后僅一天,就有網友實測發現,谷歌的大型模型Gemini承認其使用百度“文心一言”來訓練中文訓練數據(語料)。當被問及身份和創始人時,Gemini稱自己是“百度文心大模型”,并指出其創始人為李彥宏。無獨有偶,早在2023年3月,就有消息爆出谷歌的Bard模型部分訓練數據來源于ChatGPT。oNk知多少教育網-記錄每日最新科研教育資訊

  “對于從頭開始訓練的模型,語料短缺會在非常大程度上限制大模型發展。”近日,哈爾濱工業大學(深圳)計算機科學與技術學院教授邵睿在接受科技日報采訪時表示,“增加語料對于提升大模型能力的邊際效益正在減弱,高質量語料的缺乏正日益成為限制大模型發展的瓶頸。”oNk知多少教育網-記錄每日最新科研教育資訊

  高質量語料短缺成為全球共性問題oNk知多少教育網-記錄每日最新科研教育資訊

  科技部新一代人工智能發展研究中心2023年發布的《中國人工智能大模型地圖研究報告》顯示,從全球已發布的大模型數量來看,中國和美國大幅領先,占全球總數的80%以上。oNk知多少教育網-記錄每日最新科研教育資訊

  雖然大模型發展如火如荼,但大模型高質量語料短缺已成為全球共性問題。麻省理工學院等高校研究人員預測,到2026年之前,機器學習數據集可能會耗盡所有可用的高質量語料數據。oNk知多少教育網-記錄每日最新科研教育資訊

  大語言模型對數據供給要求極高。公開數據顯示,訓練GPT-4和Gemini Ultra大概需要4萬億至8萬億個單詞。OpenAI也公開表達過對數據告急的擔憂。oNk知多少教育網-記錄每日最新科研教育資訊

  研究機構EpochAI亦公開表示,最早在2024年,人類就可能會陷入訓練數據荒,屆時全世界的高質量訓練數據都將面臨枯竭。oNk知多少教育網-記錄每日最新科研教育資訊

  值得注意的是,當前大模型數據集主要為英文,如BooksCorpus、WiKipedia、Common Crawl、ROOT等,其語料短缺尚難解決,中文語料庫面臨的問題更為嚴峻。oNk知多少教育網-記錄每日最新科研教育資訊

  中國工程院院士、鵬城實驗室主任高文曾公開表示,全球通用的50億大模型數據訓練集里,中文語料占比僅為1.3%。oNk知多少教育網-記錄每日最新科研教育資訊

  上海數據交易所市場發展部副總經理章健此前公開表示,當前大模型行業存在語料供應不足的問題,特別在垂直細分領域,一些共享、免費下載的語料數量雖然大,質量卻不高。“我們在追求語料數量增長的同時,也要重視質量,是不是高質量的語料數據。”oNk知多少教育網-記錄每日最新科研教育資訊

  阿里研究院在《中美大模型的競爭之路:從訓練數據講起》公開撰文稱,中文語料、科研成果等高質量數據集開放程度低,企業用于訓練的語料來源不清晰、權屬不明確,開源后存在一定的合規隱患,使得企業更傾向于自采、自用,大模型數據流通機制尚未形成。oNk知多少教育網-記錄每日最新科研教育資訊

  如何定義高質量語料?oNk知多少教育網-記錄每日最新科研教育資訊

  何為高質量語料?記者采訪時,包括騰訊、商湯科技、哈爾濱工業大學(深圳)等企業和高校專業人士均給出一致答案,即高質量語料應具備多樣性、大規模、合法性、真實性、連貫性、無偏見和無害,且相關特征呈現進階式分布。oNk知多少教育網-記錄每日最新科研教育資訊

  邵睿表示,高質量語料具有多樣性高、句式流暢的特點。關于語料長度和領域的數據,分布多樣且平衡。oNk知多少教育網-記錄每日最新科研教育資訊

  騰訊機器學習平臺算法負責人康戰輝認為,高質量語料的多樣性涵蓋不同類型的文本,如新聞、小說、詩歌、科技文章等,“這有助于大模型學習到更豐富的語言表達。”oNk知多少教育網-記錄每日最新科研教育資訊

  而大規模則體現在:大模型需要大量語料來學習語言規律并提高泛化能力。只有擁有充足語料,模型才能更好地捕捉細微的語言特征。oNk知多少教育網-記錄每日最新科研教育資訊

  與此同時,合法性則要求語料庫中的文本應該是合法且無害,不合法或有害的文本可能導致模型產生不恰當的回答或建議,或無意中泄露隱私。oNk知多少教育網-記錄每日最新科研教育資訊

  “高質量語料應該具有真實性和連貫性,以便讓大模型更好地理解語境并生成符合邏輯的響應。”康戰輝說,語料庫應該充分反映語料的多樣性并避免偏見,這樣大模型在不同場景下回答不同用戶的問題時才能做到盡可能科學客觀。oNk知多少教育網-記錄每日最新科研教育資訊

  商湯科技發言人表示:“要解決數據問題,不只是單純的增加數據總量,還需要提高數據質量,甚至要考慮怎么設計數據的所有權和交換機制,推動人工智能數據基礎設施化。”oNk知多少教育網-記錄每日最新科研教育資訊

  破題高質量語料短缺方法近似oNk知多少教育網-記錄每日最新科研教育資訊

  記者采訪中了解到,對于高質量語料短缺的問題,業內目前主要采取語料清洗篩選、標注分類、預訓練語言模型、建立共享和協作的平臺等方式。oNk知多少教育網-記錄每日最新科研教育資訊

  “騰訊大模型的語料資源,從訓練階段可以至少分為預訓練底座數據和精調指令數據。”康戰輝介紹,其數據來源以業界公開的互聯網數據為主,如騰訊自有QQ瀏覽器網頁搜索的優質中文網頁索引,包括搜狗百科在內中文百科等數據,以及來自騰訊各業務自有的公開資訊、知識性數據收集(騰訊新聞語料、微信公眾號文章、騰訊醫典等)。oNk知多少教育網-記錄每日最新科研教育資訊

  康戰輝透露,騰訊也會采買部分授權數據進行訓練,主要為各類通俗和專業書籍、學科教材、翻譯語料等非公開互聯網可直接下載或者電子化程度不夠高的知識類數據。oNk知多少教育網-記錄每日最新科研教育資訊

  與康戰輝的答案類似,邵睿也透露,語料有一部分從數據公司購買,有一部分從網絡公開語料或者公開數據集中獲取并整理使用。oNk知多少教育網-記錄每日最新科研教育資訊

  “數據公司購買的優點是質量較高,并且大多有垂域數據。缺點是數據量較少價格較貴。”邵睿對比稱,“網絡公開語料的優點是通用性較好,數據量大,缺點是數據質量無法保證,數據格式難以統一。”oNk知多少教育網-記錄每日最新科研教育資訊

  “人類歷史上所產生的有效信息,包括大量的高價值信息可能不一定是互聯網數據,而是沉散在各行各業里的數據。”商湯科技發言人認為,“怎樣更多匯聚數據,設計更多、更好的網絡結構,用更多的計算資源去支撐更大容量的高質量語料,產生更強的智能,這可能是一個長期持續的話題。”oNk知多少教育網-記錄每日最新科研教育資訊

  而在現階段高質量語料短缺情況下,如何訓練出更“聰明”的大模型?從互聯網“大廠”過往實踐路徑中可窺探一二。例如:騰訊混元大模型立足于完全自研,采用機器指令半自動化擴展,輔助人工最終標注、改寫的方式來自研構建。oNk知多少教育網-記錄每日最新科研教育資訊

  OpenAI在無數場合介紹過GPT4訓練的經驗,但從未公開過數據清洗的經驗,可謂訓練大模型頂級機密。oNk知多少教育網-記錄每日最新科研教育資訊

  商湯科技發言人則表示,在數據清洗的過程中投入了上千塊GPU的算力,并建立起大量系統化、工程化的途徑來進行數據配方的試錯,可迅速發現大數據庫中的有效數據再到小參數模型上進行驗證。oNk知多少教育網-記錄每日最新科研教育資訊

  多措并舉補齊高質量語料短缺oNk知多少教育網-記錄每日最新科研教育資訊

  數據、算法、算力是AI發展三要素,通俗來講數據猶如食材、算法好比食譜、算力則是烹飪工具。盡管高質量語料短缺已成為全球共性問題,且破題高質量語料短缺方法近似,但業界正試圖通過多種方式補齊高質量語料短缺問題。oNk知多少教育網-記錄每日最新科研教育資訊

  記者梳理發現,2023年7月,深圳數交所聯合近50家單位成立“開放算料聯盟”。該聯盟將圍繞高質量中文訓練數據和多模態訓練數據,協調數據要素、數據治理、訓練數據、數據標注、合成數據等相關標準制定,協助數據交易所增加與大模型相關的新品類和新專區。oNk知多少教育網-記錄每日最新科研教育資訊

  同樣是2023年7月,在2023世界人工智能大會現場,中國大模型語料數據聯盟成立。同年8月,上海人工智能實驗室宣布,聯合中國大模型語料數據聯盟成員單位共同開源發布“書生·萬卷”1.0多模態預訓練語料。本次開源的數據總量超過2TB,包含超5億個文本、2200萬個圖文交錯文檔、1000個影像視頻。oNk知多少教育網-記錄每日最新科研教育資訊

  1月2日,廣東省政務服務數據管理局在官網發布《廣東省加快數字政府領域通用人工智能應用工作方案》,透露廣東政務大模型發展路線圖。oNk知多少教育網-記錄每日最新科研教育資訊

  根據《方案》總體要求,政務大模型體系于2024年底基本健全。此外,廣東還將探索認定一批機構經授權在可信場所進行模型訓練,提供基礎數據集對大模型進行初始訓練,并探索打造粵港澳大灣區“數據特區”,率先在人工智能創新場景先行先試。oNk知多少教育網-記錄每日最新科研教育資訊

本文鏈接:http://knowith.com/news-1-55.html大模型高質量語料緣何短缺?

聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

熱門文章

延伸閱讀

相關閱讀

熱點精選

最新推薦

您可能感興趣

遼寧考研機構實力排名?大連理工大學盤錦校區海洋工程研究生怎么樣

遼寧大學考研好考嗎,集寧師范學院考研率怎么樣

在職研究生和全日制(在職研究生和全日制研究生的區別)

西南政法大學考研難嗎(攀枝花學院能保研嗎)

自考本科能考研究生嗎?武漢大學碩士研究生的學費一年是多少

2015經濟學考研:微觀經濟學脈絡圖(第四章)

2015經濟學考研:微觀經濟學脈絡圖(第五章)

重慶考研比較好考的學校,重慶巴南教育管理學校官網

海事大學有哪些 985海事大學有哪些

河海大學機械工程怎么樣,河海大學機械工程怎么樣知乎

立志成才:DY月付怎么套出來(公布三個詳細方法)

購買印度阿卡替尼(30粒)一盒價格需要多少錢?最新分享印度阿卡替尼價格約1900元一盒(100mg30粒)!

技術:怎么找分付提現的商家,親測有效,揭秘分付怎么套出來

奮發圖強:羊小咩購物額度最新方法,精選最新的四個教程

風馳電掣:杭州臨平區代還信用卡分享四大方法,最新操作秒到方法

安全!昆明東川套visa境外信用卡線下當面,成功后兩分鐘到賬

歡欣鼓舞:石家莊元氏縣墊還信用卡,分享四大方法,最新操作秒到方法

鍥而不舍:羊小咩享花卡額度怎么套出來(實踐方法告知)

素箋:正規蘋果id貸款口子2024最新操作步驟

白條有額度怎么兌換出來《找商家套出來全方位指導解難》

www288cd.com-国产精品久久99,手机在线一区二区三区,久久精品国产一区二区三区,午夜精品区一区二区三
18欧美乱大交hd1984| 蜜臀av在线播放一区二区三区| 亚洲午夜电影网| 国产老肥熟一区二区三区| 欧美肥妇毛茸茸| 亚洲色图19p| 国产精品亚洲第一区在线暖暖韩国| 欧美日韩一卡二卡三卡| 国产精品久久久久久久久免费丝袜 | 久久疯狂做爰流白浆xx| 在线观看免费视频综合| 国产精品免费网站在线观看| 蜜桃av一区二区三区电影| 欧美伊人久久久久久午夜久久久久| 国产精品素人一区二区| 国产一区999| 精品成人一区二区| 日韩精品一区第一页| 欧美视频完全免费看| 亚洲免费在线视频一区 二区| 国产成人在线色| 久久网站最新地址| 极品少妇xxxx精品少妇偷拍| 911精品产国品一二三产区| 亚洲综合一区二区精品导航| 97久久超碰国产精品| 国产精品美女久久久久aⅴ国产馆| 韩国成人在线视频| 欧美成人精品高清在线播放| 日av在线不卡| 日韩亚洲国产中文字幕欧美| 日本在线观看不卡视频| 欧美裸体bbwbbwbbw| 亚洲动漫第一页| 欧美日韩一区二区三区高清| 亚洲一区日韩精品中文字幕| 欧美专区在线观看一区| 一区二区三区自拍| 欧美亚一区二区| 亚洲国产精品久久人人爱蜜臀| 在线精品视频一区二区三四| 一区二区三区欧美视频| 欧美亚洲国产一区二区三区| 亚洲图片欧美综合| 欧美精品三级在线观看| 免费久久99精品国产| 日韩视频免费直播| 激情深爱一区二区| 久久精品免视看| 粉嫩绯色av一区二区在线观看| 欧美激情一区三区| caoporm超碰国产精品| 亚洲啪啪综合av一区二区三区| 色天天综合色天天久久| 亚洲福利一区二区三区| 欧美一级淫片007| 激情五月播播久久久精品| 2023国产精华国产精品| 国产成人精品一区二区三区网站观看| 日本一区二区三区电影| bt欧美亚洲午夜电影天堂| 亚洲激情欧美激情| 6080午夜不卡| 国产在线国偷精品免费看| 中文字幕 久热精品 视频在线| av中文一区二区三区| 亚洲精品乱码久久久久| 666欧美在线视频| 国产精品一区二区三区乱码| 国产精品色呦呦| 欧美中文字幕久久| 麻豆视频一区二区| 欧美极品xxx| 欧美在线三级电影| 久99久精品视频免费观看| 国产欧美一区二区三区沐欲| 色狠狠桃花综合| 蜜桃在线一区二区三区| 欧美激情一区二区三区蜜桃视频| 一道本成人在线| 日本系列欧美系列| 国产日韩高清在线| 在线视频你懂得一区二区三区| 日本欧美在线观看| 国产精品天美传媒| 欧美日韩一区在线观看| 国产永久精品大片wwwapp| 亚洲三级免费观看| 日韩欧美亚洲一区二区| 成人黄色电影在线| 午夜影院久久久| 久久精品一区八戒影视| 91国偷自产一区二区使用方法| 蜜桃视频第一区免费观看| 国产精品对白交换视频| 7777精品伊人久久久大香线蕉 | 国产又黄又大久久| 中文字幕视频一区| 91精品国产综合久久久久| 国产99久久久国产精品免费看 | 色综合天天天天做夜夜夜夜做| 亚洲a一区二区| 久久青草欧美一区二区三区| 在线免费观看一区| 国产另类ts人妖一区二区| 亚洲国产精品综合小说图片区| 久久精品欧美一区二区三区不卡| 欧美性高清videossexo| 国产91丝袜在线观看| 日韩在线一二三区| 欧美国产一区二区| 欧美一区二区三区在线电影| 成人国产精品免费观看视频| 日本伊人色综合网| 亚洲乱码国产乱码精品精的特点 | 久久久久久久久久美女| 欧美色综合久久| 成人免费不卡视频| 美国欧美日韩国产在线播放| 亚洲黄网站在线观看| 国产人成一区二区三区影院| 欧美伦理影视网| 91麻豆自制传媒国产之光| 国产一区二区三区免费看| 婷婷亚洲久悠悠色悠在线播放| 国产精品久久久久影院色老大| 欧美电视剧免费全集观看| 欧美日韩在线播放三区| 91亚洲国产成人精品一区二区三| 国产一区二区在线观看免费 | 3d成人h动漫网站入口| 91小视频在线| 国产精品一区一区| 麻豆久久久久久| 亚洲成人免费av| 亚洲日本丝袜连裤袜办公室| 国产日韩精品视频一区| 精品日韩一区二区| 欧美一区二区三区免费大片| 欧美三级电影在线观看| 91片黄在线观看| 成人激情文学综合网| 国产制服丝袜一区| 美女高潮久久久| 日本中文在线一区| 亚洲成人免费av| 亚洲中国最大av网站| 亚洲欧美日韩中文播放| 国产精品久久久久aaaa| 国产欧美日韩亚州综合| 久久人人超碰精品| www欧美成人18+| 精品日产卡一卡二卡麻豆| 日韩欧美久久一区| 91精品国产91综合久久蜜臀| 欧美日韩综合不卡| 欧美日韩视频在线观看一区二区三区| 91视频国产资源| 91在线国内视频| 91小宝寻花一区二区三区| caoporm超碰国产精品| 成人性视频免费网站| 成人一级片在线观看| 粉嫩aⅴ一区二区三区四区五区| 国产在线不卡一区| 黄色精品一二区| 国产综合久久久久影院| 韩国欧美国产一区| 国产精品一区一区三区| 国产精品996| 国产精品一品视频| 国产成人免费9x9x人网站视频| 国产不卡在线一区| 成人久久久精品乱码一区二区三区 | 国产毛片精品视频| 国产成人免费在线观看不卡| 国产成人在线视频播放| 成人黄色a**站在线观看| av在线不卡观看免费观看| 99免费精品视频| 91九色最新地址| 欧美日韩精品一二三区| 在线不卡免费av| 日韩欧美国产一区二区三区| 精品国产99国产精品| 国产清纯美女被跳蛋高潮一区二区久久w| 国产亚洲欧美日韩日本| 国产精品国产自产拍高清av| 亚洲色图欧美激情| 亚洲高清一区二区三区| 日韩中文字幕不卡| 狠狠色丁香婷婷综合久久片| 国产91清纯白嫩初高中在线观看| 成人国产电影网| 色94色欧美sute亚洲13| 在线不卡免费欧美| 久久综合网色—综合色88| 国产精品三级视频| 亚洲一区二区影院| 麻豆国产欧美一区二区三区|