亚洲天堂1区在线|久久久综合国产剧情中文|午夜国产精品无套|中文字幕一二三四区|人人操人人干人人草|一区二区免费漫画|亚洲一区二区a|91五月天在线观看|9丨精品性视频亚洲一二三区视频|国产香蕉免费素人在线二区

中國儲能網歡迎您!
當前位置: 首頁 >數智化儲能系統(tǒng)>AI與人工智能 返回

加快建設高質量數據集 推動人工智能賦能行業(yè)發(fā)展

作者:胡堅波 來源:國家數據局 發(fā)布時間:2025-03-05 瀏覽:次

中國儲能網訊:隨著DeepSeek R1系列模型的發(fā)布,國內掀起新一輪人工智能的熱潮,通信、互聯(lián)網、汽車、能源、金融、醫(yī)療、科技等龍頭企業(yè)紛紛宣布接入DeepSeek,人工智能大模型加速向各行各業(yè)滲透。人工智能大模型的發(fā)展需要“數據糧食”,特別是高質量數據集。高質量數據集是人工智能大模型訓練、推理和驗證的關鍵基礎,是按照特定標準,經過采集、清洗、歸類和標注等智能化處理,具有相應更新和維護機制的數據集合。

1 建設人工智能高質量數據集的重大意義

高質量數據集建設有利于推進“人工智能+”行動落地見效,對數字經濟乃至整個經濟社會高質量發(fā)展具有重大意義。

一是高質量數據集建設是人工智能發(fā)展的客觀需要。人工智能大模型對數據集提出了新要求,數據集的質量影響人工智能的智商。高質量數據集是人工智能真正的“護城河”,人工智能大模型的訓練和推理高度依賴高質量數據集的供給。谷歌研究發(fā)現,對于圖像生成模型,當計算資源受限時,數據集大小比模型大小更加重要。紐約大學的一項研究表明,大型語言模型在使用醫(yī)學數據訓練過程中,即使含有0.001%的錯誤信息,也可能導致模型輸出不準確的醫(yī)學答案。

二是高質量數據集建設是促進我國行業(yè)數字化轉型的關鍵舉措。通過開放公共數據和促進企業(yè)數據流通,可以提升垂直領域人工智能大模型的能力,促進傳統(tǒng)行業(yè)數字化轉型升級。例如,“蘇州絲綢紋樣數據集”匯聚了222件等級文物和7012片近現代絲綢樣本的高清數據,形成了3個具有較高水平的高清采集紋樣數據子集,并依托市場化機制,在絲綢紡織、網絡游戲、汽車、美妝、銀行、貴金屬等領域累計授權使用31批次,賦能蘇州絲綢文化傳承、文旅消費和數字創(chuàng)新。

三是高質量數據集建設是促進各地數字經濟發(fā)展的重要抓手。近兩年,為促進數字經濟發(fā)展,國內不同地區(qū)陸續(xù)推出各類“大模型+數據集+算力”一體化創(chuàng)新基地。例如,上海徐匯區(qū)的“模速空間”、北京石景山區(qū)的大模型“超級工廠”、濟南市的“大模型創(chuàng)新工廠”、呼和浩特市的大模型訓練基地等,為大模型訓練推理提供了重要支撐,助力地方招商引資發(fā)展數字經濟。

2 建設人工智能高質量數據集的目標和策略

人工智能正從以模型為中心,逐步轉變?yōu)橐詳祿橹行?。高質量數據集的重要性正成為社會各界的共識,大模型發(fā)展進入多模態(tài)融合階段,應全面打造大規(guī)模、多模態(tài)、多領域的高質量數據集,建立人工智能發(fā)展新范式。建設人工智能高質量數據集應采用如下策略:

首先,堅持場景化推動高質量數據集建設。當前,人工智能應用持續(xù)走深向實,在醫(yī)療、教育、零售、金融、制造、能源等領域實現了初步應用。建設高質量數據集不能盲目跟風、重復建設,不能僅限于將公共數據簡單開放,應以終為始,從醫(yī)療、教育等重點行業(yè)入手,優(yōu)先突破人工智能應用最迫切、最容易產生效果、最影響行業(yè)高質量發(fā)展的數據集建設。

其次,堅持體系化牽引高質量數據集建設。高質量數據分布在各行各業(yè),離散性強,需要更好發(fā)揮政府作用,把行業(yè)企業(yè)、模型企業(yè)、數據企業(yè)、數字化解決方案提供商、數據交易機構等多方主體組織起來,打造數據、模型、算力等協(xié)調聯(lián)動生態(tài)體系,探索新模式。

再次,堅持多元化促進大中小企業(yè)融通創(chuàng)新。在建設高質量數據集過程中,需要加強引導技術能力強、行業(yè)影響力高、產業(yè)鏈資源整合能力強的企業(yè),依托行業(yè)領域應用,多渠道吸納、聚合相關數據。強化中小企業(yè)產業(yè)鏈和生態(tài)系統(tǒng)意識,主動融入大企業(yè)、大項目,發(fā)揮出“船小好調頭”、創(chuàng)新干勁足的優(yōu)勢,不斷對數據進行深加工,形成本行業(yè)、本領域的高質量數據集。

最后,堅持安全合規(guī)為高質量數據集建設保駕護航。高質量數據集建設工程涵蓋數據采集、預處理、標注、合成、質量評估、開放共享等全生命周期,不僅需要保證數據的數量、質量和多樣性,更要確保數據來源的合法性、合規(guī)性和產權保護等,降低數據使用中的風險。

3 從六個方面推動人工智能高質量數據集建設

高質量數據集是決定人工智能大模型性能優(yōu)劣的關鍵所在。為全力打造人工智能高質量數據集,推動大模型應用邁向新高度,建議從高質量數據集圖譜構建、政策法規(guī)保障、建設指引制定、評測體系建設、跨域合作拓展、標桿牽引示范等方面著手,推動高質量數據集建設邁上新臺階。

一是以服務大模型應用為核心,繪制高質量數據集建設圖譜,明確“建什么”。圍繞應用需求牽引、典型場景切入、行業(yè)領域賦能、安全風險可控等維度,調動政、產、學、研、用各方力量,梳理高質量數據集典型場景和應用需求等,繪制高質量數據集建設圖譜,實現可查詢、可下載、可應用,全面助力大規(guī)模、多模態(tài)的高質量數據集建設。

二是以保障數據集建設為目標,協(xié)同推進政策法規(guī)的制定與完善,確定“依據在哪”。在政策層面,推動各部門出臺針對性政策,強化高質量數據集供給。鼓勵企業(yè)積極參與高質量數據集建設,對在數據采集、清洗、標注等環(huán)節(jié)投入較大的企業(yè)給予政策支持,降低企業(yè)建設數據集的成本。在法規(guī)層面,需加快明確數據權屬問題,界定數據生產者、持有者、使用者和經營者的權利與義務,保障數據在合法合規(guī)的框架內流通與使用,為高質量數據集建設營造良好的政策法規(guī)環(huán)境,促進整個行業(yè)的健康可持續(xù)發(fā)展。

三是以解決現實問題為導向,制定高質量數據集建設指引,指明“怎么建”。組織跨行業(yè)交流,分享高質量數據集建設經驗及面臨的問題,總結建設方法論和問題庫。針對問題庫,以“揭榜掛帥”方式征集解決方案。在廣泛調研和總結基礎上,制定發(fā)布高質量數據集建設指引,不斷優(yōu)化建設方案和路徑。發(fā)揮人工智能技術優(yōu)勢,對大量文本、圖像、音頻等數據進行自動標注和分類,批量構建高質量數據集。

四是以推動標準建設為牽引,打造高質量數據集評測體系,指導“怎么評”。一方面,通過對高質量數據集的格式規(guī)范、類型、質量要求等方面的研究,開展系列標準的研制及細化,為各行業(yè)領域在數據采集、標注、加工治理、應用推廣等提供標準化規(guī)范指引。另一方面,構建涵蓋細分行業(yè)的高質量數據集質量評測方法、評測工具集。通過規(guī)范化的高質量數據集評測工具,客觀地評判數據集的質量等級和價值曲線,結合應用需求不斷進行迭代升級。

五是以探索跨域合作為重點,建立高質量數據集流通利用新機制,闡明“怎么流通”。依托可信數據空間、數場、數聯(lián)網、數據元件等實踐方案,推動醫(yī)療、交通、氣象、社保等多領域高質量數據集在安全合規(guī)框架內有序流動,注重建設跨部門、跨行業(yè)、跨地區(qū)高質量數據集。運用區(qū)塊鏈、隱私保護計算等技術實現數據集的可溯源與安全保護,促進跨域數據集交易流通,形成典型案例,催生新應用、新模式,釋放數據要素乘數效應。

六是以行業(yè)標桿示范為牽引,發(fā)揮資金“風向標”作用,解決“用什么引導”。組織開展行業(yè)領域高質量數據集征集工作,鼓勵各行業(yè)、各地區(qū)的企業(yè)積極參與,形成各類高質量數據集庫,提高整體供給水平、供給規(guī)模。鼓勵各類資金支持高質量數據集建設,持續(xù)完善建設機制,積極推廣典型案例,全面助力人工智能賦能行業(yè)高質量發(fā)展。

分享到:

關鍵字:人工智能

中國儲能網版權說明:

1、凡注明來源為“中國儲能網:xxx(署名)”,除與中國儲能網簽署內容授權協(xié)議的網站外,未經本網授權,任何單位及個人不得轉載、摘編或以其它方式使用上述作品。

2、凡本網注明“來源:xxx(非中國儲能網)”的作品,均轉載與其他媒體,目的在于傳播更多信息,但并不代表中國儲能網贊同其觀點、立場或證實其描述。其他媒體如需轉載,請與稿件來源方聯(lián)系,如產生任何版權問題與本網無關。

3、如因作品內容、版權以及引用的圖片(或配圖)內容僅供參考,如有涉及版權問題,可聯(lián)系我們直接刪除處理。請在30日內進行。

4、有關作品版權事宜請聯(lián)系:13661266197、 郵箱:ly83518@126.com