【正言專題】中國關鍵詞:高質量數據集

今年全國兩會中,政府工作報告提出「打造智能經濟新形態」,當中一個要點就是深化「數據資源開發利用,健全數據要素基礎制度,建設高質量數據集」。在當今數字化浪潮中,「高質量數據集」正成為中國智能經濟發展的關鍵力量。那麼,究竟什麼是高質量數據集呢?
簡單而言,高質量數據集就是高價值、高密度且標準化的數據集合。它不同於以往那些「散、亂、低」的數據資源,是經過精心收集、整理、標注,覆蓋行業核心專業知識和生產經營活動信息的「精華」數據。
高質量數據集對打造智能經濟新形態意義重大。在關鍵數字基礎設施建設方面,它是基石。就像建造大廈需要堅實的地基,智能經濟的發展離不開高質量數據集的支撐。以「東數西算」工程為例,大量智算資源在八大樞紐集聚,而高質量數據集能讓這些算力資源得到更高效利用,提升整個數字基礎設施的運行效率。
在創新科技領域,高質量數據集是人工智能等前沿技術發展的「燃料」。在人工智能迅速發展的今天,「算力、算法、數據」是AI的三大核心要素,而數據正是大模型的「燃料」。沒有高質量的數據,再強大的算法也只是「無米之炊」。近期發布的深度求索系列模型訓練中,大量使用高質量推理數據集,凸顯了其重要性。大模型與垂直領域深度融合,也需高質量數據集支撐,這為科技創新提供了源源不斷的動力。
高質量數據集對國家經濟的推動作用十分顯著。2025年,我國數字經濟增加值有望達49萬億元人民幣,佔GDP比重約35%,數字經濟核心產業增加值佔GDP比重預計同比還會增長。這背後,高質量數據集功不可沒。它為數字經濟核心產業提供了豐富素材,促進了數字消費、數字貿易的繁榮發展。
在賦能千行百業數字化轉型上,高質量數據集更是功不可沒。各行各業都有其獨特的業務邏輯和數據需求,高質量數據集能為不同行業提供精準的「數據養分」。比如,在能源領域,電網調度AI負荷預測數據集、核電SPV設備健康診斷等數據集,助力能源企業實現智能化管理,提高能源利用效率,保障能源安全;金融大模型數據集則為金融機構提供更精準的風險評估和決策支持,提升金融服務質量。對人民生活而言,高質量數據集也帶來諸多正面影響。在醫療領域,高質量醫療數據集助力醫療AI發展,提高疾病診斷的準確性和效率,讓患者能得到更及時有效的治療;在交通領域,智能交通數據集優化交通流量,減少擁堵,提升出行體驗。
2025年底,國家數據局將2026年定位為「數據要素價值釋放年」,這標誌著數據資源向數據資產的全面躍遷。高質量數據集作為數據要素的核心,必將在未來發揮更大作用,持續推動中國智能經濟高質量發展,為國家經濟、創新科技和人民生活帶來更多積極變化。