趙精武
DeepSeek的出現(xiàn)徹底改變了固有的“高端算力優(yōu)先”的人工智能創(chuàng)新技術(shù)路線,其以低廉的成本實現(xiàn)了與國外前沿人工智能產(chǎn)品相媲美的性能,“算法模型性能優(yōu)先”也隨之成為新的產(chǎn)業(yè)技術(shù)發(fā)展路線。
這種轉(zhuǎn)變意味著要更加重視訓(xùn)練數(shù)據(jù)的高質(zhì)量供給,因為“算法模型性能優(yōu)先”技術(shù)路線更依賴高質(zhì)量的訓(xùn)練數(shù)據(jù)對模型進行優(yōu)化,而且已公開、可抓取的訓(xùn)練數(shù)據(jù)資源即將用盡,亟需能夠反映行業(yè)特征的高質(zhì)量訓(xùn)練數(shù)據(jù)資源。因此,訓(xùn)練數(shù)據(jù)供給機制的構(gòu)建理應(yīng)作為數(shù)據(jù)基礎(chǔ)制度的立法重心之一,從而用法律規(guī)范訓(xùn)練數(shù)據(jù)的供給方式,提升訓(xùn)練數(shù)據(jù)的供給質(zhì)量。
規(guī)范訓(xùn)練數(shù)據(jù)供給方式所要實現(xiàn)的目標,是市場以安全可靠且高效的方式提供訓(xùn)練數(shù)據(jù)資源。首先,訓(xùn)練數(shù)據(jù)的供給方式應(yīng)當(dāng)是安全可控的。算法模型訓(xùn)練屬于數(shù)據(jù)處理行為,因而數(shù)據(jù)的供給方和需求方均應(yīng)嚴格履行個人信息保護法、網(wǎng)絡(luò)安全法等法律規(guī)定的數(shù)據(jù)安全保護義務(wù)。其次,訓(xùn)練數(shù)據(jù)的供給方式應(yīng)當(dāng)是合法且沒有爭議的。高質(zhì)量供給的內(nèi)涵之一便是確保訓(xùn)練數(shù)據(jù)沒有顯著爭議,否則會增加法律風(fēng)險,從而降低科技創(chuàng)新資源的供給效率。最后,訓(xùn)練數(shù)據(jù)的供給方式應(yīng)當(dāng)是多元化的。單一的數(shù)據(jù)供給方式不僅無法提供充分的訓(xùn)練數(shù)據(jù),還可能間接提升人工智能市場的準入門檻。
提升訓(xùn)練數(shù)據(jù)供給質(zhì)量所要實現(xiàn)的目標,則是數(shù)據(jù)資源供給活動應(yīng)當(dāng)滿足“供給數(shù)量充分”和“供給質(zhì)量符合要求”兩個要件。一方面,當(dāng)下的人工智能產(chǎn)業(yè)發(fā)展主要以大模型為基礎(chǔ),需要海量的訓(xùn)練數(shù)據(jù)作為支撐。另一方面,伴隨著人工智能應(yīng)用方式的場景化、專業(yè)化,其對訓(xùn)練數(shù)據(jù)質(zhì)量的要求也有所提高。構(gòu)建這種保障機制的重心,是兼顧科技創(chuàng)新主體的差異化需求以及訓(xùn)練數(shù)據(jù)獲取方式的實質(zhì)公平性,同時確保與現(xiàn)行立法體系有效整合。
第一,以科技創(chuàng)新主體為導(dǎo)向,構(gòu)建人工智能訓(xùn)練數(shù)據(jù)公共服務(wù)平臺。作為人工智能創(chuàng)新的數(shù)字基礎(chǔ)設(shè)施,平臺的職能之一便是發(fā)現(xiàn)和確認各類科技創(chuàng)新主體的需求,明確公共訓(xùn)練數(shù)據(jù)資源的分類標準。不過,由于政府部門難以持續(xù)性地對公共數(shù)據(jù)進行清洗、歸集等,因此需要在協(xié)同治理模式下,按照市場需求,對公共數(shù)據(jù)進行去重、糾錯、填補空值等管理,以提升數(shù)據(jù)使用質(zhì)量。此外,由于平臺與算力基礎(chǔ)設(shè)施同屬向市場提供的必要基礎(chǔ)設(shè)施,二者共同作用并影響人工智能創(chuàng)新效率,為避免冗余建設(shè)造成浪費,更宜將二者一體化建設(shè)。
第二,以市場公平競爭為導(dǎo)向,構(gòu)建訓(xùn)練數(shù)據(jù)供給生態(tài)保障體系。我國現(xiàn)階段人工智能訓(xùn)練數(shù)據(jù)方面面臨的困境,不僅僅是數(shù)據(jù)量不足、質(zhì)量較低,還包括有效的產(chǎn)業(yè)生態(tài)尚未形成。為避免數(shù)據(jù)壟斷等現(xiàn)象,確保中小企業(yè)實質(zhì)性公平地獲取訓(xùn)練數(shù)據(jù),有必要對相關(guān)數(shù)據(jù)提供商設(shè)置義務(wù)規(guī)范。如對于訓(xùn)練數(shù)據(jù)提供商而言,應(yīng)當(dāng)嚴格禁止其采取強制或變相強制的方式出售捆綁性的訓(xùn)練數(shù)據(jù)產(chǎn)品,并不得采取“二選一”等業(yè)務(wù)模式,對需求方施加不合理的條件。對于數(shù)據(jù)標注服務(wù)提供商而言,不僅要依據(jù)《生成式人工智能服務(wù)管理暫行辦法》規(guī)定,預(yù)防算法歧視等風(fēng)險,還應(yīng)當(dāng)確保所提供的數(shù)據(jù)滿足完整性、時效性、準確性等要求,且與事前約定的數(shù)據(jù)質(zhì)量保持一致。
第三,以數(shù)據(jù)安全保障為導(dǎo)向,構(gòu)建透明可信的訓(xùn)練數(shù)據(jù)供給機制。已公開的個人信息、包含他人著作權(quán)的作品數(shù)據(jù)能否作為訓(xùn)練數(shù)據(jù)等問題,是目前構(gòu)建相關(guān)制度面臨的障礙之一。此外,不安全、不可靠的數(shù)據(jù)交易活動同樣會影響訓(xùn)練數(shù)據(jù)來源合法性的認定。因此,在制度層面確立訓(xùn)練數(shù)據(jù)來源合法性的判斷標準顯得尤為迫切。這既需要以典型案例、合規(guī)清單等方式指引產(chǎn)業(yè)實踐,也需要在制度層面設(shè)置涵蓋訓(xùn)練數(shù)據(jù)獲取、使用等各個業(yè)務(wù)流程的數(shù)據(jù)安全保護制度。
(作者系北京航空航天大學(xué)法學(xué)院副教授)
編輯:林楠特