導覽
1、輸入端:訓練數據/模型來源合規
1. 訓練數據來源合法
2. 避免訓練數據侵犯知識產權
3. 訓練模型來源合法
2、輸出端:AI生成內容(AIGC)合規
1. 內容標識義務
2. 避免侵犯知識產權
3. 減少幻覺和確保安全性
導言
近年來,人工智能(Artificial Intelligence,“AI”)技術呈現出爆發式發展,特別是在自然語言處理、圖像生成、代碼自動化等領域取得了顯著突破。其中,基於Transformer架構的生成式AI模型(Generative Artificial Intelligence,“GAI”)脫穎而出,以來自美國OpenAI的GPT係列、穀歌的Gemini等為代表,通過用戶指令可以快速生成文本、音頻、視頻等多種內容,經過海量數據的長時間訓練,逐漸展現出了令人驚異的性能,並被廣泛應用於新聞撰寫、輔助決策、教育培訓、商業文案、音視頻製作等多樣化的場景,推動了知識生產方式與內容生成效率的根本性變革。2025年年初,來自中國的生成式AI開源模型——DeepSeek橫空出世,其出圈和火爆驗證了通過算法蒸餾降低訓練成本的方式訓練頂尖AI模型的路徑是行之有效的,這無疑為生成式AI的藍海市場打入了一針強心劑,或將使得越來越多的中小企業加入到這場聲勢浩大的AI競賽中。
erlingyifangmian,zaijishudayueqiandetongshi,bansuierlaideshiqiansuoweiyoudefalvtiaozhan,youqishizaiheguicengmian,qifuzaxinghefengxianchengduzhengriyituxian。zaishengchengshiAI的研發與運營過程中,訓練數據/模型的采集、使用與處理貫穿始終,對於希望研發和運營生成式AI,提供AI服務的企業而言,如何確保訓練數據的來源合法、模型訓練不侵犯法律權利,以及如何合規使用算法蒸餾等技術手段,是在當前搶占AI技術製高點的激烈百米衝刺中無法回避的重要問題。與此同時,AI生成內容也可能引發新的法律風險,如因AI幻huan覺jiao導dao致zhi生sheng成cheng虛xu假jia信xin息xi造zao成cheng公gong眾zhong混hun淆xiao,侵qin犯fan第di三san方fang知zhi識shi產chan權quan等deng,這zhe些xie問wen題ti不bu僅jin考kao驗yan著zhe企qi業ye的de合he規gui管guan理li能neng力li,也ye挑tiao戰zhan著zhe現xian有you法fa律lv體ti係xi的de適shi應ying性xing與yu回hui應ying機ji製zhi。
正因為此,自2022年末ChatGPT麵向公眾開放使用以來,全球的AI立法和監管呈現出逐漸規範化的態勢,我國也先後出台了《生成式人工智能服務管理暫行辦法》《人工智能生成合成內容標識辦法》等多部相關法規,監管趨嚴,司法實踐中亦陸續產生了相關案例。在此背景下,本文將聚焦企業研發和運營生成式AI視角,以輸入端的訓練數據/模型來源合規以及輸出端的AI生成內容合規作為主軸,剖析近兩年來我國AI研發和運營中的合規風險的重點問題,並提出實務建議,以期為已經或準備提供AI服務的企業提供決策支持與實踐參考。
一、輸入端:訓練數據/模型來源合規
1. 訓練數據來源合法
《生成式人工智能服務管理暫行辦法》規定,AI服務提供者在訓練中應使用具有合法來源的數據;涉及個人信息的,應當取得個人同意或者符合法律、行政法規規定的其他情形;應當遵守《網絡安全法》、《數據安全法》、《個人信息保護法》等法律、行政法規的其他有關規定和有關主管部門的相關監管要求[1]。
為確保訓練數據來源合法,我們建議AI服務提供者重點對照以下四類不同的訓練數據來源,進行合規風險的排查和對應:
(1)基於爬蟲工具爬取的互聯網數據集
實踐中通過編程等方式自動實現對互聯網目標站點和目標信息的批量獲取,即所謂通過“爬蟲技術”采集訓練數據的情形非常常見。使用爬蟲技術爬取互聯網數據用於訓練時,應當:
盡量爬取已合法公開數據,不應避開或突破被訪問網站的反爬取技術防護措施對數據進行爬取[2],不得幹擾網絡服務的正常運行[3];
在用於模型訓練前對數據進行數據清洗,涉及爬取個人信息的應對個人信息進行匿名化處理[4];
遵循網站設置的Robots協議(Robots Exclusion Protocol),在Robots協議已明確限製對相關數據進行爬取的情況下不進行爬取[5];
確保對爬取數據的利用不對原網站/係統產生實質性替代,影響原網站/係統服務的正常運營。
(2)基於合作方的數據集
從合作方的數據供應商處間接收集數據用於訓練時,應確保合作方數據來源合法,具體而言:
與合作方簽訂協議[6],要求合作方承諾提供的數據具有合法來源及證明(包括但不限於就該等數據的使用已取得數據主體的授權),確保不侵犯個人隱私和第三方的合法權益[7];
自身對數據集的使用應嚴格限定在合作方已取得授權的範圍內,不得超出授權範圍使用[8];
盡量通過數據交易所等采購具有確權合規存證的數據集[9]。
(3)基於第三方的開源數據集
使用互聯網第三方自主上傳的開源數據集也是常見的訓練數據來源之一。開源數據集通常包含原始網頁、元數據和文本等語料提取數據。使用開源數據集進行訓練,應:
識別數據集中是否包含個人信息、商業秘密等可能涉及第三方權益的數據;
盡(jin)量(liang)在(zai)訓(xun)練(lian)前(qian)對(dui)上(shang)述(shu)數(shu)據(ju)進(jin)行(xing)匿(ni)名(ming)化(hua)處(chu)理(li)或(huo)剔(ti)除(chu),否(fou)則(ze)應(ying)當(dang)進(jin)一(yi)步(bu)確(que)認(ren)相(xiang)關(guan)開(kai)源(yuan)協(xie)議(yi)或(huo)數(shu)據(ju)集(ji)發(fa)布(bu)方(fang)的(de)說(shuo)明(ming),辨(bian)明(ming)開(kai)源(yuan)數(shu)據(ju)集(ji)的(de)提(ti)供(gong)方(fang)是(shi)否(fou)已(yi)取(qu)得(de)個(ge)人(ren)的(de)授(shou)權(quan)以(yi)及(ji)授(shou)權(quan)的(de)範(fan)圍(wei)。
(4)基於人機交互的數據集
人機交互數據,是指用戶在使用AI過程中,向AI輸入的提示詞以及針對AI回答作出反饋的內容。使用人機交互數據集進行訓練,應:
確保已針對AI服務設置用戶協議或服務條款規範用戶的輸入行為[10];
重點識別用戶提交的數據中是否包含個人信息、商業秘密等可能涉及第三方權益的數據,對於可能涉及的個人信息,應進一步結合機器過濾機製和人工審核機製進行識別,製定、完善細化個人信息識別規則,加強個人信息保護方麵的培訓等方式,以提高識別準確性;
jinliangzaixunlianqianduishangshushujujinxingniminghuachulihuotichu,quexuchuliweijingniminghuachulidegerenxinxishi,yingshiqianzaiyinsizhengcedenggerenxinxichuliguizezhonggaozhiyonghugerenxinxidechuliqingkuang(例如用於訓練AI模型),並取得同意。
2. 避免訓練數據侵犯知識產權
作為確保數據來源合法的重要一環,《生成式人工智能服務管理暫行辦法》中特別強調,AI服務提供者在訓練中不得侵害他人依法享有的知識產權[11]。現階段的AI訓練場景下,將版權作品作為訓練數據訓練AI模型的事例屢見不鮮,並往往伴隨著巨大爭議。
以現有的法律規定為前提,從法理上而言,如果訓練AI模型能夠被認定為版權法上的“合理使用”,則即便使用版權作品,也不構成侵權。2023年12月,我國首例“AI繪畫大模型訓練著作權侵權案”正式立案,該案中,四位插畫師作為原告指控被告未經其許可使用了其版權作品用於訓練生成式AI繪hui畫hua工gong具ju,導dao致zhi其qi可ke以yi生sheng成cheng與yu版ban權quan作zuo品pin高gao度du相xiang似si的de圖tu片pian,構gou成cheng著zhu作zuo權quan侵qin權quan。在zai案an件jian審shen理li過guo程cheng中zhong,被bei告gao雖sui承cheng認ren使shi用yong了le部bu分fen原yuan告gao的de版ban權quan作zuo品pin用yong於yu訓xun練lian該gai模mo型xing,但dan是shi辯bian稱cheng其qi構gou成cheng合he理li使shi用yong且qie盡jin到dao了le提ti示shi義yi務wu,不bu構gou成cheng侵qin權quan[12]。目前該案仍在審理中,其判決結果或將在未來成為我國認定使用版權作品訓練構成侵權的參照標準。
該案中,認定侵權與否的關鍵——版權的“合理使用”(Fair use)製度起源於美國版權法[13],在我國主要體現在《著作權法》第24條[14]。參照世界各國版權法對“合理使用”的外延和內涵,結合我國《人工智能法(學者建議稿)》[15]以及最高人民法院印發《關於充分發揮知識產權審判職能作用推動社會主義文化大發展大繁榮和促進經濟自主協調發展若幹問題的意見》的通知[16]中的觀點,利用版權作品訓練AI模型,需要滿足“與版權作品原本的使用目的或功能不同”“不影響版權作品的正常使用”,以及“沒有不合理地損害著作權人的合法權益”方能構成合理使用,上述三要件可以進一步拆解為以下問題:
使用的目的和性質:是否構成將版權作品用於與原始使用目的不同的“轉換性使用”[17];
使用的特征:是否使用了版權作品中具體的獨創性表達而非思想或風格;
使用數量和重要性:使用版權作品的程度和數量是否合理[18];
對版權作品價值的影響:是否會導致AI生成的內容與原始作品競爭,而影響版權作品的潛在市場或價值。
danshi,jinguanyoushangshufenxi,jianyuhelishiyongdepanduanyizhiyilaidoushibanquanfashangjiweijishoudewenti,shijiegeguodexueshujieheshiwujiemuqianshangweidachengyizhiguandian,woguosuiranyeshangweichuxianrenhezhengshilifahuoshengxiaopanjueyuyihuiying,danbaokuo《著作權法實施條例》修訂在內的相關立法工作正在緊鑼密鼓地進行當中[19]。對於AIfuwutigongzhe,womenrengjianyizaiquefamingquefalvyijudeqingkuangxia,jinliangbimianshiyongbanquanzuopinjinxingxunlian,huoqudebanquanrendeshouquan,yizuidachengdujiangdizhishichanquanqinquandefalvfengxian,bingmiqieguanzhuxiangguanlingyudelifadongtaihesifashijian。
3. 訓練模型來源合法
《生成式人工智能服務管理暫行辦法》規定,AI服務提供者在訓練中應使用具有合法來源的基礎模型。[20]
商業實踐中,AI模型的開發是漫長的過程,特別是訓練基於Transformer架構的大語言模型,其技術特性決定了如果不借助第三方AI模(mo)型(xing),將(jiang)會(hui)伴(ban)隨(sui)著(zhe)一(yi)般(ban)企(qi)業(ye)難(nan)以(yi)支(zhi)付(fu)的(de)高(gao)昂(ang)的(de)成(cheng)本(ben)。因(yin)此(ci),在(zai)已(yi)有(you)的(de)第(di)三(san)方(fang)開(kai)源(yuan)基(ji)礎(chu)模(mo)型(xing)上(shang)訓(xun)練(lian)得(de)到(dao)衍(yan)生(sheng)模(mo)型(xing)是(shi)實(shi)踐(jian)中(zhong)更(geng)加(jia)普(pu)遍(bian)的(de)路(lu)徑(jing)。此(ci)外(wai),近(jin)年(nian)來(lai)算(suan)法(fa)蒸(zheng)餾(liu)技(ji)術(shu)也(ye)引(yin)起(qi)了(le)廣(guang)泛(fan)關(guan)注(zhu),其(qi)中(zhong)的(de)經(jing)典(dian)案(an)例(li)即(ji)為(wei)2025年初火爆全球的DeepSeek模型。以下我們就兩種路徑分別論述訓練模型來源合法性的要件:
(1)在開源模型的基礎上訓練衍
在開源模型的基礎上訓練衍生模型優勢在於可以通過相對較低的成本部署AI模型,總體而言,我們傾向於認為在開源模型基礎上進行衍生模型的訓練、使用或後續商業利用風險通常是可控的,這得益於開源模型的作者對開源模型的使用設置限製較少,通常用戶僅需遵循開源許可證(“開源協議”)即可。例如,由於DeepSeek采用了較為友好的MIT開源許可證,個人和企業均可自由從互聯網下載開源模型DeepSeek的源代碼進行本地部署,並在此基礎上按照自身需求進行二次訓練獲得定製化的衍生AI模型, 同時僅需在軟件及其副本中保留版權聲明和許可聲明。
盡管目前市麵上各類常見的開源協議通常允許對修改後的衍生模型進行複製、商業使用、分fen發fa和he修xiu改gai的de權quan利li,但dan考kao慮lv到dao不bu同tong開kai源yuan協xie議yi在zai用yong戶hu義yi務wu方fang麵mian規gui定ding不bu盡jin相xiang同tong,且qie在zai法fa律lv性xing質zhi上shang,開kai源yuan協xie議yi屬shu於yu開kai源yuan軟ruan件jian原yuan作zuo者zhe和he使shi用yong者zhe之zhi間jian簽qian署shu的de“著作權許可合同”,企qi業ye在zai使shi用yong開kai源yuan模mo型xing前qian應ying仔zai細xi閱yue讀du開kai源yuan協xie議yi並bing確que保bao嚴yan格ge遵zun守shou,以yi避bi免mian發fa生sheng著zhu作zuo權quan侵qin權quan或huo違wei約yue風feng險xian。通tong常chang而er言yan,需xu要yao重zhong點dian關guan注zhu開kai源yuan許xu可ke證zheng的de類lei型xing,並bing關guan注zhu可ke能neng限xian製zhi衍yan生sheng模mo型xing後hou續xu使shi用yong的de條tiao款kuan,包bao括kuo但dan不bu限xian於yu:
是否要求公開修改後的衍生模型的源代碼[21]
是否要求在衍生模型發布時注明來源
是否限製修改開源模型的代碼
此ci外wai,如ru果guo開kai源yuan模mo型xing是shi從cong開kai源yuan平ping台tai下xia載zai,除chu模mo型xing本ben身shen的de開kai源yuan協xie議yi外wai,企qi業ye還hai需xu要yao進jin一yi步bu確que認ren平ping台tai的de用yong戶hu協xie議yi和he服fu務wu條tiao款kuan,以yi及ji模mo型xing發fa布bu者zhe在zai平ping台tai內nei發fa布bu的de聲sheng明ming,關guan注zhu可ke能neng限xian製zhi衍yan生sheng模mo型xing後hou續xu使shi用yong的de條tiao款kuan和he下xia載zai模mo型xing的de責ze任ren,包bao括kuo但dan不bu限xian於yu:
平台用戶協議和服務條款是否要求模型發布者承諾上傳、發布的模型來源合法並承擔相應責任
模型發布者在平台內發布的聲明是否限製衍生模型的後續使用(例如限製商用等)
模型發布者是否主張對模型的權利
對於模型發布者在平台內聲明中明確限製商用的模型,如果確需商用,應需要事先聯係模型發布者取得其授權許可。
(2)使用閉源模型作為教師模型進行算法蒸餾
AI訓練中的算法蒸餾技術(Distillation),是一種將大型複雜模型(教師模型)的知識轉移到更小、更高效的模型(學生模型)中的技術,學生模型通過軟標簽知識傳遞(Soft Label Transfer)defangshi,xuexijiaoshimoxingdesikaofangshi,liruduiyumouyigetedingwentidejietiguochengyijigegehuidadegailvfenbu,zhegexuexiguochenggengjiejinheleisiyurenleiziranxuexiguocheng。[22]正因為這是一種“取巧”的學習方式,模型訓練者理論上無需投入大量數據和算力即可快速使得學生模型的能力接近教師模型。例如,在DeepSeek的訓練過程中,正式因為算法蒸餾發揮了重要作用,才使得其訓練成本得以大幅縮減,並以極快的速度追趕上了業內頂尖大模型的性能[23]。
通常而言,為了保證蒸餾效果,教師模型往往會選擇性能較高的成熟AI模型,而實踐中這些成熟的模型(例如OpenAI的GPT-3及以上的模型)通常是閉源的。由於無法像使用開源模型那樣自由獲取源代碼並進行本地部署,使用閉源模型通常需通過模型服務提供者的API接口遠程訪問模型服務,並按照使用模型輸入和輸出Token的數量付費[24]。為避免算法蒸餾過程中對閉源教師模型的使用被認定為侵權行為,AI服務提供者在使用閉源模型進行蒸餾時應注意:
①遵守閉源模型的使用要求:使用閉源模型進行算法蒸餾前應仔細閱讀閉源模型服務提供者發布的服務協議或用戶條款,確認相關使用限製,重點關注協議以下條款:
是否限製通過API接口調取模型服務生成回答的次數或Token數量
模型服務提供者是否賦予用戶對模型輸出內容的完整權利
模型服務提供者是否對輸出內容主張任何權利
輸出內容二次利用的場景,例如是否允許對輸出內容進行商業化使用或開發競爭性產品
②生成內容過濾:確保學生模型不會輸出教師模型訓練數據中涉及第三方權益的信息,例如用戶的個人隱私信息;
③合理注意義務:訓(xun)練(lian)過(guo)程(cheng)中(zhong)關(guan)注(zhu)對(dui)學(xue)生(sheng)模(mo)型(xing)的(de)生(sheng)成(cheng)內(nei)容(rong),確(que)保(bao)學(xue)生(sheng)模(mo)型(xing)的(de)生(sheng)成(cheng)內(nei)容(rong)不(bu)會(hui)與(yu)教(jiao)師(shi)模(mo)型(xing)的(de)生(sheng)成(cheng)內(nei)容(rong)構(gou)成(cheng)實(shi)質(zhi)性(xing)相(xiang)似(si),並(bing)在(zai)發(fa)生(sheng)相(xiang)關(guan)情(qing)況(kuang)時(shi)及(ji)時(shi)排(pai)查(zha),以(yi)避(bi)免(mian)學(xue)生(sheng)模(mo)型(xing)的(de)生(sheng)成(cheng)內(nei)容(rong)侵(qin)犯(fan)在(zai)先(xian)知(zhi)識(shi)產(chan)權(quan)的(de)風(feng)險(xian)(詳見下文二、2的分析)。
此(ci)外(wai),關(guan)於(yu)使(shi)用(yong)閉(bi)源(yuan)模(mo)型(xing)進(jin)行(xing)算(suan)法(fa)蒸(zheng)餾(liu)是(shi)否(fou)構(gou)成(cheng)知(zhi)識(shi)產(chan)權(quan)侵(qin)權(quan)這(zhe)一(yi)問(wen)題(ti),在(zai)我(wo)國(guo)缺(que)乏(fa)專(zhuan)門(men)立(li)法(fa)的(de)情(qing)況(kuang)下(xia),考(kao)慮(lv)到(dao)閉(bi)源(yuan)模(mo)型(xing)本(ben)身(shen)大(da)概(gai)率(lv)構(gou)成(cheng)版(ban)權(quan)法(fa)意(yi)義(yi)上(shang)的(de)作(zuo)品(pin),其(qi)分(fen)析(xi)要(yao)點(dian)仍(reng)在(zai)於(yu)判(pan)斷(duan)是(shi)否(fou)構(gou)成(cheng)合(he)理(li)使(shi)用(yong),請(qing)參(can)見(jian)我(wo)們(men)在(zai)本(ben)文(wen)一(yi)、2小節中關於使用版權作品訓練AI模型的分析,此處不再贅述。
二、輸出端:AI生成內容(AIGC)合規
AI生成內容(Artificial Intelligence Generated Content,以下簡稱“AIGC”)是指由AI模型根據用戶輸入的提示詞(prompt)以及其他材料,自動生成的文本、圖像、音頻等內容。對於AIGC合規,重點應關注內容標識義務、知識產權侵權以及AI幻覺和安全性,以下分別論述。
1. 內容標識義務
盡管對於通過AIGC以假亂真模仿人類的作品,從十年前開始就一直是老生常談的問題,但隨著如今基於Transformer架構的生成式AI性能大幅提高,公眾無法分別人類創作內容和AIGC已是普遍現象,在此背景下,基於AI幻覺產生的虛假和錯誤信息,以及不法分子故意利用AIGC進行的欺詐等AIGC惡意利用將導致巨大的社會風險。針對這一問題,同時加強監管溯源的可追責性,我國早在2023年發布的《生成式人工智能服務管理暫行辦法》中即明確規定應當對AIGC進行標識[25],但彼時並未就如何進行標識提供更進一步指引,企業在合規實踐中也存在一定困惑。2025年3月,在借鑒歐美相關立法[26]的基礎上,我國正式出台《人工智能生成合成內容標識辦法》,該規定將於2025年9月生效,其對生成內容透明層麵的合規提出了新要求,著重強調了AIGC形成、傳輸過程中,AI服務提供者,傳播服務提供者、以及用戶等各類主體關於添加、識別顯示標識和隱式標識的義務。
根據《人工智能生成合成內容標識辦法》,AIGC標識分為隱式標識和顯式標識:
①隱式標識:是指采取技術措施在生成合成內容文件數據中添加的,不易被用戶明顯感知到的標識[27]。隱式標識適用於所有的AIGC,且必須由AI服務提供者在生成合成內容的文件元數據中添加,包含生成合成內容屬性信息、服務提供者名稱或者編碼、內容編號等製作要素信息[28]。通過提供溯源手段,隱式標識嚐試解決的是AIGC可追責性的問題,它要求每一個AI生成內容都能通過一個難以刪除且可被檢測的標識,定位到具體的AI服務提供者。
②顯式標識:是指在生成合成內容或者交互場景界麵中添加的,以文字、聲音、圖形等方式呈現並可以被用戶明顯感知到的標識[29]。相較於隱式標識,顯式標識在用戶可感知的觸點提供標識,嚐試解決的是公眾無法準確識別AIGC和人類創作內容的問題,以防止深度偽造(Deep Fake)或其他虛假、非法的AIGC造成社會公眾的人身或財產損失。不同於隱式標識,僅屬於深度合成服務[30]的情形下,AI服務提供者才需要添加顯示標識[31]。
除上述AI服務提供者需進行的標識外,在AIGC的傳輸鏈條中,可能提供傳播服務的服務提供者(例如UGC視頻平台、問答平台、音樂平台等)以及互聯網應用程序分發平台(例如各移動APP應用商店)也負有相應的標識義務。傳播服務提供者對於上傳的用戶生成內容(User-Generated Content,UGC),除需要主動核驗文件元數據中的隱式標識,還應主動檢測顯式標識或者其他生成合成痕跡,並應對疑似AI生成內容添加提示標識。[32]
2. 避免侵犯知識產權
關於AIGC是否侵犯第三方權益,目前的難點以及學術界和實務界探討最多的是知識產權侵權問題。要判斷AIGC是否侵犯第三方知識產權,必須回答兩個問題:
①AIGC是否具有可版權性,即AIGC是否屬於受版權法保護的作品?
②如果AIGC具有可版權性,AIGC的權利/責任主體應如何確定,特別是在用戶使用第三方AI服務的情況下?
對dui於yu上shang述shu問wen題ti,世shi界jie各ge國guo目mu前qian尚shang未wei形xing成cheng統tong一yi的de觀guan點dian,盡jin管guan我wo國guo正zheng在zai積ji極ji推tui進jin相xiang關guan立li法fa,但dan目mu前qian尚shang未wei有you相xiang關guan法fa律lv條tiao文wen直zhi接jie對dui上shang述shu問wen題ti予yu以yi回hui應ying,大da量liang實shi務wu中zhong對dui於yuAIGC知識產權侵權與否的判斷均由法院在個案審理中完成。以下我們將通過司法案例分別展開介紹。
(1)AIGC在體現人類獨創性智力投入前提下構成版權作品/用戶是AIGC的權利主體
2023年11月,我國“AI文生圖著作權侵權第一案”一審宣判,該案中,原告李某使用AI圖片生成軟件“Stable Diffusion”通過輸入提示詞的方式生成涉案圖片,當增加提示詞、調整生成參數,還會生成新的圖片[33]。被(bei)告(gao)未(wei)經(jing)原(yuan)告(gao)許(xu)可(ke),通(tong)過(guo)百(bai)家(jia)號(hao)賬(zhang)號(hao)發(fa)布(bu)的(de)文(wen)章(zhang)配(pei)圖(tu)使(shi)用(yong)了(le)涉(she)案(an)圖(tu)片(pian),原(yuan)告(gao)主(zhu)張(zhang)被(bei)告(gao)的(de)行(xing)為(wei)構(gou)成(cheng)侵(qin)害(hai)作(zuo)品(pin)署(shu)名(ming)權(quan)和(he)信(xin)息(xi)網(wang)絡(luo)傳(chuan)播(bo)權(quan)。北(bei)京(jing)市(shi)互(hu)聯(lian)網(wang)法(fa)院(yuan)在(zai)一(yi)審(shen)判(pan)決(jue)中(zhong)認(ren)為(wei):rengongzhinengnengmoxingbenshenwufachengweiwoguozhuzuoquanfashangdezuozhe,sheantupianshijiyuyuangaodezhilitouruzhijiechansheng,jutieryan,yuangaoduiyurenwujiqichengxianfangshidenghuamianyuansutongguotishicijinxinglesheji,duiyuhuamianbujugoutudengtongguocanshujinxingleshezhi,tixianleyuangaodexuanzeheanpai。yinci,keyirendingsheantupianyouyuangaoduliwancheng,tixianchuleyuangaodegexinghuabiaoda,jubei“獨創性”要件,故原告是涉案圖片的作者,享有涉案圖片的著作權。[34]
上述判決表明,我國司法實踐已存在承認在體現人類獨創性的前提下,AIGCjuyoukebanquanxingdexianli,tongshi,zaimeiyouhetongxiangfanyuedingdeqingkuangxia,banquanyingguishuyutouruleduchuangxingzhililaodongdeziranrenyonghu。yuzhixiangdui,ruguoyonghuliyongAI時輸入過於簡單的指令例如“畫一隻貓”,僅僅表達了一種思想或創意意圖,指令結果主要由AI算法控製,不能體現人類智力投入或體現極少,則難以構成人類的獨創性表達,不能構成版權法上的作品[35]。
AIGC的權利主體同時也構成責任主體,在AIGC侵犯第三方知識產權時,作為AIGC權利人的用戶應當承擔侵權責任。
(2)AI服務提供者(平台)滿足一定條件也可能侵犯知識產權
在“AI文生圖著作權侵權第一案”中,用戶使用的是本地部署的開源AI模型Stable Diffusion,並未涉及到使用平台AI服務,因此該案並未解決在涉及用戶使用第三方AI服務時的責任劃分問題。時隔一年有餘,2025年2月,杭州互聯網法院和廣州互聯網法院在“生成式AI服務提供者著作權侵權第一案”的“奧特曼案”生效判決中,一方麵延續了對AIGC可版權性以及用戶承擔AIGC侵權責任的肯定態度,另一方麵進一步明確了在AIGC可能侵犯第三方版權時,提供AI服務的平台雖然不構成直接侵權,但仍可能構成幫助侵權並承擔連帶責任[36]。“奧特曼案”中,用戶可通過使用被告(平台)提供的AI服務生成與受版權保護的“奧特曼”形象高度相似的圖片,法院認定:雖然被告未直接實施侵權行為,但未盡合理注意義務,構成著作權幫助侵權,具體考慮因素如下:
▶滿足著作權侵權要件:
使用平台AI服務生成結果的形象與具有高知名度的IP形象構成實質性相似;
平台基於通過AI定向生成的內容獲益[37]而不構成合理使用的抗辯條件;
▶平台未盡到合理注意義務:
平台對生成結果具有技術可幹預性;
平台未積極采取有效預防措施防止侵權。
從上述案例的裁判觀點可以看出,盡管AIGC的權利歸屬於用戶,但對AI服務提供者而言並非沒有任何風險,在AIGC已構成知識產權侵權的前提下,AI服務提供者如未盡到合理注意義務,同樣應承擔侵權責任。
綜上所述,對AI服務提供者而言,我們建議滿足以下要求以避免承擔AIGC知識產權侵權的風險:
①確保訓練數據來源合規(詳見本文第一章的分析),避免將可能侵犯第三方權益的語料作為訓練數據使用;
②在用戶協議或服務條款中,規定如下事項:
AI服務提供者不對AIGC主張權利[38]
對用戶使用AIGC的範圍作出嚴格限定,明確超出範圍的使用由用戶自擔風險
要求用戶應確保其輸入的提示詞和上傳到平台的內容來源合法
③根據自身對AIGC的可幹預程度,采取與之匹配的技術措施,包括但不限於使用人工或算法的方式審核用戶上傳內容和提示詞,屏蔽/過濾AIGC中可能侵犯知識產權的內容。
3. 減少幻覺和確保安全性
AI的“幻覺”是指AI模型生成了與事實不符或根本不存在的信息,例如虛構信息(如編造人物、事件或引用)、邏輯不一致、忽略上下文等。除了Transformer架構的技術特性天然會導致幻覺[39]外,幻覺的產生主要源於以下幾個方麵:
訓練數據質量欠缺,可能含有錯誤或不合邏輯的信息;
生成式模型缺乏事實核查機製;
用戶輸入的提示詞過於模糊或開放。
AI幻覺是AIGC中出現虛假、違法內容的直接原因,也是阻礙AI可靠性發展的重要因素。《生成式人工智能服務管理暫行辦法》規定,AI服務提供者應當采取有效措施提高訓練數據質量,增強訓練數據的真實性、準確性、客觀性、多樣性[40];基於服務類型特點,采取有效措施,提升生成式人工智能服務的透明度,提高生成內容的準確性和可靠性[41]。雖然Transformer架構的技術特性導致了客觀上無法完全消除幻覺,但AI服務提供者仍可以從訓練數據和監督機製等方麵入手,在研發和運營生成式AI過程中主動采取相關技術措施提高生成內容的準確性和可靠性,減少AI幻覺,例如:
更新模型訓練機製,增加人工幹預[42]
增強模型對自然語言的理解能力以更準確理解用戶的意圖
將模型與可靠的外部數據庫集成使其能夠實時訪問準確的信息並進行校驗[43]
選擇高質量的訓練數據,采取有效措施防止產生民族、信仰、國別、地域、性別、年齡、職業、健康等歧視[44]
在數據標注時確保標注規則合法合規、標注內容準確等,製定合法、清晰、具體、可操作的標注規則[45]
此外,為確保AI模型的安全性和可追責性,我國法律還進一步規定了AI服務提供者對算法/模型應履行安全評估和備案義務,包括:
①開展算法安全評估:具有輿論屬性或者社會動員能力的算法推薦服務[46]、生成式人工智能服務、深度合成服務[47]均應按照國家有關規定開展算法安全評估。實踐中,對於評估內容、評估流程等,企業可參照《信息安全技術 機器學習算法安全評估規範(GB/T 42888-2023)》《生成式人工智能服務安全基本要求(TC260-003)》等相關規範性文件或國家標準,履行安全評估義務,確保AI模型算法的安全性;
②進行算法/大模型備案:涉及具有輿論屬性或社會動員能力的算法推薦服務[48]、深度合成服務[49]、生成式AI服務的,應當按照相關法規的要求完成算法備案;特別地,提供生成式AI服務的,還需要另行完成生成式AI大模型備案[50]。
結語
隨著人類進入信息時代,技術的進步往往會引發關於個體權利和社會公共福祉平衡的討論,在立法的預見性遠遠落後於AI技術發展的今天,可以預想到未來圍繞AI合規問題的爭議仍將長久持續。麵對生成式AI所引發的複雜法律風險,全球主要司法管轄區紛紛啟動了監管製度的重構與政策調整。例如,歐盟《人工智能法案》(Artificial Intelligence Act)作為全世界首部綜合性人工智能監管法律,於2024年正式生效並實施;美國在近兩年來加速人工智能立法,僅在生成內容標識方麵,就在聯邦和州層麵先後出台了《2023 年 AI 標識法案》(AI Labeling Act of 2023)以及加州《人工智能透明度法案》(California AI Transparency Act);此外,美國科羅拉多州《關於人工智能消費者保護法案》(Colorado AI Act - SB 24-205)借鑒了歐盟《人工智能法案》,是美國首個在州一級對人工智能及其應用提出具體要求的綜合性監管立法,專注於防止算法歧視的人工智能消費者保護。我國的AI立法和監管也在積極行進中,企業在創新發展的同時,需要守正出奇,才能行穩致遠。
注釋
[1] 《生成式人工智能服務管理暫行辦法》第7條第(1)(3)(5)項
[2] 《刑法》第285條:【非法獲取計算機信息係統數據、非法控製計算機信息係統罪】違反國家規定,侵入前款規定以外的計算機信息係統或者采用其他技術手段,獲取該計算機信息係統中存儲、處理或者傳輸的數據,或者對該計算機信息係統實施非法控製,情節嚴重的,處三年以下有期徒刑或者拘役,並處或者單處罰金;情節特別嚴重的,處三年以上七年以下有期徒刑,並處罰金。
[3] 《網絡反不正當競爭暫行規定》第19條:經營者不得利用技術手段,非法獲取、使用其他經營者合法持有的數據,妨礙、破壞其他經營者合法提供的網絡產品或者服務的正常運行,擾亂市場公平競爭秩序。
[4] 《個人信息保護法》第73條第(4)項:匿名化,是指個人信息經過處理無法識別特定自然人且不能複原的過程。
[5] 參照(2013)高民終字第2352號“百度在線網絡技術(北京)有限公司等與北京奇虎科技有限公司等不正當競爭糾紛案”中北京市高級人民法院作出的生效判決,在司法實踐中,Robots協議已經被法院認定構成搜索引擎行業內公認的、應當被遵守的商業道德。因此,不遵循Robots協議而隨意抓取網站內容的行為將涉嫌《反不正當競爭法》第2條違反誠實信用原則和商業道德。
[6] 《網絡數據安全管理條例》第12條:網絡數據處理者向其他網絡數據處理者提供、委托處理個人信息和重要數據的,應當通過合同等與網絡數據接收方約定處理目的、方式、範圍以及安全保護義務等,並對網絡數據接收方履行義務的情況進行監督。向其他網絡數據處理者提供、委托處理個人信息和重要數據的處理情況記錄,應當至少保存3年。
[7] 《數據安全法》第32條:任何組織、個人收集數據,應當采取合法、正當的方式,不得竊取或者以其他非法方式獲取數據。法律、行政法規對收集、使用數據的目的、範圍有規定的,應當在法律、行政法規規定的目的和範圍內收集、使用數據。
[8] 針對個人信息的間接收集,《信息安全技術 個人信息安全規範(GB/T 35273-2020)》第5.4條e項規定:間接獲取個人信息時:1) 應要求個人信息提供方說明個人信息來源,並對其個人信息來源的合法性進行確認;2) 應了解個人信息提供方已獲得的個人信息處理的授權同意範圍,包括使用目的,個人信息主體是否授權同意轉讓、共享、公開披露、刪除等;3) rukaizhanyewusuoxujinxingdegerenxinxichulihuodongchaochuyihuodedeshouquantongyifanweide,yingzaihuoqugerenxinxihoudeheliqixianneihuochuligerenxinxiqian,zhengdegerenxinxizhutidemingshitongyi,huotongguogerenxinxitigongfangzhengdegerenxinxizhutidemingshitongyi。
[9] 根據《數據安全法》第33條,“從事數據交易中介服務的機構提供服務,應當要求數據提供方說明數據來源,審核交易雙方的身份,並留存審核、交易記錄”。通過數據交易所采購數據集,對於企業而言在來源合法性上會多一重保障,能有效降低後續風險。
[10] 《生成式人工智能服務管理暫行辦法》第9條第2款:提供者應當與注冊其服務的生成式人工智能服務使用者(以下稱使用者)簽訂服務協議,明確雙方權利義務。
[11] 《生成式人工智能服務管理暫行辦法》第7條第(二)項
[12] 北京互聯網法院:北京互聯網法院開庭審理全國首例涉及AI繪畫大模型訓練著作權侵權案,2024年6月20日發布於微信公眾號。鏈接:https://mp.weixin.qq.com/s/cyskAz1cASBaNIYQpGpGsA。2025年5月9日訪問。
[13] 參照《美國版權法》17 U.S.C. § 107 – Limitations on exclusive rights: Fair use:判斷是否構成合理使用,應考慮以下四個因素:①使用目的和性質(是否屬於商業用途,或為教育、研究、評論等非盈利目的);②作品本身的性質(如是高度原創性還是偏事實性內容);③所使用的數量和重要性(使用內容在原作品中所占比例及其核心程度);④對市場或作品價值的影響(是否會影響原作的銷售或經濟利益)。
[14] 《著作權法》第24條第1款:在下列情況下使用作品,可以不經著作權人許可,不向其支付報酬,但應當指明作者姓名或者名稱、作品名稱,並且不得影響該作品的正常使用,也不得不合理地損害著作權人的合法權益:(一)為個人學習、研究或者欣賞,使用他人已經發表的作品;(二)為介紹、評論某一作品或者說明某一問題,在作品中適當引用他人已經發表的作品;(三)為報道新聞,在報紙、期刊、廣播電台、電視台等媒體中不可避免地再現或者引用已經發表的作品;(四)報紙、期刊、廣播電台、電視台等媒體刊登或者播放其他報紙、期刊、廣播電台、電視台等媒體已經發表的關於政治、經濟、宗教問題的時事性文章,但著作權人聲明不許刊登、播放的除外;(五)報紙、期刊、廣播電台、電視台等媒體刊登或者播放在公眾集會上發表的講話,但作者聲明不許刊登、播放的除外;(六)為學校課堂教學或者科學研究,翻譯、改編、彙編、播放或者少量複製已經發表的作品,供教學或者科研人員使用,但不得出版發行;(七)國家機關為執行公務在合理範圍內使用已經發表的作品;(八)圖書館、檔案館、紀念館、博物館、美術館、文化館等為陳列或者保存版本的需要,複製本館收藏的作品;(九)免費表演已經發表的作品,該表演未向公眾收取費用,也未向表演者支付報酬,且不以營利為目的;(十)對設置或者陳列在公共場所的藝術作品進行臨摹、繪畫、攝影、錄像;(十一)將中國公民、法人或者非法人組織已經發表的以國家通用語言文字創作的作品翻譯成少數民族語言文字作品在國內出版發行;(十二)以閱讀障礙者能夠感知的無障礙方式向其提供已經發表的作品;(十三)法律、行政法規規定的其他情形。
[15] 《人工智能法(學者建議稿)》第24條“數據合理使用”:人(ren)工(gong)智(zhi)能(neng)開(kai)發(fa)者(zhe)使(shi)用(yong)他(ta)人(ren)享(xiang)有(you)著(zhu)作(zuo)權(quan)的(de)數(shu)據(ju)進(jin)行(xing)模(mo)型(xing)訓(xun)練(lian)時(shi),如(ru)果(guo)該(gai)使(shi)用(yong)行(xing)為(wei)與(yu)數(shu)據(ju)原(yuan)本(ben)的(de)使(shi)用(yong)目(mu)的(de)或(huo)功(gong)能(neng)不(bu)同(tong),並(bing)且(qie)不(bu)影(ying)響(xiang)該(gai)數(shu)據(ju)的(de)正(zheng)常(chang)使(shi)用(yong),也(ye)沒(mei)有(you)不(bu)合(he)理(li)地(di)損(sun)害(hai)數(shu)據(ju)權(quan)利(li)人(ren)的(de)合(he)法(fa)權(quan)益(yi),則(ze)該(gai)使(shi)用(yong)行(xing)為(wei)屬(shu)於(yu)數(shu)據(ju)合(he)理(li)使(shi)用(yong)。
[16] 《關於充分發揮知識產權審判職能作用推動社會主義文化大發展大繁榮和促進經濟自主協調發展若幹問題的意見》第2條第8款:妥(tuo)當(dang)運(yun)用(yong)著(zhu)作(zuo)權(quan)的(de)限(xian)製(zhi)和(he)例(li)外(wai)規(gui)定(ding),正(zheng)確(que)判(pan)定(ding)被(bei)訴(su)侵(qin)權(quan)行(xing)為(wei)的(de)合(he)法(fa)性(xing),促(cu)進(jin)商(shang)業(ye)和(he)技(ji)術(shu)創(chuang)新(xin),充(chong)分(fen)保(bao)障(zhang)人(ren)民(min)基(ji)本(ben)文(wen)化(hua)權(quan)益(yi)。正(zheng)確(que)認(ren)定(ding)合(he)理(li)使(shi)用(yong)和(he)法(fa)定(ding)許(xu)可(ke)行(xing)為(wei),依(yi)法(fa)保(bao)護(hu)作(zuo)品(pin)的(de)正(zheng)當(dang)利(li)用(yong)和(he)傳(chuan)播(bo)。在(zai)促(cu)進(jin)技(ji)術(shu)創(chuang)新(xin)和(he)商(shang)業(ye)發(fa)展(zhan)確(que)有(you)必(bi)要(yao)的(de)特(te)殊(shu)情(qing)形(xing)下(xia),考(kao)慮(lv)作(zuo)品(pin)使(shi)用(yong)行(xing)為(wei)的(de)性(xing)質(zhi)和(he)目(mu)的(de)、被使用作品的性質、被使用部分的數量和質量、使(shi)用(yong)對(dui)作(zuo)品(pin)潛(qian)在(zai)市(shi)場(chang)或(huo)價(jia)值(zhi)的(de)影(ying)響(xiang)等(deng)因(yin)素(su),如(ru)果(guo)該(gai)使(shi)用(yong)行(xing)為(wei)既(ji)不(bu)與(yu)作(zuo)品(pin)的(de)正(zheng)常(chang)使(shi)用(yong)相(xiang)衝(chong)突(tu),也(ye)不(bu)至(zhi)於(yu)不(bu)合(he)理(li)地(di)損(sun)害(hai)作(zuo)者(zhe)的(de)正(zheng)當(dang)利(li)益(yi),可(ke)以(yi)認(ren)定(ding)為(wei)合(he)理(li)使(shi)用(yong)。對(dui)設(she)置(zhi)或(huo)者(zhe)陳(chen)列(lie)在(zai)室(shi)外(wai)社(she)會(hui)公(gong)共(gong)場(chang)所(suo)的(de)藝(yi)術(shu)作(zuo)品(pin)進(jin)行(xing)臨(lin)摹(mo)、繪畫、攝影或者錄像,並對其成果以合理的方式和範圍再行使用,無論該使用行為是否具有商業目的,均可認定為合理使用。
[17] 例如,利用版權作品進行AIxunliandemudeshishengchengyubanquanzuopinxiangsidecailiao,huozaixianbanquanzuopindeduchuangxingbiaoda,douyingrenweigouchengduibanquanzuopindeshizhixingfuzhierbujubeizhezhongzhuanhuanxing。
[18] 參考GORDON GAO and Yao Xiaoyi (Sherry):Navigating Copyright Challenges in AI Model Training: A Cross-Border Perspective,2025年3月24日發布,鏈接:https://www.kwm.com/cn/en/insights/latest-thinking/navigating-copyright-challenges-in-ai-model-training-a-cross-border-perspective.html。該文章觀點認為,從技術角度,AI訓練場景下的訓練數據僅會短暫存儲在設備內存(RAM)中zhong形xing成cheng臨lin時shi副fu本ben,並bing且qie每mei個ge臨lin時shi副fu本ben會hui在zai很hen短duan的de時shi間jian內nei被bei後hou續xu的de訓xun練lian數shu據ju自zi動dong覆fu蓋gai,如ru果guo這zhe些xie被bei臨lin時shi存cun儲chu的de作zuo品pin不bu具ju備bei獨du立li的de經jing濟ji價jia值zhi,則ze該gai等deng“臨時性存儲”不構成中國《著作權法》上的“複製”。
[19] 國家知識產權局:國家知識產權強國建設工作部際聯席會議辦公室關於印發《2025年知識產權強國建設推進計劃》的通知,2025年4月29日發布,鏈接:https://www.cnipa.gov.cn/art/2025/5/7/art_542_199524.html?xxgkhide=1。2025年5月9日訪問。
[20] 《生成式人工智能服務管理暫行辦法》第7條第(1)項
[21] 開源協議的傳染性,換言之,是否允許將衍生模型作為閉源模型發布和商業使用。例如,GPL(GNU General Public License,GNU通用公共許可協議)和LGPL開源許可證使用限製較為嚴格,不允許修改後的衍生代碼作為閉源商業軟件進行發布和銷售;但DeepSeek采用的MIT(Massachusetts Institute of Technology, MIT)開源許可證則對此未作限製。
[22] See Geoffrey Hinton, Oriol Vinyals, Jeff Dean: Distilling the Knowledge in a Neural Network, arXiv, 2025-3-9, link: https://arxiv.org/pdf/1503.02531 https://arxiv.org/pdf/1503.02531.
[23] Slientsakke:知識蒸餾新高度!DeepSeek突破性技術重塑AI產業格局,載CSDN,2025年2月10日發布。鏈接:https://blog.csdn.net/weixin_49627776/article/details/145548879?utm_source=chatgpt.com,2025年5月9日訪問。
[24] 參考王飛、賀夢琳:以Deep Seek為例分析AIGC大模型開源與閉源的法律異同,載中倫研究,2025年2月24日發布。鏈接:https://www.zhonglun.com/research/articles/54229.html。2025年5月9日訪問。
[25] 《生成式人工智能服務管理暫行辦法》第12條:提供者應當按照《互聯網信息服務深度合成管理規定》對圖片、視頻等生成內容進行標識。
[26] 包括但不限於歐盟人工智能法案、美國聯邦《2023 年 AI 標識法案》(AI Labeling Act of 2023)以及美國加州《人工智能透明度法案》(California AI Transparency Act)等。
[27] 《人工智能生成合成內容標識辦法》第3條第4款
[28] 《人工智能生成合成內容標識辦法》第5條
[29] 《人工智能生成合成內容標識辦法》第3條第3款
[30] 《互聯網信息服務深度合成管理規定》第17條第1款:深度合成服務提供者提供以下深度合成服務,可能導致公眾混淆或者誤認的,應當在生成或者編輯的信息內容的合理位置、區域進行顯著標識,向公眾提示深度合成情況:(一)智能對話、智能寫作等模擬自然人進行文本的生成或者編輯服務;(二)合成人聲、仿聲等語音生成或者顯著改變個人身份特征的編輯服務;(三)人臉生成、人臉替換、人臉操控、姿態操控等人物圖像、視頻生成或者顯著改變個人身份特征的編輯服務;(四)沉浸式擬真場景等生成或者編輯服務;(五)其他具有生成或者顯著改變信息內容功能的服務。
[31] 《人工智能生成合成內容標識辦法》第4條
[32] 《人工智能生成合成內容標識辦法》第6條、第7條
[33] 根據該案判決書,涉案圖片的生成過程大致為:對AI圖片生成軟件輸入多個正向提示詞(如彩色照片、外景、完美的皮膚、夢幻般的黑眼睛、紅褐色的辮子、害羞、軟對焦、鏡頭光暈等)和反向提示詞(如繪畫、素描、卡通、畸形、模糊、醜陋等),並設置生成參數(如采樣方法、清晰度、引導係數、長寬比等),軟件可以根據用戶輸入的指令,自動生成圖片。
[34] (2023)京0491 民初11279 號
[35] 最高人民檢察院:AI創作的權利邊界在哪裏?2025年4月25日發布。鏈接: https://login.12309.gov.cn:8443/spp/zdgz/202504/t20250425_694112.shtml,https://newspaper.jcrb.com/2025/20250425/20250425_004/news-zgjcb-10876-20250425-m-004-300.pdf。2025年5月9日訪問。
[36] 在杭州互聯網法院審理的奧特曼案件中,原告上海新創華文化發展有限公司(奧特曼係列形象的中國獨占被授權方)起訴杭州某AI平台運營商,指控其平台用戶通過上傳奧特曼圖片訓練LoRA模型並生成侵權圖片,平台未采取必要措施製止,侵害了原告的信息網絡傳播權;無獨有偶,在廣州互聯網法院審理的“奧特曼”案件中,原告同樣為新創華公司,被告為某AI繪畫平台,用戶在該平台輸入“生成戴拿奧特曼”等指令後,平台輸出與對應奧特曼極為相似的圖片,原告主張被告侵犯複製權、改編權及信息網絡傳播權。
[37] 從“商業性使用”的認定規則來看,此處的“獲益”應理解為既包括獲取直接經濟利益(例如要求用戶向平台充值以使用AIGC服務),也包括獲取間接利益(例如利用AIGC推廣平台的品牌或其他特定形象)。
[38] 通常而言,主張權利意味著自願成為AIGC的責任主體,一旦後續AIGC侵權,責任主體需要承擔相應責任。
[39] 參考阿裏巴巴人工智能治理與可持續發展研究中心:《生成式人工智能治理與實踐白皮書》第三章: 生成式人工智能風險產生原因的分析,載智源社區,2023年11月17 日發布。鏈接:https://hub.baai.ac.cn/view/32668?utm_source=chatgpt.com,2025年5月9日訪問。本質上,基於Transformer架構的生成式AI模(mo)型(xing)是(shi)概(gai)率(lv)模(mo)型(xing),它(ta)們(men)的(de)目(mu)標(biao)是(shi)生(sheng)成(cheng)在(zai)統(tong)計(ji)上(shang)看(kan)起(qi)來(lai)合(he)理(li)的(de)文(wen)本(ben),而(er)不(bu)是(shi)保(bao)證(zheng)事(shi)實(shi)的(de)準(zhun)確(que)性(xing),因(yin)而(er)導(dao)致(zhi)模(mo)型(xing)更(geng)容(rong)易(yi)生(sheng)成(cheng)看(kan)似(si)合(he)理(li)但(dan)實(shi)際(ji)上(shang)不(bu)正(zheng)確(que)的(de)內(nei)容(rong)。
[40] 《生成式人工智能服務管理暫行辦法》第7條第(4)項
[41] 《生成式人工智能服務管理暫行辦法》第4條第(5)項
[42] 例如,使用人類反饋的強化學習模型RLHF, 完成人類價值觀的對齊,使語言大模型的生成內容更符合人類預期。
[43] 例如,利用的RAG檢索增強生成技術,結合引用訓練數據來源之外的真實世界數據或權威數據庫數據來增強模型輸出的可靠性。
[44] 《生成式人工智能服務管理暫行辦法》第4條第(2)項
[45] 《生成式人工智能服務管理暫行辦法》第8條
[46] 《互聯網信息服務算法推薦管理規定》第27條:具有輿論屬性或者社會動員能力的算法推薦服務提供者應當按照國家有關規定開展安全評估。
[47] 《互聯網信息服務深度合成管理規定》第15條:深度合成服務提供者和技術支持者應當加強技術管理,定期審核、評估、驗證生成合成類算法機製機理。深度合成服務提供者和技術支持者提供具有以下功能的模型、模板等工具的,應當依法自行或者委托專業機構開展安全評估:(一)生成或者編輯人臉、人聲等生物識別信息的;(二)生成或者編輯可能涉及國家安全、國家形象、國家利益和社會公共利益的特殊物體、場景等非生物識別信息的。
[48]《互聯網信息服務算法推薦管理規定》第24條:juyouyulunshuxinghuozheshehuidongyuannenglidesuanfatuijianfuwutigongzheyingdangzaitigongfuwuzhiriqishigegongzuorineitongguohulianwangxinxifuwusuanfabeianxitongtianbaofuwutigongzhedemingcheng、服務形式、應用領域、算法類型、算法自評估報告、擬(ni)公(gong)示(shi)內(nei)容(rong)等(deng)信(xin)息(xi),履(lv)行(xing)備(bei)案(an)手(shou)續(xu)。算(suan)法(fa)推(tui)薦(jian)服(fu)務(wu)提(ti)供(gong)者(zhe)的(de)備(bei)案(an)信(xin)息(xi)發(fa)生(sheng)變(bian)更(geng)的(de),應(ying)當(dang)在(zai)變(bian)更(geng)之(zhi)日(ri)起(qi)十(shi)個(ge)工(gong)作(zuo)日(ri)內(nei)辦(ban)理(li)變(bian)更(geng)手(shou)續(xu)。算(suan)法(fa)推(tui)薦(jian)服(fu)務(wu)提(ti)供(gong)者(zhe)終(zhong)止(zhi)服(fu)務(wu)的(de),應(ying)當(dang)在(zai)終(zhong)止(zhi)服(fu)務(wu)之(zhi)日(ri)起(qi)二(er)十(shi)個(ge)工(gong)作(zuo)日(ri)內(nei)辦(ban)理(li)注(zhu)銷(xiao)備(bei)案(an)手(shou)續(xu),並(bing)作(zuo)出(chu)妥(tuo)善(shan)安(an)排(pai)。
[49] 《互聯網信息服務深度合成管理規定》第19條:具有輿論屬性或者社會動員能力的深度合成服務提供者,應當按照《互聯網信息服務算法推薦管理規定》履行備案和變更、注銷備案手續。深度合成服務技術支持者應當參照前款規定履行備案和變更、注銷備案手續。完成備案的深度合成服務提供者和技術支持者應當在其對外提供服務的網站、應用程序等的顯著位置標明其備案編號並提供公示信息鏈接。
[50] 《生成式人工智能服務管理暫行辦法》第17條:提供具有輿論屬性或者社會動員能力的生成式人工智能服務的,應當按照國家有關規定開展安全評估,並按照《互聯網信息服務算法推薦管理規定》履行算法備案和變更、注銷備案手續。
聯係我們
關注公眾號
聯係我們