人工智能開發者和運營者知識產權風險研究

作者:佚名

觀點

內容提要

本文分析了AI產業中開發者和運營者所麵臨的知識產權風險,其中主要探討中數據采集、算(suan)法(fa)開(kai)發(fa)及(ji)生(sheng)成(cheng)內(nei)容(rong)運(yun)營(ying)等(deng)環(huan)節(jie)的(de)知(zhi)識(shi)產(chan)權(quan)風(feng)險(xian),並(bing)提(ti)出(chu)針(zhen)對(dui)性(xing)應(ying)對(dui)策(ce)略(lve)。在(zai)數(shu)據(ju)層(ceng)麵(mian),訓(xun)練(lian)數(shu)據(ju)的(de)非(fei)法(fa)抓(zhua)取(qu)與(yu)版(ban)權(quan)授(shou)權(quan)困(kun)境(jing)成(cheng)為(wei)核(he)心(xin)矛(mao)盾(dun),混(hun)合(he)數(shu)據(ju)源(yuan)導(dao)致(zhi)的(de)侵(qin)權(quan)溯(su)源(yuan)困(kun)難(nan)與(yu)"算法陰影"現象加劇法律風險。開源生態雖加速技術迭代,卻潛藏代碼汙染、zhuanlijiufenjishujujiheguiheidongdengyinhuan,xugoujianfangyuxingzhuanlibujuyushujusuyuanjizhi。shengchengneirongdequanshuzhengyizejujiaoyubanquanguishumohuyuqinquanpandingnanti,xutongguoguochengliuhenguanliyuquanshushengmingqianzhishixianfengxianguibi。benwenzhichu,dangqianfalvkuangjiacunzaizerenbianjiemohu、集體授權機製缺位等問題,需通過完善立法、強化行業合規標準及推動技術透明化實現風險防控。

關鍵詞

人工智能;知識產權風險;訓練數據;開源生態;生成內容權屬

一、引言

(一)研究背景

近年來,人工智能技術如雨後春筍般迅速崛起並廣泛應用,正深刻改變著人類社會的生產生活方式。從智能家居到自動駕駛;從醫療診斷到金融科技,AI技術憑借其強大的數據處理、分析和預測能力,為各領域帶來了前所未有的效率提升和創新發展機遇。然而,伴隨著這些機遇而來的是,AI開發者和運營者在知識產權方麵,麵臨著日益複雜和嚴峻的風險挑戰。

AI技術的複雜性和特殊性,使得知識產權的保護在整個AI產業鏈中占據著至關重要的地位。一方麵,AI開發過程涉及到大量的數據收集、算法設計和模型訓練等環節,其中的數據、算法和模型等要素都可能成為知識產權侵權的導火索。此外,AI產品或服務在市場運營過程中,也麵臨著諸多知識產權風險,如競爭對手的不正當競爭、技術侵權糾紛,使用者不合理利用而導致的侵犯其他主體權利的情況也會出現,這會讓AI的運營者承擔監管不到位而帶來的法律責任等。

(二)研究意義

在當今數字化時代,AI產業的健康發展對於推動科技進步和經濟社會發展具有不可替代的重要作用。深入研究AI開發者和運營者麵臨的知識產權風險,具有重要的現實意義和長遠的戰略價值。

保護AI創新成果,激勵開發者和運營者持續投入研發資源,推動AI技術創新和產業升級,有助於提升AI產業的核心競爭力,也能夠給使用AI的人們一本使用白皮書,在合理的範圍內使用AI ,讓AI來造福人類,造福社會。通過對知識產權風險的研究和防範,可以為企業創造一個穩定、公平的市場競爭環境,促進AI產業的可持續發展。

同時,明確AI知識產權風險,有助於厘清相關法律關係和責任邊界,完善知識產權法律法規和政策體係,為AI產業的規範發展提供有力的法律保障。這對於推動AI技術在全球範圍內的交流與合作,提升全球AI產業的整體發展水平,也具有重要的意義。此外,還可以提高公眾對AI知識產權問題的認識和關注度,增強全社會的知識產權保護意識,營造良好的創新氛圍和知識產權文化環境。

(三)研究目的與問題

本研究旨在全麵、深入地剖析AI開發者和運營者在知識產權方麵麵臨的多種風險,探究其風險來源、表現形式及潛在影響,進而提出針對性的防範與應對策略,以期為AI產業的健康、可持續發展提供理論支持和實踐指導。

為實現上述研究目的,本研究將重點探討以下問題:AI開發者和運營者在數據收集、使用和管理過程中,麵臨哪些知識產權風險,應采取何種有效的防範與應對措施?在算法開發、創(chuang)新(xin)和(he)應(ying)用(yong)方(fang)麵(mian),存(cun)在(zai)哪(na)些(xie)知(zhi)識(shi)產(chan)權(quan)侵(qin)權(quan)隱(yin)患(huan),應(ying)采(cai)取(qu)何(he)種(zhong)有(you)效(xiao)的(de)防(fang)範(fan)與(yu)應(ying)對(dui)措(cuo)施(shi)?市(shi)場(chang)運(yun)營(ying)中(zhong),如(ru)何(he)應(ying)對(dui)用(yong)戶(hu)的(de)不(bu)正(zheng)當(dang)使(shi)用(yong)而(er)所(suo)得(de)生(sheng)成(cheng)物(wu)的(de)知(zhi)識(shi)產(chan)權(quan)糾(jiu)紛(fen),應(ying)采(cai)取(qu)何(he)種(zhong)有(you)效(xiao)的(de)防(fang)範(fan)與(yu)應(ying)對(dui)措(cuo)施(shi)?

通過回答這些問題,本研究期望能夠為AI開發者和運營者在知識產權保護方麵提供有益的參考和借鑒,幫助其更好地應對知識產權風險挑戰,以利於實現企業的穩健發展和AI產業的繁榮進步。

二、訓練數據引發的侵權風險

(一)未經授權的數據使用

AI模型的訓練需要海量數據,其中開發者訓練大模型的語料包括開源語料、商業語料、yijizicaiyuliao。kaiyuanyuliaodewentizaiyuwufabaozhengzhishichanquandeqingjiexing,shangyeyuliaoshikaifazhexuyaoyushujutigongzheqiandingxieyihouhuodedeneirong,danhuoququanqiubanquanrendeshumianshouquanzaishijianzhongjihubukexing,yuanyinbaokuoquanlirenshuliangpangda、授權條款複雜,以及集體管理組織覆蓋不足①。例如,Stable Diffusion和Midjourney因使用未經授權的圖片訓練模型被藝術家起訴侵權。(華蓋創意和三名藝術家起訴Stable Diffusion案件②)

此外,從網絡抓取數據訓練大語言模型(LLM)也(ye)可(ke)能(neng)直(zhi)接(jie)構(gou)成(cheng)版(ban)權(quan)侵(qin)權(quan),即(ji)前(qian)文(wen)所(suo)提(ti)到(dao)的(de)開(kai)源(yuan)語(yu)料(liao)無(wu)法(fa)保(bao)證(zheng)知(zhi)識(shi)產(chan)權(quan)的(de)清(qing)潔(jie)性(xing)。網(wang)絡(luo)抓(zhua)取(qu)的(de)可(ke)能(neng)會(hui)直(zhi)接(jie)侵(qin)權(quan),從(cong)公(gong)開(kai)網(wang)頁(ye)抓(zhua)取(qu)數(shu)據(ju)可(ke)能(neng)違(wei)反(fan)《反不正當競爭法》和《著作權法》。例如,Reddit等平台已對OpenAI等企業的大規模數據爬取行為提出侵權指控,進行集體訴訟,認為其構成對平台內容生態的掠奪性利用。

技術特性加劇風險,生成式AI的“算法陰影”現象(即使刪除訓練數據,模型仍保留學習特征)導致侵權後果難以消除,而訓練數據的混合性(多源數據融合)使侵權溯源更加困難。

(二)法律責任的模糊性

即使開發者願意支付合理費用,由於缺乏統一授權機製和集體管理規範,談判也容易破裂,全球版權人的分散性(如文字作品涉及數百萬的作者)、授權條款的複雜性(地域限製、二次開發限製)導致實際談判難以完成。版權方對AI產業的警惕性也增加了交易難度,尤其是小型開發者更難與大公司競爭資源。美國已有多個案例顯示,AI開發者需為訓練數據的合法性承擔潛在訴訟風險,稍不注意就會侵犯到數據所有者的著作權,招來訴訟。就像在美國Getty Images對Stability AI的訴訟中,涉及超1200萬張圖片的非法抓取,這裏麵甚至有出現篡改版權管理信息的情形③。

集體授權機製缺位,音樂、文學等領域雖有著作權集體管理組織(如中國音著協),但其授權範圍仍未覆蓋AI訓練場景。來源於北歐五國著作權延伸性集體管理製度遂成為北歐諸國版權法上的一項重要製度④。若這一製度能夠應用到AI語料的訓練上來,這也會使小型開發者更容易承擔分散授權的成本。

歐盟《人工智能法案》要求訓練數據來源透明化並履行版權聲明義務,而中國《生成式AI服務管理暫行辦法》第七條僅原則性禁止“侵害他人知識產權”,具體細則尚未明確。在愛奇藝訴Minimax案中,原告主張AI模型對影視片段的“學習-生成”構成對改編權的侵害,法院需首次界定“數據訓練是否產生衍生作品”,判決結果可能重塑行業授權模式。

三、開源生態的知識產權隱患

目前在AI領域屬於“弄潮兒”地位的DeepSeek將其代碼歸於開源使用,開源生態為AIkaifazhetigonglegaoxiaoxiezuodejishuturang,huoxuzheshiyizhongxiangtongguokaiyuanlaiyinfafanshigemingdexiangfa,jishuminzhuhuanengcuishengchukongbudeshengtailiebiansudu。danqikaifangxingyugongxiangxingyejiajulezhishichanquanqinquanfengxiandefuzaxing。jiexialai,bizhejiangcongdaimashujuxiaci、數據集的合規黑洞、專利糾紛以及應對策略等維度進行係統性分析,並結合典型案例與法律實踐展開論述。

(一)代碼與數據瑕疵風險:多層級權利衝突

1. 開源代碼的“汙染鏈”隱患

開源社區中,貢獻者可能無意或故意引入未經授權的代碼片段,形成“汙染鏈”。即使遵守開源協議,開發者仍需對代碼的知識產權清潔性承擔連帶責任。比如版權歸屬模糊的發生,DeepSeek開源模型因未明確標注代碼貢獻者的版權聲明,導致下遊用戶麵臨侵權追溯風險。

還有可能就是隱性專利侵權,部分開源代碼可能隱含第三方專利技術(如算法優化模塊),使用者即使遵循GPL協議,若未獲得專利許可仍構成侵權。所以在此處,處於開發階段的大模型公司,應多加予以注意此類型的風險。

2. 數據集的“合規黑洞”

開源數據集的使用可能觸發版權、隱私權、數據權三重風險:

版權侵權上來看,國內雖目前無相關案例,但在英國已經有相關判決,如在Getty Images訴Stability AI案中顯示,從網絡抓取的訓練數據若違反Robots協議或未獲權利人授權,可能構成不正當競爭與著作權侵權(目前此案件仍未結案,法官Joanna Smith認為Getty Images集團有勝訴前景)。

利用開源數據集訓練可能會侵犯隱私權,因為開源數據中若包含未脫敏的個人信息,這可能違反《個人信息保護法》第73條,導致民事賠償與行政處罰。再者,任意抓取數據有產生偏見連帶責任的可能性,比如抓取有性別歧視、種族偏見的數據集來訓練模型,可能因生成歧視性內容承擔社會責任與法律風險。

3. 專利訴訟風險:開源生態的“達摩克利斯之劍”

(1)貢獻者專利主張

開源協議中的專利條款(比如Apache 2.0的專利許可)可能因使用者的“反向工程”或“商業用途”觸chu發fa貢gong獻xian者zhe訴su訟song。例li如ru專zhuan利li回hui授shou條tiao款kuan,部bu分fen協xie議yi要yao求qiu使shi用yong者zhe將jiang改gai進jin技ji術shu的de專zhuan利li權quan無wu償chang授shou予yu社she區qu,若ruo企qi業ye未wei履lv行xing則ze可ke能neng麵mian臨lin專zhuan利li無wu效xiao風feng險xian。再zai者zhe就jiu是shi專zhuan利li終zhong止zhi條tiao款kuan,使shi用yong者zhe若ruo違wei反fan協xie議yi,貢gong獻xian者zhe可ke立li即ji終zhong止zhi專zhuan利li授shou權quan,導dao致zhi產chan品pin下xia架jia。

(2)供應鏈攻擊的“暗礁”

開源依賴項若存在未披露的專利漏洞,可能通過供應鏈傳導至最終產品的隱蔽性侵權:Hugging Face模型庫中曾發現惡意代碼嵌入的Pickle文件,使用者若未審查依賴項,可能連帶承擔專利侵權責任⑤。

4. 應對策略:構建“防禦-合規-協同”三位一體機製

防禦性專利布局,其對核心算法申請專利組合,形成技術護城河,同時開展FTO(自由實施分析)排查開源代碼的專利風險。

進行數據合規審計,建立數據溯源機製,對訓練數據進行版權清算與匿名化處理(如采用差分隱私技術)。參加社區協同治理,參與Linux基金會等組織推動開源協議與專利政策的標準化,減少條款衝突(如Open Chain認證體係)。有一典型案例是微軟使用“開源+專利交叉許可”模式,將Azure AI服務與開源社區深度綁定,既規避侵權風險又擴大技術影響力,或許可以借鑒此類模式來規避風險⑥。

四、生成內容的權屬與侵權爭議

(一)版權歸屬問題

目前國內AI生成內容(如文本、圖像)的版權歸屬基本都歸於AI的使用人所有。中國法院在類似案件中判決主要采用“創作工具說”的觀點:例如19年時騰訊訴盈訊案⑦中法院支持AI生成內容受著作權保護,並認為其使用者享有其版權。比較特別的是菲林案⑧則否定其版權屬性(zhezhuyaoshiyinweiyuangaofeilinlvsuodewenzhangshiyouweikexianxingzheyifalvjiansuogongjuwangzhanzhong,dianjijiandanzhilingershengchengdefalvbaogao,bingwugerenlaodongyijizhilichengguodeningjie,genbenbufuhezuopindingyizhongdezhilichengguozheyici。)把視角移到美國,美國版權局已經明確拒絕為純AI生成內容登記版權⑨,要求必須有“人類作者”參與,展開來講就是如果作品是AI作為工具進行輔助創作的可以申請版權的保護;但僅僅通過指令生成的AI作品無法獲得版權的保護,從這點來看我國相對美國來說,對於人工智能生成物的保護力度更大。

對於國內目前對於AI生成內容的態度來講,作為人工智能的生產者、運營者來說,我們的策略可以是:首先,過程留痕管理,企業需建立創作日誌係統,完整記錄提示詞修改、參數調整及版本迭代過程(如常熟案中用戶協議與操作日誌得到來了司法采信⑩)。其次,權屬聲明前置,在用戶協議中明確AI工具的“輔助工具”地位,對用戶盡到提示義務,讓用戶能夠明白其應該合理運用AI工具,其得到作品的版權歸其自身所有。

(二)輸出內容侵權風險

AI生成物可能因過度借鑒訓練數據中的受保護作品而侵犯這些作品的著作權。例如,ChatGPT生成的文本若與訓練數據中的文章實質性相似,可能侵犯原作者的複製權或改編權。但證明AI接觸過特定原作品存在技術困難,也增加了開發者和運營者維權的複雜程度。

1. 侵權類型化分析

首先是直接複製風險,AI生成物與訓練數據中的受保護作品構成實質性相似。比如在圖片領域之中,廣州互聯網法院“奧特曼案”中,AI生sheng成cheng的de繪hui畫hua形xing象xiang與yu原yuan作zuo奧ao特te曼man構gou成cheng近jin似si,判pan賠pei金jin額e覆fu蓋gai商shang業ye使shi用yong獲huo利li。目mu前qian在zai文wen本ben領ling域yu,國guo內nei雖sui暫zan無wu相xiang關guan人ren工gong智zhi能neng生sheng成cheng的de文wen字zi作zuo品pin侵qin權quan案an件jian,但dan筆bi者zhe認ren為wei人ren工gong智zhi能neng生sheng成cheng文wen本ben的de侵qin權quan可ke能neng性xing比bi較jiao大da,人ren工gong智zhi能neng的de生sheng產chan者zhe運yun營ying者zhe也ye應ying該gai提ti前qian部bu署shu規gui劃hua,做zuo好hao相xiang關guan合he規gui工gong作zuo。

接下來繼續來看“奧特曼”案的判決,本案中作為AI的經營者,它的問題在於:第一,投訴舉報機製的欠缺。根據《生成式人工智能服務管理暫行辦法》第十五條規定:“提供者應當建立健全投訴、舉報機製,設置便捷的投訴、舉報入口,公布處理流程和反饋時限,及時受理、處理公眾投訴舉報並反饋處理結果。”而本案中被告經營的Tab網站並未建立相關投訴舉報機製。第二,潛在風險提示的欠缺。《生成式人工智能服務管理暫行辦法》第四條規定:“提供和使用生成式人工智能服務,應當遵守法律、行政法規,尊重社會公德和倫理道德,遵守以下規定:……(三)尊重知識產權、商業道德,保守商業秘密,不得利用算法、數據、平台等優勢,實施壟斷和不正當競爭行為;……(五)基於服務類型特點,采取有效措施,提升生成式人工智能服務的透明度,提高生成內容的準確性和可靠性。”本案中,AI經(jing)營(ying)者(zhe)未(wei)以(yi)服(fu)務(wu)協(xie)議(yi)等(deng)方(fang)式(shi)提(ti)示(shi)用(yong)戶(hu)不(bu)得(de)侵(qin)害(hai)他(ta)人(ren)著(zhu)作(zuo)權(quan)。而(er)與(yu)一(yi)般(ban)的(de)網(wang)絡(luo)服(fu)務(wu)存(cun)在(zai)顯(xian)著(zhu)區(qu)別(bie)的(de)是(shi),一(yi)般(ban)而(er)言(yan),用(yong)戶(hu)在(zai)使(shi)用(yong)生(sheng)成(cheng)式(shi)人(ren)工(gong)智(zhi)能(neng)服(fu)務(wu)時(shi),對(dui)他(ta)人(ren)特(te)別(bie)是(shi)著(zhu)作(zuo)權(quan)人(ren)的(de)潛(qian)在(zai)侵(qin)權(quan)風(feng)險(xian)缺(que)乏(fa)明(ming)確(que)認(ren)知(zhi),因(yin)此(ci)生(sheng)成(cheng)式(shi)人(ren)工(gong)智(zhi)能(neng)服(fu)務(wu)提(ti)供(gong)者(zhe)有(you)義(yi)務(wu)對(dui)用(yong)戶(hu)進(jin)行(xing)提(ti)示(shi),這(zhe)其(qi)中(zhong)就(jiu)包(bao)括(kuo)用(yong)戶(hu)不(bu)能(neng)利(li)用(yong)其(qi)服(fu)務(wu)侵(qin)犯(fan)他(ta)人(ren)著(zhu)作(zuo)權(quan)。 第三,顯著標識的欠缺。《生成式人工智能服務管理暫行辦法》第十二條規定、《互聯網信息服務深度合成管理規定》dishiqitiaoguidingshengchengshirengongzhinengfuwutigongzhezaishengchengwukenengdaozhigongzhonghunxiaohuozhewurendeqingkuangxia,youyiwuduiqitigongdeshengchengwujinxingxianzhubiaoshi。jingbiaoshihou,youguanquanlirennenggoumingquerenshidaoshengchengwuxiyourengongzhinengshengcheng,jinercaiqugengjuzhenduixingheyouxiaodeweiquancuoshi,genghaodibaohuqiliyi⑪。

上述一案中被告未盡到上述注意義務,主觀上存在過錯,因此應對侵權行為承擔相應的賠償責任。所以筆者建議相關人工智能的生產者、經營者應該重視設立相關機製,保護用戶,保護其他作者的著作權,更是保護好自己。

隱性改編風險:AI對訓練數據的二次創作可能侵犯改編權。如Stable Diffusion生成的插畫若保留原作的構圖框架與色彩風格,即使元素替換仍可能被認定為衍生作品。

2. 技術性抗辯與合規難點

“接觸+實質性相似”原則的適用困境:訓練數據的非公開性導致權利人難以證明AI接觸過特定作品(如Getty Images訴Stability AI案中,原告需通過算法逆向工程證明數據來源)。黑箱模型難以追溯生成路徑,司法實踐中多采用“高度相似推定接觸”(如“奧特曼案”中法院未要求原告提供完整訓練數據證據鏈)。

進行數據源合規審查,優先使用開源協議明確授權的數據集(如CC-BY-NC),避免使用未經清洗的網絡爬取數據,這種情況極易招來訴訟。建立訓練數據溯源機製,對高價值版權內容(如文學名著、商業圖片)實施“白名單”過濾。建立侵權預警係統,部署AI輸出比對工具(如Copyscape等文本抄襲檢測工具、TinEye等反向圖片搜索工具),自動篩查生成內容與既有作品的相似度閾值。也可以參考抖音的模式,對疑似侵權內容添加“AI生成警示標簽”,以提示人工智能的使用者不應用於商業用途,盡到經營者的提示義務。

五 、結語

人工智能技術的迅猛發展正深刻重構全球創新生態與產業格局,但隨之而來的知識產權風險已成為製約AI產業健康發展的關鍵瓶頸。本研究通過分析發現,AI開發者和運營者麵臨的知識產權風險呈現多維度、跨法域、技術性強的特征:congxunlianshujudeshouquankunjingdaokaiyuanshengtaidequanshuxiaci,congshengchengneirongdebanquanzhengyidaozhuanliqinquandeyinbichuandao,meiyihuanjiejunkenengchufafalvjiufenbingzuaijishuchuangxin。zhexiefengxianbujinyuanyujishutexingyufalvguizhidecuowei,gengfanyingchuquanqiuzhishichanquanzhilitixizaiyingduiAI革命時的滯後性。

研究進一步揭示,化解AI知識產權風險需構建“技術-法律-產業”協同治理框架:技術上,應推動數據溯源、算法透明化與版權標記技術的研發,降低侵權風險的可溯性障礙;法律上,需完善集體授權機製、明確衍生作品認定標準,並通過司法判例引導責任邊界的厘清;產業層麵,則需建立全鏈條合規體係,強化開源社區治理與行業自律,同時探索“防禦性專利+交叉許可”等(deng)新(xin)型(xing)商(shang)業(ye)模(mo)式(shi)。值(zhi)得(de)關(guan)注(zhu)的(de)是(shi),全(quan)球(qiu)監(jian)管(guan)差(cha)異(yi)帶(dai)來(lai)的(de)合(he)規(gui)成(cheng)本(ben)攀(pan)升(sheng),要(yao)求(qiu)企(qi)業(ye)必(bi)須(xu)建(jian)立(li)動(dong)態(tai)風(feng)險(xian)評(ping)估(gu)機(ji)製(zhi),在(zai)技(ji)術(shu)創(chuang)新(xin)與(yu)法(fa)律(lv)遵(zun)從(cong)之(zhi)間(jian)尋(xun)求(qiu)平(ping)衡(heng)。

注釋

① 全國網絡安全標準化技術委員會:《生成式人工智能服務安全基本要求》,2024-02-29:第2頁。

② 參見https://casetext.com/case/andersen-v-stability-ai-ltd。

③ 參見https://www.vossius.eu/fileadmin/news_docs/Getty_Images_v_Stability_AI_Ltd.pdf。

④ 孫新強,薑榮:《著作權延伸性集體管理製度的中國化構建——以比較法為視角》,《法學雜誌》,2018年,第39期:第34頁。

⑤ 參見https://mp.weixin.qq.com/s/y1ic03Uxx2jm2NXlvLZSZA。

⑥ 參見https://mp.weixin.qq.com/s/p4epUxwOeuPR9mCqkBn5vw。

⑦ 參見廣東省深圳市南山區人民法院(2019)粵0305民初14010號民事判決書

⑧ 參見北京知識產權法院(2019)京73民終2030號

⑨ 參見https://copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-2-Copyrightability-Report.pdf。

⑩ 參見江蘇省常熟市人民法院(2024)蘇0581民初6697號民事判決書

⑪ 參見廣州互聯網法院(2024)粵0192民初113號民事判決書

作者

作者動態

作者其他文章

相關領域

Copyright © 1998-2018 天達共和律師事務所 京ICP備11012394號
聯係我們 關注公眾號
聯係我們