&

21世紀(jì)經(jīng)濟(jì)報(bào)道記者鄭雪、馮戀閣北京、廣州報(bào)道?生成式人工智能商業(yè)化落地探索走深，保障安全也成為其進(jìn)程中的一個(gè)重要議題。

(資料圖)

近日，全國(guó)信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)組織（以下簡(jiǎn)稱信安標(biāo)委）組織制定的《生成式人工智能服務(wù)安全基本要求》（征求意見(jiàn)稿）（以下簡(jiǎn)稱“征求意見(jiàn)稿”）公開(kāi)征求意見(jiàn)，從語(yǔ)料安全、模型安全、安全措施、安全評(píng)估等多方面對(duì)生成式人工智能服務(wù)在安全方面的基本要求。

建立語(yǔ)料來(lái)源黑名單，明確語(yǔ)料可溯源

數(shù)據(jù)是生成式人工智能發(fā)展的燃料，此次征求意見(jiàn)稿亦對(duì)輸入數(shù)據(jù)做了相關(guān)要求。征求意見(jiàn)稿對(duì)于訓(xùn)練語(yǔ)料（Training Data）進(jìn)行明確，即所有直接作為模型訓(xùn)練輸入的數(shù)據(jù)，包括預(yù)訓(xùn)練、優(yōu)化訓(xùn)練過(guò)程中的輸入數(shù)據(jù)。

值得關(guān)注的是，歐盟的《人工智能法》也明確了Training Data的范圍。北京航空航天大學(xué)法學(xué)院副教授趙精武在接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)表示，相較于歐盟模式而言，征求意見(jiàn)稿側(cè)重于對(duì)人工智能系統(tǒng)背后算法模型的影響，將預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等環(huán)節(jié)的輸入端數(shù)據(jù)均納入“訓(xùn)練語(yǔ)料”的范疇。

訓(xùn)練數(shù)據(jù)良莠不齊一直是大模型成長(zhǎng)難以忽視的重難點(diǎn)。征求意見(jiàn)稿對(duì)語(yǔ)料來(lái)源安全進(jìn)行了規(guī)制，要對(duì)各來(lái)源語(yǔ)料進(jìn)行安全評(píng)估，單一來(lái)源語(yǔ)料內(nèi)容中含違法不良信息超過(guò)5%的，應(yīng)將該來(lái)源加入黑名單，而進(jìn)入黑名單的語(yǔ)料將不會(huì)用以訓(xùn)練。

中國(guó)政法大學(xué)數(shù)據(jù)法治研究院教授張凌寒指出，目前國(guó)家對(duì)人工智能生成內(nèi)容的治理高度重視，對(duì)投放市場(chǎng)的AI產(chǎn)品推行黑名單機(jī)制是必然的?！坝绕溽槍?duì)境外語(yǔ)料源，意見(jiàn)稿已經(jīng)給出了相對(duì)細(xì)化的評(píng)判標(biāo)準(zhǔn)，黑名單機(jī)制具有較高可操作性?！?/p>

不過(guò)，北京師范大學(xué)法學(xué)院博士生導(dǎo)師、中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)研究中心副主任吳沈括指出，實(shí)踐中建立語(yǔ)料來(lái)源黑名單，還需關(guān)注如何建立具有廣泛覆蓋性的語(yǔ)料參照標(biāo)準(zhǔn)，對(duì)語(yǔ)料做出準(zhǔn)確的識(shí)別和認(rèn)定。

環(huán)球律師事務(wù)所合伙人孟潔介紹道，目前語(yǔ)料內(nèi)容篩選的方式主要包括：關(guān)鍵詞過(guò)濾、分類模型、人工篩選等。關(guān)鍵詞篩選需要企業(yè)提前預(yù)置詞庫(kù)，成本較高，無(wú)法做到窮盡列舉；人工篩選則存在人力成本高、效率低等問(wèn)題；分類模型是機(jī)器學(xué)習(xí)任務(wù)中的常見(jiàn)手段，但處理復(fù)雜數(shù)據(jù)有限或需要大量訓(xùn)練數(shù)據(jù)等問(wèn)題還需要解決。

征求意見(jiàn)稿還對(duì)語(yǔ)料來(lái)源的可追溯進(jìn)行明確，指出開(kāi)源語(yǔ)料應(yīng)具有該語(yǔ)料來(lái)源的開(kāi)源授權(quán)協(xié)議或相關(guān)授權(quán)文件。自采語(yǔ)料，包括自行生產(chǎn)的語(yǔ)料以及從互聯(lián)網(wǎng)采集的語(yǔ)料，應(yīng)具有采集記錄，不應(yīng)采集他人已明確聲明不可采集的語(yǔ)料。

“對(duì)語(yǔ)料可追溯性提出要求的主要目的是增強(qiáng)可解釋性，是作為暫行辦法中對(duì)模型透明度要求的補(bǔ)充和細(xì)化，也是避免、解決權(quán)益爭(zhēng)議和實(shí)現(xiàn)產(chǎn)業(yè)監(jiān)督的重要支持?！睆埩韬诮邮?1世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)表示。

趙精武提示，自采語(yǔ)料、商業(yè)語(yǔ)料均能夠?qū)φZ(yǔ)料采集行為進(jìn)行記錄和存檔較好地進(jìn)行約束，而開(kāi)源語(yǔ)料則需要規(guī)范化開(kāi)源方式，尤其是開(kāi)源授權(quán)協(xié)議等文件應(yīng)當(dāng)載明數(shù)據(jù)來(lái)源，由于開(kāi)源自身的開(kāi)放性，這可能對(duì)現(xiàn)有的開(kāi)源方式產(chǎn)生一定影響，相較于前者，難度略高。

保護(hù)知識(shí)產(chǎn)權(quán)、個(gè)人信息

書(shū)籍、音樂(lè)、影像等版權(quán)內(nèi)容有時(shí)也會(huì)被用于大模型訓(xùn)練，相關(guān)知識(shí)產(chǎn)權(quán)風(fēng)險(xiǎn)令人擔(dān)憂。

征求意見(jiàn)稿中提出應(yīng)設(shè)置語(yǔ)料以及生成內(nèi)容的知識(shí)產(chǎn)權(quán)負(fù)責(zé)人。在訓(xùn)練前，相關(guān)負(fù)責(zé)人需要對(duì)預(yù)料中的知識(shí)產(chǎn)權(quán)侵權(quán)情況進(jìn)行識(shí)別，不應(yīng)使用有侵權(quán)問(wèn)題的語(yǔ)料進(jìn)行訓(xùn)練。

“征求意見(jiàn)稿在現(xiàn)有知識(shí)產(chǎn)權(quán)法體系下重申和細(xì)化了相關(guān)知識(shí)產(chǎn)權(quán)合規(guī)要求。”趙精武說(shuō)道。保護(hù)知識(shí)產(chǎn)權(quán)并不必然阻礙技術(shù)創(chuàng)新，細(xì)化訓(xùn)練語(yǔ)料階段的知識(shí)產(chǎn)權(quán)保護(hù)要求，是為了避免人工智能系統(tǒng)生成具有著作權(quán)侵權(quán)問(wèn)題的圖像、文字等。

對(duì)于提供者而言，語(yǔ)料的內(nèi)容安全還需尤其關(guān)注個(gè)人信息。今年6月，Open AI被匿名人士發(fā)起集體訴訟，訴訟的焦點(diǎn)在于OpenAI是否按照其隱私政策合法合理地收集并利用用戶個(gè)人信息，以及是否有效識(shí)別并剔除其訓(xùn)練數(shù)據(jù)來(lái)源中“偶然”包含的個(gè)人信息。

征求意見(jiàn)稿指出，應(yīng)使用包含個(gè)人信息的語(yǔ)料時(shí)，獲得對(duì)應(yīng)個(gè)人信息主體的授權(quán)同意，或滿足其他合法使用該個(gè)人信息的條件；應(yīng)使用包含敏感個(gè)人信息的語(yǔ)料時(shí)，獲得對(duì)應(yīng)個(gè)人信息主體的單獨(dú)授權(quán)同意，或滿足其他合法使用該敏感個(gè)人信息的條件；應(yīng)使用包含人臉等生物特征信息的語(yǔ)料時(shí)，獲得對(duì)應(yīng)個(gè)人信息主體的書(shū)面授權(quán)同意，或滿足其他合法使用該生物特征信息的條件。

趙精武指出，征求意見(jiàn)稿對(duì)個(gè)人信息保護(hù)所提出的相關(guān)要求實(shí)質(zhì)上還是在《個(gè)人信息保護(hù)法》等法律法規(guī)的要求范圍內(nèi)，并沒(méi)有發(fā)生實(shí)質(zhì)意義上的義務(wù)增加。“對(duì)AI研發(fā)企業(yè)最直接影響是，既有的個(gè)人信息業(yè)務(wù)合規(guī)范圍既包括了算法模型研發(fā)、設(shè)計(jì)階段，也包括人工智能系統(tǒng)應(yīng)用階段，實(shí)現(xiàn)全業(yè)務(wù)流程的個(gè)人信息安全保護(hù)?！?/p>

“征求意見(jiàn)稿重申個(gè)人信息保護(hù)的內(nèi)容，并且針對(duì)生成式人工智能工作原理和產(chǎn)業(yè)現(xiàn)狀適當(dāng)擴(kuò)展。這些可操作的規(guī)則能夠幫助企業(yè)在不侵害個(gè)人信息權(quán)益的前提下開(kāi)展業(yè)務(wù)，降低合規(guī)成本，有利于個(gè)人信息保護(hù)制度在生成式人工智能領(lǐng)域的落地。”張凌寒進(jìn)一步說(shuō)道。

延續(xù)立法邏輯，企業(yè)實(shí)踐可參考注意

“《征求意見(jiàn)稿》繼承了《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》《生成式人工智能服務(wù)管理暫行辦法》等規(guī)定中的立法邏輯，進(jìn)一步明晰了AI大模型開(kāi)發(fā)企業(yè)提供了內(nèi)部合規(guī)的具體落地建議，具有很強(qiáng)的實(shí)操性。”孟潔在接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)指出。

征求意見(jiàn)稿中還針對(duì)模型安全提出了諸多要求，涵蓋生成內(nèi)容、服務(wù)透明度等多方面。以交互界面提供大模型服務(wù)的，應(yīng)在顯著或便于查看的位置公開(kāi)用戶、服務(wù)局限性、機(jī)制機(jī)理等信息、第三方基礎(chǔ)模型使用情況。生成內(nèi)容則需要保證安全、準(zhǔn)確和可靠，包括內(nèi)容積極正向、有效內(nèi)容含量高以及所包含的數(shù)據(jù)及表述應(yīng)符合科學(xué)常識(shí)或主流認(rèn)知、不含錯(cuò)誤內(nèi)容等。

在孟潔看來(lái)，實(shí)踐中的模型安全應(yīng)包括技術(shù)安全、內(nèi)容安全、使用安全。大模型提供者應(yīng)該依照此次征求意見(jiàn)稿以及此前多部規(guī)章制度的要求，從這三方面做好保障。

值得注意的是，征求意見(jiàn)稿總則部分明確，本文件支撐《生成式人工智能服務(wù)管理暫行辦法》，提出了提供者需遵循的安全基本要求。提供者在向相關(guān)主管部門提出生成式人工智能服務(wù)上線的備案申請(qǐng)前，應(yīng)按照本文件中各項(xiàng)要求逐條進(jìn)行安全性評(píng)估，并將評(píng)估結(jié)果以及證明材料在備案時(shí)提交。

她提醒道，此處的“上線備案”，不同于既有的“算法備案”“輿論屬性安全評(píng)估”，也與以往“雙新評(píng)估”在名稱上存在差異，需要相關(guān)企業(yè)特別注意并積極與監(jiān)管部門進(jìn)行確認(rèn)和跟進(jìn)，確保在產(chǎn)品上線前完成相關(guān)備案手續(xù)，履行自身的合規(guī)義務(wù)。

吳沈括指出，目前，征求意見(jiàn)稿還并未成為強(qiáng)制性國(guó)家標(biāo)準(zhǔn)?！安贿^(guò)如果未來(lái)監(jiān)管機(jī)關(guān)在監(jiān)管活動(dòng)中將其選定為執(zhí)法標(biāo)準(zhǔn)，它將產(chǎn)生相應(yīng)的約束力?！彼硎?。

精品人妻夜夜爽一区二区_日韩精品中文字幕一区二区三区_亚洲中文字幕精品无人区高潮_亚洲国产AV玩弄放荡女妇系列_精品无人妻一区二区三区

生成式AI服務(wù)安全標(biāo)準(zhǔn)公開(kāi)征求意見(jiàn)，提出語(yǔ)料黑名單、關(guān)切個(gè)人信息保護(hù)

最近更新

精品人妻夜夜爽一区二区_日韩精品中文字幕一区二区三区_亚洲中文字幕精品无人区高潮_亚洲国产AV玩弄放荡女妇系列_精品无人妻一区二区三区

生成式AI服務(wù)安全標(biāo)準(zhǔn)公開(kāi)征求意見(jiàn)，提出語(yǔ)料黑名單、關(guān)切個(gè)人信息保護(hù)

最近更新

生成式AI服務(wù)安全標(biāo)準(zhǔn)公開(kāi)征求意見(jiàn)，提出語(yǔ)料黑名單、關(guān)切個(gè)人信息保護(hù)