21世紀(jì)經(jīng)濟(jì)報(bào)道 記者鄭雪、馮戀閣 北京、廣州報(bào)道?生成式人工智能商業(yè)化落地探索走深,保障安全也成為其進(jìn)程中的一個(gè)重要議題。
(資料圖)
近日,全國(guó)信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)組織(以下簡(jiǎn)稱信安標(biāo)委)組織制定的《生成式人工智能服務(wù)安全基本要求》(征求意見(jiàn)稿)(以下簡(jiǎn)稱“征求意見(jiàn)稿”)公開(kāi)征求意見(jiàn),從語(yǔ)料安全、模型安全、 安全措施、安全評(píng)估等多方面對(duì)生成式人工智能服務(wù)在安全方面的基本要求。
建立語(yǔ)料來(lái)源黑名單,明確語(yǔ)料可溯源
數(shù)據(jù)是生成式人工智能發(fā)展的燃料,此次征求意見(jiàn)稿亦對(duì)輸入數(shù)據(jù)做了相關(guān)要求。征求意見(jiàn)稿對(duì)于訓(xùn)練語(yǔ)料(Training Data)進(jìn)行明確,即所有直接作為模型訓(xùn)練輸入的數(shù)據(jù),包括預(yù)訓(xùn)練、優(yōu)化訓(xùn)練過(guò)程中的輸入數(shù)據(jù)。
值得關(guān)注的是,歐盟的《人工智能法》也明確了Training Data的范圍。北京航空航天大學(xué)法學(xué)院副教授趙精武在接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)表示,相較于歐盟模式而言,征求意見(jiàn)稿側(cè)重于對(duì)人工智能系統(tǒng)背后算法模型的影響,將預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等環(huán)節(jié)的輸入端數(shù)據(jù)均納入“訓(xùn)練語(yǔ)料”的范疇。
訓(xùn)練數(shù)據(jù)良莠不齊一直是大模型成長(zhǎng)難以忽視的重難點(diǎn)。征求意見(jiàn)稿對(duì)語(yǔ)料來(lái)源安全進(jìn)行了規(guī)制,要對(duì)各來(lái)源語(yǔ)料進(jìn)行安全評(píng)估,單一來(lái)源語(yǔ)料內(nèi)容中含違法不良信息超過(guò)5%的,應(yīng)將該來(lái)源加入黑名單,而進(jìn)入黑名單的語(yǔ)料將不會(huì)用以訓(xùn)練。
中國(guó)政法大學(xué)數(shù)據(jù)法治研究院教授張凌寒指出,目前國(guó)家對(duì)人工智能生成內(nèi)容的治理高度重視,對(duì)投放市場(chǎng)的AI產(chǎn)品推行黑名單機(jī)制是必然的?!坝绕溽槍?duì)境外語(yǔ)料源,意見(jiàn)稿已經(jīng)給出了相對(duì)細(xì)化的評(píng)判標(biāo)準(zhǔn),黑名單機(jī)制具有較高可操作性?!?/p>
不過(guò),北京師范大學(xué)法學(xué)院博士生導(dǎo)師、中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)研究中心副主任吳沈括指出,實(shí)踐中建立語(yǔ)料來(lái)源黑名單,還需關(guān)注如何建立具有廣泛覆蓋性的語(yǔ)料參照標(biāo)準(zhǔn),對(duì)語(yǔ)料做出準(zhǔn)確的識(shí)別和認(rèn)定。
環(huán)球律師事務(wù)所合伙人孟潔介紹道,目前語(yǔ)料內(nèi)容篩選的方式主要包括:關(guān)鍵詞過(guò)濾、分類模型、人工篩選等。關(guān)鍵詞篩選需要企業(yè)提前預(yù)置詞庫(kù),成本較高,無(wú)法做到窮盡列舉;人工篩選則存在人力成本高、效率低等問(wèn)題;分類模型是機(jī)器學(xué)習(xí)任務(wù)中的常見(jiàn)手段,但處理復(fù)雜數(shù)據(jù)有限或需要大量訓(xùn)練數(shù)據(jù)等問(wèn)題還需要解決。
征求意見(jiàn)稿還對(duì)語(yǔ)料來(lái)源的可追溯進(jìn)行明確,指出開(kāi)源語(yǔ)料應(yīng)具有該語(yǔ)料來(lái)源的開(kāi)源授權(quán)協(xié)議或相關(guān)授權(quán)文件。自采語(yǔ)料,包括自行生產(chǎn)的語(yǔ)料以及從互聯(lián)網(wǎng)采集的語(yǔ)料,應(yīng)具有采集記錄,不應(yīng)采集他人已明確聲明不可采集的語(yǔ)料。
“對(duì)語(yǔ)料可追溯性提出要求的主要目的是增強(qiáng)可解釋性,是作為暫行辦法中對(duì)模型透明度要求的補(bǔ)充和細(xì)化,也是避免、解決權(quán)益爭(zhēng)議和實(shí)現(xiàn)產(chǎn)業(yè)監(jiān)督的重要支持?!睆埩韬诮邮?1世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)表示。
趙精武提示,自采語(yǔ)料、商業(yè)語(yǔ)料均能夠?qū)φZ(yǔ)料采集行為進(jìn)行記錄和存檔較好地進(jìn)行約束,而開(kāi)源語(yǔ)料則需要規(guī)范化開(kāi)源方式,尤其是開(kāi)源授權(quán)協(xié)議等文件應(yīng)當(dāng)載明數(shù)據(jù)來(lái)源,由于開(kāi)源自身的開(kāi)放性,這可能對(duì)現(xiàn)有的開(kāi)源方式產(chǎn)生一定影響,相較于前者,難度略高。
保護(hù)知識(shí)產(chǎn)權(quán)、個(gè)人信息
書(shū)籍、音樂(lè)、影像等版權(quán)內(nèi)容有時(shí)也會(huì)被用于大模型訓(xùn)練,相關(guān)知識(shí)產(chǎn)權(quán)風(fēng)險(xiǎn)令人擔(dān)憂。
征求意見(jiàn)稿中提出應(yīng)設(shè)置語(yǔ)料以及生成內(nèi)容的知識(shí)產(chǎn)權(quán)負(fù)責(zé)人。在訓(xùn)練前,相關(guān)負(fù)責(zé)人需要對(duì)預(yù)料中的知識(shí)產(chǎn)權(quán)侵權(quán)情況進(jìn)行識(shí)別,不應(yīng)使用有侵權(quán)問(wèn)題的語(yǔ)料進(jìn)行訓(xùn)練。
“征求意見(jiàn)稿在現(xiàn)有知識(shí)產(chǎn)權(quán)法體系下重申和細(xì)化了相關(guān)知識(shí)產(chǎn)權(quán)合規(guī)要求。”趙精武說(shuō)道。保護(hù)知識(shí)產(chǎn)權(quán)并不必然阻礙技術(shù)創(chuàng)新,細(xì)化訓(xùn)練語(yǔ)料階段的知識(shí)產(chǎn)權(quán)保護(hù)要求,是為了避免人工智能系統(tǒng)生成具有著作權(quán)侵權(quán)問(wèn)題的圖像、文字等。
對(duì)于提供者而言,語(yǔ)料的內(nèi)容安全還需尤其關(guān)注個(gè)人信息。今年6月,Open AI被匿名人士發(fā)起集體訴訟,訴訟的焦點(diǎn)在于OpenAI是否按照其隱私政策合法合理地收集并利用用戶個(gè)人信息,以及是否有效識(shí)別并剔除其訓(xùn)練數(shù)據(jù)來(lái)源中“偶然”包含的個(gè)人信息。
征求意見(jiàn)稿指出,應(yīng)使用包含個(gè)人信息的語(yǔ)料時(shí),獲得對(duì)應(yīng)個(gè)人信息主體的授權(quán)同意,或滿足其他合法使用該個(gè)人信息的條件;應(yīng)使用包含敏感個(gè)人信息的語(yǔ)料時(shí),獲得對(duì)應(yīng)個(gè)人信息主體的單獨(dú)授權(quán)同意,或滿足其他合法使用該敏感個(gè)人信息的條件;應(yīng)使用包含人臉等生物特征信息的語(yǔ)料時(shí),獲得對(duì)應(yīng)個(gè)人信息主體的書(shū)面授權(quán)同意,或滿足其他合法使用該生物特征信息的條件。
趙精武指出,征求意見(jiàn)稿對(duì)個(gè)人信息保護(hù)所提出的相關(guān)要求實(shí)質(zhì)上還是在《個(gè)人信息保護(hù)法》等法律法規(guī)的要求范圍內(nèi),并沒(méi)有發(fā)生實(shí)質(zhì)意義上的義務(wù)增加。“對(duì)AI研發(fā)企業(yè)最直接影響是,既有的個(gè)人信息業(yè)務(wù)合規(guī)范圍既包括了算法模型研發(fā)、設(shè)計(jì)階段,也包括人工智能系統(tǒng)應(yīng)用階段,實(shí)現(xiàn)全業(yè)務(wù)流程的個(gè)人信息安全保護(hù)?!?/p>
“征求意見(jiàn)稿重申個(gè)人信息保護(hù)的內(nèi)容,并且針對(duì)生成式人工智能工作原理和產(chǎn)業(yè)現(xiàn)狀適當(dāng)擴(kuò)展。這些可操作的規(guī)則能夠幫助企業(yè)在不侵害個(gè)人信息權(quán)益的前提下開(kāi)展業(yè)務(wù),降低合規(guī)成本,有利于個(gè)人信息保護(hù)制度在生成式人工智能領(lǐng)域的落地。”張凌寒進(jìn)一步說(shuō)道。
延續(xù)立法邏輯,企業(yè)實(shí)踐可參考注意
“《征求意見(jiàn)稿》繼承了《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》《生成式人工智能服務(wù)管理暫行辦法》等規(guī)定中的立法邏輯,進(jìn)一步明晰了AI大模型開(kāi)發(fā)企業(yè)提供了內(nèi)部合規(guī)的具體落地建議,具有很強(qiáng)的實(shí)操性。”孟潔在接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)指出。
征求意見(jiàn)稿中還針對(duì)模型安全提出了諸多要求,涵蓋生成內(nèi)容、服務(wù)透明度等多方面。以交互界面提供大模型服務(wù)的,應(yīng)在顯著或便于查看的位置公開(kāi)用戶、服務(wù)局限性、機(jī)制機(jī)理等信息、第三方基礎(chǔ)模型使用情況。生成內(nèi)容則需要保證安全、準(zhǔn)確和可靠,包括內(nèi)容積極正向、有效內(nèi)容含量高以及所包含的數(shù)據(jù)及表述應(yīng)符合科學(xué)常識(shí)或主流認(rèn)知、不含錯(cuò)誤內(nèi)容等。
在孟潔看來(lái),實(shí)踐中的模型安全應(yīng)包括技術(shù)安全、內(nèi)容安全、使用安全。大模型提供者應(yīng)該依照此次征求意見(jiàn)稿以及此前多部規(guī)章制度的要求,從這三方面做好保障。
值得注意的是,征求意見(jiàn)稿總則部分明確,本文件支撐《生成式人工智能服務(wù)管理暫行辦法》,提出了提供者需遵循的安全基本要求。提供者在向相關(guān)主管部門提出生成式人工智能服務(wù)上線的備案申請(qǐng)前,應(yīng)按照本文件中 各項(xiàng)要求逐條進(jìn)行安全性評(píng)估,并將評(píng)估結(jié)果以及證明材料在備案時(shí)提交。
她提醒道,此處的“上線備案”,不同于既有的“算法備案”“輿論屬性安全評(píng)估”,也與以往“雙新評(píng)估”在名稱上存在差異,需要相關(guān)企業(yè)特別注意并積極與監(jiān)管部門進(jìn)行確認(rèn)和跟進(jìn),確保在產(chǎn)品上線前完成相關(guān)備案手續(xù),履行自身的合規(guī)義務(wù)。
吳沈括指出,目前,征求意見(jiàn)稿還并未成為強(qiáng)制性國(guó)家標(biāo)準(zhǔn)?!安贿^(guò)如果未來(lái)監(jiān)管機(jī)關(guān)在監(jiān)管活動(dòng)中將其選定為執(zhí)法標(biāo)準(zhǔn),它將產(chǎn)生相應(yīng)的約束力?!彼硎?。