2022年11月30日,OpenAI發布了(le)ChatGPT,大(dà)語言模型的迅速發展引起了(le)全球學術界和(hé)工(gōng)業界的廣泛關注和(hé)熱烈讨論。在國内大(dà)語言模型也(yě)是百家争鳴,繼百度文(wén)心一言發布之後,目前已經推出公測接口的有阿裏的通義千問,訊飛(fēi)的星火大(dà)模型,ChatGLM,複旦的 Moss等。大(dà)語言模型在提高(gāo)人機交互的效率和(hé)質量,爲各個領域提供智能(néng)化的服務和(hé)解決方案的同時(shí),也(yě)帶來(lái)了(le)一些(xiē)科技倫理(lǐ)與安全問題方面的挑戰。大(dà)語言模型(Large Language Model,簡稱LLM)是指能(néng)夠利用(yòng)海量文(wén)本數據,通過無監督、半監督或自(zì)監督的方式,學習并掌握通用(yòng)的語言知(zhī)識和(hé)能(néng)力的深度神經網絡模型。這(zhè)些(xiē)模型通常基于谷歌提出的Transformer模型架構,通過預測被掩蓋的單詞、上(shàng)下(xià)文(wén)判斷、跨語言對(duì)齊、多模态對(duì)齊等任務,來(lái)捕捉文(wén)本中的語法、語義和(hé)邏輯信息。LLM可以根據不同的領域和(hé)任務進行微調或遷移,從(cóng)而在少樣本甚至零樣本的情況下(xià)完成文(wén)本分類、命名實體識别、閱讀理(lǐ)解、文(wén)本生成等多種自(zì)然語言處理(lǐ)(NLP)任務。LLM的優勢在于它們可以利用(yòng)大(dà)量的文(wén)本數據來(lái)捕捉語言的複雜(zá)性和(hé)多樣性,從(cóng)而提高(gāo)模型的泛化能(néng)力和(hé)表達能(néng)力。随着計(jì)算(suàn)資源和(hé)數據規模的增加,LLM的參數量和(hé)性能(néng)也(yě)不斷提升,目前已經發展到(dào)了(le)數萬億甚至數百萬億的規模,例如GLM-130B、BloombergGPT、LLaMA等。這(zhè)些(xiē)超大(dà)規模的LLM被認爲是通向人工(gōng)通用(yòng)智能(néng)(AGI)的重要途徑之一,也(yě)是人工(gōng)智能(néng)領域的前沿研究方向。二、大(dà)語言模型中存在哪些(xiē)個人信息保護問題随着大(dà)語言模型的爆火,其存在巨大(dà)的潛力和(hé)應用(yòng)價值,大(dà)家也(yě)逐漸認識到(dào)在帶來(lái)便利性的同時(shí),也(yě)帶來(lái)了(le)不可忽視(shì)的安全隐患,尤其針對(duì)個人信息保護方面的挑戰和(hé)風(fēng)險。LLM通常使用(yòng)來(lái)自(zì)互聯網的公開(kāi)文(wén)本數據作(zuò)爲預訓練數據,這(zhè)些(xiē)數據可能(néng)包含一些(xiē)用(yòng)戶的個人信息,如姓名、年齡、性别、職業、興趣愛好(hǎo)、社交關系等。這(zhè)些(xiē)信息可能(néng)被LLM無意中學習和(hé)記憶,并在後續的應用(yòng)中洩露出來(lái)。LLM在預訓練和(hé)微調過程中需要對(duì)數據進行收集、存儲、分析和(hé)處理(lǐ),這(zhè)些(xiē)操作(zuò)可能(néng)會(huì)侵犯用(yòng)戶的個人信息權利,如知(zhī)情權、選擇權、删除權等。用(yòng)戶可能(néng)沒有充分的意識和(hé)能(néng)力來(lái)保護自(zì)己的個人信息,也(yě)沒有足夠的透明(míng)度和(hé)監督機制來(lái)确保數據處理(lǐ)方遵守相關的法律法規和(hé)倫理(lǐ)規範。LLM由于參數量巨大(dà),需要借助分布式計(jì)算(suàn)和(hé)雲服務等技術來(lái)進行訓練和(hé)部署,這(zhè)就增加了(le)數據被竊取、篡改、濫用(yòng)或洩露的風(fēng)險。LLM的模型參數本身也(yě)可能(néng)包含一些(xiē)敏感信息,如果被惡意攻擊者獲取,可能(néng)會(huì)導緻用(yòng)戶的個人信息被還原或推斷出來(lái)。LLM在應用(yòng)場景中可能(néng)會(huì)對(duì)用(yòng)戶的個人信息進行分析、預測或推薦,這(zhè)些(xiē)操作(zuò)可能(néng)會(huì)影響用(yòng)戶的個人自(zì)由、尊嚴和(hé)權益,帶來(lái)歧視(shì)、偏見、誘導等問題,甚至被用(yòng)于産生違反社會(huì)主義核心價值觀的有害信息,對(duì)社會(huì)造成危害。用(yòng)戶可能(néng)沒有足夠的知(zhī)識和(hé)能(néng)力來(lái)判斷LLM的輸出結果的可靠性和(hé)合理(lǐ)性,也(yě)沒有有效的途徑和(hé)機制來(lái)糾正或申訴LLM的錯誤或不公正的決策。提供者對(duì)訓練數據來(lái)源負責,應符合法規要求、不侵犯知(zhī)識産權、保護個人信息、數據真實準确、滿足監管要求。人工(gōng)标注時(shí)應制定清晰可操作(zuò)的規則,培訓标注人員并核驗标注内容。根據監管要求,提供必要信息,包括數據來(lái)源、規模、質量,标注規則及數據、算(suàn)法和(hé)技術體系等。提供者承擔生成内容生産者責任和(hé)個人信息處理(lǐ)者法定責任,建立投訴接收機制及時(shí)處置用(yòng)戶請(qǐng)求,發現(xiàn)侵害他(tā)人權益等問題時(shí)應采取措施停止生成。提供者應尊重他(tā)人合法利益、保護肖像權、名譽權、個人隐私,禁止侵犯知(zhī)識産權和(hé)非法獲取、利用(yòng)個人信息等。向公衆提供服務前需要進行安全評估和(hé)算(suàn)法備案。提供者應保護用(yòng)戶信息,不得留存推斷出用(yòng)戶身份的信息,不得進行用(yòng)戶畫(huà)像,也(yě)不得提供用(yòng)戶輸入信息給他(tā)人。提供者應遵守法律法規要求,不提供違反核心價值觀等内容,不歧視(shì)用(yòng)戶,防止産生虛假信息。提供者應公開(kāi)服務的适用(yòng)人群、場合、用(yòng)途,避免用(yòng)戶過度依賴或沉迷,引導用(yòng)戶科學使用(yòng)、避免損害他(tā)人合法權益。提供者若發現(xiàn)不符合要求或違反社會(huì)公德等行爲應及時(shí)做出相應,同時(shí)允許用(yòng)戶向網信部門(mén)舉報(bào)。LLM的安全問題需要引起人們的高(gāo)度重視(shì),其作(zuò)爲一種不斷發展的新技術,對(duì)人類社會(huì)的影響也(yě)是逐漸顯現(xiàn)的,我們需要将發展帶來(lái)的風(fēng)險在發展中解決,需要政府、企業、研究者和(hé)社會(huì)各方共同參與,制定合理(lǐ)的法規、标準和(hé)倫理(lǐ)準則,建立有效的監督和(hé)問責機制,提高(gāo)用(yòng)戶的知(zhī)情和(hé)選擇權,從(cóng)而使LLM的利用(yòng)更加安全可靠。1.《生成式人工(gōng)智能(néng)服務管理(lǐ)辦法(征求意見稿)》http://www.cac.gov.cn/2023-04/11/c_1682854275475410.htm2.深度分析 | 大(dà)語言模型中的個人信息保護問題探讨https://mp.weixin.qq.com/s/xneEB0EP6yqYvxRqC2AinA