生成式人工智能的法律风险规制探析论文

2024-04-16 13:40:17 来源: 作者:zhoudanni
摘要:2023 年由 OpenAI 发布的 ChatGPT 在互联网中大火,将生成式人工智能一时间推上风口浪尖, ChatGPT 在 2022 年推出之初,并未如此引人关注
摘要:生成式人工智能经历了多年发展之后,2023 年由 OpenAI 发布的 ChatGPT 引起世界的 关注,其以近乎人类般的语言能力,展示出人工智能的飞速发展。然而,其快速发展的背后带来 一系列潜在的法律风险,主要有侵犯个人网络数据及商业秘密安全,侵犯他人知识产权,生成虚 假、违法违规内容等。我国目前还未大规模使用生成式人工智能软件,虽然已经开始论证立法活 动,但对于其高度的智能化带来的不确定性应当针对其工作原理,分析可能带来的风险挑战,提 前做好规制。同时,我们也应该积极促进生成式人工智能软件的稳定和持续发展,以保持其在技 术领域的领先地位, 并为社会的发展带来更多的机遇和利益。
关键词:生成式人工智能; ChatGPT;法律风险; 法律规制
一 、生成式人工智能发展现状
2023 年由 OpenAI 发布的 ChatGPT 在互联网 中大火,将生成式人工智能一时间推上风口浪尖, ChatGPT 在 2022 年推出之初,并未如此引人关注。同时期的生成式人工智能软件还有 Midjou- rney ,该两款软件为当下生成式人工智能的代表 作品,一款为语言对话类软件,另一款为画图类 软件。令人惊讶的是无论对话类还是画图类软 件 ,生成式人工智能的发展远超乎我们想象。
OpenAI 对 ChatGPT 的研究发展实则早已于 2018 年开始,彼时的人工智能软件多数处于大数 据训练阶段,从 ChatGPT3.0 版本面世后,才开始 真正引发大家关注。该语言对话模型的智能程度虽然未能和人类相似,但也远超于之前所有的对 话类人工智能软件。用户不仅仅可以与其正常对 话,也可以纠正其错误,并且引导其学习,最终获 得更为智能的问答。例如,可以让其模仿写作、撰 写代码等。之后发布的 ChatGPT4.0 版本中,其智能程度愈加先进,在与其对话时,其所展现的不 再是之前大多数对话模型所产生的割裂感,而是 向世人展示出相当于人类的对话思路、答案。
生成式人工智能的发展速度是让人惊讶的, 每一次的模型迭代升级,都会默默改变我们未来的生活,但同时其带来的风险也不容小觑。2023 年 3 月,包括特斯拉创始人埃隆· 马斯克在内的千名专家公开呼吁暂停训练 ChatGPT4.0 后续数据 模型至少6个月并签署公开信,其后,同年 4 月 11 日我国国家互联网信息办公室公开发布《生成 式人工智能服务管理办法(征求意见稿)》。我国各大科技公司在 ChatGPT 爆火后,陆续公布自身 旗下的生成式人工智能产品,但是该类型产品未 来会发展到何种程度,我们不得而知,不过其已 对目前已有的法律体系造成了重大的影响。本文 将从生成式人工智能的工作原理简要剖析,进一 步分析可能产生的法律风险 ,并提出应对措施。
二 、生成式人工智能主要工作原理及其风险
( 一 )当下生成式人工智能主要工作原理
生成式人工智能采用深度合成技术,其基于 机器学习方法从海量的数据库中学习,同时进行 纠错训练,再从数据库中选择并生成相对应的内容。根据 OpenAI 公司官网介绍,ChatGPT 是一个大型的语言训练模型产生的内容生成器,工作 时首先通过其核心算法模拟人类语言规则,其次 便是在该算法的基础上进行神经网络深度学习, 在学习的过程之中利用海量的数据输入进行训 练,最终达到当下可以在人类语言规则基础上输 出内容的目的。通过与用户对话的方式可以纠正 其错误,最终用户便可得到其想要的相关答案, 使用 ChatGPT 时输入的资料可以是语言文本、图 片图像、计算机代码等。自 ChatGPT 爆火以来, 国内外互联网公司的很多软件都宣传接入其端 口,大量学者盛赞其足以改变世界,但在其飞速发展的背后,存在的风险被提及的少之又少。众 所周知,法律的现实问题之一就是具有滞后性, 目前科技所带来的挑战正在浮现,各国已经陆续 开始针对生成式人工智能进行一定的规制,因 此,以下将针对生成式人工智能的主要工作原理对其风险进行简要分析。
( 二 )当下环境下可能产生的法律风险
1.侵犯个人网络数据及商业秘密安全
规避生成式人工智能所带来的风险可以从生成式人工智能的工作原理下手。首先从其输入信 息开始,ChatGPT 的对话水平能达到现在的拟人程度,其需要海量的数据进行训练,对于该训练 数据以及使用时其作出的多数回答,都需要引用 现成的网络数据,但该训练数据 OpenAI 公司并 没有披露其来源。在当下的互联网时代,我国对 于个人网络数据的保护,主要依靠于《 网络安全 法》、《 中华人民共和国个人信息保护法》(以下 简称《个人信息保护法》),其中《个人信息保护 法》第十三条规定,处理个人信息需要取得本人同意。而目前生成式人工智能的特点便是前期需 要海量数据训练,如果其在网络数据中搜集个人 信息进行训练,则不可能获得每个人的同意,若 训练所用的数据为公共网络平台的开放数据,其 也可能侵犯《个人信息保护法 》中第二十七条、 第三十五条等规定,原因在于,其对于公开个人 信息的训练使用是否在合理范围内、是否会对个 人权益造成重大影响等均是不可知的,因为生成 式人工智能存在算法黑箱,无法得知其所搜集的 数据来源,包括我国已经公布的生成式人工智能 平台也未对训练数据的出处做出详细说明[1]。
除去关乎个人隐私的数据之外,还有多数公 司的商业秘密同样可能受到侵犯。用户在使用 ChatGPT 时,通常是通过对话交互的方式来进行, 而与其交流时用户所提供的信息同样会变成其学 习的资源。之后其他用户再使用 ChatGPT 时,其 可能会借助于以往用户所输入的信息进行回答, 同时根据 OpenAI 中 ChatGPT 使用协议第 3( c) 条“ 为了帮助 OpenAI 提供和维护服务,您同意 并指示我们可以使用内容来开发和改进服务。您 可以在这里阅读更多内容,了解如何使用内容来 提高模型性能 ”, 表明了 OpenAI 对用户所输入 的信息会进行训练利用。若用户在使用 ChatGPT 时输入相关公司商业秘密,便有可能出现泄露的 风险。例如,2023 年 4 月某星电子公司在引入 ChatGPT 不到 20 天便发生了 3 起相关的商业秘密 泄露事件,其中包括半导体相关代码以及会议记 录。该次事件体现了目前生成式人工智能对数据 使用的规范存在漏洞。当此类应用开始大规模推 广,更多公司机构开始接入 ChatGPT 时,必然出 现更多的商业秘密或是国家机密泄露的风险。
2.侵犯他人知识产权风险
根据《 中华人民共和国著作权法 》中的相关 规定,著作权的创作主体为自然人,因此,依据现有法律规定,ChatGPT 等生成式人工智能无法取 得著作权[2]。但是,在学界中针对这一问题尚存 在相当的争议。同时在实务当中,以广东省深圳 市南山区人民法院(2019)粤 0305 民初 14010 号 判决书为例,2019 年某讯诉上海某盈科技有限公 司,法院认定某讯旗下 D 软件所生成的文章具有 独创性,即在独立创作及外在表现上是否与已有 作品存在一定程度的差异或具备最低程度的创造 性上进行分析判断,该文章具有独创性,故承认 其受到相应的著作权保护。对于生成式人工智能 是否能取得著作权,实践中存在较多争议,本文 便不做讨论,此处仅从其使用过程中可能造成的 对著作权等知识产权的侵犯风险进行分析。
按照生成式人工智能的工作原理,整个运行 流程由三方共同参与,即软件方平台方、训练该 软件者或者是提供生成特殊图像文字作品的代码 提供者以及最终的使用方。若最终的作品存在侵 权,则很难对这三方进行责任划分。在训练与使 用生成式人工智能软件之时,通常我们会使用大 量现成的图像或者是文字作品;对于已经发行的 作品,若人工智能自行索取或是被人恶意进行投 放训练,这是否会侵犯该作品作者的著作权、其 产生的作品又是否与其用于训练的作品版权相关 等问题都值得深思。
3 .生成内容虚假、违法风险
自从互联网时代蓬勃发展开始,网络谣言、 网络暴力等不良现象层出不穷。生成式人工智能 所产出的作品,因其特点所产生的虚假违法信息 的传播风险更大。依然从 ChatGPT 的运行机制来 看,使用大量数据进行训练时,若对数据信息没 有强有力的监管,输入进行训练的数据存在违法 违规,那所得出的内容也常常存在着虚假违法的 风险。虽然 OpenAI 在宣传 ChatGPT 时特别说明了 其核心算法处于中立,并且屏蔽了色情、暴力、歧 视等内容[3]。但在实际使用之中,使用者依然可以通过诱导等手段,使ChatGPT输出不良信息, 突破本身算法所约束的规定。同时,ChatGPT 在 遇到部分问题时,可能会直接编造答案,让人真 假难辨,该类信息若经过传播极有可能造成大规 模虚假信息蔓延。随着生成式人工智能的不断发展进步,类似的风险若没有及时得到规避 ,可能会让网络环境愈发糟糕。
三、我国可以采取的应对措施
若国外生成式人工智能全面进入我国开展经 营活动,或是我国同类软件可以达到相近的智能 程度,其产生的各类风险是不可避免的。因此,现 阶段应当依据生成式人工智能的特点,作出针对性的规定,对相关法律解释进行详尽的规制。下 文将对可能存在的问题提出相应的解决思路。
( 一 )细化监管法律格局,促进人工智能健康发展
对于生成式人工智能所带来的挑战,我们应 当积极应对。由于法律具有滞后性,这导致当下 多数生成式人工智能都缺乏法律的规制,因此我 们应当从立法入手。2023 年 4 月,国家互联网信 息办公室发布了《生成式人工智能服务管理办法 (征求意见稿)》,这是我国首部针对生成式人工 智能制定的法律法规,但其中多数细则是引用当 下现成的法律,这对于复杂新颖的生成式人工智 能是远远不够的。例如其中第二条提到,“ 本办 法所称生成式人工智能,是指基于算法、模型、 规则生成文本、图片、声音、视频、代码等内容的 技术 ”。根据该条我们不难看出,是对于几乎所有 类型的生成式人工智能类型统一进行规制,但文 本图片与代码的生成逻辑、技术等具有非常大的 差别,因此对生成式人工智能的规制需要分类进 行。从技术角度出发,针对每类不同的特点进行 更加细致的规定,以保障生成式人工智能的平稳 发展;也可以从整个产业链进行分区治理,生成 式人工智能主体为内容生成者、内容服务平台、 内容服务使用者,对于生成式人工智能的立法规 制,绝不是一部法律就可以完成的。对于产业链 中的各个环节,应当详尽分类考究。法律规制是 对其发展的保驾护航,同时也需要掌握好限度, 过于严格的规制反而会限制其正常发展。
( 二 )明晰训练数据属性,保障网络数据安全
生成式人工智能能够达到目前的智能化、拟 人化程度,有一点不可忽略,那便是其通过大量 数据进行训练。为保证训练数据的精准度,目前 甚至催生出相对应的人工智能训练师岗位,主要 职责是精准训练生成式人工智能大模型。无论是 文本图像还是代码生成,生成式人工智能在经过 数据训练后依然可能出现错误,此时就需要纠正 其错误并进行相对应的专项数据指导。我国目前 生成式人工智能行业仍处在大模型进行数据训练 的环节,对于其训练使用的数据则是整个生成式 人工智能发展的重中之重。对于该部分法律保护 通常依托于《个人信息保护法》,再者便是还处 于征求意见阶段的《生成式人工智能服务管理办 法(征求意见稿)》,其中第七条规定,平台训练 生成式人工智能的数据中涉及个人信息的应当取 得信息主体同意。但从实际情况来看,该规定很难被遵守。
利用海量数据训练人工智能是当下共识,若每一次涉及个人信息都需要完全许可,便如同天 方夜谭。因此,对于当下需要的训练数据和使用 时所需要投入的数据,首先,应当明晰其特殊属 性,在保证个人信息安全的前提下,让其保持在 类似于“ 沙盒 ”(是一种安全机制,能够为运行 中的程序提供隔离环境 )的特定分区中进行单独 训练;其次,在使用软件中用户投入数据进行对 话操作,该步骤有强烈的主观性,故应当详细说 明并告知使用者风险;最后,平台服务商应当在 程序中提高数据敏感度,防止违法违规数据被运 用到训练中。
(三 )强化监管主体责任,实现弹性治理
生成式人工智能与之前各类新技术不同,具有更强的专业性、自我学习能力,这使得监管难度提高。首先,应当确定监管主体范围,目前法律 法规中监管主体庞杂,涉及部门众多,反而可能无法有效进行管理[4]。对于新技术的态度应当更加宽容,对生成式人工智能发展状况进行全程的 监督,尤其是核心算法部分,应当及时在国家备 案,必要时对其进行跟踪研究,以备不时之需;其次,监管机构应当与业界保持联动,从专业角度 评估风险,并以更全面的方式指导实施;最后,监 管部门应引导该行业制定其行业标准,形成行业内部制约 ,进一步规范行业行为。
四 、结语
生成式人工智能的发展是大势所趋,科技的 发展无法完全被掌控。针对这一问题,我们可以 做好准备迎接其挑战。从目前主要的生成式人工 智能工作原理来看,生成式人工智能依然处于 “ 野蛮发展 ”阶段,主要存在训练数据来源不清 晰、算法“ 黑箱 ”难以明晰、缺乏体系的整体监 管等问题,全球各国对其都处于一个监管的起步 期,对于其可能存在的风险,我们应当积极应对, 从源头入手,具有针对性地进行逐一破解。总之, 生成式人工智能的发展壮大是一个必然趋势,我 们需要积极应对其中的挑战和风险,同时也要充 分挖掘其潜力和优势,促进生产力的不断提升和 社会的发展进步。
参考文献
[1] 刘永谋,王春丽.积极应对生成式人工智能对文科 教育的挑战[J].南京社会科学,2023(6):119-128 .
[2] 王迁.再论人工智能生成的内容在著作权法中的定 性[J].政法论坛,2023,41(4):16-33 .
[3] 支振锋.生成式人工智能大模型的信息内容治理 [J].政法论坛,2023,41(4):34-48 .
[4] 邓建鹏,朱怿成.ChatGPT 模型的法律风险及应对 之策[J].新疆师范大学学报(哲学社会科学版), 2023,44(5):91-101,2 .
