今天是《生成式人工智能服务管理办法(征求意见稿)》系列分析文章的第四篇,讨论监管视角下生成式AI本身的部署的方式和使用场景。
生成式AI,多数情况下属于通用人工智能(GPAI)模型。通用人工智能旨在产生通用性的输出,并具有广泛的应用范围。其有时被称为基础模型,因为生成式AI可以用作独立系统,或者作为数百个单一用途人工智能系统的“构建模块”,以完成一系列不同的任务。
(资料图)
与其从零开始构建一个执行特定任务的AI系统,先进的生成式AI相当于提供了基础设施,下游的开发者可以直接利用生成式AI来实现许多不同的面向用户的应用。
总的来说,上游和下游公司之间的关系,以及不同参与者对生成式人工智能模型的控制程度,会随着上游生成式AI的技术提供商采用的分发模型和其投放市场的策略发生变化。
一、生成式AI的分发模型
目前为止,生成式AI的分发模型目前主要是通过开源软件或应用程序编程接口(API)这两个形式。
1、API接口模式:在这个模型中,下游开发者可以通过API访问生成式AI模型,该API由“生成式AI模型技术提供商”(GAI provider)控制。下游开发者可以使用该模型,包括将其调整为特定用例的AI应用,而无需了解其底层技术细节。生成式AI模型由GAI provider开发,并在其服务器上远程运行,持续在线交互,将输入和输出从下游用户传输至下游用户。
2、开源访问:开源模式则是指GAI provider公开发布生成式AI模型或其某些元素,并允许任何人在许可范围内下载、修改和分发。在这种情况下,只需要GAI提供商和下游开发者之间的一次性互动。GAI提供商将模型的元素上传到平台或代码仓库,并提供技术文档和所需的使用说明,然后下游开发者下载文件。
接下来从两个视角分析。
从下游开发者的视角来说,通过API形式的访问,通常就以为这要访问由GAI provider所控制的计算基础设施。而要使用开源的生成式AI,下游开发者需要已经自己“搞定”(或是自建、或是租用)能够运行生成式AI模型的基础设施。但由于计算能力昂贵且稀缺,这可能成为修改甚至加载模型的障碍。
此外,从下游开发者的角度来看,他们可以通过调整生成式AI的模型来简化自己的开发工作,并以此为基础开发自己的应用。在这个过程中,下游开发者可以确定生成式AI模型的具体用途和微调所需的训练数据。他们还可以选择在特定使用场景中提供风险和质量管理。但如果他们通过API访问模型,他们可能在模型功能评估或重新训练方面,存在比较大的限制。相反,使用开源模型,他们可以直接查看模型按照提供商原始训练的参数值,并进行更改。
从上游“生成式AI模型技术提供商”的视角来看,通过API发布模型,意味着GAI provider可以设置访问条件,应对下游滥用,并通过分析下游使用情况不断改进其模型和商业策略,且不用担心失去知识产权。如果GAI provider将模型作为开源软件发布,它将失去对下游使用的控制,只能利用间接的货币化方式。然而,它可以将下游在开源环境中开发的新功能整合到原始模型中。
二、互联网信息服务的主要分类
在我国,从监管角度对互联网信息服务的分类,最显著的无疑是新闻信息服务和非新闻的信息服务。前者形成了一个以行政许可为起点的闭环监管体系。
另外一个显著的分类是——具有舆论属性或社会动员能力的互联网信息服务。一旦具有这个属性或者能力,包括使用推荐算法、深度合成技术等,都需要开展安全评估。
那什么叫做具有舆论属性或社会动员能力,看看《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》这方面的规定。
第二条 本规定所称具有舆论属性或社会动员能力的互联网信息服务,包括下列情形:
(一)开办论坛、博客、微博客、聊天室、通讯群组、公众账号、短视频、网络直播、信息分享、小程序等信息服务或者附设相应功能;
(二)开办提供公众舆论表达渠道或者具有发动社会公众从事特定活动能力的其他互联网信息服务。
从这一条可以看出,第二条(一)和(二)由三个关键词:一是“面向公众”。二是“舆论表达渠道”。三是“发动......从事特定活动能力”。
同时具有这三个方面特征的,较为明确的是“论坛、博客、微博客、聊天室、通讯群组、公众账号、短视频、网络直播、信息分享、小程序等”。然后再来一个兜底条款——“其他互联网信息服务”。
不难看出,在《生成式人工智能服务管理办法(征求意见稿)》中数个条文也采用了“具有舆论属性或社会动员能力”的这个门槛。
三、部署方式和服务分类的结合
将生成式AI典型部署方式和信息服务分类结合起来,就能够得到一个矩阵象限:
API模式 | 开源模式 | |
具有“舆论属性或社会动员能力” | 象限A | 象限B |
不具有“舆论属性或社会动员能力” | 象限C | 象限D |
采用这个矩阵的最终目的,是为了从控制力角度来说,分配信息服务的法律责任。沿着这个思路,以下提出两条修改建议。
对《生成式人工智能服务管理办法(征求意见稿)》的建议之一:
原文 | 建议 |
第五条 利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人(以下称“提供者”),包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等,承担该产品生成内容生产者的责任;涉及个人信息的,承担个人信息处理者的法定责任,履行个人信息保护义务。 | 第五条 利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人(以下称“提供者”),包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等,承担该产品生成内容生产者的责任。 仅提供基础模型供他人利用且不参与后续训练、优化、运营的,由利用者承担内容生产者责任,利用者能够证明应由基础模型开发者承担责任的除外。 |
对《生成式人工智能服务管理办法(征求意见稿)》的建议之二:
原文 | 建议 |
第六条 利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。 | 第五条 利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。 仅提供基础模型供他人利用且不参与后续训练、优化、运营的,由利用者进行申报和备案手续。利用者可要求基础模型开发者给与必要的技术配合。 |
四、简短的结语
开发和部署生成式AI的公司之间存在的复杂依赖关系、生成式AI模型的多功能性,以及这两个因素与上游“生成式AI模型技术提供商”采用的发布策略之间的相互影响和作用,为AI治理带来了独特的挑战。
为了将正确的责任分配给最有能力的行动者,因此有必要深入了解生成式AI在其开发和部署阶段的产业链。
本小文仅仅在于凸显这样的一个复杂因素,并非意在穷尽产业链中的所有情形。特别是考虑到,API部署和开源部署之间,还存在各种复杂的产业安排和设计。
因此,现实中责任的划分显然会是复杂和多样的。(洪延青)
标签: