新浪博客

AI感冒,谁吃药?

2016-05-20 13:30阅读:
前不久,微软新上线了一个在线对话机器人。强大的机器学习能力,使得这个系统在不到一天的时间里,就学会了种种脏话、恶心话乃至政治不正确的言论。
几天前,《连线》发表了一篇封面文章,标题叫做“Soon We Won't Program Computers, We'll Train Them Like Dogs”,看上去耸人听闻。程序猿都out了。要做系统,可以直接招呼机器学习大数据了。
这里面当然有学术问题、技术问题。机器学习不是狗皮膏药,如果模型含有本质缺陷和先天局限,大数据是不可能补救的,但是这个茬儿我们先按下不表,以后有机会做专门讨论的。我们先来看看法律和监管问题:如果用机器学习武装起来的AI系统犯浑了,板子该打到谁的身上?AI感冒,谁吃药?
众所周知,一个用机器学习武装起来的AI系统,有确定的部分和不确定的部分。确定的部分是“模型”或者“引擎”,不确定的部分是“参数”。参数要通过机器学习过程,把不确定变成确定。这个机器学习的过程,可以是“引擎”的制造者关起门来自己学习,比如像刚刚战胜了李世石的AlphaGo,当然也完全可以有五花八门的各种其他组合,比如:
——引擎的制造者和使用者是分离的
——在引擎的制造者和使用者中间,可能插入了
改造者
——训练数据的提供者和制造者、改造者和使用者又是不同的,甚至可以是一个找不到主儿的、完全不受他们控制的开放环境。
也就是说,随着技术的进步,建模(引擎开发)和调参(机器学习)在时间、空间上可以拉得很开,归属于不同的法律主体。在某些极端场景下,训练数据的提供甚至可以是无主体的或者单个主体的行为不足以承担整个法律责任的。借用当下时髦的一个词儿,“引擎”虽是“中心化”的,“学习”却可以是“去中心化”的或者“众包”的。还好,微软的案例只是说脏话,而且微软公司还算有担当。如果是一个已经出售的实体机器人,行为(比如打斗动作)是出售以后学习出来的,行为后果又是伤及了人类,那这个责任归属问题就真的不好说了。
——引擎的开发者可以说,系统是跟数据学坏的、被用户用坏的、被别人改坏的,与我无关;
——改造者可以说,我没改核心功能啊,原版的引擎就有这个学习功能;
——使用者可以说,系统不是我开发的,数据不是我提供的,我好无辜啊;
——教坏系统的网络用户说,改变系统的权值,光我一个哪够啊,要算账大家都有一份儿……
《三字经》有云:“养不教父子过,教不严师之惰”,这话虽然不是法律,但对人类社会中的学习环节责任主体是有所界定的。
AI是以人类为范本的系统设计。AI系统的“教育”,如果在法律责任主体上是缺位的,那注定是走不远的。
人类出生时的状态,和有许多待确定参数的AI系统相仿。人类的学习,虽然免不了各种去中心化的影响,却还是有一个中心化的主线的,这就是家庭(“父”)/学校(“师”)教育。家庭/学校里要给各种引擎灌输大体相同的数据,除了学知识外,一个核心目的就是训练主流价值观。我们不排除价值观可以通过去中心化的方式获得,也不排除主流价值观实际上是其各种变体的一个统计分布而不是整齐划一的一种原教旨,但是学校教育从来都是获得主流价值观的主渠道,学校教的主流价值观(并非仅是文字,也包括各种潜移默化和以身作则)实际上是主流价值观的分布峰值。不如此,人类社会在微观层面就会陷入不收敛和混乱。
所以回到AI,当建模和调参在时间、空间和主体上错开之后,教育就是一个不可缺少的环节,教育的责任就是防止给一个参数待定的系统乱喂数据,让其学些不伦不类的东西出来。教育因此成为AI系统生命周期的重要环节之一和AI系统事故追责的重要抓手之一。
我们可以设想,一个含有待定参数的AI系统开发出来,不可以直接上线,而是必须经过标准化的训练数据“教育”。只有通关了,才可以上线使用。标准化的训练数据和“教育”过程要接受监管。一旦上线,偶尔再遇到不三不四的数据,也轻易改变不了系统的权值了。教育铸就底线,形成免疫,抵御去中心化数据环境的不可预知影响。AI感冒,教育吃药,应该成为未来关于AI的监管和立法之关键理念。
当然,教育也不是万能的,长期放在偏离主流的去中心化数据环境当中,任你什么教育也是可以瓦解的,就好像背叛的拜占庭将军多到一定的比例时,再牛的拜占庭容错算法也会失效。

我的更多文章

下载客户端阅读体验更佳

APP专享