新浪博客

Fanlan之740——从记忆外包看大模型社会化的可能

2026-01-22 15:53阅读:
Fanlan之740——从记忆外包看大模型社会化的可能
上文第八段补充说明一下。如果存在能够不受惯性系影响的时钟,则我们可以设计一个实验,那就是制造具有此相同功能的两块表,把他们分别放到不同的惯性系里去,尽管在不同的惯性系他们看起来有快有慢,但是只要有条件能够去同时观察这两只表,就会发现他们的走势始终是一致的。也就是说,不管观察者在哪个惯性系,也不管表在哪个惯性系,两个表所表现出来的一致性表明其自身代表了一种绝对时间。
当然,如果这种时钟真的存在的话,在实际的应用中未必真的就那么方便。因为在某个惯性系中,没有人真的会拿一年的时间作为一天,也没有人真的会拿一天的时间作为一年。我们的建议还是在什么样的惯性系就用什么样的表,或者那种看起来没有变化实际变化了的时钟。那种看起来变化实际上没有变化的时钟,与其用来测量时间,不如把他看成是对惯性系的一种测量。
言归正传。当初在与大模型探讨黎曼猜想的过程中,现在回头看显得非常的混沌,涉及了很多种途径。我们把所了解的认为值得一试的各种可能,包括自己想的几何图形,大模型提示的极坐标,以及我们和大模型共同探讨的单调性,还有后面道听途说的希尔伯特空间等。在我们提出问题或给出指引的方向后,大模型不但会给出形式上的回答,而且还会在指出尚未解决的问题后,给出更为细致的引导。如果你深入追究下去,这里面会带来两种情况,一种是在已知条件下给出更为详细的说明,另一种则是给出一个解决问题的规划。那么会不会出现第三种情况,给出一个以前从未有过的答案,我们认为这是一个非常有趣的问题。
还记得我们在772中当时所留下的一个尾巴吗?当我们还在把AI当成具有某种功能的工具时,年初动物大模型已经在教AI怎么使用工具了,尽管这里工具的概念还比较抽象,人们更倾向于把他称之为记忆。说句实在话,我们对记忆在AI的作用中是有过抽象的思考的。首先,我们倾向于记忆的生成是指由外部输入对人脑刻画或改造的固化程度。一件事情被记住了代表这个事情在人脑中已经被固化。人小的时候容易记住东西,变老了记性变差了,但依然记得小时候的事情,说明除了变老导致的功能退化外,小的时候可能因为是空白头脑更容易被刻画,等到刻画得差不多了,要想再记其他东西,相当于重新刻画,自然有可能要费劲的多。当然我们并不排除即便年岁大了,但经过多次刻苦训练所达到的强化记忆。这多少会回到我们以往所讨论的,在外部冲击或物质觉醒乃至自觉的前提条件下,通过多轮能量冲击破坏或重塑记忆的物质边界。
其次人类有个特点,会有选择的记忆和遗忘。这与人类所处的生存或生活环境有关。对于一些常规的不重要的事情通常不会放在心上,但对一些意外或特别的事情可能保有记忆。这就好比让你回忆几年前或十几年前乃至几十年前的某一天中午吃的什么,如果不是那一天给你留下特别的印象或保有某种记录,相信大多数人都未必想的起来。
当然这不是重点,只不过我们想强调的是,人工智能在模仿人类功能和架构的时候不一定要完全模仿,像动物大模型所加的记忆模块就不一定要通过学习来获得,甚至还可以根据不同需要加以调换。打个不恰当的比方,如果人类的大脑负责思考,小脑负责记忆——事实可能未必如此——新出现的模块不仅仅是小脑从大脑里分离出来,更重要的是他对一些共识或不变的东西加以固化,以便可以不加思考直接调取。例如我们从小背的九九表,以及初上高中,劣者误解于对知识的理解,在考试的时候现推,后来发现其他人做题飞快,一打听才知道,把公式背下来套用即可。
严格来说,思考和记忆并无绝对优劣之分。古人云:学不可以已。又云:学而不思则罔,思而不学则殆。现代的微笑曲线也说明了这个问题。脑袋空空肯定是学不好的,但是要是掉书袋里了,缺乏灵活变通,同样行不通。所以有的时候开卷考试比闭卷考试有优势,就在于有不用记忆便可提取知识的优势。但相较于记忆的优势,其提取知识的效率显然不可同日而语。不过进一步来看,解决问题除了必要的知识外,脑子本身是否具有应用知识的解题能力同样重要,而解题能力又分为两部分,一部分是从01是否能够解开题目,另一部分则是从1100的解题效率。
综上所述,记忆模块的出现给人一种分久必合,合久必分,层层递进,螺旋向上的感觉。起初,电脑只有搜索和储存知识以及解决一些相对硬性的题目。大模型的出现使得AI的解题能力有了质的提升,但在学习和提升算力的同时,全思考链又导致其负载过大,效率低下。于是记忆模块便是通过结构性调整,将一些不太变化的东西提取出来以供直接使用。这看起来容易让人想到一个词——外包。只不过现实中的外包不仅仅提供现成的东西,还提供服务或解决方案。
因此我们不妨把这个架构扩展一下,设想存在着一个或几个大模型的扩展机构,并且每个扩展机构又都具有大模型的功能。同质化的我们把他看作分布式大模型,特质化的我们称之为分工类大模型,最终把所有扩展机构大模型的结果汇总于一个总的大模型来加以处理,我们称之为中心大模型或顶层大模型或集权大模型,这便是大模型类人社会化的开始。严格来说,大模型社会化应用与记忆模块的功能并不相同,是我们通过外包所联想到的。但他们又都存在着一个共性,那就是通过内部对立的分工模式,更好的提升了统一整体的效率,并且记忆模块对大模型的优化或简化,为大模型的普及化和社会化打下了坚实的基础。

我的更多文章

下载客户端阅读体验更佳

APP专享