DeepMind大神Sutton论证无限猴子原理:强化学习搞定通用人工智能
2021-06-14 12:40阅读:
DeepMind最近研究了一下大自然,于是决定把「达尔文主义」应用在AI上面。首先给AI设定一个奖励,等AI学会如何把奖励做到最大化,它就是个出色的人工智能代理了。
人工智能发展了这么久,终于产生了包括卷积,注意力,全连接等各种机制。
有趣的是,最近的研究反而搞起了「这些机制我们都不需要」的创新。
例如苹果发表的一篇论文表示Transformer不需要注意力机制。
在这个方面,DeepMind也不甘落后,发表文章称「Reward is Enough」,其他都不需要。
https://www.sciencedirect.com/science/article/pii/S0004370221000862
人工智能现在已经能够在有限的环境中有效地解决特定的问题,但它们还没有发展出在人类和动物身上看到的那种普遍的「智能」。
DeepMind认为「智能」不是从制定和解决复杂问题中产生,而是通过坚持一个简单但