一、Q-Learning
做法:使用表格来存储每一个状态 state, 和这个 state 采取行为 action 所拥有的 Q 值.
存在问题:实际问题状态、动作多 ,计算机内存有限,无法用表格保存。而且每次在这么大的表格中搜索对应的状态也很耗时.
解决方法:DQL
二、DQN
做法:在机器学习中, 使用神经网络拟合Q函数估计.
将状态和动作当成神经网络的输入, 然后经过神经网络前馈得到动作的Q 值, 即不在表格中记录 Q 值, 而是直接使用神经网络生成 Q 值. 还有一种形式是只输入状态值, 输出所有的动作值, 然后
做法:使用表格来存储每一个状态 state, 和这个 state 采取行为 action 所拥有的 Q 值.
存在问题:实际问题状态、动作多 ,计算机内存有限,无法用表格保存。而且每次在这么大的表格中搜索对应的状态也很耗时.
解决方法:DQL
二、DQN
做法:在机器学习中, 使用神经网络拟合Q函数估计.
将状态和动作当成神经网络的输入, 然后经过神经网络前馈得到动作的Q 值, 即不在表格中记录 Q 值, 而是直接使用神经网络生成 Q 值. 还有一种形式是只输入状态值, 输出所有的动作值, 然后
