穆罕默德·特里·杰克
机器人的核心是策略,该策略告诉机器人在任何给定情况下该做什么(即采取什么行动)。这可以是简单规则的集合,也可以是复杂的数学函数。但是您如何知道规则或数学函数应该是什么样子呢?幸运的是,有机器学习算法可以近似该函数(例如内核机器、深度学习等)或自动推断这些规则(例如归纳逻辑编程、随机森林等)。但是,监督学习算法需要大量可能无法获得的训练数据。进化方法(例如遗传算法)和其他优化算法不需要任何训练数据来评估和搜索策略空间并找到最佳规则或函数。或者,通过直接将策略等同于搜索(通过状态/动作状态空间),就像在强化学习中所做的那样,可以使用学习到的评估函数(例如 V 或 Q 函数)找到下一个最佳动作。