一种用于开发强化学习系统的框架及方法

IPC分类号 : G06N1/00,G06N3/00

申请号

CN200810051406.7

可选规格: 数量

库存1件

确认取消

￥30000; 库存1件

首页

立即咨询

看了又看

专利摘要

一种用于开发强化学习系统的框架及方法，其特征在于它是由与外部环境交互的学习者接口、表示环境状态的状态接口、系统通过执行部件执行动作的动作接口、基本的测试环境等部分组成框架，然后利用框架开发强化学习系统，其中学习者接口通过状态接口获取环境状态，经过学习更新内部状态并做出决策，调用动作接口作用于环境，同时提供了本研究组提出的新的基于量子理论的多机器人强化学习算法实现作为实例演示。开发人员只需要按照一定步骤实现相应的接口即可完成机器人或其他智能装置学习模块的开发。本发明可移植性高，可以在众多平台运行，可与其他机器人系统框架结合使用，大大降低了学习算法编写的复杂度，方法简单。

说明书

技术领域

本发明涉及一种开发强化学习系统的框架及方法。

技术背景

背景技术

强化学习又称为增强学习，是一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法。从20世纪80年代末开始，随着对强化学习的数学基础研究取得突破性进展，对强化学习的研究和应用日益开展起来，成为机器学习领域的研究热点之一。

强化学习技术通过感知环境状态和从环境中获得不确定奖赏值，仅通过类似试错法，即可学习动态系统的最优行为策略，因而吸引了许多研究者。到目前为止，强化学习在许多领域中还是不成熟的，需要进一步对强化学习进行研究。

强化学习系统可应用于众多的领域，尤其适合开发机器人和具有自适应的智能装置的学习适应模块。通过学习系统可以使机器人在未知的动态的环境中执行任务，不需要对环境建立完整的模型(对于其他的学习系统这是一项非常麻烦的事情)。

传统的要开发基于强化学习的系统都需要从零做起，尚没有一个通用的框架可以使用，造成大量的重复劳动，且由于没有一个标准可依，有可能导致结构复杂混乱。

发明内容

本发明所要解决的技术问题是提供一种可移植性高，可以在众多平台运行，可与其他Agent系统框架结合使用的开发强化学习系统的框架，大大降低了学习算法编写的复杂度，可使原来研究强化学习需要做的繁重的程序设计工作得以简化，重复设计部分由本框架来完成，整个学习的思想蕴涵在框架之中。

本发明还提供了开发强化学习系统的方法。

为解决上述技术问题，本发明提供一种用于开发强化学习系统的框架，其特征在于包括：

一个与外部环境交互的学习者接口，是强化学习系统用来组织其它接口以进行学习和决策的模块；

一个表示环境状态的状态接口，该接口提供了映射方法，用来将环境中的状态映射为系统内部状态供获取最优行动提供状态；

一个通过执行部件执行动作的动作接口，用于提供获取动作和执行动作方法，分别用来获取当前动作和执行当前动作；

一个基本测试环境，该环境为经典的方格世界，用来设定目标、障碍物和学习智能体的初始位置。

与外部环境交互的学习者接口包括初始化学习、观察环境、获取报酬、进行学习并更新内部状态值、获取最佳动作、执行动作六个可重载方法，学习者默认实现Q学习算法，其中初始化学习方法用来初始化学习因子和折扣因子，成功后返回真值，否则返回假值；观察环境方法默认从测试环境中获取状态信息，通过主体当前的状态结合观察结果，将观察到状态封装到状态接口对象中并返回；获取报酬方法根据当前状态和Q值表计算报酬并返回；学习更新内部状态方法通过获取的报酬、当前状态更新Q值表，成功之后返回真值；获取最佳行动方法通过传入当前状态标志，获取最优的动作，并通过执行动作方法执行。

一种用于开发强化学习系统的方法，其特征在于包括下列步骤：

通过与外部环境交互的学习者接口组织其它接口以进行学习和决策；

利用表示环境状态的状态接口提供的映射方法将环境中的状态映射为系统内部状态供获取最优行动提供状态；

通过执行部件执行动作的动作接口提供获取动作和执行动作方法，分别用来获取当前动作和执行当前动作；

通过基本测试环境设定目标、障碍物和学习智能体的初始位置。

本发明还提供了基于量子理论的强化学习算法实现作为实例演示，该学习算法描述如下：

1、初始化：

(1)设置初始的学习参α，δ_w，δ_l和折扣因子β，并设t＝0；

(2)初始化状态和行为，分别赋予相同的叠加值：

(3)依据所有状态|s^(m)>和行为|a_s⁽ⁿ⁾>：

令Q0i(S(0),as(1),as(2),...,as(n))=0;]]>π0i(s(0),as(i))=14,π‾0i(s(0),as(i))=14,Ci(s)=0;]]>

2、在每一个周期内重复如下步骤，直到t＝200结束：

(1)对所有的状态，观察行为集|a_s⁽ⁿ⁾>，并获得一个|a>；

(2)执行动作|a>，观察所有机器人的奖赏(r_t⁽¹⁾…，r_t⁽ⁿ⁾)和新状态|s_t^(m)>；

(3)用公式更新计算Q_tⁱ，

Δδsa=min(πti(s,a),δ/(|Ai|-1))if|a>=UGrovL|as(n)>-min(πti(s,a),δ/(|Ai|-1))otherwise]]>

(4)更新计算平均策略

Cⁱ(s)＝Cⁱ(s)+1，

(5)探索下一步动作，重复执行Grover迭代操作L次更新概率振幅。

使用该框架开发强化学习系统的流程详细说明如下：

步骤1，导入开发包；

步骤2，实现接口，编写策略；

步骤3，如果使用默认环境，可直接进行运行测试，查看运行效果；如果自定义环境，就要负责编写环境到机器人内部状态的映射规则等工作，然后运行测试；

步骤4，如果正常，则结束，否则返回步骤2。

本发明框架可移植性高，可以在众多平台运行，可与其他机器人系统框架结合使用，大大降低了学习算法编写的复杂度，方法简单。

附图说明

图1是强化学习模型；

图2是本发明框架主要类图；

图3是基于本发明框架的开发流程图。

具体实施方式

参照图1，强化学习系统通过观察环境获取状态和奖赏，经过学习调整，对环境做出动作，然后观察环境，决定下一个动作，如此循环，最后达到希望的环境状态。

参照图2，本发明包括一个与外部环境交互的学习者接口，是强化学习系统组织其他接口以进行学习和决策的模块，包括初始化学习、观察环境、获取报酬、进行学习并更新内部状态值、获取最佳动作、执行动作六个可重载方法，学习者默认实现Q学习算法，其中初始化学习方法用来初始化学习因子和折扣因子，成功后返回真值，否则返回假值；观察环境方法默认从测试环境中获取状态信息，通过主体当前的状态结合观察结果，将观察到状态封装到状态接口对象中并返回；获取报酬方法根据当前状态和Q值表计算报酬并返回；学习更新内部状态方法通过获取的报酬、当前状态更新Q值表，成功之后返回真值；获取最佳行动方法通过传入当前状态标志，获取最优的动作，并通过执行动作方法执行；一个表示环境状态的状态接口，该接口提供了映射方法，用来将环境中的状态映射为系统内部状态供获取最优行动提供状态；一个通过执行部件执行动作的动作接口，用于提供获取动作和执行动作方法，分别用来获取当前动作和执行当前动作；一个基本的测试环境，该环境为经典的方格世界，用来设定目标、障碍物和学习智能体的初始位置。其中Q值表和Q值分别是为实现Q学习算法设计的类，Q值表提供了更新Q值方法和选择当前状态下选择最大Q值的方法；Q值类代表了一个具体的Q值，Q值表里的更新Q值方法使用Q值类里的方法进行更新。

参照图3，使用该框架开发自己的强化学习系统的流程详细说明如下：

步骤1，导入开发包，这是使用框架进行开发必须做的一步，使用框架提供的接口需要导入该包。

步骤2，实现接口，编写策略，其中学习者接口类为设计机器人学习模块提供的一个参考标准，实现该标准的模块可以更加方便的使用这个框架；状态接口是用来表示状态的，考虑到不同的机器人可能在不同的环境下运行导致状态表示方法和状态的数量等的不同，通过抽象，只提供了一个方法，即映射方法，用来将环境状态映射为相应的机器人的内部状态表示，如一个数组或者一个矩阵。

步骤3，如果使用默认环境，可直接进行运行测试，查看运行效果；如果自定义环境，就要负责编写环境到机器人内部状态的映射规则等工作。然后运行测试。

步骤4，如果正常，则结束，否则返回步骤2。

一种用于开发强化学习系统的框架及方法专利购买费用说明