汇博在线 - 论文发表,免费论文网,职称论文,各类论文.

　　2.马尔可夫决策过程建模分析
　　在马尔可夫决策过程中需要对系统进行建模分析，建模分析的步骤主要有：（1）首先需要清楚了解系统运行的主要目的。再次确定在该过程的系统中目标函数和收益函数。不同的系统其运行的目标也就不同。另外，即使是同一个系统，从不同的角度和方式分析，得出的目标函数和收益函数的数值也会有所不同。一般目标函数具有以下形式：
　　有限马尔可夫决策过程：
　　无限马尔可夫决策过程：
　　（2）对该系统的状态空间和决策者的行为需要明确了解。系统的状态空间和决策者的行为可能是离散的。其中用户的行为也可能是离散的。（3）根据系统的状态之间的动态转移关系建立推进方程。在这个步骤中，转换关系主要有状态转移方程和转移概率。推进方程中描述的值函数V的递推干洗，在求取最优策略的时候能够发挥出较大的作用[6]。（4）根据所得到的推进方程，对模型进行求解，可以得出最优的优化策略。
　　另外，从不同的划分依据和角度来分析，可以将马尔可夫决策过程划分为表1中的几个类型。
　　表1 马尔可夫决策过程分类
　　三、基于马尔可夫决策Petri网的动态优化模型
　　1.马尔可夫决策Petri网
　　马尔可夫决策Petri网中主要有两个部分组成，一个具有系统行为特点的随机子网，另一个是具有决策者行为的非确定子网。这两种子网需要通过各种变迁手段进行同步处理。随机子网的行为可以通过系统运行中间过程和系统在目前运行的过程中终止的这两种类型的变迁来分析。具有系统行为的随机子网中的每一个变迁都会对应一个权值，其主要是在某一特定的状态下，对系统能够变迁的概率进行计算[7]。在马尔可夫决策Petri网中，系统主要是由多个组件构成。这些组件有的是可以控制的，有的是不可以控制的。马尔可夫决策Petri网主要是由四元组组合而成的，主要包括有限非空系统组件集合、非空可控组件集合、带有优先级的Petri网和对应的对象、带有优先级的Petri网和对应权值以及对应行为。另外，马尔可夫决策Petri网需要满足一下几个方面的条件：首先，变迁的过程中其变迁数值不能同时是非确定变迁和随机变迁，两者不能统一。其次，每个系统中必须要具备一个能够触发变迁的组件。最后，每个可以控制的系统组件中必须有一个是变迁的对象。在马尔可夫决策Petri网中，收益主要有两种方式，一种是状态收益，主要讲的是该系统处于某一个状态下后能够得到的相对应的收益。另一种方式指的是行为收益，主要讲的是决策者们通过各种行为得到的收益。
2.马尔可夫决策Petri网的建模分析
　　通过建立决策这行为子模型和马尔可夫决策Petri网系统的子模型之后，还需要引进一些系统的附加位置和变迁情况。基本的马尔可夫决策Petri网模型如图1所示。其中位置Stoppri、Runpri、Stopndi、Runndi、Stopnd0、Runnd0的主要功能是将系统组件、决策者行为和整个系统进行同步处理。在上述的位置中，每一个组件都有以对应的两个位置。如果决策者对整个系统的全局进行行为处理，就需要加入两个相关的位置参数。如果仅仅只是针对系统的某一个或者局部的行为进行处理，就需要加入Stopndi和Runnd0两个位置。Stopndi位置有标记时，才能够正常实施，该模型主要是由决策者行为状态转移到系统的运行状态中[8]。

计算机系统与计算机网络中的动态优化

2014-12-27 10:46　来源: 互联网作者：田祥宏浏览次数 3322

服务说明

我们承诺

论文指导范围

发表论文领域

最新论文

推荐论文

热点论文

计算机系统与计算机网络中的动态优化 2014-12-27 10:46 来源: 互联网 作者：田祥宏 浏览次数 3322

服务说明

我们承诺

论文指导范围

发表论文领域

最新论文

推荐论文

热点论文

计算机系统与计算机网络中的动态优化

2014-12-27 10:46　来源: 互联网作者：田祥宏浏览次数 3322