——属性的当前值
——第个分类中的属性值
——属性的概率分布
——属性值转化为能用单位的系数
3.3.2 感知搜索成本。若在轮搜索后,出行者的主观搜索收益大于感知搜索成本,则启动第轮搜索,否则停止搜索。搜索成本的上限、下限和平均值可分别表示为:
3.4 基于RIPPER算法的路径搜索规则
3.4.1 定义规则形式。选择规则代表路径搜索启发法,典型的规则形式为:
IF语句中共有个属性变量,当属性变量的值分别落入规则中的条件集中,规则被激活,即方案被选中。
3.4.2 识别模型变量。变量的选取过程是基于规则的数据挖掘过程,包括连续变量的离散化、属性搜索和属性选择等。整理调查中高峰期出行路径(B和C)的数据,作为提取高峰期路径搜索规则的数据集。数据集中用到的变量如表1所示:
以为分类变量,采用有监督的离散化方法对数据中的连续变量离散化处理。代入CFS子集评价算法中,采用最佳优先搜索方法,得到出行路径搜索模型的属性子集为,其中“”表示可行路径与实际选择路径对应属性的差值。
3.4.3 推导搜索规则。本文选择RIPPER(Repeated Incremental Pruning to Produce Error Reduction,重复增量修剪减少误差)算法作为出行路径搜索规则算法。RIPPER先通过贪心算法得到最初的规则集,对规则集优化处理降低规则集的规模,然后将特征满足某个规则的样本归为一类。
将出行者实际出行路径与其相同OD之间的其他路径一一对比,提取出以析取范式形式表达的路径搜索规则。规则中“0”代表替代路径、“1”代表当前路径。
模型得到8条规则,以规则2为例:高峰期如果在替代路径和实际出行路径(B)上的总出行时间相差约10左右,路径T和B在主干道上的出行时间之差在(-3.4~8.05)分钟范围内,在路径T的路网转换次数比路径(B)少一次或者二者相等时,出行者倾向于选择替代路径出行这些规则反映了出行者在现有的经验和知识的基础上搜索出行路径方案的启发法。
RIPPER规则集有效性检验主要通过Precision、Recall、F-Measure和ROC Area四个指标判断,本例中两个类别的四个指标值分别为:1、1、0.986、1;0.912、1、0.986、0.954。指标值均接近1,说明模型的分类性能良好。