的标准:经济类,体育类,科教类 •训练样本数目:48篇(三类各16篇) •待归类网页: •一级指标因素及权重:U={U1=0.5, U2=0.5} •二级指标因素及权重:U1={U11=1.0 } U2={U21=0.4}, U22=0.26), U23=0.34 } •三级指标因素及权重: U11={U111=0.86}, U112=0.14)} U21={U211=0.11, U212=0.35, U213=0.21, U214=0.06, U215=0.10, U216=0.17} U22={U221=0.26, U222=0.38, U223=0.36} U23={U231=0.46, U232=0.54} •经济类训练网页样本相对词频: a11={a111(经济1.2), a112(快讯1.2)} a21={a211(我国1.1), a212(经济2.2), a213(水平1.8), a214(三年0.5), a215(人民0.9), a216(生活1.3)} a22={a221(实现1.3), a222(翻番1.8), a223(提高1.7)} a23={a231(连续1.6), a232(日益1.7)}
(2).模糊综合评判 首先统计待分类网页的各个词语的绝对词频如下: U11={U111(经济1), U112(快讯1)} U21={U211(我国1), U212(经济2), U213(水平1), U214(三年1), U215(人民1), U216(生活1)} U22={U221(实现1), U222(翻番1), U223(提高1)} U23={U231(连续1), U232(日益1)} 总共可以得到4个一级模糊综合评判矩阵如下: 构造二级模糊综合评判矩阵 ①采用M(∧,∨)算子的运算结果 ②采用M(•, )算子的运算结果 构造三级模糊综合评判矩阵 ①采用M(∧,∨)算子的运算结果 ②采用M(•, )算子的运算结果 多因素综合评判 ①采用M(∧,∨)算子的运算结果 ②采用M(•, )算子的运算结果 网页归类决策 通过三轮计算得出下表: 样本与类别贴近度 经济类 体育类 科教类 采用M(∧,∨)算子 0.68 0.31 0.42 采用M(•, )算子 0.80 0.16 0.27 不管采用哪一种算子,如果用“最大隶属原则”判断,显然都应该属于“经济类”;如果用“域值法”(λ=0.6)判断,也应该都属于“经济类”。 结果分析 由上述算例可以看出,若用“最大隶属原则”判断,取λ=0.68,采用M(∧,∨)算子的算法就无法对此网页归类了,而采用M(•, )算子却可以对网页正确归类。另外,采用M(•, )算子的结果区分效果比较明显,与人工归类的结果比较接近。由此可见,采用M(•, )算子的算法明显优于采用M(∧,∨)算子的算法。 本文的实例网页最后得出的与“经济类”网页的贴近值仅0.8,比理想值(人工估计为0.9)偏低了了一些,与其他类别的贴近值也存在一些偏差。这是因为本文中举的例子为了简单起见,训练文本才48篇,导致计算机训练不足;另外,待归类网页过于简单。这些都导致了归类结果与理想值的偏差,在实际情况下,这些问题都可以避免。 作者在自行开发的“网页模糊归类测试系统”平台上作了大量对于网页的归类测试工作 (详见附录) ,测试文档与训练网页都是取自“中国新闻网”新闻网页。在训练网页达到1200篇的时候,归类准确率封闭测试为85.73%,开放测试为78.82%。虽然这种以模糊综合评判为核心的算法实现的系统初始化工作比较繁重,但是归类的结果准确率很高,因此还是非常具有实际应用价值的。
参考文献 [1] 卜东波. 聚类/分类理论研究及其在大规模文本挖掘中的应用, 北京:中国科学院计算技术研究所, 2000. [2] 边肇祺, 张学工. 模式识别(第二版), 北京:清华大学出版社, 2000, 83-159, 284-300. [3] 韩正忠, 方宁生. 模糊数学应用, 南京:东南大学出版社 2003.2 [4] 刘智颖. 自然语言理解与机器翻译, 清华大学出版社 2001.7 [5] 刘祖根. 基于WordNet的文本分类技术研究和实现, 长江大学 2002 [6] 庞剑锋, 卜东波, 白硕. 基于向量空间模型的文本自动分类系统的研究与实现, 计算机应用研究, 2001, 9(9): 23-26. [7] 刘增良. 模糊技术与应用选编, 北京航空航天大学出版社, 1997.2(1) ISBN 7-81012-691-1 [8] 孙贻源. 模糊数学, 华中工学院出版社, 1984 [9] 张俊福. 应用模糊数学, 地质出版社, 1988.11 上一页 [1] [2]
Tags:
|