首 页       用户登录  |  用户注册
设为首页
加入收藏
联系我们
按字母检索 A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
按声母检索 A B C D E F G H J K L M N O P Q R S T W X Y Z 数字 符号
您的位置: 5VAR论文频道论文中心计算机论文计算机应用
   网页模糊归类算法的应用与实现      ★★★ 【字体: 】  
网页模糊归类算法的应用与实现
收集整理:佚名    来源:本站整理  时间:2009-01-10 11:54:13   点击数:[]    

的标准:经济类,体育类,科教类
•训练样本数目:48篇(三类各16篇)
•待归类网页:


•一级指标因素及权重:U={U1=0.5, U2=0.5}
•二级指标因素及权重:U1={U11=1.0 }
                      U2={U21=0.4}, U22=0.26), U23=0.34 }
•三级指标因素及权重:
U11={U111=0.86}, U112=0.14)}
    U21={U211=0.11, U212=0.35, U213=0.21, U214=0.06, U215=0.10, U216=0.17}
    U22={U221=0.26, U222=0.38, U223=0.36}
    U23={U231=0.46, U232=0.54}
•经济类训练网页样本相对词频:
a11={a111(经济1.2), a112(快讯1.2)}
    a21={a211(我国1.1), a212(经济2.2), a213(水平1.8), a214(三年0.5), a215(人民0.9), a216(生活1.3)}
    a22={a221(实现1.3), a222(翻番1.8), a223(提高1.7)}
    a23={a231(连续1.6), a232(日益1.7)}

(2).模糊综合评判
首先统计待分类网页的各个词语的绝对词频如下:
U11={U111(经济1), U112(快讯1)}
U21={U211(我国1), U212(经济2), U213(水平1), U214(三年1), U215(人民1), U216(生活1)}
U22={U221(实现1), U222(翻番1), U223(提高1)}
U23={U231(连续1), U232(日益1)}
总共可以得到4个一级模糊综合评判矩阵如下:
 
 
 
 
构造二级模糊综合评判矩阵
①采用M(∧,∨)算子的运算结果
  
②采用M(•, )算子的运算结果
 
 
构造三级模糊综合评判矩阵
①采用M(∧,∨)算子的运算结果
 
②采用M(•, )算子的运算结果
 
多因素综合评判
①采用M(∧,∨)算子的运算结果
 
 
②采用M(•, )算子的运算结果
 
 
网页归类决策
通过三轮计算得出下表:
样本与类别贴近度      经济类      体育类      科教类
采用M(∧,∨)算子      0.68      0.31      0.42
采用M(•, )算子
0.80      0.16      0.27

不管采用哪一种算子,如果用“最大隶属原则”判断,显然都应该属于“经济类”;如果用“域值法”(λ=0.6)判断,也应该都属于“经济类”。

结果分析
由上述算例可以看出,若用“最大隶属原则”判断,取λ=0.68,采用M(∧,∨)算子的算法就无法对此网页归类了,而采用M(•, )算子却可以对网页正确归类。另外,采用M(•, )算子的结果区分效果比较明显,与人工归类的结果比较接近。由此可见,采用M(•, )算子的算法明显优于采用M(∧,∨)算子的算法。
本文的实例网页最后得出的与“经济类”网页的贴近值仅0.8,比理想值(人工估计为0.9)偏低了了一些,与其他类别的贴近值也存在一些偏差。这是因为本文中举的例子为了简单起见,训练文本才48篇,导致计算机训练不足;另外,待归类网页过于简单。这些都导致了归类结果与理想值的偏差,在实际情况下,这些问题都可以避免。
作者在自行开发的“网页模糊归类测试系统”平台上作了大量对于网页的归类测试工作 (详见附录) ,测试文档与训练网页都是取自“中国新闻网”新闻网页。在训练网页达到1200篇的时候,归类准确率封闭测试为85.73%,开放测试为78.82%。虽然这种以模糊综合评判为核心的算法实现的系统初始化工作比较繁重,但是归类的结果准确率很高,因此还是非常具有实际应用价值的。

参考文献
[1]      卜东波. 聚类/分类理论研究及其在大规模文本挖掘中的应用, 北京:中国科学院计算技术研究所, 2000.
[2]      边肇祺, 张学工. 模式识别(第二版), 北京:清华大学出版社, 2000, 83-159, 284-300.
[3]      韩正忠, 方宁生. 模糊数学应用, 南京:东南大学出版社 2003.2
[4]      刘智颖. 自然语言理解与机器翻译, 清华大学出版社 2001.7
[5]      刘祖根. 基于WordNet的文本分类技术研究和实现, 长江大学 2002
[6]      庞剑锋, 卜东波, 白硕. 基于向量空间模型的文本自动分类系统的研究与实现, 计算机应用研究, 2001, 9(9): 23-26.
[7]      刘增良. 模糊技术与应用选编, 北京航空航天大学出版社, 1997.2(1) ISBN 7-81012-691-1
[8]      孙贻源. 模糊数学, 华中工学院出版社, 1984
[9]      张俊福. 应用模糊数学, 地质出版社, 1988.11

上一页  [1] [2] 


Tags:


文章转载请注明来源于:5VAR论文频道 http://paper.5var.com。本站内容整理自互联网,如有问题或合作请Email至:support@5var.com
或联系QQ37750965
提供人:佚名
  • 上一篇文章:hghg

  • 下一篇文章:VC6中调用 ProEssentials v5图表组件实现科学图表绘制
  • 返回上一页】【打 印】【关闭窗口
    中查找“网页模糊归类算法的应用与实现”更多相关内容 5VAR论文频道
    中查找“网页模糊归类算法的应用与实现”更多相关内容 5VAR论文频道
    最新热点 最新推荐 相关新闻
  • ››Delphi 5 数据库应用中ODBC数据源的...
  • ››用Visual Basic 6.0实现自动化测试...
  • ››用JAVA制作ICQ
  • ››在IIS 4.0上配置虚拟主机实现虚拟I...
  • ››利用VB开发CAI课件
  • ››基于GP算法的知识发现系统
  • ››基于Client/Server 的课件系统的设...
  • ››WWW对大量数据查询的一种实现
  • ››基于PHP的Web数据库访问
  • ››Developer/2000中的Forms参数及应用...
  • ››网页模糊归类算法的应用与实现
  •   文章-网友评论:(评论内容只代表网友观点,与本站立场无关!)
    关于本站 - 网站帮助 - 广告合作 - 下载声明 - 网站地图
    Copyright © 2006-2033 5Var.Com. All Rights Reserved .