本实验采用4K文档集合:http://www.njcie.com/bbs/dispbbs.asp?boardid=16&Id=1657&page=3
利用ICTCLAS分词,方法参见http://www.njcie.com/bbs/dispbbs.asp?BoardID=16&ID=1677&replyID=&skin=1,在处理时请将电脑时间调为2013年,否则会有证书失效不能处理的问题,相关Java程序项目代码如:mp1
采用对所有文档词项抽取后统计,按照书上(75页)方法所述,最终结果如: