关于TFIDF数值在文档集合的规律展示

本实验采用4K文档集合:http://www.njcie.com/bbs/dispbbs.asp?boardid=16&Id=1657&page=3

利用ICTCLAS分词,方法参见http://www.njcie.com/bbs/dispbbs.asp?BoardID=16&ID=1677&replyID=&skin=1,在处理时请将电脑时间调为2013年,否则会有证书失效不能处理的问题,相关Java程序项目代码如:mp1

采用对所有文档词项抽取后统计,按照书上(75页)方法所述,最终结果如:

 

 

发表评论

邮箱地址不会被公开。 必填项已用*标注