关于Heritrix的简单使用

1)下载3.2版本的Heritrix

2)解压到指定目录(如C:\heritrix-3.2.0)

3)在cmd命令提示符下,进入Heritrix主目录下bin目录,方法是:cd c:\heritrix-3.2.0\bin

4)运行:heritrix -a admin:admin

5)即可在浏览器上输入:https://localhost:8443,打开界面

如果有问题,请检查Path环境,防止多个JRE干扰,也可以观察cmd界面中错误信息,有针对性的调整

 

6)在界面中新建项目,在Add Job Directory栏目中直接创建新项目目录(如NJUE1)

7)到界面中提示的项目路径中直接修改crawler-beans(建议使用Editplus或者Sublime等文本编辑器)

设置项目信息
<bean id=”simpleOverrides”>
<property name=”properties”>
<value>

metadata.operatorContactUrl=http://localhost
metadata.jobName=NJUE1
metadata.description=NJUE1
设置种子
<bean id=”longerOverrides”>
<property name=”properties”>
<props>
<prop key=”seeds.textSource.value”>

http://www.njue.edu.cn
http://www.nufe.edu.cn
补充信息
<bean id=”metadata” autowire=”byName”>
<property name=”operatorContactUrl” value=”http://localhost”/>
<property name=”jobName” value=”NJUE1″/>
<property name=”description” value=”NJUE1″/>
<property name=”userAgentTemplate” value=”Mozilla/5.0 (compatible; Googlebot/2.1; +@OPERATOR_CONTACT_URL@) “/>

更改文件存储方式
<bean id=”warcWriter” class=”org.archive.modules.writer.MirrorWriterProcessor”>

提高速度:
<property name=”retryDelaySeconds” value=”5″ />

去除无关网页抓取
<bean id=”extractorCss” class=”org.archive.modules.extractor.ExtractorCSS”>
</bean>
<bean id=”extractorJs” class=”org.archive.modules.extractor.ExtractorJS”>
</bean>
<bean id=”extractorSwf” class=”org.archive.modules.extractor.ExtractorSWF”>
</bean>

增加线程:
<property name=”maxToeThreads” value=”25″ />

即可全网抓取
build->launch->checkpoint->unpause进行抓取

发表评论

邮箱地址不会被公开。 必填项已用*标注