老课堂

laoketang.com

位置：首页 > 学习课堂 > 电脑学习

Windows配置heritrix3做网络爬虫开发实例

时间：2020-07-27 19:20:06 来源：老课堂

一、引言：

最近在忙某个商业银行的项目，需要引入外部互联网数据作为参考，作为技术选型阶段的工作，之前已经确定了中文分词工具，下一个话题就是网络爬虫的选择，目标很明确，需要下载一些财经网站的新闻信息，然后进行文本计算。记得上一次碰爬虫还是5年前，时过境迁，不知道爬虫的世界里是否有了新的崛起。比较过一些之后，初步认定Heritrix基本能够满足需要，当然肯定是需要定制的了。

二、版本选择

Heritrix当前版本3.1.0，安装后发现，启动任务时，Windows平台有BDBOpen的错误(具体原因不详)，Linux环境没有测试。度娘了一把，没啥实质性收获，如果从源码去看，又太费时间。就换到了3.0.5，这个版本也有问题，就是创建Job时，总是提示文件夹有问题，可以选择手动创建下载任务。操作界面如下图所示：

三、配置任务-手动

1.jobs目录下新建文件夹sohu;

2.拷贝模板文件profile-crawler-beans.cxml到sohu目录

3.重命名profile-crawler-beans.cxml文件为crawler-beans.cxml

4.手动修改文件crawler-beans.cxml，设置目标网站和存储方式：

复制代码

代码如下:

# This Properties map is specified in the Java 'property list' text format

# http://java.sun.com/javase/6/docs/api/java/util/Properties.html#load%28java.io.Reader%29

metadata.operatorContactUrl=http://localhost

metadata.jobName=sohu

metadata.description=sohujingxuan

##..more?..##

# URLS HERE

http://t.sohu.com/jingxuan

http://localhost"/>

　　

四、停用Robots检查

改造函数，禁用Robots协议检查，目的就不说了，改造方法如下：

复制代码

代码如下:

private boolean considerRobotsPreconditions(CrawlURI curi) {

// treat /robots.txt fetches specially

//++zhangzl:取消robots.txt的强制限制

return false;

//--

}

五、后续工作

1.定向下载改造：只下载目标内容，过滤无关信息。

2.自动解析改造：下载内容自动解析到指定目录，指定格式。

推荐阅读：Windows配置 heritrix3 网络爬虫

老课堂部分新闻及文章转载自互联网，供读者交流和学习，若有涉及作者版权等问题请及时与我们联系，以便更正、删除或按规定办理。感谢所有提供资讯的网站，欢迎各类媒体与老课堂进行文章共享合作。

老课堂

老课堂推荐

老课堂热点

老课堂标签

eCPC CPC 直播直播做销售新增功能营销托管信任营销直播营销 ocpc建模基木鱼营销页基木鱼营销提升点击率 Mac安装虚拟机 SEM推广创意推广创意控制成本企业SEM 预计审核时间物料审核信息提示 sem后台网络营销推广 SEM网络营销推广 SEM网络营销投放策略企业在线咨询在线咨询提升流量关键词优化广告投放渠道投放渠道 sem优化技巧 sem优化方法首屏出现竞价广告出价策略百度sem优化 sem优化策略诊断分析工具信息流投放百度营销客户端流量分级策略分级流量策略 sem账户运维百度推广单元状态百度推广单元百度sem推广全网推广线上营销 SEM效果差图片添加链接图片加水印 dedecms 织梦竞价账户操作指导信息流推广关键词分析老课堂账户构架