最近一直圈在采集工具里面无法自拔,思路越来越感觉清晰,又感觉越来越混乱,思绪繁多,准备研究完火车头采集工具的采集规则和设置过程后,就跳出采集这个坑来。采集其实只是为了内容建设做服务而已,关键的还是得看整体的思路,以及这个工具对于这个思路中的某个手段的促进作用。
这是题外话,早几日专门找了个机会去调戏了下火车头采集工具的客服mm,咨询了许久,才对其有了更明确的了解,对于功能和是否满足我的需求有了明确的定义。下面分享下火车头特色功能(不做详细分析了,想了解网站数据采集工具功能特色的朋友可以看我上一篇文章):
火车头特色功能:
1、兼容多种开发语言与数据库,包含php、asp;Access、MySql、MS SqlServer数据库等;
2、能自主设定多种采集规则,针对不同页面不同内容设定不同采集规则;
3、能采集多种网页内容,文字、图片、flash、论坛附件、软件站资源可以一网打尽。
4、能过滤多种特定字符标签,包含超链接、敏感词汇等等;
5、自带下载工具,可将批量高效的采集数据下载,效率比专业的批量下载软件更快;
6、系统自带的模块文件支持:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz论坛,phpcms文章,phparticle文章,LeadBBS论坛,魔力论坛,Dedecms文章,Xydw文章,惊云文章等的模块文件。
7、假如设定好要发布的模块,可以自动发布数据,前台展示。
8、可针对网站的特定内容进行采集,刨除不相干内容;
9、能将同类型内容进行采集合并,展现在同一个数据表中;
10、自带伪原创工具,自动替换词组,提高编辑效率………………..
火车头采集工具内容采集设置规则:
1)运行火车头工具
2)点击任务列表,新建任务,填写任务名,网站编码选择自动获取就行。
3)添加起始网址
填写“第一步:采集网址规则”先填写起始网址,通常为目标站首页地址。点击“添加”。
这里会按照网站的树形结构逐级获取下一级结构的网址,直至获取到内容页的网址。然后依次点击“添加” ->“完成”。
4)编写“多级网址获取”规则
这里需要先在起始地址页面找到所有需要采集的栏目页的代码区域,先查看起始页地址的源码,找到如图所示代码区域:
5)添加网址采集规则
点击右侧“添加”按钮打开“添加多级网址采集规则”,选择“从页面自动分析得到地址链接”单选按钮,在下面“从该选定区域中提取网址”,“从”(左侧)文本框填上栏目地址代码区域开始之前的标志性代码(要保证其在该页的唯一性),“到”右侧文本框填上栏目地址代码区域结束之后的标志性代码,在“结果网址过滤”的“必须包含”和“不得包含”文本框填上相应代码,如果该区域没有多余的链接不需要过滤,可以不填,这里的栏目页网址必须包含“category-”。然后点击“保存”返回。
6)获取内容页面地址
先打开栏目页查看源码,查找内容页地址存在的区域及地址规律。按照上一步的方法先填写内容页所在区域的起始和结束标志性代码,然后分析这个区域中包含的链接与我们说需要的内容页地址链接规律,添加过滤代码。这里起始代码为“<!–显示–>”,结束代码为“<div class=”page” style=”float:right”>”过滤代码为必须包含“read-”不得包含“#”。
7)获取网页标题采集
先打开内容页以及内容页的源码,找到需要提取的信息的前后代码特征。以提取标题和内容为例。首先复制文章标题,然后在源码中查看该标题出现的几处地方,找一处前后代码在每一篇文章都一样的地方,该例共出现了3处,第二处的代码没有其他干扰代码。点击“添加”,标签名填“标题”,提取数据方式选择前后截取,前后代码分别为“<h1 class=”ContentTitle”><strong>”和“</strong></h1>”。如果采集的内容需要作进一步处理(如替换删除编码转换过滤html等),在下方“数据处理”点击添加填写相应规则。
8)获取内容
再添加一个标签,标签名为“内容”,按照上述方法填写内容的前后代码片段,需要注意的是,前后代码片段最好不要出现不完整的标签(如:“<div class=”Content-body”” 应该写作“<div class=”Content-body”>”,一个完整的标签应该是以“<”开始,以“>”结束,如果<>之间的内容在各个内容页有一部分不一样,将不一样的部分用(*)代替即可),否则提取的内容会包含部分不完整的标签。通常正文包含的HTML会比较多,可以添加HTML过滤功能,建议仅保留段落(p)、图片(img)、换行(br)等标签。
9)开始采集
选择要采集的任务规则,勾选“采网址”和“采内容”复选框,点击工具栏“开始”按钮。
10)后续工作
采集到的数据保存在数据库,可以通过在任务名上点右键,选择“打开DATA下任务文件夹”打开数据库所在位置,该数据库可以通过ACCESS打开和编辑。如果想要重新采集,需要通过右键选择“清空该任务网址库”和“清空任务所有采集数据”。