2021-03-01 06:43:52
「网络推广外包」火车头采集工具是如何使用的?我们都知道,采集能够提高工作效率,完成平台新闻更新,是非常实用的一种手段。那么下面就来看看火车头采集工具的工作原理以及使用方法是怎样的。
一、火车头采集工具的工作原理
火车采集器如何去抓取数据,取决于您的规则。要获取内容页的内容,首先需要先将这个网页的网址采下来,这就是采网址。程序按规则抓取列表页里的内容页url。再根据您的采集规则,将标题内容等信息分离开来并保存下来。如果选择了下载图片,程序会对采集到的数据进行分析,找出图片的下载地址并将图片下载到本地。
二、火车头采集工具的使用方法
1、打开火车头工具,单击左侧空白处,根据需要新建分组;
2、右击刚才建立好的分组,新建采集任务,并填写好任务名称;
3、填写批量采集网址规则,注意先分析目标列表页url规则;
4、设置“多级网址获取”规则,并测试设置好的规则是否生效;
5、校验设置好的规则是否生效,如果生效,则返回修改设置;如果得到的结果不正确,也需要返回修改设置(重新分析采集范围是否正确,一直校验到是我们需要的结果);
6、返回修改采集的项数,并且记得点击“添加”和“完成”;
7、进入到第二步“采集内容规则”,采集文章的标题,选中“标题”,点击左侧的修改,选择“前后截取”,将文章标题的html区域填写完整,右侧“典型页面”填写一条内容页url,以供随时测试;
8、采集文章的“摘要”、采集文章的“标签”、采集文章的“内容”;
9、填写内容所在区间的html标签,添加数据处理,勾选“下载图片”并填写文件保存目录和格式,最后点击确定;
10、保存设置好的采集任务,开始采集任务。