火车头采集器采集规则 详细使用教程(实例教学) 图文教程

今天讲解 火车头采集器的详细使用方法和技巧。这里直接给大家贴出作者使用的这个版本的火车头,这些写了一些自定义的字段,想必一些有需求的大侠肯定能用到。

简单说采集主要分为几个步骤进行,首先了解每个步骤的工作原理和任务目标,就能很好的熟悉这个采集器操作了。

火车头采集器采集规则 详细使用教程(实例教学) 图文教程

如图所示,作者圈出来的主要也就三个步骤加上最后表格保存及一些列的设置。下面就一个一个来讲。

首页就是第一步,采集网址规则,按逻辑关系来说,采集器想要采集每个网页上的内容之前是不是先要获取到这些页面的URL,获得这些网址之后采集器才能到一个个页面上去采集你想要的内容。那么问题就简单了,我们首先要获得分类页面上展示的这一个个产品链接,就要打开一个分类页的源码,然后找到这些产品代码的区域段,在区域段的上方和下方个找一个唯一性的标签,这样就能成功的截取到我们想要的这类产品的一个个链接了,有时候还要配上包含字符和不包含字符等等,(一些做了JS的网页的情况又是不一样,这个情况另行讨论),下面作者拿实例图给大家做展示说明:

火车头采集器采集规则 详细使用教程(实例教学) 图文教程

假设我想采集这个假发站点的human hair wigs这一类产品,我点开这个大类后看到一共分为5页,每页展示的是59件产品,我现在首先要把这5页的产品的URL作为我的目标URL,建立任务,如下图所示,

火车头采集器采集规则 详细使用教程(实例教学) 图文教程

目标网址建好后,就需要填写目标网址的代码筛选规则了,

火车头采集器采集规则 详细使用教程(实例教学) 图文教程

点击添加之后,就来到了具体填写规则的界面了,如下图,

火车头采集器采集规则 详细使用教程(实例教学) 图文教程

注:商品代码段的前后标签最好是唯一性的标签,当然了,不是唯一的也可以,不过需要注意利用包含和不包含字符来去除掉多余的URL,

保存好页面商品的采集规则后,点击保存后,采集网址规则这一部分就完成了。

下面就到了采集内容规则了,这就是具体产品页面的采集了,

火车头采集器采集规则 详细使用教程(实例教学) 图文教程

众所周知,想采集好一个具体的商品页面,需要采集 标题,图片,小图,价格,描述,特性,等一些常规的和特殊的一些信息,拿这个假发例子来说,就收集了标题,属性表,原价,特价,主图,小图,描述这些信息。

这些具体的单向信息采集,例如标题,属性表,特价,原价,描述这些都可以使用元素前后截取的方式来获得,如图

火车头采集器采集规则 详细使用教程(实例教学) 图文教程

然而主图和附属图,在图片代码简单的情况下也是可以使用前后截取的方式,但是为了避免不明情况的疏漏还是建议图片的采集使用正则提取,如下图,

火车头采集器采集规则 详细使用教程(实例教学) 图文教程

注:把图片代码段的变量都使用星号代替,若要对图片进行处理替换的话,可以在左下角有功能让你选择(例,有时候图片的URL打开时就很小,你可以替换下图片的尺寸,通常就会有大尺寸的图片URL供你使用)。

好了,第二步的采集内容规则讲完了,下面就到发布内容设置了,没有什么特别需要说明的,根据自己的需求来,如下图,

火车头采集器采集规则 详细使用教程(实例教学) 图文教程

额外讲下,这个文件保存及部分高级设置,有些用户在采集的时候需要维持原数据的顺序,这时候在高级设计选项里面,就需要把单任务采集线程个数设置为1,要是为其它数值的话,就会有多线程同时采集了,那样就没法保存数据的顺讯排列了。如图吧

火车头采集器采集规则 详细使用教程(实例教学) 图文教程

都设置好之后就可以选运行,采网址和才内容,然后再勾选发布,数据表格就会发布到你设置的保存位置,如图,

火车头采集器采集规则 详细使用教程(实例教学) 图文教程

然后右键,菜单选项,开始任务,就好了

完了之后再勾上发布,右键,菜单选项,开始任务,就完成了。

具体细节和问题可以在网站留言部分留言讨论…

原创文章,作者:Tony,如若转载,请注明出处:https://www.xxside.com/2136.html

思德心语,壹群:799239814

(0)
TonyTony
0 0
火车头数据采集器 采集规则知乎专栏 单篇文章
上一篇 2019年10月17日 上午1:00
Friendhosting:$1.75起/首付5折/KVM无限流量/可选7机房/支持支付宝
下一篇 2019年10月17日 下午8:50

相关推荐

  • 【已解决】宝塔强制HTTPS,火车头发布模块无法获取帝国CMS分类 2020年8月6日
  • 【已解决】宝塔强制HTTPS,wordpress火车头发布模块无法获取栏目分类 2020年8月7日
  • 火车头数据采集器9.5 破解版 文章采集发布/数据采集 2019年10月16日
  • 火车头数据采集器9.8 开心版 文章采集发布/数据采集 2019年10月16日
  • 火车头采集遇到”Failed to connect for data transfer”连接尝试失败 2021年4月18日
  • 火车采集器单本小说采集更换目标地址方法适用于帝国cms 2024年3月7日

发表评论

登录后才能评论

代开银行存款证明公司嘉兴企业资信证明代办四平企业资信证明供应商吕梁订做出国留学存款证明淮安企业资金证明代做亳州银行存款证明价格太原代做企业资信证明中山存款证明怎么样岳阳企业资金证明哪家专业宜宾办企业资金证明阜阳企业资金证明图片武威存款证明作用雅安资信证明费用安顺做定期存单荆门本地资金证明荆门制作出国留学资金证明清远留学存款证明作用铁岭留学存款证明哪里有拉萨资信证明怎么打印酒泉打留学存款证明芜湖订制资信证明呼伦贝尔资金证明公司巴彦淖尔银行定期存单公司宣城定期存单代办晋中代做资金证明昌都代办企业资金证明汕头办理资金证明宜昌出国留学存款证明怎么打印宿州订制出国留学资金证明襄阳定制资信证明吉安银行定期存单报价香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声汪小菲曝离婚始末卫健委通报少年有偿捐血浆16次猝死单亲妈妈陷入热恋 14岁儿子报警雅江山火三名扑火人员牺牲系谣言手机成瘾是影响睡眠质量重要因素男子被猫抓伤后确诊“猫抓病”中国拥有亿元资产的家庭达13.3万户高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了男孩8年未见母亲被告知被遗忘张家界的山上“长”满了韩国人?倪萍分享减重40斤方法许家印被限制高消费网友洛杉矶偶遇贾玲何赛飞追着代拍打小米汽车超级工厂正式揭幕男子被流浪猫绊倒 投喂者赔24万沉迷短剧的人就像掉进了杀猪盘特朗普无法缴纳4.54亿美元罚金周杰伦一审败诉网易杨倩无缘巴黎奥运专访95后高颜值猪保姆德国打算提及普京时仅用姓名西双版纳热带植物园回应蜉蝣大爆发七年后宇文玥被薅头发捞上岸房客欠租失踪 房东直发愁“重生之我在北大当嫡校长”校方回应护栏损坏小学生课间坠楼当地回应沈阳致3死车祸车主疑毒驾事业单位女子向同事水杯投不明物质路边卖淀粉肠阿姨主动出示声明书黑马情侣提车了奥巴马现身唐宁街 黑色着装引猜测老人退休金被冒领16年 金额超20万张立群任西安交通大学校长王树国卸任西安交大校长 师生送别西藏招商引资投资者子女可当地高考胖东来员工每周单休无小长假兔狲“狲大娘”因病死亡外国人感慨凌晨的中国很安全恒大被罚41.75亿到底怎么缴考生莫言也上北大硕士复试名单了专家建议不必谈骨泥色变“开封王婆”爆火:促成四五十对测试车高速逃费 小米:已补缴天水麻辣烫把捣辣椒大爷累坏了

代开银行存款证明公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化