当前位置:首页 » 代码教程 » 防止火车头等采集器采集的一些简单方法分享

防止火车头等采集器采集的一些简单方法分享

舍力自己也用采集器采集过文章的,所以对网站防采集有一些心得体会,今天就给大家分享一些采用动态不规则的html标签防止采集的方法

随机代码:
<?php echo dechex(rand(1,888888));?>

舍力分析:如果css中用[.sheli]来确定参数,那么<div class="sheli">与<div class="slsj sheli">对于页面显示效果一样,但是作为采集器的标记就是两个不同标记了,如果每次页面的html标签内空格数随机,那么采集规则 就失效了。但是,这对搜索引擎爬虫没多大影响。 

操作方法:将循环的div中calss最前面加入随时代码,要注意空格;例如
<div class="<?php echo dechex(rand(1,888888));?> sheli">

适合网站:所有PHP动态且不想遵守网页设计规范的网站。

温馨提示:舍力提供的这个方法也只是给采集器增加一些困难,高手还是能采集到你网站的数据的。
End
温馨提示:如果您对本文有疑问,请在本页留言即可!!!
觉得很赞 (1)付款方式
X
付款方式:
  • 微信
  • 支付宝
  • QQ红包

使用微信扫一扫
blogger
    发布日期:2018-05-04   所属类别:代码教程   浏览:2855次   评论:6次
    本文地址:http://www.shuyong.net/chengxu/1028.html [ 百度已收录 ]
    声明:本页信息由网友自行发布或来源于网络,真实性、合法性由发布人负责,请仔细甄别!本站只为传递信息,我们不做任何双方证明,也不承担任何法律责任。文章内容若侵犯你的权益,请联系本站删除!

留言/评论:◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

填写好QQ号码,任点空白处自动获取

昵称

邮箱

网址

5楼、无毒蝎子 [回复该留言]
2018-08-16 12:48
没啥乱用,火车头也可以正则匹配,你写半天,我一个规则就搞定了
舍力 [回复该留言]
2018-08-16 15:09
@无毒蝎子:不一定用在防采集上,很多地方可以用的上的。
4楼、亚克力浴缸 [回复该留言]
2018-05-14 17:51
火车头采集有点复杂
3楼、米扑博客 [回复该留言]
2018-05-09 08:17
非常精妙的随机数,正好有用,赞一个
2楼、网站建设 [回复该留言]
2018-05-08 11:01
学习了,谢谢分享
1楼、残影 [回复该留言]
2018-05-05 20:59
谢谢分享

个人资料

舍力

博主:舍力

Emlog交流群

    网站制作
    1、博客网站以Emlog为程序;
    2、企业网站建议以米拓MetInfo为程序,当然也可以用Emlog来做。

广告赞助

博客统计

  • 文章数量:1094篇
  • 文章评论:3321条
  • 总访问量:4674806次
  • 微语数量:55条
  • 在线人数:2人
  • 本站运行:5年11月27天
  • 博主很懒,今天什么都没留下!
Q2 虚位以待
Copyright © 2019 舍力博客 版权所有   粤ICP备11021420号
基于宝塔面板,数据存储于阿里云ECS
Powered by emlog / &Author 舍力博客.