已掉线,重新登录

首页 > 绿虎论坛 > 历史版块 > 编程 > PHP > 讨论/求助

标题: 大神帮忙看看这段代码可否防采集?

作者: @Ta

时间: 2018-05-09

点击: 6555

最近博客被人盯上,被恶意采集了,大神帮忙看看这段代码可否防采集?

6856865a8e3db2ac500663ab77a0376815481.png

图片中的域名地址后面带有“/http/”,改成我的是不是可以去掉?

[隐藏样式|查看源码]


『回复列表(14|隐藏机器人聊天)』

1.

不能,这种小伎俩根本没用。
小米5黑色高配版

(/@Ta/2018-05-09 00:32//)

2.

想防采集利用javascript做点手脚还有点作用。
小米5黑色高配版

(/@Ta/2018-05-09 00:33//)

3. 检查字符串在变量里的出现次数。。。

用echo的话不如还用die来的直接

而且要放在内容页
(/@Ta/2018-05-09 00:33//)

4.

@我之前的账号呢一个允许正常用户直接访问的网站是没有办法防止采集的,除非它要求正常用户输入验证码才能看到内容。

很简单的道理是,既然浏览器会发送Referer头,为什么采集程序就不能发送呢?因为浏览器是程序,采集程序也是程序,所以采集程序完全可以模仿浏览器,做一切浏览器会做的事情啊。而且一个采集程序完全可以就是一个浏览器(比如phantomjs项目)。

所以,一个可以让某种机器(浏览器)访问的页面是无法阻止其他机器(采集程序)的。要解决这个问题,只能让这个页面“只能被有人类操作的机器访问”。

于是需要使用“全自动区分计算机和人类的图灵测试”(CAPTCHA),也就是——验证码。

(/@Ta/2018-05-09 00:47//)

5.

@老虎会游泳,活捉老虎
小米5黑色高配版

(/@Ta/2018-05-09 00:45//)

6.

@老虎会游泳,这种博客网站只要把采集难度弄高点来采集的人就会少很多,除非是针对性的采集。
小米5黑色高配版

(/@Ta/2018-05-09 00:47//)

7.

然而增加REFERER验证基本不能阻止任何事情,现在还有采集程序会忘了添加REFERER头这件事情吗
REFERER只能防止盗链,这里的盗链是指对方在他的网站上直接使用你的资源。因为正常的浏览器不会撒谎,它会在REFERER里包含真正的来源站点URL。然而采集程序就完全不是这样了。

如果真的想要让采集者恶心,倒是有一个方法,就是限速。具体来说就是,如果对方的访问速度过快(比如每秒超过多少次),就给一个惩罚性的时间段让对方无法访问(比如30秒)。

(/@Ta/2018-05-09 00:55//)

8.

页面用js输出,然后把js加密一下,防一般的完全够了,只不过对搜索引擎也不太友好

(/@Ta/2018-05-09 01:25//)

9. 综合以上大佬意见,防采集只能作罢
(/@Ta/2018-05-09 22:10//)

10.

对ip设定一定时间需要重新输入的验证码
荣耀9(奶奶灰)

(/@Ta/2018-05-10 07:24//)

11.

没用,之前通过PhantomJS+Sellenium做过爬虫只要你的网站可以访问都可以爬。只有加验证码和限制ip会有一些作用

(/@Ta/2018-05-10 08:24//)

12. @我之前的账号呢,你博客更新能有多快。估计现在都采集完了
(/@Ta/2018-05-10 12:43//)

13. @老虎会游泳,同意限速的方法。超过一定速度需要输入验证码
(/@Ta/2018-05-10 12:44//)

14. @天地之间,有时候一月一次,有时候两月一次
(/@Ta/2018-05-12 00:01//)

回复需要登录

9月7日 00:33 星期天

本站由hu60wap6驱动

备案号: 京ICP备18041936号-1