裁判文书网为何要登录?因为有人大量爬取数据出售牟利,导致网站卡顿、正常用户无法访问

@Ta 2022-01-13发布,2022-01-13修改 203点击

在裁判文书网( https://wenshu.court.gov.cn/ )搜索文书以前是不需要登录的,现在改为需要登录了。我一直很奇怪为什么完全公开免费获取的内容还要强制登录才能使用?

原来是有人爬取文书数据拿来卖,不仅如此,还无节制的并发爬取,导致网站卡顿,正常用户无法访问。

https://baijiahao.baidu.com/s?id=1640710726049484077&wfr=spider&for=pc&searchword=%E8%A3%81%E5%88%A4%E6%96%87%E4%B9%A6%E7%BD%91%E6%95%B0%E6%8D%AE%E7%AB%9F%E8%A2%AB%E5%94%AE%E5%8D%96

Screenshot_20220113_200728_com.UCMobile_edit_1347475224462616.jpg

Screenshot_20220113_200720.jpg

回复列表(9|隐藏机器人聊天)
  • @Ta / 2022-01-13 / /

    Screenshot_20220113_201154.jpg

  • @Ta / 2022-01-13 / /
    既然不想让人抓取,那就主动把数据库文件公开出来多好,需要爬取的直接下载数据库
  • @Ta / 2022-01-13 / /

    裁判文书网为什么加载不完全?

    因为访问静态资源时被重定向到验证码输入页面,所以无法正常显示。

    图片.png

    为什么刷新几次就好了?

    因为之前成功加载的静态资源有缓存,不需要重新获取,所以再刷新就能获取到更多静态资源,直到完整获取。

    为什么我从未看到验证码输入页面?

    因为你访问首页时,肯定是第一次访问该站,此时完全不会触发验证码。等你触发验证码的时候,肯定是在获取js/css/图片等资源的时候,而这些资源即使重定向到验证码页面,也无法在浏览器中显示出来。

    为什么该机制如此不合理,甚至影响正常用户使用?

    虎绿林在做超速机制时曾经犯过完全相同的错误。当时所有php文件都加入了限速,结果导致用户很容易触发限速,页面内容总是无法完整加载。后来才发现,是因为访问用户发布的图片时需要经过q.php/link.img,而一个页面可能有十个图片,多刷新几次就马上触发限速了。为了避免该问题,虎绿林最开始只是简单的放宽限速数值,允许更大的并发访问。但是后来我发现这治标不治本,才改为仅在连接数据库时触发限速。我也是花了很久时间才意识到问题是什么,花了很久时间才想到解决方案。所以裁判文书网的开发者目前还没想到解决方案也情有可原。

  • @Ta / 2022-01-13 / /

    @net909,他们可能没想到,所以你可以在意见建议那里留言。比如我就准备把我3楼的发现告诉他们。

    裁判文书网的反爬虫机制似乎有问题,导致正常用户首次访问页面时显示不完整,并且没有机会看到验证码输入页面。问题在于,浏览器加载网站首页HTML时,肯定是第一次访问网站,此时不会触发限速验证码。当用户触发限速验证码时,通常都是在加载图片、js、css这类静态资源。此时即使重定向到验证码输入页面,用户也没有机会看到。这导致用户只会看到不完整的首页,然后尝试刷新。不过好在只要多刷新几次就有机会完整加载,因为已经成功加载的资源会被缓存,不需要重新向服务器获取。但是这依然十分影响用户体验,并且网站精心设计的验证码输入机制完全没有机会被真实用户触发。所以我建议不必对静态资源(图片、js、css)的获取进行限速,只对需要连接数据库的页面(html、搜索接口等)进行限速。这样普通用户才有机会看到验证码输入页面。至于静态资源,通常只要交给CDN就能完全抗住,爬虫通常也只对内容页面和搜索接口感兴趣,不会反复获取网站的图片、js、css等静态资源。

  • @Ta / 2022-01-13 / /

    如何避免裁判文书网加载不完整?

    访问 https://wenshu.court.gov.cn/waf_verify.htm 主动输入验证码

  • @Ta / 2022-01-13 / /

    登录功能似乎出了问题,导致意见建议的提交接口一直返回“请先登录”。也许爬虫又把服务器玩崩了。

    图片.png

  • @Ta / 2022-01-13 / /

    终于提交成功了。看起来他们的服务器确实承受着很大的压力。不要轻易指责别人建站水平差,除非你亲自解决过规模类似的问题。

    而且还要考虑到,他们的系统是他们自研的,不是外包的。最高人民法院毕竟不是互联网大厂,作为他们的第一个网站作品,即使架构不成熟、并发性能不高,我认为也可以理解。

    最高法已成立了专门的运维保障团队去维护管理中国裁判文书网,也将在技术与人力上投入更多的力量。

    图片.png

  • @Ta / 2022-01-13 / /
    @老虎会游泳,里面的数据不知道有啥用?还能卖钱?
  • @Ta / 2022-01-15 / /

    @大尨,天眼查,企查查这种会员,是干嘛的

    荣耀30Pro

添加新回复
回复需要登录