反垃圾爬虫节约服务器资源

现如今的流量大部分已经不是来自于搜索引擎,而是各大APP思域流量引流而来;

各种奇奇观观的爬虫一天访问个几千次甚至几万次,非常浪费服务器资源 ServerResource 所以我们要拦截无用的爬虫;

拦截爬虫
1,通过IP拦截 (最精准)
2,通过ua拦截 (最省心)
3,通过rebot协议 (最无用)

DocumentRoot /*/wwwroot/008ts.cn
<Directory “/*/wwwroot/008ts.cn”>
SetEnvIfNoCase User-Agent “.*(FeedDemon|JikeSpider|Indy)” BADBOT
Order allow,deny
Allow from all
deny from env=BADBOT

相关代码放在了 apache/conf 的最下边

附录(爬虫说明):

FeedDemon 内容采集

BOT/0.1 (BOT for JCE) sql注入

CrawlDaddy sql注入

Java 内容采集

Jullo 内容采集

Feedly 内容采集

UniversalFeedParser 内容采集

ApacheBench cc攻击器

Swiftbot 无用爬虫

YandexBot 无用爬虫

AhrefsBot 无用爬虫

YisouSpider 无用爬虫(已被UC神马搜索收购,此蜘蛛可以放开!)

MJ12bot 无用爬虫

ZmEu phpmyadmin 漏洞扫描

WinHttp 采集cc攻击

EasouSpider 无用爬虫

HttpClient tcp攻击

Microsoft URL Control 扫描

YYSpider 无用爬虫

jaunty wordpress爆破扫描器

oBot 无用爬虫

Python-urllib 内容采集

Indy Library 扫描

FlightDeckReports Bot 无用爬虫

Linguee Bot 无用爬虫

本站个别资源来源于网络,还请自行再次甄别本资源安全性及合法性! 本站提供的资源(包括但不限于源码,软件,文章)仅供个人为了学习和研究其内含的设计思想和原理,请在查阅后后自觉删除。
1
分享到:

评论0

请先

没有账号? 忘记密码?