现如今的流量大部分已经不是来自于搜索引擎,而是各大APP思域流量引流而来;
各种奇奇观观的爬虫一天访问个几千次甚至几万次,非常浪费服务器资源 ServerResource 所以我们要拦截无用的爬虫;
拦截爬虫
1,通过IP拦截 (最精准)
2,通过ua拦截 (最省心)
3,通过rebot协议 (最无用)
DocumentRoot /*/wwwroot/008ts.cn
<Directory “/*/wwwroot/008ts.cn”>
SetEnvIfNoCase User-Agent “.*(FeedDemon|JikeSpider|Indy)” BADBOT
Order allow,deny
Allow from all
deny from env=BADBOT
相关代码放在了 apache/conf 的最下边
附录(爬虫说明):
FeedDemon 内容采集
BOT/0.1 (BOT for JCE) sql注入
CrawlDaddy sql注入
Java 内容采集
Jullo 内容采集
Feedly 内容采集
UniversalFeedParser 内容采集
ApacheBench cc攻击器
Swiftbot 无用爬虫
YandexBot 无用爬虫
AhrefsBot 无用爬虫
YisouSpider 无用爬虫(已被UC神马搜索收购,此蜘蛛可以放开!)
MJ12bot 无用爬虫
ZmEu phpmyadmin 漏洞扫描
WinHttp 采集cc攻击
EasouSpider 无用爬虫
HttpClient tcp攻击
Microsoft URL Control 扫描
YYSpider 无用爬虫
jaunty wordpress爆破扫描器
oBot 无用爬虫
Python-urllib 内容采集
Indy Library 扫描
FlightDeckReports Bot 无用爬虫
Linguee Bot 无用爬虫
请先
!