反垃圾爬虫节约服务器资源

现如今的流量大部分已经不是来自于搜索引擎,而是各大APP思域流量引流而来;

各种奇奇观观的爬虫一天访问个几千次甚至几万次,非常浪费服务器资源 ServerResource 所以我们要拦截无用的爬虫;

拦截爬虫
1,通过IP拦截 (最精准)
2,通过ua拦截 (最省心)
3,通过rebot协议 (最无用)

DocumentRoot /*/wwwroot/008ts.cn
<Directory "/*/wwwroot/008ts.cn">
SetEnvIfNoCase User-Agent ".*(FeedDemon|JikeSpider|Indy)" BADBOT
Order allow,deny
Allow from all
deny from env=BADBOT

相关代码放在了 apache/conf 的最下边

附录(爬虫说明):

FeedDemon 内容采集

BOT/0.1 (BOT for JCE) sql注入

CrawlDaddy sql注入

Java 内容采集

Jullo 内容采集

Feedly 内容采集

UniversalFeedParser 内容采集

ApacheBench cc攻击器

Swiftbot 无用爬虫

YandexBot 无用爬虫

AhrefsBot 无用爬虫

YisouSpider 无用爬虫(已被UC神马搜索收购,此蜘蛛可以放开!)

MJ12bot 无用爬虫

ZmEu phpmyadmin 漏洞扫描

WinHttp 采集cc攻击

EasouSpider 无用爬虫

HttpClient tcp攻击

Microsoft URL Control 扫描

YYSpider 无用爬虫

jaunty wordpress爆破扫描器

oBot 无用爬虫

Python-urllib 内容采集

Indy Library 扫描

FlightDeckReports Bot 无用爬虫

Linguee Bot 无用爬虫

版权声明:奥利大哥 发表于 2021-07-06 13:10:52。
转载请注明:反垃圾爬虫节约服务器资源 | 亦森博客

暂无评论

暂无评论...