通过Nginx日志分析百度蜘蛛的爬行抓取情况

做网站 SEO优化的朋友会特别关注蜘蛛爬行的次数、频率等,而做好网站优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,如果蜘蛛爬行出现异常怎么办?下面将结合 Linux 系统中的几个 Linux 命令,如 cat 命令 \grep 命令 \awk 命令等可以让你清楚的知道蜘蛛的爬行情况。

seo_sem_marketing_optimization_business_web_internet_search-878753.jpg

下面我们针对 ng­inx 服务器进行分析,日志文件所在目录:/usr/local/nginx/logs/access.logaccess.log 这个文件记录的应该是最近一天的日志情况,首先请看看日志大小,如果很大 (超过 50MB) 建议别用这些命令分析,因为这些命令很消耗 CPU,或者更新下来放到分析机上执行,以免影响网站的速度。

Shell命令

1、百度蜘蛛爬行的次数

cat access.log | grep Baiduspider | wc

2、百度蜘蛛的详细记录 (Ctrl C 可以终止)

cat access.log | grep Baiduspider

也可以用下面的命令:

cat access.log | grep Baiduspider | tail -n 10
cat access.log | grep Baiduspider | head -n 10

只看最后 10 条或最前 10 条,这用就能知道这个日志文件的开始记录的时间和日期。

3、百度蜘蛛抓取首页的详细记录

cat access.log | grep Baiduspider | grep "GET / HTTP"

百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。

4、百度蜘蛛派性记录时间点分布

cat access.log | grep "Baiduspider" | awk '{print $4}'

5、百度蜘蛛爬行页面按次数降序列表

cat access.log | grep "Baiduspider" | awk '{print $7}' | sort | uniq -c | sort -r

文中的 Baiduspider 改成其它蜘蛛名称,例如改成 Googlebot 就可以查看谷歌的数据,国内主要以百度蜘蛛的爬行日志为主。

关于通过Nginx日志分析百度蜘蛛的爬行抓取情况的相关内容;如有侵权,请联系老文删除。

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
老文的头像老文
上一篇 2021年8月25日 上午12:49
下一篇 2021年8月25日 下午7:53

相关推荐

  • wordpress怎么降级(使用插件将wordpress升/降到指定版本)

    最近有用户的网站出现了程序需要降级的需求,那么我们就用最简单的办法,插件实现wp程序的降级; 后台插件搜索:WP Downgrade | Specific Core Version 这是一个可以轻松实现升/降级的插件(任何致命性操作之前,请先本分各种数据!程序/数据库) ①准备升级或降级的WP程序版本号 ②这里可以将准备升降机的源程序放到本地服务器内,这样升…

    2023年8月22日
    78
  • 网页出现502 bad gateway什么意思 怎么解决

    有时候小编在打开一下网页的时候,会出现502 bad gateway,往往出现了502 bad gateway的时候,网页都会出现打不开的情况。如果是遇到很急的时候网页出现502 bad gateway这个的时候都会显得十分着急。那么遇到这种情况时应该怎么解决呢?而502 bad gateway又是什么意思呢?今天小编就为各位解答一下。   一、网页出现50…

    2022年11月11日
    201
  • 让你的WordPress 网站更安全的常见方法

    WordPress程序使用者众多,然而被黑,被攻击的网站也是众多,那么怎样让你的WordPress 网站更安全呢,下面小编就来说说。 1.备份数据 经常备份网站数据 这个习惯是必须的,即使是再安全的服务器也有崩溃损失文件的可能性,此外如果网站被黑客攻击了,也会造成文件丢失或被修改。最简单有效的方法当然就是备份数据了。但是备份数据也是需要有一定的规划,不能说想…

    2021年8月19日
    699
  • 数据库MySQL服务状态经常崩溃停止,一个自动化命令就可以解决

    我们建站的时候经常会碰到数据库崩溃停止的情况,可以使用 Shell 脚本来检测 MySQL 服务状态并在需要时重启它。以下是一个简单的 Shell 脚本示例,它会检查 MySQL 服务是否运行,如果服务停止,脚本将尝试重启服务。   通用方案 编写脚本:创建一个脚本文件,例如 restart_mysql.sh,并编写以下内容: 代码语言:bash …

    2024年7月31日
    167
  • WordPress网站常用的SEO插件和工具介绍

    WordPress是款功能强大的内容管理系统,拥有诸多的插件和主题模板,我们可用它来创建外贸网站,网站成功上线后需要进行日常优化,那么WordPress SEO插件和工具有哪些呢?本文为大家分享几款WordPress网站常用的SEO插件及相关工具。 外贸网站一般用户访问量大,选择合适的主机服务器是网站SEO的重要前提,所以我们可以优先选择带宽资源充足、稳定性…

    2023年1月9日
    118