通过Nginx日志分析百度蜘蛛的爬行抓取情况

做网站 SEO优化的朋友会特别关注蜘蛛爬行的次数、频率等,而做好网站优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,如果蜘蛛爬行出现异常怎么办?下面将结合 Linux 系统中的几个 Linux 命令,如 cat 命令 \grep 命令 \awk 命令等可以让你清楚的知道蜘蛛的爬行情况。

seo_sem_marketing_optimization_business_web_internet_search-878753.jpg

下面我们针对 ng­inx 服务器进行分析,日志文件所在目录:/usr/local/nginx/logs/access.logaccess.log 这个文件记录的应该是最近一天的日志情况,首先请看看日志大小,如果很大 (超过 50MB) 建议别用这些命令分析,因为这些命令很消耗 CPU,或者更新下来放到分析机上执行,以免影响网站的速度。

Shell命令

1、百度蜘蛛爬行的次数

cat access.log | grep Baiduspider | wc

2、百度蜘蛛的详细记录 (Ctrl C 可以终止)

cat access.log | grep Baiduspider

也可以用下面的命令:

cat access.log | grep Baiduspider | tail -n 10
cat access.log | grep Baiduspider | head -n 10

只看最后 10 条或最前 10 条,这用就能知道这个日志文件的开始记录的时间和日期。

3、百度蜘蛛抓取首页的详细记录

cat access.log | grep Baiduspider | grep "GET / HTTP"

百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。

4、百度蜘蛛派性记录时间点分布

cat access.log | grep "Baiduspider" | awk '{print $4}'

5、百度蜘蛛爬行页面按次数降序列表

cat access.log | grep "Baiduspider" | awk '{print $7}' | sort | uniq -c | sort -r

文中的 Baiduspider 改成其它蜘蛛名称,例如改成 Googlebot 就可以查看谷歌的数据,国内主要以百度蜘蛛的爬行日志为主。

关于通过Nginx日志分析百度蜘蛛的爬行抓取情况的相关内容;如有侵权,请联系老文删除。

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
老文的头像老文
上一篇 2021年8月25日 上午12:49
下一篇 2021年8月25日 下午7:53

相关推荐

  • Teambition 网盘服务即将下线,附上数据迁移到阿里云盘方法

    阿里巴巴近日宣布,由于 Teambition 业务方向调整,并于2021 年 9 月 30 日下线 Teambition 「网盘」服务,个人云存储业务转为同一团队研发的「阿里云盘」承接,Teambition 网盘和阿里云盘将实现数据合并。 如何进行数据迁移 1、登录阿里云盘网页版(点此登录);(阿里云盘 App 没有迁移入口) 2、登录后,在阿里云盘 web…

    2021年9月5日
    587
  • 怎么升级flarum论坛所有的插件?

    最近我要配置一个封禁IP的插件,一直提醒我Flarum的内核版本过低,需要设置1.8.3。   安装插件报错,提醒升级论坛内核版本 而我正好要升级Flarum论坛的所有插件,所以我是按以下步骤进行的: 1.升级前的准备 备份网站数据和数据库。这是非常重要的步骤,以防止在升级过程中发生任何数据丢失。 停用所有安装的第三方插件。特别是那些你自己安装的、…

    2024年7月31日
    151
  • 说说如何抢先注册一个快过期的域名

    小编最近看上了一个域名,打算抢注,所以就提前做了功课,学习了怎么抢注一个快过期的域名,下面来具体说说! 1. 查看具体删除时间(重要点): 某域名过期 / 删除时间查询: 域名删除时间查询 最近可抢注域名查询 (国际): Pool.com : Pending Delete List 最近可抢注域名查询 (国内): 易名:过期域名预订列表 2. 预订抢注。 国…

    2021年9月11日
    459
  • 电脑版鼠标自动点击器,带录制功能

    鼠标点击器,是一款很好用的绿色软件,占用空间小,操作方便,可以用于日常需要鼠标自动点击的操作中(带录制功能的鼠标自动点击器)。 主要功能: 1,录制鼠标操作记录 2,自动设置重复播放录制,可以无限次重播,也可以按次数重播鼠标操作。 优点:方便简洁,易操作,功能完善。 下载地址:https://wwa.lanzoui.com/i6GMYt3b3fg 密码:we…

    2021年8月24日
    1.2K
  • HTTP状态码常见的网站错误代码大全

    这里收集常见的错误代码。 不常见的我就不写了。 一些常见的状态码为: 200 – 服务器成功返回网页 404 – 请求的网页不存在 503 – 服务不可用 详细分解: 206 (部分内容) 服务器成功处理了部分 GET 请求。 301 (永久移动) 请求的网页已永久移动到新位置。服务器返回此响应(对 GET 或 HEAD …

    2021年11月17日
    524