阅读视图

发现新文章,点击刷新页面。
☑️ ☆

网络爬虫,网络蜘蛛的问题

在观察一个 Web 服务器的日志的时候,看到一个现象,有大量的网络爬虫,或者说网络蜘蛛来访问,抓取内容。这个访问数量有些过分。
看这个截图。

Screenshot 2025-03-17 174029.jpg排名最前的十位如下:

714,290 (36.96%) 101 (00.07%) 11.8 GiB (39.11%) GPTBot/1.2
47,085 (02.44%) 299 (00.20%) 8 GiB (26.31%) GoogleOther
9,350 (00.48%) 453 (00.30%) 578.1 MiB (01.87%) meta-externalagent/1.1
35,038 (01.81%) 20 (00.01%) 470.2 MiB (01.52%) Ai2Bot-Dolma
39,785 (02.06%) 852 (00.57%) 376.3 MiB (01.21%) AhrefsBot/7.0
32,944 (01.70%) 216 (00.14%) 375.7 MiB (01.21%) MJ12bot/v1.4.8
28,577 (01.48%) 3,695 (02.48%) 313 MiB (01.01%) ClaudeBot/1.0
3,953 (00.20%) 967 (00.65%) 297.4 MiB (00.96%) Bytespider
13,919 (00.72%) 943 (00.63%) 202.8 MiB (00.65%) Googlebot/2.1
22,576 (01.17%) 13 (00.01%) 170.3 MiB (00.55%) Scrapy/2.11.2

排最前面的几位就是 GPTBot, GoogleOther, A12Bot-dolma,之流。都属于人工智能派出来的网络蜘蛛,来各个网站抓取内容,而它们抓取的内容会怎样使用的,会给你的网站带来访客吗?

基本上是不会的,本质上,这些机器人会抓取你的内容,然后进行索引,对其重组织后,来产生人工智能所编写的内容。

这意味着任何用 ChatGPT 之类的智能工具所攥写的内容都是在剽窃你我的内容。

作为内容的创造者,你会愿意无偿提供内容给他们吗?

来看看 OpenAI 的 GPTBot 干了什么吧?

网站的站长允许 GPTBot 来抓取网站内容,就意味着允许 OpenAI:

  • 使用你的内容来训练人工智能模型
  • 使用你的网站信息来生成 AI 内容
  • 增加了额外的服务器负担,影响普通访客访问网站的效果

作为内容的创造者,我对滥用 AI 的能力,无偿使用原创者的作品,十分担忧,也很反对。

目前我采用了 robots.txt 来封锁 GPTBot 和其它的一些人工智能 robot。

Screenshot 2025-03-17 180113.jpg如果还有新出来的人工智能机器人,我不介意把他们加上去,在没有合理的使用原创内容方法之前,还是都封掉为好。

☑️ ☆

十月更新

DigitalOcean 新出的 Premium General Purpose Droplets

据他们内部的测试,这种类型比普通的 VPS 快26% 到27%。网速快五倍,Nvme储存的读写速度都有很大的提高,价格也贵一点点。

Google Adsense 自动穿插广告

您可以选择向用户展示穿插广告的频率。通过选择穿插广告的频率,您可以控制用户要过多长时间才会再次看到穿插广告。

每当用户离开或返回页面时,系统都会展示穿插广告。如果自上次向用户展示穿插广告以后,经过了所设置的频率,系统就会再向用户显示一次穿插广告。通过调整频率,您可以控制用户在您的网站上看到穿插广告的频率。

默认的穿插广告频率设为 10 分钟。您可以自行选择频率(1 分钟到 1 小时),具体取决于您想向用户展示的穿插广告数量。例如,如果您希望通过穿插广告获得尽可能多的收入,您可以选择最低频率设置(1 分钟)。如果您希望用户看到较少的广告,则可以设置较高的频率(例如,10 分钟或更长时间)。

SixApart 发布了 MovableType R5501 版

有不少的变化,包括了安全补丁。

https://movabletype.org/news/2023/10/mt-79020-released.html

Screenshot 2023-10-26 161157.png

估计已经在对升级到 v8 做准备了。

MovableType 8.0.2 发布了

这是在10月31日晚上,我看到的消息,刚刚也下载了完整安装包,不过尚未升级测试。

这里有官方的介绍

看上去,MovableType 的发布节奏和支持策略都有了一些变化,需要关注。

MT8ProductLifeCycle.jpg

至于个人版会变成什么样子,待我看了再说。

☑️ ☆

九月新的变化

最近都在看一些杂七杂八的内容,也看到了很多不一样的变化,比如下面这些。

排名不分先后,只是随便记录。

Cloudflare 正式推出 ECH(Encrypted Client Hello)

ECH 对于隐私保护的最后一块拼版

主要的效能就是启用后,用户访问的实际域名都是被加密的了,中间人是看不到用户到底在访问哪个网站的了。

树莓派 5 即将发行

我是有几块树莓派的,虽然用处不多,但还是在关心着。最近的消息就是 Raspberry Pi 5 十月就要上市了,看看技术指标。

  • Broadcom BCM2712 2.4GHz quad-core 64-bit Arm Cortex-A76 CPU, with cryptography extensions, 512KB per-core L2 caches and a 2MB shared L3 cache
  • VideoCore VII GPU, supporting OpenGL ES 3.1, Vulkan 1.2
  • Dual 4Kp60 HDMI® display output with HDR support
  • 4Kp60 HEVC decoder
  • LPDDR4X-4267 SDRAM (4GB and 8GB SKUs available at launch)
  • Dual-band 802.11ac Wi-Fi®
  • Bluetooth 5.0 / Bluetooth Low Energy (BLE)
  • microSD card slot, with support for high-speed SDR104 mode
  • 2 × USB 3.0 ports, supporting simultaneous 5Gbps operation
  • 2 × USB 2.0 ports
  • Gigabit Ethernet, with PoE+ support (requires separate PoE+ HAT)
  • 2 × 4-lane MIPI camera/display transceivers
  • PCIe 2.0 x1 interface for fast peripherals (requires separate M.2 HAT or other adapter)
  • 5V/5A DC power via USB-C, with Power Delivery support
  • Raspberry Pi standard 40-pin header
  • Real-time clock (RTC), powered from external battery
  • Power button

这些够用了吗?

pi-5.jpg

Tomshardware 网站已经出了评测,也有很多的图片。

ChatGPT 对网站内容的抓取

Zac 老师的文章,谈到了各大 AI 厂商,推出的一个简单解决方案,给那些不愿意提供网站内容给 AI 的网站。

基本上就是在 Robots.txt 里面添加规则,当 AI 蜘蛛处理。

AI 语音合成的问题

最近看到几个例子,用 AI 合成自己的语音,会让人误以为真,语气语调非常逼真。

大家要小心,电话骗子会多一个手段了。就怕流氓会武术,谁都挡不住。

刺客信条:幻景

刺客信条系列游戏,我是一个都没有落下,这次的最新作品,早几个月就在 Xbox 上预订了,上个礼拜,Xbox 已经下载了游戏,只是还要等到发售日期才能开始玩,也就是 10月 5日。

最近几天 X 上面都是它的广告。

自己还在学习一些对我来说还是比较新的东西,比如docker,K8, Dmarc 等等。

☑️ ☆

七月更新

好久没更新了,今天先来看看 DigitalOcean 的七月通讯中有提到什么新鲜的事物。

DigitalOcean

DigitalOcean 是一个非常棒的 https://seo.g2soft.net/go/digitalocean.html,本站虽然已经迁移到其它的服务商,但是我的两外几个重要的服务,还是用的 DigitalOcean 的VPS,稳定可靠是很要紧的考虑因素。

  • 位于美国加州,旧金山的 SFO2 数据中心重新开放,多一个选择,也许对于大陆的客户会比较好。
  • Paperspace 成为 DigitalOcean 的一部分,这是个什么呢?是人工智能,大数据训练的一个工具,可以使用 DO 的GPU资源。
  • Pgvector 支持,还有付费开发者技术支持,这两个我都不懂,就不胡说八道了。

刺客信条游戏

刺客信条系列游戏我是一直在玩的,年底会出 Assassin's Creed Mirage,已经可以预购了,这是在Xbox,PS5,PS4,PC 等等平台上都可以玩的,哦就是十月12日。

Assassin's creed Codename Jade,是一个手游吧,封闭 Beta 测试已经接受申请, 算是一个可以在 iOS 和 Android 平台都可以使用的,暂时还没有概念,是怎么样的玩法。

_ecec4d1afc85eaa4b805bfd08fa6ac2eef0e404a-1266x640-ori_s_80_50_ori_q_80.webp

献血

在我二十多岁的时候,年轻,献过两次血,一次是大三,一次是工作两年时。我之前已经参加了干细胞移植志愿登记,也曾经有机会捐献,后来不需要了。

明天要再一次献血,不知道这边加拿大的献血情况是如何的。

GooglePlay Games

现在在 PC 上也可以玩 Google Play 的游戏了。目前还是 Beta 版本。

Screenshot 2023-07-30 155147.png

在 desktop PC 上安装后,就可以下载之前在手机上用过或者没有用过的游戏,毕竟是基于手机开发的游戏,像素可能不是那么的理想。其它体验倒是差不多。

☑️ ☆

审计你的网页的各项指标

此文就是整理过去几年至今,对网站做审计的方式和相关的内容。

所谓审计,就是 Audit,我们有时候也称之为审定。简单的说,就是通过手工检查,或者使用工具来对网站以及网页做个体检,看看有哪些地方做的好的,哪些地方不够的,哪些地方做错了。当然主要的目标就是搜索引擎的排名优化,其次就是用户体验。

在一开始的时候,我们先来把我们认为重要的审计的点都列出来,然后介绍如何使用工具,以及一些比较好用的工具。

准备工作

  • Google Analytics GA4 追踪代码安装
  • Google Search Console 设置

基础审计项目

  • 检查网站是否是移动友好 Mobile-Friendly
  • 确定 Google 收录了你的网站
  • 提高网站的载入速度
  • 检查并修复那些收录有问题的页面
  • 查看来自搜索引擎的自然流量
  • 改善网页的关键词排名
  • 分析反向链接,外链的情况
  • 修复断链
  • 竞争对手网站的分析
  • 用户界面的优化
  • 网站结构的扁平化
  • Meta 以及结构数据的展示
    • Title 标签内容
    • Keywords 标签内容
    • Favicon 图标设置
    • OG 和社交媒体元数据
    • 结构化数据
  • Sitemap 提交

进阶审计项目

  • 移动设备友好优化
  • 标准化验证,HTML5等
  • Web 服务器的优化

高级审计项目

  • 从内部链接获取更多的流量
  • 从 404 页面获取更多的流量

☑️ ☆

你的网站被 Google 用于 AI 训练了吗?

这是我看到了 Zac 的文章《你的网站内容被用于AI训练了吗?你愿意吗?》之后,而想到的。

基本上就是, Google 所使用的 AI 训练,需要很多的语料,而各大网站,或者小网站,都会成为它的目标。我对于这些 AI 工具在最近半年内的快速出现,以及快速的病毒式传播,看法也许并不相同。我认为在科技激流猛进的时候,普通用户需要耐心等待,可以尝试,不要陷入太深,等大浪淘沙后,还能为人所用的,那一定是能提高生产力,帮助人们提高效率的工具。

二月,在 Grandpa try the new technology 一文中,我向岳父大人介绍了Midjourney,以及 ChatGPT,他觉得挺有意思的。三月,我自己在本地电脑上尝试了  Stable Diffusion, 觉得蛮痛苦的。个人普通电脑还是不要尝试了,太费时间。

暂时我还是会认为各大互联网巨头都会向 OpenAI 做出挑战,做自己的 AI 训练。今天看到的 Zac 的文章,就是说 Google AI 训练集的情况。

Google 使用的是 C4 数据集,这里面有海量的网站,当然还有更多的网站并没有包括在内。The Washington Post 有做了一个互动工具,可以查看是否被包括在内,以及使用的数量。

C4开始是由非营利组织 CommonCrawl 从2019年4月开始进行的一次抓取,这是人工智能模型的一个很出名的资源。CommonCrawl 告诉《邮报》,它试图优先考虑最重要和最有信誉的网站,但并不试图避免许可或版权内容。

根据 Zac 的测试,他的网站排名 11,196,890,有 280 Tokens

seozac.com rank in C4

我也很好奇,看看本站的情况。

seo.g2soft.net ranking in Google C4

看来 SEO 网站优化推广 的排名还高一点,被用到的 tokens 有1.9K 之多。我还是开心的,毕竟有用。

我还看了 另外一个主要的英文 Blog,在 Google C4 数据集中的被使用情况。

yinfor.com Rank in Google C4 dataset

似乎,对于英文网站更重视。

在查看了更多的网站之后,我觉得,C4 对于信誉度更加看重。而这里的 Rank,可以看作另外一种 Google PageRank,或者叫做 SiteRank。

Google 拿这些网站的数据做 AI 训练,我觉得没有大问题,如果把训练的结果拿出来作为一种服务,而且还从中获利,那么这些网站就有权要求回报,至少要有 Credit 或链接。

也许该改写一下网站的版权声明了。

查看你的网站是否在 Google C4 数据集中

☑️ ☆

Google Optimize 下线退休

前些日子,收到 Google 通知邮件,今天细看了一下,是关于 Googe 优化,Google Optimize 将不再提供服务的通知。

从2023年9月30日起,Google Optimize 和 Optimize 360 将不再可用,任何在该日活动的体验都将结束,有关如何下载历史数据的更多信息,可以访问帮助中心。

Google Optimize 大概是5年前开始推出的,给各种规模的企业能够轻松测试和改善用户体验。 Google 了解到 A/B 测试对于营销的价值,之后会分享新的方法。

google-opt-sunset.jpg

在 Google Analytics 4 中也有一个 A/B 测试,这个测试工具将继续为用户服务。

关于如何下载历史数据,可以看 Export your Optimize report data

之后,很长一段时间,还是要研究如何用好 Google Analytics 4。

☑️ ☆

服务器状态检测工具更新

本站提供了若干个免费的 SEO 工具,前两天,给其中的一个工具做了小修改,添加了一个新特性。

HTTP Status 检测

服务器状态检测,访问网址会返回一个状态码,告诉你服务器对该网址的反映。这个功能常常被用于跳转检测,比如从1个网址跳转到另一个网址,跳转又是何种跳转,这都可以用下面这个免费的工具在检测到。

有些网站,对于不同的 User Agent 会返回不同的页面。或者你作为站长,希望你的网站在不同的设备上做不同的跳转,这个时候,这个工具就可以给你选择 User Agent 的选项。

list-agents.jpg

这里预设了一系列的 User Agents,为了简化,目前没有允许自己定义,只能从里面选一个。

网页跳转很普通的应用,很多时候都需要用到。

比如我这里已经启用了全局的 HTTPS,就会把所有的 http 访问,都自动跳转到 https 加密连接,而所用的跳转就是 301 永久跳转。有时候也会用到临时的 302跳转作为临时的页面改变。

跳转只有在需要的时候才做,就是在使用的时候,也需要尽可能的少的使用。过多的跳转往往会让之后的排错造成困难。

☑️ ☆

2023 SEO 的概述情况

2023年注定会是一个不一样的年份。就像过去的2022一样,独一无二。今年一月份,我将重启 Blog 的写作,也许能做到两天一贴,每天一贴就不用想了,我是完全的不可能做到。这里将是我最主要的介绍网站优化和网站推广的 Blog。

只有 Blog 才是最好的承载完整传播知识的方式,社交网站太短了。

搜索引擎优化(SEO)是一种通过优化网站内容和代码来提高网站在搜索引擎中的自然搜索结果排名的过程。随着互联网的发展,SEO也在不断发生变化。

近年来,SEO变化的主要趋势包括:

  1. 移动优先:谷歌已经将移动友好性作为排名因素之一。这意味着如果你的网站在移动设备上不够友好,它可能在搜索结果中排名较低。

  2. 更加注重用户体验:谷歌正在努力提高用户体验,因此它正在将用户体验作为排名因素之一。这意味着网站速度、内容质量和网站设计将会对排名产生更大的影响。

  3. 更多注重内容质量:谷歌正在努力提高搜索结果的质量。这意味着内容质量将会对排名产生更大的影响,而短小精悍的内容可能不再能够提供同样的排名优势。

  4. 语义搜索:谷歌正在努力提高自然搜索的准确性。这意味着它正在更加注重内容的语义,以便更好地理解搜索查询的意图。

  5. 响应式设计的重要性:越来越多的人使用移动设备进行在线搜索,因此 Google 已经开始更加重视网站的响应式设计。这意味着,如果您的网站在移动设备上的显示效果不佳,您的搜索排名可能会受到影响。

  6. 语义化 HTML 标记的重要性:使用语义化 HTML 标记有助于让搜索引擎更好地理解您的网站内容。这意味着使用正确的标签(如标题、段落、列表等)可以帮助搜索引擎更好地理解您的网站的内容。

  7. 速度的重要性:网站加载速度对 SEO 的影响越来越大。搜索引擎喜欢快速加载的网站,因为这意味着用户体验更好。

  8. 更新的搜索引擎算法:搜索引擎经常更新其算法来提高搜索结果的质量。这些更新可能会对网站的排名产生影响。

  9. 更多的视频内容:视频内容受到越来越多的关注,因此在网站中提供视频内容可能会有助于提高排名。

  10. 更多的安全内容:搜索引擎优先考虑安全的网站,因此确保网站使用安全的连接可能会有助于提高排名。

Google搜索引擎优化同微软Bing搜索优化的主要区别

  • 市场份额:Google在全球市场的搜索引擎份额大大高于Bing。这意味着如果您的目标是要让更多的人看到您的网站,那么优化Google可能更有效。

  • 搜索结果:Google和Bing使用不同的算法来确定搜索结果的排名。这意味着优化Google可能不会在Bing上产生同样的效果,反之亦然。

  • 目标受众:Google和Bing的用户群略有不同。例如,Bing的用户可能更年长,而Google的用户可能更年轻。因此,在确定您的SEO策略时,应考虑您的目标受众。

  • 地区差异:Google在全球各地的市场份额可能不同,而Bing在美国的市场份额更高。如果您的网站针对美国市场,那么优化Bing可能更有效。

  • 优化技巧:虽然Google和Bing的基本原则相同,但它们在细节上的差别可能会导致某些优化技巧在其中一个搜索引擎上更有效。因此,如果您想要在两个搜索引擎上都优化您的网站,则可能需要制定不同的优化策略。

在对网站做优化,不断的改进的过程中,就像在走一个迷宫,也许能找到出口,也许找不到,也许就没有出口。

davidyin_a_huge_maze_with_a_lot_of_robots_trying_to_get_out_but_7c92c0e7-1638-4d0e-9efa-3a94e0321576.png未来的人们如何进行 SEO?应该无法知道,所有的 SEOer 都是慢于搜索引擎的变化的,所有的工作都是适应性的,而不是开创性的(即使是黑帽,钻漏洞的做法)。

现在就以上面所提到的那些,开始经行网站的优化吧。

❌