2024-11-15我已开始维护自己的 uBlacklist 规则,访问 Hentioe/uBlacklist-subscription 仓库订阅我的规则! 前言
近年来 Google 中文搜索的质量越来越差了,低质量内容实在太多。对于很多结果,我个人光是看到图标或域名就知道是垃圾,已经习惯性的自动略过。不过近期,我还是决定使用工具屏蔽它们,提高我在检索资料时的专注力。
本文将介绍我的屏蔽标准,以及方法供大家参考。这是一篇新手向教程。过程十分简单!
屏蔽标准
虽然我有明确提到「低质量」、「垃圾」等词汇,但每个人对内容质量的评判肯定是不一样的。我仅以我个人的角度,列出一些推荐屏蔽的内容以作参考:
类型
举例
质量
必要
使用热门关键词伪造结果
跳转后进入站内搜索
极低
是
AI 生成的内容
豆包对话分享
极低
是
抄袭
复制/镜像/同步搬运原创者内容
低
是
营销号
标题党、洗稿等低质或错误内容
低
是
海量的低质内容/页面推荐
CSDN
低
是
电商平台产品
淘宝、阿里巴巴、京东
中
是
屏蔽标准表格
后文会先介绍工具,然后分别解释以上标准和对应的屏蔽规则。本文的重点是告诉大家如何编写规则,举例时涉及到的实际规则不一定适用于每一个人。
搜索指令
在使用工具屏蔽之前,我们可以尝试使用 Google 等搜索引擎的屏蔽指令来过滤掉一些内容。这些指令可以在搜索框中直接输入,例如:
关键字 -csdn
用上面的模板搜索,会过滤掉所有包含 CSDN 的结果。假设你只想屏蔽极个别网站且不嫌麻烦(或临时性的),可以这样做。但如果你要屏蔽多个网站,想要更精确的屏蔽,那么使用类似广告屏蔽原理的工具才能做到。下文将介绍一个流行的工具,它能直接用在浏览器上。
uBlacklist
uBlacklist 是一款开源的 Chrome 扩展,可以按照匹配规则屏蔽 Google/Bing 等搜索引擎的特定结果。它的用法非常简单,一般情况下只是添加规则就够用了。如果你不想手动添加,还可以订阅他人的规则。
使用
安装此扩展后,单击扩展图标并从“选项”进入设置页面。「常规」下方的输入框就是填写规则的位置了。确保你弄清楚了 uBlacklist 的用法后,我们就可以开始添加规则了。
订阅
规则还可以分享出来,以类似广告屏蔽规则那样被其它用户订阅。如果你要订阅规则,往下滚动找到「添加订阅」按钮,点击它并输入订阅地址即可。它会按照自己的同步机制,定期更新订阅规则。
这里推荐一些可供订阅的规则:
Hentioe/uBlacklist-subscription(由我维护的订阅列表)
eallion/uBlacklist-subscription-compilation(他人整合的大型订阅列表)
添加我维护的订阅(https://hentioe.dev/ublacklist.txt):
添加规则
屏蔽 CSDN
首先毫无疑问,第一个要屏蔽的就是 CSDN。在 uBlacklist 扩展的评论里,绝大多数的中文评论都是为屏蔽 CSDN 而来:
屏蔽 CSDN 已成共识
所以,不要犹豫,添加以下规则:
*://*.csdn.net/*
*://*.csdn.com/*
*://*.csdnimg.cn/*
*://*.gitcode.com/*
*://*.gitcode.net/*
*://*.gitcode.host/*
上述域名中的 gitcode 是 CSDN 公司推出的仿 GitHub 平台,它从诞生起就在作恶。它不仅在无授权的情况下克隆大量 GitHub 仓库,还自制作者主页。不过最令人吃惊的还是它连很多不可描述的内容都搬运过去了,将它屏蔽是防患于未然。
规则讲解
我们拆解一条上述规则 *://*.csdn.net/*,规则中的星号表示通配符,代表任意字符(不完全是)。具体来讲如下:
*://:这部分的 * 表示任意协议,包括:http, https, file, ftp, app 等。
*.csdn.net:这部分的 * 表示任意子域名,例如 blog.csdn.net 和 www.csdn.net。
/*:这部分的 * 表示任意路径。因为 * 单独出现在根路径后,可以认为是屏蔽所有路径。
一旦你不想看到某个域名的所有结果,包括各种子域名,那么这种规则就是最简单也是最严厉的。
我们可以继续添加以下同类规则:
*://*.sohu.com/*
*://*.sina.cn/*
*://*.163.com/*
*://*.douyin.com/*
*://*.toutiao.com/*
*://*.taobao.com/*
*://*.1688.com/*
上面包括了搜狐、新浪、网易、抖音、今日头条、淘宝、阿里巴巴等网站。它们之中一部分是营销号内容占比极大,一部分都是商品,至于抖音这种我一般会直接去抖音搜索而不期望它出现在 Google 中。
屏蔽特定子域名
有些域名,我们可能不想将它完整屏蔽。例如 qq.com。虽然腾讯的网页出现在 Google 中,也常常是低劣的营销号内容,但也存在一些腾讯产品的有意义页面:例如搜索“qq 找回密码”会看到一些官方的帮助页面。
那么我们就不能匹配任意子域,而是针对产生垃圾内容的特定子域名编写规则,如 new.qq.com。对应的规则就是 *://new.qq.com/*。按照同样的逻辑,我们再添加一些规则:
*://www.jd.com/*
*://m.jd.com/*
*://i-search.jd.com/*
这里我又针对京东的一些子域名进行了屏蔽,它们是会产生商品页面的站点。
屏蔽特定路径
有时候,我们只想屏蔽特定类型的内容,而不是整个站点。例如腾讯云的开发者社区,文章质量也不高(标题党多),而且页面中的垃圾推荐也不少。我们可以像这样添加规则:*://cloud.tencent.com/developer/article/* 用以屏蔽开发者社区的文章,而不是整个腾讯云。
正则表达式规则
正则表达式是一种通用的强大的匹配规则,可以表达尤为复杂的匹配逻辑(或合并多条普通规则)。uBlacklist 支持正则表达式作为规则,使用 / 包裹即可。
例如 CSDN 的一些域名,只是后缀不同,我们可以用正则合并它们:
/csdn\.(com|net)/
/gitcode\.(com|net|host)/
更多正则的用法,你可能需要系统的学习和练习。但我估计一般情况下用到的场景不多。
结束语
这就是屏蔽 Google/Bing 等搜索引擎特定结果的方法,以及我的屏蔽标准。希望这篇文章对你有所帮助。考虑到生成式 AI 的发展,以及媒体营销号越来越多,我个人认为屏蔽扩展已是必备的工具。