作者danny0838 (道可道非常道)
看板Browsers
标题[-Fx-][-GC-] 终结内容农场 5.7.0
时间Tue Oct 11 22:08:01 2022
终结内容农场 5.7 出来了
可到
新官网下载:
https://danny0838.github.io/content-farm-terminator/
这回有几个比较重大的改动:
* 再次
改良演算法。
现在普通网域规则、万用字元规则、正规表示式规则的比对速度
都超越了线性时间复杂度。
许多技术细节都是参(ㄔㄠ)考(ㄒㄧˊ)自 uBO,感恩赞叹雷蒙大师。
* 支援新的
灰名单功能。
灰名单的作用是消除网路黑名单中的相同规则。
有些网路黑名单作者比较激进,会设一些地图炮规则,比如
wordpress.com,
有时候订阅者并不想要这些规则,
但是用白名单也不妥,因为如果把 wordpress.com 加到白名单,
那麽一些可能想封锁的网站如 bad.wordpress.com, sex.wordpress.com
就会因为白名单而无法被封锁。
想解决这种问题,要嘛是退订整份网路黑名单,或者把内容复制下来自己管理;
要嘛得在白名单写入复杂的正规表示式规则,
才能既维持 bad.wordpress.com, sex.wordpress.com 封锁又不致误锁其他网站。
这种问题用灰名单就很容易解决,
在灰名单加入 wordpress.com 可以让 wordpress.com 这条黑名单规则失效,
但是它不会对 wordpress.com 网站本身有任何保护作用,
所以其他像 bad.wordpress.com, sex.wordpress.com 还是可以封到想封的,
而如果是 wordpress*.com, *wordpress.com 也还是可以封锁 wordpress.com 本身。
* 强化情境查询功能。
从封锁页面进入选项页面时,会
显示封锁规则及出自哪个黑名单,
这样会比较容易搞清楚该网站大概是因为什麽理由被加入黑名单。
如果不想要这条规则,直接复制新增到灰名单即可。
从一般网页或封锁页面进入选项页面时,也会显示该网页的
重导向来源,
方便纠出一些转址农场。
技术厨还可以写个书签小工具,就能做到一键把网站和重导向来源一起加进黑名单。
* 取消一次检视所有黑名单的功能,改为可分别检视已快取的黑名单。
已快取黑名单列表也会显示快取的时间,可以看出是否有明显过期的项目。
* 支援多层次快取,减少重新载入的运算量,
加快名单重新载入的速度,减少启动浏览器、更动选项等情况的延迟。
* 缩短解锁冷却时间:
经过之前的讨论,我认为目前的解锁设计大方向上应无太大问题,
只是有人反映等待时间久得太夸张,因此稍作调整,
基本上还是要等,还是要强迫看警告及输入验证码,
不过等待时间不会像以前那麽惨无人道的久。
有用新版的欢迎提供心得和回馈^^XD
其他相关:
* 更新官网,网址即开头所示。应该有比较简洁易懂一些?XD
* 网路黑名单现在用脚本做後设管理,可以更快提供更丰富的名单,
并且同步产生 uBO、uBlacklist 等其他格式的版本。
一些黑名单现在也会自动聚合其他可靠黑名单来源,格式不一定,
目前最多的是来自 uBlacklist 的黑名单。
并且增加了几个黑名单(详见官网後台资料库页面):
* 扩充内容农场清单:自动聚合许多大大提供的网路黑名单,
有些可能会比较激进……不过现在应该都可以用灰名单解决。
* 劣质复制农场清单:一些复制维基百科、GitHub 之类的网站,
由於这些网站基本是采 CC 等开放授权,所以复制它们未必构成侵权,
但是有些网站就只是复制或机翻,没提供多少有价值的东西,
某方面是可以视为内容农场。
但这个部分比较有争议,而且目前有不少大大专门提供了这类机翻复制站的名单,
所以就独立成一个黑名单以方便使用,并且自动聚合那些大大提供的资料。
注意:以上许多是 5.7.0 的新功能,
Google 不知最近吃错了什麽药,新版上传後一直等待审核不给过,现在还是 5.4 ...
想用新版就慢慢等,或暂时改用 Firefox 或 Edge 吧XD
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 59.115.43.121 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Browsers/M.1665497284.A.2E0.html
1F:推 chancewen: 难怪GC商店一直重整都是5.4 看到注意了XD10/11 22:46
2F:推 rick: 水啦! 辛苦大大了!!! 还好主力是firefox Orz10/12 08:14
3F:推 goldie: 推10/12 09:13
4F:推 jqs8ah5ar: google搜寻引擎都沦陷了 农场文连结都高挂排名前面10/12 10:04
5F:推 masutaka: 感谢更新10/12 10:56
6F:推 smallreader: pixnet也是啊 每次搜寻都看到作假时间+一堆重复垃圾10/12 15:49
7F:→ fujisawa: 我进Egde商店还是5.6耶10/12 16:09
Edge 目前到 5.6.0,5.7.* 也还在审,不过至少比较新一点。XD
其实以往通常 Chrome 商店几个小时就审查完成,Edge 则常常要好几天到一周,
最近例外就是了...
※ 编辑: danny0838 (59.115.43.121 台湾), 10/12/2022 20:28:13
8F:推 mjsg: 感谢更新 10/12 21:31
9F:推 g5637128: 推 10/12 22:41
大会报告: Edge 已通过最新版 5.7.1 的审核。
Chrome 商店目前已通过 MV3 测试版 5.7.0.1 的审核(测试版後面会加个 .1),
(所以正式版审那麽久是花生甚魔术?_?)
如果用 Chrome 可以考虑先用这个。
不过 5.7.0.1 版还有个未修正的小 bug 就是。
关於 MV3 版本的细节请参见:
#1Z95K-T7
※ 编辑: danny0838 (59.115.43.121 台湾), 10/13/2022 17:17:13
10F:推 zhtw: 请问列入r18的标准是啥?为何有的网站列入 但测试其他更大的 10/14 11:56
11F:→ zhtw: 网站如pronhub、xvideo却没在里面 话说为何要挡r18阿?10/14 11:56
R18本身不是列为内容农场的理由,目前有封锁的看起来是中国某几家大型供应商,
除了大量分身网域以外,也可见填塞关键词和恶性转址,
(简单说就是搜寻引擎查到看起来正常的标题和摘要,进去却转到R18)
这种就是内容农场行为了,
这和某些博奕网站、盗版网站情况类似。
最初有标R18是为了方便辨识,但後来似乎有人误会我们会把一律R18视为内容农场,
就删掉了。
其实这个我目前也有点困扰,因为就算有大量分身网域和塞关键词,
是否有明显到足以影响一般搜寻体验也不好说。
或许这些都回绝或放在类农场比较不会有争议……
※ 编辑: danny0838 (59.115.43.121 台湾), 10/14/2022 16:41:54
12F:推 zhtw: 了解 感谢说明! 10/14 17:36
大会报告:
Chrome 商店终於通过 5.7.1 最新版审核了,
不过那是我有寄信去「沟通」,
如果没有就不知道会怎样了...
(原信当然是英文,以下简单摘要大意)
第一封信:「我的套件审了快二周仍未通过。过去通常只须审核1~2天,
是否有什麽问题?」
客服回覆:「您的套件目前在审核中,基於安全理由我们不能加速进行,请耐心等候。」
第二封信:「此套件的MV3测试版本最近才提交,也是审1-2天就通过,
二者原始码几乎没有差异。如果真的有重大问题需要较长的审核时间,
按理也该发生在MV3测试版上,这让我怀疑此套件的审核过程有问题,
比如或许是因系统错误导致并未被审核?
我并未要求加速,只是想确认目前是正常审核中,
能否协助确认本套件确实有受指派的人员正在按程序审核?」
然後客服回覆:「我们很抱歉就审核您的套件造成延迟。
经检查您的套件符合我们的政策,因此已被批准并且将上架……」
这让我不得不怀疑 Google 是不是像之前的
#1WbG6iRX 一样,
不晓得是哪个 AI 还是哪个人员吃错药把套件当作违规之类……。
但是违规就违规,总可以寄信联络作者吧?
现在是直接放置play要开发者等到天荒地老?
啊不就还好我刚好有另外提交测试版,然後测试版又刚好没被吃错药地挡下?= ="
13F:→ smallreader: 恶性转址的,我只能从有没有页库存档来过滤 10/15 03:32
14F:→ smallreader: 不晓得这两者关联性有没有强到可以直接挡也不会误杀 10/15 03:40
15F:→ smallreader: (说完已经找到反例了: tomshardware.com/reviews) 10/15 03:50
不太懂所谓用库页存档过滤是什麽意思。也不晓得你说的反例是指什麽XD
不过最近调查发现浏览器套件的 API 可以满有效追踪网页转址情形,
所以就顺手加在新版 5.8.0 了,以後从转址的页面进到选项页时会显示查询连结,
可以查询分页最近几个网路请求的转址或重导向情形,
这样应该可以比较方便把相关垃圾网域一起捞出来。
介面大概像这样:
https://i.imgur.com/Q2s2UXZ.png
5.8.0 在 Firefox 已上架,Chrome 和 Edge 照惯例可能还要等一阵子。XD
※ 编辑: danny0838 (59.115.43.121 台湾), 10/16/2022 12:36:47
16F:→ smallreader: 之前是搜寻一些商品名吧,会有一些似是而非的文章, 10/16 14:25
17F:→ smallreader: 像机器乱凑的,而且网域名很奇怪,又没有页库存档, 10/16 14:25
18F:→ smallreader: 点开果然是恶性转址的。 10/16 14:25
19F:→ smallreader: 反例是有的正牌网站搜寻结果,也没有小三角页库存档 10/16 14:28
20F:→ smallreader: 搜寻对岸色情网站特定长字串,才会出现大量没有实体 10/16 14:54
21F:→ smallreader: 页面/页库存档的结果,我03:32讲的是搜寻这些的时候 10/16 14:54
22F:→ smallreader: 自己分辨哪些不要点。但我现在了解到色情、博弈网站 10/16 14:54
23F:→ smallreader: 不视为内容农场 10/16 14:54
原来如此,我完全搞不清楚 Google 到底什麽时候会提供库页存档,
最近的经验是有无库页存档并无参考价值。XD
如果要查以前的状态,用 Wayback machine 比较有机会。
然後如前所述,色情博奕这些本身虽不是理由,
但如果有洗关键词、恶意重导向等影响搜寻体验的行为,
还是会列入黑名单的。
※ 编辑: danny0838 (59.115.43.121 台湾), 10/16/2022 16:41:57
24F:推 Belieeve: 感恩分享 10/25 19:06