作者fw190a (las)
看板DummyHistory
标题Re: [讨论] 语文效率的伪科学
时间Mon Sep 25 16:47:08 2023
※ 引述《innominate (innominate)》之铭言:
: 香农信息熵的概念是这样
: 1. Plamc是人
: 2. Plamc是男人
: 3. Plamc是PTT前版主以及作家
: 当你把plamc当作一个黑盒子
: 去告诉一个不知道底细的路人
: 1成立的机率最高
: 2其次,3最低
: 所以机率越低的信息量越大,所以叫信息熵
: 因为如果信息为真
: 代表你排除了更多的不确定性
: H = -k log P
: H是信息量 P是成立的机率
首先第一个问题,
熵跟讯息量是高度相关但不同的概念。
你给的公式算的是熵,
他要做为讯息量成立的前提是,
系统必须是确定性的。
然後你对这个熵值的系统,给出一个确定唯一的答案,
这时计算出来的信息量就等於熵值。
讲人话就是,
我有一组密码,然後你直接就猜到。
所以你输入的数字(讯息量)等於我密码(熵)的复杂度。
选项越多,机率越低,导致熵越大,
进而导致需要完整解答的讯息量也更大。
两者是在一个特殊情况下一致,成立数学概念,
而非是可直接互换的概念。
: 推 fw190a: 熵是表达混乱/复杂度的,机率低导致讯息量高是从中推导出 09/24 20:
30
: → fw190a: 的概念,这要说也是讯息量的特性,而不是熵的。我知道这 09/24 20:
30
: → fw190a: 很绕,但我认为我的表达是有涵盖这些概念的 09/24 20:
31
: → innominate: 香农引进熵的概念就是要表达越混乱,机率越低,信息量 09/24 20:
40
: → innominate: 越大。就像「plamc是一个人」,这个机率很大,也不混 09/24 20:
40
: → innominate: 乱,信息量就很低。 09/24 20:
41
: → innominate: 所以信息量天然就跟不确定(机率)挂钩 09/24 20:
43
: → innominate: 你的文章说信息量首先跟信息的多少有关,这件事理解就 09/24 20:
44
: → innominate: 是错的 09/24 20:
45
首先单就讯息量的概念先後顺序,
"1928年,R.V.L.哈特莱提出了信息定量化的初步设想,
他将符号取值数m的对数定义为信息量,即I=log2m"
再来比起熵,这个单位才是用来衡量讯息量的。
https://en.wikipedia.org/wiki/Shannon_(unit)
注意到这边的机率设定就是简单的用50%来衡量。
然後我前文之所以强调先有多少讯息,
是因为要构成系统本身,也是需要讯息的,
他的熵概念建立在,透过机率评断一个系统内给定信号的讯息量,
但首先要有那个系统,而不只是一个假设为真而已。
: → innominate: 我可以说一大串包括明天太阳会从东方升起,你跟我都是 09/24 20:
46
: → innominate: 人,我们都要呼吸等等,这些东西堆再多信息量也是低的 09/24 20:
46
: → innominate: 如果我说「明天台股会跌」,如果我说的为真,这短短的 09/24 20:
48
: → innominate: 几个字带来的信息量就大了 09/24 20:
48
: → innominate: 或者说「明天台股会跌105点」,那这个信息量更大 09/24 20:
49
其实我主要是想回这边,分享一些想法,
没有针对你,你也可以说你是通俗的举例说明。
只是藉由这个例子思想实验,
顺便给大家娱乐一下。
,,,
首先你说确定是真的,堆再多讯息量也低,
但照理说,给出已知的事物,讯息量应该是0才对,
再来吊诡的会是,预测明天台股跌,在明天以前,始终就是一句空话,
但一旦到了明天,台股真的跌了,就变成事实,这句话也只是说明已知事物,
讯息量为0。所以自始自终,你拥有的讯息量就只有话语本身。
然後你靠一句如果为真,来假设性获取讯息量。
那个虚拟的讯息量来自於,对一个想像的有限系统进行操作。
你的讯息量就只是,透过讲得多荒谬,然後加上一个假设性的保证为真来获取。
这是印度神童power吗XD
,,,
现实世界的一个问题是,他并没有那个已知的机率让你去评断谁机率大小,
明天会不会下雨,到了明天,只会有一个结果,而不是用机率来呈现。
如果看天气预报,得到机率,那是透过科学算出来的,
科学算出一个10%的降雨机率,那并不是要告诉你讯息量多大,
或者降雨量机率越小讯息量如何越大,因为反过来说出太阳,也成立,
科学告诉你的机率就只是预测,而不是那个我们能确知的机率。
如果你相信科学的世界观,那胡乱套用那个讯息量概念,
结果就只是,越不科学,越脱离常识的预测,蕴含讯息量就越大。
因为当预测成真了,就否定了现有科学,那讯息量自然大。
,,,
从正面意义来说,讯息量大代表的是,
一个不符合预期的例子,如何推翻或要求理论的修正,
所以当科学遇到新的无法解释的情况时,
会促使产生修正与新理论,
但新理论的形成,需要的是更多讯息的投入与整合,
跟否定既有的成分的讯息,只能说是有因果关系。
极端来说,我只要说这个世界是假的,
如果此言为真,那讯息量极致大,
因为我一句话推翻了一整个世界观的复杂度,
但这种讯息量没啥好追求的,
而且之所以有东西能推翻,
是因为这个世界的相关脉络先存在於各人认知之中。
,,,
最後回到一开始的举例上,
堆叠是人,是男人,是男作家,这三个例子,
其实是在透过这三个叙述,文字上传递越来越多资讯,
只是他们排序上套在一起,所以在类别的脉络上构成了机率的规则,
如果我提出Plamc是人,或是恐龙,或是霸王龙。
这时不套用预先的认知,是要怎麽判定恐龙机率高还是人类机率高?
黑盒子在哪?
所以把那套基於已知机率的讯息量想像,
套入现实的预测,却没有适当修正,就是伪科学。
因为我们在现实世界,用的是加法逻辑,
去找那个堆叠起来讯息量最大而不矛盾的系统,
也就是科学以及常识来作为行动依据,
而不是靠什麽机率小的瞎猜获得讯息量。
,,,
排除不确定性,是一个语言工具性的功能,
建立具有复杂度的理论,才是思想的建构方式。
以日常生活的语言思想活动中,
我打一堆字阐述一堆概念,并且能跟逻辑常识接合起来,
这才是讯息量大。
而不是丢一个概率小的预测,即使成真了,
但缺乏相关的理论与逻辑支撑,
那样的讯息量会是什麽东西?
这篇试图说明了。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 49.159.155.9 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DummyHistory/M.1695631630.A.28D.html
※ 编辑: fw190a (49.159.155.9 台湾), 09/25/2023 16:50:05
1F:→ innominate: 我其实看不懂你要表达什麽,我只是在简单科普香农的理 09/25 19:21
2F:→ innominate: 论而已 09/25 19:22
3F:→ innominate: 信息量跟信息是否正确说两码子事 09/25 19:22
4F:→ innominate: 好比你举的例子,plamc是恐龙,这个信息量很大,但未 09/25 19:25
5F:→ innominate: 必为真。我再简单举个比较容易懂的例子,好比我现在要 09/25 19:26
6F:→ innominate: 存心骗一个人,我产生一个谎言,这个谎言一样带有信息 09/25 19:26
7F:→ innominate: 量,我的目的是要把这个信息量传递给接收者 09/25 19:26
8F:→ innominate: 所以香农公式里面前面带有一个负号以保证信息量永远为 09/25 19:28
9F:→ innominate: 正。其实你跟我扯这个真没意思,要不你去推翻香农熵的 09/25 19:28
10F:→ innominate: 概念,我帮你赞声 09/25 19:28
12F:→ innominate: on_theory) 09/25 19:43
13F:→ innominate: For instance, the knowledge that some particular n 09/25 19:53
14F:→ innominate: umber will not be the winning number of a lottery 09/25 19:53
15F:→ innominate: provides very little information, because any part 09/25 19:53
16F:→ innominate: icular chosen number will almost certainly not win 09/25 19:53
17F:→ innominate: . However, knowledge that a particular number will 09/25 19:54
18F:→ innominate: win a lottery has high informational value becaus 09/25 19:54
19F:→ innominate: e it communicates the outcome of a very low probab 09/25 19:54
20F:→ innominate: ility event. 09/25 19:54
21F:推 joh: 说得没错,也说到重点了,楼上你仔细看看 09/25 21:38
22F:→ innominate: 我不知道我要仔细看什麽?科普个香农的信息熵罢了 09/25 23:49
23F:→ innominate: 你们要取推翻信息论是你们家的事 09/25 23:49
24F:→ innominate: 我上面引的维基百科的英文不知道楼上看了没 09/25 23:50
25F:推 tomer: 他在教你信息量和熵是怎麽来的。 09/26 00:30
26F:→ tomer: 其实从这边就能看出谁受过正规的数学训练、谁只是看图说故 09/26 00:32
27F:→ tomer: 事w 09/26 00:32
28F:→ innominate: 连信息熵定义都没搞懂的能教我什麽?我上面引的英文看 09/26 03:38
29F:→ innominate: 了没?连英文都要我帮你们翻译吗? 09/26 03:38
31F:→ innominate: ers/shannon/entropy/entropy.pdf 09/26 04:05
32F:→ innominate: 香农的原文自己去看 09/26 04:05
33F:→ innominate: 我大概理解ZM为何有的时候根本不想解释了,马的给你们 09/26 04:09
34F:→ innominate: 科普还要被杠 09/26 04:09
35F:→ innominate: 讲的信息论好像我发明的一样,你们要杠去杠香农啦 09/26 04:10
36F:→ innominate: 我的记忆都回来了,当年在历史版也科普过恶性通膨的经 09/26 04:12
37F:→ innominate: 济理论,也一堆杠精来杠 09/26 04:12
38F:→ innominate: 我再引维基百科的英文描述如下:The core idea of inf 09/26 04:22
39F:→ innominate: ormation theory is that the "informational value" 09/26 04:23
40F:→ innominate: of a communicated message depends on the degree to 09/26 04:23
41F:→ innominate: which the content of the message is surprising. I 09/26 04:23
42F:→ innominate: f a highly likely event occurs, the message carrie 09/26 04:23
43F:→ innominate: s very little information. On the other hand, if a 09/26 04:23
44F:→ innominate: highly unlikely event occurs, the message is much 09/26 04:24
45F:→ innominate: more informative. 09/26 04:24
46F:→ innominate: 维基也不看,论文也不看,书也不看,就只会杠 09/26 04:25
47F:→ innominate: 然後本篇错误的把「单位量」跟「熵」切开,不是这样好 09/26 04:42
48F:→ innominate: 吗?依照他自己引用的维基原文:The 「shannon」also 09/26 04:43
49F:→ innominate: serves as a unit of the information entropy of an 09/26 04:43
50F:→ innominate: event, which is defined as the expected value of t 09/26 04:43
51F:→ innominate: he information content of the event 。是熵的单位可 09/26 04:43
52F:→ innominate: 以为SH 09/26 04:43
53F:推 tomer: 就,维基不是圣经啊XD然後你和 Z麦一样毛病、一直认定只有 09/26 07:16
54F:→ tomer: 你俩看得懂英文、维基上几句英文就当作是真理目空一切到处 09/26 07:17
55F:→ tomer: 乱套。注意我不是说维基讲错喔,是你受的数学训练不够导致 09/26 07:17
56F:→ tomer: 理解出现盲区。 f 在这边讲的需要的是机率论中随机事件的基 09/26 07:17
57F:→ tomer: 本概念,大概是大二修机率论时教授一开始会给的,也算是ABC 09/26 07:17
58F:→ tomer: 等级的东西吧。他稍微带了下从机率论的视角怎麽理解夏农熵 09/26 07:17
59F:→ tomer: 和资讯量、毕竟整个理论是从机率论推导出来的。但很明显你 09/26 07:18
60F:→ tomer: 没受过相关的训练又想要反驳,就只能一直跳针叫人去看英文 09/26 07:18
61F:→ tomer: 维基的几句话。说实在只能微笑呀。 09/26 07:18
62F:推 joh: 把wiki当神....都不知道地雷都在细节中 09/26 09:53
64F:→ innominate: 所以杠精只能跳针大二机率论,你们连信息学都看不懂, 09/26 11:56
65F:→ innominate: 自己引的维基都不看,要说先引维基的不是我,你们立场 09/26 11:56
66F:→ innominate: 对了就不质疑他,历史版杠精就是拿大学基础课程来呛别 09/26 11:56
67F:→ innominate: 人 09/26 11:56
68F:→ innominate: 哪怕我引用的维基内容有误吧,你们好歹也要说明是哪句 09/26 11:59
69F:→ innominate: 话有误,论文我也放了,你们不针对内文讨论,在那边跳 09/26 11:59
70F:→ innominate: 针大二机率,我通讯/计算机研究所毕业的还要你们教我 09/26 11:59
71F:→ innominate: 机率? 09/26 12:00
72F:推 joh: 也没人针对机率论,针对的事情不只有这些 09/26 14:13
73F:→ ZMittermeyer: 他们两个不是杠精是看不懂 和几个基本定义搞反 09/26 22:27
74F:→ ZMittermeyer: 中文脑会天生搞反一些基本定义 09/26 22:27
75F:→ ZMittermeyer: 我发现动态脑数学脑 和静态脑文字脑 是两种系统 09/27 00:08
76F:→ ZMittermeyer: 你把基础搞反之後 演绎推理会盖出相反大厦 09/27 00:08