作者banco (Acoustic)
看板Wikipedia
标题Re: [转录] 维基百科1月7日推出搜索引擎
时间Sat Dec 29 01:55:22 2007
※ 引述《fuzuki ()》之铭言:
: : 开发源代码搜索专案是为最终用户提供更透明的搜索结果
: : 该wikia搜索专案已组装了基本的搜索引擎技术,包括搜索应用程式、搜索演算法和
: : Web Crawler。该专案将让技术爱好者以维基百科的社区模式帮助过滤网站和排名搜索结
: : 果。
: : 我们的构想是通过提供搜索服务为最终用户提供更透明的搜索结果,来挑战当前的搜
: : 索引擎运营者,即用户可以看到搜索结果是如何得出的。威尔斯描述了雅虎与谷歌不透明
: : 的服务,其并没有解释其搜索结果是如何得出的。
: 报导重点:
: 这是一个Wikia 底下的一个 opensource专案,
: 让技术人员以类似维基百科协作的方式修正搜寻结果。
: 我努力看懂就是如此,真的是不是这样是另一回事。
我猜想搜索结果的"解释",
应该是指使用者输入的关键字, 与网页排名之间的数学关系
关键字 <--- ???? 某种方法 ???? ---> 网页1 网页2 .....
威尔斯称 google 和 yahoo 搜寻结果不透明,
应该指的是使用者无法得知他们是采用哪种演算方式
若将搜寻引擎演算法透明化, 技术人员可以测试搜寻演算法的优劣
当发现有不足之处, 可以进一步地去增强既有的演算法
之前有先进介绍的词频-反词频, 即为演算方式的其中一种
搜寻引擎大多是依凭这种统计方法来进行资料探勘
词频-反词频算是较为基本的方法, 复杂一点要去计算网页间的潜藏关系
或是如何将数个不同的网页归类为同一个大主题之下
当然, 由使用者评分也是可纳入考量的方法之一
一般而言, 搜寻引擎不会单独采用某种特定演算方法
而如何综合各类方法所产生的搜寻结果也是门高深的学问
演算方法透明化, 等於提供一个网页搜寻技术的测试平台
有兴趣者自行撰写演算法来测试自己想法的可行性
长远来说, 公开这类演算方法对於搜寻结果绝对是有正面帮助的
但能不能达到像 google/yahoo 等搜寻引擎同等的效果还很难说
因为有些演算方法受专利保护, 不是想用就能用
但集众人之志也是能架构出一个优秀的搜寻引擎
题外话, 我还挺想知道早期奇摩搜寻用什麽方法来搜寻
以"交大"为关键字搜寻, 排名第一的页面是"口交大补帖"....
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.114.206.121
1F:推 fuzuki:我不是先进 希望明年可以进交大叫你一声学长 12/29 03:05
2F:推 fuzuki: 清←更正 12/29 03:07