基于IPFS的搜索引擎的一个设计方案

显示全部楼层 · 发表于 2020-4-26 16:00:55

搜索引擎的中立是很多用户对搜索引擎的期望。

所谓搜索引擎的中立是指搜索引擎在显示搜索记录时应该不带任何商业考虑或利益倾向，而只考虑搜索内容与搜索关键字的相关性。

在互联网中，占垄断地位的谷歌显然没有做到搜索引擎的中立，明显带有经济考虑和商业立场。

那么在去中心化的网络中搜索信息呢？我们需要搜索引擎的中立。

去中心化搜索引擎Dweb.page就秉持着这个宗旨。

除了搜索引擎中立的问题，还有其它一些问题也困扰着去中心化搜索引擎的开发和发展。这些问题主要有下列这些：

1 搜索速度：去中心化的搜索引擎在速度上至少不能比中心化的搜索引擎慢。

2 设备独立：现在越来越多人在使用手机，因此去中心化的搜索引擎不仅需要在PC机上运行也需要在手机上运行。

3 索引：如何收集，解析和存储数据以便能尽快，准确地搜索信息，同时屏蔽无关信息。

4 数据可用：如何保证搜索到的去中心化数据可用？尤其是当某些数据是保存在本地节点上并且并非一直在线时也可用。

5 资金资助和激励：如何支持去中心化搜索引擎持续开发？如果没有长期资金的支持，去中心化搜索引擎恐怕难以和中心化引擎竞争。

Dweb.page团队以自己的实际行动给出了一个方案。综合考虑，团队选择了将IPFS和IOTA相结合起来，IPFS扮演文件存储和共享的角色，IOTA扮演数据库的角色。

这两者的组合使Dweb的搜索体验在各种设备上都有不错的表现。运行Dweb搜索引擎不需要额外安装软件，只需要打开一个网页就行了。

Dweb团队搜索引擎的设计架构如下：

wk588_com_fu053lgkwsv.jpg

在设计架构中，有两类用户：作者（Author）和消费者（Consumer）。

其中作者通过Dweb.page上传和存储内容。如果作者希望他上传的文件可被公开搜索，则文件的元数据（metadata）就会被作者签名并上传到IOTA上。

这样任何人都可以自己上传文件并让自己的文件被公开搜索。另外由于元数据被作者签名，因此数据来源可以保真。

作为消费者而言，当他第一次打开Dweb.page时，他会下载系统记录的最近的元数据。搜索引擎会在本地运行，基于这些元数据提供初始的搜索结果。

消费者有可能会根据这些搜索结果关注作者。在某种程度上，这也算一种社交应用场景。

这个做法的好处是一方面用户不需要下载整个网站完整的元数据，另一方面用户能屏蔽恶意或不感兴趣的内容。

另外，任何使用Dweb.page搜索引擎的用户都会产生内容是否可用的信息---当用户搜索的某个条目对应的某个内容不存在了，则这个信息会被传递给其他用户。

如果好几位作者都告诉系统，某个内容不存在了，则这个条目会被删掉；如果只有一个作者告诉系统该内容不存在，则该条目还会被保留。

最后，很有挑战性也是常常被忽略的一点是资金资助和激励的问题。

对一个去中心化开源的项目而言，经常会因为忽略这一点而导致项目无法进行下去而最后被迫变得中心化以获取资金资助。

尽管有团队一直都在尝试靠捐助的方式维持开发，但这并不是一个长久可持续的方式。

Dweb团队设计一种依靠广告的可持续开发方式。下图显示了Dweb的完整开发和运作流程。

wk588_com_rsqyq4mn0ot.jpg

搜索引擎是广告市场的宠儿。对去中心化搜索引擎而言，可以在不牺牲隐私的情况下，根据搜索结果显示广告。

广告的收入可以一方面用来回馈作者，另一方面资助项目的开发。关于广告，有一点必须要指出的是，很多用户并不是反感广告而是反感自己的隐私被用来招惹广告。

不过这个模式必须是完全透明和公开的，在这种情况下任何恶意或不合理的做法都能得到遏制，否则这个模式将很难持续运作下去。

最终，团队希望整个模式能够完全用智能合约运行。

我是IPFS/FIL社区发起人晓熙（加入社区，联系v号： liandaoxixi），IPFS/FIL是全球共识最大的去中心化存储项目，我会定期在社区分享专业的资讯，为IPFS/FIL爱好者建设一个共赢的学习社区。

参考链接：https://blog.florence.chat/a-distributed-search-engine-for-the-distributed-web-39c377dc700e