搜索：开启智能时代的新引擎_斯特凡·韦茨 (StefanWeitz) (作者), 任颂华 (译者)_9787508673226

如今，在互联网诞生近50年后，搜索的意义已经远远不只“关键词+回车”找出相关信息。大数据、云计算、人工智能赋予了搜索全新的意义，搜索已经无处不在：当我们在使用百度时，当我们拿起iPhone询问Siri天气如何，当我们将照片放入搜索框……搜索已经融入我们的生活，查询变成了我们日常的一部分。
搜索现在已经发展到什么阶段了？
搜索未来会变成什么样子？
搜索还能带给我们什么……
作者斯特凡·韦茨身为必应搜索的高级总监，多年在微软致力于搜索的研究和推广。在这本书中，斯特凡为我们展示了智能时代未来搜索的全景图。未来的搜索是当你搜索一部电影名称时，你的订票系统已经根据你的日程表开始为你推荐今天的观影时间和地点；当你查询路况，电子地图软件自动为你推荐出回家的躲避拥堵方案；当你和朋友对话时提到晚上一起吃饭，你的手机助手立刻在结束通话时为你列选出最符合你口味的就餐地点……
读完这本书，你会被搜索的强大力量所震撼，也会意识到目前我们使用到的搜索功能只是搜索的冰山一角。当搜索遇到人工智能，当搜索与物联网结合，当搜索和机器学习碰撞……搜索的潜能将被激发出巨大的能量为人类生活、生产的便利带来质的飞跃。同时，也会给我们带来前所未有的挑战。
准备好了吗？让作者带你走进未来5年、10年、20年后的搜索！

前言(节选):
未来将会怎样？
我的日常工作是微软必应（Bing）的高级搜索总监。有很多员工致力于推广并提升我们的搜索引擎技术，我只是其中一员。我从一开始就在必应工作，也很幸运一直参与在我想象中最繁复的启动工作中。2013年12月，有人打电话问我是不是愿意写一本关于搜索的书。我的反应是当然可以，为什么不呢？当时我正计划环球旅行，到14个城市去进行已经安排好的谈话和会议。我正在微软启动若干新的产品，也刚刚戒除咖啡因。很显然，我有点儿失衡。
每个设备、我们周围的每个物体、每个人都互相连接，我们也开发出从噪声中识别出模式的系统。面临这样的现实，写下我对此的观点很重要。搜索的力量在于提醒我们那些自己都不知道但其实应该知道的东西，也能在广义上让我们变得更好。我看到数字化的黄金时代正在来临，每个人、每个地方、每样东西都可以用数字的形式描述。一旦那个时代降临，而系统从我们复杂的思想中过滤掉那些知识残渣，那么人类的能力将得以增强，我们就可以做出更好的决定，还能在一念之间就操纵物理世界，而最终也会更加幸福。我在晚宴或者讲座上描述我的工作以及我对搜索未来的愿景时，人们无一例外地对这些可能性感到兴奋不已。
当我谈到科技带来的超级链接、超级分析、超级指引到底意味着什么等深入内容时，更多的人才开始深思。
技术产业的圈子其实很小，我就有很多朋友在谷歌工作。而谷歌通常被认为是微软的主要竞争对手。虽然我对工作在山景城的同胞在做什么没有明确的信息，但在用晚餐的时候我会听到他们在思考什么，以及必应和谷歌都在试图解决的问题。
这本书接下来所讲述的并不是必应、微软或者任何其他公司建立这样的未来搜索产品的计划。事实上，书中很多概念是矛盾的，也涉及监管方面的擦边球。在某些情形中，社会就是不能接受一个超级互联的世界以及由此带来的透明度。我们这本书说的是未来的形势。而我每天深度生活在互联网之中，一年要和数百家公司的工程师和技术专家以及那些推进着技术发展的学者交流。总体来说，我相信技术的力量能建立起一个更自由也更幸福的社会。
当人类与机器融合我们人类总是想寻找方法捕捉我们在现实世界中看到的东西，从而将其保存、传承并从中学习。岩画、日记、散文、照片、录音、录像……所有这些踪迹使我们能织出一张生动又不朽的挂毯，其描绘的世界超越了我们个体生命的短暂本质，而且我们越来越多地用机械来保存、分析、解释这些踪迹。
与此同时，我们一直在尝试通过一些架构连接人机之间不兼容的界面，从而将两者结合。比如纽约中央火车站是一个汇聚了人类和机器的移动的中心。我们通过结合人类和机器的两个独一无二的特性—人类精细、自主但是缓慢的移动结合机器利用引
擎和轨道进行的粗放、限定但快速的移动—让人们走得更快，走得更远。融合了人类和机器各自的能力后会发生什么？如果我们用机器可以利用的方式捕获现实世界，然后利用机器的能力来大幅提升人类的能力会怎样？这就是搜索的未来，其独一无二的能力是对现实世界进行有意义的索引，并同时作为这些知识的通用接口。搜索就是我们一直想要的“铰链”。
我重申一次，这不是我们今天所认为的搜索，那只是一个信息获取系统，我们输入一个名词并希望得到一个包含那个名词的结果页面。我们必须要把搜索看作空中的一位无所不知的观察者。它知晓苍穹之下、大地之上发生的一切。要想这一切变为现实，搜索本身必须被解构，还原成各个元任务：对这个世界及其中的一切进行索引并理解；读懂感受，于是搜索系统可以看、可以听（最终能闻、能摸！），还能和我们以更自然的方式交互；和我们人类的交流方式要与情景匹配—不论这样的情景是文字、对话，还是代表我们和其他机器通信并在真实世界中让事件发生。
在下面几章中，我们会探讨将搜索转变为连接人机独特能力的“铰链”的进展。我们会先审视这一新的网络以及搜索引擎面临的挑战，接着我们会分析在新的职能下搜索引擎能做些什么，还会介绍搜索引擎的新规则。等到我们对未来搜索的潜力有了切实的理解，我们会讨论新一代的搜索会怎样在更大程度上包容人性，提升人类的能力，真正成为我们在真实世界和虚拟世界中的代理人。
虽说我们这些技术人员设想了那么光明的前景，搜索的未来如何却还没有确定。我们会审视那些当前阻碍我们迎来搜索黄金年代的障碍。这些障碍包括技术挑战，也有更宽泛意义上的社会问题，比如我们是否想要这种洞察我们的世界以及其中一切的看似无所不在的能力。最后，我们要讨论的是在将人类的潜力和机器层面的能力结合而形成共生关系，并颠覆了诸如商业、隐私以及日常生活等现有概念后，搜索到底还有怎样的意义。

搜索走到了哪里？
由于网络是基于文本文档构建的，所以我们最初将其分类的尝试很像是一种原始的杜威十进制图书分类法。雅虎就是一个由工程师维护的层级索引。对于某一个词语，有一系列的页面和网站与这个词语相关。这样的层级索引过去是、现在也仍然是通往广袤信息领域卓有成效的路标。如果你对阿根廷的旅馆感兴趣，层级索引可以带你访问一个网站，而那里列出了很多阿根廷旅馆的信息。
网络不断扩展，从成百上千个页面到数百万乃至数亿个页面。这些页面上使用的词语也扩展到了百万亿计，单纯的层级索引不再适用，于是就诞生了搜索。
但纠结之处在于，索引本身不再有任何意义。索引主要用来在一本书中找到对应于一个词语或者词组的页面。显然，如果一个索引包含了图书馆里所有书的话，它的用处就不大。比如我们查找“大象”这个词语，那就不得不浏览图书馆收藏的数百本书中的数千个结果。意识到这一点后，一场革命就不可避免了。
搜索工程师意识到，根据一本书和大象的相关性，可以对这些书加以排序。显而易见的是，有些书(比如一位和大象生活了20年的非洲作者写的书)相比另外一些书(比如说迪士尼的《小飞象》)包含更多有关大象的信息。但即便是在数字时代，创建这样一个排序的索引也会面临挑战。你怎么知道正给你做讲演的人是驯马专家？你怎能确信岩画向你展示了刺杀野牛的正确方式？在过去的很多情形中，权威性排序由人们对该来源的评述决定，而这样的评述通常基于这些来源是否能给予人们良好的信息，或者帮助他们成功地完成某项任务。随着搜索引擎所包含的人类知识越来越庞大，工程师开始寻找在数字系统中重现这一现实世界的方法。
谢尔盖·布林和拉里·佩奇设计了BackRub(返回触摸)算法，成立了谷歌公司。他们衡量的是每个查询返回结果的权重，该权重对应着每个结果与该查询的相关程度。通过找到一个页面中链接到另外一个网页的文本可以得到权重。A页面上的这些链接文本(称为“锚文本”)为搜索引擎提供了目标页面(B页面)可能的内容描述。如果足够多的、具有相似词源的词语都指向同一个页面——比如，有10 000个页面都包含“大象”这个锚文本，且都指向另外一个网页(B页面)——那么引擎可以假定B页面很可能说的就是大象。我们结合实际生活来思考一下这个过程。如果有足够多的人告诉你洗手间在旅馆的二楼，你很可能会相信他们。而如果这些人中的大部分还是在该旅馆工作的人员，你对这个答案的信心会更强，因为这些人在这个话题上有更高的权威性。搜索的情形也是如此：不仅仅是有10 000个页面告诉引擎B页面是关于大象的，这10 000个页面的质量(或者说可信度)更是一个重要的衡量因素。
这些年来，工程师研究出了数百个其他变量，让搜索可以适应不断增长的网络。随着页面和链接数量的增加，我们的算法越来越擅长识别链接的含义和网页的其他特征，并确定当用户使用某一特定查询时他可能想要查找什么。
不管怎样，搜索这个领域还是相对简单的，因为我们以相对简单的方式去搜索东西。页面上的文字——偶尔加上图片——成为现实世界里各种思想的一个低精度的替代品。
文字的局限
随着互联网的成长，它渐渐地能以更复杂的形式来表征这个世界。网络不再是一系列页面和链接，偶尔夹杂一些有趣的猫咪视频。网络更是一种方式，使得世上的一切得以重现、互联、有意义。有了这个目标，我们不断拓展了传统搜索系统的极限。也就是说，传统搜索更依赖于语言作为与日渐电子化的物理世界进行交互的主要方式。
P6-8

你还可能感兴趣

我要评论