如今,在互联网诞生近50年后,搜索的意义已经远远不只“关键词+回车”找出相关信息。大数据、云计算、人工智能赋予了搜索全新的意义,搜索已经无处不在:当我们在使用百度时,当我们拿起iPhone询问Siri天气如何,当我们将照片放入搜索框……搜索已经融入我们的生活,查询变成了我们日常的一部分。
搜索现在已经发展到什么阶段了?
搜索未来会变成什么样子?
搜索还能带给我们什么……
作者斯特凡·韦茨身为必应搜索的高级总监,多年在微软致力于搜索的研究和推广。在这本书中,斯特凡为我们展示了智能时代未来搜索的全景图。未来的搜索是当你搜索一部电影名称时,你的订票系统已经根据你的日程表开始为你推荐今天的观影时间和地点;当你查询路况,电子地图软件自动为你推荐出回家的躲避拥堵方案;当你和朋友对话时提到晚上一起吃饭,你的手机助手立刻在结束通话时为你列选出最符合你口味的就餐地点……
读完这本书,你会被搜索的强大力量所震撼,也会意识到目前我们使用到的搜索功能只是搜索的冰山一角。当搜索遇到人工智能,当搜索与物联网结合,当搜索和机器学习碰撞……搜索的潜能将被激发出巨大的能量为人类生活、生产的便利带来质的飞跃。同时,也会给我们带来前所未有的挑战。
准备好了吗?让作者带你走进未来5年、10年、20年后的搜索!
搜索在今天的意义远远不只文字搜索,它变得更加智能和强大,作者用通俗的语言为我们描绘了未来搜索的方向,以及我们需要小心和需要反思的地方;
作者为微软搜索总监,他站在互联网时代背景下用专业的眼光结合多年的一线工作经验讲述搜索的本质、搜索的意义、搜索的未来以及搜索对商业的意义;
著名大数据专家涂子沛,XPRICE创始人、奇点大学执行主席,《富足》合著者彼得·赫曼迪斯, Siri合创人亚当·奇耶等IT界大咖鼎力推荐。
前言(节选):
未来将会怎样?
我的日常工作是微软必应(Bing)的高级搜索总监。有很多员工致力于推广并提升我们的搜索引擎技术,我只是其中一员。我从一开始就在必应工作,也很幸运一直参与在我想象中最繁复的启动工作中。2013年12月,有人打电话问我是不是愿意写一本关于搜索的书。我的反应是当然可以,为什么不呢?当时我正计划环球旅行,到14个城市去进行已经安排好的谈话和会议。我正在微软启动若干新的产品,也刚刚戒除咖啡因。很显然,我有点儿失衡。
每个设备、我们周围的每个物体、每个人都互相连接,我们也开发出从噪声中识别出模式的系统。面临这样的现实,写下我对此的观点很重要。搜索的力量在于提醒我们那些自己都不知道但其实应该知道的东西,也能在广义上让我们变得更好。我看到数字化的黄金时代正在来临,每个人、每个地方、每样东西都可以用数字的形式描述。一旦那个时代降临,而系统从我们复杂的思想中过滤掉那些知识残渣,那么人类的能力将得以增强,我们就可以做出更好的决定,还能在一念之间就操纵物理世界,而最终也会更加幸福。我在晚宴或者讲座上描述我的工作以及我对搜索未来的愿景时,人们无一例外地对这些可能性感到兴奋不已。
当我谈到科技带来的超级链接、超级分析、超级指引到底意味着什么等深入内容时,更多的人才开始深思。
技术产业的圈子其实很小,我就有很多朋友在谷歌工作。而谷歌通常被认为是微软的主要竞争对手。虽然我对工作在山景城的同胞在做什么没有明确的信息,但在用晚餐的时候我会听到他们在思考什么,以及必应和谷歌都在试图解决的问题。
这本书接下来所讲述的并不是必应、微软或者任何其他公司建立这样的未来搜索产品的计划。事实上,书中很多概念是矛盾的,也涉及监管方面的擦边球。在某些情形中,社会就是不能接受一个超级互联的世界以及由此带来的透明度。我们这本书说的是未来的形势。而我每天深度生活在互联网之中,一年要和数百家公司的工程师和技术专家以及那些推进着技术发展的学者交流。总体来说,我相信技术的力量能建立起一个更自由也更幸福的社会。
当人类与机器融合我们人类总是想寻找方法捕捉我们在现实世界中看到的东西,从而将其保存、传承并从中学习。岩画、日记、散文、照片、录音、录像……所有这些踪迹使我们能织出一张生动又不朽的挂毯,其描绘的世界超越了我们个体生命的短暂本质,而且我们越来越多地用机械来保存、分析、解释这些踪迹。
与此同时,我们一直在尝试通过一些架构连接人机之间不兼容的界面,从而将两者结合。比如纽约中央火车站是一个汇聚了人类和机器的移动的中心。我们通过结合人类和机器的两个独 一 无 二的特性—人类精细、自主但是缓慢的移动结合机器利用引
擎和轨道进行的粗放、限定但快速的移动—让人们走得更快,走得更远。融合了人类和机器各自的能力后会发生什么?如果我们用机器可以利用的方式捕获现实世界,然后利用机器的能力来大幅提升人类的能力会怎样?这就是搜索的未来,其独 一 无 二的能力是对现实世界进行有意义的索引,并同时作为这些知识的通用接口。搜索就是我们一直想要的“铰链”。
我重申一次,这不是我们今天所认为的搜索,那只是一个信息获取系统,我们输入一个名词并希望得到一个包含那个名词的结果页面。我们必须要把搜索看作空中的一位无所不知的观察者。它知晓苍穹之下、大地之上发生的一切。要想这一切变为现实,搜索本身必须被解构,还原成各个元任务:对这个世界及其中的一切进行索引并理解;读懂感受,于是搜索系统可以看、可以听(最终能闻、能摸!),还能和我们以更自然的方式交互;和我们人类的交流方式要与情景匹配—不论这样的情景是文字、对话,还是代表我们和其他机器通信并在真实世界中让事件发生。
在下面几章中,我们会探讨将搜索转变为连接人机独特能力的“铰链”的进展。我们会先审视这一新的网络以及搜索引擎面临的挑战,接着我们会分析在新的职能下搜索引擎能做些什么,还会介绍搜索引擎的新规则。等到我们对未来搜索的潜力有了切实的理解,我们会讨论新一代的搜索会怎样在更大程度上包容人性,提升人类的能力,真正成为我们在真实世界和虚拟世界中的代理人。
虽说我们这些技术人员设想了那么光明的前景,搜索的未来如何却还没有确定。我们会审视那些当前阻碍我们迎来搜索黄金年代的障碍。这些障碍包括技术挑战,也有更宽泛意义上的社会问题,比如我们是否想要这种洞察我们的世界以及其中一切的看似无所不在的能力。最后,我们要讨论的是在将人类的潜力和机器层面的能力结合而形成共生关系,并颠覆了诸如商业、隐私以及日常生活等现有概念后,搜索到底还有怎样的意义。
微软必应搜索的高级总监。他在微软时的主要工作就是和其他同行以及行业内的组织一起,推广并改进搜索技术。他不仅关注微软的产品线,同时,也在其工作覆盖的整个行业深入研究以更好地理解搜索行为、学术发展以及各方面的创新。他就像是搜索的“传道者”,搜集并整理各方面的反馈,以此促进搜索技术的进步。
作为一名在微软工作了17年的老员工,他在诸多项目小组(Windows系统、硬件、信息安全以及全球商业战略)中负责技术开发、项目管理、业务拓展开发以及市场营销等不同环节并获得不少专利。他也经常为企业和学术团体就信息存储、获取和使用的未来发表演讲。
目前居住在华盛顿州西雅图市。
第1章 搜索将看到什么?
搜索走到了哪里?
文字的局限
更有能力的网络
社交网络
个人信息
互联现实
设备
“事物”
事件
地点
混合系统
支付系统
大数据,大影响
设备推动了“能力网络”
无所不在的通信为“能力网络”加油
用“能力网络”去理解物理世界
将现实编织在一起
第2章 搜索将如何应对?
没有万灵丹
由此及彼
下一代搜索查询
更好的听众:从妄语中发现真知
更认真地听
更智能地聆听
理解现实世界
帮助搜索引擎去理解人们
设备驱动了对理解的需求
构建一张世界知识地图
第3章 搜索将做什么?
搜索将具有洞见并给出预测
挑战:好奇心带来的洞见
只是够用就足矣?
从查找到行动
超越应用末日
让一切变得更智能
设备交朋友,相互有影响
把一切整合起来
下一代搜索能提升我们的幸福感吗
第4章 搜索将会如何?
提升我们这个世界的精度
机器学习和智能
消耗更少,做得更多
另一个途径:模仿人类大脑
人就是搜索引擎
慢速搜索
人可以弥补“小数据”造成的错误吗
是快是慢,它就在那里
第5章 搜索能给我们带来什么?
搜索将增强现实
搜索将增强我们的自然能力
搜索将带来实时决策
超人类的搜索
第6章 谁拖了搜索的后腿—技术
信息孤岛
你的档案
硬件孤岛
安全或不安全
淹没在数据海洋
平衡的诀窍
大数据:数量真的很重要吗
大数据及其带来的意外结果
决策的无能和一致性
反击:当大数据遇上大计算
希望的微光
第7章 谁拖了搜索的后腿—商业
系统中遍地黄金
未来搜索的商业模式
另一种搜索付费方式
广告的再思考
其他赢利模式
隐私
技术、社交、个人及社会维度
我的隐私值多少钱
数据:你的、我的和我们的
个人云
是服务条款,还是奴役
一流的网络
解决之道:阳光普照
第8章 信仰时刻
数字化的你:真正得以量化的自我
一个更数字化的世界
控制循环
对生活、宇宙和一切的影响
社会影响
商务影响
结语搜索的未来
致谢
搜索走到了哪里?
由于网络是基于文本文档构建的,所以我们最初将其分类的尝试很像是一种原始的杜威十进制图书分类法。雅虎就是一个由工程师维护的层级索引。对于某一个词语,有一系列的页面和网站与这个词语相关。这样的层级索引过去是、现在也仍然是通往广袤信息领域卓有成效的路标。如果你对阿根廷的旅馆感兴趣,层级索引可以带你访问一个网站,而那里列出了很多阿根廷旅馆的信息。
网络不断扩展,从成百上千个页面到数百万乃至数亿个页面。这些页面上使用的词语也扩展到了百万亿计,单纯的层级索引不再适用,于是就诞生了搜索。
但纠结之处在于,索引本身不再有任何意义。索引主要用来在一本书中找到对应于一个词语或者词组的页面。显然,如果一个索引包含了图书馆里所有书的话,它的用处就不大。比如我们查找“大象”这个词语,那就不得不浏览图书馆收藏的数百本书中的数千个结果。意识到这一点后,一场革命就不可避免了。
搜索工程师意识到,根据一本书和大象的相关性,可以对这些书加以排序。显而易见的是,有些书(比如一位和大象生活了20年的非洲作者写的书)相比另外一些书(比如说迪士尼的《小飞象》)包含更多有关大象的信息。但即便是在数字时代,创建这样一个排序的索引也会面临挑战。你怎么知道正给你做讲演的人是驯马专家?你怎能确信岩画向你展示了刺杀野牛的正确方式?在过去的很多情形中,权威性排序由人们对该来源的评述决定,而这样的评述通常基于这些来源是否能给予人们良好的信息,或者帮助他们成功地完成某项任务。随着搜索引擎所包含的人类知识越来越庞大,工程师开始寻找在数字系统中重现这一现实世界的方法。
谢尔盖·布林和拉里·佩奇设计了BackRub(返回触摸)算法,成立了谷歌公司。他们衡量的是每个查询返回结果的权重,该权重对应着每个结果与该查询的相关程度。通过找到一个页面中链接到另外一个网页的文本可以得到权重。A页面上的这些链接文本(称为“锚文本”)为搜索引擎提供了目标页面(B页面)可能的内容描述。如果足够多的、具有相似词源的词语都指向同一个页面——比如,有10 000个页面都包含“大象”这个锚文本,且都指向另外一个网页(B页面)——那么引擎可以假定B页面很可能说的就是大象。我们结合实际生活来思考一下这个过程。如果有足够多的人告诉你洗手间在旅馆的二楼,你很可能会相信他们。而如果这些人中的大部分还是在该旅馆工作的人员,你对这个答案的信心会更强,因为这些人在这个话题上有更高的权威性。搜索的情形也是如此:不仅仅是有10 000个页面告诉引擎B页面是关于大象的,这10 000个页面的质量(或者说可信度)更是一个重要的衡量因素。
这些年来,工程师研究出了数百个其他变量,让搜索可以适应不断增长的网络。随着页面和链接数量的增加,我们的算法越来越擅长识别链接的含义和网页的其他特征,并确定当用户使用某一特定查询时他可能想要查找什么。
不管怎样,搜索这个领域还是相对简单的,因为我们以相对简单的方式去搜索东西。页面上的文字——偶尔加上图片——成为现实世界里各种思想的一个低精度的替代品。
文字的局限
随着互联网的成长,它渐渐地能以更复杂的形式来表征这个世界。网络不再是一系列页面和链接,偶尔夹杂一些有趣的猫咪视频。网络更是一种方式,使得世上的一切得以重现、互联、有意义。有了这个目标,我们不断拓展了传统搜索系统的极限。也就是说,传统搜索更依赖于语言作为与日渐电子化的物理世界进行交互的主要方式。
P6-8