随着互联网的高速发展,搜索引擎的发展也是日新月异,最近几年,互联网在经过了Web 2.0的市场培育阶段后,迎来了以互联网用户的个性化和社交化为中心的趋势。同时,移动设备的逐渐流行及与上述两大趋势的融合,促生了很多新型应用,为了迎接和顺应这种趋势,对于搜索引擎来说,也产生了新的挑战。
淘宝搜索引擎将注定不再是单一的购物搜索,为了应对当前互联网发展潮流,淘宝搜索也主动地,逐步地在涉及一些新兴领域。淘宝的CashCow项目正是为迎接这种新的趋势应运而生的,即淘宝商业化搜索,CashCow中的商业化搜索并不仅仅定位于商业领域、满足商人信息需求的搜索,而且涵盖了个性化搜索、社会化搜索、实时搜索、移动搜索、地理位置感知搜索、跨语言搜索、多媒体搜索、情景搜索等,由此可见淘宝搜索的目标是极其长远而宏大的,现今使用的淘宝搜索只是购物搜索,在淘宝商业化搜索中只是极小的一个部分,我们有理由相信,在不久的将来,淘宝商业化搜索会带给我们更多的价值与便利,甚至可以带来你现在根本意想不到的惊喜,同时为阿里集团创造难以想象的价值!我们甚至可以从CashCow的含义中体会到淘宝商业化搜索所蕴藏的巨大商业化价值!
在淘宝商业搜索系统中,这些技术领域很多还不成熟,正在快速发展之中,所以本文并不详述其技术细节,对于每个趋势,大致讲解其特点及基本技术思路。
一、个性化搜索
互联网的发展已经进入了新的阶段,即以用户为中心的阶段。如何通过用户的网上行为建立用户的个人模型,并基于此,提供精准的个性化服务成为各种研究的重点。搜索引擎也不例外,个性化搜索即是为了解决这个问题而提出的技术领域。
对于搜索引擎用户来说,由于其个人兴趣不同,即使是同一个查询词,也可能其搜索意图迥异。比如用户发出查询"苹果",如果这个用户是手机爱好者,那么他很有可能希望查询的是技术资料或者购买手机;而如果用户是个果农,那么他很可能希望查找的是关于苹果的销售或者苹果栽培的信息。所以即使是相同的查询词,如何为不同的用户提供个性化的搜索结果,成为衡量搜索引擎搜索质量非常重要的标准。
从技术角度看,个性化搜索任务主要面临两个问题:如何建立用户的个人兴趣模型?在搜索引擎里如何使用这种个人兴趣模型?
个性化搜索的核心是根据用户的网络行为,建立一套准确的个人兴趣模型。图1是一种比较理想化的用户建模方式,即全面收集与用户相关的信息源,包括用户搜索历史及点击记录,用户浏览过的网页、用户E-mail信息、用户所收藏的信息及用户发布的信息,比如博客、微博等内容。在此基础上建立用户兴趣模型,用户兴趣模型的表达方式也有很多种选择,比较常见的是从信息源抽取出的关键词及其权重,也可以将关键词映射到语义层面的本体结构,或者是浏览文档形成的层级分类结构。不论采取哪种方式,都通过以上手段建立了能够代表用户长期和期兴趣的用户模型。
在建好用户模型后,对于搜索引擎来说,如何使用这个用户模型也是需要考虑的问题,从目前的研究来看,一般有两种不同的使用方式:一种比较常见的方式是对初次搜索结果排序,即利用用户当前的查询词获取排在前列的搜索结果,之后根据用户模型对这些前列搜索结果重新排序,排序原则是与用户个人兴趣越匹配的内容排名越靠前;另一种有方式是对用户当前的查询词进行直接扩展,即从用户兴趣模型里找出与当前查询词密切相关的词汇,之后将用户查询改写成为扩展查询,使用搜索引擎查找结果,这样对于不同的用户,即使是输入相同的查词,也会获得不同的搜索结果。
为不同用户提供个性化的搜索结果,这必然是搜索引擎总的发展趋势,但是现有技术方法也存在一些问题。首先是用户的隐私问题,为了获取精准的用户兴趣模型,就需要多方收集用户信息,而这很可能暴露用户隐私。另外一点,用户的兴趣是不断变化的,而如果太依赖历史信息,可能无法反映用户兴趣的转移和变化。
二、社会化搜索
随着Facebook的逐日流行,社交网络平台和相关应用占据了互联网的主流(参见图2)。社交网络平台强调用户之间的联系和交互,这对传统的搜索技术提出了新的挑战。
传统搜索技术强调搜索结果和用户需求的相关性,社会化搜索除了相关性外,还额外增加了一个维度,即搜索结果的可信赖性。对于某个查询,相关的搜索结果可能成千上万,但是如果是处于用户社交网络内其他用户发布的信息、点评的评论或者验证过的信息则更可依赖,这是与用户的心理密切相关的。社会化搜索即结合了这种相关性和可依赖性,为用户提供更准确、更值得信任的搜索结果。
社会化搜索的本质是信息过滤与推荐,即对用户的疑问,社会化搜索系统推荐合适的人来回答用户的疑问,或者通过社交关系过滤掉不可信赖的内容,并推荐可以信赖的内容,图3是社会化搜索整体流程示意图。根据其他用户和提问者的关系社会化搜索系统重点关注4类关系;直接有社交联系的成员,比如熟人或朋友;有相同兴趣的成员;用户所加入网络社区的成员;领域专家。直接具有社交联系的成员对搜索者具有直接影响力,比如购物搜索时对产品品牌的评价;有相同兴趣的成员则形成了有效的信息过滤者或推荐者;搜索者所在社区的成员从本质上讲也是有相同兴趣的成员,碎玉搜索者的问题能够形成有效的信息过滤和推荐;而领域专家则对问题的解答具有权威性。通过结合或分别使用以上4类社区成员的信息,社会化搜索系统可以给搜索者提供合适的回答者或者值得信赖的信息。
社会化搜索从其性质上讲,和个性化搜索是密不可分的,因为用户的社会关系其实也是个性化信息的一个组成部分。社会化搜索将搜索维度从信息维扩展到关系维,丰富了信息源,对于获得更准确的搜索结果帮助很大,具有广阔的发展空间,这个领域方兴未艾,无论是商业公司还是研究机构,对于这个领域还处于探索阶段。
三、实时搜索
随着Twitter、微博等提供微信息的个人媒体平台逐步兴起,对搜索引擎的实时性要求日益提高。微博平台和传统的信息平台比如网页、博客、新闻等相比,有其特殊性。其中一个突出的特点是时效性强,越来越多突发事件的首次发布出现在微博平台上,比乡如某地地震或者社会事件,这是有其必然性的。
实时搜索与传统的网页搜索有很大差异。实时搜索的核心强调“快”,即用户发布的信息能够第一时间被搜索引擎发现、索引并搜索到。传统搜索引擎在实现机制上很难达到这一点,所以实时搜索在搜索引擎的爬虫、索引系统和搜索结果排序方面都有自己独有的特点(参考图4)。
对于Twitter或者新浪微博这种信息平台来说,信息的快速获取本身不存在问题。而对于搜索引擎服务公司来说,如何能够快速全面地获取微博数据就成了严重的挑战,目前的解决方案大致有两种。一种是与微博平台合作,由信息平台将最新的信息实时推送给搜索引擎。另外一种是由爬虫实时抓取,这里面有若干技术挑战:首先,微博平台作为个人信息发布平台,往往需要用户登录使用,这对于爬虫来说就形成了第1道屏障;另外,即使爬虫能够登录微博系统,如何全面获取信息,难度也很大,微博用户数以亿计,而且微博内容短小,同时不像网页可以通过链接传递逐步发现更多内容,如何保证信息全面性成为第2进屏障,尽管可以通过用户关注关系获得部分微博数据,其全面性是难以保障的;如果爬虫无法保证信息的全面性,那么实时性也是无法满足的,因为很可能最新发布的消息爬虫根本抓取不到。从这几个方面讲,微博平台对于搜索引擎来说是有其天然封闭性的。Google目前通过与Twitter合作的方式获取微博数据。
在索引构建方面,实时搜索要求第一时间对新发布的内容进行索引,即用户发布,则信息可搜。这对传统的索引机制提出了挑战,要求索引系统支持在建立索引的过程中,也能够提供搜索服务。
在搜索结果排序方面,实时搜索也有其特点,除了内容相关性要求外,时间因素是搜索排序中首要的考虑因素,很多实时搜索系统默认按照时间顺序排序,即最新发布的信息排在前列。
对于一个完善的实时搜索排序算法来说,一般重点考虑以下4方面的因子。
1、内容相关性:信息是否与用户查询主题相关。
2、时效性:发布时间越近的信息,其搜索排名应该越靠前。
3、信息重要性:越重要或者越流行的信息排名应该越靠前,作为重要性或者流行性的判断指标有很多,比如信息发布来源是否可靠(微博中信息发布者的重要性)、被转发次数多少、被评论次数多少等都可以作为判断指标。
4、社交性:一般来说,微博平台同时也是一个社交平台,微博用户的关注人和被关注人体现了这种社交性。排序时,应该将搜索结果的社交性体现出来,即用户关注人发布的信息排名应该靠前。
综上所述,实时搜索在信息获取、信息索引和排序机制方面都有其特性,以此和传统搜索引擎做出区分,而随着突发事件越来越多在这种平台发布,其重要性不言而喻。
四、移动搜索
随着智能手机的快速发展,基于手机等移动设备的搜索日益流行。移动设备对搜索应用的需求与PC等不同,主要源于其与PC相比资源的有限性,比如手机的屏幕较小,可显示区域不多;手机存储和计算资源能力较弱;手机设备打开网页的速度较慢;手机输入较为烦琐等。所以针对移动设备的搜索需要根据手机等移动设备自身的特点,开发适合其资源和设备的搜索应用。
使用手机搜索与PC搜索一样,由3个步骤组成:用户输入查询,搜索引擎提供搜索结果信息,用户点击打开感兴趣的页面。考虑到移动设备的资源有限,在这3个步骤都要考虑如何增加用户的体验,如图5所示。
对于用户愉入查询这一环节来说,因为输入难度比桌面设备大,不够便捷,包括移动设备中的中文输入法由于资源所限、智能性不足,所以对于移动搜索来说,如何让用户输入更便捷是最主要的问题。在移动搜索环境下,用户查询词的自动补全和相关搜索提示等搜索功能更重要,通过这种辅助手段可以有效减少用户的输入次数,增加用户体验。另外,也可以通过非文本输入,比如语音识别输入的方式来减少用户输入的难度。
由于移动设备屏幕较小,如何在这么小的展示面积里让用户更快、更直接地找到答案至关重要。所以,移动设备搜索对搜索的精度及搜索结果的展示方式要求更高。一般会考虑尽可能将搜索的列表展示在搜索结果的摘要区域,或者提供网页内容更细致准确的摘要信息,这样让用户从搜索结果展示页面就可以直接获取答案,免除用户下载页面和在页面内容里查找的过程。
如果用户在搜索结果的摘要区域无法获得答案,就必须点击网页,查看页面内容,以搜索引擎目前的搜索精度来看,这步多多少少是难免的。既然如此,目标网页往往内容很多,包含导航栏、广告栏、大量图片等既消耗带宽资源,又与用户搜索内容无关的信息,所以在这一步骤,移动搜索的问题就转化成了如何提供给用户页面中最重要、最相关的部分。搜索系统可以为用户提供加工过的目标页面,通过分析目标网页的结构,自动提取重要内容,只将这部分内容展示给用户,有效增加用户体验。
智能手机的快速普及只是潮流的开头,以后一定会更加快速地发展,所以移动搜索的市场占有率会逐步上升,而其最核心的要求是如何在资源有限的情况下增加用户体验。
五、地理位置感知搜索
随着智能手机价格的下降和大众化,智能手机服务也日益流行,基于地理位置感知的搜索是其中的应用之一。目前很多智能手机不仅能够获取用户所在位置的GPS信息,而且可以通过陀螺仪等手机内部设备感知用户的朝向,基于这种信息,可以为用户提供准确的地理感知信息及相关搜索服务。
我们可以设想一种应用场景(参考图6),一个旅游爱好者在英国旅游,当他走到“大笨钟”前面时,地理位置感知搜索可以自动推送给用户关于“大笨钟”的相关知识,比如建造历史、设计者、有关逸闻趣事等丰富的相关信息,这就是一种典型的地理位置感知搜索应用,类似的应用在不同的具体领域还有很多。
图7是一个地理位置感知搜索系统的架构图,系统主要由3个部分构成,首先需要构建地理信息数据,用来存储某地的地理信息,比如街道名称、建筑物名称及相对位置等信息,这些数据是此类应用的基础数据。地理位置感知模块通过用户手机,可以获取用户当前所处位置及朝向等位置信息,通过和地理信息相互比较和推理,获知用户此时面对的是哪个建筑物,之后根据应用的不同,从应用相关领域知识中提取与这个建筑物相关的知识,并显示给用户。
地理位置感知搜索可以看做是增强现实技术在搜索领域的具体应用,随着智能手机功能的丰富化,此类应用必将大行其道。
六、跨语言搜索
随着全球化进程席卷全球,互联网所提供的信息资源不再集中于英语等少数几种语言上。另一方面,英语非母语的互联网用户比重也在快速增长,对于大多数不精通外语的用户而言,熟练地使用外语查询所需要的相关的其他语种信息较为困难,而使用母语查询条件搜索出相关的外语信息,再借助于辅助翻译工具浏览信息则相对较为容易。因此自动将用户的母语查询条件翻译为相应的其他语种查询条件,再使用搜索引擎查找出所需的信息,是方便用户获取网上资源的有效途径。跨语言搜索(CLIR: Cross-Language Information Retrieval)研究的正是这方面的内容,它是信息检索研究为了克服语言障碍而发展出来的一个分支。随着互联网的蓬勃发展,研究开发优秀的跨语言信息检索系统显得日益迫切。
Google目前已经提供多种语言之间的跨语言搜索,图8是一个具体实例,当用中文搜索“麻省理工”的时候,排在第1位的是麻省理工学院的英文主页。同时Google也在大力发展机器翻译技术,当用户搜索到外文网页后,可以使用机器翻译技术将网页翻译为用户的母语,尽管目前翻译质量不算非常理想,但是用户可以获知网页的主要内容,这样就有效地增加了搜索范围。
一般来说,解决用户查询与查询文档集之间的语言障碍有3种不同的技术路线,既可以将查询翻译成与查询文档集相同的语言,也可以将查询文档集翻译成与查询相同的语言,还可以同时将两者映射到与具体语言无关的语义空间。由于查询文档集一般都很大,采取翻译查询文档集到用户查询语言的技术路线代价太高,所以一般的研究集中在其他两种技术路线上,其中最常见的还是将用户查询翻译成文档集的语言,比如用户输入中文的查询“麻省理工”,跨语言搜索系统将这个查询词翻译成MIT,然后去英文的网页里搜索,获得麻省理工学院的首页。
如何将中文的用户查询翻译成为英文的查询?目前主流的方法有3种:机器翻译方法、双语词典查询方法及双语语料挖掘方法(见图9)
机器翻译方法非常直观,即利用现成的机器翻译系统直接将中文的用户查询翻译为英文的查询。但是这个方法有个缺点,一般用户查询较短,不像文章里的语句,没有查询词的上下文信息,所以翻译效果一般不能保证。
双语词典查询方法思路也很简单,对于中文查询,直接查找中英双语词典,将可能的英文翻译找出,问题的关键是一个中文查询词往往有多个对应的翻译项,系统需要判断哪全翻译项才是正确的。另外,双语词典规模往往不够大,很多用户查询可能无法在双语词典里找到,尤其是人名、地名这些比较灵活使用的命名实体,所以这种方法需要解决以上的两个问题。
双语语料挖掘方法与上面两种方法思路不同,是通过准备好的双语语料,比如报道相同事件的中文和英文新闻,然后在这种双语语料基础上计算某个查询词翻译为另外一种语言查询词的概率,选择翻译概率最高的作为查询词翻译的结果。这种方法的缺点主要是获取大规模的双语语料有较大难度。
对于一个全球性的搜索引擎来说,具备跨语言搜索功能是必然的发展趋势,而其基本技术路线一般会采用查询翻译加上网页的机器翻译这两种技术手段。
七、多媒体搜索
目前主流搜索引擎还是基于文字的,即使是常用的图片搜索和视频搜索,用户输入查询也基本都是文本方式的,在搜索引擎内部也是通过图片标题和页面的上下文等文本进行匹配的(参考图10)。这种基于文本来搜索图片、音频、视频等多媒体信息的方法有其天然缺陷,即用户查询和目标媒体的巨大差异性。多媒体搜索技术则弥补查询和搜索目标之间的差异鸿沟,使得用户可以用图片等多媒体内容作为查询输入,以获得更高的搜索准确性。
多媒体形式除了文字外,主要包括图片、音频和视频。多媒体搜索比纯文本搜索从技术上要复杂,一般多媒体搜索包含4个主要步骤:多媒体特征提取、多媒体数据流分割、多媒体数据分类和多媒体数据索引搜索(参考图11)。
多媒体特征抽取从原始的图片、音频或者视频中抽取出能够代表其内容的特征,文本形式一般是以关键词作为特征的,而多媒体特征与此不同,比如图片和视频中的视觉特征(色彩、纹理等),音频文件中的音调、音高等信息。这样将原始的多媒体信息转换为内部特征表示,供后续步骤使用。
对于视频和音频流来说,还需要进行数据流分割工作,这两种媒体具有时间维度信息,通过分割,将连续发生的相同或者相近的内容归为一个场景,在场景发生突然或者较大变化处将媒体分割成不同的场景。
对于不同的场景,可以对场景分类,比如新闻播报的场景或者爆炸场景等,通过这一步骤,等于给每个场景增加了语义标签。
在做完以上各个步骤的处理后,多媒体搜索系统就可以根据其特征对媒体片段进行索引,之后用户可以输入图片、音频或者视频片段,通过相似度计算,找出和用户查询相近的多媒体内容。
八、情境搜索
严格来说,情境搜索并非一项技术,而是一种融合了多项技术的产品形态。之前介绍的个性化搜索、社会化搜索、地点感知搜索等各项技术都是支持情境搜索这一产品形态的基础。目前包括Google公司等商业搜索公司都在大力提倡这个概念。
所谓情境搜索,就是能够感知人及人所处的环境,针对“此时此地此人”来建立模型,试图理解用户查询的目的,根本目标还是要理解人的信息需求。比如某个用户在苹果专卖卖店附近发出“苹果”这个搜索请求,基于地点感知及用户的个性化模型,搜索引擎更有可能认为这个查询是针对苹果公司的产品,而非对水果的需求。
图12给出了情境搜索示意图,搜索系统根据用户过去的查询及点击记录,或者是IM等信息,可以对用户的兴趣、身份等建立一份体现个性化信息的用户模型。同时,环境感知模型可以获取用户发出查询的时间、地点、周边环境等情景信息。在众多与用户“此时此地此人”的相关信息的帮助下,对用户发出的查询做出更加合理的解释,更清楚地了解用户的信息需求。总体而言,情境搜索需要的各项技术还不够成熟,这类产品还有相当大的发展空间和潜力。
郑重声明:本站“淘宝搜索技术文档”版块所有内容均来自淘宝搜索技术内参,并由薄言亲自归纳整理,旨在将复杂的技术文档转化成直白容易理解的文字,以此来帮助淘宝卖家更好的了解淘宝搜索系统,为此耗费了巨大的时间和精力,请大家尊重薄言的劳动,不要转载和盗用,即使需要转载,请务必取得授权,并注明出处!谢谢!