成都SEO邹义科转载《实体搜索引擎现在的发展状况》

成都SEO邹义科转载《实体搜索引擎现在的发展状况》

背景:
实体(entity)搜索是相对于关键词(keyword)搜索而言的
传统的关键词搜索虽然目前已经可以达到很高的”智能”水平, 搜索结果在很大程度上可以帮助用户找到需要的信息
但对于”搜索引擎”这个系统自身而言, 其实并不了解搜索query本身有什么意思, 对于搜索”盗梦空间”和”喵喵喵”, 搜索引擎做的事情基本差不多. 你告诉他要找什么, 他就去按照字面意思勤勤恳恳的去找. 搜索引擎无法直接回答query, 只能做一个信息的中转.
实体搜索关注的重点不是”关键词”级别的信息, 而是”对象”, 比如: 人, 电影, 软件, 小说, 公司, 组织等等. 从关键词向实体转化, 希望可以从更精细的角度来理解和组织搜索结果. 在一定程度上可以理解query的意思, 并给出自己的答案. 一些更智能更个性化的交互也依赖于实体作为基础, 比如”好看的电影”

数据:
实体搜索需要前期花大量的时间和精力在建立关于实体的信息数据(这里有很多不同的叫法, 比如Ontology, 语义网等等). 传统的html并不是一个有效的信息载体, 至少截至目前, 主流的html tag对于信息组织而言是没有实际意义的. 结构化数据通过html展现出来以后, 原有的属性信息都丢失了. 也许在数据库中, 一部电影和导演的关系是可以通过关系数据库表体现出来的, 但html中td,tr之类的标签是无法表示这种关系的.
所以, 对于搜索引擎而言, 要从数据建设做起, 基本上的通用做法大概分以下几个方面
1) web实体属性的提取和消歧
2) 实体信息分类
3) 实体关系挖掘
目前这部分上, 基本上领先的搜索引擎都在不断的做数据积累, 这部分既要保证信息覆盖的广度, 同时还要有足够高的信息精度.

产品:
数据建设是为了搜索引擎产品服务的, 在数据层面积累的基础上, 需要通过搜索产品来体现数据的价值. 除了将实体信息直接作为类似百科形式直接使用外, 产品层面上已经逐步产生了很多有意思的新内容.
举一些有趣的例子:
1. 实体的关联关系
“类似XXX的电影”这类query是实体关系的一种表现, 传统关键词搜索在这类信息上是完全不够用的, 产品上从”搜索”逐步向”发现”转变.


2. 实体的属性信息
“张艺谋导演的爱情电影”


“zhang yimou’s movies”


3. 实体的分类信息
“杀毒软件”, 这个是网上新闻看来的

http://www.chinaz.com/news/2012/0906/273130.shtml

此外, 据说还有不少更惊艳的结果, 有些内容似乎外界看不到, 或者只有部分用户才能看到. 目前只能管中窥豹, 简单展望一下.

最后说说未来
实体也好, ontology也好, 语义网也好, 这些名词在搜索这个应用场景下很大程度上在说一件事情. 就是在关键词的基础上, 可以扩展出更多隐藏在关键词背后的信息, 用于搜索结果的组织, 展现, 排序. 搜索引擎不再定位于一个单纯的索引机器, 而是将信息进行扩展和重组. 至少从目前工业界的实际进展来看, 效果还是很振奋的. 这是个高投入的活, 几个搜索引擎大公司同时在这一方向上发力, 我个人感觉目前已经从数据积累期逐步向产品产出这个阶段转化了.

 

成都SEO邹义科转载《实体搜索引擎现在的发展状况》



本文固定链接: http://www.seo028.net/shiti/ | 邹义科|邹老师博客

该日志由 四川SEOer邹义科 于2012年10月27日发表在 SEO杂谈 分类下, 你可以发表评论,并在保留原文地址及作者的情况下引用到你的网站或博客。
原创文章转载请注明: 成都SEO邹义科转载《实体搜索引擎现在的发展状况》 | 邹义科|邹老师博客
关键字: , , , , , ,

成都SEO邹义科转载《实体搜索引擎现在的发展状况》:等您坐沙发呢!

发表评论

Spam Protection by WP-SpamFree

快捷键:Ctrl+Enter

无觅相关文章插件,快速提升流量