网站首页 | 域名注册 | 虚拟空间 | 企业邮局 | 网站建设 | 网站推广 | 服务器合租 | 电子杂志 | 站长工具 
杭州网络公司、网站建设—奇灵网络
  文章 酷站 图库 下载  
 
搜索
  热门搜索: 素材图库 美女 导航条 求职简历 矢量 模板 特效 更多..
首   页 网络资讯 站长工具 站长必读 酷站欣赏 网页教程 css+div asp 站长赚钱 网站推广
  最新更新
 网页搜索引擎的发展方向
 网站排名下降的主要原因
 为什么Google上搜不到我的网页?
 百度的收录和清除站点规则
 二级域名与一级目录之间该如何选…
 中国网络广告市场规模将达到46亿…
 富人烧钱创业者烧青春
 虚拟货币网上大盗卖 腾讯淘宝谁负…
 域名抢注专业户存在不一定合理
 判断反向链接质量高低的标准
  最新推荐
 黑蚂蚁互动
 新站快速收录,新手总结
 友情链接,其实很是伤人
 新式网站推广Web2.0的方法
 网络推广的流程步骤执行要务
 怎样推广电子杂志类网站\
 一个网站要怎样才能推广出去
 网站链接质量的判断方法
 百度主题封杀以下特征的行为
 Alexa常用的作弊方法总结
网页搜索引擎的发展方向
作者:佚名   文章来源:网络   点击数:   更新时间:2007-10-16 17:58:36 

互联网存在的价值就是低成本、高容量、多方的信息传递。
互联网每一个杀手级应用都离不开信息和传递这两个关键词。邮箱是、即时通讯是、搜索引擎还是、将来的杀手级应用还依然离不开信息和传递这两个关键词。

 

搜索引擎的发展历史是一个挖掘用户需求然后满足用户需求的过程。在可以预见的不久的将来,从产品角度看待网页搜索引擎的发展大致有如下几个方面:
1. 确解用户之意 信息抽取,优化排序
用户在搜索用到“最新”、“免费”、“官方网络”、“北京”、“电话”等关键词的时候并不是一定需要网页中有这个关键词,而是找这类信息。
用户在找“最新”的时候实际上是希望获取其它词汇的最新相关内容,而不一定是需要含有“最新”这两个词汇的。所以在排序的时候考虑见新的网页排列在靠前位置更满足了用户的需求。
用户搜索“十八街麻花 北京”是想找在北京的十八街麻花的地址或者电话。
用户搜索“北京泽通华程科技发展有限公司 电话”的时候是想找电话号码。
在处理这类请求需要对地理位置信息和“电话”这类词汇进行前端分析,在索引的时候识别电话号码、地址信息,在排序的时候将有相关信息的页面放置在前面、并且在做摘要提取的时候直接体现用户需要。

 

2. 基于视觉网页块分析
这项技术激动人心,对于优化网页的排序、自动摘要的质量很有帮助。网页搜索引擎可以全文检索一样在几乎纯净的数据中处理,再加上网页中富有的其它信息,你说网页搜索的相关性能不大幅度提升吗?

 

3. 网页库内容分类
用户在搜索“申花”,那他有可能是两个需求,1.足球相关 2.申花电器 3.其它
如果用户搜索“申花”出来的全部是足球相关信息,这显然不能代表不同网民的需求。作为一个入口而言,如果将不同类型(行业不同、知识类型不同)的信息排列在首页,那用户会感觉很happy,满足了多样性的需求。
这也可为将来做个性化搜索提供准备。

 

4. 潜在相关性
搜索“恐怖”,出现一篇拉登的新闻,虽然这篇文章里面没有“恐怖”这个关键词。
搜索“西红柿”出现“番茄”,但是网页中没有“西红柿”这个关键词。
这个技术好像还不是很成熟。

 

5. 网页结构化信息抽取类技术,网页上文本内容的相关性分析
结构化信息抽取实在是未来应用前景最好的一种技术,自动的抽取任意网页上的结构化数据。主要可用垂直搜索引擎:对网页数据进行采集、抽取、深度加工后为用户提供更好的、更专业的服务。
结构化信息抽取可以识别网页中文本之间的相关度,可用于改善多词汇检索的关联度(计算偏移量不仅仅在文本距离上而且在表格单元格的相关性上);改善链接的相关性;改善文件和文本的相关性……
地图搜索、黄页搜索、mp3搜索、图片搜索、bbs搜索等等各种搜索都离不开网页结构化信息抽取。

 

6. 自然语言处理、简单的语意语法分析
NLP还有很远的路要走,在走路的过程中也可以获得很多可应用的价值。说不定NLP不很成功,但是有可能催生了某种新技术的非常成功。而NLP不需要完全成功前就可以使用他了。
搜索引擎可以根据内容来进行简易的语法分析,将某些呈现在用户面前。比如google的“DEFINE:“就用到了这种方法、同义词的识别等都可以用到这种简单的语法分析来搞定!还可以对具有某类语法的形式的正文进行关键词调权,改善检索效果。

 

7. 重复识别
互联网的数据冗余实在太厉害了,一篇文章可能会被转载数千数万次。
识别重复的网络、网页、重复的正文、重复的段落识别…………
让用户感觉到“哇噻!这里的内容不重复!”
同时对重复的信息进行调权,装载量大的信息一般比较受欢迎,应该具有更高的权值。但是要对新闻类的内容进行识别,一定时间内加权、一定时间后降权。

 

8. 行业优化
搜索引擎的行业化是不可避免的。唯一影响搜索引擎行业化的门槛就是技术还是存在难度(这里说的技术不是那种小儿科的基于模板的元数据采集分词索引)。
但是网页搜索引擎可以最大程度的行业化,在这点百度显得卓有远见。建立百度知道不仅仅可以丰富内容、语料库、拴住用户、甚至盈利。更大的用处可以用百度知道的各个行业的专业搜索用户群来改善百度搜索对各个行业的效果的用户分析,确解各行业用户之意百度可以很低成本的通达,调动专业人员来优化效果百度可以做到。

 

9. 相关搜索
前几天一个朋友对我说“相关搜索”的主要作用是两个,1.提示给网友其它网友搜索的词汇(帮助不太会选择关键词的用户选择关键词、提供用户之间的一种交互)2.推荐提供效果更好的更相关的相关搜索词汇
第一个功能基本上满足了。第二个搜索引擎基本上还很不到位。如何完成第二个功能,很难。但是要做到一定程度,很容易。

 

10. 采集更多的数据
互联网上的数据只是整个世界的数据的很少的一部分,搜索引擎已经不满足于各个蚂蚁搬砖头的网络的速度了。通过某种低成本高效的数据采集方式采集线下的数据、人脑中的数据是搜索引擎公司追逐的。
spider制造+用户制造+自己制造+合作制造

 

11. 跟踪互联网变化,细节上的优化,博弈
搜索引擎是和互联网各网络、网民密切相关的一个应用,其数据的全面性和数据源、采集系统密切相关。
针对网页的结构变化、内容变化,网民的需求变化,需要不断的改善。对各种各类细节的改善都是搜索引擎的难点,也是必须走的道路,搜索引擎的发展就是关注细节,一个一个问题解决。
还有,和搜索引擎优化全民化的的博弈。

 

工具录入:admin    责任编辑:admin 
  • 上一个工具:

  • 下一个工具: 没有了
  • 【字体: 】【发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
      网友评论:(评论内容只代表网友观点,与本站立场无关!)
     姓 名:
     评 分: 1分 2分 3分 4分 5分
     评论内容:
  • 严禁发表危害国家安全、政治、黄色淫秽等内容的评论。
  • 用户需对自己在使用动易网络服务过程中的行为承担法律责任。
  • 本站管理员有权保留或删除评论内容。
  • 评论内容只代表机友个人观点,与本网站立场无关。
  •   友情链接   
    奇灵网络  千宠网  易百看中国影音互动娱乐
    版权所有:杭州奇灵科技有限公司  Copyright:2007(C) All right reserved  电话:+86-0571-85521923
    地址:浙江省杭州市美都广场C座  浙ICP备07002666号