网友俱乐部 » » 百度优化 » 百度新闻的索引机制

2007-11-18 12:14 ljjk5
百度新闻的索引机制

百度新闻的索引机制百度新闻(http://news.baidu.com)是一个完全没有编辑存在的新闻阅读、检索平台。它通过抓取众多的新闻网站发布的新闻提供集成式的新闻服务。这样的好处在于:节约时间。大概每天花费半小时内就能够纵览天下大事要闻。从百度历史新闻服务(http://news.baidu.com/history.html)当中,我们可以追溯到2003年11月4日,因此,可以推断百度新闻早在2003年之前就推出了新闻服务。

百度新闻收录了广泛的网络新闻媒体。这个列表当中,显示了部分收录的重要新闻源网站(http://www.baidu.com/search/resources.html)。在这些新闻源网站中,有些新闻源网站是百度新闻收录的,有些是用户推荐的。基本上,所有的新闻源站点可以分为四个类别:专业新闻网站和地方信息港、专业及行业网站、政府及组织网站、报刊杂志及广播电视媒体。如果你想推荐较好的新闻源网站,可以直接发邮件告诉他们(news@baidu.com),询问他们是否能够收录。

百度新闻的另一个特点是:客观。它将抓取的新闻进行“聚类处理”,将话题相同的新闻划分到同一个“新闻簇”当中,也就是首页上显示的“XX条相关”。例如,有100家媒体都在报道“中国女足夺得亚洲杯冠军”的新闻,此时,百度新闻会将所有的100篇报道“聚类”为一个“新闻簇”,并显示在首页上,这样,用户能够看到多媒体、多角度的新闻报道,从一定程度上抑制了新闻固有的偏见性质。

每一个“聚类”的新闻簇会选出其中的一条新闻显示在首页上。如果想要你撰写的文章出现在首页上,那请保证所撰写新闻的时效性、原创性和转载率。否则,那些陈旧的新闻是不会出现在首页上的。

越重要的新闻被转载的次数也是越多的。百度新闻会自动的判断哪些新闻属于“相同新闻”,并将这些相同新闻聚集在一起,显示为“XXX条相同新闻”。从这些相同新闻中,百度新闻会尽可能的选取那些原创的新闻,尽管有时出现过错误,但总体上还是比较准确。

一旦你的新闻网站被百度新闻收录了,想要使更多的新闻出现在百度首页上?百度新闻几乎很客观的对待每一个新闻源网站,可能在“背后”存在/不存在某些算法的排名。但新闻编辑必须保证新闻的原创性、转载率和时效性。其次,所撰写的新闻必须是符合当前时事热点的,也就是和百度新闻首页上那些“新闻簇”的话题是一致的。讨论大多数人都在讨论的事情,会使你的新闻有更大的几率出现在首页上。

在百度新闻当中,每一条新闻的链接都是直接指向这片文章的,给各个新闻媒体网站带去流量。也就是说,这些新闻媒体网站被百度索引的篇数越多,带去的流量也就越大。

百度新闻的抓取“蜘蛛”(spider)并不是想象的那么聪明。它有时候也会犯错误,例如,将新闻的标题、正文内容弄错了,把新闻发布的时间弄错了。而不幸的是,这些弄错的信息将会影响新闻文章的质量和登上首页的几率。为了减少这些错误,并且尽可能快的告诉百度新闻我撰写了一篇新文章,你可以试试“新闻开放协议”,按照开放的XML格式组织新闻内容,及时的将新撰写的文章纳入百度新闻搜索、传播给读者。

百度新闻尊重原创的新闻。有很多优秀的新闻被其它的网站大量转载。百度新闻承诺将以更大的几率展现这些原创的新闻。通常情况来看,每天发布的新闻量较大的门户网站,原创新闻的数量也较多,例如:新浪、新华网等。

如果新闻正文中有图片,百度新闻会自动的生成这张图片的“缩小版”,并显示在新闻标题的前面。用户不论点击图片还是新闻标题链接,都将直接进入新闻正文的页面。

百度新闻到底索引了多少个新闻网站?——只有百度自己知道。帮助页面中显示:“覆盖1000多个互联网新闻源”。也许,这个数据是不断的在变化当中,老的新闻网站将会被淘汰,新的网站将会被加入,形成一个循环过程,但可以肯定的是,至少在1000个以上。

新闻讲究时效性,百度新闻也不例外。首页上的焦点新闻是“由机器每5分钟自动选取更新”,并且有意思的是,随着一天当中时间的推移,那些后发布的、时效性较强的热点新闻会慢慢替换那些较早发布的新闻,从而保证了我们每时每刻看到的都是新鲜的文章。

百度新闻已经称为了众多媒体从业人员、公司管理人员、专业营销人员到Blogger的信息获取工具,他们有一些很有趣的用法,可以参考看看这里。

百度新闻提供邮件和RSS两种方式订阅新闻。百度新闻根据用户订阅的关键词,从索引库中自动筛选最相关的若干条新闻,主动发送给用户。很多情况下,人们喜欢订阅公司名、明星的名字和重要的事件。

百度在2006年还推出了一项所谓“新闻专题”的功能,它可以根据关键词,去自动地全方位网罗各种和此关键词相关新闻报道,例如,和“奥运”相关近期各种热门新闻行涵盖“场馆建设、北京、开幕式”等方面。尽管在准确率等方面还有待提升,但这种技术还是令人眼前一亮的。

页: [1]
查看完整版本: 百度新闻的索引机制


Powered by Discuz! Archiver 5.5.0  © 2001-2006 Comsenz Inc.