游客:
注册
|
登录
|
帮助
网友俱乐部
»
建站推广
»
SEO优化
» 一搜搜索引擎登录指南
网友生活网
|
网友学堂
如何获得金币?
诚招斑竹
IP归属地查询 PR查询 收录查询 whois查询
免费超短2级域名,your.jpy.cc
传世私服
|
传奇世界私服
注册亚洲交友中心,找个人来同居吧!
免费存储空间,免费网络硬盘
‹‹ 上一主题
|
下一主题 ››
投票
交易
悬赏
活动
打印
|
推荐
|
订阅
|
收藏
标题: 一搜搜索引擎登录指南
ljjk5
元帅
UID 46706
精华
1
积分 99426
帖子 49690
威望 554
金币 48489
热心 505
阅读权限 100
注册 2007-2-25
状态 离线
#1
使用道具
发表于 2007-6-7 01:34
资料
个人空间
主页
短消息
加为好友
一搜搜索引擎登录指南
一搜(yisou.com)是雅虎公司基于全球领先的YST(Yahoo Search Technology)技术,在中国推出的独立搜索门户。
一搜是如何抓取我的网站的?
一搜应用雅虎搜索引擎技术(Yahoo! Search Engine Technology,简称YST),它是一套基于算法的Web索引抓取程序,能够自动探测网络内容。YST 这套机器搜索程序从因特网上采集文档,建立起一个可搜索的索引系统。这些文件(即您的网站文件)能被YST程序发现和抓取的主要原因是,在因特网其他的网页上包含有这些文档的直接链接。
YST 搜索程序严格遵守robots.txt标准执行抓取,因此,对于那些您不希望被一搜搜索引擎返回的结果,搜索程序不会执行抓取。任何被robots.txt标准认为不适宜抓取的文件,既不会被包括在抓取文档中,也不会进入到搜索引擎的数据库。
怎样能够减少搜索引擎对我的站点发出的请求?
由于我们从整个因特网上抓取数以十亿计的网页,对于网络抓取我们采取大量系统,因此,您的网络服务器会从不同的YST抓取程序的客户端IP地址登录请求。不同的抓取程序系统彼此配合,来限制任何来自单一网络服务器的活动。所谓单一网络服务器,是由IP地址判断的。因此,如果您的服务器主机拥有多个IP,它的活动则会处于更高的级别。
在robots.txt 里,YST有一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。
您可以加入Cral-delay:xx指示,其中,“XX”是指在crawler程序两次进入站点时,以秒为单位的最低延时。如果crawler频率对您的服务器是一个负担,您可以将这个延时设定为任何您认为恰当的数字,例如60或300。
例如,您想设定一个20秒的延时,语句如下:
User-agent: Slurp
Crawl-delay: 20
如何使一搜只索引某些网页?
一搜的YST搜索引擎遵守noindex(不做索引)的meta-tag。您可以在web文档的上部写入:
这时,YST 会追踪这个文档,但不会索引,也不会将其收入搜索引擎的数据库。
看见重复发出的下载请求,这是怎么回事?
通常来说,在一次抓取过程中,YST 搜索程序只会对网站的每一个文件拷贝一次。但也有偶然情况,也就是说当抓取程序被中止并重新启动时,它会重新抓取最后一次拷贝的文件。但这类情况并不经常发生,也不会导致您的系统故障,请您放心。
这个网页抓取程序是如何发现我的网站上的文件?
YST搜索程序跟踪HREF链接,而并不跟踪SRC链接。这意味着,我们的程序不会通过SRC指向的链接去追溯或索引这些框架文件。
一搜的抓取程序能够跟踪动态链接吗?
YST 搜索程序支持网页框架,并努力抓取复杂的网页,例如通过表单生成的页面、内容生成系统(content generation systems)以及动态页面生成软件。
YST搜索程序争取抓到更多不需经过网站管理员专门支持的网页,但现实中仍然还有很多网站无法被机器搜索到,无论是通过一搜还是其他同样强大的搜索系统。
如何使我的网站被一搜收录?
您可以向一搜提交您的网站,一般情况下,一搜的搜索引擎会自动进行处理,收录您的网页,但一搜不能保证收录您提交的网站。
需要注意的是:一个网站只用提交首页,并且不需要重复提交,否则可能成为不被一搜收录的原因之一。请遵守标准格式:http://www.yisou.com,请输入验证码,提交。
我的网站不想出现在一搜的搜索结果中,如何删除?
如果您需要删除一搜网页结果中的您自己整个网站或部份网页的记录,可以在您服务器的根目录中放置一个 robots.txt 文件,其内容如下:
User-Agent: *
Disallow: /
这是大部份网络搜索程序都会遵守的标准协议,加入这些协议后,它们将不会再抓取您的网络服务器或目录。有关 robots.txt 文件的详细信息,请访问:
http://www.robotstxt.org/wc/norobots.html
只要您网络服务器的根目录中有这个 robots.txt 文件,YST 搜索程序就不会进入您的网站,您的网站也不会出现在一搜的搜索结果中。
如果您的情况非常紧急,不能等到我们的 YST 搜索程序下次抓取您的网站时再进行删除,您可以反馈给我们,会有专人负责处理。
我可以只删除个别的网页吗?
如果只需要保护个别网页,不想让搜索引擎显示这几个页面,可在那一页加入以下 HTML 代码:
有关这个标准 meta 标签的详细信息,请访问:http://www.robotstxt.org/wc/exclusion.html#meta
如果您的情况非常紧急,不能等到 YST 搜索程序下次抓取您的网站时再进行删除,请您可以反馈给我们,会有专人负责处理。
我的网站改版了,能帮我修改网站摘要吗?
每个网站的摘要全部由程序自动生成,没有人工干涉,也无法人工修改。一搜搜索引擎会定期自动更新,更新后,您的网站就会出现新的摘要。
一搜收录的网页涉及个人隐私或企业机密,请问如何将这些网页尽快删除?
一搜与这些网站无关,同时一搜也无权删除他人网站上的网页。一搜搜索遵循客观、公正的原则。 如果您认为,在搜索结果中,他人网站上含有对您或您公司的侵权信息,并希望该信息从一搜搜索结果中消失,请先联系这些网站管理员,只要这些网站删除内容后,这些信息会在几天或几周内从一搜搜索结果中自动消失。如果您希望该网页信息从一搜搜索结果中尽快消失,请先确认已联系该网站管理员删除指定网页,然后提供身份证明、网站权属证明及详细侵权情况资料,通过传真或邮件的方式提供给一搜,一搜在收到上述法律文件后,将会为您尽快移除被控侵权的网页。
网友
ljjk5
签名 - 网友社区
===
[广告]
免费域名(Free Subdomain)
免费空间(Free hosting)
PR查询(Google Pagerank)
投票
交易
悬赏
活动
控制面板首页
编辑个人资料
积分交易
公众用户组
好友列表
个人空间管理
基本概况
流量统计
客户软件
发帖量记录
论坛排行
主题排行
发帖排行
积分排行
在线时间
管理团队
管理统计
当前时区 GMT+8, 现在时间是 2008-10-13 15:46
信产部ICP备案:
京ICP备05066424号
北京市公安局网监备案:1101050648号
Powered by
Discuz!
5.5.0
TOP
清除 Cookies
-
联系我们
-
网友俱乐部
-
Archiver
-
WAP