星星日志(备份站同步更新): 八月 2006

2006年8月21日星期一

nofollow标签的使用

bestroi建议说一下nofollow，所以把以前写的一篇转过来。
nofollow是一年多前(好象)由Google领头新创的一个标签属性，目的是尽量减少垃圾链接对搜索引擎的影响。

Matt Cutts说过，这个标签的意义是告诉搜索引擎这个链接不是经过作者自己编辑的，所以这个链接不是一个信任票。搜索引擎看到这个标签就可能减少或完全取消链接的投票权重。
这个标签通常是用在博客的评论或论坛帖子中，因为这些地方是最多垃圾链接出现的地方。现在主流的博客和论坛软件都自动在评论和帖子的链接中加上了这个标签。
另外一个作用是，如果你在网站上卖广告，可以使用这个标签。因为买卖网页广告的初衷应该是流量，而不是PR值或试图影响搜索引擎排名。加上这个标签完全不会影响流量，但是有可能减少对搜索引擎排名的影响。
那么加了这个标签会把链接投票权重和PR传递值降为零吗？这一点是存有一些疑问的。如果我记的不错的话，Google，Yahoo，MSN表示支持这个标签。但是他们真的把这些链接的投票权重降为零吗？并没有肯定。
可以肯定的是，nofollow+博客评论或论坛帖子，这样的链接的投票权重可以忽略。
其他搜索引擎不一定支持这个标签，比如百度。就我观察的情况看，百度很可能不考虑这个标签，因为垃圾链接在百度还是很起作用的。
除了博客或论坛，在使用nofollow时要小心。想象一下，如果一个网站的导出链接都使用了nofollow标签，这显得自然吗？你向读者介绍一些网站，却告诉搜索引擎你不推荐这些网站？不可疑吗？受伤害的是其他人的网站，还是使用这个标签的网站呢？
以前也说过，害怕链接到其他网站是很多站长的一个误区，实际上链接到其他相关网站在很多时候会帮助你本身网站的排名。
但在博客评论和论坛帖子里面的链接就不一样了，这些链接是用户和读者自己加的，而不是网站拥有人或作者加的。在很多情况下，作者也不会去看这些链接去了什么网站。所以对这些网站的质量当然是不知道，并且不应该背书的。
读者如果有感而发，欢迎留评论，也欢迎留下签名链接。但是如果是想留个链接而留评论，那就不必了，不会有什么作用。
作者: Zac 原载: 点石互动搜索引擎优化博客

2006年8月14日星期一

Google搜索南京大屠杀的谣言背后

　　关于Google的这则谣言已经传播了很长时间了，我一开始对于这样的低级谣言非常不屑，但是随着这则谣言的大量传播，我发现事情开始变得开始有意思了，我现在感兴趣的事情是，对于这样一则一眼就能分辨出事实真相的谣言，为什么传播起来却有愈演愈烈的事态呢？这到底说明了什么呢？这背后的原因又是什么？

　这则谣言说的是，在Google搜索引擎里，搜索“南京大屠杀”或“钓鱼岛”，出现的是：“该页无法显示”的提示，而且在以后的短时间内，将不能使用Google进行搜索，但是如果先搜索“尖阁列岛”，就可以搜到结果。因此，这是丑恶的亲日反华的美国鬼子企图从互联网上对我国进行信息封锁！用心极其险恶！
　　Google真的搜索不了吗？非也，使用代理即可搜索，如下图，这显然不是Google搜索引擎的问题，而是中间的线路中有某个东西阻止我们进行搜索。Google.COM不会对中国用户进行信息封锁，即使有封锁，那也是另有他人。这就是最基本的事实。

　对于这么一个简单的问题，我本来觉得没有必要进行任何解释，然而令人吃惊的是，竟然有这么多年轻的网民对这则可笑的谣言深信不疑，并四处转发，这实在太出乎我的意料之外，同时我也对大量中国网民的网络知识水平竟然如此之低感到震惊，显然，太多太多的年轻小愤青对防火长城和金盾工程是一无所知，对于最基本的网络知识相当贫乏，缺少独立思考能力和判断力。这么大量的无知网民，一旦被某个公司或者某种势力利用起来，去实现某个阴谋，那么后果将不堪设想。
　　我相信这个事情一定会真相大白的，利用年轻人的愚昧无知来实现某个不可告人的目的，那是在玩火，愚昧无知的人是可怕的，因为愚昧无知往往给了这些人以巨大的勇气，使他们可以做一些正常人不敢或者不会去做的事情，而这些事情一旦失控，则受伤的往往可能是那些幕后主谋。
　　最后，对于那些整天沉迷于网络聊天或者网络游戏的无知的小朋友们，请你们在空闲时候不妨多学点知识和文化，相信这对你们只会有好处，不会有坏处的。

2006年8月8日星期二

有感于Google不能搜索“南京大屠杀”

　　有些人发现，使用Google搜索“南京大屠杀”后将不会带来返回页面，而是一个无法显示的页面，而搜索其他词会正常返回结果页。无法搜索后而且会暂时性的无法访问google，得过几分钟才能再次使用Google搜索。
　　有些人于是得出结论，这是Google对中国的封锁。其实这是一个误解，被屏蔽的关键字不是“南京大屠杀”，绝对不是的。只要我们搜索一下“东京大屠杀”、“北京大屠杀”、“西京大屠杀”这些关键字看看，是不是同样的结果？然后，你再搜索一下“屠杀”看看，你看到了什么？如果还不满意，那么用英文YAHOO搜索一下，你又看到了什么？
　　你看到了什么呢？是“该页无法显示”。
　　是的，被屏蔽的关键字是“屠杀”。
　　为什么要屏蔽“屠杀”呢，原因很简单－“凡是贼，都是心虚的。”
　　以前做过一些不光彩的事情，总是不希望别人知道，所以要屏蔽，屏蔽“屠杀”，只要屏蔽了，就不会有人知道，没有人知道，心里自然就踏实多了。
　　人的一生，不过百年。一旦死去，就一了百了。我就相信人一定会下地狱而不是上天堂。然而，作恶太多人，是不是就真的不害怕下地狱吗？这是我感兴趣的问题，或许，真正到了那一天的时候，我们就会得到答案。

2006年8月5日星期六

AdSense.com背后的故事

　Google AdSense是Google在2003年3月份推出的针对网站发布者的网络广告服务，在本站你所看到的"Google提供的广告"即属AdSense广告。AdSense现在是互联网的主流广告投放服务，在世界范围内拥有无数的发布者。不过如果你访问AdSense.com，你会发现去到一个完全与 Google AdSense不相关的网站，并且在它的首页的下面，有这样一段话（译）："如果你认为你能通过放置其他人的广告在你的网站或blog里而快速致富，请联系Google，因为它未经许可或赔偿就拿走及使用我们的公司名称。"很明显，AdSense.com不但不属于Google，它与Google之间应该还有一段恩怨。究竟怎么回事？

　　Wired披露了AdSense.com背后的故事。首先，AdSense.com是美国俄勒冈州的一家小型咨询公司，它的名字就叫做AdSense Consulting，刚好和Google的AdSense广告服务同名。但AdSense.com这个域名在1996年的时候就已经被该公司的创始人 Alexis Garrett注册了，远比Google推出AdSense的2003年要早。

　　当Google推出AdSense的时候，Alexis Garrett以为这将会是一件好事，因为很多Google用户会以为AdSense.com是属于Google的，很自然会访问它，这样可能会给这间只有三名全职员工的小公司带来一定的生意。但结果却证明了Alexis Garrett的猜测是错误的。因为不但Google用户以为这个域名是Google的，就连垃圾邮件也盯上了它，天天给它发送无数垃圾邮件，以致 AdSense.com不得不把自己的邮箱从主页上撤走。另外，不知情的Google用户天天打电话到这个小公司询问Google AdSense相关的问题。这间可怜的小公司只得花大量的时间和精力一遍又一遍地向来电者说明它的业务与Google AdSense完全无关，它自己也不是属于Google的。

　　面对如此这般的折磨，AdSense Consulting终于受不了了，Alexis Garrett在2005年9月份的时候把AdSense.com卖给了一名匿名买家。但新买家要到2006年9月之后才拥有AdSense.com，因此现在你访问AdSense.com，看到的依然只是AdSense Consulting的主页。另外，AdSense Consulting已经给自己购买了另外一个域名，即AdSense2.com，这样就能避免了大量的不必要的困扰。

　　那到底那位买下AdSense.com的匿名买家是谁呢？是不是Google自己？Google AdSense的代表Brandon McCormick没有对这间小公司发表任何评论，但他说Google并没有买下AdSense.com。其实早在2004年，AdSense Consulting受到极大困扰的时候，它就曾经联系过Google，想把AdSense.com卖给Google，但Google在2004年11月的一封邮件里拒绝了AdSense Consulting的好意。不过这未不能完全说明Google不是那个匿名买家，因为Google已经拥有了adsense.net及 adwords.com。

　　但AdSense这个商标是由Google合法持有的，更早注册AdSense.com的AdSense Consulting反而没有拥有AdSense这个商标。另外，Alexis Garrett说她曾经想过对Google采取法律行动，但她表示自己没有能力担负得起诉讼费，所以至今仍没有行动。

　　从 AdSense.com的事件里我们可以看到比Google抢先拥有相关的域名并不一定就是好事，尤其是当你势单力薄的时候。你可能会有这样的想法：既然大家以为AdSense.com是Google的，那么这个域名的真正主人AdSense Consulting为什么不借这个机会真的投放Google的AdSense广告，以获得一些广告收入呢？这样也算是一种补偿了。

　　这个想法非常的好，将错就错也未尝不可。但事实上Alexis Garrett在一年半之前就试过亲自去为AdSense.com申请Google AdSense广告，但讽剌的是Google拒绝了她的申请，Google认为AdSense.com没有符合AdSense广告投放的资格。

　　至于AdSense.com的新主人到底是不是Google，恐怕要到2006年9月之后才知道了。不过AdSense Consulting的遭遇的确挺令人同情的。

　　对于不太了解Google AdSense的读者，可以通过下面的网址访问Google AdSense:

　　http://adsense.google.com　或　http://www.google.com/adsense

2006年8月3日星期四

如何写robots.txt

在国内，网站管理者似乎对robots.txt并没有引起多大重视，应一些朋友之请求，今天想通过这篇文章来简单谈一下robots.txt的写作。

robots.txt基本介绍
robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。
当一个搜索机器人（有的叫搜索蜘蛛）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取。
另外，robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。
robots.txt写作语法
首先，我们来看一个robots.txt范例：http://www.csswebs.org/robots.txt
访问以上具体地址，我们可以看到robots.txt的具体内容如下：
# Robots.txt file from http://www.csswebs.org# All robots will spider the domain
User-agent: *Disallow:
以上文本表达的意思是允许所有的搜索机器人访问www.csswebs.org站点下的所有文件。
具体语法分析：其中#后面文字为说明信息；User-agent:后面为搜索机器人的名称，后面如果是*，则泛指所有的搜索机器人；Disallow:后面为不允许访问的文件目录。
下面，我将列举一些robots.txt的具体用法：
允许所有的robot访问
User-agent: *Disallow:
或者也可以建一个空文件 “/robots.txt” file
禁止所有搜索引擎访问网站的任何部分
User-agent: *Disallow: /
禁止所有搜索引擎访问网站的几个部分（下例中的01、02、03目录）
User-agent: *Disallow: /01/Disallow: /02/Disallow: /03/
禁止某个搜索引擎的访问（下例中的BadBot）
User-agent: BadBotDisallow: /
只允许某个搜索引擎的访问（下例中的Crawler）
User-agent: CrawlerDisallow:
User-agent: *Disallow: /
另外，我觉得有必要进行拓展说明，对robots meta进行一些介绍：
Robots META标签则主要是针对一个个具体的页面。和其他的META标签（如使用的语言、页面的描述、关键词等）一样，Robots META标签也是放在页面的＜head＞＜/head＞中，专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
Robots META标签的写法：
Robots META标签中没有大小写之分，name=”Robots”表示所有的搜索引擎，可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分隔。
INDEX 指令告诉搜索机器人抓取该页面；
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去；
Robots Meta标签的缺省值是INDEX和FOLLOW，只有inktomi除外，对于它，缺省值是INDEX,NOFOLLOW。
这样，一共有四种组合：
＜META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”＞＜META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”＞＜META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”＞＜META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”＞
其中
＜META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”＞可以写成＜META NAME=”ROBOTS” CONTENT=”ALL”＞；
＜META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”＞可以写成＜META NAME=”ROBOTS” CONTENT=”NONE”＞
目前看来，绝大多数的搜索引擎机器人都遵守robots.txt的规则，而对于Robots META标签，目前支持的并不多，但是正在逐渐增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE还增加了一个指令“archive”，可以限制GOOGLE是否保留网页快照。例如：
＜META NAME=”googlebot” CONTENT=”index,follow,noarchive”＞
表示抓取该站点中页面并沿着页面中链接抓取，但是不在GOOLGE上保留该页面的网页快照。
特别说明，本文章的写作参考了一些网络信息，robin只是按照自己的思路对信息进行整理。
http://www.dunsh.org/2006/08/02/robotstxt/

订阅：博文 (Atom)

免责声明

1、本人是文盲，以上内容文字均不认识，也看不懂是什么意思（包括但不限于对所以上之内容的识别、阅读、理解、分析、记忆等）；

2、本人过去、现在以及将来都不认识本文中提及当事人，且自古以来与该相对人无利益关系；

3、本人昨天、今天以及明天都没有或者不准备去本文所述地点。本文表述之事与本人无关。

4、本人在此发文（包括但不限于汉字、拼音、拉丁字母、斯拉夫字母、日语假名、阿拉伯字母、单词、句子、图片、影像、录音、以及前述之各种任意组合等等）均为随意敲击键盘所出，用于检验本人电脑键盘录入、屏幕显示的机械、光电性能，并不代表本人局部或全部同意、支持或者反对文中观点。如需要详查请直接与键盘发明者及生产厂商法人代表联系；

5、人生有风险，上网需谨慎。本文不暗示、鼓励、支持或映射读者作出生活方式、工作态度、婚姻交友、股票债券买卖、子女教育的积极或消极判断。未成年人请在监护人陪同下阅读本文。无完全民事行为能力者，请立即关闭网页，并用20％高锰酸钾＋75％乙醇对键盘、硬盘、电压插座、显示器、鼠标、cpu进行灌溉消毒；

6、如本人留言违反国家有关法律，请网络管理员及时删除本文，本人保留继续发文的权利；

7、因删贴不及时所产生的任何法律（包括宪法、加法、减法、乘法、除法、剑法、拳法、脚法、指法、民法、刑法、书法、公检法、基本法、劳动法、婚姻法、输入法、没办法、国际法、今日说法、吸星大法及文中涉及或可能涉及以及未涉及之法，各地治安管理条例）纠纷或责任本人概不负责；

8、本人谢绝任何跨省（包括但不限于跨国、跨洲、跨星球、跨星系）追捕行为。确因不抓不足以平民愤，或不抓就领不到薪水养家户口的公职人员，建议携带工作证、身份证、结婚证/离婚证、独生子女证、健康证、暂住证、毕业证、边防证、县以上政府机关出具的介绍信温情操作。抓捕按照以下排序倒序：作者、原作者以及网络管理员以及网络运行商、电信运营商、电力供应商、电脑生产销售商；

9、如回复内容导致回复者或第三方、第四方、第N次方怀孕，本人愿配合做亲子鉴定。

星星日志(备份站同步更新)