2006年3月15日星期三

博客世界的战争:垃圾博客和恶意评论

 随着博客这个概念在中国越来越热,博客目前也面临一个很艰难的挑战:垃圾博客、恶意评论的增多。这些负面影响如果没有得以很好处理的话,那么未来博客也会象目前的邮件一样,成为垃圾邮件的下一个替代品。
  垃圾博客:
  垃圾博客就是那些通过垃圾文件影响搜索引擎的博客。有时候它被用来影响网页的算法,这些网页控制和其他网页或网站的链接。在更多的普通网站中,这被称为“链接工厂”。垃圾博客的内容通常毫无意义,充满广告或者是从其他网站上扒来的文章,但都带有大量的链接,链至垃圾博客作者的网站——购物、贷款、色情、二手车……与你收到的垃圾邮件内容类似,目的是为了强奸读者的视听,达到产品宣传的目的。当然也有不同之处,这些垃圾博客还急切地想做另一件事:SEO,或者可以说成是迷奸Google,要提高他们站点的PageRank。
  恶意评论:
  现代博客系统允许评论和反馈成为其他用户和读者给文章简单添加想法和评论的方式。不幸的是,有些人却滥用了这种系统,在评论中恶意加入大量毫无意义的广告和链接地址。一些人甚至开发相应的工具,自动提交大量链接到博客的评论中。那些创造了垃圾博客和垃圾评论的人认为这会产生很多好处,通常通过建立这些系统获得额外的搜索引擎排名或者收入。
  其实,当业界达人把Blog称作是电子邮件、即时通讯、BBS之后的第四大交流沟通之时,垃圾博客已经有苗头了。这两年来,随着全世界劳动人民对垃圾邮件的抗议,微软、AOL等巨头联合司法机构,合力对垃圾邮件发送者进行了绞杀。于是,这些老鼠们纷纷寻找其他的突破口。Blog世界不可避免的受到影响。在垃圾博客之外,早先更让Blogger们感到头疼的,是那些已经成灾的垃圾留言、垃圾反向链接和垃圾Trackback。国内某知名Blogger曾在其Blog上痛骂一个家伙,这人很喜欢给各种Post后面留言,内容大抵都是“你的文章越来越精彩了”、“我很喜欢你的这篇文章”云云,然后就开始推销自己的网站。在相互间联系如此紧密的Blog世界,还披上虚伪的吹捧外衣玩家个把戏,让人不禁要猜测这家伙脑积水的水位。因为更多发垃圾留言的家伙,早就开始采用自动化软件工具了——一指定BSP或者WP、MT一类的Blog软件,它就能把垃圾留言一篇接一篇地往出贴。验证码是一个阻止垃圾的有效办法,但对正经人来说,用户体验无疑降低了。
  道高一尺,魔高一丈。我们还有什么办法呢?在国外,无数Blogger都开始为未来忧心忡忡:Blog会不会成为下一个垃圾场?很难说我们不愿看到的未来会不会真的来临。因为,即使是技术力量已经十分强大的Google,对于来自众人的抗议,也只是暂且删除了Blogspot上的13,000个二级域名,还有“努力防御自动注册Blog和发文的脚本”的承诺。而目前看来,垃圾博客这股污水,还正源源不断流向Blog的大海。
  现在,是到了深入思考和建立控制干涉系统的时候了,这样才能处理好这些问题。这个问题的解决也需要大量时间,因为垃圾博客会通过各种新方法产生来影响搜索引擎和网站运作。相信这场和垃圾博客的对抗将是一个长期而艰巨的战争。

2006年3月7日星期二

常用正则表达式

  正则表达式用于字符串处理、表单验证等场合,实用高效。现将一些常用的表达式收集于此,以备不时之需。


匹配中文字符的正则表达式: [\u4e00-\u9fa5]
评注:匹配中文还真是个头疼的事,有了这个表达式就好办了

匹配双字节字符(包括汉字在内):[^\x00-\xff]
评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)

匹配空白行的正则表达式:\n\s*\r
评注:可以用来删除空白行

匹配HTML标记的正则表达式:<(\S*?)[^>]*>.*?<.*? />
评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力

匹配首尾空白字符的正则表达式:^\s*\s*$
评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式

匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
评注:表单验证时很实用

匹配网址URL的正则表达式:[a-zA-z]+://[^\s]*
评注:网上流传的版本功能很有限,上面这个基本可以满足需求

匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
评注:表单验证时很实用

匹配国内电话号码:\d{3}-\d{8}\d{4}-\d{7}
评注:匹配形式如 0511-4405222 或 021-87888822

匹配腾讯QQ号:[1-9][0-9]{4,}
评注:腾讯QQ号从10000开始

匹配中国邮政编码:[1-9]\d{5}(?!\d)
评注:中国邮政编码为6位数字

匹配身份证:\d{15}\d{18}
评注:中国的身份证为15位或18位

匹配ip地址:\d+\.\d+\.\d+\.\d+
评注:提取ip地址时有用

匹配特定数字:
^[1-9]\d*$    //匹配正整数
^-[1-9]\d*$   //匹配负整数
^-?[1-9]\d*$   //匹配整数
^[1-9]\d*0$  //匹配非负整数(正整数 + 0)
^-[1-9]\d*0$   //匹配非正整数(负整数 + 0)
^[1-9]\d*\.\d*0\.\d*[1-9]\d*$   //匹配正浮点数
^-([1-9]\d*\.\d*0\.\d*[1-9]\d*)$  //匹配负浮点数
^-?([1-9]\d*\.\d*0\.\d*[1-9]\d*0?\.0+0)$  //匹配浮点数
^[1-9]\d*\.\d*0\.\d*[1-9]\d*0?\.0+0$   //匹配非负浮点数(正浮点数 + 0)
^(-([1-9]\d*\.\d*0\.\d*[1-9]\d*))0?\.0+0$  //匹配非正浮点数(负浮点数 + 0)
评注:处理大量数据时有用,具体应用时注意修正

匹配特定字符串:
^[A-Za-z]+$  //匹配由26个英文字母组成的字符串
^[A-Z]+$  //匹配由26个英文字母的大写组成的字符串
^[a-z]+$  //匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$  //匹配由数字和26个英文字母组成的字符串
^\w+$  //匹配由数字、26个英文字母或者下划线组成的字符串
评注:最基本也是最常用的一些表达式

原载地址:http://lifesinger.3322.org/myblog/?p=185

2006年3月6日星期一

国内十大荒诞禁令排行榜

  虽然这十大荒诞禁令看起来很好笑,但我却笑不出来,我所感到的是活在这个社会里是多么的悲哀。
  1、“严禁酒后驾驶机动车辆”:乍一看,这条禁令无可厚非,可它偏偏出现在山东潍坊市审计局为整顿行风出台的“三条禁令”之中,跟在其后的条款是“违者给予通报批评、警告;情节严重的,给予记过、限期调离或辞退、开除处分”,什么时候醉酒驾车这种违法行为改归审计局管了?即便是追加处罚,都属对同一责任人的重复处罚,于法无据 。
  2、“严禁用公款打麻将”:地球人都知道,挪用公款是什么样的行为,竟然需要用发放红头文件的形式来告知仅局限于打麻将的挪用公款是要受到惩处的,在这样的事件中我们完全看不到吏政的威严和有效性,看到的只是官场腐败的触目惊心的事实。
  3、“不按规定走路方式走路的要挨罚”:四川新出台了一项交通法规《行人十二种走路方式要挨罚》,听起来颇有点搞笑味道:如横过没有人行横道的机动车道时,不直行通过,或在车辆临近时突然加速横穿、中途倒退、折返;未实行交通管制的路段,在道路上通行每横列超过二人通通要罚。
  4、“腰围超过2尺7的在编民警将全部下岗”:打造一支身体各项指标都能达到优秀的警-察队伍,自然是好事,但考核的方法用量腰围未免有点太原始、太片面了,腰围粗壮的人闪展腾挪、灵活无比的人多了去了,洪金宝就是一个。
  5、“海关官员不得庇护走私”:海关官员的天职就是把好国门,打击走私只能说是他们份内的工作,庇护走私行为无疑是犯罪,自有国法来惩处,只是这样一句话堂而皇之地放在海关总署的五条禁令里,怎么看怎么别扭。
  6、“不准为男领导配女秘书”:四川省政府不允许男领导配备女秘书的理由是因为,女秘书容易和男领导发生生活作风问题,从而在工作上影响男领导,既而导致领导失职或腐败,祸国殃民。但很多网民不能认同这个理由。
  7、“报考女公务员,乳房要对称”:湖南省公务员录用体检标准竟抛出“女性要第二性征发育正常,乳房对称,无包块等方为合格”的条款,去年就有20%的笔试和面试都合格的考生因为达不到这个要求而被刷掉。
  8、“严禁无婚姻证明的男女混住在一起”:《江苏省暂住人口管理条例》曾经有过这么一则条款,但父女、母子、兄妹都属于这一范畴,他们也不能同住,简直荒唐可笑。后来取消该禁令的时候还好意思叫好。
  9、“不许哄抢游客,做彬彬有礼的猴子”:成都的龙池镇政府和龙池景区为猴子们制订了“礼貌山猴行为准则”:不许不礼貌,做到文明待客;不许哄抢游客,做到彬彬有礼;不许骚扰游客,尤其是女游客;要助人为乐等。
  10、“中小学教师严禁奸污猥亵女生”:这则条款出现在湖南省益阳市赫山区和资阳区两个教育局颁发的“教师准则”内,很难想象这种完全已触犯了刑律的行为条款,却很不严肃地上了教育系统的“禁令”之中,言外之意好象是女教师可以猥亵男生。
  作者:佚名 来源:网络

2006年3月1日星期三

英文技术网站全部解封了?

 今天上网,发现前一段时间电信封的几个国外英文技术网站全都可以正常访问了。
  包括PHPFreeBSDSourceForge三个重量级的技术网站目前我都可以访问正常,至于FreeBSD以前那夸张的关键字过滤方式也没有了,这令我感到很欣慰。
  我们的权利是由我们自己争取来的,如果这些事情我们谁都不说话,那么这些我们本应该拥有的权利会永远失去,所以我们要努力争取,就目前看,我们是正确的,我们争回了自己的权利。
  以后,如果大家发现自己有什么合法的网站上不去,那么如果是被封的话,一定要向电信申请解封,写一份申请解除封锁的材料,包含网站地址、IP、用途等等,向当地的电信局提交这份材料,如果属于误封的话,那么积极申请,相信很快会被有关部门解封的。
  下面是cnblog的同学总结的网站解封的经验,供参考。
  网站被封了怎么办?
  一旦网站被封,当然,严格来说,应该是发现某个网站突然无法访问。首先要做的是,了解是否是服务器或服务商方面出了问题;然后求证一下国内其他地方的朋友以及国外的朋友能否访问。如果都不能访问,那么很可能就是网站被封了。
  大多数的人到此或许就开始抱怨,然后逐渐不去使用这个网站了。
  但是,我所要说的,正是这以后的办法。
  首先,向你的ISP询问无法访问网站的原因。最好直接询问骨干网的网络中心(就是直接拥有国际出口的ISP)。例如,教育网的用户可以直接询问中国教育网网络中心。可以参考一下中国互联网络连接带宽图。ISP一般来说都是很热情的,他们会帮你查询这个网站是否被封锁(你有可能需要提供网站的IP地址)。如果证实被封锁,他会告诉你应该写一封申请解除封锁的材料,说明网站的性质和用途。
  说到这里,有几点需要注意:
  1. 申请解除网站的封锁状态,并不要求你是网站的拥有者或管理人员,只要你发现某个网站被封锁,而他们确实没有什么反动、××内容(这是出于人身安全和守法的原则),任何人都可以申请解除某个网站的封锁。
  2. 执行封锁的部门是什么,是不会告诉你的。(因为这是保密的),不外是被告知是公安部门或者安全部门。封锁是由这些部门直接在国际出口的路由上进行的,ISP很可能也不清楚,无权过问,也不可能由他们直接解除封锁。因此封锁的原因也是无从打听的。
  你的申请材料交给ISP以后,他们会帮你把材料转交给相关部门处理。按照工作程序,材料递交给相关部门后,将会在3个工作日内解除封锁。

免责声明

1、本人是文盲,以上内容文字均不认识,也看不懂是什么意思(包括但不限于对所以上之内容的识别、阅读、理解、分析、记忆等);

2、本人过去、现在以及将来都不认识本文中提及当事人,且自古以来与该相对人无利益关系;

3、本人昨天、今天以及明天都没有或者不准备去本文所述地点。本文表述之事与本人无关。

4、本人在此发文(包括但不限于汉字、拼音、拉丁字母、斯拉夫字母、日语假名、阿拉伯字母、单词、句子、图片、影像、录音、以及前述之各种任意组合等等)均为随意敲击键盘所出,用于检验本人电脑键盘录入、屏幕显示的机械、光电性能,并不代表本人局部或全部同意、支持或者反对文中观点。如需要详查请直接与键盘发明者及生产厂商法人代表联系;

5、人生有风险,上网需谨慎。本文不暗示、鼓励、支持或映射读者作出生活方式、工作态度、婚姻交友、股票债券买卖、子女教育的积极或消极判断。未成年人请在监护人陪同下阅读本文。无完全民事行为能力者,请立即关闭网页,并用20%高锰酸钾+75%乙醇对键盘、硬盘、电压插座、显示器、鼠标、cpu进行灌溉消毒;

6、如本人留言违反国家有关法律,请网络管理员及时删除本文,本人保留继续发文的权利;

7、因删贴不及时所产生的任何法律(包括宪法、加法、减法、乘法、除法、剑法、拳法、脚法、指法、民法、刑法、书法、公检法、基本法、劳动法、婚姻法、输入法、没办法、国际法、今日说法、吸星大法及文中涉及或可能涉及以及未涉及之法,各地治安管理条例)纠纷或责任本人概不负责;

8、本人谢绝任何跨省(包括但不限于跨国、跨洲、跨星球、跨星系)追捕行为。确因不抓不足以平民愤,或不抓就领不到薪水养家户口的公职人员,建议携带工作证、身份证、结婚证/离婚证、独生子女证、健康证、暂住证、毕业证、边防证、县以上政府机关出具的介绍信温情操作。抓捕按照以下排序倒序:作者、原作者以及网络管理员以及网络运行商、电信运营商、电力供应商、电脑生产销售商;

9、如回复内容导致回复者或第三方、第四方、第N次方怀孕,本人愿配合做亲子鉴定。