存档

文章标签 ‘spamment’

Herb Sutter Gave up Live Space due to Comment Spams

2008年4月7日 1 条评论

http://herbsutter.spaces.live.com/Blog/cns!2D4327CC297151BB!917.entry

Herb Sutter, the C++ guru, finally left Live Space due to the comment spam out of control.

I like Live Spaces, and I really
hate moving a blog, but unfortunately the comment spam is out of
control and I just can’t keep up with the tools available to manage it
here — other than accepting a blog with no comments at all, which I’m
unwilling to do. Your comments are too valuable to give up.

I have researched on the blog comment spams for a long time, since my blog was spammed at the first time (in Chinese). Also I created a semi-automatic solution (in Chinese) to delete the spams. I believe not only me is suffering the blog comment spams, so I was thinking to make the solution totally automatic, and create a tool to clean blog comment spams for us spammer haters.

However, even I created the tool, that does not means our bloggers should take the responsibility to do anti-spam tasks. Anti-spam is the business of the service provider. Live Space SHOULD improve its comment system, or it will become Live Spam and more and more people will leave.

还记得Blog Comment Spam么?

2008年2月24日 没有评论

今天发现了akismet这个网站。

通过REST架构提供API,允许blog软件验证每个Comment是不是spam,然后决定是否将其发布到blog上面。WordPress已经实现了对应插件。

We can’t stand spam.

Who can? You have better things to do with your life than deal with
the underbelly of the internet. Automattic Kismet (Akismet for short)
is a collaborative effort to make comment and trackback spam a
non-issue and restore innocence to blogging, so you never have to worry about spam again.

Akismet is free for personal use.

In the spirit of helping the blogosphere as much as possible, we’ve
decided to make Akismet free for as many people as possible. We have free API keys available for your personal blog.

标签: ,

搞定了Spam Comments的自动探测和删除

2008年1月25日 4 条评论

最近工作比较忙,所以只能下了班搞搞这个东西。今天终于搞定了,然后看着数十个Spam Comment瞬间搞定还是很有成就感的。

这个问题的关键在两个问题上:第一,如何得到一个Spam Comment的列表;第二,如何删除它们。

先考虑第二个问题。其实不管Space的代码多复杂,最后对Blog的操作还是要经过HTTP传输的。截获HTTP传输数据的方案有很多,我用的是TamperData这个Firefox扩展。简单的找两个Comments删除一下,发现对应的HTTP请求是这样的:

POST http://ftofficer.spaces.live.com/parts/blog/script/BlogService.fpp?cnmn=Microsoft.Spaces.Web.Parts.BlogPart.FireAnt.BlogService.delete_items&ptid=0&a=&au=undefined HTTP/1.1
Host: ftofficer.spaces.live.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11
Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5
Accept-Language: zh-cn,zh;q=0.7,en-us;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: UTF-8,*
Connection: close
Content-Type: application/x-www-form-urlencoded
X-FPP-Command: 0
sc: [...]
Referer: [...]
Content-Length: 117
Cookie: [....]
Pragma: no-cache
Cache-Control: no-cache

cn=Microsoft.Spaces.Web.Parts.BlogPart.FireAnt.BlogService&mn=delete_items&d=[{1,%22cns!423B72634E2F6B7E!611%22}]&v2

其中最重要的东西就是红色标记的部分,前面Cookie是作为你已经登录到Live Space的证据;后面的一串字符串就是要删除的Comment的ID。所以我们需要的工作就是获取到这个ID,然后使用HTTP重放就可以了。最后我直接偷懒用了NetCat,写了一个Request的模板,用Perl替换一下其中的ID,用NC连上Live Space然后重放就是了。方法就是这样,如果要做成软件可能还比较麻烦一点,看看有空再搞,最近实在太忙。

然后回到第一个问题,我们需要获取到所有的Spam Comments的列表,这个问题不可避免的就要把Space爬一遍,枚举当中所有的Comments的内容,并一一判断。如果符合某种条件,就将其ID记录下来。不过要从头分析Space的页面结构并且枚举出ID和内容也是个很好大的工程,不如找找有没有现成的方案。经过一番Google,找到了Live Space Mover这个项目。这个项目当中包括了枚举Live Space当中所有的Comments的功能,功能不错。但是不足的是只能获取到的是Comments的内容,发送者这些信息,不包括对我来说最重要的ID,不过这不是什么大问题,Python的脚本在哪里放着,代码改改就行了。这段代码改过之后,花10分钟把Blog爬了一遍,成功生成列表,然后拿perl解析一下,调用一下nc,搞定。

方案是有了,有空整理一下,做一个点点鼠标就能搞定的东西,或者一个命令行搞定的东西。

再说再说,忙得很。有没有人自愿报名实践一下的?

标签: ,

Blog再次被Spam

2008年1月22日 没有评论

今天起来到公司查看GMail邮件,吓了一跳,整页都是来自下列提供商的Live Space Notify,我当时就很奇怪,我这个平时没什么访问量的blog今天怎么了。点上去看看发现,竟然又是Spam。

删了几个觉得不对,这个Spammer似乎把我这个空间上面的所有帖子全部spam了一遍,显然是用脚本的。这手动的怎么可能搞得过自动的。于是删除了最近的一些之后,先把老的不管了,找找有没有可以自动化的方案——显然有,毕竟Spammer就是用脚本的。

考虑到上次的spam事件其实没过去多久,所以可以预见不远的将来又有另一个Spammer盯上我的可能性很大。所以干脆这次把当时基于浏览器的想法做了吧,至少让我将来删这些东西也方便一点。

先研究一下。

标签: ,

考虑一种基于浏览器的Anti-Blog-Spam的方法

2007年9月22日 没有评论

上面发的这个关于blog comment spam的文章被同样的人再次spam,而且正好被Ace的两个回复夹了三明治。实在让我郁闷了一把。

既然我不能对live space做什么让它不接收spam comment,那么我只能让我自己眼不见为净了。既然必须要我自己访问自己的blog的时候才会发现自己的blog是不是被spam了并且会手动删除上面的spam comment,那么我就把这个过程自动化好了。

基于GreaseMonkey好了。

先搭个架子,然后向里面填算法来判断这个comment是不是spam,目前的话,先基于关键字好了,看到那个叫做boubo的链接就删掉。

标签: ,

Blog Comment Spams

2007年9月20日 2 条评论

昨天的日志的一个回复:

这种blog spam真的是非常不爽的一件事情。

而且,不只是我,更多的其他人也在遇到这种问题。

在这个Web 2.0的时代里面,Anti-spam的工作,绝不仅仅是mail了。

标签: