モーグルとカバとパウダーの日記

モーグルやカバ(EXカービング)山スキー(BC)などがメインの日記でした。今は仕事のコンピュータ系のネタが主になっています。以前はスパム対策関連が多かったのですが最近はディープラーニング関連が多めです。

トラックバック・コメントスパムの対策

Bianca: BiancaのTrackBackSpam対策【トラックバックスパム対策】

コメントやトラックバックの内容が、半角英数だけだったらスパムだと判断する、という方法。
荒っぽいけど、まあ今のところ現実的な対応だろう。が、近い将来日本語のスパムも出るだろうから、すぐにまた次の対策を考えないといけなくなると思う。


スパマーは、内容や張ったURLを見てもらうためじゃなくて、Googleのランキングをあげるのが目的のようだから、URLは同じものが張られると考えていいと思う。
だから、トラックバックやコメントに張られたURLを収集して、その数があまりにも多いものは、スパムのブラックリスト対象としてリストアップする、というorbsのブログ版を作ることは出来ないか?
この考えは、メールのスパム対策にもあるが、ブログなら元々が公開されている情報なので、簡単に仕組みを作ることが出来ると思う。


というか、考えついたなら自分でやれよ、という話もあるが、blogmap や MyRSS.jp とかならすでにクロールするシステムを持っているから、その上に構築してくれないかな〜、と。


(関連)

多数のアドレスに同じ内容のメールが多数送られているならspamとして判断 - モーグルとカバとパウダーの日記
はてなアイデア - コメント・トラックバックスパムRBL はてなアンテナの巡回より重複するコメントやトラックバックのトップリストを公開。


(追記)

blogmapを運用されている ishinao さんの日記のコメントに、これ提案してみたのですが、
tdiary.ishinao.net - コメントSPAM襲来 (02:05) , またゲロ (02:07) , Anti Referer Spam プラグイン ver 0.9導入 (13:19) , svnでhttpsが使えない (16:16)..
blogmapではRSSから情報をクロールしてくるため、コメントやトラックバックの内容を拾うことは出来ないそうです。というか、RSSの規格的に、コメントやトラックバックの中身だよ、ということを示す要素がない模様。
RSS(RDF Site Summary)によるサイト情報の要約と公開
なので、アンテナでクロールさせて中身をパースしてやらないとだめっぽいです。
はてなアンテナに提案してみようかな…