モーグルとカバとパウダーの日記

モーグルやカバ(EXカービング)山スキー(BC)などがメインの日記でした。今は仕事のコンピュータ系のネタが主になっています。以前はスパム対策関連が多かったのですが最近はディープラーニング関連が多めです。

twitterのスパム報告に思うコラボレーションフィルタの限界

下記の、twitterのスパムアカウント共有サービス作られた方がいて、それを見て改めて思ったこと。

Twitterのスパムアカウント共有サイト「スパムバスター」を作りました。 - daybook
http://d.hatena.ne.jp/dotliner/20110507/1304757517


自分はスパム対策とかしてるので、Hootsuiteの1カラムに「スパム|迷惑メール」で検索かけたのを表示させてる。
スパムだけの検索結果は、メールのスパムよりtwitterでのスパムのほうがネタとして上がってくる率が高い。
下記URLで現時点での流れを見れるので、興味ある方一読してみてください。

http://twitter.com/#!/search/%E3%82%B9%E3%83%91%E3%83%A0


でそれ見てて思ってたのだけど、ユーザが「スパム」と判定する基準というのが、ほんとうにまちまちだということ。

本来スパムとは、無差別に勝手にメッセージを送りつけてくるような輩だったり、アフィリエイト狙いでアフィリエイトタグ付きのページへ誘導するためのbotだったり、というところだろう。
というか自分はそう考えてる。

が、ここに上がってくる「スパム報告しました」みたいなこと書いてる人たちの理由を見てると、下品なつぶやきが多いとか、議論になってしつこく絡まれたとか、ひどいのだと自分の興味ないtweetが多いだとか…
当然、自分が登録したbotでも気に入らなくなってくるとスパム報告されちゃう。まあこれは、読まなくなったメールマガジンをスパム認定にしてフィルタしちゃうのと同じ感覚なのだろう。


で前記の「スパムバスター」ではランキングがあるためそこを見てみる。

http://spambuster.tk/spam/most

すると上位には、ほんとのスパムアカウントもあるけど、botやらその時話題の嫌われてるアカウントなんかが上に来てるのがわかる。


こういうのを見ると、迷惑メール対策で最近よく使われてるコラボレーションフィルタもどうなのよ、という気がしてくる。
コラボレーションフィルタも基本的にはこの仕組だ。
つまり、ユーザがスパムとして上げてきた内容からそのメールをコード化し、その内容をコード化したものでブラックリストを作る。
だから、多くのユーザがスパムでないものをスパムとして報告してきたらやっぱり誤検出しちゃう。


コラボレーションフィルタは、人間が判断した結果を使うし、ユーザについての評価値も持つから悪意のあるユーザの影響も受けないと言われてたんだけど、人間はスパムと言われてもこっちの思うところのスパムを報告してくれるとは限らないということだ。