モーグルとカバとパウダーの日記

モーグルやカバ(EXカービング)山スキー(BC)などがメインの日記でした。今は仕事のコンピュータ系のネタが主になっています。以前はスパム対策関連が多かったのですが最近はディープラーニング関連が多めです。

Twitterの新スパム対策と誤検出の可能性について

Twitterで新しいスパム対策フィルタが実装され、よりスパムが排除されるようになったとのこと。


Twitter、スパムに“秒速で”対処する新システム「BotMaker」でスパムの40%削減に成功 - ITmedia ニュース
http://www.itmedia.co.jp/news/articles/1408/21/news082.html

Scarecrowが見逃したイベントに機械学習技術で対処する「Sniper(狙撃者)」

場合によってはスパムがユーザーの目に触れる前に削除できるようになった。

と書かれていることから、一旦TLに表示されたスパムtweetに対して、機械学習でスパムと判断されたものは後から削除(削除リクエストが発行され再表示タイミングで消える)が行われるのではないか、と推測しました。


ところで、掲示板スパム等の対策では、サーバ側が「スパム判定した」と相手に知らせないほうがより効果が高いです。
その場で「スパム判定した」と知られると、スパマー側はすり抜けるための対策を取りやすくなるためです。
特に、スパムというよりも「荒らし」のように一つの掲示板に粘着して攻撃される場合、そのユーザから見たらちゃんと表示されているけども、実は他のユーザにはその書き込みは見えないようになっている、というような実装にしておくと、効果的だと思います。


さて、ここ最近のtwitterで、どうも友人のtweetが歯抜けになってる?みたいな件を見かけることがちょこちょこありました。
フォローしてる人のtweetなのに他の人がRTしたものだけ表示されたり、話がつながらないからおかしいなと思って聞いてみたら、一つ前のtweetがあったはず、みたいな状況です。
昔のtwitterではそんなこともよくあった気がするので、それほど気に留めてなかったのですが、この新スパム対策導入のエントリーを読んで、これの影響だったのかも、と思ったのでした。


スパム対策、特にメールのスパム対策だと、検出率を上げるよりも、誤検出率を下げることのほうが重要になります。
でも掲示板スパムとか、多数の人が見るもので、それほど誤検出が致命的でないような場合、多少誤検出が起きてもすり抜けるスパムが出ないようにするようにチューニングしたほうが実用的です。


投稿者側には気がつかないようにフィルタされてるとすると、スパムが減っただけじゃなく実は結構誤検出も起きてるんじゃね?と思ったのでした。