モーグルとカバとパウダーの日記

モーグルやカバ(EXカービング)山スキー(BC)などがメインの日記でした。今は仕事のコンピュータ系のネタが主になっています。以前はスパム対策関連が多かったのですが最近はディープラーニング関連が多めです。

twitterトレンドキーワードのスパムについての雑感

最近ステマステルスマーケティングCGM、口コミサイトなどで、一般人を装って宣伝の書き込みをすること)のことが話題になっていたが、twitterのトレンドキーワードのスパムについての指摘もいくつか目にした。


大量のbotTwitterのトレンドがひどいことに - Togetter
http://togetter.com/li/243462


Twitter / @hkoba:

なんでそんなものが trend に、と思ってクリックしてみた結果にゲンなり... Twitter の trend って意外に簡単に汚染できるのね...

https://twitter.com/#!/hkoba/status/158933099789565952/photo/1


で、この2件の例については、これらは実はトレンドを狙ったスパムではなく、結果的にスパムとなってしまったという例だと思う。
前者は、楽天トラベルで地域ごとに評価が高い宿をランキング順でtweetしており、後者はパチンコ屋の広報だ。
たぶん、これまでは(携帯向けの)メールマガジンでやっていたような内容を、そのままtweetするようにしたのではないだろうか。
でも、cron(タイマー)で処理されているので、多数のアカウントからほぼ同時に一気にtweetされるため、トレンドスパムとして作用してしまっている。


ある意味正しい使われ方をしているのに、トレンドを参照してる人から見たらスパムに見えてしまう、というわけだ。
単純に上がってきてるものだけ見るんじゃなく、多少はそこの意味まで見ないと、ちゃんとトレンドを拾い上げることはできないのだ。
あと例えば、朝のおはようtweetとかをトレンドキーワードとしても良いのかということも。これも今話題になってることを知りたいという視点から見たらノイズだけど、twitterの空気感をつかむにはあったほうがよいだろうし。
そう考えるとスパムの定義やフィルタすべきものって難しいよなと思う。


結局、トレンドの検出方法のアルゴリズムを改善するしかないんじゃないかなあと思った。
同じ時間に同じアカウントから同じワードであがってくるものについては、ポイントを低くするとか。