モーグルとカバとパウダーの日記

モーグルやカバ(EXカービング)山スキー(BC)などがメインの日記でした。今は仕事のコンピュータ系のネタが主になっています。以前はスパム対策関連が多かったのですが最近はディープラーニング関連が多めです。

FuzzyOCR(文字認識)対策されたスパム

脅迫状のような画像スパム出現,文字を“切り貼り”してフィルタを回避:ITpro

自分のところにも届いていて、こんな感じ。

最初、なんでわざわざこんなアホなことするんだろう?と思ってスルーしてたんだけど、実はFuzzyOCRなどの画像認識ソフト対策だったのね。すぐに気づけず甘かった。なるほどねえ。
つまり、画像一枚を解析してもわからず、HTMLで表示してやっと意味が通るようにするわけ。
だから、こんなふうに脅迫状っぽくしなくても、自然な感じの画像になるようにしても大丈夫なのに、とも思うのだけど。


これを正攻法で対策するなら、OCRのほかにHTMLのパーサーまでスパムフィルタに組み入れないといけなくなってくる。
ここまでくるとやはり、コンテンツフィルタはクライアントに任せたほうが良いんじゃないかなあ…


(追記)

後から気がついたのだけど、セキュリティホール memo でも「Captcha っぽい画像つきの画像 spam が来たよ」という話が取り上げられていた。
こちらは、ほんとにキャプチャっぽい画像スパム。


で、スラドでも
スラッシュドット ジャパン | 新手の画像スパムが急増
とスレッドが立ってるんだけど、その中にベイジアンフィルタだと防げる、みたいに書いてある意見があって、すごく違和感があった。


画像スパムやワードサラダって、もろベイジアンフィルタを対象とした攻略手法で、向こうではアンチアンチスパムとして有効に機能してるもんで、こういう方向にスパムが進化ているわけです。
ベイジアンフィルタ→画像スパム→OCRで画像中の文字認識→画像を分断、ゆがます(CAPTCHA)
単にわれわれは、日本語で書かれたHTMLでないメールを受け取る率が高いから、ベイジアンフィルタでも防げている場合が多いんじゃないのかね。
実際、POPFileでもSpamAssassinでも、この手のスパムはBayesのポイントが低かったり見逃してしまったりしてることが多い。


どうもベイジアンフィルタへの信仰を持ちすぎの人たちがいるように感じるのだが。
たぶん、アンチアンチスパムな日本語のワードサラダがついた日本語の分割画像スパムをもらうようにならないと、実感出来ないんじゃないかと思う。
ああでもその時は、HTMLメールでフックして捨てりゃあいいとか、画像の数でフックして捨てりゃあいいとか、そういうことを言うのだろうなあ…



(関連)

モーグルとカバとパウダーの日記 - 近い未来の画像スパム