モーグルとカバとパウダーの日記

モーグルやカバ(EXカービング)山スキー(BC)などがメインの日記でした。今は仕事のコンピュータ系のネタが主になっています。以前はスパム対策関連が多かったのですが最近はディープラーニング関連が多めです。

ベイジアンフィルタ回避でダミーの文書を張る手法はワードサラダ(Word Salad)と言う

404 Blog Not Found:HAMにSPAMを混ぜてfilterを出し抜く手口 より、

atsushifxの七転八倒 ≫ Blog Archive ≫ 404 Blog Not Found:HAMにSPAMを混ぜてfilterを出し抜く手口

ちなみにワードサラダ(Word Salad)というみたいです。

ワードサラダという呼び名があるのか。知らなかった。
最近の株スパムに多い、画像貼り付け系でもこの手法が使われてますね。
コメントで、本文の頭の方のものを高得点を付けるのはどうか、ということが提案されていますが、HTMLメールの場合だとそれも難しいと思われます。(HTMLメール自体を怪しいとして、高ポイントつけてしまうことも出来ますが)


やはりこの手のスパムには、StarpitRgreyのように、SMTPセッションレベルでの判定が有効だと思います。
株スパムはtarpitting抜けて来ちゃうのでダメですが、greylistingは抜けてきませんでしたし、greylisting対策のされたスパム送信ソフトからも、当分の間は、(1回再送されたらではなく)2回再送されたら通すか*1、再送として認めない期間を1時間とかにしてやれば、ほぼ防げます。

というわけで、S25Rtarpitting、greylisingをメールサーバとスパムの状況に応じて組み合わせて、パラメータでフィルタ強度を調整して使う、というのが現実解かと思ってます。むろん後段のコンテンツフィルタ(ベイジアンフィルタ等)もお好みで使うとして。


上記エントリーから紹介されている、セキュリティ関係で著名な仙石浩明さんのこちらのエントリー

仙石浩明の日記: 迷惑メール送信者とのイタチごっこを終わらせるために (1)

でも、ワードサラダにはSMTPセッションレベルの情報で対応するしかないということで、S25Rとコンセプト的に非常に近いと思われる対策手法について書かれていますが、まだ途中とのことで続きが気になります。

こちらのコメント欄に、ブラックリストならすでにDNSBLがあるじゃん、という指摘がありますが、DNSBLも誤検出の問題が存在するので、DNSBL使うにしてもS25R+DNSBLというような構成にしたほうが安全だと思います。
そうすれば、少なくともまっとうなメールサーバについてはDNSBLの誤検出を避けることが出来ますので。


(関連)

Rgrey - S25R + greylisting
モーグルとカバとパウダーの日記 - Starpitでほぼ誤検出無く98%のスパムを排除 (S25R+tarpittingによるスパム対策)
モーグルとカバとパウダーの日記 - taRgrey(S25R+tarpitting+greylisting)というスパム対策のアイデア
モーグルとカバとパウダーの日記 - 一見さんは1日以上同一IPを使ってるか確認するスパム対策手法
モーグルとカバとパウダーの日記 - greylistingを抜けてくるスパム
モーグルとカバとパウダーの日記 - AAなスパムとデザインパターンなスパム
モーグルとカバとパウダーの日記 - 株価操作系&画像貼り付け系スパムが届く

*1:これはpostgreyでは設定できないので、後日パッチ書く予定