モーグルとカバとパウダーの日記

モーグルやカバ(EXカービング)山スキー(BC)などがメインの日記でした。今は仕事のコンピュータ系のネタが主になっています。以前はスパム対策関連が多かったのですが最近はディープラーニング関連が多めです。

SpamAssassinのベイジアンフィルタ日本語対応パッチ

SpamAssassinは高性能なんですが、ベイジアンフィルタの性能がいまいちで誤検出が結構多いです。
これはベイジアンフィルタが日本語に対応していない(日本語はそのままでは分かち書きされてないため)からで、ベイジアンフィルタを日本語対応するためのパッチを探していたんですが、今まではありませんでした。
なので、自分でkakasiとかで分かち書きしてあげるパッチ書かないとだめか、と思っていました。


でも、ついに先日、該当パッチが公開されてるのを知りました。

http://mm.apache.jp/pipermail/spamassassin-jp/2006-February/000041.html
より
http://www.3ware.co.jp/tests/sa310/spamassassin-normalize.patch

また、パッチを当てた際の効果のレポートもあります。
http://www.3ware.co.jp/tests/sa310/Bayes_improvement.pdf
誤検出率が格段に下がるのがわかります。


TLECで提供されてるレシピだと、DNSBLベイジアンフィルタの99とがANDだとすごくポイントがつくのですが、誤検出がぼつぼつとあったりするので、このパッチは非常に有用なものだと思われます。


SpamAssassinユーザ会の話も、このパッチからスタートしてるっぽいです。
早速、SpamAssassin-MLに入りました。


(追記)

現在最新の日本語化パッチは、滝澤さんがメンテナンスされていて下記で公開されています。

SpamAssassin