そのSpamAssassin-jp-MLでPDFスパム対策のSpamAssassinのプラグインが紹介されていた。
これは、PDFファイル内に特定の正規表現があったらポイントをつけるというものだ。
これでPDFファイルが添付されていて、中に「stock」とか書いてあったら3点、とかできるというわけ。
でも、こういうのってほんとならベイジアンフィルタのほうで判定してやりたいところだと思う。
だとすると、汎用のPDFからテキストを出力するツールを使って吐いてやるようにしたほうが良いのではないだろうか。
マルウエア対策のTips,知りたくありませんか?:ITpro
「xdoc2txt」というプログラムがある。どのくらいの方がご存知だろうか。ググってみればすぐ分かるが,これはMicrosoft Wordなどの文書の内容をテキストに変換してくれるフリーのプログラムだ。Wordだけでなく,Excel,PowerPoint,PDF形式のファイルからもテキストを抽出してくれるツワモノである。
とういように、xdoc2txtを使って、その中身を「本文」にしてやってベイジアンフィルタを通してやる。
あとはベイジアンフィルタが良きに計らってくれるだろう。
POPFileみたいに、ヘッダに書いてあるものは別扱いにしてくれるものだと、PDFの中身に書いてある場合は加点、というふうにできるのだけどSpamAssassinでもそういうの自動でやる方法あるかな?
こういうフィルタ作れると思うのだけども、誰も作ってないんだろうか。
(追記)
最近はExcelスパムだそうだから、こうするのが汎用性あると思う。
「PDFスパム」に続いて、「Excelスパム」が流行の兆し:ITpro
PDFスパムはページの下のほうにワードサラダがくっついてるから、単にテキスト渡すだけじゃなくて、ベイジアンフィルタ側でも対応してやる必要がある感じ。