モーグルとカバとパウダーの日記

モーグルやカバ(EXカービング)山スキー(BC)などがメインの日記でした。今は仕事のコンピュータ系のネタが主になっています。以前はスパム対策関連が多かったのですが最近はディープラーニング関連が多めです。

SpamAssassin用のPDFスパムの対策プラグインとxdoc2txt

そのSpamAssassin-jp-MLでPDFスパム対策のSpamAssassinプラグインが紹介されていた。

これは、PDFファイル内に特定の正規表現があったらポイントをつけるというものだ。
これでPDFファイルが添付されていて、中に「stock」とか書いてあったら3点、とかできるというわけ。


でも、こういうのってほんとならベイジアンフィルタのほうで判定してやりたいところだと思う。
だとすると、汎用のPDFからテキストを出力するツールを使って吐いてやるようにしたほうが良いのではないだろうか。

マルウエア対策のTips,知りたくありませんか?:ITpro

 「xdoc2txt」というプログラムがある。どのくらいの方がご存知だろうか。ググってみればすぐ分かるが,これはMicrosoft Wordなどの文書の内容をテキストに変換してくれるフリーのプログラムだ。Wordだけでなく,ExcelPowerPoint,PDF形式のファイルからもテキストを抽出してくれるツワモノである。

とういように、xdoc2txtを使って、その中身を「本文」にしてやってベイジアンフィルタを通してやる。
あとはベイジアンフィルタが良きに計らってくれるだろう。
POPFileみたいに、ヘッダに書いてあるものは別扱いにしてくれるものだと、PDFの中身に書いてある場合は加点、というふうにできるのだけどSpamAssassinでもそういうの自動でやる方法あるかな?


こういうフィルタ作れると思うのだけども、誰も作ってないんだろうか。


(追記)

最近はExcelスパムだそうだから、こうするのが汎用性あると思う。
「PDFスパム」に続いて、「Excelスパム」が流行の兆し:ITpro

PDFスパムはページの下のほうにワードサラダがくっついてるから、単にテキスト渡すだけじゃなくて、ベイジアンフィルタ側でも対応してやる必要がある感じ。