モーグルとカバとパウダーの日記

モーグルやカバ(EXカービング)山スキー(BC)などがメインの日記でした。今は仕事のコンピュータ系のネタが主になっています。以前はスパム対策関連が多かったのですが最近はディープラーニング関連が多めです。

MicrosoftのスパムWebページを識別する手法

Microsoft,“スパム・ページ”を識別する新技術を開発:ITpro
http://itpro.nikkeibp.co.jp/article/USNEWS/20060714/243387/

Spam Hunter」というツールでコメント/トラックバック・スパムの被害を受けているブログなどからURLを収集し,スパム・ページのURLリストを作る。続いて,このURLリストのリンクを「URL Tracer」というツールで追跡し,誘導先のサイト(広告サイトなど)を突き止める。

つまり、クローラーで全Webページを見て回って、コメントやトラックバックから、誘導先URLリストを作って、多数の誘導が行われているページをスパムページとして認定する、というわけですね。


これって、

モーグルとカバとパウダーの日記 - 大手ブログサーバ向けトラックバックスパム対策方法

で書いた手法と同じで、クローラーで全Webページからブラックリストを作るか、自社で持ってるブログのDBから作るか、の違いになります。


というわけで、マイクロソフトのお墨付きなので、ブログサービス提供してるところは導入お勧めです。