モーグルとカバとパウダーの日記

モーグルやカバ(EXカービング)山スキー(BC)などがメインの日記でした。今は仕事のコンピュータ系のネタが主になっています。以前はスパム対策関連が多かったのですが最近はディープラーニング関連が多めです。

CAPTCHAを利用してOCRの認識率を改善する

秋元@サイボウズラボ・プログラマー・ブログ: reCAPTCHA - キャプチャを利用した人力高性能OCR

知っている方の単語を正しく読めたのであれば、もう一方の入力も正解に近いのではないか、と推測することができる。reCAPTCHAはこの情報を利用して、これまで機械で読み取れなかった単語画像にある単語を正しく知ることができるようになる。

CAPTCHA用の単語を二つ並べて、一つは出題用、そして実はもう一つはコンピュータ側も答えを知らない、OCRで認識を失敗したものを使う。
それで、出題用の答えが合ってたら、知りたい方の単語についても正しそう、ということで答えを知ることが出来るというわけ。


このアイデアはすばらしいと思う。