ディープラーニング同好会2回め開催しました。
Google Colab使ってMNIST(数字認識)させるのの続きということで、前回はバックプロパゲーションを3層とか4層でやったのですが、今回はCNNで行いました。
以前やったディープラーニングハンズオンに参加されてない方もいたので、簡単に畳み込み層とプーリング層についての説明とかしたのですが、そこから話が深くなり、プーリングで位置ずれを吸収すると言ってもそんなに大きくは吸収できないのでは、というような質問が出ました。
例えば、画面いっぱいに「あ」と書いてあるので認識できるようになっても、画面1/4のサイズで端っこに「あ」があったら認識できないのでは、というものです。
CNNの下の方の層でもう「あ」が認識されてしまう状況ならたぶんどこにあっても認識されるはず(つまり「あ」という「部品」として認識可能になってる)だけど、層が浅くて最後のBPのフルコネクトでやっと認識できる状況だと、そういう状況になりそうと話しました。
この辺は次回でみんなで試せたらなと思います。