久しぶりにNSEG勉強会が行われたので、この1年半(実質は1年くらい)やってた、ディープラーニングを利用した音声変換やニューラル圧縮について話をしました。
NSEG 2024 新年フリープレゼン大会 - 資料一覧 - connpass nseg.connpass.com
音声変換と生成AI:開発者視点からの1.5年の振り返り - Speaker Deck
speakerdeck.com
今回、いつものような技術的な解説ではなくて、どちらかというと僕のこの1年半にあったことの振り返りを他の方にも追体験していただき、その中で音声系を中心とした生成系AIでどんなことが起きてたかを感じてもらう、みたいなものをめざしました。
なのでプレゼン資料の枚数がすごく多くなってしまったのですが、内容は薄めです。
でも、以前やった勉強会で話したことが、例えば5年前に話してたようなことが、当時はこんな感覚だったんだなってことが資料として使えたので、今回のこれも、2022~3年あたりで音声生成とか変換ってこのあたりの地点だったんだな、というのが振り替えれるものになるのではと思っています。
とにかく、ディープラーニング系の技術は元々流速早かったのが、生成系AIの流れで更に急速に速くなっているので、なんとかその流れに乗って、どう変化していくのかを味わいたいところです。
このプレゼンで書いてるように、もうあと4年以内できっと僕の能力を超えられてると思っているので…