image

ずんだもんは、四国めたんも「ささやきたい」「歌いたい」音声合成制作!

ずんだもんの特大読唇データを使って機械学習コンテストを実施します(*ゝω・)ノ

こんばんは、東北ずん子です\(🟢ず・ω・だ🟢)/

今日はストレッチゴールで作成させていただいた、ずんだもんの特大読唇データの活用についてお知らせです(>∀<●)

ずんだもんの特大読唇データを使って、機械学習コンテストを実施します((o(*´∀`*)o))
こちらは、読唇用に撮影した画像連番データから、どんな言葉をしゃべっているのか音素の判定をしていく、というものになります٩(。•ω•。)و

機械学習分野をやっている方はぜひ応募してみてください٩(๑>◡<๑)۶
素敵なプレゼントも準備しておきます(>∀<●)

4600文章を口の動きもセットで作った読み上げデータに、既存のITAコーパス424文も使えば、合計5000文章の読み上げデータを使えますヽ(•̀ω•́ )ゝ✧

今までの日本語の読唇では音素誤り率がだいたい30%くらいだったのですが、このコンテストでその上を目指してもらいたいです╭(๑•̀ㅂ•́)و

音素誤り率が3%くらいになると日本語をほぼ推定することができるので、そこまで行くのかが現在の読唇の課題になっています(>∀<●)

 

今回、共同研究で参画してくださっている九工大の齊藤先生が企画を立ててくれました(*´∀`*)
みんなで研究にチャレンジできる環境もできたので、GPUを持っていて機械学習に興味もある方はぜひ参加してみてくださいね(ミ^0^ミ)
まだまだ、黎明期の技術なので(そもそも大規模なデータがなかった分野なので)今やれば結果は出やすいんじゃないかと思いますo(≧▽≦)o

https://sites.google.com/view/ssrw2022/lr-challenge

2022/09/02 23:53