先端情報学研究科博士後期課程2年次生の滝沢 力さん(平井研究室)の研究「PronounSE:言語非依存な口真似音声からの効果音合成」が、一般財団法人デジタルコンテンツ協会(DCAJ)による「コンテンツテクノロジー・イノベーションプログラム(CTIP)」において、支援対象技術として採択されました。
「コンテンツテクノロジー・イノベーションプログラム(CTIP)」は、経済産業省の令和7年度コンテンツ海外展開促進事業の一環として実施される、コンテンツ関連技術の社会実装と海外展開を支援する官民連携プログラムです。滝沢さんの研究をはじめ、採択された技術は11月19日(水)~11月21日(金)に千葉県・幕張メッセにて開催される「INTER BEE IGNITION × DCEXPO」へ出展します。
採択技術の概要
PronounSE:言語非依存な口真似音声からの効果音合成
ゲームやアニメーション、映画などのコンテンツ制作において、環境音や効果音は欠かせない要素である。しかし、その制作には熟練の技術が求められ、プロであっても手間がかかることが少なくない。特に、音作りに不慣れな人にとっては、イメージに合う音の制作や、大量のサウンドライブラリから最適な音を探し出すことは容易ではなく、必ずしも思い通りの音を得られるとは限らない。
こうした課題に対し、本技術研究では、ボイスパーカッションのように音をリアルに模倣した口真似音声から効果音を合成する手法を提案している。人は、金属音やサイレン音、爆発音といったさまざまな音を、ある程度は直感的に声で再現することができる。
このような直感的な表現かつ多様な発声を活用することで、生成系の深層学習技術を用いて音声から効果音を合成するアプローチを取っている。特に、人の口真似による音を模倣する能力に着目しており、言語的な発音や文字では表現しきれない微妙な発音(音韻情報)や、高さ・抑揚・タイミング等のリズム的要素(韻律情報)も含め、言語情報を一切用いず、口真似音声のみを入力として効果音生成する点に技術的特徴がある。
これまでは、多種多様な効果音の中でも「爆発音」の合成に焦点を当てており、発破音や発砲音等の多種多様な爆発に伴う音の合成が可能となっている。敢えて日本語の擬音語として書くと「ドゥーン」「ボガーン」「バーン」「パーン」などが挙げられるが、それらの発音にはそれぞれ音響的違いがある。本技術ではそれらの中間の発音までも表現として網羅する柔軟な音響合成が可能である。現在は、爆発音以外、特にレーザービームや魔法の音等の非現実な音にも対応させるべくデータセットを構築しており、随時対応音色を増やした技術として研究を行っている。
社会実装について
アニメやゲーム等のサウンド制作現場におけるディレクターやサウンドデザイナーの間では、効果音のイメージ伝達で口真似が使われている現実がある。このことから、プロでもいち早く音素材を入手する手法として本技術は利用できる。また、非プロでも効果音素材探しに時間や労力を費やすよりも、頭にある音のイメージを口真似発音した直後に合成結果が得られ、素早く素材を入手できる。また、ニュアンスの違う発音し直して、イメージに合う素材の入手を繰り返すこともできる。
加えて、YouTubeやTik-Tok等含め、動画コンテンツに効果音を入れる場面も多い時代だからこそのニーズもある。これらの事情に対し、我々の技術は、独自の口真似データセットによる効果音合成モデルを用いており、その合成処理をWebサービスとして提供することで、プロアマ問わず、広くコンテンツ制作を後押しすることができると考えている。
その他詳細および審査講評はこちらをご覧ください。
関連リンク
コンテンツテクノロジー・ イノベーションプログラム (CTIP)