文献情報
タイトル | |
---|---|
擬音的発話のニュアンスを反映するインタラクティブ効果音合成 | |
著者 | |
|
|
アブストラクト | |
アニメや,映画,ゲームなどでは,場面に応じた効果音が様々に使用される.それらの音響制作には専門的な知識・ノウハウや試行錯誤,既存の膨大な効果音ライブラリから選定する手間などが発生する.本研究では,人が効果音を口真似することが比較的容易であることに着目し,音の細かなニュアンスまでも反映した,効果音の口真似音声(擬音的発音)を基にしたインタラクティブな効果音合成技術を提案する.ここでは,発話表現のし易さや,多種多様なニュアンスが発音可能な爆発音を合成題材とし,データセットおよびモデルの構築を行った.具体的には,効果音および口真似音声それぞれのメルスペクトログラム画像をTransformerで学習し,メルスペクトログラムを推定する前段処理と,メルスペクトログラムから波形を合成する後段処理のニューラルボコーダとしてiSTFTNetを用い,2種類の深層学習モデルを組み合わせて合成する.本発表では,提案モデルと学習データセットについて概説し,口真似の音声入力から高音質な効果音合成がインタラクティブにできる様子をデモとして示す. |
|
雑誌名 | |
インタラクション2024論文集 © 2024 情報処理学会 |
|
論文ID | |
1B-34 | |
ページ | |
334-339 | |
発行日 | |
2024年2月28日 | |
発行所 | |
発行人 | 一般社団法人 情報処理学会 |
住所 | 〒101-0062 東京都千代田区神田駿河台一丁目5番地 化学会館4F |
TEL. | 東京 (03) 3518-8374 (代表) |
sig@ipsj.or.jp |