情報処理学会インタラクション2023

文献情報

タイトル
WESPER: 話者・言語非依存の実時間ささやき声通常音声変換によるスピーチインタラクション
著者
暦本純一（東大／ソニーCSL）
アブストラクト
ささやき声の認識と通常音声への変換には音声インタラクションの多くの可能性がある．ささやき声の音圧は通常の音声よりもはるかに低いため，公共の場において他人に聞かれることなくサイレントスピーチに準ずる音声入力として利用でき，公共環境での遠隔会議も可能である．また，ささやき声やかすれ声を通常の発声に変換できれば，発声障害者や聴覚障害者の発声品質を向上させることができる．しかし，従来の音声変換技術では，ささやき声から通常声への変換には十分な変換品質が得られないか，ささやき声と通常音声のペアからなるデータセットが必要だった．本研究では，自己教師型学習に基づく実時間ささやき声音声変換機構，WESPERを提案する．WESPERは，ささやき声と通常音声の差分を吸収した潜在音声単位を生成する音声単位変換器 (Speech to Unit encoder, STU) と，音声単位から目的の音声を復元する単位音声変換器（Unit to Speech decoder, UTS）から構成される．テキストの付随しないささやき声と通常音声のペアでない音声データのみから事前学習可能で，発話者・言語に依存しない変換を実現する．UTSは，ラベルのない対象話者の音声データのみから，対象話者の音声を復元するように学習可能である．本手法を実験参加者50名により評価し，ささやき声から変換された音声の品質が向上し，韻律の自然さも保持されることを確認した．また，提案手法が言語障害者や聴覚障害者の発声再構成にも有効であることも評価実験により確認した．
雑誌名
インタラクション2023論文集 © 情報処理学会 2023
論文ID
INT23005
ページ
31-40
発行日
2023年3月1日
発行所
発行人	一般社団法人情報処理学会
住所	〒101-0062 東京都千代田区神田駿河台一丁目5番地化学会館4F
TEL.	東京 (03) 3518-8374 (代表)
E-mail	sig@ipsj.or.jp