声質変換の音質と学習速度の向上における背景ノイズ除去の有用性の検討
声質変換の音質と学習速度の向上における背景ノイズ除去の有用性の検討
カテゴリ: 部門大会
論文No: MC3-5
グループ名: 【C】2024年電気学会電子・情報・システム部門大会
発行日: 2024/08/28
タイトル(英語): Investigating the Effectiveness of Background Noise Removal for Improving Audio Quality and Training Speed in Voice Conversion
著者名: 上場 波瑠(近畿大学),半田 久志(近畿大学)
著者名(英語): Halu Uwaba (Kindai University),Hisashi Handa (Kindai University)
キーワード: 声質変換|Generative Adversarial Networks|背景ノイズ除去|ウィナーフィルタ|Voice Conversion|Generative Adversarial Networks|Background Noise Removal|Wiener Filter
要約(日本語): 声質変換は発話内容を保ったまま、特定の話者から別の話者への声質変換を行う技術であり、仮想現実などへの応用が期待されている。しかしながら、声質変換モデルの学習には比較的多くの時間を要する。特に、最も単純なタスクである特定の話者から別の話者への変換においても、話者の組み合わせごとにモデルを学習する必要があり、効率化が求められている。本研究では、音声に含まれる微量な背景ノイズを除去することで、音質を維持したまま声質変換の学習速度を向上させることを目的とする。背景ノイズを除去する手法には古典的な手法であるウィナーフィルタを用いる。提案手法の評価には、発話内容の誤り率を示すCharacter Error Rate(CER)と、変換された音声と変換したい話者の音声の違いを示すMel-cepstrum distortion(MCD)を用いる。本手法により、声質変換の学習速度の向上を検討する。
受取状況を読み込めませんでした
