発話伸長率が会話中に変化する適応型話速変換 ―オンライン会話実験に向けた会話システムの実装―
発話伸長率が会話中に変化する適応型話速変換 ―オンライン会話実験に向けた会話システムの実装―
カテゴリ:部門大会
論文No:PS7-1
グループ名:【C】2025年電気学会電子・情報・システム部門大会
発行日:2025/8/20
タイトル(英語):Adaptive Speech Rate Conversion with Variable Time-Stretch Rate During Conversation -Implementation of a Conversational System for Online Conversion Experiments-
著者名:落合 未佳(東京電機大学),斎藤 博人(東京電機大学)
著者名(英語): Mika Ochiai (Graduate School of Tokyo Denki University),Hiroto Saito (Tokyo Denki University)
キーワード:話速変換,会話システム,映像同期,フレーム処理,Speech Rate Conversion,Conversation System,Visual Synchronization,Frame Processing
要約(日本語):本研究では,音声の高さを保ったまま速度を調整する話速変換技術を会話支援に応用するシステムの構築を目的とする。これまで我々が実装していた会話システムでは,話し手の発話速度にかかわらず一定の比率で発話を伸長していたため,会話全体に要する時間が冗長に伸びる問題があった。
そこで,直前の3発話のモーラ数から発話速度を推定し,伸長率を動的に調整する「伸長率変動方式」を導入し,その実装を行った。
本報告では,話速変換された音声と映像を同期する処理の実装に焦点をあて報告する。具体的には,伸長倍率の変化に対応し,変換開始時のフレーム番号を用いて音声と映像のずれを補正する処理を設計した。これにより,聞き手の好みに応じた速度での聴取を可能とするリアルタイム環境を構築に寄与する。
本誌掲載ページ:1652-1654p
原稿種別:日本語
PDFファイルサイズ:356Kバイト
受取状況を読み込めませんでした
