音声と画像によるマルチモーダル同時発話者特定・音声認識システムの設計
音声と画像によるマルチモーダル同時発話者特定・音声認識システムの設計
カテゴリ: 研究会(論文単位)
論文No: IIC20049
グループ名: 【D】産業応用部門 産業計測制御研究会
発行日: 2020/11/24
タイトル(英語): Design of Simultaneous Speaker Specification and Voice Recognition System based on Multi-modal Deep Learning
著者名: 山賀 大樹(芝浦工業大学),清水 創太(芝浦工業大学)
著者名(英語): Hiroki Yamaga(Shibaura Institute of Technology),Sota Shimizu(Shibaura Institute of Technology)
要約(日本語): 本研究では事前のデータなしに不特定の人物の発話者の発した音声を,映像と音声の情報を用いてマルチモーダルに認識出来るシステムの開発を目指している.
要約(英語): This paper designs a multimodal voice recognition system, in which, not only sounds from a microphone array but also sequential images from a visible camera are applied. The proposed system is uniquely characterized by doing speaker specification and voice recognition, simultaneously, by combining the source positioning and separation with image processing.
原稿種別: 日本語
PDFファイルサイズ: 600 Kバイト
受取状況を読み込めませんでした
