商品情報にスキップ
1 1

音声と画像によるマルチモーダル同時発話者特定・音声認識システムの設計

音声と画像によるマルチモーダル同時発話者特定・音声認識システムの設計

通常価格 ¥330 JPY
通常価格 セール価格 ¥330 JPY
セール 売り切れ
税込

カテゴリ: 研究会(論文単位)

論文No: IIC20049

グループ名: 【D】産業応用部門 産業計測制御研究会

発行日: 2020/11/24

タイトル(英語): Design of Simultaneous Speaker Specification and Voice Recognition System based on Multi-modal Deep Learning

著者名: 山賀 大樹(芝浦工業大学),清水 創太(芝浦工業大学)

著者名(英語): Hiroki Yamaga(Shibaura Institute of Technology),Sota Shimizu(Shibaura Institute of Technology)

要約(日本語): 本研究では事前のデータなしに不特定の人物の発話者の発した音声を,映像と音声の情報を用いてマルチモーダルに認識出来るシステムの開発を目指している.

要約(英語): This paper designs a multimodal voice recognition system, in which, not only sounds from a microphone array but also sequential images from a visible camera are applied. The proposed system is uniquely characterized by doing speaker specification and voice recognition, simultaneously, by combining the source positioning and separation with image processing.

原稿種別: 日本語

PDFファイルサイズ: 600 Kバイト

販売タイプ
書籍サイズ
ページ数
詳細を表示する