音声と画像によるマルチモーダル同時発話者特定・音声認識システムの設計

¥330 JPY

セール売り切れ

税込

カテゴリ: 研究会(論文単位)

論文No: IIC20049

グループ名: 【D】産業応用部門産業計測制御研究会

発行日: 2020/11/24

タイトル(英語): Design of Simultaneous Speaker Specification and Voice Recognition System based on Multi-modal Deep Learning

著者名: 山賀大樹(芝浦工業大学),清水創太(芝浦工業大学)

著者名(英語): Hiroki Yamaga(Shibaura Institute of Technology),Sota Shimizu(Shibaura Institute of Technology)

要約(日本語): 本研究では事前のデータなしに不特定の人物の発話者の発した音声を，映像と音声の情報を用いてマルチモーダルに認識出来るシステムの開発を目指している．

要約(英語): This paper designs a multimodal voice recognition system, in which, not only sounds from a microphone array but also sequential images from a visible camera are applied. The proposed system is uniquely characterized by doing speaker specification and voice recognition, simultaneously, by combining the source positioning and separation with image processing.

原稿種別: 日本語

PDFファイルサイズ: 600 Kバイト

販売タイプ PDFダウンロード（一般価格330円/会員価格220円）

書籍サイズ A4

ページ数 2

数量

詳細を表示する

国/地域

音声と画像によるマルチモーダル同時発話者特定・音声認識システムの設計

音声と画像によるマルチモーダル同時発話者特定・音声認識システムの設計