日本語
 
Help Privacy Policy ポリシー/免責事項
  詳細検索ブラウズ

アイテム詳細

  Exploring emotional prototypes in a high dimensional TTS latent space

van Rijn, P., Mertes, S., Schiller, D., Harrison, P. M. C., Larrouy-Maestri, P., André, E., & Jacoby, N. (2021). Exploring emotional prototypes in a high dimensional TTS latent space. In Proceedings Interspeech 2021 (pp. 3870-3874). Baixas: ISCA. doi:10.21437/Interspeech.2021-1538.

Item is

基本情報

表示: 非表示:
アイテムのパーマリンク: https://hdl.handle.net/21.11116/0000-000A-E019-D 版のパーマリンク: https://hdl.handle.net/21.11116/0000-000A-E01A-C
資料種別: 会議論文

ファイル

表示: ファイル

関連URL

表示:

作成者

表示:
非表示:
 作成者:
van Rijn, Pol1, 著者           
Mertes, Silvan2, 著者
Schiller, Dominik2, 著者
Harrison, Peter M. C.3, 著者           
Larrouy-Maestri, Pauline1, 4, 著者           
André, Elisabeth2, 著者
Jacoby, Nori3, 著者           
所属:
1Department of Neuroscience, Max Planck Institute for Empirical Aesthetics, Max Planck Society, ou_2421697              
2Human-Centered Artificial Intelligence, Augsburg, Germany, ou_persistent22              
3Research Group Computational Auditory Perception, Max Planck Institute for Empirical Aesthetics, Max Planck Society, ou_3024247              
4Max-Planck-NYU, Center for Language, Music, and Emotion, New York, USA, ou_persistent22              

内容説明

表示:
非表示:
キーワード: -
 要旨: Recent TTS systems are able to generate prosodically varied and realistic speech. However, it is unclear how this prosodic variation contributes to the perception of speakers’ emotional states. Here we use the recent psychological paradigm ‘Gibbs Sampling with People’ to search the prosodic latent space in a trained Global Style Token Tacotron model to explore prototypes of emotional prosody. Participants are recruited online and collectively manipulate the latent space of the generative speech model in a sequentially adaptive way so that the stimulus presented to one group of participants is determined by the response of the previous groups. We demonstrate that (1) particular regions of the model’s latent space are reliably associated with particular emotions, (2) the resulting emotional prototypes are well-recognized by a separate group of human raters, and (3) these emotional prototypes can be effectively transferred to new sentences. Collectively, these experiments demonstrate a novel approach to the understanding of emotional speech by providing a tool to explore the relation between the latent space of generative models and human semantics.

資料詳細

表示:
非表示:
言語: eng - English
 日付: 2021
 出版の状態: オンラインで出版済み
 ページ: -
 出版情報: -
 目次: -
 査読: -
 識別子(DOI, ISBNなど): DOI: 10.21437/Interspeech.2021-1538
 学位: -

関連イベント

表示:
非表示:
イベント名: Interspeech 2021
開催地: Brno, Czechia
開始日・終了日: 2021-08-30 - 2021-09-03

訴訟

表示:

Project information

表示:

出版物 1

表示:
非表示:
出版物名: Proceedings Interspeech 2021
種別: 会議論文集
 著者・編者:
所属:
出版社, 出版地: Baixas : ISCA
ページ: - 巻号: - 通巻号: - 開始・終了ページ: 3870 - 3874 識別子(ISBN, ISSN, DOIなど): -