日本語
 
Help Privacy Policy ポリシー/免責事項
  詳細検索ブラウズ

アイテム詳細

  Word embeddings for practical information retrieval

Galke, L., Saleh, A., & Scherp, A. (2017). Word embeddings for practical information retrieval. In M., Eibl, & M., Gaedke (Eds.), INFORMATIK 2017 (pp. 2155-2167). Bonn: Gesellschaft für Informatik. doi:10.18420/in2017_215.

Item is

基本情報

表示: 非表示:
アイテムのパーマリンク: https://hdl.handle.net/21.11116/0000-0009-F9B3-4 版のパーマリンク: https://hdl.handle.net/21.11116/0000-0009-F9B4-3
資料種別: 会議論文

ファイル

表示: ファイル
非表示: ファイル
:
Galke_etal_2017_Evaluating the impact of....pdf (出版社版), 385KB
ファイルのパーマリンク:
https://hdl.handle.net/21.11116/0000-0009-F9B5-2
ファイル名:
Galke_etal_2017_Evaluating the impact of....pdf
説明:
-
OA-Status:
閲覧制限:
公開
MIMEタイプ / チェックサム:
application/pdf / [MD5]
技術的なメタデータ:
著作権日付:
-
著作権情報:
-
CCライセンス:
-

関連URL

表示:

作成者

表示:
非表示:
 作成者:
Galke, Lukas1, 著者           
Saleh, Ahmed, 著者
Scherp, Ansgar, 著者
所属:
1Kiel University, Kiel, Germany, ou_persistent22              

内容説明

表示:
非表示:
キーワード: -
 要旨: We assess the suitability of word embeddings for practical information retrieval scenarios. Thus, we assume that users issue ad-hoc short queries where we return the first twenty retrieved documents after applying a boolean matching operation between the query and the documents. We compare the performance of several techniques that leverage word embeddings in the retrieval models to compute the similarity between the query and the documents, namely word centroid similarity, paragraph vectors, Word Mover’s distance, as well as our novel inverse document frequency (IDF) re-weighted word centroid similarity. We evaluate the performance using the ranking metrics mean average precision, mean reciprocal rank, and normalized discounted cumulative gain. Additionally, we inspect the retrieval models’ sensitivity to document length by using either only the title or the full-text of the documents for the retrieval task. We conclude that word centroid similarity is the best competitor to state-of-the-art retrieval models. It can be further improved by re-weighting the word frequencies with IDF before aggregating the respective word vectors of the embedding. The proposed cosine similarity of IDF re-weighted word vectors is competitive to the TF-IDF baseline and even outperforms it in case of the news domain with a relative percentage of 15%.

資料詳細

表示:
非表示:
言語: eng - English
 日付: 2017
 出版の状態: オンラインで出版済み
 ページ: -
 出版情報: -
 目次: -
 査読: 査読あり
 識別子(DOI, ISBNなど): DOI: 10.18420/in2017_215
 学位: -

関連イベント

表示:
非表示:
イベント名: Informatik 2017
開催地: Chemnitz, Germany
開始日・終了日: 2017-09-25 - 2017-09-29

訴訟

表示:

Project information

表示:

出版物 1

表示:
非表示:
出版物名: INFORMATIK 2017
種別: 会議論文集
 著者・編者:
Eibl, M., 編集者
Gaedke, M., 編集者
所属:
-
出版社, 出版地: Bonn : Gesellschaft für Informatik
ページ: - 巻号: - 通巻号: - 開始・終了ページ: 2155 - 2167 識別子(ISBN, ISSN, DOIなど): -