日本語
 
Help Privacy Policy ポリシー/免責事項
  詳細検索ブラウズ

アイテム詳細

  Detecting and Deterring Manipulation in a Cognitive Hierarchy

Alon, N., Schulz, L., Barnby, J., Rosenschein, J., & Dayan, P. (submitted). Detecting and Deterring Manipulation in a Cognitive Hierarchy.

Item is

基本情報

表示: 非表示:
アイテムのパーマリンク: https://hdl.handle.net/21.11116/0000-000F-4280-5 版のパーマリンク: https://hdl.handle.net/21.11116/0000-000F-4281-4
資料種別: Preprint

ファイル

表示: ファイル

関連URL

表示:
非表示:
URL:
https://arxiv.org/pdf/2405.01870 (全文テキスト(全般))
説明:
-
OA-Status:
Not specified

作成者

表示:
非表示:
 作成者:
Alon, N1, 著者                 
Schulz, L1, 著者                 
Barnby, JM, 著者
Rosenschein, JS, 著者
Dayan, P1, 著者                 
所属:
1Department of Computational Neuroscience, Max Planck Institute for Biological Cybernetics, Max Planck Society, ou_3017468              

内容説明

表示:
非表示:
キーワード: -
 要旨: Social agents with finitely nested opponent models are vulnerable to manipulation by agents with deeper reasoning and more sophisticated opponent modelling. This imbalance, rooted in logic and the theory of recursive modelling frameworks, cannot be solved directly. We propose a computational framework, ℵ-IPOMDP, augmenting model-based RL agents' Bayesian inference with an anomaly detection algorithm and an out-of-belief policy. Our mechanism allows agents to realize they are being deceived, even if they cannot understand how, and to deter opponents via a credible threat. We test this framework in both a mixed-motive and zero-sum game. Our results show the ℵ mechanism's effectiveness, leading to more equitable outcomes and less exploitation by more sophisticated agents. We discuss implications for AI safety, cybersecurity, cognitive science, and psychiatry.

資料詳細

表示:
非表示:
言語:
 日付: 2024-05
 出版の状態: 投稿済み
 ページ: -
 出版情報: -
 目次: -
 査読: -
 識別子(DOI, ISBNなど): DOI: 10.48550/arXiv.2405.01870
 学位: -

関連イベント

表示:

訴訟

表示:

Project information

表示:

出版物

表示: