AIの誤りは人間の誤りとかなり違うという話とブルース・シュナイアー先生の新刊の話

www.schneier.com

『ハッキング思考』において、ハッカーになった AI による人間社会の攻撃という AI 時代のセキュリティ問題にページを割いている（といっても、あの本はそれだけの内容ではない）ブルース・シュナイアー先生だが、AI の誤りは人間の誤りとはかなり違うという話を書いている。

人間の世界のセキュリティシステムは、当たり前だが人間がよくおかすミスに対処することを考えて構築されてきた。AI もミスをおかすが、人間にありがちな疲労や注意散漫や無知が原因のミスとは違い、人間から見ると実に奇妙だったりする。これからはそれをちゃんと考慮しないといけない。

具体的には、明らかに間違ったことを自信満々に（見える）答えるハルシネーションの問題とかですね。

じゃあ、どうするよという話だが、ひとつは人間に近い間違いをする LLM を設計する、もう一つは LLM がおかしがちな特定の種類の間違いに対処するシステムを構築するという二つの方向性が研究されているとのこと。

ただですね、ワタシがこの文章を読んでいて面白かったのは、この文章の大枠の趣旨から外れた、LLM が人間と近い行動をとる場合の話だったりする。

LLM に関して奇妙なのは、我々が考えるよりも LLM が人間に近い行動をする場合があることだ。例えば、現金の報酬を提示されたり、殺すと脅迫されると、LLM はより良いパフォーマンスをあげるという仮説を検証した研究者がいる。また、LLM を「脱獄」させる（LLM にその作成者の明確な指示に背くようさせる）最良の方法には、例えば、他の誰かの振りをしたり、要求がただのジョークだと言ったりする、人間同士が用いるソーシャルエンジニアリングの手口の類にとても似ているものがあることも分かっている。

その筋では常識なのだろうが、そんなことあるんだねぇ。

一方で、生成 AI にアスキーアート入りのプロンプト入力で有害コンテンツを出力させる脱獄手法は、AI ならではの問題と言える。

さて、この文章もそうだが、近年シュナイアー先生はだいたい Nathan E. Sanders という人と共著しているのだが、以前からブログで告知しているようにそれが本にまとまる。