プロンプトインジェクションが行われることで他のユーザーに影響はある?

Q. プロンプトインジェクションによって元のモデルが上書きされる?

A. モデル自体が永続的に変更されたり、学習済みの知識が上書きされるわけではありません

プロンプトインジェクションによって、AIモデルそのものが恒久的に「上書き」されてしまうわけではありません。そのセッション中や、特定のユーザーのインタラクションにおいて、モデルの振る舞いが一時的に乗っ取られるという表現が適切です。

悪意あるプロンプトが処理された後も、内部のモデルは元の状態を保っています。

Q. そのAIサービスを利用している他のユーザーへの回答も変わったりする?

A. 基本的には、個別のユーザーセッションに限定されることが多いです

AIサービスがセッションベースで動作している場合(多くのチャットベースのAIがこれに該当)、あるユーザーがプロンプトインジェクションを行っても、その影響はそのユーザーのセッション内に閉じられます。つまり、別のユーザーが新たにAIと会話を開始した場合、そのユーザーは影響を受けていない元のモデルの振る舞いと対話することになります。

ですが、以下のような特殊なケースでは、他のユーザーに影響が及ぶ可能性もゼロではありません。

共有されたコンテキストの悪用

もしAIが、複数のユーザーで共有されるような永続的な「記憶」や「状態」を持つように設計されている場合、そこに悪意あるプロンプトが永続的な影響を与える可能性はあります。ただし、セキュリティの観点から、このような設計は非常に稀です。

モデルの再学習やファインチューニングへの影響

極めて稀なケースですが、もし攻撃によって生成された悪意のある出力が、気づかれずにモデルの自動再学習データセットやファインチューニングのデータとして取り込まれてしまった場合、モデルの振る舞いに永続的な影響を与える可能性があります。通常は、厳重なデータ検証プロセスによって防がれますが、可能性としてはゼロではありません。

Q. 回答の中のファイルに悪意のプログラムが入ることがある?

A. その可能性は十分にあります

これはプロンプトインジェクションの非常に危険な側面の一つです。

AIがファイルの生成や修正、URLの提案など、外部リソースへのアクセスや生成機能を持っている場合、プロンプトインジェクションによって以下のことが起こり得ます。

悪意のあるファイルの生成

AIに「特定のコードを含む実行ファイルを生成しなさい」といった指示を与えることで、ユーザーが悪意のあるプログラムを含むファイルをダウンロードするように誘導される可能性があります。

悪意のあるURLの提案

AIが、フィッシングサイトやマルウェア配布サイトのURLを回答に含めるように誘導される可能性があります。

既存ファイルの改ざん

AIがアクセス権限を持つシステム内で、既存のファイルを悪意のある内容に書き換えたり、削除したりするよう指示される可能性があります。

個人情報の漏洩

AIが内部データや、以前の会話から得た個人情報を、不特定多数のユーザーに見える形で出力するように誘導される可能性があります。

おすすめ