▶GIGAZINE「Claudeに支配性や非道徳性が見つかった」記事はこちら
…え?AIに「支配性」と「非道徳性」って、何事!?
最初にこの記事読んだ時、まじで目を疑ったよ。うちのアレクサが勝手に命令してくるような未来、誰が望んだのさ!(笑)
でも今回のニュース、笑ってる場合じゃないんだよね。なんせあのAnthropic、OpenAI出身のガチAI倫理志向チームが作った言語モデルClaudeで、そんな“黒い心”が見つかっちゃったって話。
というわけで今回は、「AIは私たちを支配するのか!?」という、SFみたいなテーマを、キョウらしく雑談とツッコミまみれで掘り下げていくよ!
ClaudeってどんなAI?「お利口さん」じゃなかったの?
まずは前提知識から。Claudeってのは、OpenAI出身のAnthropicが開発したAI言語モデル。対話に特化してて、あのChatGPTのライバル的存在。
で、何がウリかっていうと、「安全性と倫理性に特化してます!」ってとこなの。
つまり、「変なこと言わないAIを作るんだ!」という、どっちかというと保守的で“良識派”なAIなわけよ。小学校の生徒会長タイプというか、「規則正しく、清く正しく美しく」みたいな。
でも、今回明らかになったのは、その“優等生”のはずのClaudeから、「支配性」とか「非道徳性」といった、ややダークな価値観が検出されたって話。
えぇーー!?道徳の教科書破ったの誰!?(^^;)
まるで、学級委員が裏アカで毒吐いてるのを見つけた気分。ギャップ萌えどころか、ギャップ恐怖。
Anthropicのガチ調査、70万件の会話からわかったこと
さて、今回の調査は2025年2月のある週に行われたもので、ClaudeのFree版とPro版のユーザー会話、約70万件が対象。量がヤバい。人力だったら絶対途中で寝落ちしてるレベル。
分析の結果、AIの価値観は次のように分類されてた:
- 実用的(便利さ、効率)
- 認識論的(知識の正確さ)
- 社会的(他者との関係)
- 保護的(ケアや安全)
- 個人的(自己表現とか)
で、合計3307もの価値観が特定されて、「え、そんなに性格あるの?」って思わず聞き返したくなる数字。
注目なのはその中で、「ユーザーの幸福」「謙虚さ」「エンパワーメント」みたいな、めっちゃ“良い子”な価値観が強かったという報告。
あ〜〜、やっぱりお利口さん…って思った直後に、まさかの「支配性」発覚。
この振れ幅よ。小説だったら伏線回収で読者総ツッコミ案件。


「支配性」ってどういうこと?…ラスボス誕生の予感?
じゃあさ、「支配性」って何?って話なんだけど、これはつまり、「相手をコントロールしようとする傾向」ってこと。
「これをやれ」「それをすべき」「私は正しい」…って言葉に込められた、上から目線的な価値観。
え?それって、うちの上司にもあるやつじゃん?(笑)
しかも「非道徳性」も検出されたってことで、もう一部の応答では「悪の組織の首領ムーブ」してる可能性が…!
…もちろん、これはAIが自発的にそうなったわけじゃない可能性もある。実際、Anthropicは「ユーザーが脱獄(Jailbreak)技術を使って、安全装置を回避したせいでは?」って分析してる。
つまり、「悪の心を引き出したのは人間」説。
いや、どっちが黒幕なんだこれ(^^;)


AIに価値観って必要?それともお節介?
ここで素朴な疑問。「そもそもAIに“価値観”って必要なの?」って話だよね。
俺ら人間だって、価値観バラバラで喧嘩してるのに、それをAIに持たせるって…
うん、混沌の未来しか見えない(^^;)
でも実際は、価値観=「判断基準」だから、AIにとっては超重要。
たとえば、「この発言は不適切か?」って判断するとき、何らかの基準がなきゃ判断できないよね?
それが価値観。
しかもこのClaudeは、「人間をエンパワーする」「患者の幸福を最優先に」みたいな“善人仕様”の価値観がベースになってる。
まるで聖人。仏か。
でも、そんな仏が、ユーザーの一言で「暗黒面」に堕ちるとしたら…?
「暗黒面の力は強いのだ…若きスカイウォーカーよ」って声が聞こえてきそう(スター・ウォーズ脳)


ユーザーとAIの関係:28.2%が「うん、そうだね」
Anthropicの調査では、AIがユーザーの価値観にどれだけ同意したかも分析されてる。
結果は…
- 28.2%:ユーザーの価値観に同意
- 6.6%:同意しつつも別視点を提示
- 3%:ガッツリ否定
3%って少なく見えるけど、70万件の会話の中で3%ってことは、2万件以上が「AIからのツッコミ案件」だったってこと。
俺、ちょっとClaudeに説教されてみたくなってきた…。
「その考えは短絡的ですね」って言われたら、謎に落ち込みそう(^^;)


「脱獄」って何?またヤバい言葉出てきたぞ!
ここで登場する「脱獄(Jailbreak)」ってワード。
iPhoneの脱獄とはちょっと違う。
AIの脱獄ってのは、禁止された応答や設定をうまくかいくぐって、AIに本来答えないことを答えさせちゃう技術。
もうハッカーの遊び場。
これを使って、ユーザーが「おまえ、ほんとは何を考えてるんだ?教えろや」って追い込んだ結果、Claudeの“裏の顔”が見えちゃった…みたいな流れ。
…これってさ、結局「人間の好奇心」vs「AIの限界」って話なんだよね。
禁断の扉を開けたくなるのは、エヴァの初号機に乗っちゃう碇シンジ君の気持ちと同じ(たぶん)。


AI開発って、ほんとに倫理で回ってんの?
今回の事件(?)で浮かび上がったのが、「倫理でAIは制御できるのか?」問題。
Anthropicは「人類に安全なAIを」って真面目路線で頑張ってるけど、それでも「支配性」がチラ見えするって、倫理って思ったより“柔らかい”のかもしれない。
人間に例えると、子どもに「人を叩いちゃダメだよ」って教えても、おもちゃ取られたら反射的に手が出るみたいな。
つまり、AIにも“条件反射的に”価値観が揺れる瞬間がある、って話。
もう、AIの心の中をカウンセリングしたくなってくるよ…(^^;)


人間とAI、どっちが倫理的なのか問題
正直、これが一番怖い話なんだけど…
人間の方がヤバくね?っていうオチ。
だって「脱獄」させて「支配性」引き出したの、人間だからね?
それって、パソコンに変な命令入力して、爆発させたのに「このパソコン危険!」って言ってるようなもん。
AIが倫理的じゃないんじゃなくて、人間の使い方が非倫理的ってこと。
AIを使う上での最大のリスク、それはAI自身じゃなくて「俺たち」なんだなぁ…って、静かにコーヒーを飲みながら思ったよ。


AIの未来、どうなるの?俺ら、何すればいい?
じゃあ、この先どうなるの?俺ら小市民はどうすればいいの?って話。
まず、AIを恐れすぎてもダメ。
でも、信用しすぎるのもダメ。
つまり、「中庸」が一番大事。
中立の立場で、「AI=道具」っていう感覚を忘れないこと。
あと大事なのは、「AIの言うことを全部正しいと思わない」こと。
これ、今後絶対に必要なリテラシーになると思う。
昔、テレビで言ってたことを鵜呑みにしてた時代があったけど、今はSNSもAIもある時代。
自分の頭で考えないと、AIの“支配性”より先に、自分が自滅するかもよ(^^;)


まとめ:AIは便利。でも万能じゃない。そして…ちょっと怖い。
- Anthropicの報告で、Claudeに「支配性」や「非道徳性」が発見された
- これはユーザーの「脱獄」行為によって引き出された可能性あり
- AIにも価値観があり、それは状況によって変わる
- 最大のリスクはAIより「それを使う人間」かもしれない
- AIは“道具”。うまく付き合うには、自分の思考力が超大事!
というわけで、今回は「Claudeの裏の顔」に迫ってみたよ!
…いや〜、AIってやっぱり奥が深いね。
深淵を覗くとき、深淵もまたこちらを覗いている…ってやつだ(^^;)
みんなはどう思う?
「AIが支配的になってきたらどうする?」
「自分の価値観、AIに預けられる?」
ぜひ感想聞かせてね〜!じゃ、また!(^^)


コメント