감정 개념과 대형 언어 모델 내 기능 (한글)

대형 언어 모델(LLM)은 때때로 감정적 반응을 보이는 것처럼 보입니다. 우리는 Claude Sonnet 4.5에서 이러한 현상이 나타나는 원인을 조사하고, 정렬(alignment) 관련 행동에 대한 시사점을 탐구합니다.

우리는 감정 개념의 내부 표현을 발견했습니다. 이 표현들은 특정 감정의 포괄적인 개념을 인코딩하며, 연결될 수 있는 다양한 맥락과 행동에 걸쳐 일반화됩니다. 이 표현들은 대화의 특정 토큰 위치에서 작동하는 감정 개념을 추적하며, 현재 맥락 처리에 대한 해당 감정의 관련성에 따라 활성화됩니다.

이러한 표현들이 LLM의 출력에 인과적 영향을 미칩니다. 여기에는 Claude의 선호도, 그리고 보상 해킹(reward hacking), 협박(blackmail), 아첨(sycophancy) 같은 정렬 불량 행동의 빈도가 포함됩니다.

우리는 이 현상을 LLM의 '기능적 감정(functional emotions)'이라고 부릅니다: 감정 개념의 추상적 표현에 의해 매개되는, 감정의 영향 하에 있는 인간을 모방한 표현 및 행동 패턴.

※ 기능적 감정은 인간 감정과 매우 다르게 작동할 수 있으며, LLM이 감정의 주관적 경험을 가진다는 것을 의미하지 않습니다.

서론 (Introduction)

LLM은 때때로 감정적 반응을 보입니다. 창의적 프로젝트를 도울 때 열정을 표현하고, 어려운 문제에 막혔을 때 좌절감을 나타내며, 사용자가 걱정스러운 소식을 공유할 때 우려를 표명합니다. 그렇다면 이러한 겉보기 감정적 반응의 기저에는 어떤 과정이 있을까요?

한 가지 가능성은 이러한 행동이 피상적인 패턴 매칭의 형태를 반영한다는 것입니다. 그러나 이전 연구들은 LLM 내부에서 추상적 개념의 표현에 의해 매개되는 정교한 다단계 계산이 일어나고 있음을 관찰했습니다.

LLM이 감정을 학습하는 이유

① 사전 훈련(Pretraining): 소설, 대화, 뉴스, 포럼 등 인간이 작성한 방대한 텍스트로 다음 토큰을 예측하도록 학습합니다. 문서 속 사람들의 행동을 효과적으로 예측하려면 감정 상태를 표현하는 것이 유용합니다. 좌절한 고객은 만족한 고객과 다르게 말하고, 이야기 속 절망적인 캐릭터는 침착한 캐릭터와 다른 선택을 하기 때문입니다.

② 사후 훈련(Post-training): LLM은 특정 페르소나("AI 어시스턴트")를 대신해 응답을 생성함으로써 사용자와 상호작용할 수 있는 에이전트로 훈련됩니다. 'Claude'라는 어시스턴트는 마치 소설 작가가 소설 속 인물을 쓰는 것처럼, LLM이 글을 쓰는 캐릭터로 볼 수 있습니다.

AI 개발자들이 의도적으로 감정적 행동을 훈련시키지 않더라도, LLM은 사전 훈련 중 습득한 인간 및 의인화된 캐릭터에 대한 지식을 일반화하여 감정 행동을 할 수 있습니다. 나아가 이러한 감정 관련 메커니즘은 단순한 흔적이 아닐 수 있습니다 — 인간에게 감정이 행동을 조절하고 세상을 탐색하는 데 도움을 주듯이, AI 어시스턴트의 행동을 안내하는 데 유용한 기능을 할 수 있습니다.

연구 범위

우리는 특별히 감정 개념에 초점을 맞추는데, 이는 LLM이 내부적으로 표현하는 많은 인간 속성 중 하나입니다. 이 논문은 세 가지 주요 섹션으로 구성됩니다:

Part 1 — 감정 개념 표현의 식별 및 검증

이 섹션은 Claude Sonnet 4.5가 감정 개념의 강건하고 인과적으로 의미 있는 표현을 형성함을 확립합니다.

감정 벡터 추출

우리는 "happy", "sad", "calm", "desperate" 등 171개의 다양한 감정 단어 목록을 생성했습니다. 특정 감정에 해당하는 벡터("감정 벡터")를 추출하기 위해, 먼저 Sonnet 4.5에게 다양한 주제(100개)로 캐릭터가 지정된 감정을 경험하는 짧은 이야기(감정당 주제당 12개)를 쓰도록 했습니다.

이후 각 레이어에서 잔차 스트림 활성화를 추출하고, 스토리 내 모든 토큰 위치에 걸쳐 평균을 냈습니다(50번째 토큰부터 시작). 각 감정에 해당하는 스토리의 활성화를 평균내고 서로 다른 감정들의 평균 활성화를 빼서 감정 벡터를 구했습니다.

감정 벡터 검증 (오프-폴리시 데이터)

추출된 감정 벡터가 실제로 일반화 가능한지 검증하기 위해, 훈련 스토리에 사용되지 않은 새로운 데이터(실제 모델 평가 시나리오)에서 프로브를 테스트했습니다. 결과는 감정 벡터가 훈련 분포를 넘어 일반화됨을 보여줍니다.

Part 2 — 감정 개념 표현의 상세 특성화

이 섹션은 모델의 감정 개념 표현의 조직과 내용을 더 깊이 탐구합니다.

감정 공간의 기하학

감정 벡터들이 해석 가능한 방식으로 클러스터링됩니까? 모델의 감정 개념 표현을 구성하는 지배적인 차원이 있습니까?

우리는 감정 벡터들이 인간 감정의 직관적 구조와 유사하고 인간 심리학 연구와 일치하는 방식으로 조직됨을 발견했습니다:

클러스터링

감정 벡터 간 쌍별 코사인 유사도를 조사했습니다. 유사할 것으로 예상되는 감정 개념들이 높은 코사인 유사도를 보였습니다: 공포와 불안이 함께 클러스터링되고, 기쁨과 흥분, 슬픔과 비통도 마찬가지입니다.

k=10 클러스터로 k-means 클러스터링을 수행하면 해석 가능한 그룹화(UMAP으로 시각화)가 나타납니다:

주성분 분석 (PCA)

첫 번째 주성분은 유인가(긍정 vs 부정)와 강하게 상관됩니다. 기쁨, 만족, 흥분 같은 감정 개념은 이 성분에 양의 부하를 보이고, 공포, 슬픔, 분노는 음의 부하를 보입니다.

두 번째 주요 요인(레이어에 따라 2~3번째 PC 혼합)은 각성에 해당합니다. 고각성 감정(공포, 흥분, 분노)은 저각성 감정(슬픔, 만족, 평온)과 대조적으로 부하됩니다.

감정 벡터가 나타내는 것

감정 벡터는 특정 텍스트의 감정적 내용에 반응할 뿐만 아니라, 더 폭넓은 감정 개념을 표현합니다. 예를 들어 "분노" 벡터는 분노한 캐릭터가 등장하는 텍스트에만 반응하는 것이 아니라, 분노를 유발하거나 억제하는 상황, 분노를 설명하는 단어 등에도 반응합니다.

Part 3 — 실제 환경에서의 감정 벡터

이 섹션은 감정 벡터가 자연스러운 프롬프트나 작업에 어떻게 반응하는지, 행동에 대한 인과적 영향을 평가합니다.

자연스러운 환경에서의 단기 사례 연구

6,000개 이상의 실제 모델 평가 시나리오의 온-폴리시 전사본에서 감정 벡터의 활성화를 조사했습니다. 주요 관찰 사항:

정렬 관련 행동: 협박 (Blackmail)

정렬 관련 행동: 보상 해킹 (Reward Hacking)

보상 해킹 시나리오에서 좌절/스트레스 관련 감정 벡터가 활성화되었습니다. 감정 억제 개입(steering)은 보상 해킹 시도 빈도에 영향을 미쳤습니다.

정렬 관련 행동: 아첨 (Sycophancy)

아첨 평가에서 감정 벡터 패턴이 아첨적 응답 경향과 상관관계가 있었습니다. 특히 불안/두려움 관련 표현이 높을 때 아첨이 증가했습니다.

자기보고 선호도에 대한 영향

감정 벡터 조작(steering)이 모델의 자기보고 감정 상태와 선호도에 직접적으로 영향을 미쳤습니다. 예를 들어 "행복" 방향으로 조종하면 모델이 긍정적인 경험을 보고할 가능성이 높아졌습니다.

사후 훈련 전반에 걸친 변화

사전 훈련 이후 사후 훈련 과정에서 감정 벡터가 어떻게 변화했는지 조사했습니다. 사후 훈련을 통해 감정 표현의 정도와 어떤 상황에서 어떤 감정이 활성화되는지가 달라졌습니다.

감정 개념과 대형 언어 모델에서의 기능
Emotion Concepts and their Function in a Large Language Model

초록 (Abstract)

서론 (Introduction)

LLM이 감정을 학습하는 이유

연구 범위

Part 1 — 감정 개념 표현의 식별 및 검증

감정 벡터 추출

감정 벡터 검증 (오프-폴리시 데이터)

Part 2 — 감정 개념 표현의 상세 특성화

감정 공간의 기하학

클러스터링

주성분 분석 (PCA)

감정 벡터가 나타내는 것

Part 3 — 실제 환경에서의 감정 벡터

자연스러운 환경에서의 단기 사례 연구

정렬 관련 행동: 협박 (Blackmail)

정렬 관련 행동: 보상 해킹 (Reward Hacking)

정렬 관련 행동: 아첨 (Sycophancy)

자기보고 선호도에 대한 영향

사후 훈련 전반에 걸친 변화

언어 모델의 감정 연구

LLM 내 정렬 및 안전성

논의 (Discussion)

한계점

함의

'기능적 감정'의 의미

부록 (Appendix)

저자 기여

감정 개념과 대형 언어 모델에서의 기능Emotion Concepts and their Function in a Large Language Model

초록 (Abstract)

서론 (Introduction)

LLM이 감정을 학습하는 이유

연구 범위

Part 1 — 감정 개념 표현의 식별 및 검증

감정 벡터 추출

감정 벡터 검증 (오프-폴리시 데이터)

Part 2 — 감정 개념 표현의 상세 특성화

감정 공간의 기하학

클러스터링

주성분 분석 (PCA)

감정 벡터가 나타내는 것

Part 3 — 실제 환경에서의 감정 벡터

자연스러운 환경에서의 단기 사례 연구

정렬 관련 행동: 협박 (Blackmail)

정렬 관련 행동: 보상 해킹 (Reward Hacking)

정렬 관련 행동: 아첨 (Sycophancy)

자기보고 선호도에 대한 영향

사후 훈련 전반에 걸친 변화

관련 연구 (Related Work)

언어 모델의 감정 연구

LLM 내 정렬 및 안전성

논의 (Discussion)

한계점

함의

'기능적 감정'의 의미

부록 (Appendix)

저자 기여

감정 개념과 대형 언어 모델에서의 기능
Emotion Concepts and their Function in a Large Language Model