[2406.18406v2] IRCAN: Mitigating Knowledge Conflicts in LLM Generation via Identifying and Reweighting Context-Aware Neurons

잼_잼 2025. 7. 1. 12:26

2025. 7. 1. 12:26

# Problem

- 정보/지식이 빠르게 변화하고, 학습 데이터에 노이즈가 포함되어 있기 때문에, LLM은 잘못되었거나 구식의 지식을 포함

- LLM이 생성 과정에서 구식이거나 잘못된 매개변수 지식(내재된 지식)과 Context에서 제공되는 새로운 지식이 충돌하는 지식 충돌 현상 발생

# Solution

- 문제를 해결하기 위한 기존의 세 가지 방법:

1) 파인튜닝

최신 정보나 도메인 특화 데이터셋을 포함한 추가 데이터로 기존 LLM을 추가 학습시켜 내부 지식을 업데이트하는 방식
이 과정은 막대한 계산 자원과 대량의 데이터, 그리고 상당한 학습 시간이 필요해 현실적으로 부담 큼
기존 지식을 완전히 잊어버리는 치명적 망각(catastrophic forgetting) 문제를 야기

2) 모델 편집 모델 편집 : 특정 지식만을 수정하는 데 한정

사전학습 모델에 내재된 잘못된 지식이나 바람직하지 않은 지식을 직접 수정하는 방법
사전학습 모델의 지식 관련 파라미터를 먼저 식별한 후, 해당 파라미터에 특정 지식을 직접 삽입
별도의 메모리에 새로운/올바른 지식을 저장해 생성 과정에서 이를 사용해 원래 예측값을 대체
메타러닝을 활용해 모델 편집을 학습하는 방법

3) 대조적 디코딩

대조적 디코딩은 생성 과정에서 다양한 모델 규모나 LLM의 다른 레이어에서 출력 확률 차이를 증폭시켜 환각을 줄이는 전략
CAD(context-aware decoding) : 문맥 유무에 따른 출력 확률의 차이를 증폭시켜, LLM이 생성 과정에서 문맥에 더 집중하도록 유도

- 논문에서 제시하는 새로운 방법

→ IRCAN(Identifying and Reweighting Context-Aware Neurons) : 문맥 단서 처리가 중요한 뉴런을 활용하는 새로운 프레임워크 도입

# Method

IRCAN(Identifying and Reweighting Context-Aware Neurons)

1. 소개

- LLM 내부에 문맥 처리를 중점적으로 담당하는 뉴런이 존재한다고 가정

1) 각 뉴런이 문맥 처리에 기여한 정도를 어트리뷰션 점수로 측정

2) 문맥 인식 뉴런의 가중치를 증가

= 모델이 생성 과정에서 문맥 지식에 더 큰 비중을 두도록 유도

2. 그림을 참고한 설명

1. Context-Aware Attribution (문맥 인식 어트리뷰션)

- LLM 내부에는 수많은 뉴런이 있는데, 이 중 Context 정보를 잘 처리하는 뉴런이 어떤 것인지 찾아내기 위해 각 뉴런이 Context에 얼마나 민감하게 반응하는지 점수를 매김

- 입력으로 문맥(c)와 질문(q)이 들어갑니다.

- 모델 내부의 각 뉴런(FFN 레이어의 원들)에 대해 아래 두 상황에 대하여 뉴런 활성값이 얼마나 달라지는지 확인

질문만 넣었을 때
문맥+질문을 넣었을 때

- 위 변화량과, 출력 확률의 변화(정답 확률에 기여하는 정도)를 적분해서 어트리뷰션 점수(Attr)를 계산

- Attr 점수가 높을수록, 해당 뉴런이 문맥 정보를 잘 반영하는 뉴런임을 의미

2. Context-Aware Neuron Identification (문맥 인식 뉴런 식별)

- 위에서 계산한 문맥 민감도 점수가 높은 뉴런들을 실제로 문맥 인식 뉴런으로 선정

- Attr(어트리뷰션 점수 분포) 에서 상위 몇 % (예: 10%)에 드는 뉴런을 1차로 뽑고, 여러 예시(입력 데이터)에서 계속 반복해서 각 예시별로 점수가 가장 높은 뉴런을 골라 후보군을 정하기

- 여러 예시에서 반복적으로 점수가 높은 뉴런을 최종적으로 문맥 인식 뉴런으로 선정

- 이 뉴런들이 바로 위 그림에서 주황색으로 표시된 뉴런

3. Context-Aware Neuron Reweighting (문맥 인식 뉴런 재가중화)

- 선정된 문맥 인식 뉴런의 영향력을 증폭시켜, 모델이 새로운 문맥에 더 충실한 답변을 하도록 만듦

- 2에서 뽑은 주황색 뉴런의 가중치(Weight)를 β배(β > 1)로 증폭

- 이렇게 하면 정보가 모델 내부를 흐를 때, 기존 파라미터(내재 지식)보다 새롭게 제공된 문맥 정보의 영향이 더 커짐

- 이를 통해 모델은 문맥에서 주어진 최신 정보에 따라 답변할 확률이 높아짐

- 예시: 예를 들어, 문맥에 “2023년 기준 인도가 세계 1위 인구”라고 줬다면,
→ 원래 LLM은 “중국”이라고 답할 확률이 높았지만
→ IRCAN 적용 후엔 “인도”라고 답할 확률이 훨씬 높아집니다.

저작자표시 (새창열림)

'논문 Review' 카테고리의 다른 글

[2024.acl-long.540] Enhancing Noise Robustness of Retrieval-Augmented Language Modelswith Adaptive Adversarial Training (0)	2025.06.25
[2302.00083v3] In-Context Retrieval-Augmented Language Models (0)	2025.05.24

Jaem's NOTE