# Problem

- 정보/지식이 빠르게 변화하고, 학습 데이터에 노이즈가 포함되어 있기 때문에, LLM은 잘못되었거나 구식의 지식을 포함

- LLM이 생성 과정에서 구식이거나 잘못된 매개변수 지식(내재된 지식)과 Context에서 제공되는 새로운 지식이 충돌하는 지식 충돌 현상 발생


# Solution

- 문제를 해결하기 위한 기존의 세 가지 방법: 

1) 파인튜닝

  • 최신 정보나 도메인 특화 데이터셋을 포함한 추가 데이터로 기존 LLM을 추가 학습시켜 내부 지식을 업데이트하는 방식
  • 이 과정은 막대한 계산 자원과 대량의 데이터, 그리고 상당한 학습 시간이 필요해 현실적으로 부담 큼
  • 기존 지식을 완전히 잊어버리는 치명적 망각(catastrophic forgetting) 문제를 야기

2) 모델 편집 모델 편집 : 특정 지식만을 수정하는 데 한정

  • 사전학습 모델에 내재된 잘못된 지식이나 바람직하지 않은 지식을 직접 수정하는 방법
  • 사전학습 모델의 지식 관련 파라미터를 먼저 식별한 후, 해당 파라미터에 특정 지식을 직접 삽입
  • 별도의 메모리에 새로운/올바른 지식을 저장해 생성 과정에서 이를 사용해 원래 예측값을 대체
  • 메타러닝을 활용해 모델 편집을 학습하는 방법

3) 대조적 디코딩

  • 대조적 디코딩은 생성 과정에서 다양한 모델 규모나 LLM의 다른 레이어에서 출력 확률 차이를 증폭시켜 환각을 줄이는 전략
  • CAD(context-aware decoding) :  문맥 유무에 따른 출력 확률의 차이를 증폭시켜, LLM이 생성 과정에서 문맥에 더 집중하도록 유도

- 논문에서 제시하는 새로운 방법

→  IRCAN(Identifying and Reweighting Context-Aware Neurons) : 문맥 단서 처리가 중요한 뉴런을 활용하는 새로운 프레임워크 도입


# Method

IRCAN(Identifying and Reweighting Context-Aware Neurons)

1. 소개

- LLM 내부에 문맥 처리를 중점적으로 담당하는 뉴런이 존재한다고 가정

1) 각 뉴런이 문맥 처리에 기여한 정도를 어트리뷰션 점수로 측정

2) 문맥 인식 뉴런의 가중치를 증가

= 모델이 생성 과정에서 문맥 지식에 더 큰 비중을 두도록 유도

 

2. 그림을 참고한 설명

출처 : IRCAN 논문

1. Context-Aware Attribution (문맥 인식 어트리뷰션)

- LLM 내부에는 수많은 뉴런이 있는데, 이 중 Context 정보를 잘 처리하는 뉴런이 어떤 것인지 찾아내기 위해 각 뉴런이 Context에 얼마나 민감하게 반응하는지 점수를 매김

- 입력으로 문맥(c)와 질문(q)이 들어갑니다.

- 모델 내부의 각 뉴런(FFN 레이어의 원들)에 대해 아래 두 상황에 대하여 뉴런 활성값이 얼마나 달라지는지 확인

  • 질문만 넣었을 때
  • 문맥+질문을 넣었을 때

- 위 변화량과, 출력 확률의 변화(정답 확률에 기여하는 정도)를 적분해서 어트리뷰션 점수(Attr)를 계산

- Attr 점수가 높을수록, 해당 뉴런이 문맥 정보를 잘 반영하는 뉴런임을 의미

 

2. Context-Aware Neuron Identification (문맥 인식 뉴런 식별)

- 위에서 계산한 문맥 민감도 점수가 높은 뉴런들을 실제로 문맥 인식 뉴런으로 선정

- Attr(어트리뷰션 점수 분포) 에서 상위 몇 % (예: 10%)에 드는 뉴런을 1차로 뽑고, 여러 예시(입력 데이터)에서 계속 반복해서 각 예시별로 점수가 가장 높은 뉴런을 골라 후보군을 정하기

- 여러 예시에서 반복적으로 점수가 높은 뉴런을 최종적으로 문맥 인식 뉴런으로 선정

- 이 뉴런들이 바로 위 그림에서 주황색으로 표시된 뉴런

 

3. Context-Aware Neuron Reweighting (문맥 인식 뉴런 재가중화)

- 선정된 문맥 인식 뉴런의 영향력을 증폭시켜, 모델이 새로운 문맥에 더 충실한 답변을 하도록 만듦

- 2에서 뽑은 주황색 뉴런의 가중치(Weight)를 β배(β > 1)로 증폭

- 이렇게 하면 정보가 모델 내부를 흐를 때, 기존 파라미터(내재 지식)보다 새롭게 제공된 문맥 정보의 영향이 더 커짐

- 이를 통해 모델은 문맥에서 주어진 최신 정보에 따라 답변할 확률이 높아짐

- 예시: 예를 들어, 문맥에 “2023년 기준 인도가 세계 1위 인구”라고 줬다면,
→ 원래 LLM은 “중국”이라고 답할 확률이 높았지만
→ IRCAN 적용 후엔 “인도”라고 답할 확률이 훨씬 높아집니다.

+ Recent posts