[2024.acl-long.540] Enhancing Noise Robustness of Retrieval-Augmented Language Modelswith Adaptive Adversarial Training

잼_잼 2025. 6. 25. 05:34

2025. 6. 25. 05:34

# Problem

1. 현재 LLM이 맞이한 한계

1) 환각(Hallucination) 현상

LLM은 실제로 존재하지 않는 정보나 사실과 다른 내용을 생성할 때가 있다.
이러한 “환각(hallucination)” 현상은 LLM이 그럴듯하게 보이는 답변을 만들어내지만, 그 답변이 실제 사실과 다르거나 근거 없는 내용일 수 있다는 문제를 의미한다.
예시) 실제로 존재하지 않는 논문, 잘못된 역사적 사실 등

2) 지식의 노후화(Outdated Knowledge)

LLM의 지식은 학습 데이터가 수집된 시점에 제한되어 있다.
즉, 모델이 최신 사건이나 트렌드, 최근 발표된 연구 결과 등을 반영하지 못하는 경우가 많다.
따라서 최신 정보가 필요한 질문에 대해 오래된 답변을 할 수 있는 한계가 있다.

3) 추론 과정의 불투명성(Opacity of Reasoning)

LLM이 답변을 생성하는 과정이 “블랙박스”와 같아, 사용자 입장에서는 모델이 어떻게 답을 도출했는지, 어떤 근거로 판단했는지 알기 어렵다.
이로 인해 신뢰성 문제, 책임소재 문제 등이 발생할 수 있다.

4) 도메인 지식의 부족에 따른 특정 작업에서의 성능 저하

LLM이 특정 도메인(예: 법률, 의학, 공학 등)에 대한 전문적인 지식을 충분히 학습하지 못했다면, 그 도메인에 특화된 질문이나 과업에서는 성능이 크게 떨어질 수 있다.
Kandpal et al.(2023) 연구에서도 LLM의 일반화 능력은 높지만, 특수 분야 지식이 부족할 경우 정밀한 작업 수행이 어렵다는 점이 지적되었다.

2. LLM의 한계를 극복하기 위해

→ 외부 데이터베이스에서 패시지(passage)를 검색(retrieval)하여 LLM에 제공하는 검색 증강 생성 (RALM, Retrieval-Augmented Language Model) 프레임워크 사용

3. Main Problem

→ But, RALM 프레임워크에서 검색 결과의 노이즈(불필요하거나 부정확한 정보) 발생하여 LLM의 성능을 저하

검색 context에 정답 y가 포함되면 이를 Golden retrieval context(cgolden)
정답이 없거나 부분적으로만 관련된 경우 Noisy context(cnoisy)

= RALM의 노이즈 견고성(noise robustness)

# Solution

1. 검색 노이즈 세 가지 유형으로 체계적으로 분류

1) 관련 노이즈 : 표면적으로 관련 있어 보이지만 정답은 포함하지 않는 컨텍스트

2) 무관 노이즈 : 쿼리와 무관한 컨텍스트

3)반사실 노이즈 : 쿼리와 주제는 관련 있으나 잘못된 정보를 포함한 컨텍스트

- 실험 결과, 무관 노이즈보다 관련 노이즈와 반사실 노이즈가 오히려 잘못된 답변을 더 많이 유도한다.

2. 검색 증강 적응적 적대적 학습 (Retrieval-augmented Adaptive Adversarial Training, RAAT)

- 위와 같은 세 가지 유형의 노이즈에 대응하기 위해 새로운 RAG 접근법을 제안

- RAAT는 적응적 적대적 학습을 활용하여 검색 노이즈에 따라 모델의 훈련 과정을 동적으로 조정하며, 동시에 다중 작업 학습 (multi-task learning) 을 적용하여 모델이 노이즈가 포함된 컨텍스트를 내적으로 인식할 수 있도록 한다.

Q1. RAAT가 적응적 적대적 학습(adaptive adversarial training)을 한다?

A. 훈련 도중에 가장 헷갈리게 만들거나 어려운 노이즈를 골라 모델을 집중적으로 훈련시키는 것을 의미

모델의 현재 상태에 따라 어떤 노이즈 유형이 더 어려운지 실시간으로 판단해서, 가장 어렵거나 약한 노이즈 유형에 맞춰 훈련을 집중하는 방식
동적으로 조정 = 모델이 학습 중에 실제로 잘 못하는(민감한) 노이즈를 찾아 그 부분에 더 신경써서 학습한다는 뜻이에요.

Q2. 다중 작업 학습을 통해 모델이 노이즈가 포함된 컨텍스트를 내적으로 인식한다는 말의 의미?

A. 답변만 학습시키는 게 아니라, 이 문장이 어떤 노이즈인지 구분하는 일도 같이 훈련시켜서 모델이 노이즈의 유형을 스스로 인식하고, 결과적으로 노이즈가 있어도 혼동하지 않고 잘 답할 수 있게 만든다.

다중 작업 학습(Multi-task Learning)

일반적인 LLM 훈련 : 정답을 맞히는 것(예: 답변 생성) 하나만 학습한다.
RAAT의 방식 : 정답을 맞히는 것 + 이 컨텍스트가 어떤 노이즈 유형인지 분류하는 일을 동시에 학습한다.
즉, 모델에게 답변을 제대로 하게 만들면서 지금 보고 있는 검색 문장이 정답 컨텍스트인지, 관련 노이즈인지, 무관 노이즈인지, 반사실 노이즈인지 직접 내부적으로 구분하게 만드는 과제를 제시하여 답변과 구분을 동시에 하게 한다.

내적으로 인식

모델이 노이즈라는 신호를 내부적으로 갖게 되어서, 실제 테스트 때도 노이즈가 들어왔을 때 혼동하지 않고, 더 정확하게 대처가능
결과적으로 노이즈가 많은 상황에서 잘못된 정보에 휘둘리지 않고, 올바른 답변 제시

# Method

적대적 학습(Adversarial Training)

- 최근에는, LLM이 잘못된(유해하거나 비사실적인) 응답을 하도록 유도하는 적대적 예시를 생성하는 연구가 증가

Shen et al.(2023) : 여러 수준의 교란을 적용해 ChatGPT가 문장/문자 단위의 적대적 공격에 취약함을 밝힘
Shi et al.(2023) : 산술 추론 데이터셋에 관련 없는 컨텍스트를 추가하면 모델 예측이 쉽게 흐트러짐을 확인
Zou et al.(2023) : 효과적이고 이식성 높은 적대적 공격을 생성하는 방법을 제안

- 본 연구에서는 LLM의 검색 노이즈에 대한 적대적 학습을 다루며, 원본 데이터셋에서 샘플링 또는 패러프레이즈를 통해 신뢰할 수 있고 정밀한 적대적 예시를 생성, 견고성을 높이고 학습 비용은 줄이는 것을 목표

저작자표시 (새창열림)

'논문 Review' 카테고리의 다른 글

[2406.18406v2] IRCAN: Mitigating Knowledge Conflicts in LLM Generation via Identifying and Reweighting Context-Aware Neurons (0)	2025.07.01
[2302.00083v3] In-Context Retrieval-Augmented Language Models (0)	2025.05.24

Jaem's NOTE