김재민 (Kim Jaemin)

* updated 2026.03.21 (토)

 

1. EDUCATION

2014.03 ~ 2017.02 수원 영일중학교 [졸업]
2017.03 ~ 2020.02 수원 창현고등학교 [졸업]
2020.03 ~ 2021.02 명지대학교 경영학과 [자퇴]
2021.03 ~ 한양대학교 ERICA 소프트웨어학과 [재학]

2. Internship

2025.03 ~ 2026.02 ERICA 소프트웨어융합대학 컴퓨터학부 박서연 교수님 학부연구생 https://ark.hanyang.ac.kr/
2026.03 ~ POSTECH 인공지능학과 김형훈 교수님 연구 인턴 https://sites.google.com/view/language-intelligence-lab

3. CAREER

기 간 내 용 비 고
2022.01 ~ 2022.04 ERICA 소프트웨어융합대학 소프트웨어학과 비상대책위원회  
2022.01 ~ 2022.12 ERICA 소프트웨어융합대학 알고리즘학회 0&1 홍보국장  
2022.03 ~ 2023.02 ERICA 소프트웨어융합대학 알고리즘학회 0&1 스터디멘토  
2023.04 ~ 2024.10 육군 지작사령부 특수기동지원여단 병장 만기전역  
2025.03 ~ 2025.07 KB - Polaris 대학생 경제금융교육봉사단 24기 http://www.ilovepolaris.co.kr/
2025.01 ~ 2025.12 ERICA 소프트웨어융합대학 알고리즘학회 0&1 회장  
2025.03 ~ 2025.12 ERICA 소프트웨어융합대학 알고리즘학회 0&1 스터디멘토  
2025.03 ~ 2025.12 ERICA 전공알림단 휴아로 12기  
2026.03 ~  ERICA 전공알림단 휴아로 13기  

 

4. Activities

기 간 내 용 비 고
2025.02 ~ 2025.05 2025 HEPC (Hanyang ERICA Programming Contest) 총괄 운영 대회 기획 및 운영 전반 리딩
2025.02 ~ 2025.05 2025 HEPC (Hanyang ERICA Programming Contest) 출제진 알고리즘 문제 출제 및 검토
2025.06 ~ 2025.07 2025 원곡고등학교 교육 봉사 총괄 운영 봉사 기획 및 운영 / AI 담당
2025.07 ~ 2025.11 2025 ZOAC (Zero One Algorithm Contest) 총괄 운영 대회 기획 및 운영 전반 리딩
2025.07 ~ 2025.11 2025 ZOAC (Zero One Algorithm Contest) 출제진 알고리즘 문제 출제 및 검토
2026.02 ~  2025 HEPC (Hanyang ERICA Programming Contest) 총괄 운영 대회 기획 및 운영 전반 리딩
2026.02 ~  2025 HEPC (Hanyang ERICA Programming Contest) 출제진 알고리즘 문제 출제 및 검토

 

5. RESEARCH INTEREST

- DeepLearning
- Natural Language Processing (NLP)
- Retrieval-Augmented Generation (RAG)

 

6. Programming Skills

 -  사용 가능 언어 : C, C++, Python, JAVA, PostgreSQL  
 -  C++을 활용하여 백준 알고리즘 사이트에서 1200문제 해결 및 플레티넘5 레벨 달성 https://www.acmicpc.net/user/jaemkim01
 -  Git을 활용한 팀 협업 및 코드 배포 https://github.com/Jaemin0730

 

7. Certificate

 -  TOEIC 780 (2025.02)
 -  정보처리기능사 (2024.09)
 -  ADSP (2024.11)
 -  SQLD (2024.12)
 -  2025 AI 융합 아이디어톤 우수상 (2025.11.01)
 -  2025 한양대학교 SW융합인(TOPCIT) (2025.12) 

 

# GPU 사용시 주로 사용하는 명령어 소개

- 서버 내에서 공용 GPU 사용시, 누가 얼마나 사용중인지 확인 가능하다.

 

1. nvidia-smi

nvidia-smi

- 그림과 같이 GPU의 종류, 개수, 현재 얼마나 사용하고 있는지 등을 알 수 있다.

 

2. gpustat

gpustat

- 각 gpu의 어떠한 사용자가 얼마만큼의 메모리를 쓰고 있는지 알 수 있다.

'Linux' 카테고리의 다른 글

[명령어] tmux  (0) 2025.07.02

# tmux 소개

- 터미널 멀티플렉서(Terminal Multiplexer)로, 하나의 터미널 창에서 여러 세션, 창, 패널을 동시에 관리할 수 있게 해주는 프로그램

 

# tmux 사용법 

1. 새 세션 시작 (이름: mysession)

tmux new -s mysession

- 그림과 같은 새로운 terminal에서 작업 가능

- 장점 : VS를 종료해도, tmux는 켜져있기에 딥러닝 학습 가능

 

2. 세션에서 빠져나오기(분리)

Ctrl+b
d

 

3. 다시 붙기

tmux attach -t mysession

 

4. 삭제 / 전체 삭제

# 임의 삭제
tmux kill-session -t mysession

# 전체삭제
tmux kill-server

 

5. 세션 목록 확인

tmux ls

 

6. 출력 로그(위쪽 내용) 스크롤

Ctrl + b
[

- 스크롤/복사 모드로 진입

- 방향키(↑, ↓) 또는 PgUp/PgDn으로 위아래로 이동해서 로그 보기

- 로그 다 보면 q / ESC를 누르면 원래 상태로 복귀

'Linux' 카테고리의 다른 글

[명령어] GPU 사용 관련  (0) 2025.07.14

# Problem

- 정보/지식이 빠르게 변화하고, 학습 데이터에 노이즈가 포함되어 있기 때문에, LLM은 잘못되었거나 구식의 지식을 포함

- LLM이 생성 과정에서 구식이거나 잘못된 매개변수 지식(내재된 지식)과 Context에서 제공되는 새로운 지식이 충돌하는 지식 충돌 현상 발생


# Solution

- 문제를 해결하기 위한 기존의 세 가지 방법: 

1) 파인튜닝

  • 최신 정보나 도메인 특화 데이터셋을 포함한 추가 데이터로 기존 LLM을 추가 학습시켜 내부 지식을 업데이트하는 방식
  • 이 과정은 막대한 계산 자원과 대량의 데이터, 그리고 상당한 학습 시간이 필요해 현실적으로 부담 큼
  • 기존 지식을 완전히 잊어버리는 치명적 망각(catastrophic forgetting) 문제를 야기

2) 모델 편집 모델 편집 : 특정 지식만을 수정하는 데 한정

  • 사전학습 모델에 내재된 잘못된 지식이나 바람직하지 않은 지식을 직접 수정하는 방법
  • 사전학습 모델의 지식 관련 파라미터를 먼저 식별한 후, 해당 파라미터에 특정 지식을 직접 삽입
  • 별도의 메모리에 새로운/올바른 지식을 저장해 생성 과정에서 이를 사용해 원래 예측값을 대체
  • 메타러닝을 활용해 모델 편집을 학습하는 방법

3) 대조적 디코딩

  • 대조적 디코딩은 생성 과정에서 다양한 모델 규모나 LLM의 다른 레이어에서 출력 확률 차이를 증폭시켜 환각을 줄이는 전략
  • CAD(context-aware decoding) :  문맥 유무에 따른 출력 확률의 차이를 증폭시켜, LLM이 생성 과정에서 문맥에 더 집중하도록 유도

- 논문에서 제시하는 새로운 방법

→  IRCAN(Identifying and Reweighting Context-Aware Neurons) : 문맥 단서 처리가 중요한 뉴런을 활용하는 새로운 프레임워크 도입


# Method

IRCAN(Identifying and Reweighting Context-Aware Neurons)

1. 소개

- LLM 내부에 문맥 처리를 중점적으로 담당하는 뉴런이 존재한다고 가정

1) 각 뉴런이 문맥 처리에 기여한 정도를 어트리뷰션 점수로 측정

2) 문맥 인식 뉴런의 가중치를 증가

= 모델이 생성 과정에서 문맥 지식에 더 큰 비중을 두도록 유도

 

2. 그림을 참고한 설명

출처 : IRCAN 논문

1. Context-Aware Attribution (문맥 인식 어트리뷰션)

- LLM 내부에는 수많은 뉴런이 있는데, 이 중 Context 정보를 잘 처리하는 뉴런이 어떤 것인지 찾아내기 위해 각 뉴런이 Context에 얼마나 민감하게 반응하는지 점수를 매김

- 입력으로 문맥(c)와 질문(q)이 들어갑니다.

- 모델 내부의 각 뉴런(FFN 레이어의 원들)에 대해 아래 두 상황에 대하여 뉴런 활성값이 얼마나 달라지는지 확인

  • 질문만 넣었을 때
  • 문맥+질문을 넣었을 때

- 위 변화량과, 출력 확률의 변화(정답 확률에 기여하는 정도)를 적분해서 어트리뷰션 점수(Attr)를 계산

- Attr 점수가 높을수록, 해당 뉴런이 문맥 정보를 잘 반영하는 뉴런임을 의미

 

2. Context-Aware Neuron Identification (문맥 인식 뉴런 식별)

- 위에서 계산한 문맥 민감도 점수가 높은 뉴런들을 실제로 문맥 인식 뉴런으로 선정

- Attr(어트리뷰션 점수 분포) 에서 상위 몇 % (예: 10%)에 드는 뉴런을 1차로 뽑고, 여러 예시(입력 데이터)에서 계속 반복해서 각 예시별로 점수가 가장 높은 뉴런을 골라 후보군을 정하기

- 여러 예시에서 반복적으로 점수가 높은 뉴런을 최종적으로 문맥 인식 뉴런으로 선정

- 이 뉴런들이 바로 위 그림에서 주황색으로 표시된 뉴런

 

3. Context-Aware Neuron Reweighting (문맥 인식 뉴런 재가중화)

- 선정된 문맥 인식 뉴런의 영향력을 증폭시켜, 모델이 새로운 문맥에 더 충실한 답변을 하도록 만듦

- 2에서 뽑은 주황색 뉴런의 가중치(Weight)를 β배(β > 1)로 증폭

- 이렇게 하면 정보가 모델 내부를 흐를 때, 기존 파라미터(내재 지식)보다 새롭게 제공된 문맥 정보의 영향이 더 커짐

- 이를 통해 모델은 문맥에서 주어진 최신 정보에 따라 답변할 확률이 높아짐

- 예시: 예를 들어, 문맥에 “2023년 기준 인도가 세계 1위 인구”라고 줬다면,
→ 원래 LLM은 “중국”이라고 답할 확률이 높았지만
→ IRCAN 적용 후엔 “인도”라고 답할 확률이 훨씬 높아집니다.

# RAG 구조

출처: LlamaIndex 문서

- 질문 → Retriever + Reranker + Generator(LLM) → 최종 답변


# 기존 LLM의 단점

지식 업데이트 한계

  • LLM은 훈련 시점까지의 데이터만 기억함. 최신 정보, 실시간 데이터, 특정 도메인(법률, 의료 등) 세부사항 반영이 어려움
  • 예시: “2025년 최신 연구 결과” 등은 알지 못함

Hallucination(환각) 문제

  • 그럴듯해 보이지만 실제로는 사실과 다른 정보를 자신있게 생성하는 현상
  • 예시: “실제로 존재하지 않는 논문이나 상품명을 만들어내는 경우”

외부 데이터 활용의 한계

  • 사용자가 제공한 문서, 웹 검색 결과, 사내 데이터 등 훈련 데이터에 없는 정보는 즉각 활용 불가

특정 분야 지식 부족

  • 도메인 특화된 질문(예: 금융, 의료, 산업 현장 용어 등)에 대해 부정확하거나 모호하게 답할 수 있음

지식 유지 비용

  • LLM의 지식을 갱신하려면 대규모 파인튜닝 또는 재학습이 필요
  • 이 과정은 비용과 시간이 많이 소비

# 이를 해결한 RAG

실시간 지식 확장

  • LLM에 외부 문서/DB/웹 등 “최신 정보”를 검색해 즉시 활용
  • ex) 위키피디아, 내부 매뉴얼, 논문, 기업 문서 등

정확성/신뢰도 향상

  • 실제 공식 문서에서 뽑아온 근거 기반으로 답변
  • Hallucination(환각) 문제 완화
  • 답변의 “출처”를 명확히 제시 가능

유연성/확장성

  • 훈련 데이터에 없는 정보도, 검색기로 연결만 하면 즉시 반영
  • 새로운 분야의 데이터 추가가 용이(LLM 재학습 없이도 적용)

도메인 특화 대응

  • 기업 내부 데이터, 법률, 의료 등 특정 도메인에 특화된 지식 활용 가능

효율적 지식 관리

  • 기존 LLM 파라미터는 건드리지 않고, 외부 문서만 갱신하면 최신 정보 활용 가능 → 유지/관리 비용 절감

# 구조 소개

1. Retriever (검색기)

역할 :

- 질문(Query)에 대해, 외부 문서 데이터베이스(코퍼스, 위키피디아, 외부 문서 등)에서 관련 문서를 빠르게 찾아낸다.

- 검색기는 “빠르고 효율적인 후보 문서 필터링” 역할만 수행하며, 최종 답변은 LLM이 생성한다.

종류 :

- Sparse(희소) vs Dense(밀집) Retriever 용어 구분

  • Sparse : 단어 단위 빈도에 기반 (ex. BM25, TF-IDF)
  • Dense : 의미 기반 임베딩 사용 (ex. DPR, BERT, ColBERT)
  • Hybrid : 두 가지 방식을 결합해 더 높은 검색 성능을 달성할 수 있음

- Dense Retriever 세부

  • Bi - Encoder : 쿼리/문서를 각각 임베딩 (예: DPR)
  • Cross-Encoder : 쿼리-문서를 함께 입력, 더 정확하지만 느림 (주로 reranking에 사용)

- Unsupervised Retriever: 학습 데이터 없이 임베딩 학습 (예: Contriever)

결과 :

- Top-K(예: 10, 20, 50)개의 문서/문단/문장과 함께, 각 결과는 아래 정보를 포함할 수 있음:

  • 원본 텍스트 : 검색된 문서의 일부 또는 전체
  • 관련성 점수(Similarity Score) : 쿼리와의 유사도(예: cosine similarity)
  • 문서 출처/ID : 어떤 문서(데이터베이스 내 위치, URL, 파일명 등)에서 나온 것인지
  • 문서 내 위치 정보 : 문서의 몇 번째 문단, 어느 챕터 등 세부 정보
  • 추가 메타데이터 : 날짜, 작성자, 요약 등(선택적)

 

2. (선택적) Reranker

역할:

- Retriever가 가져온 Top-K 후보(문서, 문단, 문장) 리스트를 “더 똑똑한 모델”로 다시 한 번 평가해서, 질문과 가장 밀접한 순서로 재정렬하는 역할을 한다.

- Reranker가 왜 필요할까?

  • Retriever는 보통 빠른 검색(속도)에 최적화되어 있어서, 의미상 완전히 맞지 않는 결과도 섞여 나올 수 있다.
  • 특히 Dense Retriever(임베딩 기반)의 경우, 문장 단위 fine-grained 매칭이 어렵거나, 질문 맥락을 충분히 반영 못할 수 있다.
  • 그래서 더 정교한(비교적 느리지만 정확한) 모델로 Top-K를 다시 평가하는 단계가 필요하다. (선택적)

모델 :

1) Cross - Encoder

- 쿼리와 후보 문서를 함께 입력으로 받아, 관련성 점수를 바로 산출.

[CLS] 질문 [SEP] 문서 [SEP]

- 장점 : 쿼리와 문서의 세밀한 상호작용(Attention)을 반영할 수 있어, 정밀한 매칭이 가능

- 단점 : 후보마다 쿼리-문서 페어를 모두 입력해야 하므로 속도가 느리고, Top-100 전체를 평가하려면 계산량이 큼

2) MonoT5

- T5 계열 모델로,
                   →  입력 : “Query: ... Document: ...”
                   →  출력 : 관련성 점수(또는 “관련 있음/없음” 레이블)

- 장점: 자연어 이해 기반, 다양한 도메인에 쉽게 활용하고, “관련 있음/없음” 등 분류 또는 score regression 모두 가능하다.

3) MiniLM 등

  • BERT를 경량화한 모델, 상대적으로 빠름
  • Cross-Encoder나 Bi-Encoder로도 활용 가능

4) 최근 트렌드:

LLM 기반 Reranker

  • GPT-4, Llama2 등 대형 언어모델을 활용해, “이 문서가 정말 답변에 도움이 되는가?”를 문맥 기반으로 평가
  • 장점: 아주 복잡한 문맥·질의도 이해
  • 단점: 매우 느릴 수 있음(실서비스에서는 실용성에 한계가 있음)

 

3. Generator (생성기)

역할

- Retriever(+Reranker)로 선별된 관련 문서(context)를 받아, LLM이 이를 활용해 최종 답변, 요약, 문서 생성 등 자연어 결과물을 생성한다.

- LLM이 외부 지식을 바탕으로 사실에 근거한 정교한 답변을 내도록 만드는 핵심 단계이다.

모델

- LLM(대형언어모델) : GPT-3, GPT-4, Llama, GPT-NeoX, T5 등

  • Decoder-only : GPT 시리즈 (생성 특화), Llama 등
  • Encoder-Decode r: T5 등 (질문-응답, 요약 등에 강점)

입력(프롬프트 구성)

- 가장 단순한 형태 :

[질문]
[관련 문서1]
[관련 문서2]
...
 

- Context Format 설계가 성능에 매우 중요! : 문서 요약본, 하이라이트, 표/목록 형태 등으로 활용된다.

- Chain-of-Thought, rationale 등 reasoning 과정까지 프롬프트에 추가해 추론 기반 답변 생성 가능

출력

- 자연어 답변을 기본으로 출력한다.

- 추가적으로 필요시 제공 :

  • 요약본
  • 표, 리스트
  • 문서 생성, 코드 생성, 문단 추천 등 다양한 형태

동작 방식

1) 질문 + 관련 문서들 → LLM의 context로 입력

2) LLM은 내부 파라미터 지식 + context를 통합하여 최적의 자연어 답변 생성

3) (특정 설정) chain-of-thought, self-reflection 등 reasoning 요구 가능

예시 (프롬프트 및 출력)

Q: "RAG는 어떻게 동작하나요?"
[Context-1] "RAG는 검색기와 생성기를 결합한 NLP 프레임워크이다..."
[Context-2] "Dense retriever와 cross-encoder reranker로 관련 문서를 선별한다..."

A: "RAG는 먼저 사용자의 질문과 관련된 외부 문서를 검색한 후, 선별된 문서를 바탕으로 LLM이 최종 답변을 생성하는 방식입니다..."

고급 기법 및 최근 트렌드

  • Chain-of-Thought Generation:
    답변만 출력하지 않고, reasoning 과정을 단계별로 설명하며 답변
    → 복잡한 문제나 논리적 reasoning이 필요한 과제에서 성능 향상
  • Self-RAG, Reflection 기반:
    LLM이 중간중간 “검색이 더 필요한지” 등 자기평가/재질문 가능
  • RAG LLM Fine-tuning:
    생성기가 외부 컨텍스트 활용을 더 잘하도록, context-aware하게 추가 학습시키는 연구도 활발
  • Knowledge Conflict Handling:
    외부 context와 LLM 내부지식이 충돌할 때, “어떤 정보를 우선할지” 결정하는 decoding/모델편집 기법 연구

 

# 4화에서 내 마음을 울린 대사

유미지:

"뜨개질의 효능은 아무 생각도 안 드는거야.

백수생활은 생각과 시간의 싸움인데

남들 다 일할 때 혼자 집에 있다 보면 생각이 많아지고

생각이 많아지면 시간 감각이 사라지고

저 시계가 고장 났나 싶다가도

정신 차려보면 하루가 그냥 막 다 가 있고

그때 드는 생각의 99퍼는 쓸데없는 생각이야!!!!!!!

지나간 일은 생각해 봤자 후회뿐이고

닥칠 일은 생각해 봤자 불안하기만 하고

뭔 생각이 든다 싶으면 뜨개질을 해!

오늘 하루만 버티자................!

하루 버티면 새로운 무언가가 생기고,

새로운 일이 안생겨도 수세미가 생기니까!"


최근의 힘든 일이 많았다. 사실 나도 유미지처럼 하루에 스스로를 자책한 적도 많고 힘든 나날도 많았고 늘 불안했었다.

근데 나뿐만 아니라 모든 현대인들은 다 같은 생각을 하는 것 같다. 저 장면에서 많은 사람들이 공감을 하더라고.....

저 대사가 정말 내 심경을 울리는 멘트였다. 난 왜 저렇게 생각하지 못했지? 난 왜 맨날 나 스스로 자책하고 슬퍼했을까?

저 장면은 유미지가 자책하는 친구한테 위로해주는 장면이었다.

아, 나에게는 왜 유미지같이 내 주변에서 나에게 저런 말을 해주는 사람이 없었을까? 라는 생각도 잠시, 아 아니지!! 내가 저렇게 도움되는 말을 해주는 사람이 되어야겠다!! 라는 다짐을 하기도 했었다 ㅎㅎㅎㅎ

 

아직 4화까지밖에 안보았지만, 정말 주옥같은 멘트들이 많은거 같다! 열심히 적어두장

'취미' 카테고리의 다른 글

0. 시작 - 나의 취미란?  (2) 2025.02.28

# Problem

1. 현재 LLM이 맞이한 한계

1) 환각(Hallucination) 현상

  • LLM은 실제로 존재하지 않는 정보나 사실과 다른 내용을 생성할 때가 있다.
  • 이러한 “환각(hallucination)” 현상은 LLM이 그럴듯하게 보이는 답변을 만들어내지만, 그 답변이 실제 사실과 다르거나 근거 없는 내용일 수 있다는 문제를 의미한다.
  • 예시) 실제로 존재하지 않는 논문, 잘못된 역사적 사실 등

2) 지식의 노후화(Outdated Knowledge)

  • LLM의 지식은 학습 데이터가 수집된 시점에 제한되어 있다.
  • 즉, 모델이 최신 사건이나 트렌드, 최근 발표된 연구 결과 등을 반영하지 못하는 경우가 많다.
  • 따라서 최신 정보가 필요한 질문에 대해 오래된 답변을 할 수 있는 한계가 있다.

3) 추론 과정의 불투명성(Opacity of Reasoning)

  • LLM이 답변을 생성하는 과정이 “블랙박스”와 같아, 사용자 입장에서는 모델이 어떻게 답을 도출했는지, 어떤 근거로 판단했는지 알기 어렵다.
  • 이로 인해 신뢰성 문제, 책임소재 문제 등이 발생할 수 있다.

4) 도메인 지식의 부족에 따른 특정 작업에서의 성능 저하

  • LLM이 특정 도메인(예: 법률, 의학, 공학 등)에 대한 전문적인 지식을 충분히 학습하지 못했다면, 그 도메인에 특화된 질문이나 과업에서는 성능이 크게 떨어질 수 있다.
  • Kandpal et al.(2023) 연구에서도 LLM의 일반화 능력은 높지만, 특수 분야 지식이 부족할 경우 정밀한 작업 수행이 어렵다는 점이 지적되었다.

2. LLM의 한계를 극복하기 위해

  외부 데이터베이스에서 패시지(passage)를 검색(retrieval)하여 LLM에 제공하는 검색 증강 생성 (RALM, Retrieval-Augmented Language Model) 프레임워크 사용

3. Main Problem

→ But, RALM 프레임워크에서 검색 결과의 노이즈(불필요하거나 부정확한 정보) 발생하여 LLM의 성능을 저하

  • 검색 context에 정답 y가 포함되면 이를 Golden retrieval context(cgolden)
  • 정답이 없거나 부분적으로만 관련된 경우 Noisy context(cnoisy)

= RALM의 노이즈 견고성(noise robustness)


# Solution

1. 검색 노이즈 세 가지 유형으로 체계적으로 분류

출처 : 해당 논문

1) 관련 노이즈 : 표면적으로 관련 있어 보이지만 정답은 포함하지 않는 컨텍스트

2) 무관 노이즈 : 쿼리와 무관한 컨텍스트

3)반사실 노이즈 : 쿼리와 주제는 관련 있으나 잘못된 정보를 포함한 컨텍스트

- 실험 결과, 무관 노이즈보다 관련 노이즈와 반사실 노이즈가 오히려 잘못된 답변을 더 많이 유도한다.

2. 검색 증강 적응적 적대적 학습 (Retrieval-augmented Adaptive Adversarial Training, RAAT)

- 위와 같은 세 가지 유형의 노이즈에 대응하기 위해 새로운 RAG 접근법을 제안

- RAAT는 적응적 적대적 학습을 활용하여 검색 노이즈에 따라 모델의 훈련 과정을 동적으로 조정하며, 동시에 다중 작업 학습 (multi-task learning) 을 적용하여 모델이 노이즈가 포함된 컨텍스트를 내적으로 인식할 수 있도록 한다.

Q1. RAAT가 적응적 적대적 학습(adaptive adversarial training)을 한다?

A. 훈련 도중에 가장 헷갈리게 만들거나 어려운 노이즈를 골라 모델을 집중적으로 훈련시키는 것을 의미

  • 모델의 현재 상태에 따라 어떤 노이즈 유형이 더 어려운지 실시간으로 판단해서, 가장 어렵거나 약한 노이즈 유형에 맞춰 훈련을 집중하는 방식
  • 동적으로 조정 = 모델이 학습 중에 실제로 잘 못하는(민감한) 노이즈를 찾아 그 부분에 더 신경써서 학습한다는 뜻이에요.

Q2. 다중 작업 학습을 통해 모델이 노이즈가 포함된 컨텍스트를 내적으로 인식한다는 말의 의미?

A. 답변만 학습시키는 게 아니라, 이 문장이 어떤 노이즈인지 구분하는 일도 같이 훈련시켜서 모델이 노이즈의 유형을 스스로 인식하고, 결과적으로 노이즈가 있어도 혼동하지 않고 잘 답할 수 있게 만든다.

다중 작업 학습(Multi-task Learning)

  • 일반적인 LLM 훈련 : 정답을 맞히는 것(예: 답변 생성) 하나만 학습한다.
  • RAAT의 방식 : 정답을 맞히는 것 + 이 컨텍스트가 어떤 노이즈 유형인지 분류하는 일을 동시에 학습한다.
  • 즉, 모델에게 답변을 제대로 하게 만들면서 지금 보고 있는 검색 문장이 정답 컨텍스트인지, 관련 노이즈인지, 무관 노이즈인지, 반사실 노이즈인지 직접 내부적으로 구분하게 만드는 과제를 제시하여 답변과 구분을 동시에 하게 한다.

내적으로 인식

  • 모델이 노이즈라는 신호를 내부적으로 갖게 되어서, 실제 테스트 때도 노이즈가 들어왔을 때 혼동하지 않고, 더 정확하게 대처가능 
  • 결과적으로 노이즈가 많은 상황에서 잘못된 정보에 휘둘리지 않고, 올바른 답변 제시

 


# Method

적대적 학습(Adversarial Training)

- 최근에는, LLM이 잘못된(유해하거나 비사실적인) 응답을 하도록 유도하는 적대적 예시를 생성하는 연구가 증가

  • Shen et al.(2023) : 여러 수준의 교란을 적용해 ChatGPT가 문장/문자 단위의 적대적 공격에 취약함을 밝힘
  • Shi et al.(2023) : 산술 추론 데이터셋에 관련 없는 컨텍스트를 추가하면 모델 예측이 쉽게 흐트러짐을 확인
  • Zou et al.(2023) : 효과적이고 이식성 높은 적대적 공격을 생성하는 방법을 제안

- 본 연구에서는 LLM의 검색 노이즈에 대한 적대적 학습을 다루며, 원본 데이터셋에서 샘플링 또는 패러프레이즈를 통해 신뢰할 수 있고 정밀한 적대적 예시를 생성, 견고성을 높이고 학습 비용은 줄이는 것을 목표

2025년 국토 교통 데이터활용 경진대회 신청 후기

1. 지원 동기

-  지하철에서 해당 포스터를 보게 되었고, 데이터 활용을 마침 해보고 싶던 나로서 참가하고 싶었다. 우선 데이터분석 쪽 진로를 희망하는 내 동기와, 추가적으로 웹 프론트가 가능한 후배님을 한분 구해서 총 3명이서 나가게 되었다. 

- 사실 자연어처리 분야를 희망하기에, 이 국토교통 데이터 활용이 큰 의미가 있나? 싶기도 하지만 우선 기획안 작성부터 코드 작성 및 웹페이지 준비까지 미리 경험치를 쌓고자 신청하게 되었다.

2. 진행 내용

- 이러한 기획안은 처음 작성해보지만, 워낙 군대에서 공문서를 많이 만져봤던 나로서는 한글 문서작업은 절대 어렵지 않았다. 오히려 단순 코딩보다 이렇게 아이디어 구상하고, 기획안 작성하는 것이 나에게는 더 잘 맞았고, 즐거웠다.

- 우리의 아이디어를 제시하고, 이에 대한 제안배경, 세부내용, 아이템의 실효성, 기대효과, 기타의 목차로 글을 작성하였다.

- 총 4페이지가 나왔는데 우리의 아이디어를 잘 설명한 것 같아서 만족스러웠다. 또한 감정으로 작성하지 않고 검색해서 나온 숫자값들, 즉 데이터를 기반으로 작성하였기에 내 기준에서 최선을 다했다고 생각한다.

- 다만 걱정인 것은 이것을 토대로 어떻게 코드를 작성할 지가 의문이다. 잘 준비할 수 있겠지 재민아...?

3. 결과

- 결과는 7월에 나온다고 하였다! 추가적으로 합/불 결과가 나오면 재포스팅 및 우리가 썻던 주제와 내용들을 간략하게 작성하고자 한다!

- 좋은 결과가 있기를 바란다 ㅠㅠ

- 처음 시도한 공모전인데, 어떻게 접근해야되는지와 얼마나 시간 투자를 하면 되는지에 대해서 기반을 잡게 된 좋은 기회였다:)

+ Recent posts