It's going to be one day 🍀

안녕하세요! 매일 매일 공부하려고 노력하는 백엔드 개발자 지망생의 공부 흔적입니다.

자연어/LLM

LLM 프로젝트 공부 - 섹션 3.Llama 2 논문 리뷰

2jin2 2023. 10. 10. 19:11

Llama 2란?

Meta(Facebook)에서 무료로 공개한 연구와 상업적 용도로 활용할 수 있는 LLM이다.

모델들은 파라미터가 70억개 (7B)에서 700억개 (70B)까지 다양함. 

 

1) Introductuon

2) Pretraining

Llama 1과의 주요 구조적 차이점은 문맥 길이의 증가와 grouped-query attention(GOA)을 포함하고 있음.

3) Fine-tuning

1단계 : Pretraining.

2단계 : Prompt 쌍의 리스트로 저장한 질문 형태의 데이터들을 지도 학습 시킴.

3단계 : RLHF 사용 -> 이거에 대해서 좀 더 공부해보기

3.1) Supervied Fine-Tuning (SFT)

- 어떤 Prompt 에 대한 Response 를 파인튜닝 해줌. (2,7540개)

파인튜닝 과정에서 각 샘플은 프롬프트와 답변으로 구성됨

- 모델의 시퀀스 길이가 적절히 채워지도록 하기 위해, 훈련 세트에서 모든 프롬프트와 답변을 연결함.

- 프롬프트와 답변 세그먼트를 구분하기 위해 특별한 토큰을 사용함. (프롬프트 리스폰스 쌍을 구별)

3.2) Reinforcement Learning with Human Feedback (RLHF)

++RLHF 공부한 내용 추가

- RLHF는 모델의 행동을 인간의 선호와 지시를 따르도록 더욱 조정하기 위해 파인튜닝된 언어 모델에 적용되는 모델 훈련 절차임.

3.2.3) Iterative Fine-tuning

두 가지 주요 알고리즘을 사용하여 RLHF 모델을 훈련시킴

1) Prozimal Policy Optimization (PPO)

2) Rejection Sampling Fine-tuning : 모델로부터 K개의 출력을 샘플링하고, 우리의 보상에 따라 가장 좋은 후보를 선택함.

 

GAtt Method : 일관성 있는 대답을 위해서 사용함.

 

4.2) Safety Fine-Tuning 

1) 지도학습을 통한 안전 세부 조정 (Supervised Safety Fine-Tuning) 

2) 안전 RLHF

3) 안전 문맥 조정