Llama 2란?
Meta(Facebook)에서 무료로 공개한 연구와 상업적 용도로 활용할 수 있는 LLM이다.
모델들은 파라미터가 70억개 (7B)에서 700억개 (70B)까지 다양함.
1) Introductuon
2) Pretraining
Llama 1과의 주요 구조적 차이점은 문맥 길이의 증가와 grouped-query attention(GOA)을 포함하고 있음.
3) Fine-tuning
1단계 : Pretraining.
2단계 : Prompt 쌍의 리스트로 저장한 질문 형태의 데이터들을 지도 학습 시킴.
3단계 : RLHF 사용 -> 이거에 대해서 좀 더 공부해보기
3.1) Supervied Fine-Tuning (SFT)
- 어떤 Prompt 에 대한 Response 를 파인튜닝 해줌. (2,7540개)
파인튜닝 과정에서 각 샘플은 프롬프트와 답변으로 구성됨
- 모델의 시퀀스 길이가 적절히 채워지도록 하기 위해, 훈련 세트에서 모든 프롬프트와 답변을 연결함.
- 프롬프트와 답변 세그먼트를 구분하기 위해 특별한 토큰을 사용함. (프롬프트 리스폰스 쌍을 구별)
3.2) Reinforcement Learning with Human Feedback (RLHF)
++RLHF 공부한 내용 추가
- RLHF는 모델의 행동을 인간의 선호와 지시를 따르도록 더욱 조정하기 위해 파인튜닝된 언어 모델에 적용되는 모델 훈련 절차임.
3.2.3) Iterative Fine-tuning
두 가지 주요 알고리즘을 사용하여 RLHF 모델을 훈련시킴
1) Prozimal Policy Optimization (PPO)
2) Rejection Sampling Fine-tuning : 모델로부터 K개의 출력을 샘플링하고, 우리의 보상에 따라 가장 좋은 후보를 선택함.
GAtt Method : 일관성 있는 대답을 위해서 사용함.
4.2) Safety Fine-Tuning
1) 지도학습을 통한 안전 세부 조정 (Supervised Safety Fine-Tuning)
2) 안전 RLHF
3) 안전 문맥 조정
'자연어 > LLM' 카테고리의 다른 글
LLM 프로젝트 공부 - 섹션 5.Parameter-Efficient Fine-Tuning (PEFT) (1) | 2023.10.11 |
---|---|
LLM 프로젝트 공부 - 섹션 4.Alpaca 모델 리뷰 (0) | 2023.10.10 |
LLM 프로젝트 공부 - 섹션 2. Llama 1 모델 리뷰 (2) | 2023.10.10 |
LLM 프로젝트 공부 - 섹션 1. LLM 개요 (4) | 2023.10.10 |
LLM 프로젝트 공부 - OpenAI의 ChatGPT를 Fine-tuning 해보기 (0) | 2023.10.04 |