It's going to be one day 🍀

안녕하세요! 매일 매일 공부하려고 노력하는 백엔드 개발자 지망생의 공부 흔적입니다.

자연어/LLM

챗GPT 러닝데이 | 한국어 LLM 민주화의 시작 KoAlpaca

2jin2 2023. 10. 2. 21:47

이준범(Beomi)님의 강연 - 2023.05.30

 

- KoAlpaca -> 어떻게 만들었는지, 어떻게 쓰이는지? 에 대한 강연 내용.

- LLM이란? LM이란? Instruction 이란?

 

- LM : 언어모델의 약자. 다음 단어 맞추기

앞에 나온 단어들로 그 다음에 나오는 단어를 예측하는 것.

- LLM : 큰 언어모델의 약자. 

- Instruction : 모델이 좀 더 똑똑하게 실행할 수 있는 능력을 갖게되는 것.

질문을 하면 그거에 대한 답을 알려줘. ex) ~해줘. 하면 ~해줌

 

그리고 파인튜닝에 대해서도 공부하기. 

 

- LLM은 다양한 지식을 알고 있고, 언어 이해 능력이 뛰어남. 예제 몇 개만으로도 뛰어난 성능. 쉬운 API 서비스

- ICL : 너는 ~ 해. 이것의 예제로는 ** && @@이 있어. => 진짜 함.

 

- LLM의 현실적 이슈 -> 인력, 예산, 데이터

 

- LLM을 이용하는 다양한 방법

#1) API 서비스를 활용하기

나와있는 서비스를 곧바로 적용하는 것. ex) ChatGPT, GPT-4, HyperClova ... 등등

-> 하지만 외부 API에 의존하는 건 많은 이슈 발생 가능성 업.

 

#2) 작은 전용 LM을 쓰기

1B 이내의 작은 LM으로 서비스를 만드는 것.

 

#3) 오픈소스 LLM 활용

100B 이내의 작은(?) LLM으로 서비스를 만들기. ex) LLAMA, Polyglot-ko

-> Domain 관련 Text 필요.

-> 등등등

Domain에 대해서도 공부하기 

인코딩, 디코딩 개념 공부하기 

 

 - Alpaca : Instruction-Following Model

LLAMA 7B 모델을 Full Finetune

단순히 말을 잇기만 하는 것이 나닌, Instruct에 맞게 행동하는 LM

 

- KoAlpaca : 한국어 Instruct를 따르는 한국어 LM

한국어 Instruction Set을 제작함.

KoAlpaca v1.0 : Alpaca 번역 기반으로 데이터 생성 & 학습

KoAlpaca v1.1a : 네이버 지식인 기반으로 데이터 생성 & 학습

KoAlpaca v1.1b : 1a 기반에 맥락을 이해하도록 추가 학습

 

대표적인 오픈소스 한국어 LM인 Polyglot-ko 모델들을 기반으로 학습

 

- 언어 모델의 크기가 작아도, 좋은 Finetune 데이터로 새 능력을 넣어줄 수 있다.

'파인튜닝을 통해서 데이터의 내용을 학습시킨다' 라는게 초점이 아님.

어떤 형식으로 들어왔을 때, 어떤 결과물을 생성할 수 있는 방향성을 모델에게 알려주는 얼라이먼트 데이터셋이 중요함

 

- Emergent VS Instruct-Tuning

- LLM Emergent : 일정한 수준 이상이면 별도의 학습 없이 모델의 내재된 능력만으로도 작업이 가능함.

 

현실적인 가성비

- 데이터 가성비

- 학습 비용 가성비

- 서빙 비용 가성비