- 지금 나온 Chat GPT-3.5는 2021년 9월 정보로 업데이트되어 있으며, 그 이후의 정보나 논문에 대한 접근은 제한되어 있음. 저번에 논문을 검색해달라는 요청은 들어줬지만 아마 최근 논문들은 못 찾아줄 것임.
파인튜닝(fine-tuning)이란?
- 사전 학습된 인공지능 모델의 가중치를 새로운 데이터에 맞게 세밀하게 조정하여 성능을 향상키기고 학습 시간을 줄이는 과정이다.
- 이미 학습된 인공지능 모델을 새로운 문제에 맞게 미세하게 조정하여 성능을 높이고 학습 시간을 줄이는 과정임.
ex) 자전거를 타는 법을 알고 있는 사람이 오토바이를 타려고 할 때, 자전거 타기에서 배운 기초적인 지식을 활용하면서 오토바이에 맞게 몇 가지 세부 사항을 조정하는 것.
파인튜닝 과정
- 세밀 조정의 핵심 아이디어는 전이 학습(transfer learning)임. 즉 한 문제에서 얻은 지식을 다른 관련 문제를 해결하는데 적용하는 것. 세밀 조정에서는 초기 사전 학습에서 학습한 언어 패턴을 유지한 채, 세밀 조정 과정 중에 작업 특정 데이터셋으로부터 추가로 학습함.
도메인(Domain)이란?
챗티Say : 주어진 문제나 작업 영역이다.
- 도메인 지식이란 특정 분야의 전문화된 지식을 말한다. ex) 부동산 데이터를 분석한다면 부동산 영역의 지식이 필요한 것처럼 특정 영역의 지식이라고 생각하면됨.
정보 출처 ↓
<문과의 데이터 분석> 데이터 분석이란 무엇인가?
바야흐로 데이터의 시대이다. 많은 매체에서 툭하면 '데이터'라는 단어가 등장하고 많은 책에서 '데이터'를 자신들의 제목에 포함시키고 있다. 심지어 대학에도 '데이터'학과가 생겼고 중고딩들
brunch.co.kr
인코딩 vs 디코딩
- 인코딩 : 정보나 데이터를 다른 형식으로 변환하는 과정.
- 인코딩을 하는 이유 : 일반적으로 정보의 형태 표준화, 보안, 저장 공간 절약을 위해서 사용한다.
ex) 모스부호, 텍스트를 바이너리 코드로 변환, 이미지나 오디오를 압축하여 저장함.
- 디코딩 : 인코딩된 데이터를 원래의 형식이나 정보로 다시 변환하는 과정.
- 디코딩을 하는 이유 : 인간이 인코딩 데이터를 이해하려면 인코딩 데이터를 디코딩하여 이해할 수 있는 형태로 되돌려야한다.
ex) 웹 브라우저는 웹 서버로부터 받은 웹 페이지의 압축된 데이터를 디코딩하여 사용자에게 표시함.
'자연어 > LLM' 카테고리의 다른 글
LLM 프로젝트 공부 - 섹션 3.Llama 2 논문 리뷰 (2) | 2023.10.10 |
---|---|
LLM 프로젝트 공부 - 섹션 2. Llama 1 모델 리뷰 (2) | 2023.10.10 |
LLM 프로젝트 공부 - 섹션 1. LLM 개요 (4) | 2023.10.10 |
LLM 프로젝트 공부 - OpenAI의 ChatGPT를 Fine-tuning 해보기 (0) | 2023.10.04 |
챗GPT 러닝데이 | 한국어 LLM 민주화의 시작 KoAlpaca (0) | 2023.10.02 |