It's going to be one day 🍀

안녕하세요! 매일 매일 공부하려고 노력하는 백엔드 개발자 지망생의 공부 흔적입니다.

자연어/LLM

LLM 프로젝트 공부 - 용어 공부

2jin2 2023. 10. 2. 21:47

- 지금 나온 Chat GPT-3.5는 2021년 9월 정보로 업데이트되어 있으며, 그 이후의 정보나 논문에 대한 접근은 제한되어 있음. 저번에 논문을 검색해달라는 요청은 들어줬지만 아마 최근 논문들은 못 찾아줄 것임.

 

파인튜닝(fine-tuning)이란?

- 사전 학습된 인공지능 모델의 가중치를 새로운 데이터에 맞게 세밀하게 조정하여 성능을 향상키기고 학습 시간을 줄이는 과정이다. 

- 이미 학습된 인공지능 모델을 새로운 문제에 맞게 미세하게 조정하여 성능을 높이고 학습 시간을 줄이는 과정임.

ex) 자전거를 타는 법을 알고 있는 사람이 오토바이를 타려고 할 때, 자전거 타기에서 배운 기초적인 지식을 활용하면서 오토바이에 맞게 몇 가지 세부 사항을 조정하는 것.

 

파인튜닝 과정

- 세밀 조정의 핵심 아이디어는 전이 학습(transfer learning)임. 즉 한 문제에서 얻은 지식을 다른 관련 문제를 해결하는데 적용하는 것. 세밀 조정에서는 초기 사전 학습에서 학습한 언어 패턴을 유지한 채, 세밀 조정 과정 중에 작업 특정 데이터셋으로부터 추가로 학습함.

 

도메인(Domain)이란?

챗티Say : 주어진 문제나 작업 영역이다.

- 도메인 지식이란 특정 분야의 전문화된 지식을 말한다. ex) 부동산 데이터를 분석한다면 부동산 영역의 지식이 필요한 것처럼 특정 영역의 지식이라고 생각하면됨.

정보 출처 ↓

 

<문과의 데이터 분석> 데이터 분석이란 무엇인가?

바야흐로 데이터의 시대이다. 많은 매체에서 툭하면 '데이터'라는 단어가 등장하고 많은 책에서 '데이터'를 자신들의 제목에 포함시키고 있다. 심지어 대학에도 '데이터'학과가 생겼고 중고딩들

brunch.co.kr

 

인코딩 vs 디코딩

 

- 인코딩 : 정보나 데이터를 다른 형식으로 변환하는 과정.

- 인코딩을 하는 이유 : 일반적으로 정보의 형태 표준화, 보안, 저장 공간 절약을 위해서 사용한다.

ex) 모스부호, 텍스트를 바이너리 코드로 변환, 이미지나 오디오를 압축하여 저장함.

 

- 디코딩 : 인코딩된 데이터를 원래의 형식이나 정보로 다시 변환하는 과정.

- 디코딩을 하는 이유 : 인간이 인코딩 데이터를 이해하려면 인코딩 데이터를 디코딩하여 이해할 수 있는 형태로 되돌려야한다.

ex) 웹 브라우저는 웹 서버로부터 받은 웹 페이지의 압축된 데이터를 디코딩하여 사용자에게 표시함.