728x90
반응형
간단하게 LLM 생성 원리를 리마인드하고자하는 글이다.
LLM(Large Language Model)의 생성 원리
LLM은 자연어 이해와 생성 능력을 보여주며, 다양한 언어 관련 작업을 수행할 수 있다.
핵심 내용
- 트랜스포머 구조를 기반으로 대규모 텍스트 데이터를 자기지도 학습 방식으로 처리
- 모델은 문장의 일부를 가리고 다음 단어를 예측하는 방식으로 언어 패턴 학습
- 자연어 이해와 생성 능력을 통해 다양한 언어 작업 수행
결론
- 자기지도 학습과 트랜스포머 구조가 LLM의 핵심 작동 원리
위는 LLM의 근간이 되는 트랜스포머 구조이다. 특히, GPT는 오른쪽 부분만 활용하였다. 특히, 여기서 중요하게 생각되는 부분은 어텐션 메커니즘이다.
트랜스포머 구조의 핵심
- 어텐션 메커니즘이 이 입력 텍스트 간의 관계를 계산하여 문맥 이해
- Multi-head attention으로 텍스트의 다양한 측면을 동시 분석
- 문맥 이해를 바탕으로 적절한 텍스트 생성 가능
결론적으로, 어텐션이 LLM의 문맥 이해와 텍스트 생성의 핵심 기술이 된다. 추후, 트랜스포머 논문을 읽고 정리하면서 자세히 알아보겠다.
토큰화
토큰화?
코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 합니다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다.
출처 : https://wikidocs.net/21698
- 토큰화로 텍스트를 단어, 부분 단어, 문자 단위로 분할하여 처리
- 다음 토큰의 확률 분포 계산으로 적절한 텍스트 생성
- Temperature와 Top-p 조절로 텍스트 생성의 다양성과 안정성을 제어
- Temperature
- 낮을수록 (0에 가까움) : 더 일관된 응답 생성, 가장 확률이 높은 토큰 선택, 사실적이고 정확한 정보가 필요할 때 유용
- 높을수록 (1에 가깝거나 이상) : 더 다양하고 예측 불가능한 응답 생성, 낮은 확률의 토큰도 선택 가능, 창의적인 결과값을 원하는 경우에 유용
- Top-p
- 모델이 특정 확률 값(p)에 따라 단어를 선택하는 방법
- p값이 1이면 모델은 가장 높은 확률의 단어를 선택하지 않고 전체 어휘에서 무작위로 단어를 선택 -> 다양성을 높이는 데 사용
- Temperature
결론적으로 체계적인 토큰 처리와 확률 기반 생성으로 자연스러운 텍스트가 구현됨.
Reference
728x90
반응형