카테고리 없음

GPT 와 관련된 기본이지만 중요한 용어들의 정리

지피티어 2023. 7. 7. 18:59

GPT (Generative Pre-trained Transformer) 용어 정리

GPT는딥러닝 기반의 언어 모델로써, 텍스트를 생성하고 이해에 관련된 다양한 작업에 사용됩니다. 이 모델은 대규모 텍스트 데이터를 사전에 훈련한 후 다양한 자연어를 처리하는 작업에 적용할 수 있습니다. 아래에서 GPT와 관련된 몇 가지 기본적이지만 필수로 알고 있어야 할 주요 용어들에 대하여 살펴보겠습니다.

Transformer

Transformer: Transformer는 기반이 되는 모델 아키텍처로써, Vaswani 등이 2017년에 소개한 모델입니다. Transformer는 self-attention 메커니즘을 기반으로, 입력 시퀀스들의 모든 단어 간의 상관 관계를 동시에 고려하여 효율적으로 처리할 수 있습니다. 이를 통해 기존의 순차적인 모델들에 비해 높은 성능뿐 아니라 병렬화까지 가능하게 합니다.

 

Pre-training / Fine-tuning: GPT 모델은 2 단계로 구성됩니다. 첫 번째는 대규모의 비지도 학습 데이터를 사용하여 사전 훈련하는 "pre-training" 단계입니다. 이 과정에서 모델은 문장 내 단어들을 예측하도록 학습하며, 다양한 언어적 패턴과 의미적 관계를 학습합니다. 두 번째는 특정 작업에 맞게 추가로 작은 데이터 세트를 사용하여 모델을 "fine-tuning"하는 단계입니다. 이 단계에서는 특정 작업에 대한 목표를 설정하고, 그에 맞게 모델을 조정합니다.

 

Attention: Attention은 Transformer 모델의 핵심 메커니즘 중 하나로, 입력 시퀀스 내의 단어들 간의 상호 작용을 모델링하는 데 사용됩니다. Attention은 단어들 간의 관계를 계산하는 가중치를 학습하여 중요한 정보에 집중할 수 있게 합니다. 이를 통해 모델은 문맥을 파악하고, 문장의 의미와 관련된 단어들을 더 잘 이해할 수 있습니다.

 

Tokenization

Tokenization: Tokenization은 텍스트를 작은 단위인 "토큰"으로 분할하는 과정을 말합니다. GPT는 보통 단어나 서브워드(subword) 단위로 텍스트를 토큰화합니다. 이러한 토큰화 작업은 모델에 입력되는 텍스트를 효율적으로 처리할 수 있도록 도와줍니다.

 

Inference: Inference는 학습된 GPT 모델을 사용하여 새로운 입력에 대한 출력을 생성하는 과정을 말합니다. 학습된 모델은 주어진 입력에 대해 다음 단어를 예측하고, 문장을 생성하거나 다양한 자연어 처리 작업을 수행할 수 있습니다.

 

Prompt Engineering: Prompt Engineering은 GPT 모델을 사용하여 특정 작업을 수행하기 위해 입력 문장에 대한 조작과 설계를 말합니다. Prompt Engineering은 모델의 출력을 원하는 방향으로 조작하기 위해 다양한 트릭과 전략을 적용합니다.

 

Zero-shot / Few-shot Learning: Zero-shot 학습은 모델이 특정 작업에 대해 명시적인 학습 데이터 없이 예측을 수행하는 능력을 말합니다. 반면 Few-shot 학습은 매우 작은 양의 학습 데이터로도 작업을 수행할 수 있는 능력을 의미합니다. GPT는 이러한 Zero-shot 및 Few-shot 학습 능력을 가지고 있어, 적은 양의 작업별 학습 데이터로도 효과적으로 작업을 수행할 수 있습니다.

 

이상이 GPT와 관련된 몇 가지 주요 용어들입니다. 이 용어들은 GPT를 이해하고 활용하는 데 도움이 될 것입니다.

앞으로 이 용어들에 대하여 좀 더 심도있게 살펴보겠습니다.