Abstract—Large Language Models (LLMs) have drawn a lot of attention due to their strong performance on a wide range of natural language tasks, since the release of ChatGPT in November 2022. LLMs’ ability of general-purpose language understanding and generation is acquired by training billions of model’s parameters on massive amounts of text data, as predicted by scaling laws [1], [2]. The research area of LLMs, while very recent, is evolving rapidly in many different ways. In this paper, we review some of the most prominent LLMs, including three popular LLM families (GPT, LLaMA, PaLM), and discuss their characteristics, contributions and limitations. We also give an overview of techniques developed to build, and augment LLMs. We then survey popular datasets prepared for LLM training, fine-tuning, and evaluation, review widely used LLM evaluation metrics, and compare the performance of several popular LLMs on a set of representative benchmarks. Finally, we conclude the paper by discussing open challenges and future research directions.
LLM(대형 언어 모델)은 2022년 11월 ChatGPT가 출시된 이후 다양한 자연어 작업에 대한 강력한 성능으로 인해 많은 주목을 받아 왔습니다. LLM의 범용 언어 이해 및 생성 능력은 훈련을 통해 획득됩니다. 확장 법칙 [1], [2]에 의해 예측된 바와 같이 방대한 양의 텍스트 데이터에 대한 수십억 개의 모델 매개변수. LLM의 연구 분야는 매우 최근이지만 다양한 방식으로 빠르게 발전하고 있습니다. 본 논문에서는 세 가지 인기 있는 LLM 제품군(GPT, LLaMA, PaLM)을 포함하여 가장 유명한 LLM 중 일부를 검토하고 해당 LLM의 특성, 기여 및 제한 사항에 대해 논의합니다. 또한 LLM을 구축하고 강화하기 위해 개발된 기술에 대한 개요도 제공합니다. 그런 다음 LLM 교육, 미세 조정 및 평가를 위해 준비된 인기 있는 데이터 세트를 조사하고, 널리 사용되는 LLM 평가 지표를 검토하고, 대표적인 벤치마크 세트에서 여러 인기 LLM의 성능을 비교합니다. 마지막으로, 열린 과제와 향후 연구 방향을 논의하며 논문을 마무리합니다.
- Encoder-only PLMs
- Decoder-only PLMs
- Encoder-Decoder PLMs
- The GPT Family ( Open AI 社 ): Decoder-only Transformer 기반의 언어모델
- The LLaMA Family ( Meta 社 ): 오픈소스, Foundation language models 의 집합체
- The PaLM Family ( Google 社 ): 540B 개의 파라미터를 가진 transformer 기반의 거대언어모델.
GPU를 사용하여 효과적인 병렬 컴퓨팅 파워를 이용할수 있게한 논문 "Attention Is All You Need"를 기반으로 만들어져있음.
Encoder와 Decoder로 나누어졌있음.
Encoder는 6개의 Transformer Layer로 이뤄져있고 각각의 Layer는 2개의 하위 Layer로 나뉘어져 있음.
- multi-head self-attention
- simple position-wise fully connected feed-forward network.
Decoder는 6개의 Transformer Layer로 이뤄져있고 각각의 Layer는 Encoder에서 하나 더 추가된 3개의 하위 Layer로 나뉘어져 있음.
- multi-head self-attention
- simple position-wise fully connected feed-forward network.
- multi-head attention over the output of the encoder stack.
전제 sequence를 이해하는 것에 적합하다.
- 문장 분류하기( sentence classfication )
- 개체명 인식( named entity recognition )
- 주어진 질문에 직접 대답하는 관련 텍스트 조각을 식별하고 추출하기( extractive question answering ).
auto-regressive models 라고도 불리며 텍스트 Generation에 적합하다.
sequence-to-sequence models 라고도 불리며 input 값 조건하의 새 문장을 제너레이팅하는 것에 적합하다.
- 요약하기 ( summarization )
- 번역하기 ( tranlation )
- 답변 생성하기 ( generative question answering )