# 2024 NTU GenAI MTK 研究人員專題演講 (上半場)
# 重點總結與知識點

> YouTube: <https://www.youtube.com/watch?v=UXL5H8MqNmw>

## 重點

1. [**聯發科創新基地介紹**](https://i.mediatek.com/mediatekresearch)
   * 聯發科的全資子公司，專注於 AI 研究
   * 據點遍佈劍橋、倫敦和台灣大學
   * 開發多個開源模型和資料集，包含繁體中文領域

2. **繁體中文大型語言模型 Breeze 系列**
   * Breeze 7B: 71 億參數，全面開源，推理速度快
   * Breeze 8x7: 420 億參數，採用混合專家模型 (MoE)，在台灣知識領域超越 GPT 3.5

3. **模型訓練與評測**
   * 資料集：發布全台首個繁體中文評測集，包含推理能力、知識和聊天行為等面向
   * 詞彙擴充：針對中文特性進行詞彙擴充，提升模型對中文的理解能力
   * 訓練過程：預訓練資料量達 650GB，訓練時間長達 7000 個 H100 GPU 小時

4. **商業應用**
   * 模型即服務 (Model as Service)：針對金融、政府等資料安全需求高的客戶提供地端部署方案

5. **技術細節**
   * 中文詞彙擴充：解決 BPE 編碼在中文處理上的缺陷，提升模型效率和效果
   * 混合專家模型 (MoE)：提高模型參數效率，在訓練和推論階段都能加速
   * RAG (Retrieval Augmented Generation)：透過引入外部知識庫，提升模型回答問題的準確性和可信度
   * 長文本處理 (Long Context)：將模型上下文長度擴展至 32k tokens，並針對長文本訓練模型，使其能處理更長、更複雜的文本

## 知識點

* **BPE (Byte Pair Encoding)：** 一種常見的詞彙 tokenization 方法，但對中文處理存在缺陷
* **詞彙擴充：** 針對中文特性擴充詞彙表，提升模型對中文的理解能力
* **混合專家模型 (MoE)：** 將模型分為多個專家，根據輸入選擇性激活部分專家，提高參數效率
* **RAG (Retrieval Augmented Generation)：** 結合資訊檢索和文本生成，讓模型能夠利用外部知識庫回答問題
* **長文本處理 (Long Context)：**  擴展模型上下文長度，使其能夠處理更長、更複雜的文本
* **Lost in the middle：** 長文本處理中，模型在處理文本中間部分資訊時表現較差的現象

## 待解決問題

* 如何有效解決長文本處理中的 "Lost in the middle" 現象

## 總結

聯發科在大型語言模型和語音辨識技術方面取得了顯著進展，特別是在繁體中文領域的貢獻。他們發布的開源模型和資料集，以及對模型訓練和評測方法的探索，都為學術界和業界提供了寶貴的資源。未來，他們將繼續致力於開發更強大、更易用的 AI 技術，並探索其在各個領域的應用。