# 2024 NTU GenAI MTK 研究人員專題演講 (上半場)
# 重點總結與知識點

> YouTube: <https://www.youtube.com/watch?v=UXL5H8MqNmw>

## 重點

1. [**聯發科創新基地介紹**](https://i.mediatek.com/mediatekresearch)
   * 聯發科的全資子公司,專注於 AI 研究
   * 據點遍佈劍橋、倫敦和台灣大學
   * 開發多個開源模型和資料集,包含繁體中文領域

2. **繁體中文大型語言模型 Breeze 系列**
   * Breeze 7B: 71 億參數,全面開源,推理速度快
   * Breeze 8x7: 420 億參數,採用混合專家模型 (MoE),在台灣知識領域超越 GPT 3.5

3. **模型訓練與評測**
   * 資料集:發布全台首個繁體中文評測集,包含推理能力、知識和聊天行為等面向
   * 詞彙擴充:針對中文特性進行詞彙擴充,提升模型對中文的理解能力
   * 訓練過程:預訓練資料量達 650GB,訓練時間長達 7000 個 H100 GPU 小時

4. **商業應用**
   * 模型即服務 (Model as Service):針對金融、政府等資料安全需求高的客戶提供地端部署方案

5. **技術細節**
   * 中文詞彙擴充:解決 BPE 編碼在中文處理上的缺陷,提升模型效率和效果
   * 混合專家模型 (MoE):提高模型參數效率,在訓練和推論階段都能加速
   * RAG (Retrieval Augmented Generation):透過引入外部知識庫,提升模型回答問題的準確性和可信度
   * 長文本處理 (Long Context):將模型上下文長度擴展至 32k tokens,並針對長文本訓練模型,使其能處理更長、更複雜的文本

## 知識點

* **BPE (Byte Pair Encoding):** 一種常見的詞彙 tokenization 方法,但對中文處理存在缺陷
* **詞彙擴充:** 針對中文特性擴充詞彙表,提升模型對中文的理解能力
* **混合專家模型 (MoE):** 將模型分為多個專家,根據輸入選擇性激活部分專家,提高參數效率
* **RAG (Retrieval Augmented Generation):** 結合資訊檢索和文本生成,讓模型能夠利用外部知識庫回答問題
* **長文本處理 (Long Context):**  擴展模型上下文長度,使其能夠處理更長、更複雜的文本
* **Lost in the middle:** 長文本處理中,模型在處理文本中間部分資訊時表現較差的現象

## 待解決問題

* 如何有效解決長文本處理中的 "Lost in the middle" 現象

## 總結

聯發科在大型語言模型和語音辨識技術方面取得了顯著進展,特別是在繁體中文領域的貢獻。他們發布的開源模型和資料集,以及對模型訓練和評測方法的探索,都為學術界和業界提供了寶貴的資源。未來,他們將繼續致力於開發更強大、更易用的 AI 技術,並探索其在各個領域的應用。