# 2024 NTU GenAI MTK 研究人員專題演講 (上半場) # 重點總結與知識點 > YouTube: <https://www.youtube.com/watch?v=UXL5H8MqNmw> ## 重點 1. [**聯發科創新基地介紹**](https://i.mediatek.com/mediatekresearch) * 聯發科的全資子公司,專注於 AI 研究 * 據點遍佈劍橋、倫敦和台灣大學 * 開發多個開源模型和資料集,包含繁體中文領域 2. **繁體中文大型語言模型 Breeze 系列** * Breeze 7B: 71 億參數,全面開源,推理速度快 * Breeze 8x7: 420 億參數,採用混合專家模型 (MoE),在台灣知識領域超越 GPT 3.5 3. **模型訓練與評測** * 資料集:發布全台首個繁體中文評測集,包含推理能力、知識和聊天行為等面向 * 詞彙擴充:針對中文特性進行詞彙擴充,提升模型對中文的理解能力 * 訓練過程:預訓練資料量達 650GB,訓練時間長達 7000 個 H100 GPU 小時 4. **商業應用** * 模型即服務 (Model as Service):針對金融、政府等資料安全需求高的客戶提供地端部署方案 5. **技術細節** * 中文詞彙擴充:解決 BPE 編碼在中文處理上的缺陷,提升模型效率和效果 * 混合專家模型 (MoE):提高模型參數效率,在訓練和推論階段都能加速 * RAG (Retrieval Augmented Generation):透過引入外部知識庫,提升模型回答問題的準確性和可信度 * 長文本處理 (Long Context):將模型上下文長度擴展至 32k tokens,並針對長文本訓練模型,使其能處理更長、更複雜的文本 ## 知識點 * **BPE (Byte Pair Encoding):** 一種常見的詞彙 tokenization 方法,但對中文處理存在缺陷 * **詞彙擴充:** 針對中文特性擴充詞彙表,提升模型對中文的理解能力 * **混合專家模型 (MoE):** 將模型分為多個專家,根據輸入選擇性激活部分專家,提高參數效率 * **RAG (Retrieval Augmented Generation):** 結合資訊檢索和文本生成,讓模型能夠利用外部知識庫回答問題 * **長文本處理 (Long Context):** 擴展模型上下文長度,使其能夠處理更長、更複雜的文本 * **Lost in the middle:** 長文本處理中,模型在處理文本中間部分資訊時表現較差的現象 ## 待解決問題 * 如何有效解決長文本處理中的 "Lost in the middle" 現象 ## 總結 聯發科在大型語言模型和語音辨識技術方面取得了顯著進展,特別是在繁體中文領域的貢獻。他們發布的開源模型和資料集,以及對模型訓練和評測方法的探索,都為學術界和業界提供了寶貴的資源。未來,他們將繼續致力於開發更強大、更易用的 AI 技術,並探索其在各個領域的應用。