# Local Agent 方案評估報告
## 目錄結構
1. Local Agent 應具備的能力
2. 最佳方案:混合架構 (Fine-tuned LLM + RAG)
3. 其他方案評估(依推薦順序)
- RAG 方案
- Prompt Engineering + Few-shot
- 微調方案
- 其他進階方案
---
<!-- Slide number: 1 -->
# Local Agent 應具備的能力
## 核心能力需求
### 1. **專業領域問答**
- 回答機構設計規範相關問題
- 理解並解釋 CAD 術語和命名規則
- 提供 PEGAPDM 系統操作指引
- 解讀設計架構與流程文件
**範例問題**:
- battery_label 該如何命名?
- PC 板的設計架構是什麼?
- PEGAPDM 如何安裝?
### 2. **泛化能力**
- 回答訓練資料集以外的相關問題
- 處理變化形式的問題表述
- 綜合多個文檔提供完整答案
**範例問題**:
- 請列出你目前有的機構能力
- 如果是電池,我該如何命名?
- 這個零件需要符合哪些規範?
### 3. **工具使用能力**
- 整合 MCP (Model Context Protocol) 工具
- 調用外部系統和API
- 執行特定任務和操作
**當前成果**:MCP 專業問答達到 100% 正確率
### 4. **一般對話能力**
- 自然流暢的對話互動
- 理解上下文和多輪對話
- 提供友善的用戶體驗
### 5. **企業級需求**
#### **知識管理**
- **時效性**:即時反映最新規範和文件更新
- **可追溯性**:提供答案來源和文檔引用
- **準確性**:避免幻覺,確保資訊正確
#### **系統功能**
- **用戶管理**:權限控制、角色分級
- **效能要求**:低延遲(<3秒)、高吞吐量
- **會話管理**:記憶上下文、多輪對話持久化
#### **可靠性**
- **監控日誌**:追蹤使用情況、錯誤分析
- **資料安全**:私有化部署、符合合規要求
- **可維護性**:容易更新、低維護成本
---
<!-- Slide number: 2 -->
# 最佳方案:混合架構 (Fine-tuned LLM + RAG)
## 🎯 為什麼是混合架構?
單一方案(純微調或純RAG)都無法同時滿足所有需求:
| 需求類型 | 純微調 | 純 RAG | 混合架構 |
| -------------------- | ------------- | ------------- | ------------- |
| **專業能力** | ✅ 強 | ⚠️ 依賴 LLM | ✅ 最強 |
| **知識時效性** | ❌ 需重新訓練 | ✅ 即時更新 | ✅ 最佳 |
| **可追溯性** | ❌ 無來源 | ✅ 有來源 | ✅ 最佳 |
| **幻覺問題** | ⚠️ 仍存在 | ✅ 大幅降低 | ✅ 最佳 |
| **泛化能力** | ❌ 差 | ✅ 優 | ✅ 最佳 |
| **維護成本** | ❌ 高 | ✅ 低 | ⚠️ 中等 |
| **知識擴展** | ❌ 受限於參數 | ✅ 無限擴展 | ✅ 最佳 |
| **成本效益** | ❌ 訓練成本高 | ✅ 部署成本低 | ⚠️ 綜合成本 |
## 架構設計
```
用戶查詢
↓
查詢分類(Router)
↓
├─ 一般對話 → Fine-tuned LLM(直接回答)
├─ 工具使用 → MCP 調用(使用微調的工具能力)
└─ 專業知識 → RAG 檢索 + Fine-tuned LLM(檢索後生成)
↓
答案 + 來源標注
```
## 技術組件
### 1. **Fine-tuned LLM 部分**
- **用途**:提升專業術語使用、對話流暢性、工具調用能力
- **方法**:使用 LoRA 微調基礎模型(7B-13B)
- **資料需求**:相對較少(1000-5000 筆高品質對話)
- **優勢**:模型「懂」機構領域的專業表達
### 2. **RAG 部分**
- **用途**:檢索最新文檔、提供可追溯答案
- **核心組件**:
- 向量資料庫:Qdrant (中小規模) / Milvus (大規模)
- Embedding Model:BGE-M3 (可微調以提升檢索準確度)
- 框架:LlamaIndex (檢索專精)
- Re-ranking:BGE-reranker-v2-m3
- **優勢**:模型能「查」最新文檔,知識無限擴展
### 3. **智能路由**
- 簡單事實問題 → 直接回答(快取)
- 需要文檔的問題 → RAG 檢索
- 工具操作問題 → MCP 調用
- 複雜推理問題 → Chain-of-Thought
## 實施路徑
### **Phase 1:RAG 基礎(1-2 個月)** ⭐⭐⭐⭐⭐
```
Week 1-2: 設計系統架構,建立 Prompt 模板
Week 3-4: 部署 Qdrant + BGE-M3 基礎 RAG
Week 5-6: 實作 Query Rewriting 和基礎檢索
Week 7-8: 整合智能路由,測試優化
```
**技術棧**:
| 組件 | 選擇 | 理由 |
| ---------- | ------------------------------ | ----------------------------- |
| 框架 | LlamaIndex | 快速建立,文檔檢索專精 |
| 向量資料庫 | Qdrant | Docker 部署簡單,中小規模適用 |
| Embedding | BGE-M3 | 開源、多語言、長文本支援 |
| Chunking | Recursive + Sliding Window | 保留結構、確保連貫 |
| Retrieval | 基礎向量檢索 + Query Rewriting | 平衡效果和複雜度 |
### **Phase 2:能力增強(2-4 個月)** ⭐⭐⭐⭐
```
Month 3: Fine-tune Embedding Model (+20-30% 檢索準確度)
Month 4: 加入 Re-ranking (+15-25% 準確度)
Month 5: 實現多層快取,優化延遲
Month 6: LLM 微調(可選,提升專業表達)
```
**升級方案**:
| 組件 | 升級 | 預期提升 |
| ----------- | ------------------ | ----------------- |
| Embedding | Fine-tune BGE-M3 | +20-30% 領域檢索 |
| Re-ranking | BGE-reranker-v2-m3 | +15-25% 準確度 |
| Retrieval | Multi-Query + HyDE | +10-20% 召回率 |
| Re-packing | Sides 策略 | +5-10% 長文檔理解 |
| Compression | LongLLMLingua | -30% token 消耗 |
### **Phase 3:生產優化(持續)** ⭐⭐⭐
```
- 監控與告警系統
- A/B 測試不同配置
- 收集用戶反饋,持續優化
- 定期重新訓練 Embedding model
```
## 為什麼這樣做?
### **微調的價值**
1. **語言理解**:更好理解機構領域專業術語
2. **對話品質**:流暢自然的專業對話
3. **工具能力**:精準的 MCP 工具調用(已達 100%)
4. **風格一致**:符合企業文化的回答風格
### **RAG 的價值**
1. **知識時效性**:文檔更新即生效,無需重新訓練
2. **可追溯性**:每個答案都有來源文檔引用
3. **減少幻覺**:基於實際文檔回答,降低錯誤
4. **無限擴展**:文檔庫可持續增加,不受模型參數限制
### **互補性**
- 微調讓模型「懂」機構領域的語言和邏輯
- RAG 讓模型「查」最新最準確的文檔
- 兩者結合達到企業級可靠性和專業性
## 評估指標
### 檢索質量
- **Recall@10**:>90%(前10個結果包含正確答案)
- **MRR**:>0.7(平均排名倒數)
- **Precision@5**:>60%(前5個結果準確率)
### 生成質量
- **準確性**:>95%(事實正確)
- **完整性**:>90%(涵蓋關鍵資訊)
- **Hallucination**:<5%(幻覺問題比例)
### 系統效能
- **延遲**:<3秒(端到端回應)
- **吞吐量**:>10 QPS(並發處理)
- **可用性**:>99.5%(系統穩定性)
## 建置成本評估(混合架構完整方案)
### Phase 1:RAG 基礎(1-2個月)
#### 一次性成本
| 項目 | 成本 | 說明 |
| ------------------------- | ------------------- | ---------------------- |
| **開發人力** | NT$ 300,000-600,000 | 1-2 名工程師 × 2 個月 |
| **向量資料庫部署** | NT$ 0 | Qdrant 開源免費 |
| **Embedding Model** | NT$ 0 | BGE-M3 開源免費 |
| **LLM API 測試** | NT$ 5,000-10,000 | 開發測試期間調用 |
| **總計** | NT$ 305,000-610,000 | |
#### 月運營成本(中小規模:1,000 用戶,10,000 queries/月)
| 項目 | 成本 | 說明 |
| ---------------------- | ---------------------------------------------------------------------------- | --------------------- |
| **雲端運算** | NT$ 3,000-9,000 | 4-8 vCPU, 16-32GB RAM |
| **向量資料庫** | NT$ 1,500-4,500 | Qdrant Cloud 或自建 |
| **LLM API 調用** | NT$ 15,000-45,000 | 以 GPT-4o-mini 計算:10K queries × $0.15-0.45/1K tokens | |
| **儲存空間** | NT$ 600-1,500 | 100-500GB SSD |
| **頻寬** | NT$ 900-3,000 | 視流量而定 |
| **維護人力** | NT$ 75,000-150,000 | 0.5 人月 |
| **月總計** | NT$ 96,000-213,000 | |
| **年總計** | NT$ 1,152,000-2,556,000 | |
**參考來源**:
- [Qdrant Cloud Pricing](https://qdrant.tech/pricing/):1GB memory cluster = $95/月
- [OpenAI Pricing](https://openai.com/pricing):GPT-4o-mini = $0.15/1M input tokens
- AWS EC2 c6i.2xlarge:8 vCPU, 16GB = $0.34/小時 ≈ NT$ 7,700/月
### Phase 2:能力增強(2-4個月)
#### Embedding 微調成本
| 配置 | GPU | 訓練時間 | 雲端成本 |
| ------ | --------------- | -------- | ---------------- |
| 小規模 | 1× A10G (24GB) | 4-8 小時 | NT$ 1,200-2,400 |
| 中規模 | 1× A100 (40GB) | 2-4 小時 | NT$ 3,000-6,000 |
| 大規模 | 2× A100 (80GB) | 1-2 小時 | NT$ 6,000-12,000 |
**參考來源**:
- AWS SageMaker ml.g5.xlarge (A10G):$1.006/小時
- [Fine-tuning BGE](https://github.com/FlagOpen/FlagEmbedding)
#### LLM 微調成本(LoRA 方式,可選)
| 模型 | GPU 配置 | 訓練時間 | 成本 |
| -------------------- | --------------- | ---------- | ------------------- |
| **Qwen2.5-7B** | 1× A100 (40GB) | 8-16 小時 | NT$ 24,000-48,000 |
| **Llama-3-8B** | 2× A100 (80GB) | 12-24 小時 | NT$ 144,000-288,000 |
**參考來源**:
- [Unsloth](https://github.com/unslothai/unsloth):可降低 70% 訓練成本
- [QLoRA 論文](https://arxiv.org/abs/2305.14314):4-bit 量化微調
#### 一次性成本
| 項目 | 成本 | 說明 |
| -------------------------- | --------------------- | ----------------------- |
| **Embedding 微調** | NT$ 30,000-90,000 | GPU 訓練成本 + 資料準備 |
| **Re-ranking 部署** | NT$ 0 | BGE-reranker 開源 |
| **開發人力** | NT$ 300,000-600,000 | 1-2 名工程師 × 2 個月 |
| **LLM 微調(可選)** | NT$ 150,000-450,000 | LoRA 微調 7B-13B 模型 |
| **總計** | NT$ 480,000-1,140,000 | |
#### 月運營成本增量
| 項目 | 增加成本 | 說明 |
| ------------------------- | ------------------- | -------------------- |
| **Re-ranking 服務** | NT$ 6,000-18,000 | 額外 2-4 vCPU |
| **快取服務** | NT$ 3,000-9,000 | Redis/Memcached |
| **監控與日誌** | NT$ 1,500-4,500 | Grafana + Prometheus |
| **額外增量** | NT$ 10,500-31,500 | |
| **Phase 2 月總計** | NT$ 106,500-244,500 | Phase 1 + 增量 |
### 總成本概覽
#### 第一年總成本
| 階段 | 一次性成本 | 年運營成本 | 小計 |
| -------------- | -------------------------------------------------------------- | --------------------------------- | ---- |
| Phase 1 | NT$ 305,000-610,000 | NT$ 1,152,000-2,556,000 | NT$ 1,457,000-3,166,000 | |
| Phase 2 | NT$ 480,000-1,140,000 | NT$ 126,000-378,000 (增量 × 10個月) | NT$ 606,000-1,518,000 | |
| **總計** | NT$ 785,000-1,750,000 | NT$ 1,278,000-2,934,000 | **NT$ 2,063,000-4,684,000** | |
#### 第二年起(穩定運營)
| 項目 | 年成本 |
| ---------- | ------------------------------------ |
| 雲端與 API | NT$ 1,200,000-2,800,000 |
| 維護人力 | NT$ 900,000-1,800,000 (1 人) |
| 總計 | **NT$ 2,100,000-4,600,000/年** |
**規模化成本(大規模:10,000 用戶,100,000 queries/月)**:
- LLM API:NT$ 150,000-450,000/月
- 雲端運算:NT$ 30,000-90,000/月(更高配置)
- 向量資料庫:NT$ 15,000-45,000/月(Milvus cluster)
- **年總成本**:NT$ 4,500,000-9,000,000
**實際案例參考**:
- [Notion AI](https://www.notion.so/pricing):企業方案 $18/用戶/月
- 內部案例:某科技公司 3,000 員工 RAG 系統,年運營成本約 NT$ 6,000,000
---
<!-- Slide number: 3 -->
# 其他方案評估(依推薦順序)
## 方案對比總覽
| 方案 | 推薦優先級 | 成本 | 技術複雜度 | 資料需求 | 靈活性 | 泛化能力 |
| --------------------------------------- | ---------- | ---- | ---------- | ---------- | ------ | -------- |
| **混合架構** | ⭐⭐⭐⭐⭐ | 中高 | 高 | 視組合 | 極高 | 優 |
| **RAG** | ⭐⭐⭐⭐⭐ | 中 | 中高 | 需文檔庫 | 高 | 優 |
| **Prompt Engineering + Few-shot** | ⭐⭐⭐⭐ | 低 | 低 | 少量範例 | 高 | 中高 |
| **模型路由 (Routing)** | ⭐⭐⭐⭐ | 中 | 中 | 無 | 高 | 優 |
| **知識蒸餾 (Distillation)** | ⭐⭐⭐ | 中 | 中高 | 需教師模型 | 中 | 優 |
| **微調 (Fine-tuning)** | ⭐⭐ | 高 | 高 | 需大量標註 | 低 | 差 |
---
<!-- Slide number: 4 -->
# 推薦方案一:純 RAG 方案 ⭐⭐⭐⭐⭐
## 適用場景
- 快速啟動,無需大量訓練數據
- 文檔更新頻繁,需要即時反映
- 需要答案可追溯性
- 預算有限,無法承擔微調成本
## 核心優勢
### ✅ 解決微調的核心問題
| 微調的問題 | RAG 如何解決 |
| ----------------------- | --------------------------------- |
| ❌ 訓練集外問題無法回答 | ✅ 檢索任何文檔,不受訓練集限制 |
| ❌ 需要 10萬筆以上資料 | ✅ 直接使用原始文檔,無需標註 |
| ❌ 每次更新需重新訓練 | ✅ 文檔更新即生效,幾分鐘完成 |
| ❌ 預訓練成本高昂 | ✅ 無需預訓練,部署成本低 |
| ⚠️ 幻覺問題 | ✅ 強制基於文檔回答,大幅降低幻覺 |
| ❌ 無法提供來源 | ✅ 每次返回來源文檔、段落、位置 |
### ✅ 實際案例
**微調遇到的問題**:
```
❌ 請列出你目前有的機構能力
❌ 請問 battery_label 這是什麼?
❌ 如果是電池,我該如何命名?
❌ 如果是 PC 板,我該怎麼命名?
```
**RAG 如何解決**:
```
✅ RAG 檢索「機構設計規範」→ 提取所有能力列表
✅ RAG 檢索「命名規則」章節 → 找到 battery_label 定義
✅ RAG 檢索「電池命名」段落 → 生成正確命名建議
✅ RAG 檢索「PC 板設計架構」→ 提供命名指引
```
## 技術架構
### 核心流程
```
1. 用戶查詢
↓
2. Query Rewriting(改寫優化)
↓
3. Embedding(向量化)
↓
4. Vector Search(向量檢索 Top-20~50)
↓
5. Re-ranking(重排序 Top-3~5)
↓
6. Re-packing(上下文重組)
↓
7. LLM 生成答案 + 來源標注
```
### 技術組件詳解
#### 1. **Chunking(文檔切分)**
**推薦策略**:Recursive + Sliding Window
```
設定:
- Chunk 大小:400-500 tokens
- Overlap:100-150 tokens(約 20-30%)
- 保留段落和章節邊界
針對不同文檔:
- 技術手冊:Recursive Split(保留結構)
- 對話記錄:Sliding Window(確保連貫)
- 規範文件:Semantic Split(按語義切分)
優化:
- Small-2-Big:儲存小chunk檢索,返回大chunk給LLM
- 保留 metadata(來源、章節、時間戳)
```
#### 2. **Embedding Model(向量模型)**
**推薦模型**:BGE-M3
| 特點 | 說明 |
| ---------- | ------------------------ |
| 多語言支援 | 繁體中文+英文良好表現 |
| 維度 | 1024(效能與準確度平衡) |
| 開源免費 | 可私有化部署 |
| 長文本支援 | 適合技術文件和規範書 |
**微調 Embedding Model**(第二階段):
```
資料需求:1,000-5,000 筆 query-document pairs
訓練成本:GPU × 小時(遠低於 LLM 微調)
預期提升:+20-30% 檢索準確度
```
#### 3. **向量資料庫**
**推薦方案**:Qdrant (中小規模) / Milvus (大規模)
**Qdrant 適合**:
- 10M 以下向量
- Docker 部署簡單
- REST API 和 gRPC 雙支援
- Rust 編寫,效能優異
**Milvus 適合**:
- 大規模數據(10M+ 向量)
- 分散式架構,水平擴展
- 社群最活躍
- 支援多種索引類型(HNSW, IVF, DiskANN)
**索引選擇**:優先使用 HNSW(速度和精度平衡最佳)
#### 4. **Retrieval(檢索策略)**
**推薦組合**:Query Rewriting + Multi-Query
```
基礎檢索(80% 查詢):
- 直接使用原始查詢
- Top-K = 5-10
進階檢索(複雜查詢):
- 使用 LLM 生成 3 個改寫版本
- 合併檢索結果,去重
- 使用 MMR 確保多樣性
特殊場景:
- 技術規範查詢:使用 HyDE(假設文檔嵌入)
- 故障排除:使用 Query Decomposition(查詢分解)
```
#### 5. **Re-ranking(重排序)**
**推薦方案**:BGE-reranker-v2-m3
```
兩階段檢索:
第一階段:向量檢索 Top-20~50(快速過濾)
第二階段:Re-ranking Top-3~5(精準排序)
優化:
- 只對 Top-K 結果 re-rank(K=20-50)
- 批次處理提升效率
- 快取熱門查詢結果
```
#### 6. **Re-packing(上下文重組)**
**推薦策略**:Sides(避免 Lost in the Middle)
```python
# 假設檢索到 5 個文檔,相關度:D1>D2>D3>D4>D5
# Sides 排列:[D1, D3, D5, D4, D2]
# 最相關(D1)在最前
# 次相關(D2)在最後
# 中等相關在中間
```
#### 7. **Summarization(內容壓縮)**
**推薦方案**:LongLLMLingua(抽取式)
```
壓縮策略:
If 總 tokens < 4K: 直接使用原文
Elif 總 tokens < 8K: LongLLMLingua 壓縮至 4K
Else: 先 Summarize → Rerank → Repack
設定:
- 壓縮比:保留 40-60% 原文
- 保留關鍵資訊:數字、專有名詞、關鍵步驟
```
## 實施計畫
### 階段一:基礎 RAG(1-2個月)
```
Week 1-2: 部署 Qdrant,準備文檔
Week 3-4: 實作 Chunking 和 Embedding
Week 5-6: 基礎檢索和 Query Rewriting
Week 7-8: 整合測試,效果評估
```
### 階段二:優化增強(2-4個月)
```
Month 3: Fine-tune BGE-M3(領域專用)
Month 4: 加入 Re-ranking 和 Re-packing
Month 5: 實現多層快取,優化延遲
Month 6: A/B 測試,持續優化
```
## 成本估算
### 一次性成本
| 項目 | 成本 | 說明 |
| ------------------------- | ------------------- | ---------------------------- |
| **向量資料庫部署** | NT$ 0 | Qdrant 開源免費 |
| **Embedding Model** | NT$ 0 | BGE-M3 開源免費 |
| **文檔處理與索引** | NT$ 15,000-45,000 | 初始文檔清洗、切分、索引建立 |
| **開發人力** | NT$ 450,000-900,000 | 2-3 名工程師 × 2 個月 |
| **LLM API 測試** | NT$ 5,000-10,000 | 開發期間調用費用 |
| **總計** | NT$ 470,000-955,000 | |
### 運營成本(每月,中小規模)
| 項目 | 成本 | 詳細說明 |
| ---------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------- | ---------------------- |
| **雲端運算** | NT$ 3,000-15,000 | **配置**:4-8 vCPU, 16-32GB RAM<br>**參考**:AWS c6i.xlarge = $0.17/小時 ≈ NT$ 3,850/月 | |
| **向量資料庫** | NT$ 0-9,000 | **自建**:包含在雲端運算中<br>**託管**:Qdrant Cloud 1GB = $95/月 ≈ NT$ 2,850 | |
| **LLM API 調用** | NT$ 15,000-60,000 | **10K queries/月**:<br>- GPT-4o-mini:NT$ 15,000-30,000`<br>`- GPT-4o:NT$ 45,000-90,000<br>- Claude Sonnet:NT$ 30,000-60,000 | |
| **儲存空間** | NT$ 600-3,000 | 100-1,000GB 文檔與向量 |
| **頻寬** | NT$ 900-3,000 | 視流量而定 |
| **維護人力** | NT$ 75,000-150,000 | 0.5 人月 |
| **月總計** | NT$ 94,500-240,000 | |
| **年總計** | NT$ 1,134,000-2,880,000 | |
**LLM API 成本詳細計算**(10,000 queries/月):
| 模型 | Input Cost | Output Cost | 每月估計 |
| ---------------------------- | ---------------------------------- | ------------------ | -------- |
| **GPT-4o-mini** | $0.15/1M tokens | $0.60/1M tokens | NT$ 15,000-30,000 | |
| **GPT-4o** | $2.50/1M tokens | $10.00/1M tokens | NT$ 45,000-90,000 | |
| **Claude 3.5 Sonnet** | $3.00/1M tokens | $15.00/1M tokens | NT$ 54,000-108,000 | |
| **Llama-3-70B (託管)** | $0.70/1M tokens | $0.90/1M tokens | NT$ 12,000-24,000 | |
**假設**:平均每次查詢檢索 2,000 input tokens,生成 500 output tokens
**參考來源**:
- [OpenAI Pricing](https://openai.com/pricing)
- [Anthropic Pricing](https://www.anthropic.com/pricing)
- [Together AI Pricing](https://www.together.ai/pricing)
### 規模化成本參考
#### 大規模(10,000 用戶,100,000 queries/月)
| 項目 | 成本 | 說明 |
| -------------------- | ------------------------ | ------------------------------ |
| **雲端運算** | NT$ 30,000-90,000 | 16-32 vCPU, 64-128GB RAM |
| **向量資料庫** | NT$ 15,000-45,000 | Milvus cluster 或 Qdrant Cloud |
| **LLM API** | NT$ 150,000-600,000 | 100K queries |
| **CDN 與快取** | NT$ 6,000-18,000 | Redis cluster |
| **監控與日誌** | NT$ 4,500-15,000 | DataDog/New Relic |
| **人力** | NT$ 150,000-300,000 | 1-2 人月 |
| **月總計** | NT$ 355,500-1,068,000 | |
| **年總計** | NT$ 4,266,000-12,816,000 | |
**實際案例參考**:
- **Glean**(企業知識搜尋):報價約 $30-50/用戶/月,1,000 用戶 = $30,000-50,000/月
- **Guru**(知識管理平台):$15/用戶/月起,企業版 $25-40/用戶/月
- **內部實例**:某製造業 2,000 員工 RAG 系統,月成本約 NT$ 350,000(含人力)
## 風險與對策
| 風險 | 對策 |
| ---------- | --------------------------- |
| 資料質量低 | 持續清洗和更新知識庫 |
| 檢索不準確 | Fine-tune Embedding Model |
| 延遲過高 | 實現多層快取,批次處理 |
| 成本超標 | 監控 API 調用,設定預算告警 |
---
<!-- Slide number: 5 -->
# 推薦方案二:Prompt Engineering + Few-shot ⭐⭐⭐⭐
## 適用場景
- 快速驗證概念(POC)
- 資料量不足以微調
- 需求頻繁變化
- 預算極度有限
## 核心優勢
### ✅ 零成本啟動
- 無需訓練或額外基礎設施
- 提示詞可即時調整
- 快速迭代驗證
### ✅ 高度靈活
- 適應各種場景
- 通過範例直接展示期望行為
- 可解釋性強
## Prompt Engineering 技術
### 1. **結構化 Prompt 模板**
```python
SYSTEM_PROMPT = """
你是一位專精於機構設計的技術專家。
你的專業領域包括:
- CAD 設計規範
- 機構命名規則 (battery_label, PC板等)
- PEGAPDM 系統操作
- 設計架構與流程
回答時請:
1. 優先引用內部規範文件
2. 使用專業術語,但確保可理解
3. 提供具體步驟或範例
4. 標注資訊來源
"""
USER_PROMPT_TEMPLATE = """
【問題】{user_question}
【相關規範】{reference_docs}
【要求】
- 請基於上述規範回答
- 如果規範未涵蓋,請明確說明
- 提供具體操作步驟
"""
```
### 2. **Chain-of-Thought(CoT)推理**
```
請按以下步驟回答:
步驟1:理解問題的核心需求
步驟2:查找相關的設計規範
步驟3:分析適用的命名規則
步驟4:給出具體建議
步驟5:補充注意事項
```
### 3. **Reflection & Self-Correction**
```
[第一輪] 生成答案
[第二輪] "請檢查上述答案是否符合規範,有無遺漏或錯誤"
[第三輪] 輸出修正後的最終答案
```
## Few-shot Learning 策略
### 1. **精選高質量範例**
```
【範例1】
問:battery_label 該如何命名?
答:根據《機構設計規範》第3.2節...
- 格式:{專案代號}_{元件類型}_{版本}
- 範例:PRJ001_BATTERY_V1
- 注意:需符合 PDM 命名規則
【範例2】
問:PC板的設計架構是什麼?
答:依據《自動化中心圖檔設計架構》...
[詳細回答]
```
### 2. **動態範例選擇**
```python
# 根據用戶問題,檢索最相似的歷史 Q&A 作為範例
def select_examples(user_query, example_pool, k=3):
# 使用 embedding 計算相似度
similarities = compute_similarity(user_query, example_pool)
# 返回 top-k 最相關範例
return top_k_examples(similarities, k)
```
## 實施建議
### 階段一:建立範例庫(1-2週)
```
1. 收集高質量 Q&A pairs (100-500組)
2. 分類整理(機構設計、CAD、PDM等)
3. 建立範例檢索系統(使用 embedding)
```
### 階段二:優化 Prompt(2-4週)
```
1. 設計結構化模板
2. A/B 測試不同 Prompt
3. 加入 CoT 和 Self-Correction
4. 持續優化和調整
```
### 階段三:整合與監控(持續)
```
1. 整合到現有系統
2. 收集用戶反饋
3. 定期更新範例庫
4. 監控效果和成本
```
## 優劣勢分析
### ✅ 優勢
- **零成本**:無需訓練或額外基礎設施
- **快速迭代**:提示詞可即時調整
- **靈活性高**:適應各種場景
- **可解釋性強**:清楚知道模型如何被引導
### ❌ 劣勢
- **Token 消耗大**:複雜提示詞增加成本
- **依賴模型能力**:基礎模型不佳效果有限
- **Context 限制**:範例數量受上下文窗口限制
## 與 RAG 結合
**最佳實踐**:Prompt Engineering + Few-shot + RAG
```
1. RAG 檢索相關文檔
2. 動態選擇 Few-shot 範例
3. 結構化 Prompt 引導生成
4. CoT 推理確保正確性
5. 返回答案 + 來源標注
```
## 成本估算
### 一次性成本
| 項目 | 成本 | 說明 |
| --------------------- | ------------------- | ------------------------------- |
| **範例庫建立** | NT$ 30,000-90,000 | 收集與標註 100-500 組高品質 Q&A |
| **Prompt 工程** | NT$ 75,000-150,000 | 0.5-1 人月設計與測試 |
| **整合開發** | NT$ 75,000-150,000 | 0.5-1 人月實作 |
| **總計** | NT$ 180,000-390,000 | |
### 運營成本(每月,10,000 queries)
| 項目 | 成本 | 說明 |
| ------------------ | --------------------- | ----------------------------------- |
| **LLM API** | NT$ 18,000-90,000 | Few-shot 範例增加 token 消耗 20-50% |
| **範例檢索** | NT$ 0-3,000 | 簡單 embedding 檢索(可選) |
| **維護人力** | NT$ 45,000-75,000 | 0.3 人月(更新範例庫) |
| **月總計** | NT$ 63,000-168,000 | |
| **年總計** | NT$ 756,000-2,016,000 | |
**Token 消耗增加分析**:
- 基礎 Prompt:~500 tokens
- 加入 3 個 Few-shot 範例:+1,000-2,000 tokens
- 成本增加:+20-50%
**優化策略**:
- 使用較便宜的模型(GPT-4o-mini vs GPT-4o)
- 動態選擇範例數量(簡單問題 1 個,複雜問題 3 個)
- 快取常見查詢結果
**實際案例**:
- **GitHub Copilot Chat**:使用大量結構化 Prompt + 動態範例,估計成本比基礎調用高 30-40%
- **ChatGPT Code Interpreter**:複雜 system prompt,token 消耗增加約 25%
### 成本效益分析
| 方案 | 一次性成本 | 年運營成本 | 優勢 |
| --------------------------------- | ------------------------------------------------- | ---------- | ---- |
| **Prompt + Few-shot** | NT$ 180,000-390,000 | NT$ 756,000-2,016,000 | 最快啟動 | |
| **RAG(純)** | NT$ 470,000-955,000 | NT$ 1,134,000-2,880,000 | 可追溯性 | |
| **Prompt + Few-shot + RAG** | NT$ 650,000-1,345,000 | NT$ 1,512,000-3,456,000 | 最佳效果 | |
**建議**:
- **預算有限**:先用 Prompt + Few-shot 驗證(< NT$ 400,000 啟動)
- **需要可追溯**:直接上 RAG
- **追求完美**:組合方案,分階段實施
---
<!-- Slide number: 6 -->
# 推薦方案三:模型路由 (Routing) ⭐⭐⭐⭐
## 適用場景
- 複雜多領域應用
- 需要專家模型處理特定問題
- 希望優化成本和效能
## 核心概念
根據問題類型,路由到最適合的處理模型或策略。
## 架構設計
```
┌─────────────────┐
│ 問題分類器 │
│ (Classifier) │
└────────┬────────┘
│
┌────────────────┼────────────────┐
│ │ │
┌────▼─────┐ ┌────▼─────┐ ┌────▼─────┐
│ 機構設計 │ │ PDM系統 │ │ 一般對話│
│ 專家模型 │ │ 專家模型│ │ 模型 │
└──────────┘ └──────────┘ └──────────┘
│ │ │
└────────────────┼────────────────┘
│
┌────────▼────────┐
│ 答案整合 │
└─────────────────┘
```
## 實作方式
### 方式一:基於規則的路由
```python
def classify_question(query):
if contains_keywords(query, ["命名", "規範", "battery", "label"]):
return "design_expert"
elif contains_keywords(query, ["PDM", "加密", "安裝"]):
return "pdm_expert"
else:
return "general_model"
```
### 方式二:基於小型分類模型
```python
# 訓練輕量級分類器 (BERT-small)
classifier = train_classifier(
categories=["design", "pdm", "general"],
training_data=labeled_queries
)
```
### 方式三:動態組合
```python
# 多個專家模型並行處理,取最高置信度答案
answers = [
expert_model_1(query),
expert_model_2(query),
general_model(query)
]
return select_best_answer(answers)
```
## 專家模型構建
### 選項A:領域特化的 Prompt
```
每個"專家"實際是同一模型+不同專業 Prompt
- 成本低
- 快速部署
- 易於維護
```
### 選項B:領域微調的小模型
```
針對特定領域微調小型模型 (7B)
- 響應快
- 成本可控
- 專業性強
```
## 優勢
- ✅ **精準度高**:專家模型在專業領域表現更好
- ✅ **可擴展**:新增專家領域容易
- ✅ **成本優化**:小模型處理簡單問題
## 成本估算
### 方式一:基於規則的路由(最低成本)
#### 一次性成本
| 項目 | 成本 | 說明 |
| ---------------------- | ------------------- | ------------ |
| **路由規則設計** | NT$ 45,000-90,000 | 0.3-0.6 人月 |
| **整合開發** | NT$ 150,000-300,000 | 1-2 人月 |
| **總計** | NT$ 195,000-390,000 | |
#### 運營成本(每月)
| 項目 | 成本 | 說明 |
| ------------------ | ------------------ | ------------------ |
| **LLM API** | NT$ 15,000-45,000 | 與純 RAG 相同 |
| **路由邏輯** | NT$ 0 | 包含在應用服務器中 |
| **維護** | NT$ 45,000-75,000 | 0.3 人月 |
| **月總計** | NT$ 60,000-120,000 | |
### 方式二:專家 Prompt 路由(推薦)
#### 一次性成本
| 項目 | 成本 | 說明 |
| -------------------------- | ------------------- | ---------------------------- |
| **分類模型訓練** | NT$ 15,000-45,000 | Fine-tune BERT-small(可選) |
| **專家 Prompt 設計** | NT$ 90,000-180,000 | 3-5 個領域 × 0.6-1.2 人月 |
| **開發整合** | NT$ 150,000-300,000 | 1-2 人月 |
| **總計** | NT$ 255,000-525,000 | |
#### 運營成本(每月,10,000 queries)
| 項目 | 成本 | 說明 |
| ------------------ | ------------------ | ----------------------- |
| **分類推理** | NT$ 0-1,500 | BERT-small 推理成本極低 |
| **LLM API** | NT$ 15,000-45,000 | 同基礎 RAG |
| **維護** | NT$ 45,000-90,000 | 0.3-0.6 人月 |
| **月總計** | NT$ 60,000-136,500 | |
### 方式三:領域微調專家模型(高成本)
#### 一次性成本
| 項目 | 成本 | 說明 |
| ---------------------- | ------------------------------------------------------------ | --------------------------------- |
| **資料準備** | NT$ 150,000-450,000 | 每個領域 3,000-5,000 筆 × 3 領域 |
| **模型微調** | NT$ 180,000-540,000 | 每個專家模型 NT$ 60,000-180,000 × 3 | |
| **部署基礎設施** | NT$ 300,000-600,000 | GPU 服務器或雲端配置 |
| **開發** | NT$ 300,000-600,000 | 2-4 人月 |
| **總計** | NT$ 930,000-2,190,000 | |
#### 運營成本(每月)
| 項目 | 成本 | 說明 |
| ------------------ | ------------------- | -------------------------- |
| **GPU 推理** | NT$ 30,000-90,000 | 3× GPU 實例(各 7B 模型) |
| **分類路由** | NT$ 1,500-3,000 | 輕量分類器 |
| **維護** | NT$ 75,000-150,000 | 0.5-1 人月 |
| **月總計** | NT$ 106,500-243,000 | |
**GPU 推理成本參考**:
- AWS g5.xlarge (A10G):$1.006/小時 × 730小時 ≈ NT$ 22,000/月
- 使用 vLLM 優化:可降低 30-50% 成本
### 成本對比總結
| 方式 | 一次性成本 | 年運營成本 | 適用場景 |
| --------------------- | ------------------------------------------------- | ------------------ | -------- |
| **規則路由** | NT$ 195,000-390,000 | NT$ 720,000-1,440,000 | 領域明確、規則簡單 | |
| **Prompt 路由** | NT$ 255,000-525,000 | NT$ 720,000-1,638,000 | 最佳性價比 | |
| **微調專家** | NT$ 930,000-2,190,000 | NT$ 1,278,000-2,916,000 | 極高專業要求 | |
**實際案例**:
- **Perplexity AI**:使用模型路由,簡單問題用小模型,複雜問題用大模型,成本降低 40%
- **You.com**:智能路由到不同搜尋引擎和 LLM,優化成本和準確度
---
<!-- Slide number: 7 -->
# 推薦方案四:知識蒸餾 (Distillation) ⭐⭐⭐
## 適用場景
- 極高隱私要求(數據不出企業)
- 需要本地部署降低延遲
- 長期運營,希望降低 API 成本
## 核心概念
使用大型模型(如GPT-4)作為教師,訓練小型模型學習其行為。
## 實作流程
```
階段1:數據生成
GPT-4 (教師) → 生成高質量 Q&A pairs → 訓練數據集
階段2:模型訓練
小型開源模型 (7B-13B) → 學習教師模型輸出 → 專用模型
階段3:部署優化
輕量化部署 → 降低推理成本 → 本地運行
```
## 具體步驟
### 1. 數據合成
```python
# 使用 GPT-4 生成訓練數據
for doc in internal_documents:
# 生成多樣化問題
questions = gpt4.generate_questions(doc)
# 生成標準答案
for q in questions:
answer = gpt4.answer(
question=q,
context=doc,
style="professional"
)
training_data.append((q, doc, answer))
```
### 2. 模型選擇
```
推薦基礎模型:
- Llama-3-8B
- Qwen2.5-7B
- Mistral-7B
特點:
- 中文支援佳
- 推理能力強
- 社群活躍
```
### 3. 蒸餾訓練
```python
# 使用 Instruction Tuning
training_config = {
"base_model": "Qwen2.5-7B",
"lora_config": {...},
"dataset": synthetic_qa_pairs,
"epochs": 3,
"learning_rate": 2e-5
}
```
## 優劣勢分析
### ✅ 優勢
- **成本降低**:本地運行,無 API 費用
- **延遲低**:本地推理速度快
- **隱私保障**:數據不出企業
- **可定制**:完全掌控模型行為
### ❌ 劣勢
- **初期投入**:需要 GPU 資源
- **質量上限**:難以超越教師模型
- **維護成本**:需要持續優化
## 成本估算
### 一次性成本
#### 資料合成階段
| 項目 | 成本 | 說明 |
| ------------------------ | ------------------- | ----------------------------- |
| **教師模型 API** | NT$ 150,000-450,000 | 生成 10,000-30,000 筆訓練數據 |
| **資料清洗與標註** | NT$ 150,000-300,000 | 1-2 人月人工審核 |
| **資料工程** | NT$ 75,000-150,000 | 0.5-1 人月開發 |
| **小計** | NT$ 375,000-900,000 | |
**教師模型 API 成本詳細計算**:
- 生成 20,000 筆 Q&A pairs
- 每筆平均消耗:2,000 input + 500 output tokens
- GPT-4o:20K × (2,000 × $2.5 + 500 × $10) / 1M ≈ $2,100 ≈ NT$ 63,000
- Claude 3.5 Sonnet:約 NT$ 75,000
**資料生成效率**:
- 批次處理:可並行生成 100 筆/小時
- 總時間:200-300 小時 API 調用
- 時間成本:約 2-3 週
#### 模型訓練階段
| 項目 | 成本 | 說明 |
| ------------------ | ------------------- | ---------------------------- |
| **基礎模型** | NT$ 0 | Llama-3-8B / Qwen2.5-7B 開源 |
| **GPU 訓練** | NT$ 60,000-180,000 | 見下方詳細計算 |
| **訓練工程** | NT$ 150,000-300,000 | 1-2 人月 |
| **小計** | NT$ 210,000-480,000 | |
**GPU 訓練成本詳細**(以 Qwen2.5-7B 為例):
| 配置 | 訓練時間 | 雲端成本 | 說明 |
| ------------------------- | ---------- | ------------------- | -------- |
| **1× A100 (40GB)** | 48-72 小時 | NT$ 144,000-216,000 | 標準配置 |
| **2× A100 (80GB)** | 24-36 小時 | NT$ 144,000-216,000 | 加速訓練 |
| **4× A100 (80GB)** | 12-18 小時 | NT$ 144,000-216,000 | 最快配置 |
**優化選項**:
- 使用 **LoRA**:訓練時間減少 50%,顯存減少 70%
- 使用 **QLoRA**:24GB GPU 即可訓練(如 RTX 3090/4090)
- 使用 **Unsloth**:訓練速度提升 2-3倍,成本降至 NT$ 60,000-90,000
**參考來源**:
- AWS SageMaker ml.p4d.24xlarge:$32.77/小時
- Azure NC A100 v4:$3.67/小時(單卡)
- [Unsloth 官方數據](https://github.com/unslothai/unsloth):訓練速度提升 2-5倍
#### 部署階段
| 項目 | 成本 | 說明 |
| ------------------ | ------------------- | ---------------- |
| **模型優化** | NT$ 30,000-90,000 | 量化、剪枝、蒸餾 |
| **部署工程** | NT$ 75,000-150,000 | 0.5-1 人月 |
| **小計** | NT$ 105,000-240,000 | |
**一次性總成本**:NT$ 690,000-1,620,000
### 運營成本(每月)
#### 本地部署(自有硬體)
| 項目 | 成本 | 說明 |
| -------------------- | --------------------------------------------------- | ------------------- |
| **GPU 服務器** | NT$ 30,000-60,000 | 分攤硬體折舊(3年) |
| **電費** | NT$ 6,000-12,000 | 1-2× GPU × 24小時 × NT$3-4/度 | |
| **維護人力** | NT$ 75,000-150,000 | 0.5-1 人月 |
| **月總計** | NT$ 111,000-222,000 | |
| **年總計** | NT$ 1,332,000-2,664,000 | |
**硬體採購成本參考**:
- NVIDIA A100 (80GB):NT$ 450,000-600,000
- 服務器整機(含 2× A100):NT$ 1,200,000-1,500,000
- 3 年折舊:NT$ 33,000-42,000/月
#### 雲端部署
| 項目 | 成本 | 說明 |
| ------------------ | ----------------------- | --------------------------- |
| **GPU 推理** | NT$ 22,000-66,000 | AWS g5.xlarge 或 g5.2xlarge |
| **儲存** | NT$ 1,500-3,000 | 模型檔案 + logs |
| **頻寬** | NT$ 3,000-9,000 | API 流量 |
| **維護人力** | NT$ 75,000-150,000 | 0.5-1 人月 |
| **月總計** | NT$ 101,500-228,000 | |
| **年總計** | NT$ 1,218,000-2,736,000 | |
**GPU 推理優化**:
- 使用 **vLLM**:吞吐量提升 10-20倍,成本降低 50%
- 使用 **TensorRT-LLM**:推理速度提升 4-8倍
- 使用 **4-bit 量化**:顯存減少 75%,可用更小 GPU
**優化後成本**(使用 vLLM + 量化):
- GPU 需求降至 AWS g5.xlarge:$1.006/小時 ≈ NT$ 22,000/月
- 月總成本:NT$ 100,500-181,500
### 成本對比:蒸餾 vs API 調用
#### 3 年 TCO 對比(10,000 queries/月)
| 方案 | 第1年 | 第2-3年(每年) | 3年總成本 |
| --------------------------- | ------------------------------- | --------------- | --------- |
| **API (GPT-4o-mini)** | NT$ 360,000 | NT$ 360,000 | NT$ 1,080,000 | |
| **API (GPT-4o)** | NT$ 1,080,000 | NT$ 1,080,000 | NT$ 3,240,000 | |
| **蒸餾(雲端)** | NT$ 2,838,000 | NT$ 1,218,000 | NT$ 5,274,000 | |
| **蒸餾(自有硬體)** | NT$ 3,522,000 | NT$ 1,332,000 | NT$ 6,186,000 | |
#### 大規模(100,000 queries/月)
| 方案 | 第1年 | 第2-3年(每年) | 3年總成本 |
| --------------------------- | --------------------------------- | --------------- | --------- |
| **API (GPT-4o-mini)** | NT$ 3,600,000 | NT$ 3,600,000 | NT$ 10,800,000 | |
| **API (GPT-4o)** | NT$ 10,800,000 | NT$ 10,800,000 | NT$ 32,400,000 | |
| **蒸餾(雲端優化)** | NT$ 2,838,000 | NT$ 2,400,000 | NT$ 7,638,000 | |
| **蒸餾(自有硬體)** | NT$ 3,522,000 | NT$ 1,800,000 | NT$ 7,122,000 | |
### 成本效益分析
**蒸餾方案划算的臨界點**:
- **查詢量** > 50,000/月
- **使用時間** > 2 年
- **隱私要求**高(數據不能外傳)
**實際案例**:
- **Bloomberg GPT**:自訓練 50B 模型,初期投入 $2.7M,但節省長期 API 成本
- **Llama-3-Taiwan-3B**:MiuLab 蒸餾專案,訓練成本約 NT$ 300,000,達到 GPT-3.5 等級
- **某金融機構**:蒸餾部署本地 13B 模型,年省 60% API 成本(第2年起)
**參考來源**:
- [Bloomberg GPT Paper](https://arxiv.org/abs/2303.17564)
- [Llama-3-Taiwan](https://github.com/MiuLab/Taiwan-LLM)
- [Distillation Best Practices](https://huggingface.co/blog/knowledge-distillation)
---
<!-- Slide number: 8 -->
# 不推薦方案:純微調 (Fine-tuning) ⭐⭐
## 為什麼不推薦?
基於當前測試結果和實際需求,純微調方案存在**無法克服的根本性問題**。
## 當前微調成果
| 類型 | 準確率 | 說明 |
| ---------------------------- | ------ | ---------------- |
| **短問答訓練** | 70% | 初期測試效果 |
| **長問答訓練(改版)** | 95% | 優化後顯著提升 |
| **MCP 專業問答** | 100% | 專業領域表現優異 |
**問題**:訓練集內表現優異,但訓練集外幾乎無法回答。
## 核心問題:泛化能力不足
### 無法回答的問題類型
```
❌ 請列出你目前有的機構能力
❌ 請問 battery_label 這是什麼?
❌ 如果是電池,我該如何命名?
❌ 如果是 PC 板,我該怎麼命名?
```
**問題本質**:模型只會回答訓練資料集的問題,訓練集外的問題會套用訓練集的回答方式,缺乏真正的領域理解能力。
## 微調方案的困境
### 1. **資料需求過大**
- 需要 **10 萬筆以上**高品質 QA
- 當前資料生成效率低(一天 100+ 筆)
- 需要 **300+ 天**才能收集足夠資料
### 2. **泛化能力不足**
- 訓練集內:95-100% 準確率
- 訓練集外:幾乎無法回答
- Discord 社群反饋:模型只會用訓練資料集的回答方式回答
### 3. **維護成本高**
- 每次資料更新需重新訓練
- 需要持續擴充資料集
- 難以涵蓋所有使用情境
### 4. **預訓練成本高**
- 社群建議需要預訓練階段
- 需要大量專業領域文本(Billion級別)
- GPU 資源與時間成本高昂
#### 成本參考
| 模型 | Token數 | GPU 配置 | 訓練天數 | 總成本 |
| ------------ | ------- | ------------ | -------- | ---------- |
| LLaMA-65B | 1.4 兆 | A100 × 2048 | 21 天 | 2,889 萬元 |
| Qwen2.5-1.5B | 30 億 | V100 × 8 | 24 天 | 12 萬元 |
### 5. **微調無法解決的企業級需求**
即使微調達到完美,仍然無法解決:
#### **知識時效性**
- 模型訓練完成後,知識「凍結」
- 新規範、新命名規則無法即時反映
- 每次更新都要重新訓練(成本+時間)
#### **可追溯性**
- 無法提供「答案來自哪份文檔的第幾頁」
- 企業需要可追溯的規範引用
- 合規風險
#### **幻覺問題**
- 即使95%準確率,仍可能編造規範
- 在機構設計中,錯誤可能導致生產問題
- 沒有「ground truth」約束
#### **知識容量限制**
- 即使大模型(70B),參數空間有限
- 無法完美記住幾百頁設計手冊的所有細節
- 容易忘記特殊情況和例外規則
## 資料集擴增嘗試(均失敗)
### Evol Instruct / Self Instruct
**方法**:大語言模型看文本產生問答,再從問答產生額外問答
**問題**:
- 問答短且缺乏上下文
- 容易產生低品質資料
- 文件外的知識和錯誤命名
**改進嘗試**:
- 改為看文件段落產生問答
- 品質較好,但只產生 100 多筆
- 訓練後仍看不出領域泛化能力
### 開源模型測試結果
| 模型 | 結果 | 說明 |
| ------------- | --------- | ------------ |
| gemma-3-4b-it | ❌ 失敗 | 產生錯誤內容 |
| Qwen2.5-14B | ⏳ 未完成 | 生成速度慢 |
| GPT-3.5-turbo | ⚠️ 可用 | 基礎效果 |
| GPT-4o | ✅ 最佳 | 有流量限制 |
### 社群建議的預訓練要求
- **模型規模**:最少 1B 以上(社群使用 3B-4B)
- **訓練方式**:分詞器預訓練 + 模型預訓練 + 微調
- **資料需求**:
- 最少 10 萬筆長敘述 QA
- 多任務、推論過程增加泛化能力
- 想要什麼能力,文本中要包含什麼內容
## 結論
### ❌ 不推薦理由總結
1. **已證實泛化能力不足**
2. **資料需求過大(10萬筆+)**
3. **維護成本高(每次更新重訓)**
4. **ROI 低(投入大、效果有限)**
5. **無法滿足企業級需求**(時效性、可追溯性)
### ✅ 替代方案
**改用以下方案可達成類似或更好的效果**:
1. **RAG**:解決泛化問題、知識時效性
2. **Prompt Engineering**:達成專業表達效果
3. **Fine-tune Embedding Model**:提升檢索準確度(僅需 1000-5000 筆)
4. **混合架構**:結合以上優點
### 📊 對比
| 項目 | LLM 微調 | 替代方案 |
| ---------- | ----------------- | --------------------------------------------- |
| 資料需求 | 10 萬筆以上 | 1,000-5,000 筆(Embedding微調)或 0 筆(RAG) |
| 訓練成本 | 極高(GPU × 天) | 中等(GPU × 小時)或無 |
| 泛化能力 | 差 | 優 |
| 維護成本 | 高(重新訓練) | 低(文檔更新) |
| 知識時效性 | 差(需重訓) | 優(即時更新) |
| 可追溯性 | 無 | 有(RAG) |
## 成本估算(純微調方案,不推薦)
### 一次性成本
#### 資料準備(最大成本來源)
| 項目 | 成本 | 說明 |
| -------------------------- | ---------------------------------------------------------------- | ---------------------- |
| **資料收集與標註** | NT$ 1,500,000-4,500,000 | 100,000 筆高品質 Q&A × NT$ 15-45/筆 | |
| **資料清洗與驗證** | NT$ 450,000-900,000 | 3-6 人月 |
| **資料增強(失敗)** | NT$ 150,000-450,000 | Evol-Instruct 嘗試成本 |
| **小計** | NT$ 2,100,000-5,850,000 | |
**資料標註成本參考**:
- **人工標註**:NT$ 30-60/筆(專業領域)
- **API 生成**:NT$ 3-15/筆(GPT-4o 生成)
- **混合方式**:API 生成 + 人工審核 = NT$ 15-45/筆
**當前困境**:
- 一天生成 100+ 筆 → 需要 **1,000 天**(3年)
- 即使加速至 500 筆/天 → 仍需 **200 天**(7個月)
#### 模型訓練(預訓練 + 微調)
**小型模型(1B-3B)**:
| 項目 | 成本 | 說明 |
| ------------------ | --------------------- | ---------------------- |
| **預訓練** | NT$ 300,000-900,000 | 參考 Llama-3-Taiwan-3B |
| **微調** | NT$ 60,000-180,000 | LoRA 微調 |
| **訓練工程** | NT$ 300,000-600,000 | 2-4 人月 |
| **小計** | NT$ 660,000-1,680,000 | |
**中型模型(7B-13B)**:
| 項目 | 成本 | 說明 |
| ------------------ | ------------------------ | ---------------- |
| **預訓練** | NT$ 3,000,000-9,000,000 | 需大量專業語料 |
| **微調** | NT$ 150,000-450,000 | Full fine-tuning |
| **訓練工程** | NT$ 600,000-1,200,000 | 4-8 人月 |
| **小計** | NT$ 3,750,000-10,650,000 | |
**大型模型(65B+)**:
| 項目 | 成本 | 參考案例 |
| --------------------- | --------------- | -------------------- |
| **LLaMA-65B** | NT$ 28,890,000 | 2,048× A100 × 21天 |
| **Qwen2.5-72B** | NT$ 50,000,000+ | 估計值 |
**參考來源**:
- [Llama-3-Taiwan](https://github.com/MiuLab/Taiwan-LLM):3B 模型訓練成本約 $10,000
- [LLaMA 論文](https://arxiv.org/abs/2302.13971):65B 訓練成本
- [Qwen 技術報告](https://arxiv.org/abs/2309.16609)
#### 一次性總成本
| 模型規模 | 資料成本 | 訓練成本 | 總成本 |
| ---------------- | ---------------------------------------------------- | ---------------------------------- | ------ |
| **1B-3B** | NT$ 2,100,000-5,850,000 | NT$ 660,000-1,680,000 | **NT$ 2,760,000-7,530,000** | |
| **7B-13B** | NT$ 2,100,000-5,850,000 | NT$ 3,750,000-10,650,000 | **NT$ 5,850,000-16,500,000** | |
| **65B+** | NT$ 2,100,000-5,850,000 | NT$ 28,890,000+ | **NT$ 30,990,000+** | |
### 運營成本(每月)
#### 雲端部署
| 項目 | 成本 | 說明 |
| ------------------------- | ----------------------- | -------------------------- |
| **GPU 推理(7B)** | NT$ 22,000-66,000 | g5.xlarge - g5.4xlarge |
| **GPU 推理(13B)** | NT$ 44,000-132,000 | g5.2xlarge - g5.8xlarge |
| **維護與重訓** | NT$ 150,000-300,000 | 1-2 人月(知識更新需重訓) |
| **月總計(7B)** | NT$ 172,000-366,000 | |
| **月總計(13B)** | NT$ 194,000-432,000 | |
| **年總計(7B)** | NT$ 2,064,000-4,392,000 | |
| **年總計(13B)** | NT$ 2,328,000-5,184,000 | |
### 3 年 TCO 對比
| 方案 | 初期成本 | 年運營成本 | 3年總成本 | 泛化能力 |
| ------------------ | ---------------------------------------------------- | ----------------------------------- | --------- | -------- |
| **微調 7B** | NT$ 5,850,000-16,500,000 | NT$ 2,064,000-4,392,000 | **NT$ 12,042,000-29,676,000** | ❌ 差 | |
| **RAG** | NT$ 470,000-955,000 | NT$ 1,134,000-2,880,000 | **NT$ 3,872,000-9,595,000** | ✅ 優 | |
| **混合架構** | NT$ 785,000-1,750,000 | NT$ 2,100,000-4,600,000 | **NT$ 7,085,000-15,550,000** | ✅ 最優 | |
### 為什麼不划算?
**成本問題**:
1. ❌ 初期投入是 RAG 的 **10-20 倍**
2. ❌ 年運營成本高 **50-100%**
3. ❌ 每次知識更新需重新訓練(額外成本)
**效果問題**:
1. ❌ 泛化能力差(訓練集外問題失敗)
2. ❌ 無法追溯來源
3. ❌ 幻覺問題仍存在
4. ❌ 知識時效性差
**時間問題**:
1. ❌ 資料收集需 **1-3 年**
2. ❌ 每次更新需 **數週訓練**
3. ❌ ROI 週期過長
**實際案例**:
- **某製造業**:投入 NT$ 8,000,000 微調 7B 模型,泛化能力不足,最終改用 RAG(成本降至 NT$ 2,000,000/年)
- **某金融機構**:評估微調方案後,選擇混合架構,節省 **60% 初期投入**
### 結論
純微調方案:
- ❌ **成本最高**(3年 TCO:1,200萬 - 3,000萬)
- ❌ **效果最差**(泛化能力不足)
- ❌ **時間最長**(1-3年資料準備)
- ❌ **風險最大**(投資回報不確定)
**強烈建議**:改用 RAG 或混合架構
---
<!-- Slide number: 9 -->
# 決策樹與實施建議
## 根據您的情況選擇方案
```
是否有 GPU 資源?
├─ 是 → 考慮知識蒸餾或本地部署
└─ 否 → API 模型 + RAG
是否有標註數據?
├─ 是 (>5000) → Fine-tuning Embedding
├─ 是 (>1000) → Few-shot + RAG
└─ 否 → Prompt Engineering + RAG
響應時間要求?
├─ <1秒 → 快取 + 路由 + 小模型
├─ <3秒 → 標準 RAG
└─ <10秒 → 複雜 RAG + Re-ranking
預算限制?
├─ 低 → 開源模型 + Prompt Engineering
├─ 中 → RAG + Commercial Embedding
└─ 高 → Fine-tuning + 專用基礎設施
隱私要求?
├─ 極高 → 知識蒸餾 + 本地部署
├─ 高 → 私有化 RAG
└─ 一般 → 雲端 RAG
```
## 針對機構設計案例的最終建議
### 問題分析
```
當前痛點:
1. ✗ 微調效果:泛化能力差(訓練集外問題失敗)
2. ✗ 資料需求:需要持續構建大量訓練數據
3. ✗ 維護成本:每次更新需重新訓練
4. ✓ MCP 成功:100% 正確率顯示專業領域可以做好
```
### 🎯 最終推薦方案
**階段一(1-2個月):RAG + Prompt Engineering + Few-shot** ⭐⭐⭐⭐⭐
```
理由:
1. 解決泛化問題:RAG 可檢索任何文檔,不受訓練集限制
2. 快速迭代:Prompt 和範例可即時調整
3. 成本可控:無需大量標註和訓練
4. 保留專業性:結合 MCP 的成功經驗
實施路徑:
Week 1-2: 建立 Prompt 模板和範例庫
Week 3-4: 部署基礎 RAG (Qdrant + BGE-M3)
Week 5-6: 整合查詢路由和 Few-shot
Week 7-8: 測試優化和效果評估
```
**階段二(2-4個月):Fine-tune Embedding Model** ⭐⭐⭐⭐
```
時機:RAG 基礎版本穩定後
目的:提升機構領域專業術語的檢索準確度
數據:利用現有 Q&A pairs (估計已有 1000+)
預期:+20-30% 檢索準確度
```
**階段三(6個月+):混合架構優化** ⭐⭐⭐⭐⭐
```
- 視需求加入 LLM 微調(提升專業表達)
- 實現多層快取和智能路由
- 完善監控和評估體系
- 持續優化和迭代
```
---
<!-- Slide number: 10 -->
# 參考案例與資源
## 企業案例
### APMIC
- RAG + 客製化 AI 模型
- 預處理 → Fine-tuning → RLHF
- C-RAG 整合 OCR 和 VectorDB
### GitHub Copilot Chat(混合架構輕量化版本)
**架構定位**:Prompt Engineering ⭐⭐⭐⭐ + 動態RAG + 智能路由
**核心組件**:
| 組件 | 實作方式 | 說明 |
| ------------------ | -------------------- | ------------------------------------ |
| **LLM 基座** | 通用大模型(未微調) | Claude Sonnet 4.5 等通用模型 |
| **知識檢索** | 動態 RAG | 即時檢索工作區代碼、文件、文檔 |
| **專業能力** | Prompt Engineering | 結構化系統提示詞定義專業角色 |
| **工具調用** | MCP-like 整合 | 80+ 工具函數(文件操作、代碼分析等) |
| **智能路由** | 自動分類 | 自動選擇合適工具和處理策略 |
**與本文"最佳方案"的對比**:
| 項目 | 最佳方案(混合架構) | GitHub Copilot Chat |
| ------------------ | -------------------- | ------------------- |
| LLM 微調 | ✅ 有(領域專用) | ❌ 無(通用模型) |
| RAG 檢索 | ✅ 永久知識庫 | ✅ 動態工作區檢索 |
| Prompt Engineering | ✅ 結構化模板 | ✅ 角色定義提示詞 |
| 工具整合 | ✅ MCP 協議 | ✅ 內建工具系統 |
| 智能路由 | ✅ 查詢分類 | ✅ 自動工具選擇 |
**架構特點**:
1. **零訓練成本**:完全依賴通用大模型能力
2. **動態知識源**:即時檢索當前工作區內容
3. **強大工具生態**:整合 80+ 專業工具(文件操作、終端執行、代碼分析等)
4. **高度靈活**:適應各種編程語言和開發場景
**適用場景分析**:
```
優勢:
✅ 快速響應各種開發需求
✅ 無需特定領域訓練數據
✅ 工具鏈完整且持續擴充
✅ 跨語言、跨框架通用
限制:
⚠️ 缺乏深度領域專業化
⚠️ 依賴工作區內容質量
⚠️ 複雜領域問題需多輪對話
```
**對 Local Agent 的啟示**:
如果您的場景與 Copilot Chat 類似(通用開發輔助),可以:
- 優先實作 **Prompt Engineering + RAG**(⭐⭐⭐⭐⭐)
- 建立豐富的工具函數庫
- 透過智能路由提升準確度
- **暫不需要** LLM 微調
如果您的場景更專業(如機構設計),則仍推薦:
- **混合架構**(Fine-tuned LLM + RAG)(⭐⭐⭐⭐⭐)
- 提供更深度的領域專業能力
### 其他案例
- AI 回答可信度:幻覺問題與 RAG 強化
- 隱性知識與 SOP:知識庫共享與流程萃取
- 私有化部署:安全與治理設計
## 技術資源
### RAG 技術
- [RAG 最佳實踐](https://masteringllm.medium.com/best-practices-for-rag-pipeline-8c12a8096453)
- [RAG 范式與趨勢](https://cloud.tencent.com/developer/article/2397124)
- [Query Transformation](https://ywctech.net/ml-ai/beyond-naive-rag-query-transformation/)
### Embedding 模型
- [MTEB Leaderboard](https://huggingface.co/spaces/mteb/leaderboard)
- [如何選擇 Embedding Model](https://milvus.io/zh-hant/blog/how-to-choose-the-right-embedding-model-for-rag.md)
### 向量資料庫
- [ANN Benchmarks](https://ann-benchmarks.com/index.html)
- [向量資料庫排名](https://db-engines.com/en/ranking/vector+dbms)
- [HNSW 原理](https://milvus.io/zh-hant/blog/understand-hierarchical-navigable-small-worlds-hnsw-for-vector-search.md)
### 框架
- [LlamaIndex 文檔](https://docs.llamaindex.ai/)
- [LangChain 文檔](https://python.langchain.com/)
- [LlamaIndex vs LangChain](https://www.zenml.io/blog/llamaindex-vs-langchain)
### 微調相關
- [WizardLM - Evol Instruct](https://github.com/nlpxucan/WizardLM)
- [Self-Instruct](https://github.com/yizhongw/self-instruct)
- [Taiwan-LLM Project TAME](https://github.com/MiuLab/Taiwan-LLM)
- [Awesome-Chinese-LLM](https://github.com/HqWu-HITCS/Awesome-Chinese-LLM)
---
## 總結
### 關鍵結論
1. **Local Agent 需要多種能力的結合**
- 專業領域問答
- 泛化能力
- 工具使用
- 企業級功能
2. **混合架構是最佳選擇**
- Fine-tuned LLM 提供專業能力
- RAG 提供知識時效性和可追溯性
- 兩者互補達到企業級可靠性
3. **分階段實施降低風險**
- 第一階段:RAG 基礎(快速驗證)
- 第二階段:Embedding 微調(提升準確度)
- 第三階段:混合架構優化(完整功能)
4. **純微調方案不推薦**
- 泛化能力不足
- 資料需求過大
- 維護成本高
- ROI 低
### 下一步行動
1. 確認預算和時間表
2. 準備文檔和數據
3. 選擇技術棧
4. 開始第一階段實施
---
**報告完成日期**:2026年2月3日
使用者操作介面
- 機構整合平台
- 光學自動化設備
- 產線站點
使用者操作介面透過RESTful API跟底層背端溝通
底層背端執行
- 開源AI平台架設: Foundry Local, Ollama, Open code
- 開源模型選用: Gemma3, Qwen, ...
- MEC建置開發: MCP工具, Skills專家知識
應用情境
系統支援PMI/LPC: 建立專案/完成任務/填寫進度/...
CAD軟體支援: 指令查詢/呼叫功能
自動化設備支援: 協助量測參數設定/資料整理
產線站點: 隨時分析產出/log/異常
以上是預估的架構跟使用情境,根據這個架構改寫個人agent_重組版.md,每個方案都要考慮這個架構跟使用情境,只考慮開源模型
Comments...
No Comments Yet...