1

2026-03-24




# KPI 評估總覽

> **評估日期**:2026-03-24
> **評估對象**:個人 KPI(生成式 AI,2025/09 ~ 進行中)
> **評估框架**:技術成就、環境限制、量化指標、風險建議、下半年計畫

---

## 一、評估報告導覽

本次評估從 5 個不同角度切入,各有獨立報告:

| 報告                                        | 角度           | 核心問題                       |
| ------------------------------------------- | -------------- | ------------------------------ |
| [評估_01_技術成就.md](評估_01_技術成就.md)     | 技術廣度與深度 | 「做了什麼、技術水準如何?」   |
| [評估_02_環境限制.md](評估_02_環境限制.md)     | 困難度還原     | 「在多受限的環境下達成?」     |
| [評估_03_KPI量化.md](評估_03_KPI量化.md)       | 指標完整性     | 「成果是否可被客觀驗證?」     |
| [評估_04_風險建議.md](評估_04_風險建議.md)     | 風險識別       | 「什麼可能出問題?怎麼防範?」 |
| [評估_05_下半年計畫.md](評估_05_下半年計畫.md) | 計畫可行性     | 「下半年目標現實嗎?」         |

---

## 二、綜合評分儀表板

```
╔══════════════════════════════════════════════════════╗
║              個人 KPI 綜合評估儀表板                  ║
╠══════════════════════════════════════════════════════╣
║                                                      ║
║  技術廣度         ████████████████████░  90%         ║
║  技術深度         ████████████████░░░░░  80%         ║
║  成果完成度       ████████████████░░░░░  75%         ║
║  KPI 量化程度     ████████░░░░░░░░░░░░░  35%  ⚠️    ║
║  環境克服難度     ████████████████████░  90%  🔺    ║
║  下半年計畫合理性 ████████████████░░░░░  75%         ║
║                                                      ║
║  整體綜合評分     ██████████████████░░░  74%         ║
║                                                      ║
║  ⚠️ 最弱環節:KPI 量化指標(缺少數值佐證)           ║
║  🔺 最被低估:在受限環境下的技術難度                 ║
╚══════════════════════════════════════════════════════╝
```

---

## 三、核心發現摘要

### 發現一:成果含金量被文件呈現方式低估

kpi.txt 未揭露兩個關鍵背景:

1. **Intel Arc 140V / 共享 VRAM 18GB**:主流 AI 框架(unsloth、LLaMA-Factory)以 CUDA 為主,在 Intel GPU 上需額外克服相容性問題
2. **公司內網無外部 LLM API**:無法使用 GPT-4 輔助生成訓練資料、評估模型品質、或加速開發

> 在這兩項限制下完成的所有成果,**實際工程難度是一般開放環境的 2~3 倍**。

### 發現二:量化指標是最大缺口

最關鍵的 benchmark 數值(微調前後準確率)只以「完成」帶過,缺乏任何數字。這是 KPI 說服力最弱的部分,也是最容易被評審質疑的環節。

### 發現三:技術廣度強但 AI Agent 啟動較晚

從模型選型到自動化系統,技術版圖完整。但 AI Agent(目標一的核心)在 2026/01 才啟動,下半年說要達成「100% 完成」,時程偏緊且定義模糊。

### 發現四:自動化的 60% 完成率判斷基準不明確

里程碑 7/7 已完成 6 項(約 86%),但文件寫 60%。若是以實際可用度計算,兩者差距需釐清。

---

## 四、各項成果評分

| 項目           | 任務完成度 | KPI 說明清晰度 | 含金量(考量環境限制後) |
| -------------- | ---------- | -------------- | ------------------------ |
| 模型選型評估   | ★★★★☆ | ★★★☆☆     | ★★★★★               |
| LLM 模型微調   | ★★★★★ | ★★★☆☆     | ★★★★★               |
| 訓練資料建置   | ★★★★☆ | ★★★☆☆     | ★★★★★               |
| MCP 工具整合   | ★★★★☆ | ★★☆☆☆     | ★★★★☆               |
| 資料萃取自動化 | ★★★☆☆ | ★★★☆☆     | ★★★★☆               |
| AI Agent 開發  | ★★☆☆☆ | ★★☆☆☆     | ★★★☆☆(啟動中)     |

---

## 五、立即行動優先清單

優先級由高到低:

| 優先級 | 行動項目                                        | 預期效益               | 難度              |
| ------ | ----------------------------------------------- | ---------------------- | ----------------- |
| 🔴 P1  | **補充 benchmark 數字**(微調前後準確率) | KPI 說服力大幅提升     | 低(從 log 提取) |
| 🔴 P1  | **多文件穩定匯入問題定位**(加 log)      | 解除自動化最大瓶頸     | 中                |
| 🟡 P2  | **KPI 文件加入環境限制說明**              | 防止成果被低估         | 低                |
| 🟡 P2  | **AI Agent 里程碑細化**                   | 避免下半年進度失控     | 低                |
| 🟡 P2  | **RAG 本地技術選型評估**                  | 為 Agent 開發鋪路      | 中                |
| 🟢 P3  | **建立訓練版本評估快照機制**              | 長期品質追蹤           | 低                |
| 🟢 P3  | **拒答機制提示工程快速驗證**              | 為訓練策略提供先導數據 | 低                |

---

## 六、給評審者的說明(KPI 補充建議文字)

以下文字可補充進 kpi.txt 開頭,讓評審者有完整的脈絡:

```
【專案執行環境說明】

本期所有生成式 AI 工作均在以下受限環境中完成:

硬體限制:
  - 裝置:Intel 筆記型電腦
  - GPU:Intel Arc 140V
  - 可用 VRAM:18GB(與系統記憶體共享,有效帶寬受限)
  - 無 NVIDIA GPU,主流 CUDA 框架需自行解決相容問題

網路限制:
  - 公司內網封閉,無法存取 OpenAI、Anthropic 等外部 LLM API
  - 訓練資料生成、模型評估、資料增強均以本地工具完成
  - RAG 及 Embedding 需採用完全本地化方案

上述雙重限制使本期工程實作難度顯著高於一般雲端開放開發環境,
所有成果均為在資源受限條件下獨立完成。
```

---

## 七、整體評估結論

**這份 KPI 反映的是一個在「困難模式」下扎實執行的 AI 工程師。**

技術路徑正確(選型 → 微調 → 資料 → 工具 → 自動化 → Agent),執行範圍完整,在受限的算力與封閉網路環境下仍建立了可運作的本地 AI Pipeline,這是真實的技術積累。

**唯一需要立即改善的,不是你做的事,而是你怎麼說你做的事:**

- 補上 benchmark 數字
- 揭露環境限制背景
- 讓評審者看見「困難模式」的真實難度

這三件事的投入時間極少,但對 KPI 評等的影響可能是決定性的。

 

# 技術成就評估

> **評估日期**:2026-03-24
> **評估角度**:技術廣度、技術深度、工程實作品質

---

## 一、技術版圖總覽

本評估期間(2025/09 ~ 2026/01)涵蓋的技術領域橫跨 **模型研究 → 資料工程 → 系統整合 → 自動化** 完整 AI 應用開發鏈,屬於罕見的全端 AI 工程師角色。

```
模型選型 → 微調訓練 → 訓練資料建置 → MCP工具整合 → 資料萃取自動化 → AI Agent開發
   │           │              │               │                │               │
benchmark   LoRA/全微調    資料增強策略    工具選用機制     自動化流程設計    SA文件/RAG
```

---

## 二、各技術項目深度評估

### 2.1 LLM 模型選型評估

| 評估面向             | 說明                                                                        |
| -------------------- | --------------------------------------------------------------------------- |
| **選型方法論** | 採用 lm-evaluation-harness 進行標準化 benchmark,方法具公信力               |
| **比較範圍**   | 5 款模型(0.27B ~ 1.5B 參數段),涵蓋 Qwen3、Gemma-3、DeepSeek 系列         |
| **決策標準**   | 以「機構文件問答 + MCP 工具選用」雙任務表現作為綜合選型依據,非單一指標決策 |
| **技術亮點**   | 確立小型模型可行性,符合本地端部署需求                                      |

**技術成熟度評分:** ★★★★☆

---

### 2.2 LLM 模型微調(核心技術成就)

#### 訓練框架運用

| 框架          | 用途           | 難度       |
| ------------- | -------------- | ---------- |
| LLaMA-Factory | 訓練流程管理   | ★★★☆☆ |
| unsloth       | 記憶體優化微調 | ★★★★☆ |
| transformers  | 底層模型操作   | ★★★★☆ |

#### 訓練策略比較

| 策略                        | 特性                    | 使用情境               |
| --------------------------- | ----------------------- | ---------------------- |
| **LoRA**              | 參數效率高、VRAM 需求低 | 快速迭代、資源受限環境 |
| **全微調 + 經驗回放** | 學習能力強、避免遺忘    | 多任務整合、長期保留   |

> 同時掌握兩種策略並能根據情境選用,展現訓練工程的靈活性。

#### 多任務學習整合

```
訓練資料三軌整合
├── 機構設計文件問答(~20,000 筆):領域知識注入
├── tw-reasoning-instruct-50k(50,000 筆):通用推論能力
└── MCP 工具選用資料集:工具調用能力
```

同時訓練三種能力而不相互干擾,涉及**多任務學習(Multi-task Learning)**的資料配比設計,具有較高技術難度。

**技術成熟度評分:** ★★★★★

---

### 2.3 訓練資料集建置

#### 資料增強技術應用

| 技術              | 應用                     | 參考來源                  |
| ----------------- | ------------------------ | ------------------------- |
| 多輪對話建構      | 模擬真實問答情境         | lost_in_conversation 方法 |
| 隨機組合式問答    | 增加題型變化             | 自研                      |
| WizardLM 廣度評估 | 評估後改以推論資料集替代 | WizardLM 論文             |

> 能夠評估業界方法(WizardLM)並做出「不採用、改以更適合方案替代」的判斷,顯示技術判斷力成熟,而非盲目跟隨流行做法。

**資料工程技術成熟度:** ★★★★☆

---

### 2.4 MCP 工具整合

#### 架構設計

```
用戶 Prompt
    │
    ▼
Qwen3-0.6B(工具選用推理)
    │ 輸出:選用工具名稱 + 參數
    ▼
程式層(Tool Dispatcher)
    │
    ├── mcp-server-mysql → 資料庫操作
    └── markitdown-mcp  → 文件解析
```

此架構將「模型推理」與「工具執行」分離,是穩健的 MCP 工具調用設計模式。

**技術亮點:** Qwen3-0.6B **原始模型**即可選用工具,微調後進一步提升準確率,說明 prompt engineering 能力紮實。

**技術成熟度評分:** ★★★★☆

---

### 2.5 資料萃取自動化

#### 自動化流程設計

```
原始文件(PDF/DOCX 等)
    │
    ▼ markitdown-mcp
Markdown(含分頁結構)
    │
    ▼ 分頁邏輯
結構化問答對
    │
    ▼ mcp-server-mysql
資料庫(172.18.212.49)
    │
    ▼ Copilot 自動執行
訓練資料集
```

以 **MCP 工具鏈串接文件解析 → 資料庫匯入** 的設計,具有系統整合的實務工程能力。

**技術成熟度評分:** ★★★☆☆(穩定性待完善)

---

### 2.6 AI Agent 開發

目前階段以技術調查與 SA 文件為主,實作尚在啟動期。

| 項目              | 狀態     |
| ----------------- | -------- |
| Agent 技術 survey | 完成     |
| RAG 技術評估      | 進行中   |
| SA 文件撰寫       | 進行中   |
| 功能開發          | 尚未開始 |

---

## 三、技術廣度雷達圖(文字版)

```
         模型訓練 ●●●●●
        /
資料工程 ●●●●○         系統整合 ●●●●○
       \                    /
        MCP工具 ●●●●○─────
                  \
              自動化 ●●●○○
                    \
               AI Agent ●●○○○(啟動中)
```

---

## 四、技術成就亮點(Top 3)

### 🥇 第一:70,000 筆多任務訓練資料整合

從 0 建立涵蓋機構知識、推論能力、工具選用三維度的訓練資料集,並成功在同一模型上訓練,屬於工業級 AI 應用的資料工程實力體現。

### 🥈 第二:本地端完整 AI Pipeline 建立

在無外部 API 依賴的環境下,建立從文件解析 → 訓練資料 → 模型微調 → 工具調用的完整 pipeline,具備生產環境的自主性。

### 🥉 第三:訓練策略技術判斷力

比較 LoRA 與全微調、評估 WizardLM 後改用推論資料集,顯示非「照步驟操作」而是「理解原理後做技術取捨」的工程師層次。

---

## 五、技術成熟度總評

| 技術域         | 評分                 | 備註                           |
| -------------- | -------------------- | ------------------------------ |
| 模型選型與評估 | ★★★★☆           | 方法論完整                     |
| 模型微調       | ★★★★★           | 多策略、多任務,核心亮點       |
| 資料工程       | ★★★★☆           | 規模充足,增強策略多元         |
| MCP 工具整合   | ★★★★☆           | 架構設計合理                   |
| 系統自動化     | ★★★☆☆           | 穩定性待解,仍在進行中         |
| AI Agent       | ★★☆☆☆           | 剛啟動,尚待展開               |
| **整體** | **★★★★☆** | 技術廣度強,深度集中在微調領域 |

 

# 環境限制與克服難度評估

> **評估日期**:2026-03-24
> **評估角度**:在客觀限制條件下完成任務的實際難度評估

---

## 前言:被隱藏的「困難模式」

kpi.txt 中所有成果,均在以下兩項嚴苛限制下完成,但文件**完全未揭露**這些前提條件,導致成果的實際含金量被嚴重低估:

| 限制類型           | 具體內容                                          |
| ------------------ | ------------------------------------------------- |
| **算力限制** | Intel 筆電 / Intel Arc 140V / 共享 VRAM 18GB      |
| **網路限制** | 公司內網封閉,無法存取 OpenAI API 等外部 LLM 服務 |

> 比喻:同樣跑完馬拉松,一般選手和帶著 20kg 背包的選手,成績相同但難度截然不同。

---

## 一、Intel Arc 140V 硬體限制詳析

### 1.1 硬體規格對 AI 工作負載的影響

| 規格        | Intel Arc 140V         | 主流 AI 開發顯卡(RTX 4090) | 影響落差                     |
| ----------- | ---------------------- | ---------------------------- | ---------------------------- |
| VRAM        | 18GB(共享系統記憶體) | 24GB GDDR6X                  | 有效 VRAM 更少(共享帶寬低) |
| GPU 架構    | Xe-LPG(行動端)       | Ada Lovelace(桌上型)       | 算力差距 3~5 倍以上          |
| CUDA 支援   | **不支援**       | 原生支援                     | 框架相容性問題               |
| AI 推論 SDK | OpenVINO / IPEX        | CUDA / cuDNN                 | 生態系成熟度差距大           |

### 1.2 主流 AI 框架在 Intel Arc 上的相容性挑戰

```
主流框架的預設支援堆疊
─────────────────────────────────────────
unsloth       → 依賴 CUDA Triton kernel  ⚠️ 需要繞過或替換
LLaMA-Factory → 主要測試環境為 NVIDIA    ⚠️ 可能有未文件化的相容問題
transformers  → 部分支援 Intel XPU       ✅ 可運作,但效能未優化
lm-eval-harness → CUDA 優先             ⚠️ 需要環境調適
```

> **結論**:在 Intel Arc 上完成上述工作,代表已自行解決或繞過框架相容性問題,這部分的工程成本在 KPI 中完全不可見。

### 1.3 VRAM 18GB 對各訓練任務的壓力分析

| 訓練任務                  | 估算所需 VRAM | 實際可用     | 壓力等級                                  |
| ------------------------- | ------------- | ------------ | ----------------------------------------- |
| Qwen3-0.6B LoRA 微調      | ~8~12GB      | 18GB(共享) | 🟡 中等(需謹慎設定)                     |
| Qwen3-0.6B 全微調         | ~16~24GB     | 18GB(共享) | 🔴 高(需 gradient checkpointing + 量化) |
| benchmark 評估(5款模型) | 各模型不同    | 18GB         | 🟡 中等(需序列測試)                     |
| 多輪對話訓練(6.5小時)   | 持續佔用      | 18GB         | 🔴 高(長時間穩定性要求高)               |

> 全微調 + 經驗回放在 18GB 共享 VRAM 環境下,幾乎需要用到所有記憶體優化技術:**4-bit 量化 + gradient checkpointing + 小 batch size + gradient accumulation**。

---

## 二、無外部 LLM API 限制詳析

### 2.1 公司內網封閉對 AI 開發的影響對照

| 工作項目                           | 有 OpenAI API 的一般做法          | 無 API 的實際做法                    | 難度提升   |
| ---------------------------------- | --------------------------------- | ------------------------------------ | ---------- |
| **訓練資料生成**             | GPT-4 批次生成問答對              | 人工設計 + 本地模型輔助              | ★★★★   |
| **模型評估(LLM-as-Judge)** | GPT-4 評分答案品質                | lm-evaluation-harness 本地 benchmark | ★★★☆   |
| **資料增強**                 | GPT-4 改寫、擴充資料              | 手工規則 + 組合邏輯                  | ★★★★   |
| **RAG embedding**            | OpenAI text-embedding-3           | 本地 embedding 模型(如 BGE)        | ★★★☆   |
| **MCP 工具訓練資料**         | 使用 GPT-4 生成多樣化工具調用樣本 | 完全自製                             | ★★★★★ |

### 2.2 對訓練資料品質的影響

```
有 OpenAI API 的資料建置流程(業界慣例):
文件 → GPT-4 生成多樣化問答 → 人工抽樣驗證 → 訓練

無 OpenAI API 的資料建置流程(本案實際):
文件 → 人工設計問答模板 → 組合式生成 → 多輪對話建構 → 本地驗證 → 訓練
              ↑                                                    ↑
         需要更深的理解文件內容                              缺乏外部品質對照基準
```

> **結論**:在沒有 GPT-4 輔助的情況下達到 20,000+ 筆機構問答資料,工程投入量遠高於有外部 API 支援的情境。

### 2.3 為何選用小型模型的真實原因(未被揭露)

KPI 中「確立 Qwen3-0.6B 為主力模型」的決策,表面上是因為效能最佳,但**真正的底層限制**是:

1. 無法呼叫外部 API → 必須本地運行
2. 本地硬體算力有限 → 模型必須夠小才能在 18GB VRAM 內訓練與推論
3. 無雲端算力資源 → 無法使用 7B+ 大型模型

這個選型決策其實是「在多重硬性限制下的最優解」,而非「純粹的效能選型」。

---

## 三、雙重限制的疊加效應

```
        ┌─────────────────────────────┐
        │   無外部 API 限制           │
        │   ↓                        │
        │   需自製訓練資料             │
        │   需本地 benchmark 工具     │
        └──────────┬──────────────────┘
                   │ 疊加
        ┌──────────▼──────────────────┐
        │   有限算力限制              │
        │   ↓                        │
        │   資料量越大訓練越慢         │
        │   需要大量記憶體優化         │
        │   無法平行多實驗迭代         │
        └─────────────────────────────┘
                   │
                   ▼
         實際工程難度 = 2~3 倍於
         一般雲端 + OpenAI API 環境
```

---

## 四、克服難度對成果的重新詮釋

| 原 KPI 描述                   | 考量限制後的真實成就                                     |
| ----------------------------- | -------------------------------------------------------- |
| 「比較 5 款模型」             | 在 Intel Arc 上序列執行 5 套 benchmark,克服硬體相容問題 |
| 「訓練資料 70,000+ 筆」       | 無 GPT-4 輔助,完全自主設計資料管線與品質控制            |
| 「多輪對話訓練耗時 6.5 小時」 | 在共享 VRAM 環境下穩定執行 6.5 小時,記憶體管理能力強    |
| 「MCP 工具整合」              | 工具選用訓練資料需完全自製,無法借助外部 LLM             |
| 「確立 Qwen3-0.6B 為主力」    | 在硬體與 API 雙重限制下找到可行的本地端解決方案          |

---

## 五、建議:KPI 文件應補充的限制聲明

```markdown
## 專案執行環境說明

本專案所有工作均在以下受限環境中完成:

**算力環境**
- 硬體:Intel 筆電 / Intel Arc 140V
- 可用 VRAM:18GB(與系統記憶體共享)
- 無 NVIDIA GPU,需自行解決框架相容性問題

**網路環境**
- 公司內網封閉,無法存取 OpenAI API 等外部 LLM 服務
- 所有訓練資料、評估均以本地工具完成
- RAG 實作需使用完全本地化的 embedding 方案

上述限制使本專案的工程難度顯著高於一般雲端開發環境。
```

---

## 六、評估結論

在如此受限的硬體與網路環境下,能夠完成:

- ✅ 5 款模型的系統化選型評估
- ✅ 70,000+ 筆訓練資料的完整建置
- ✅ LoRA + 全微調雙策略實作
- ✅ MCP 工具整合與本地端工具鏈建立
- ✅ 文件解析 → 資料庫的自動化流程雛型

這些成果的**實際技術含金量,至少是 kpi.txt 所呈現的 2 倍以上**。

> **核心建議**:在績效面談或簡報中,應主動揭露這些限制條件,讓評審者理解成果是在「困難模式」下達成的。

 

# KPI 量化指標分析

> **評估日期**:2026-03-24
> **評估角度**:KPI 指標的可量化程度、完整性、與可驗證性

---

## 一、現有 KPI 量化指標盤點

### 1.1 有明確數值的指標

| 指標             | 數值           | 評分                        |
| ---------------- | -------------- | --------------------------- |
| 比較評估模型數量 | 5 款           | ✅ 明確                     |
| 訓練資料總量     | 70,000+ 筆     | ✅ 明確(有細項分類)       |
| 多輪對話訓練耗時 | 約 6.5 小時    | ✅ 可量化,但意義需說明     |
| 人力比例         | 生成式 AI 100% | ✅ 明確                     |
| MCP 工具整合數量 | 2+ 個          | ⚠️ 「2+」模糊,應明列     |
| 自動化流程完成率 | 60%            | ✅ 有數字,但計算基準未說明 |

### 1.2 模糊或缺失的關鍵指標

| 指標類型             | 現況                     | 問題                        |
| -------------------- | ------------------------ | --------------------------- |
| 模型問答準確率       | **未提及**         | ❌ 最核心的指標反而缺失     |
| 微調前後準確率對比   | 「完成」(無數字)       | ❌ 有做評估但無輸出數值     |
| MCP 工具選用準確率   | **未提及**         | ❌ 工具整合的核心成效未量化 |
| 文件解析成功率       | **未提及**         | ❌ 自動化流程品質指標缺失   |
| 多文件穩定匯入成功率 | 「進行中(穩定性待解)」 | ⚠️ 未設定目標值           |
| 訓練資料品質指標     | **未提及**         | ❌ 無去重率、格式合規率等   |

---

## 二、關鍵缺失量化指標分析

### 2.1 最重要的缺口:模型效能指標

這是整個 KPI 最嚴重的數字缺口。

```
KPI 文件現況:
  「模型 benchmark 評估(微調前後)| 完成」

KPI 文件應有的樣貌:
  ┌────────────────────────────────────────────┐
  │ 評估項目          │ 微調前   │ 微調後   │ 提升幅度 │
  ├────────────────────────────────────────────┤
  │ 機構文件問答準確率  │  XX%    │  XX%    │  +XX%  │
  │ MCP工具選用準確率  │  XX%    │  XX%    │  +XX%  │
  │ 推論任務得分       │  XX     │  XX     │  +XX   │
  │ lm-eval 綜合分    │  XX     │  XX     │  +XX   │
  └────────────────────────────────────────────┘
```

> **顧問提醒**:「完成評估」≠「KPI 達成」。評估本身只是手段,數值才是成果。如果有這些數字,強烈建議補入文件。

---

### 2.2 MCP 工具選用準確率

| 問題                      | 建議補充                                              |
| ------------------------- | ----------------------------------------------------- |
| 「2+ 個工具」語意模糊     | 改為:整合工具 2 項:mcp-server-mysql、markitdown-mcp |
| 未說明工具選用成效        | 補充:在 N 筆測試中,工具選用準確率達 XX%             |
| 未說明有無 false positive | 補充:誤觸發率 XX%(即 prompt 不需工具但模型仍選用)  |

---

### 2.3 訓練資料品質指標

70,000+ 筆是數量指標,但缺乏品質指標:

```
建議補充的品質指標:
├── 去重後有效資料量:XX 筆(去重率 XX%)
├── 格式合規率:XX%(符合訓練格式要求)
├── 機構文件問答 → 人工抽樣驗證比例:XX%
└── 多輪對話平均輪數:X 輪
```

---

### 2.4 自動化流程量化

「60% 完成」基準未說明,建議以里程碑計算:

| 里程碑           | 狀態   | 權重 |
| ---------------- | ------ | ---- |
| 建立匯入規格     | 完成   | 1/7  |
| 文件解析         | 完成   | 1/7  |
| DB schema 設計   | 完成   | 1/7  |
| 資料匯入測試     | 完成   | 1/7  |
| 問答資料存入測試 | 完成   | 1/7  |
| Copilot 自動執行 | 完成   | 1/7  |
| 多文件穩定匯入   | 進行中 | 1/7  |

> 以里程碑計算為 6/7 ≈ 86%,高於 KPI 文件所寫的 60%。
> 若 60% 是加權後的實際可用程度,需說明計算方式。

---

## 三、KPI 指標完整性評分矩陣

| KPI 項目       | 有明確指標   | 有基準值           | 有達成率         | 完整度        |
| -------------- | ------------ | ------------------ | ---------------- | ------------- |
| 模型選型       | ✅(5 款)   | ❌                 | ❌(無比較基準) | 40%           |
| 模型微調       | ✅(訓練量) | ❌(無目標準確率) | ❌(無數值)     | 30%           |
| 訓練資料       | ✅(筆數)   | ❌(無品質指標)   | ⚠️(部分)     | 50%           |
| MCP 整合       | ⚠️(2+)   | ❌                 | ❌               | 20%           |
| 自動化         | ✅(60%)    | ⚠️(基準不明)   | ✅               | 60%           |
| AI Agent       | ❌           | ❌                 | ❌(剛啟動)     | 10%           |
| **整體** | —           | —                 | —               | **35%** |

---

## 四、下半年 KPI 量化建議

### 目標一:AI Agent 完成率 100%

現況問題:「核心功能完成率 100%」未定義「核心功能」是什麼。

```
建議改寫:
KPI:以下核心功能全部通過整合測試
  □ RAG 文件檢索(查詢延遲 < X 秒)
  □ 工具自動選用(準確率 ≥ 90%)
  □ 多輪對話(連續 N 輪無脈絡丟失)
  □ 端對端問答流程(從 prompt 到回答 < X 秒)
```

### 目標二:自動化流程 100%

現況問題:100% 缺乏驗收標準。

```
建議改寫:
KPI:連續處理 20 份文件,成功率 ≥ 95%
   (成功定義:文件完整解析 + 問答資料正確入庫 + 無人工介入)
```

### 目標三:模型品質提升

現況問題:「領域外問題拒答準確率達目標」中「目標」未定義。

```
建議改寫:
KPI:
  □ 拒答準確率(領域外問題) ≥ 85%
  □ 誤拒率(領域內問題被拒) ≤ 5%
  □ 推論任務得分:相較微調前提升 ≥ 10%
```

### 目標四:技術學習

現況問題:「完成 1 份文件」難以評估品質。

```
建議改寫:
KPI:
  □ AI Agent 架構設計文件:通過主管/同儕 review
  □ RAG 技術評估報告:包含至少 3 種方案的比較矩陣與推薦理由
```

---

## 五、KPI 格式優化建議

### 現有格式問題

1. 「完成」作為結果過於籠統
2. 缺乏「目標值 vs 實際值」的對比結構
3. 部分里程碑完成狀態缺少完成日期

### 建議標準格式

```markdown
| 指標 | 目標值 | 實際值 | 達成率 | 驗證方式 |
|------|-------|-------|-------|---------|
| 問答準確率 | ≥80% | 83% | 104% | lm-eval benchmark |
| 工具選用準確率 | ≥85% | 91% | 107% | 測試集評估 |
| 訓練資料量 | 20,000 筆 | 22,000 筆 | 110% | 資料庫筆數 |
```

---

## 六、量化評估總結

| 評估面向   | 現況               | 建議行動                         |
| ---------- | ------------------ | -------------------------------- |
| 數量指標   | 尚可(有部分數字) | 補充模型效能的具體數值           |
| 品質指標   | 不足               | 加入準確率、成功率等品質維度     |
| 基準對比   | 幾乎缺失           | 所有指標需有「目標值 vs 實際值」 |
| 下半年 KPI | 定義模糊           | 重新定義可驗收的量化指標         |

> **最重要的行動項目**:補充「模型微調前後準確率對比數字」,這是整份 KPI 最核心的說服力來源。

 

# 風險識別與改善建議評估

> **評估日期**:2026-03-24
> **評估角度**:現有工作的風險點識別、潛在失敗模式、及針對性改善建議

---

## 一、風險全景圖

```
風險類型       風險項目                  嚴重度    發生機率
─────────────────────────────────────────────────────────
技術風險   │ Intel GPU 框架相容性         高        已發生(正在應對)
           │ 全微調 OOM 崩潰              高        中等
           │ 訓練資料品質不均             中        中等
─────────────────────────────────────────────────────────
進度風險   │ 多文件穩定匯入問題持續        高        高
           │ AI Agent 開發低估複雜度      高        中
           │ RAG 本地化實作成本           中        中
─────────────────────────────────────────────────────────
成果風險   │ 無 benchmark 數字支撐評審    高        已存在
           │ KPI 成果被低估              中        已存在
           │ 模型遺忘問題(Catastrophic) 中        中
─────────────────────────────────────────────────────────
環境風險   │ 內網政策進一步收緊           低        低
           │ 硬體算力不足以支援 Agent    中        中
─────────────────────────────────────────────────────────
```

---

## 二、高優先級風險詳析

### 風險 R-01:多文件穩定匯入問題(進行中,尚未解決)

**風險等級:🔴 高**

| 面向               | 說明                                                            |
| ------------------ | --------------------------------------------------------------- |
| **現況**     | 單文件匯入可行,多文件批量時穩定性不足                          |
| **根因假設** | Copilot token 超限、分頁邏輯邊界條件、mcp-server-mysql 連線超時 |
| **影響**     | 自動化系統僅能半自動運作,人工成本未有效降低                    |
| **連鎖影響** | 訓練資料擴充速度受限,進而影響模型迭代速度                      |

**改善建議:**

```
優先排查步驟:
Step 1:加入詳細 log,記錄哪個文件、哪個步驟開始失敗
Step 2:分析失敗是「隨機」還是「特定文件類型/大小」觸發
Step 3:針對最常見失敗點:
  → 若是 Copilot token 超限:縮短 prompt 長度,改用分段執行
  → 若是 DB 連線問題:加入重試機制(retry with backoff)
  → 若是分頁邏輯:為邊界情況加入單元測試

建議 KPI 目標:批量 20 份文件,成功率 ≥ 95%
```

---

### 風險 R-02:模型 benchmark 數據未保存/未記錄

**風險等級:🔴 高**

| 面向               | 說明                                             |
| ------------------ | ------------------------------------------------ |
| **現況**     | KPI 文件記載「benchmark 評估完成」,但無具體數值 |
| **根因**     | 評估結果可能只存在本地,未系統化記錄             |
| **影響**     | 績效評審時無法提供量化依據,成果說服力大幅下降   |
| **連鎖影響** | 未來迭代難以判斷改進幅度                         |

**改善建議:**

```
立即行動:
1. 從 lm-evaluation-harness 的輸出 log 中提取歷史數字
2. 建立標準化的評估記錄格式(Excel 或 markdown 表格)
3. 每次微調後強制記錄 benchmark 快照

建議記錄格式:
評估日期 | 模型版本 | 評估集 | 得分 | 備註
2025/10  | base     | mechdoc_qa | XX% | 未微調
2025/11  | ft-v1    | mechdoc_qa | XX% | LoRA 第一版
...
```

---

### 風險 R-03:Catastrophic Forgetting(災難性遺忘)

**風險等級:🟡 中**

| 面向               | 說明                                           |
| ------------------ | ---------------------------------------------- |
| **現況**     | 已有「全微調 + 經驗回放」策略應對              |
| **潛在問題** | 三類資料交替訓練時,比例設定不當仍可能導致遺忘 |
| **影響**     | 加入 MCP 資料集後,原有機構問答能力下降        |

**改善建議:**

```
建議監控指標(每個訓練版本後執行):
  □ 機構文件問答準確率(不應下降超過 2%)
  □ MCP 工具選用準確率(核心指標)
  □ 推論任務基準分(如 tw-reasoning 評估集部分題目)

若發現遺忘:
  → 調整三類資料混合比例(增加被遺忘任務的資料比重)
  → 考慮採用 EWC(Elastic Weight Consolidation)正規化
```

---

### 風險 R-04:AI Agent 開發複雜度被低估

**風險等級:🟡 中**

| 面向                 | 說明                                                   |
| -------------------- | ------------------------------------------------------ |
| **現況**       | 項次 6 以 10% 人力啟動,主要產出為「survey + SA 文件」 |
| **下半年計畫** | 目標一要求「AI Agent 核心功能完成率 100%」             |
| **風險**       | SA 文件 → 功能完成的跨越,在 10% 人力下難以實現       |

**完整 AI Agent 所需技術棧:**

```
AI Agent 完整實作需要:
├── RAG Pipeline(本地 embedding + 向量資料庫)
├── Agent 推理引擎(LangGraph / AutoGen / 自研)
├── 工具調用管理(MCP 擴展現有工具)
├── 對話狀態管理(多輪 context window 管理)
├── 評估與測試框架(agent trajectory 評估)
└── 整合測試(端對端流程驗證)
```

> 在受限硬體(Intel Arc 140V)上部署完整 RAG + Agent,每個元件都需要確認 Intel XPU 相容性。

**改善建議:**

```
1. 將 AI Agent 分解為更小的里程碑(每月 1 個可驗證的功能點)
2. 先確認 RAG embedding 在 Intel Arc 上的可行方案
   → 推薦:FastEmbed(CPU friendly)+ Qdrant(本地向量庫)
3. 評估是否可先用 CPU 推論方式驗證 Agent 流程正確性
```

---

### 風險 R-05:KPI 成果被低估(文件表達風險)

**風險等級:🟡 中**(跨週期影響)

| 面向               | 說明                                               |
| ------------------ | -------------------------------------------------- |
| **現況**     | kpi.txt 未揭露環境限制,成果的困難度不可見         |
| **影響**     | 評審者可能以「一般開發環境」標準評量,導致評級偏低 |
| **連鎖影響** | 影響績效評等、年度考核、薪資調整                   |

**改善建議:**

```
在 KPI 文件開頭加入環境背景說明區塊:

「本期工作均在以下受限環境下完成:
  - 硬體:Intel Arc 140V / VRAM 18GB(共享)
  - 網路:公司內網,無法存取外部 LLM API
  上述限制使工程實作難度顯著高於一般開放環境。」
```

---

## 三、下半年新增風險預測

### 風險 R-06:RAG 本地化技術選型

進入 AI Agent 開發後,RAG 是核心組件,在公司環境下的技術選擇需格外謹慎:

| 方案                                    | 優點           | 缺點                 | 在 Intel Arc 可行性 |
| --------------------------------------- | -------------- | -------------------- | ------------------- |
| **FAISS + sentence-transformers** | 成熟、文件豐富 | Intel GPU 需額外設定 | ⚠️ 需測試         |
| **Qdrant + FastEmbed**            | 輕量、CPU 友好 | 功能較少             | ✅ 推薦             |
| **ChromaDB + local embedding**    | 使用簡單       | 效能可能較差         | ✅ 可行             |
| **Weaviate / Pinecone**           | 功能豐富       | 需外網存取           | ❌ 不可用           |

### 風險 R-07:訓練資料覆蓋不足

當前資料集以「已知文件」建置問答,存在以下盲點:

```
盲點類型:
├── 跨文件關聯問題(需參考多份文件才能回答)
├── 否定式問題(「XX 機構不具備哪些功能?」)
├── 比較式問題(「A 機構與 B 機構的差異?」)
└── 更新後知識衝突(舊文件 vs 新文件內容矛盾)
```

---

## 四、風險優先處理矩陣

```
高嚴重度
    │
    │  R-02(benchmark未記錄)  R-01(穩定性問題)
    │
    │  R-05(KPI被低估)        R-04(Agent複雜度)
    │
    │  R-03(遺忘問題)         R-06(RAG選型)
    │
低嚴重度
    ────────────────────────────────────────
           低發生機率              高發生機率
```

**立即行動清單(按優先級):**

1. 🔴 **立即**:整理並記錄現有 benchmark 評估結果數字
2. 🔴 **立即**:為多文件匯入問題加入 log,定位根因
3. 🟡 **本月**:在 KPI 文件補充環境限制說明
4. 🟡 **本月**:制定 AI Agent 月度里程碑計畫
5. 🟢 **本季**:建立 RAG 本地化技術選型評估

---

## 五、改善建議總表

| 改善項目           | 行動                           | 預期效益           |
| ------------------ | ------------------------------ | ------------------ |
| benchmark 數字補充 | 從歷史 log 提取,加入 KPI 表格 | 大幅提升成果說服力 |
| 穩定性問題定位     | 加入詳細 log + 根因分析        | 解除自動化瓶頸     |
| KPI 文件環境背景   | 補充一段限制說明               | 防止評審低估       |
| Agent 里程碑細化   | 拆解為月度可交付項目           | 降低進度風險       |
| 遺忘監控機制       | 建立固定評估集,每版微調後執行 | 早期發現能力衰退   |
| RAG 技術選型       | 建立本地可行方案比較表         | 加速 Agent 開發    |

 

# 下半年計畫可行性評估

> **評估日期**:2026-03-24
> **評估角度**:下半年 4 個目標的可行性、時程合理性、資源匹配度

---

## 一、整體可行性概覽

| 目標   | 描述                 | 可行性  | 主要風險                     |
| ------ | -------------------- | ------- | ---------------------------- |
| 目標一 | AI Agent 開發與上線  | 🟡 中等 | 複雜度高、硬體限制、定義模糊 |
| 目標二 | 自動化流程 60%→100% | 🟢 較高 | 穩定性問題需先定位根因       |
| 目標三 | 模型品質持續提升     | 🟢 高   | 方向明確,可逐步驗證         |
| 目標四 | 技術能力學習         | 🟢 高   | 主動學習為主,自主度高       |

---

## 二、目標一:AI Agent 開發與上線

### 2.1 目標分解

```
「AI Agent 核心功能完成率 100%;RAG 整合測試完成」

拆解成可交付的子功能:
├── F1:RAG 管線(文件 → embedding → 向量庫 → 檢索)
├── F2:Agent 推理(prompt → 思考 → 行動 → 回應)
├── F3:工具調用整合(延伸現有 MCP 工具機制)
├── F4:多輪對話狀態管理
└── F5:評估指標建立與測試
```

### 2.2 技術複雜度分析

| 子功能         | 技術難度   | 在 Intel Arc 的可行性             | 預估工時 |
| -------------- | ---------- | --------------------------------- | -------- |
| F1:RAG        | ★★★★☆ | ✅(使用本地 embedding)          | 3~4 週   |
| F2:Agent 推理 | ★★★★★ | ⚠️(Qwen3-0.6B 推理能力有上限) | 4~6 週   |
| F3:工具調用   | ★★★☆☆ | ✅(延伸現有 MCP 架構)           | 1~2 週   |
| F4:對話狀態   | ★★★☆☆ | ✅                                | 1~2 週   |
| F5:評估框架   | ★★☆☆☆ | ✅                                | 1 週     |

### 2.3 關鍵風險:Qwen3-0.6B 的 Agent 能力上限

大多數 Agent benchmark 顯示,有效執行多步驟推理通常需要 **7B 以上**的模型。

```
0.6B 模型在 Agent 場景的潛在限制:
├── 多步驟規劃能力有限(超過 3 步容易迷失)
├── 工具選用在複雜 prompt 中準確率下降
├── 自我糾錯能力弱(無法識別工具調用失敗)
└── Context window 有限,長對話狀態容易丟失

緩解策略:
├── 限縮 Agent 任務範圍(專注機構設計文件的單一領域)
├── 設計結構化 prompt 模板降低推理複雜度
└── 用程式邏輯補足模型推理不足的部分(hybrid approach)
```

### 2.4 「上線」定義風險

KPI 中「上線」未有明確說明,建議在計畫中定義:

```
建議定義「上線」的最小可交付版本(MVP):
  ✅ 可接收用戶的機構設計相關問題
  ✅ RAG 自動檢索相關文件段落
  ✅ 根據檢索結果生成回答
  ✅ 支援至少 3 輪連續對話
  ✅ 部署在公司內網可存取的端點

非 MVP 需求(延後版本):
  □ 工具動態調用
  □ 主動詢問澄清問題
  □ 跨文件交叉推理
```

### 2.5 可行性評估

**若聚焦在機構設計問答領域的受限 Agent(RAG + 有限工具調用)**:可行性 🟢

**若目標是通用 Agent(多步驟規劃 + 動態工具調用)**:可行性 🔴(超出 0.6B 模型能力)

---

## 三、目標二:自動化流程 60%→100%

### 3.1 目標分解

```
剩餘 40% 工作集中在:
├── 多文件穩定匯入(主要瓶頸)
├── 分頁邏輯優化(基於內容結構分析)
└── Copilot 執行穩定性(幻覺 + token 超限)
```

### 3.2 各子問題的可行性

#### 多文件穩定匯入

| 可能根因                 | 解決方案                     | 難度       |
| ------------------------ | ---------------------------- | ---------- |
| Copilot token 超限       | 縮短 prompt + 分批執行       | ★★☆☆☆ |
| MySQL 連線超時           | 加入 connection pool + retry | ★★☆☆☆ |
| 文件格式特殊處理         | 加強 markitdown 的容錯邏輯   | ★★★☆☆ |
| 記憶體壓力(Intel 筆電) | 調整批次大小                 | ★★☆☆☆ |

**可行性估計:🟢 高**(問題有限,解決方案明確)

#### 分頁邏輯優化

```
基於內容結構分析的分頁,可採用:
├── 規則式:以標題(H1/H2/H3)為分頁邊界
├── 統計式:基於段落長度分佈決定閾值
└── 語意式:使用輕量 embedding 計算段落相似度

推薦起點:規則式(成本最低,對結構化文件效果佳)
```

**可行性估計:🟢 高**

#### Copilot 執行穩定性

```
已知問題:幻覺 + token 超限

針對幻覺:
  → 使用更明確的 step-by-step 指令格式
  → 每步驟包含「預期輸出格式」說明

針對 token 超限:
  → 將操作拆分為更細粒度的子指令
  → 減少在單一 prompt 中傳入的文件內容量
```

**可行性估計:🟡 中等**(Copilot 行為有不確定性,需實驗調整)

### 3.3 整體可行性

目標二是 4 個目標中**可行性最高**的,問題已定位、解決方案明確,預估 2~3 個月可達成。

---

## 四、目標三:模型品質持續提升

### 4.1 拒答機制比較實驗

```
比較兩種方式:
                  提示工程方式              拒答資料集訓練
優點            │ 快速、不需重訓        │ 模型層級控制,不依賴 prompt
缺點            │ 容易被繞過           │ 需建立高品質拒答資料集
成本            │ 低                   │ 中(資料建置 + 重訓時間)
效果持久性      │ 低(換 prompt 失效) │ 高(embed 進模型)
建議用途        │ 快速驗證可行性       │ 最終部署版本
```

**建議流程**:先用提示工程確認「拒答邏輯可行」,再用資料集訓練固化到模型中。

**可行性:🟢 高**

### 4.2 訓練參數動態調整

```
根據資料量動態調整訓練參數的基本策略:

資料量級別    │ learning rate │ epochs │ batch size
< 5,000 筆   │ 1e-4          │ 5~10   │ 4~8
5,000~20,000 │ 5e-5          │ 3~5    │ 8~16
> 20,000 筆  │ 2e-5          │ 2~3    │ 16~32
```

**可行性:🟢 高**(有成熟的超參數調整方法論可參考)

### 4.3 推論式資料集擴充至 50,000 筆

目前 tw-reasoning-instruct-50k 已有 50,000 筆,若目標是擴大至更多,需確認:

- 50,000 筆是否已發揮效益(先驗證品質,再擴充量)
- 補充繁體中文推論資料集是否比單純擴充數量更有效

**可行性:🟢 高**

---

## 五、目標四:技術能力學習

### 5.1 AI Agent 最新技術研究

| 研究方向         | 代表技術           | 與現有工作的關聯          |
| ---------------- | ------------------ | ------------------------- |
| MCP 架構深化     | Anthropic MCP Spec | 直接延伸現有 MCP 工具整合 |
| Multi-Agent 協作 | CrewAI / AutoGen   | AI Agent 設計的進階方向   |
| Agent 評估方法   | AgentBench / GAIA  | 支援目標一的評估指標建立  |

### 5.2 RAG 最佳實踐

```
在無外部 API 環境下值得深入研究的 RAG 技術:
├── 本地 Embedding 模型比較(BAAI/bge, multilingual-e5 等)
├── Hybrid Retrieval(BM25 + Dense Retrieval 融合)
├── Re-ranking(CrossEncoder 提升檢索精度)
└── Chunking 策略優化(與分頁邏輯優化直接相關)
```

### 5.3 Foundry-Local 評估

Foundry-Local 是 Microsoft 的本地推論方案,在無 OpenAI API 的環境下是優先評估的替代選項:

- 支援 Intel GPU(DirectML backend)
- 可在公司內網環境部署
- 與 Azure AI 工具鏈相容

**可行性:🟢 高**(目標四以學習研究為主,無硬體交付壓力)

---

## 六、資源匹配分析

| 目標          | 預估所需人力       | 現有人力       | 匹配度                  |
| ------------- | ------------------ | -------------- | ----------------------- |
| AI Agent 開發 | 高(功能開發為主) | 生成式 AI 100% | ⚠️ 需確認工作優先排序 |
| 自動化 100%   | 中                 | —             | ✅                      |
| 模型品質提升  | 中(實驗為主)     | —             | ✅                      |
| 技術學習      | 低(自學為主)     | —             | ✅                      |

> **核心資源瓶頸**:目標一(AI Agent)工作量可能超過單人在受限硬體上的可負擔範圍,建議與主管討論優先順序或里程碑的合理範圍。

---

## 七、建議的下半年執行路線圖

```
2026/Q1(1~3月,已進行中)
  → 完成 SA 文件
  → 解決多文件穩定匯入問題(優先)
  → RAG 本地技術選型評估

2026/Q2(4~6月)
  → RAG Pipeline MVP 完成並測試
  → AI Agent F1+F2 功能完成
  → 拒答資料集建置與訓練實驗
  → 自動化流程穩定性達 95%+

2026/Q3(7~9月)
  → AI Agent MVP 上線(內部測試版)
  → Agent 評估框架完成
  → 自動化流程正式達 100%
  → 技術報告(RAG + Agent)產出
```

---

## 八、可行性總評

| 目標            | 可行性  | 主要條件                                     |
| --------------- | ------- | -------------------------------------------- |
| 目標一 AI Agent | 🟡 中等 | 需縮窄定義範圍,聚焦機構設計領域的受限 Agent |
| 目標二 自動化   | 🟢 高   | 先定位穩定性根因,其餘問題技術清晰           |
| 目標三 模型品質 | 🟢 高   | 方向正確,需建立量化驗收指標                 |
| 目標四 技術學習 | 🟢 高   | 自主掌控度高,Foundry-Local 是高價值研究點   |

> **整體判斷**:下半年計畫的**方向完全正確**,主要風險在於目標一的定義模糊與工作量估計。建議盡早與主管對齊「AI Agent 上線」的可接受最小範圍(MVP 定義),避免在開發後期才發現目標設定過高。







Login to like - 0 Likes



Comments...


No Comments Yet...



Add Comment...



shumin

A graduated biotechnology engineer. Now is a software engineer


Latest Posts



Footer with Icons