1

# KPI 評估總覽

> **評估日期**：2026-03-24
> **評估對象**：個人 KPI（生成式 AI，2025/09 ~ 進行中）
> **評估框架**：技術成就、環境限制、量化指標、風險建議、下半年計畫

---

## 一、評估報告導覽

本次評估從 5 個不同角度切入，各有獨立報告：

| 報告 | 角度 | 核心問題 |
| ------------------------------------------- | -------------- | ------------------------------ |
| [評估_01_技術成就.md](評估_01_技術成就.md) | 技術廣度與深度 | 「做了什麼、技術水準如何？」 |
| [評估_02_環境限制.md](評估_02_環境限制.md) | 困難度還原 | 「在多受限的環境下達成？」 |
| [評估_03_KPI量化.md](評估_03_KPI量化.md) | 指標完整性 | 「成果是否可被客觀驗證？」 |
| [評估_04_風險建議.md](評估_04_風險建議.md) | 風險識別 | 「什麼可能出問題？怎麼防範？」 |
| [評估_05_下半年計畫.md](評估_05_下半年計畫.md) | 計畫可行性 | 「下半年目標現實嗎？」 |

---

## 二、綜合評分儀表板

```
╔══════════════════════════════════════════════════════╗
║ 個人 KPI 綜合評估儀表板 ║
╠══════════════════════════════════════════════════════╣
║ ║
║ 技術廣度 ████████████████████░ 90% ║
║ 技術深度 ████████████████░░░░░ 80% ║
║ 成果完成度 ████████████████░░░░░ 75% ║
║ KPI 量化程度 ████████░░░░░░░░░░░░░ 35% ⚠️ ║
║ 環境克服難度 ████████████████████░ 90% 🔺 ║
║ 下半年計畫合理性 ████████████████░░░░░ 75% ║
║ ║
║ 整體綜合評分 ██████████████████░░░ 74% ║
║ ║
║ ⚠️ 最弱環節：KPI 量化指標（缺少數值佐證） ║
║ 🔺 最被低估：在受限環境下的技術難度 ║
╚══════════════════════════════════════════════════════╝
```

---

## 三、核心發現摘要

### 發現一：成果含金量被文件呈現方式低估

kpi.txt 未揭露兩個關鍵背景：

1. **Intel Arc 140V / 共享 VRAM 18GB**：主流 AI 框架（unsloth、LLaMA-Factory）以 CUDA 為主，在 Intel GPU 上需額外克服相容性問題
2. **公司內網無外部 LLM API**：無法使用 GPT-4 輔助生成訓練資料、評估模型品質、或加速開發

> 在這兩項限制下完成的所有成果，**實際工程難度是一般開放環境的 2~3 倍**。

### 發現二：量化指標是最大缺口

最關鍵的 benchmark 數值（微調前後準確率）只以「完成」帶過，缺乏任何數字。這是 KPI 說服力最弱的部分，也是最容易被評審質疑的環節。

### 發現三：技術廣度強但 AI Agent 啟動較晚

從模型選型到自動化系統，技術版圖完整。但 AI Agent（目標一的核心）在 2026/01 才啟動，下半年說要達成「100% 完成」，時程偏緊且定義模糊。

### 發現四：自動化的 60% 完成率判斷基準不明確

里程碑 7/7 已完成 6 項（約 86%），但文件寫 60%。若是以實際可用度計算，兩者差距需釐清。

---

## 四、各項成果評分

| 項目 | 任務完成度 | KPI 說明清晰度 | 含金量（考量環境限制後） |
| -------------- | ---------- | -------------- | ------------------------ |
| 模型選型評估 | ★★★★☆ | ★★★☆☆ | ★★★★★ |
| LLM 模型微調 | ★★★★★ | ★★★☆☆ | ★★★★★ |
| 訓練資料建置 | ★★★★☆ | ★★★☆☆ | ★★★★★ |
| MCP 工具整合 | ★★★★☆ | ★★☆☆☆ | ★★★★☆ |
| 資料萃取自動化 | ★★★☆☆ | ★★★☆☆ | ★★★★☆ |
| AI Agent 開發 | ★★☆☆☆ | ★★☆☆☆ | ★★★☆☆（啟動中） |

---

## 五、立即行動優先清單

優先級由高到低：

| 優先級 | 行動項目 | 預期效益 | 難度 |
| ------ | ----------------------------------------------- | ---------------------- | ----------------- |
| 🔴 P1 | **補充 benchmark 數字**（微調前後準確率） | KPI 說服力大幅提升 | 低（從 log 提取） |
| 🔴 P1 | **多文件穩定匯入問題定位**（加 log） | 解除自動化最大瓶頸 | 中 |
| 🟡 P2 | **KPI 文件加入環境限制說明** | 防止成果被低估 | 低 |
| 🟡 P2 | **AI Agent 里程碑細化** | 避免下半年進度失控 | 低 |
| 🟡 P2 | **RAG 本地技術選型評估** | 為 Agent 開發鋪路 | 中 |
| 🟢 P3 | **建立訓練版本評估快照機制** | 長期品質追蹤 | 低 |
| 🟢 P3 | **拒答機制提示工程快速驗證** | 為訓練策略提供先導數據 | 低 |

---

## 六、給評審者的說明（KPI 補充建議文字）

以下文字可補充進 kpi.txt 開頭，讓評審者有完整的脈絡：

```
【專案執行環境說明】

本期所有生成式 AI 工作均在以下受限環境中完成：

硬體限制：
- 裝置：Intel 筆記型電腦
- GPU：Intel Arc 140V
- 可用 VRAM：18GB（與系統記憶體共享，有效帶寬受限）
- 無 NVIDIA GPU，主流 CUDA 框架需自行解決相容問題

網路限制：
- 公司內網封閉，無法存取 OpenAI、Anthropic 等外部 LLM API
- 訓練資料生成、模型評估、資料增強均以本地工具完成
- RAG 及 Embedding 需採用完全本地化方案

上述雙重限制使本期工程實作難度顯著高於一般雲端開放開發環境，
所有成果均為在資源受限條件下獨立完成。
```

---

## 七、整體評估結論

**這份 KPI 反映的是一個在「困難模式」下扎實執行的 AI 工程師。**

技術路徑正確（選型 → 微調 → 資料 → 工具 → 自動化 → Agent），執行範圍完整，在受限的算力與封閉網路環境下仍建立了可運作的本地 AI Pipeline，這是真實的技術積累。

**唯一需要立即改善的，不是你做的事，而是你怎麼說你做的事：**

- 補上 benchmark 數字
- 揭露環境限制背景
- 讓評審者看見「困難模式」的真實難度

這三件事的投入時間極少，但對 KPI 評等的影響可能是決定性的。

# 技術成就評估

> **評估日期**：2026-03-24
> **評估角度**：技術廣度、技術深度、工程實作品質

---

## 一、技術版圖總覽

本評估期間（2025/09 ~ 2026/01）涵蓋的技術領域橫跨 **模型研究 → 資料工程 → 系統整合 → 自動化** 完整 AI 應用開發鏈，屬於罕見的全端 AI 工程師角色。

```
模型選型 → 微調訓練 → 訓練資料建置 → MCP工具整合 → 資料萃取自動化 → AI Agent開發
│ │ │ │ │ │
benchmark LoRA/全微調資料增強策略工具選用機制自動化流程設計 SA文件/RAG
```

---

## 二、各技術項目深度評估

### 2.1 LLM 模型選型評估

| 評估面向 | 說明 |
| -------------------- | --------------------------------------------------------------------------- |
| **選型方法論** | 採用 lm-evaluation-harness 進行標準化 benchmark，方法具公信力 |
| **比較範圍** | 5 款模型（0.27B ~ 1.5B 參數段），涵蓋 Qwen3、Gemma-3、DeepSeek 系列 |
| **決策標準** | 以「機構文件問答 + MCP 工具選用」雙任務表現作為綜合選型依據，非單一指標決策 |
| **技術亮點** | 確立小型模型可行性，符合本地端部署需求 |

**技術成熟度評分：** ★★★★☆

---

### 2.2 LLM 模型微調（核心技術成就）

#### 訓練框架運用

| 框架 | 用途 | 難度 |
| ------------- | -------------- | ---------- |
| LLaMA-Factory | 訓練流程管理 | ★★★☆☆ |
| unsloth | 記憶體優化微調 | ★★★★☆ |
| transformers | 底層模型操作 | ★★★★☆ |

#### 訓練策略比較

| 策略 | 特性 | 使用情境 |
| --------------------------- | ----------------------- | ---------------------- |
| **LoRA** | 參數效率高、VRAM 需求低 | 快速迭代、資源受限環境 |
| **全微調 + 經驗回放** | 學習能力強、避免遺忘 | 多任務整合、長期保留 |

> 同時掌握兩種策略並能根據情境選用，展現訓練工程的靈活性。

#### 多任務學習整合

```
訓練資料三軌整合
├── 機構設計文件問答（~20,000 筆）：領域知識注入
├── tw-reasoning-instruct-50k（50,000 筆）：通用推論能力
└── MCP 工具選用資料集：工具調用能力
```

同時訓練三種能力而不相互干擾，涉及**多任務學習（Multi-task Learning）**的資料配比設計，具有較高技術難度。

**技術成熟度評分：** ★★★★★

---

### 2.3 訓練資料集建置

#### 資料增強技術應用

| 技術 | 應用 | 參考來源 |
| ----------------- | ------------------------ | ------------------------- |
| 多輪對話建構 | 模擬真實問答情境 | lost_in_conversation 方法 |
| 隨機組合式問答 | 增加題型變化 | 自研 |
| WizardLM 廣度評估 | 評估後改以推論資料集替代 | WizardLM 論文 |

> 能夠評估業界方法（WizardLM）並做出「不採用、改以更適合方案替代」的判斷，顯示技術判斷力成熟，而非盲目跟隨流行做法。

**資料工程技術成熟度：** ★★★★☆

---

### 2.4 MCP 工具整合

#### 架構設計

```
用戶 Prompt
│
▼
Qwen3-0.6B（工具選用推理）
│ 輸出：選用工具名稱 + 參數
▼
程式層（Tool Dispatcher）
│
├── mcp-server-mysql → 資料庫操作
└── markitdown-mcp → 文件解析
```

此架構將「模型推理」與「工具執行」分離，是穩健的 MCP 工具調用設計模式。

**技術亮點：** Qwen3-0.6B **原始模型**即可選用工具，微調後進一步提升準確率，說明 prompt engineering 能力紮實。

**技術成熟度評分：** ★★★★☆

---

### 2.5 資料萃取自動化

#### 自動化流程設計

```
原始文件（PDF/DOCX 等）
│
▼ markitdown-mcp
Markdown（含分頁結構）
│
▼ 分頁邏輯
結構化問答對
│
▼ mcp-server-mysql
資料庫（172.18.212.49）
│
▼ Copilot 自動執行
訓練資料集
```

以 **MCP 工具鏈串接文件解析 → 資料庫匯入** 的設計，具有系統整合的實務工程能力。

**技術成熟度評分：** ★★★☆☆（穩定性待完善）

---

### 2.6 AI Agent 開發

目前階段以技術調查與 SA 文件為主，實作尚在啟動期。

| 項目 | 狀態 |
| ----------------- | -------- |
| Agent 技術 survey | 完成 |
| RAG 技術評估 | 進行中 |
| SA 文件撰寫 | 進行中 |
| 功能開發 | 尚未開始 |

---

## 三、技術廣度雷達圖（文字版）

```
模型訓練 ●●●●●
/
資料工程 ●●●●○ 系統整合 ●●●●○
\ /
MCP工具 ●●●●○─────
\
自動化 ●●●○○
\
AI Agent ●●○○○（啟動中）
```

---

## 四、技術成就亮點（Top 3）

### 🥇 第一：70,000 筆多任務訓練資料整合

從 0 建立涵蓋機構知識、推論能力、工具選用三維度的訓練資料集，並成功在同一模型上訓練，屬於工業級 AI 應用的資料工程實力體現。

### 🥈 第二：本地端完整 AI Pipeline 建立

在無外部 API 依賴的環境下，建立從文件解析 → 訓練資料 → 模型微調 → 工具調用的完整 pipeline，具備生產環境的自主性。

### 🥉 第三：訓練策略技術判斷力

比較 LoRA 與全微調、評估 WizardLM 後改用推論資料集，顯示非「照步驟操作」而是「理解原理後做技術取捨」的工程師層次。

---

## 五、技術成熟度總評

| 技術域 | 評分 | 備註 |
| -------------- | -------------------- | ------------------------------ |
| 模型選型與評估 | ★★★★☆ | 方法論完整 |
| 模型微調 | ★★★★★ | 多策略、多任務，核心亮點 |
| 資料工程 | ★★★★☆ | 規模充足，增強策略多元 |
| MCP 工具整合 | ★★★★☆ | 架構設計合理 |
| 系統自動化 | ★★★☆☆ | 穩定性待解，仍在進行中 |
| AI Agent | ★★☆☆☆ | 剛啟動，尚待展開 |
| **整體** | **★★★★☆** | 技術廣度強，深度集中在微調領域 |

# 環境限制與克服難度評估

> **評估日期**：2026-03-24
> **評估角度**：在客觀限制條件下完成任務的實際難度評估

---

## 前言：被隱藏的「困難模式」

kpi.txt 中所有成果，均在以下兩項嚴苛限制下完成，但文件**完全未揭露**這些前提條件，導致成果的實際含金量被嚴重低估：

| 限制類型 | 具體內容 |
| ------------------ | ------------------------------------------------- |
| **算力限制** | Intel 筆電 / Intel Arc 140V / 共享 VRAM 18GB |
| **網路限制** | 公司內網封閉，無法存取 OpenAI API 等外部 LLM 服務 |

> 比喻：同樣跑完馬拉松，一般選手和帶著 20kg 背包的選手，成績相同但難度截然不同。

---

## 一、Intel Arc 140V 硬體限制詳析

### 1.1 硬體規格對 AI 工作負載的影響

| 規格 | Intel Arc 140V | 主流 AI 開發顯卡（RTX 4090） | 影響落差 |
| ----------- | ---------------------- | ---------------------------- | ---------------------------- |
| VRAM | 18GB（共享系統記憶體） | 24GB GDDR6X | 有效 VRAM 更少（共享帶寬低） |
| GPU 架構 | Xe-LPG（行動端） | Ada Lovelace（桌上型） | 算力差距 3~5 倍以上 |
| CUDA 支援 | **不支援** | 原生支援 | 框架相容性問題 |
| AI 推論 SDK | OpenVINO / IPEX | CUDA / cuDNN | 生態系成熟度差距大 |

### 1.2 主流 AI 框架在 Intel Arc 上的相容性挑戰

```
主流框架的預設支援堆疊
─────────────────────────────────────────
unsloth → 依賴 CUDA Triton kernel ⚠️ 需要繞過或替換
LLaMA-Factory → 主要測試環境為 NVIDIA ⚠️ 可能有未文件化的相容問題
transformers → 部分支援 Intel XPU ✅ 可運作，但效能未優化
lm-eval-harness → CUDA 優先 ⚠️ 需要環境調適
```

> **結論**：在 Intel Arc 上完成上述工作，代表已自行解決或繞過框架相容性問題，這部分的工程成本在 KPI 中完全不可見。

### 1.3 VRAM 18GB 對各訓練任務的壓力分析

| 訓練任務 | 估算所需 VRAM | 實際可用 | 壓力等級 |
| ------------------------- | ------------- | ------------ | ----------------------------------------- |
| Qwen3-0.6B LoRA 微調 | ~8~12GB | 18GB（共享） | 🟡 中等（需謹慎設定） |
| Qwen3-0.6B 全微調 | ~16~24GB | 18GB（共享） | 🔴 高（需 gradient checkpointing + 量化） |
| benchmark 評估（5款模型） | 各模型不同 | 18GB | 🟡 中等（需序列測試） |
| 多輪對話訓練（6.5小時） | 持續佔用 | 18GB | 🔴 高（長時間穩定性要求高） |

> 全微調 + 經驗回放在 18GB 共享 VRAM 環境下，幾乎需要用到所有記憶體優化技術：**4-bit 量化 + gradient checkpointing + 小 batch size + gradient accumulation**。

---

## 二、無外部 LLM API 限制詳析

### 2.1 公司內網封閉對 AI 開發的影響對照

| 工作項目 | 有 OpenAI API 的一般做法 | 無 API 的實際做法 | 難度提升 |
| ---------------------------------- | --------------------------------- | ------------------------------------ | ---------- |
| **訓練資料生成** | GPT-4 批次生成問答對 | 人工設計 + 本地模型輔助 | ★★★★ |
| **模型評估（LLM-as-Judge）** | GPT-4 評分答案品質 | lm-evaluation-harness 本地 benchmark | ★★★☆ |
| **資料增強** | GPT-4 改寫、擴充資料 | 手工規則 + 組合邏輯 | ★★★★ |
| **RAG embedding** | OpenAI text-embedding-3 | 本地 embedding 模型（如 BGE） | ★★★☆ |
| **MCP 工具訓練資料** | 使用 GPT-4 生成多樣化工具調用樣本 | 完全自製 | ★★★★★ |

### 2.2 對訓練資料品質的影響

```
有 OpenAI API 的資料建置流程（業界慣例）：
文件 → GPT-4 生成多樣化問答 → 人工抽樣驗證 → 訓練

無 OpenAI API 的資料建置流程（本案實際）：
文件 → 人工設計問答模板 → 組合式生成 → 多輪對話建構 → 本地驗證 → 訓練
↑ ↑
需要更深的理解文件內容缺乏外部品質對照基準
```

> **結論**：在沒有 GPT-4 輔助的情況下達到 20,000+ 筆機構問答資料，工程投入量遠高於有外部 API 支援的情境。

### 2.3 為何選用小型模型的真實原因（未被揭露）

KPI 中「確立 Qwen3-0.6B 為主力模型」的決策，表面上是因為效能最佳，但**真正的底層限制**是：

1. 無法呼叫外部 API → 必須本地運行
2. 本地硬體算力有限 → 模型必須夠小才能在 18GB VRAM 內訓練與推論
3. 無雲端算力資源 → 無法使用 7B+ 大型模型

這個選型決策其實是「在多重硬性限制下的最優解」，而非「純粹的效能選型」。

---

## 三、雙重限制的疊加效應

```
┌─────────────────────────────┐
│ 無外部 API 限制 │
│ ↓ │
│ 需自製訓練資料 │
│ 需本地 benchmark 工具 │
└──────────┬──────────────────┘
│ 疊加
┌──────────▼──────────────────┐
│ 有限算力限制 │
│ ↓ │
│ 資料量越大訓練越慢 │
│ 需要大量記憶體優化 │
│ 無法平行多實驗迭代 │
└─────────────────────────────┘
│
▼
實際工程難度 = 2~3 倍於
一般雲端 + OpenAI API 環境
```

---

## 四、克服難度對成果的重新詮釋

| 原 KPI 描述 | 考量限制後的真實成就 |
| ----------------------------- | -------------------------------------------------------- |
| 「比較 5 款模型」 | 在 Intel Arc 上序列執行 5 套 benchmark，克服硬體相容問題 |
| 「訓練資料 70,000+ 筆」 | 無 GPT-4 輔助，完全自主設計資料管線與品質控制 |
| 「多輪對話訓練耗時 6.5 小時」 | 在共享 VRAM 環境下穩定執行 6.5 小時，記憶體管理能力強 |
| 「MCP 工具整合」 | 工具選用訓練資料需完全自製，無法借助外部 LLM |
| 「確立 Qwen3-0.6B 為主力」 | 在硬體與 API 雙重限制下找到可行的本地端解決方案 |

---

## 五、建議：KPI 文件應補充的限制聲明

```markdown
## 專案執行環境說明

本專案所有工作均在以下受限環境中完成：

**算力環境**
- 硬體：Intel 筆電 / Intel Arc 140V
- 可用 VRAM：18GB（與系統記憶體共享）
- 無 NVIDIA GPU，需自行解決框架相容性問題

**網路環境**
- 公司內網封閉，無法存取 OpenAI API 等外部 LLM 服務
- 所有訓練資料、評估均以本地工具完成
- RAG 實作需使用完全本地化的 embedding 方案

上述限制使本專案的工程難度顯著高於一般雲端開發環境。
```

---

## 六、評估結論

在如此受限的硬體與網路環境下，能夠完成：

- ✅ 5 款模型的系統化選型評估
- ✅ 70,000+ 筆訓練資料的完整建置
- ✅ LoRA + 全微調雙策略實作
- ✅ MCP 工具整合與本地端工具鏈建立
- ✅ 文件解析 → 資料庫的自動化流程雛型

這些成果的**實際技術含金量，至少是 kpi.txt 所呈現的 2 倍以上**。

> **核心建議**：在績效面談或簡報中，應主動揭露這些限制條件，讓評審者理解成果是在「困難模式」下達成的。

# KPI 量化指標分析

> **評估日期**：2026-03-24
> **評估角度**：KPI 指標的可量化程度、完整性、與可驗證性

---

## 一、現有 KPI 量化指標盤點

### 1.1 有明確數值的指標

| 指標 | 數值 | 評分 |
| ---------------- | -------------- | --------------------------- |
| 比較評估模型數量 | 5 款 | ✅ 明確 |
| 訓練資料總量 | 70,000+ 筆 | ✅ 明確（有細項分類） |
| 多輪對話訓練耗時 | 約 6.5 小時 | ✅ 可量化，但意義需說明 |
| 人力比例 | 生成式 AI 100% | ✅ 明確 |
| MCP 工具整合數量 | 2+ 個 | ⚠️ 「2+」模糊，應明列 |
| 自動化流程完成率 | 60% | ✅ 有數字，但計算基準未說明 |

### 1.2 模糊或缺失的關鍵指標

| 指標類型 | 現況 | 問題 |
| -------------------- | ------------------------ | --------------------------- |
| 模型問答準確率 | **未提及** | ❌ 最核心的指標反而缺失 |
| 微調前後準確率對比 | 「完成」（無數字） | ❌ 有做評估但無輸出數值 |
| MCP 工具選用準確率 | **未提及** | ❌ 工具整合的核心成效未量化 |
| 文件解析成功率 | **未提及** | ❌ 自動化流程品質指標缺失 |
| 多文件穩定匯入成功率 | 「進行中（穩定性待解）」 | ⚠️ 未設定目標值 |
| 訓練資料品質指標 | **未提及** | ❌ 無去重率、格式合規率等 |

---

## 二、關鍵缺失量化指標分析

### 2.1 最重要的缺口：模型效能指標

這是整個 KPI 最嚴重的數字缺口。

```
KPI 文件現況：
「模型 benchmark 評估（微調前後）| 完成」

KPI 文件應有的樣貌：
┌────────────────────────────────────────────┐
│ 評估項目 │ 微調前 │ 微調後 │ 提升幅度 │
├────────────────────────────────────────────┤
│ 機構文件問答準確率 │ XX% │ XX% │ +XX% │
│ MCP工具選用準確率 │ XX% │ XX% │ +XX% │
│ 推論任務得分 │ XX │ XX │ +XX │
│ lm-eval 綜合分 │ XX │ XX │ +XX │
└────────────────────────────────────────────┘
```

> **顧問提醒**：「完成評估」≠「KPI 達成」。評估本身只是手段，數值才是成果。如果有這些數字，強烈建議補入文件。

---

### 2.2 MCP 工具選用準確率

| 問題 | 建議補充 |
| ------------------------- | ----------------------------------------------------- |
| 「2+ 個工具」語意模糊 | 改為：整合工具 2 項：mcp-server-mysql、markitdown-mcp |
| 未說明工具選用成效 | 補充：在 N 筆測試中，工具選用準確率達 XX% |
| 未說明有無 false positive | 補充：誤觸發率 XX%（即 prompt 不需工具但模型仍選用） |

---

### 2.3 訓練資料品質指標

70,000+ 筆是數量指標，但缺乏品質指標：

```
建議補充的品質指標：
├── 去重後有效資料量：XX 筆（去重率 XX%）
├── 格式合規率：XX%（符合訓練格式要求）
├── 機構文件問答 → 人工抽樣驗證比例：XX%
└── 多輪對話平均輪數：X 輪
```

---

### 2.4 自動化流程量化

「60% 完成」基準未說明，建議以里程碑計算：

| 里程碑 | 狀態 | 權重 |
| ---------------- | ------ | ---- |
| 建立匯入規格 | 完成 | 1/7 |
| 文件解析 | 完成 | 1/7 |
| DB schema 設計 | 完成 | 1/7 |
| 資料匯入測試 | 完成 | 1/7 |
| 問答資料存入測試 | 完成 | 1/7 |
| Copilot 自動執行 | 完成 | 1/7 |
| 多文件穩定匯入 | 進行中 | 1/7 |

> 以里程碑計算為 6/7 ≈ 86%，高於 KPI 文件所寫的 60%。
> 若 60% 是加權後的實際可用程度，需說明計算方式。

---

## 三、KPI 指標完整性評分矩陣

| KPI 項目 | 有明確指標 | 有基準值 | 有達成率 | 完整度 |
| -------------- | ------------ | ------------------ | ---------------- | ------------- |
| 模型選型 | ✅（5 款） | ❌ | ❌（無比較基準） | 40% |
| 模型微調 | ✅（訓練量） | ❌（無目標準確率） | ❌（無數值） | 30% |
| 訓練資料 | ✅（筆數） | ❌（無品質指標） | ⚠️（部分） | 50% |
| MCP 整合 | ⚠️（2+） | ❌ | ❌ | 20% |
| 自動化 | ✅（60%） | ⚠️（基準不明） | ✅ | 60% |
| AI Agent | ❌ | ❌ | ❌（剛啟動） | 10% |
| **整體** | — | — | — | **35%** |

---

## 四、下半年 KPI 量化建議

### 目標一：AI Agent 完成率 100%

現況問題：「核心功能完成率 100%」未定義「核心功能」是什麼。

```
建議改寫：
KPI：以下核心功能全部通過整合測試
□ RAG 文件檢索（查詢延遲 < X 秒）
□ 工具自動選用（準確率 ≥ 90%）
□ 多輪對話（連續 N 輪無脈絡丟失）
□ 端對端問答流程（從 prompt 到回答 < X 秒）
```

### 目標二：自動化流程 100%

現況問題：100% 缺乏驗收標準。

```
建議改寫：
KPI：連續處理 20 份文件，成功率 ≥ 95%
（成功定義：文件完整解析 + 問答資料正確入庫 + 無人工介入）
```

### 目標三：模型品質提升

現況問題：「領域外問題拒答準確率達目標」中「目標」未定義。

```
建議改寫：
KPI：
□ 拒答準確率（領域外問題） ≥ 85%
□ 誤拒率（領域內問題被拒） ≤ 5%
□ 推論任務得分：相較微調前提升 ≥ 10%
```

### 目標四：技術學習

現況問題：「完成 1 份文件」難以評估品質。

```
建議改寫：
KPI：
□ AI Agent 架構設計文件：通過主管/同儕 review
□ RAG 技術評估報告：包含至少 3 種方案的比較矩陣與推薦理由
```

---

## 五、KPI 格式優化建議

### 現有格式問題

1. 「完成」作為結果過於籠統
2. 缺乏「目標值 vs 實際值」的對比結構
3. 部分里程碑完成狀態缺少完成日期

### 建議標準格式

```markdown
| 指標 | 目標值 | 實際值 | 達成率 | 驗證方式 |
|------|-------|-------|-------|---------|
| 問答準確率 | ≥80% | 83% | 104% | lm-eval benchmark |
| 工具選用準確率 | ≥85% | 91% | 107% | 測試集評估 |
| 訓練資料量 | 20,000 筆 | 22,000 筆 | 110% | 資料庫筆數 |
```

---

## 六、量化評估總結

| 評估面向 | 現況 | 建議行動 |
| ---------- | ------------------ | -------------------------------- |
| 數量指標 | 尚可（有部分數字） | 補充模型效能的具體數值 |
| 品質指標 | 不足 | 加入準確率、成功率等品質維度 |
| 基準對比 | 幾乎缺失 | 所有指標需有「目標值 vs 實際值」 |
| 下半年 KPI | 定義模糊 | 重新定義可驗收的量化指標 |

> **最重要的行動項目**：補充「模型微調前後準確率對比數字」，這是整份 KPI 最核心的說服力來源。

# 風險識別與改善建議評估

> **評估日期**：2026-03-24
> **評估角度**：現有工作的風險點識別、潛在失敗模式、及針對性改善建議

---

## 一、風險全景圖

```
風險類型風險項目嚴重度發生機率
─────────────────────────────────────────────────────────
技術風險 │ Intel GPU 框架相容性高已發生（正在應對）
│ 全微調 OOM 崩潰高中等
│ 訓練資料品質不均中中等
─────────────────────────────────────────────────────────
進度風險 │ 多文件穩定匯入問題持續高高
│ AI Agent 開發低估複雜度高中
│ RAG 本地化實作成本中中
─────────────────────────────────────────────────────────
成果風險 │ 無 benchmark 數字支撐評審高已存在
│ KPI 成果被低估中已存在
│ 模型遺忘問題（Catastrophic）中中
─────────────────────────────────────────────────────────
環境風險 │ 內網政策進一步收緊低低
│ 硬體算力不足以支援 Agent 中中
─────────────────────────────────────────────────────────
```

---

## 二、高優先級風險詳析

### 風險 R-01：多文件穩定匯入問題（進行中，尚未解決）

**風險等級：🔴 高**

| 面向 | 說明 |
| ------------------ | --------------------------------------------------------------- |
| **現況** | 單文件匯入可行，多文件批量時穩定性不足 |
| **根因假設** | Copilot token 超限、分頁邏輯邊界條件、mcp-server-mysql 連線超時 |
| **影響** | 自動化系統僅能半自動運作，人工成本未有效降低 |
| **連鎖影響** | 訓練資料擴充速度受限，進而影響模型迭代速度 |

**改善建議：**

```
優先排查步驟：
Step 1：加入詳細 log，記錄哪個文件、哪個步驟開始失敗
Step 2：分析失敗是「隨機」還是「特定文件類型/大小」觸發
Step 3：針對最常見失敗點：
→ 若是 Copilot token 超限：縮短 prompt 長度，改用分段執行
→ 若是 DB 連線問題：加入重試機制（retry with backoff）
→ 若是分頁邏輯：為邊界情況加入單元測試

建議 KPI 目標：批量 20 份文件，成功率 ≥ 95%
```

---

### 風險 R-02：模型 benchmark 數據未保存/未記錄

**風險等級：🔴 高**

| 面向 | 說明 |
| ------------------ | ------------------------------------------------ |
| **現況** | KPI 文件記載「benchmark 評估完成」，但無具體數值 |
| **根因** | 評估結果可能只存在本地，未系統化記錄 |
| **影響** | 績效評審時無法提供量化依據，成果說服力大幅下降 |
| **連鎖影響** | 未來迭代難以判斷改進幅度 |

**改善建議：**

```
立即行動：
1. 從 lm-evaluation-harness 的輸出 log 中提取歷史數字
2. 建立標準化的評估記錄格式（Excel 或 markdown 表格）
3. 每次微調後強制記錄 benchmark 快照

建議記錄格式：
評估日期 | 模型版本 | 評估集 | 得分 | 備註
2025/10 | base | mechdoc_qa | XX% | 未微調
2025/11 | ft-v1 | mechdoc_qa | XX% | LoRA 第一版
...
```

---

### 風險 R-03：Catastrophic Forgetting（災難性遺忘）

**風險等級：🟡 中**

| 面向 | 說明 |
| ------------------ | ---------------------------------------------- |
| **現況** | 已有「全微調 + 經驗回放」策略應對 |
| **潛在問題** | 三類資料交替訓練時，比例設定不當仍可能導致遺忘 |
| **影響** | 加入 MCP 資料集後，原有機構問答能力下降 |

**改善建議：**

```
建議監控指標（每個訓練版本後執行）：
□ 機構文件問答準確率（不應下降超過 2%）
□ MCP 工具選用準確率（核心指標）
□ 推論任務基準分（如 tw-reasoning 評估集部分題目）

若發現遺忘：
→ 調整三類資料混合比例（增加被遺忘任務的資料比重）
→ 考慮採用 EWC（Elastic Weight Consolidation）正規化
```

---

### 風險 R-04：AI Agent 開發複雜度被低估

**風險等級：🟡 中**

| 面向 | 說明 |
| -------------------- | ------------------------------------------------------ |
| **現況** | 項次 6 以 10% 人力啟動，主要產出為「survey + SA 文件」 |
| **下半年計畫** | 目標一要求「AI Agent 核心功能完成率 100%」 |
| **風險** | SA 文件 → 功能完成的跨越，在 10% 人力下難以實現 |

**完整 AI Agent 所需技術棧：**

```
AI Agent 完整實作需要：
├── RAG Pipeline（本地 embedding + 向量資料庫）
├── Agent 推理引擎（LangGraph / AutoGen / 自研）
├── 工具調用管理（MCP 擴展現有工具）
├── 對話狀態管理（多輪 context window 管理）
├── 評估與測試框架（agent trajectory 評估）
└── 整合測試（端對端流程驗證）
```

> 在受限硬體（Intel Arc 140V）上部署完整 RAG + Agent，每個元件都需要確認 Intel XPU 相容性。

**改善建議：**

```
1. 將 AI Agent 分解為更小的里程碑（每月 1 個可驗證的功能點）
2. 先確認 RAG embedding 在 Intel Arc 上的可行方案
→ 推薦：FastEmbed（CPU friendly）+ Qdrant（本地向量庫）
3. 評估是否可先用 CPU 推論方式驗證 Agent 流程正確性
```

---

### 風險 R-05：KPI 成果被低估（文件表達風險）

**風險等級：🟡 中**（跨週期影響）

| 面向 | 說明 |
| ------------------ | -------------------------------------------------- |
| **現況** | kpi.txt 未揭露環境限制，成果的困難度不可見 |
| **影響** | 評審者可能以「一般開發環境」標準評量，導致評級偏低 |
| **連鎖影響** | 影響績效評等、年度考核、薪資調整 |

**改善建議：**

```
在 KPI 文件開頭加入環境背景說明區塊：

「本期工作均在以下受限環境下完成：
- 硬體：Intel Arc 140V / VRAM 18GB（共享）
- 網路：公司內網，無法存取外部 LLM API
上述限制使工程實作難度顯著高於一般開放環境。」
```

---

## 三、下半年新增風險預測

### 風險 R-06：RAG 本地化技術選型

進入 AI Agent 開發後，RAG 是核心組件，在公司環境下的技術選擇需格外謹慎：

| 方案 | 優點 | 缺點 | 在 Intel Arc 可行性 |
| --------------------------------------- | -------------- | -------------------- | ------------------- |
| **FAISS + sentence-transformers** | 成熟、文件豐富 | Intel GPU 需額外設定 | ⚠️ 需測試 |
| **Qdrant + FastEmbed** | 輕量、CPU 友好 | 功能較少 | ✅ 推薦 |
| **ChromaDB + local embedding** | 使用簡單 | 效能可能較差 | ✅ 可行 |
| **Weaviate / Pinecone** | 功能豐富 | 需外網存取 | ❌ 不可用 |

### 風險 R-07：訓練資料覆蓋不足

當前資料集以「已知文件」建置問答，存在以下盲點：

```
盲點類型：
├── 跨文件關聯問題（需參考多份文件才能回答）
├── 否定式問題（「XX 機構不具備哪些功能？」）
├── 比較式問題（「A 機構與 B 機構的差異？」）
└── 更新後知識衝突（舊文件 vs 新文件內容矛盾）
```

---

## 四、風險優先處理矩陣

```
高嚴重度
│
│ R-02（benchmark未記錄） R-01（穩定性問題）
│
│ R-05（KPI被低估） R-04（Agent複雜度）
│
│ R-03（遺忘問題） R-06（RAG選型）
│
低嚴重度
────────────────────────────────────────
低發生機率高發生機率
```

**立即行動清單（按優先級）：**

1. 🔴 **立即**：整理並記錄現有 benchmark 評估結果數字
2. 🔴 **立即**：為多文件匯入問題加入 log，定位根因
3. 🟡 **本月**：在 KPI 文件補充環境限制說明
4. 🟡 **本月**：制定 AI Agent 月度里程碑計畫
5. 🟢 **本季**：建立 RAG 本地化技術選型評估

---

## 五、改善建議總表

| 改善項目 | 行動 | 預期效益 |
| ------------------ | ------------------------------ | ------------------ |
| benchmark 數字補充 | 從歷史 log 提取，加入 KPI 表格 | 大幅提升成果說服力 |
| 穩定性問題定位 | 加入詳細 log + 根因分析 | 解除自動化瓶頸 |
| KPI 文件環境背景 | 補充一段限制說明 | 防止評審低估 |
| Agent 里程碑細化 | 拆解為月度可交付項目 | 降低進度風險 |
| 遺忘監控機制 | 建立固定評估集，每版微調後執行 | 早期發現能力衰退 |
| RAG 技術選型 | 建立本地可行方案比較表 | 加速 Agent 開發 |

# 下半年計畫可行性評估

> **評估日期**：2026-03-24
> **評估角度**：下半年 4 個目標的可行性、時程合理性、資源匹配度

---

## 一、整體可行性概覽

| 目標 | 描述 | 可行性 | 主要風險 |
| ------ | -------------------- | ------- | ---------------------------- |
| 目標一 | AI Agent 開發與上線 | 🟡 中等 | 複雜度高、硬體限制、定義模糊 |
| 目標二 | 自動化流程 60%→100% | 🟢 較高 | 穩定性問題需先定位根因 |
| 目標三 | 模型品質持續提升 | 🟢 高 | 方向明確，可逐步驗證 |
| 目標四 | 技術能力學習 | 🟢 高 | 主動學習為主，自主度高 |

---

## 二、目標一：AI Agent 開發與上線

### 2.1 目標分解

```
「AI Agent 核心功能完成率 100%；RAG 整合測試完成」

拆解成可交付的子功能：
├── F1：RAG 管線（文件 → embedding → 向量庫 → 檢索）
├── F2：Agent 推理（prompt → 思考 → 行動 → 回應）
├── F3：工具調用整合（延伸現有 MCP 工具機制）
├── F4：多輪對話狀態管理
└── F5：評估指標建立與測試
```

### 2.2 技術複雜度分析

| 子功能 | 技術難度 | 在 Intel Arc 的可行性 | 預估工時 |
| -------------- | ---------- | --------------------------------- | -------- |
| F1：RAG | ★★★★☆ | ✅（使用本地 embedding） | 3~4 週 |
| F2：Agent 推理 | ★★★★★ | ⚠️（Qwen3-0.6B 推理能力有上限） | 4~6 週 |
| F3：工具調用 | ★★★☆☆ | ✅（延伸現有 MCP 架構） | 1~2 週 |
| F4：對話狀態 | ★★★☆☆ | ✅ | 1~2 週 |
| F5：評估框架 | ★★☆☆☆ | ✅ | 1 週 |

### 2.3 關鍵風險：Qwen3-0.6B 的 Agent 能力上限

大多數 Agent benchmark 顯示，有效執行多步驟推理通常需要 **7B 以上**的模型。

```
0.6B 模型在 Agent 場景的潛在限制：
├── 多步驟規劃能力有限（超過 3 步容易迷失）
├── 工具選用在複雜 prompt 中準確率下降
├── 自我糾錯能力弱（無法識別工具調用失敗）
└── Context window 有限，長對話狀態容易丟失

緩解策略：
├── 限縮 Agent 任務範圍（專注機構設計文件的單一領域）
├── 設計結構化 prompt 模板降低推理複雜度
└── 用程式邏輯補足模型推理不足的部分（hybrid approach）
```

### 2.4 「上線」定義風險

KPI 中「上線」未有明確說明，建議在計畫中定義：

```
建議定義「上線」的最小可交付版本（MVP）：
✅ 可接收用戶的機構設計相關問題
✅ RAG 自動檢索相關文件段落
✅ 根據檢索結果生成回答
✅ 支援至少 3 輪連續對話
✅ 部署在公司內網可存取的端點

非 MVP 需求（延後版本）：
□ 工具動態調用
□ 主動詢問澄清問題
□ 跨文件交叉推理
```

### 2.5 可行性評估

**若聚焦在機構設計問答領域的受限 Agent（RAG + 有限工具調用）**：可行性 🟢

**若目標是通用 Agent（多步驟規劃 + 動態工具調用）**：可行性 🔴（超出 0.6B 模型能力）

---

## 三、目標二：自動化流程 60%→100%

### 3.1 目標分解

```
剩餘 40% 工作集中在：
├── 多文件穩定匯入（主要瓶頸）
├── 分頁邏輯優化（基於內容結構分析）
└── Copilot 執行穩定性（幻覺 + token 超限）
```

### 3.2 各子問題的可行性

#### 多文件穩定匯入

| 可能根因 | 解決方案 | 難度 |
| ------------------------ | ---------------------------- | ---------- |
| Copilot token 超限 | 縮短 prompt + 分批執行 | ★★☆☆☆ |
| MySQL 連線超時 | 加入 connection pool + retry | ★★☆☆☆ |
| 文件格式特殊處理 | 加強 markitdown 的容錯邏輯 | ★★★☆☆ |
| 記憶體壓力（Intel 筆電） | 調整批次大小 | ★★☆☆☆ |

**可行性估計：🟢 高**（問題有限，解決方案明確）

#### 分頁邏輯優化

```
基於內容結構分析的分頁，可採用：
├── 規則式：以標題（H1/H2/H3）為分頁邊界
├── 統計式：基於段落長度分佈決定閾值
└── 語意式：使用輕量 embedding 計算段落相似度

推薦起點：規則式（成本最低，對結構化文件效果佳）
```

**可行性估計：🟢 高**

#### Copilot 執行穩定性

```
已知問題：幻覺 + token 超限

針對幻覺：
→ 使用更明確的 step-by-step 指令格式
→ 每步驟包含「預期輸出格式」說明

針對 token 超限：
→ 將操作拆分為更細粒度的子指令
→ 減少在單一 prompt 中傳入的文件內容量
```

**可行性估計：🟡 中等**（Copilot 行為有不確定性，需實驗調整）

### 3.3 整體可行性

目標二是 4 個目標中**可行性最高**的，問題已定位、解決方案明確，預估 2~3 個月可達成。

---

## 四、目標三：模型品質持續提升

### 4.1 拒答機制比較實驗

```
比較兩種方式：
提示工程方式拒答資料集訓練
優點 │ 快速、不需重訓 │ 模型層級控制，不依賴 prompt
缺點 │ 容易被繞過 │ 需建立高品質拒答資料集
成本 │ 低 │ 中（資料建置 + 重訓時間）
效果持久性 │ 低（換 prompt 失效） │ 高（embed 進模型）
建議用途 │ 快速驗證可行性 │ 最終部署版本
```

**建議流程**：先用提示工程確認「拒答邏輯可行」，再用資料集訓練固化到模型中。

**可行性：🟢 高**

### 4.2 訓練參數動態調整

```
根據資料量動態調整訓練參數的基本策略：

資料量級別 │ learning rate │ epochs │ batch size
< 5,000 筆 │ 1e-4 │ 5~10 │ 4~8
5,000~20,000 │ 5e-5 │ 3~5 │ 8~16
> 20,000 筆 │ 2e-5 │ 2~3 │ 16~32
```

**可行性：🟢 高**（有成熟的超參數調整方法論可參考）

### 4.3 推論式資料集擴充至 50,000 筆

目前 tw-reasoning-instruct-50k 已有 50,000 筆，若目標是擴大至更多，需確認：

- 50,000 筆是否已發揮效益（先驗證品質，再擴充量）
- 補充繁體中文推論資料集是否比單純擴充數量更有效

**可行性：🟢 高**

---

## 五、目標四：技術能力學習

### 5.1 AI Agent 最新技術研究

| 研究方向 | 代表技術 | 與現有工作的關聯 |
| ---------------- | ------------------ | ------------------------- |
| MCP 架構深化 | Anthropic MCP Spec | 直接延伸現有 MCP 工具整合 |
| Multi-Agent 協作 | CrewAI / AutoGen | AI Agent 設計的進階方向 |
| Agent 評估方法 | AgentBench / GAIA | 支援目標一的評估指標建立 |

### 5.2 RAG 最佳實踐

```
在無外部 API 環境下值得深入研究的 RAG 技術：
├── 本地 Embedding 模型比較（BAAI/bge, multilingual-e5 等）
├── Hybrid Retrieval（BM25 + Dense Retrieval 融合）
├── Re-ranking（CrossEncoder 提升檢索精度）
└── Chunking 策略優化（與分頁邏輯優化直接相關）
```

### 5.3 Foundry-Local 評估

Foundry-Local 是 Microsoft 的本地推論方案，在無 OpenAI API 的環境下是優先評估的替代選項：

- 支援 Intel GPU（DirectML backend）
- 可在公司內網環境部署
- 與 Azure AI 工具鏈相容

**可行性：🟢 高**（目標四以學習研究為主，無硬體交付壓力）

---

## 六、資源匹配分析

| 目標 | 預估所需人力 | 現有人力 | 匹配度 |
| ------------- | ------------------ | -------------- | ----------------------- |
| AI Agent 開發 | 高（功能開發為主） | 生成式 AI 100% | ⚠️ 需確認工作優先排序 |
| 自動化 100% | 中 | — | ✅ |
| 模型品質提升 | 中（實驗為主） | — | ✅ |
| 技術學習 | 低（自學為主） | — | ✅ |

> **核心資源瓶頸**：目標一（AI Agent）工作量可能超過單人在受限硬體上的可負擔範圍，建議與主管討論優先順序或里程碑的合理範圍。

---

## 七、建議的下半年執行路線圖

```
2026/Q1（1~3月，已進行中）
→ 完成 SA 文件
→ 解決多文件穩定匯入問題（優先）
→ RAG 本地技術選型評估

2026/Q2（4~6月）
→ RAG Pipeline MVP 完成並測試
→ AI Agent F1+F2 功能完成
→ 拒答資料集建置與訓練實驗
→ 自動化流程穩定性達 95%+

2026/Q3（7~9月）
→ AI Agent MVP 上線（內部測試版）
→ Agent 評估框架完成
→ 自動化流程正式達 100%
→ 技術報告（RAG + Agent）產出
```

---

## 八、可行性總評

| 目標 | 可行性 | 主要條件 |
| --------------- | ------- | -------------------------------------------- |
| 目標一 AI Agent | 🟡 中等 | 需縮窄定義範圍，聚焦機構設計領域的受限 Agent |
| 目標二自動化 | 🟢 高 | 先定位穩定性根因，其餘問題技術清晰 |
| 目標三模型品質 | 🟢 高 | 方向正確，需建立量化驗收指標 |
| 目標四技術學習 | 🟢 高 | 自主掌控度高，Foundry-Local 是高價值研究點 |

> **整體判斷**：下半年計畫的**方向完全正確**，主要風險在於目標一的定義模糊與工作量估計。建議盡早與主管對齊「AI Agent 上線」的可接受最小範圍（MVP 定義），避免在開發後期才發現目標設定過高。

1

Comments...

Add Comment...

Latest Posts

nanobot優化

20260330

21專案評估報告

Categories