我們習慣幫 API 加上監控，卻忘了量測自己與 AI 的協作效率

四十分鐘換來一個錯的方向

有一次我花了四十分鐘跟 AI 討論一個架構問題。

它給了我三個方案，每個都有條有理，優劣勢列得很整齊。我讀完覺得很有收穫，複製了一段貼進文件，然後繼續往下做。

兩天後我才意識到：我當初真正需要的，只是找同事聊十分鐘。那個問題的核心根本不是技術選型，而是我還不清楚需求是什麼。AI 非常有效率地幫我往錯誤的方向走了很遠。

這不是 AI 的問題。這是一種很特定的陷阱：當你問了一個有格式感的問題，你就會得到一個有格式感的答案——然後你會誤以為這樣的對話是有價值的。速度感是真實的。但速度不等於進展。

你上週花了多少時間在跟 AI 講話？

不知道。

那你上週用 AI 實際省了多少時間？

還是不知道。

這件事本身就很奇怪。我們是那種會替一支 API 端點加上 P99 latency 監控的人，會因為一個 Query 多掃了兩個 Index 而調整 Schema，會在 Code Review 裡留言「這裡要加 Trace」——但輪到自己的工作流程，我們卻完全沒有可觀測性。

AI 讓我變快很多。

這句話你大概說過，或聽過很多次。但它其實跟「我們的系統很穩定」一樣，是一句沒有 Metric 支撐的感受。你沒有 Before，也沒有 After，你只有一個模糊的印象：事情好像比較順了。

問題不在於 AI 有沒有用。問題在於我們從來沒有認真問過這個問題。

我們對系統的可觀測性有一套很成熟的直覺：沒有資料就不做決定，感覺不可靠，量測才算數。但這套直覺在面對自己的工作方式時，奇怪地完全失效了。

我們相信「感覺變快」，因為相信它的成本很低——又不會怎樣。但這正是盲點所在：當你沒有量測，你也無法發現那四十分鐘其實是在走冤枉路。你只記得那種「有在推進」的感覺。

所謂 AI 協作可觀測性，不是記錄你一天打開了幾次 ChatGPT，也不是把每一段 Prompt 都存起來。

它比較像是在回答三個問題：

如果這三個問題你都回答不出來，那麼你對 AI 的使用，其實和沒有監控的系統一樣。

你只能憑感覺相信它運作正常。

所以我想留一個問題給你：

你替你的 CI Pipeline 設了 Alert。你知道每次 Deploy 的平均時間，知道哪支測試最常 Flaky，知道 P95 在哪裡開始讓人不舒服。

那你有沒有替自己設過任何一個指標，來判斷今天的 AI 協作是值得的？

如果沒有，你其實不知道答案。你只是覺得有。