為什麼 AI 可能可以成為一個受測者並完成易用性測試？

Jr. UX Researcher 又有一項技能會被取代了嗎？短期內不會，長期可能逐漸被 AI 模型能力替代。本文主要介紹我為什麼決定建造一個 AI 易用性測試 Agent，技術上怎麼做，討論這種產品的適用性，以及我的開發過程。

當前 AI 易用性測試 Agent 產品 POC 介面

AI 驅動的易用性測試架構

如果把易用性測試的一些執行條件 mapping 到 AI 時代下的一些功能/介面元素，大概會是這樣：

需要一個能記錄 AI 執行過程的方法 → 使用事件流、截圖來了解當下 AI 的操作，就很像我們在 Clarity/ Hotjar/ Amplitude 裡看使用者操作一樣
需要一個能讓 AI 放聲思考 (Think Aloud) 的方法 → 使用 Reasoning model，展示 Reasoning 過程
AI 完成任務的過程中，需要有人協助判定是否完成任務、怎麼協助、需要避免過度引導 AI 直接完成任務 → 優先支援 Human-in-the-loop（Jr. Researcher 不會失業！），但也提供 UX Researcher Agent 協助回覆、判定
AI 結束測試後，我們要能夠對其進行進一步訪談，了解過程中遇到問題的原因與背後的想法 → 透過聊天室發訊息對話，AI 能夠回憶過程每一個操作、畫面、思考，再針對問題進行回覆
AI 的行為和回覆需要足夠像人 → 近期的論文發現，透過 Prompt Engineering，我們可以引入如快思慢想的心智模型，對於問卷的回覆也能有 80% 像真人回覆
剩下一些像任務設計、資料分析等等，就是很常見的表單配置、圖表等

綜上所述，讓 AI 替代真人參與一個易用性測試，技術上完全可行、結果品質上也有研究背書，很可能可以替代掉 Pilot Research 甚至直接低成本篩出第一輪重大待改進的問題。

UXAgent: A System for Simulating Usability Testing of Web Design...

Usability testing is a fundamental research method that user experience (UX) researchers use to evaluate and iterate their new designs. But what about evaluating and iterating the usability...

arxiv.org

LLMs Reproduce Human Purchase Intent via Semantic Similarity...

Consumer research costs companies billions annually yet suffers from panel biases and limited scale. Large language models (LLMs) offer an alternative by simulating synthetic consumers, but...

arxiv.org

從已知工作流程構思 AI-native 的產品怎麼融入

讓 AI Agent 來執行易用性測試是我嘗試的第一個 AI for Research 產品。我想了很久要怎麼切入 Reseach 這一塊市場，決定從我日常使用的方式出發。我覺得我算是蠻仰賴 Agent 視覺能力的一個 AI 使用者，我會讓 Agent：

幫我瀏覽網站，透過視覺能力搜集與分析網站設計模式
使用 DevTool，檢查網站程式哪裡有問題
操作 Zapier、n8n 等需要學習部分程式邏輯來完成配置的產品

事實上，當我第一次拿到 ChatGPT Agent 的使用權限後，我讓他做的第一件事就是讓他開發 Jodoo (一個 No/Low-Code 平台) 的 Plugin。

Jodoo 並不是一個非常知名的產品，AI 絕對都是透過分析介面和閱讀文件來理解什麼是 Jodoo，還要學習什麼是 Plugin、開發 Plugin 的介面如何操作、用什麼語法、理解需求並開發、最後測試真的能在 Jodoo 中使用 Plugin。

這些拆解任務完成步驟、過程嘗試理解 Agent 發生什麼問題、搭配引導 Agent 怎麼繼續完成任務的行為，太像是易用性測試了。

剛好前幾天在社群上看到有人在問有沒有人在用 AI 幫助 UX 研究，於是就決定不如來做一下這個產品吧！沒想到兩三天就能做出一個看上去有模有樣的 POC。

對我來說使用多模態、大量與真實世界互動的 Agent 才是發揮其能力邊界的用法。客觀而言 Agent 一定還有很多改進空間，但是做出這個 POC 的當下，我真的覺得我們真的離 Agent = 真人的時代不遠了。

AI Browser Use Agent 怎麼做？

基本上當前主流已經認可的 Agent 行為模式就是 ReAct 模式，亦即 Reasoning 與 Action。

要能夠 Reasoning，Agent 需要具備短期記憶、長期記憶來了解任務的脈絡/上下文（Context）和確保長時間執行後不會遺忘目標。並且在做出行動後，Agent 要能夠了解自己執行的結果品質，如果有所偏差則需要有辦法修正。

而要採取行動，Agent 也需要具備調用工具的能力。在這個基礎架構之上，要能夠與「網頁」互動，除了需要多模態的模型來「查看」網站以外，過程中其實主要用到兩個工具：

Browser Use：解析 DOM 為語意標籤、與網站互動
Playwright：提供截圖、可執行的行動選項

開發工具選用 Lovable 這個之前已經幫我做出另一款 SaaS 的 Vibe Coding 平台。複雜的地方在於需要開一個模擬瀏覽器，Lovable 不支援開發這樣的功能，需要額外部署相關功能到 AWS 上。

於是我也首次使用了 Zeabur 這個伺服器部署服務，並且終於理解為什麼大家都在推薦。

之前曾經跟朋友一起做 Side project 就是選擇用 AWS，沒想到即使團隊裡面有 Amazon 的工程師，在釐清怎麼部署甚至專案結束要關掉伺服器時都花了一段時間。

然而如果是在 Zeabur 上，整個速度快到反應不過來：

選擇要部署到哪個伺服器
選擇要部署的 GitHub Repo （從 Lovable sync 過去的）
配置一些必要的環境變數
部署好了…

當然一定少不了 Debug，但 Log 都很完整，一樣丟給 Lovable 解就可以。

怎麼讓 AI Browser Use Agent 的行為與思考像人？

簡單來說：Prompt Engineering + Context Engineering + 一點「不完美」。

模擬/合成使用者（Synthetic Users）

在市場上，大部分的 AI for UX/CX 產品（Synthetic Users、Snap、Uxia）都會涉及一個最核心的概念：模擬/合成使用者（Synthetic Users）。透過 AI 生成擬真的用戶背景作為人物誌（Persona），並使用該 Persona 執行研究任務，如填寫問卷、操作產品、甚至進一步彼此互動等。

Can AI language models replace human participants?

Recent work suggests that language models such as GPT can make human-like judgments across a number of domains. We explore whether and when language models might replace human participants in psychological science. We review nascent research, provide a theoretical model, and outline caveats of using AI as a participant.

doi.org

Can AI language models replace human participants?

實務上，創造模擬使用者就是透過提示詞工程（Prompt Engineering）的方式來確保 Agent 能模擬並真實反映用戶的背景、目標、習慣、需求、痛點等等。平台可以在同一個方向上透過 AI 高效生成無數個類似的「人」並將其歸類成同個 Persona，讓每個「人」去完成任務並得出研究結果。

上下文工程（Context Engineering）

然而單靠 Prompt Engineering 並不夠。還需要搭配 Context Engineering。

粗略來說，Context Engineering 是為了解決模型 Context Window 不足，導致記憶丟失或效能下降的問題。

Context Engineering 怎麼做？公開文章中能找到最具參考性的文章，應該是 Anthropic 和 Manus 今年發布的經驗總結。Anthropic 的文章總結了常見的上下文工程要考慮的一些模組。例如：

實施壓縮以維持連貫性： 壓縮（Compaction）是將接近情境窗口限制的對話內容總結，並用該摘要重新啟動一個新的情境窗口。
透過結構化筆記提供持久記憶： 結構化筆記（或稱代理記憶）是一種策略，代理定期將筆記寫入情境窗口之外的持久記憶中，並在之後的運行中將這些筆記拉回情境窗口。
使用子代理（Sub-agent）架構進行專業化分工： 多代理架構讓專業化的子代理處理重點任務，每個子代理使用乾淨的情境窗口，並只向主要代理返回濃縮的摘要。

Effective context engineering for AI agents

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

www.anthropic.com

Effective context engineering for AI agents

在常規的上下文工程框架中，Manus 提出了更多創新的解決方案來幫助長時間任務結果品質提升，同時又能夠降低成本。

Context Engineering for AI Agents: Lessons from Building Manus

This post shares the local optima Manus arrived at through our own "SGD". If you're building your own AI agent, we hope these principles help you converge faster.

manus.im

Context Engineering for AI Agents: Lessons from Building Manus

然而這些文章的內容都更偏向技術性的創新。

人類在做出行為的時候，短期記憶與長期記憶是影響行為決策的關鍵因素，這在 Context Engineering 中確實會被考慮，然而如果僅遵循任務解決導向的架構，很難模仿人類大腦複雜的運作模式。

透過分析 UXAgent 這篇論文開源的 Repo，他們的記憶模組是目前看下來相對完整有考慮如何讓 Agent 行為能更貼近人類的架構。

GitHub - neuhai/UXAgent

Contribute to neuhai/UXAgent development by creating an account on GitHub.

github.com

長期記憶

反思 - 定期了解歷史已發生的情況，判斷該做什麼事會更有效，作為未來所有行動的參考
走神 - 人類在執行任務時，其實也很常會忘記當下要做什麼，或者突然想到其他事情
下一步行為的優先序 - 人類會知道過往哪些行動已經做過但沒發生效果，在後面的行動中就不太會再考慮這個選項，因此在 Agent 的記憶裡，我們也可以針對這類結果降低權重，鼓勵 Agent 探索新的行動選項

短期記憶

感知 - 觀察當前限制的可視區域（Viewport），將理解儲存下來
規劃 - 為當下要完成的任務做步驟拆解
回饋 - 對比前一步驟與當前狀況，以及當前在原先規劃裡的進展

Agent 當前架構，尚未實作長期記憶與規劃能力

AI Browser Use Agent 當前的限制

雖然像 Synthetic Users 這種服務已經被許多公司採用，但是從 UX 研究員的觀點出發，模擬使用者在實務上依舊有許多限制。

生理和注意力限制

從前面介紹的技術架構可以知道，當前 AI Browser Use Agent 仍然仰賴對網站 DOM 與語意的解析來認識可以操作的選項，是先得知選項有哪些，再選擇怎麼操作，而不是如同人類一邊操作一邊選擇。

即使採用「純視覺」方案，即僅仰賴 OCR 或者視覺模型理解畫面，仍難以模仿人類在瀏覽網站時的真實行為。

Text Scanning Patterns: Eyetracking Evidence

Eyetracking research shows that there are 4 main patterns that people use to scan textual information on webpages: F-pattern, spotted pattern, layer-cake pattern, and commitment pattern.

www.nngroup.com

Text Scanning Patterns: Eyetracking Evidence

在這樣的情況下，一些常見的設計衝突如「按鈕很大、顏色很明顯，但使用者卻在瀏覽時容易忽略」的情況，就很難在 AI 瀏覽網站時發生。

在 BrowserAgent 這篇論文中，可以看到也有人在嘗試處理這種問題，例如讓 Agent 先「瀏覽」網頁的「大區塊」，判斷哪邊可能有自己需要閱讀/互動的內容，然後再進入「細讀」具體的元件。但依舊沒辦法完整複製實際行為。

BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions

Efficiently solving real-world problems with LLMs increasingly hinges on their ability to interact with dynamic web environments and autonomously acquire external information. While recent...

arxiv.org

模擬使用者的經驗與情緒較不具有「啟發性」

有曾經試用過類似產品的 UX Researcher 提到一個具體場景，是想要找競品的使用者來測試，藉以對比出兩款產品的不同體驗，然而使用模擬使用者時，就很難反映出一個角色使用競品時，在特定情境下的想法、行為、經驗。

在 Facebook 上使用者研究員對這類產品的討論｜查看原文

除了上面兩個限制以外，NN/g 也拿 Synthetic Users 與他們招募的真人受訪者對比雙方的回覆總結出更多問題，如：

人類行為的失真: LLM 有「討好傾向」與理想化回答，常把成效、完成率、參與度說得過高，無法反映真實的失敗、惰性、權衡與情境差異；在如 tree testing 等任務中甚至「超人般」表現，與一般使用者落差巨大
價值與需求過於扁平: 生成的痛點與需求清單冗長且缺乏優先級與深度，對「何者更重要、何時有效、為何有效/失效、如何做好/做壞」無法給出可操作細節，難以支持功能優先級與人物誌建立
想像經驗不可靠: 無法產生行為數據，也不能像真人那樣實際使用產品；對概念測試傾向給予籠統而正面的評價，易造成錯誤的驗證與投資決策風險
受訓練資料偏誤影響: 回答受網路與文獻的可得性與取樣偏誤左右，對小眾/專業族群的準確度低；即使「有益」的做法在文獻上被支持，真實人群仍可能不採用

他們認為，少數有用的 Use Case 就是桌面/次級/二手研究（Desk research），因為這與真人受訪者回答的內容幾乎一致。

Synthetic Users: If, When, and How to Use AI-Generated “Research”

Synthetic users are fake users generated by AI. While there may be a few use cases for them, user research needs real users.

www.nngroup.com

Synthetic Users: If, When, and How to Use AI-Generated “Research”

不只是提升完成效率，也要學會引入人類的不完美

易用性測試的本質，就是在藉由人的不完美來暴露設計問題，讓設計更符合人性，相比於事事追求完美的通用 AI Agent，設計一個易用性測試 Agent 更需要貼近人的思考與行為模式。在 Synthetic Users 已經開始被採用的當下，任何能在薄弱的 Prompt 之上疊加更多有「人感」的資料應當都是有價值的。當然，我們可以推想某一天模型能力足夠強了，任何人一個 Prompt 的設計都能完全沒有易用性問題。然而在那天到來之前，一個能夠幫助人更了解人的 AI 工具，還是值得關注。

本文首次發表於 2025/10/29，更新於 2025/11/02