Back to Insights人工智慧與機器學習

2026 IDE 策略:如何在反重力環境中選擇您的 AI 模型

Mercury Technology Solutions2025年12月13日5 min read

重點摘要: 過去依賴單一 AI 模型的時代已經結束。在新的「反重力」IDE 環境中,您的效率取決於模型套利——根據任務的複雜性和模式在模型之間切換。我的當前技術堆疊?Claude Sonnet 4.5(思考)是日常的工作馬。Gemini 3 Pro是多模態專家。而當事情變得災難性時,Claude Opus 4.5是「緊急情況下打破玻璃」的專家。以下是層級的細分以及三個實際案例研究,說明如何應用它們。

我是 James,水星科技解決方案的 CEO。

最近我花了很多時間在反重力(新的 AI 原生 IDE)中。我的團隊經常問我:「我到底應該使用哪個模型?版本太多了。」

我請 ChatGPT-5.1-思考來驗證我的直覺與最新基準的對比,結果與我的日常工作流程完全一致。

如果我們純粹根據綜合編碼能力(架構、重構、除錯、上下文窗口)進行排名,2025 年末的層級如下:

  1. Claude Opus 4.5(思考)——架構師
  2. Claude Sonnet 4.5(思考) / Gemini 3 Pro(高)——高級工程師
  3. Claude Sonnet 4.5 / Gemini 3 Pro(低)——快速迭代者
  4. GPT-OSS 120B(中)——開源備份

以下是何時使用什麼的策略細分,並附上三個具體使用案例。

名單:了解您的代理人

1. 重型火砲:Claude Opus 4.5(思考)

  • 角色: 首席工程師。
  • 基準: 在 SWE-bench 驗證中佔據主導地位(>80% 準確率)。在複雜推理上超越 Gemini 3 Pro 和 GPT-5.1 Codex。
  • 超能力: 深度推理步驟。它不僅僅是編寫代碼;它首先規劃架構。它在跨文件依賴性上產生的幻覺更少。
  • 缺點: 成本高且速度慢。
  • 使用時機:你被困住了。你需要重構一個核心的舊版模組。你需要在三個微服務之間調試競爭條件。

2. 每日駕駛者:Claude Sonnet 4.5(思考)

  • 角色: 高級開發者。
  • 基準: \~77-82% 在 SWE-bench 上。
  • 超能力: "主動型" 的甜蜜點。它在調用工具、閱讀多個檔案和修補錯誤方面表現出色。"思考" 變體增加了一層穩定性,使其在90%的任務中可靠。
  • 使用時機: 編寫功能骨架、標準重構,或將 PRD(產品需求文檔)轉換為初始代碼。這應該是你的預設設置。

3. 多模態專家:Gemini 3 Pro(高)

  • 角色: 前端/UI 專家。
  • 基準: 在 Terminal-Bench 和 WebDev Arena 上幾乎完美的分數。
  • 超能力: 它擁有巨大的上下文窗口和原生的多模態能力。它可以 "看" 你的 UI 截圖,並比 Claude 更好地修正 CSS。
  • 使用時機: 當你在構建網頁/應用介面時,需要根據錯誤的截圖進行調試,或在處理大量文檔(PDF)時。

4. 私有選項:GPT-OSS 120B

  • 角色: 本地實習生。
  • 基準: \~62% 在 SWE-bench 上。
  • 使用時機: 當你有嚴格的數據隱私要求禁止使用雲端 API,或你想測試開源工作流程時。否則,它是一個備用選擇。

策略案例研究:我們如何使用反重力

"一個模型適用於所有" 的方法已經過時。這是我們在實際場景中執行 模型套利 的方式。

案例研究 A:"氛圍編碼" 短跑(PRD 到原型)

場景: 我們需要建立一個新的內部儀表板來追蹤 GPU 使用情況。我們有一個粗略的文字描述(PRD)和一個白板草圖。

  • 步驟 1(架構): 切換到 Claude Opus 4.5。 粘貼 PRD。請它定義項目結構、數據庫架構和 API 端點。
  • 為什麼: Opus 在開始時犯的結構性錯誤較少。糟糕的基礎會毀掉項目。
  • 步驟 2(實施): 切換到 Claude Sonnet 4.5(思考)。 將步驟 1 的架構提供給它,並請它生成樣板代碼和基本函數。
  • 為什麼: Sonnet 更快且成本更低。它完美遵循 Opus 的藍圖。
  • 步驟 3(UI 美化): 切換到 Gemini 3 Pro(高)。 上傳白板草圖的照片和當前(醜陋)版本的截圖。請它:"使 CSS 與草圖匹配並修正 flexbox 對齊。"
  • 為什麼:Gemini 的視覺能力在視覺除錯方面優於其他工具。

案例研究 B:"舊有地獄" 重構

情境:一個三年前寫的關鍵 Python 服務正在崩潰。這段程式碼像意大利麵一樣混亂,沒有任何文件。

  • 行動:開啟Claude Opus 4.5 (思考)立即。
  • 提示:"分析這 15 個檔案。在資料轉換步驟中出現了記憶體洩漏。追蹤執行流程並提出一個保留邏輯但修復洩漏的重構建議。"
  • 為什麼:Sonnet 可能會提供一個快速的修補,但會破壞其他東西。Opus 具備 "推理深度",能夠在建議手術式修復之前,將這 15 個檔案的整個複雜心理模型保留在其 "腦海" 中。這額外的成本是值得的。

案例研究 C:"前端元件" 工廠

情境:我們需要根據 Figma 檔案為設計系統建立 50 個不同的 React 元件(按鈕、模態框、滑桿)。

  • 行動: Gemini 3 Pro (高階)Sonnet 4.5 (標準)為什麼:
  • 這些是孤立的、低複雜度的任務。在這裡使用 Opus 是在燒錢。使用 "思考" 模型是在浪費時間。標準的 Sonnet 或 Gemini 高階可以快速且高準確率地完成這些任務。結論:你的技術堆疊是你的槓桿

在反重力時代,你不僅僅是一名程式設計師;你是一位

模型協調者。我對 2026 年的預設配置:預設:

Claude Sonnet 4.5 (思考)

  • UI/視覺:Gemini 3 Pro (高階)
  • 危機/架構:Claude Opus 4.5 (思考)
  • 不要把 AI 模型當作一種信仰,只崇拜一個。把它們當作工具箱。你不會用大錘來掛畫框,也不會用螺絲起子來拆牆。水星科技解決方案:加速數位化。

Stop treating AI models like a religion where you only worship one. Treat them like a toolkit. You don't use a sledgehammer to hang a picture frame, and you don't use a screwdriver to demolish a wall.

Mercury Technology Solutions: Accelerate Digitality.

Originally published on MTS Blog & Research