我把 Claude、Codex、Copilot、Gemini 拼成了一个工作流，接力写代码

Duang2026-05-15 16:00:00AI 前沿AI Agent 工程实践

提示

现在主流的 AI coding agent 各有所长，Claude Code 的 plan、Codex 的 debug、Copilot CLI 的 GitHub 工作流、Gemini 的 UI 直觉，没一个是真正全能的。我做了一个叫 CodeMuxopen in new window 的客户端，让它们之间能互相接力——一个出方案，一个查 bug, 一个写代码，共享同一份上下文。

这两年 AI coding agent 出得快，社交平台上隔一阵就吵一波"哪个最强"。我自己倒没太纠结过这件事——打开终端会看到四个 agent 的窗口同时挂着：Claude Code、Codex、Copilot CLI, 还有跑在 OpenCode 里的 Gemini。一开始只是想都试试看哪个顺手，用着用着就再也合不回一个了。

一个不太被讨论的事实：现在主流的 AI coding agent, 没有一个是真正全能的。Claude Code 的 plan 拆解我用得最多，长上下文也耐受得住，但偶尔 debug 时会绕远路；同样的问题丢给 Codex 反而经常能挖到根因。Copilot CLI 的强项也不在模型，而在它对 GitHub 工作流的熟悉度——处理 issue 和 code review 自带一种肌肉记忆。Gemini 我用得没那么频繁，但出 UI 草图时常常给我一些惊喜。

各有各的擅长，也各有各的死角。与其逼一个 agent 把全部活都干了，不如让它们各自做最对味的事——这是过去几个月我用下来的核心体感。

我手头这几个 Agent, 各自管什么活

具体到工作流里，这几个 agent 在我这有相对固定的分工。

Claude Code 是我的主 agent,coding plan 和 codebase analysis 几乎都交给它。它的 harness 设计得很扎实，长上下文里追溯多个文件之间的关系不容易掉链子。我习惯让它先做架构层面的判断——"这个改动应该改哪几个模块、依赖关系会不会出问题、有没有更小的 patch 能达到同样目的", 这类问题它经常能给出比我自己想得更全面的答案。

真正棘手的 bug 我会丢给 Codex, 挂 GPT-5.5。 这是我后来摸出来的搭配。有些 bug 不是表面的 typo 或者 null check, 是工程师自己看了半天都觉得"这地方逻辑没毛病但就是不对"的那种——可能涉及多线程时序、可能是某个第三方库的隐式假设、可能是状态机里被忽略的边界 case。Codex 在这类问题上的"思考深度"我感受得很明显，它愿意去挖根因而不是给一个"试试这样改"的快修。

Copilot CLI 是我处理 GitHub 相关任务的首选。 这一点不太被讨论，但我猜它训练数据里塞了大量真实开源项目的 issue / PR / review 历史——所以让它读 issue 找 root cause、起草 review comment、按 maintainer 的语气回复 contributor, 它做出来的东西比通用模型自然得多。同样一份 PR diff,Claude Code 的 review 是"这里逻辑可以改成 X",Copilot CLI 给出来的会带"我们 repo 里另一处类似的实现是 Y, 要不要保持一致"——这种 codebase 内部一致性的视角，挺加分的。

Gemini 我主要用在 UI/UX 设计上, 挂在 OpenCode 里跑。3.1 推出之后我做前端原型时偶尔会试一下，它对视觉层级、信息密度的直觉确实和写代码的模型不太一样。

把这几个组合起来用，月度 token 用量在 billion 量级。原因不是我故意烧，是好用之后回不去单引擎模式了——同样的需求，正确的 agent 一次就能给出能用的结果，错的 agent 来回拉扯几轮反而更贵。

CodeMux 侧边栏

真正卡人的不是模型，是切换

但同时挂着四个 agent 用，会很快撞到一个问题：它们之间什么都不共享。

最典型的场景是这样的：Claude Code 帮我把一个新 feature 的方案想清楚了，plan 写得很完整，接下来就该动手了。这时候按我的工作流应该切到 Codex 或者别的 agent 去执行——但 plan 是 Claude 自己 session 里的产物，Codex 看不见。我得手动复制 plan、贴到 Codex 的输入框里、再补一段背景"我在做 X 项目，目前的代码结构大概是 Y, 你按这个 plan 帮我实现"。每次切换 agent 都来一遍，每次都要重新讲一遍上下文。

更烦的是 debug 场景。Claude 跑了半天没找到根因，我想换 Codex 试试——但 Codex 没有"刚才尝试过哪些假设、排除了什么"的记忆，我要么自己总结一遍，要么让 Codex 从头开始走一次相同的探索路径，白白烧 token。

问题不在模型本身，在工具链没有为"多 agent 协作"设计过。 现在的 coding agent 客户端基本都假设你只用一个 agent—— Cursor 锁 Claude，Codex 锁自家模型，各家原生 CLI 又各自为政。想跨 agent 接力，只能靠人肉做 context broker。

我也不是没考虑过让一个 agent 包打天下——但前面说过了，真正逼我多 agent 切换的不是好奇心，是每个 agent 的 harness 和模型都有自己的脾气，硬塞同一个干所有活，效率反而更低。再说一个现实问题：好模型的 token 收费很高。 顶配模型用来做 90% 的常规任务是浪费，只在它真正擅长的环节用，能省下来的成本远超工具切换的麻烦。

所以问题就变成了：能不能有个东西，把"哪个 agent 做什么"和"它们之间怎么共享上下文"这两件事接管下来，我只管定义任务？ CodeMuxopen in new window 是我对这个问题做的回答。

把"用谁"和"做什么"拆开

CodeMux 的核心抽象其实很简单——它把角色 (role) 和引擎 (engine) 拆成了两个独立维度。

平时我们说"我用 Claude Code 做 plan", 这句话里其实捆了两件事：角色是"做 plan 的那个人", 引擎是"Claude Code"。但这两件事不应该耦合——做 plan 的角色今天可以是 Claude, 明天可以是 Codex, 后天 Gemini 出新版了也可以挂上去试试。

CodeMux 里有 5 个预定义角色：explorer（探索 codebase)、researcher（查资料）、reviewer（审查产出）、designer（出设计）、coder（写代码）。每个角色独立挂载一个引擎——同一个 explorer 角色，可以挂 Claude 也可以挂 Codex, 看你当前任务更需要哪种风格。

角色与引擎的解耦

这种解耦带来的直接好处是搭配自由。我自己常用的一套配置是：

explorer 挂 Claude Code, 负责吃透项目结构、给主 agent 喂 context
coder 挂 Codex, 因为它写代码时对 plan 的执行度最稳
reviewer 也挂 Codex, 跨视角看代码更容易发现问题
designer 挂 OpenCode + Gemini, 出 UI 部分

但你完全可以反过来——让 Codex 做 explorer 因为它读代码细致，让 Claude 做 reviewer 因为它表达更结构化。配置存在 settings 里，跨任务复用，不用每次重新搭。

权限也是按角色分的。explorer 和 reviewer 默认 readonly——它们只该读，不该改。这不是靠 prompt 约束的，是 CodeMux 在调起子 agent 时直接通过 CLI 参数把 write 权限关掉。如果一条规则重要，就别交给 LLM 去自觉遵守。

为什么是 DAG, 不是一个长 prompt

光有角色还不够，真正让多 agent 协作跑起来的，是任务编排那一层。

最朴素的做法是这样：把整个需求扔给一个"主 agent", 让它自己决定先做什么后做什么、什么时候调谁。这种做法在 demo 里看着很厉害，实际跑起来问题很多——agent 容易在长流程里失焦、回头改前面已经做完的事、或者干脆陷入"再分析一轮看看"的死循环。

CodeMux 选了另一条路：主 agent 只做一次拆解，把任务拆成一张 DAG, 后续调度由系统接管。

DAG 调度时序

具体流程是这样：用户给一个 prompt, 主 agent 收到之后做的第一件事是 decomposeTask——它输出一个 JSON 数组，每一项是一个子任务，带 description、role（谁来做）、dependsOn（依赖哪些子任务）。这一步主 agent 必须先把整体上下文吃透，因为它需要判断"什么任务可以并行、什么必须串行、谁的输出是谁的输入"。

为什么是 DAG 不是一个长 prompt? 因为依赖关系本身就是图结构。 把它显式化，有几个直接的好处：第一，ready 状态的子任务可以并行 dispatch。系统每轮扫一遍所有 blocked 状态的子任务，把"依赖全部完成"的提到 pending 然后丢进执行队列。Claude 在做模块 A 的同时，Codex 可以同时做不依赖 A 的模块 B, 而不是傻傻地等。

第二，主 agent 不用记住整个流程的状态。每个子任务跑完之后，把 result summary 写回 DAG, 系统拿这些 summary 去满足下一批子任务的依赖输入——主 agent 只需要在最后做一次 aggregate, 根本不需要在中途维护一个超长的"我做到哪一步了"的心智状态。

第三，子任务可以跑在隔离的 git worktree 里。CodeMux 自动给每次编排开一个 worktree, 每个 coder 子任务在独立目录里改文件，跑完之后再统一合并回主分支。这样并行的 coder 之间不会互相覆盖，主仓库也不会在编排过程中被半成品代码污染。

运行中的 orchestration 任务

我承认这套机制不是没有局限——拆解质量高度依赖主 agent 的能力，主 agent 拆错了后面就全跑偏。所以我习惯在主 agent 拆完之后会有一个 confirming 状态，让我自己过一遍 subtask 列表，改掉不合理的拆分再 dispatch。这一步在自动化和可控性之间找了个平衡——纯人工太累，纯自动信不过。

单 Agent 用着也省心

写到这可能有人觉得 CodeMux 是个重型编排工具，只有跑大任务才划算。其实不是——它日常作为单 agent 客户端用也挺顺手的, 这部分我反而花了更多精力打磨。

最实在的一点是多引擎共存于同一个窗口。我不需要在四个 terminal 之间 alt-tab,sidebar 里就能看到 Claude / Codex / Copilot / Gemini 各自的 session 列表，点一下就切过去。每个 engine 的 session 历史独立保存，切回来还在原地。

第二是完整的思维链可见。Claude Code 的 reasoning、tool call 的 input/output、plan 模式下的步骤树、permission 请求的上下文——这些底层 CLI 通常折叠掉或者只显示一行的内容，在 CodeMux 里都展开成可读的格式。我经常在 agent 走错的时候靠这层可见性回溯哪一步开始判断错了，这件事在原生 CLI 里几乎做不到。

子任务展开后的完整思考链

第三是跨设备访问。CodeMux 内置了 Cloudflare Tunnel 支持，你可以让在家里的 Mac 跑 agent, 在外面用手机或 iPad 直接访问同一个 session 继续对话。出门坐地铁时，我经常用手机看 agent 跑长任务的进度、回复 permission 请求、或者发个新指令。这个能力对"我希望让 agent 在我不在的时候自己跑"的场景特别重要。

第四是外部消息渠道。CodeMux 支持把 agent 接到飞书 / Telegram / Teams 这些 IM 上——agent 完成长任务之后会主动通知你，你也可以在 IM 里直接给它发新指令。我把它当成一种"低成本远程工位", 不需要随时盯着窗口。

现在跑成什么样

需要先做个区分。单 agent 那部分用着已经相当完善了——多引擎共存、完整思维链可见、permission 请求、skill 调用，全部跟着各家原生 CLI 走，没有阉割也没有再包一层。装上 CodeMux 之后，我日常大部分时间都跑在这一层，再也不需要为了换 agent 而在四个只支持单一引擎的客户端之间来回切换。这部分体验我打磨了挺久，可以稳定接管日常 coding。

orchestration 是另一回事——多 agent DAG 编排是最近才构思出来的架构，还比较粗糙。它能跑，我自己每天也会用，但跑得顺的场景目前比较窄。

跑得比较好的场景是有清晰边界的中等复杂度任务。比如"把这个组件的状态管理从 Context 迁移到 Zustand, 顺便补上单元测试", 这种任务拆成 3-5 个子任务、有明确依赖、最后能合并验证，DAG 调度的优势能体现出来。我最近一周用 CodeMux 做的事大概就在这个尺度——一个引擎适配器的重构、一次跨语言的字符串国际化、几个 bug 的定位和修复。

跑得不太好的场景集中在 orchestration 这一层： 任务边界模糊的探索性需求。"帮我看看这个项目能不能加个 X 功能"这种问题，主 agent 拆出来的子任务质量经常飘忽——有时候拆得过细，有时候漏掉关键步骤。这类需求我现在还是直接用单 engine 模式手动迭代，等有了清晰方向再切到编排模式。

跨 agent 风格融合。 不同 agent 写代码的风格差异不小——同一个 codebase 里 Claude 写的部分和 Codex 写的部分，过几周回头看能一眼分辨。这件事 reviewer 角色可以缓解一些，但没彻底解决。

编排嵌套。 现在子任务之间不能再开新的编排，一层 DAG 就是一层。我有几个场景想要"子任务自己再 fan out 出一组并行任务", 但暂时只能在 prompt 里手动展开，这个之后想做。

总的来说，CodeMux 不是一个"装上就能让 AI 替你写代码"的工具——它更像是一个让你能更精细地组织 AI 工作流的客户端, 前提是你已经知道自己想要什么，知道哪个 agent 擅长什么。

结语

最近一直在想一个类比——之前写代码，程序员要自己装编辑器、配各种语言扩展、串好编译器和调试器、维护自己的快捷键集合。那个年代的"开发体验"很大程度上是手动凑出来的，每个人的工位都长得不一样。后来 IDE 厂商把这些抽象成了"扩展商店"和默认配置，大多数人就不再为基础设施操心了。

agent 时代的我们，正处在那个"手动凑"的阶段。每个开发者在自己机器上手动协调几个 agent CLI、手动复制 plan、手动管理 context、手动决定什么时候用谁。CodeMux 是我个人的一次尝试，看能不能把这件事抽象成一个客户端——但我并不觉得它就是终态。终态应该是更自然的：也许 agent 之间通过某种标准协议直接互通，也许操作系统级别会出现一个 agent runtime, 也许我们今天讨论的这些角色 / 编排概念，最后会被一个完全不同的范式取代。

但在那之前，我们这些每天和多个 agent 打交道的开发者，还是得有个东西把它们组织起来。如果你也在为"切换 agent 时丢上下文"、"想用最对味的 agent 干每件事但操作成本太高"这类问题烦恼，可以来 github.com/realDuang/codemuxopen in new window 看看这个项目——开源、跨平台、windows/mac/linux全平台支持，欢迎尝鲜。

agent 不会替我们思考。能做的只是把当下的工具组织得更顺手一点，让我们多省下一点心智去想真正值得想的问题。

NickName

E-Mail

Website

Comments

Latest
Oldest
Hottest