V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In

独立开发者节点

愿每一位独立开发者都能保持初心,获得一个好的结果.

andforce

几小时的编程长任务到底是怎么做到的?

  •  
  •   andforce · 14h 9m ago via iPhone · 5455 views
    经常在别的地方看到,AI 连续变成几小时。
    拿 cc 举例子,具体咋做到的呢
    Supplement 1  ·  12h 6m ago
    感谢兄弟们的回复,目前看到正确的方法是:
    详细的任务拆解,是必要条件
    42 replies    2026-04-28 19:09:50 +08:00
    cortexm3
        1
    cortexm3  
       14h 3m ago
    给权限,比如 yolo 模式,加上支持自动任务的框架,比如 ralph 。
    其实你让 AI 给你写个自动运行的工作流也一样。
    0x5c0f
        2
    0x5c0f  
       13h 32m ago
    这个我之前也想了一下,应该是要加入记忆插件吧,或者类似记忆的能力, 比如要求先写计划书、每次功能编写都进行 git 归档,然后隔一段时间就让他自己 git log 看看完成任务,同步标记计划书,这个很多 ai 编辑器工具应该都具备,比如 kiro 的 plan 模式
    tutulyy
        3
    tutulyy  
       13h 26m ago   ❤️ 1
    插个眼,
    中间状态飘了,最后产出根本没法收敛回来。
    XuDongJianSama
        4
    XuDongJianSama  
       13h 17m ago
    三个方案
    1:claude.md 或 memory 文件里写任务,直接让他干,等自动压缩能续上
    2:主 agent 只调度,串行启动子 agent 干活
    3:脚本循环启动

    我用的 glm 搭配 cc ,1 很不稳,上下文大了容易坏。2 能干挺久挺稳。3 能无限干,实测好几天,还加了多角色切换
    mengyaoren
        5
    mengyaoren  
       13h 17m ago
    oh-my-claudecode 的 ralph 可以执行长任务
    june4
        6
    june4  
       13h 14m ago   ❤️ 1
    andlp
        7
    andlp  
       13h 11m ago   ❤️ 1
    昨晚执行了一个 2h30m 左右的任务,就是一个 flutter 项目 clone 下来之后,让他成功运行并 build apk 和 ipa 出来,提示词就说一直做出 apk 为止,中途不要询问,不要停止,不要等待
    benjaminliangcom
        8
    benjaminliangcom  
       13h 3m ago
    前两天试用 gsd-pi ,前期对好需求就可以进入 auto mode 了
    tanrenye
        9
    tanrenye  
       12h 57m ago   ❤️ 4
    你只要减少代码洁癖就可以做到
    alfa
        10
    alfa  
       12h 55m ago
    插个眼,现在跑了 16 分钟,看看最后跑完需要多久。
    byteLoading
        11
    byteLoading  
       12h 38m ago
    https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

    claude 之前有过一篇 blog 讲这个问题,大概的思路是:
    1. 拆分任务
    2. 搞个记忆机制,维护任务状态
    3. 结合各种钩子,更新任务状态 + 选择下一个任务

    可以使用这个思路去构建自己的工作流,不过任务拆分的粒度不够 + 模型不够强的话跑偏了的话,可能就是会浪费你大量的 token 又达不到预期的效果,所以就需要把任务拆分的足够小 + 搭配充分的验证任务完成的机制,这一步对人的经验要求还是比较高的。
    shinelamla
        12
    shinelamla  
       12h 27m ago
    插个眼,感觉这种也是有边界的,是不是多数适合从 0-1 做一个新项目?
    whatcall
        13
    whatcall  
       12h 26m ago
    试试 devin.ai
    注册送 20~50USD , 我随便拉个个开源项目,制定好任务步骤目标,让它跑个重构升级,它能一直跑很久,送的 50USD 很快就用完了。
    wat4me
        14
    wat4me  
       12h 25m ago
    momocraft
        15
    momocraft  
       12h 23m ago   ❤️ 1
    为什么要用时间当指标呢?好像时间短了别人会觉得你无能一样

    让 AI 做事和让人做事,评价应该是差不多的
    把一个人捆在那几小时很简单,让他可持续地做对你有用的事才叫 管理
    xingchenxf
        16
    xingchenxf  
       12h 22m ago   ❤️ 1
    不要听别人胡扯,能做到的方式就两种
    1. 模型能力强, 我对比过 gpt5.5 啥都不做,只要告诉他一直做完,就真的一直做。而 gpt5.4 、sonnet4.6 就不行。
    2. 暴力流:比如 loop / hook / while(true){claude -p "xxx"}
    其他的基于 Prompt 的都是不靠谱的。 也就是说 claude.md 、skill 这些,都没用。
    keshawnvan
        17
    keshawnvan  
       12h 16m ago
    1.提前写好比较完善的方案,并且有对应 skill 去约束按照方案执行,比如使用 superpowers
    2.开启自动审查或者比较宽松的权限策略
    3.使用比较强的推理模型
    我测下来最多一次跑了七个小时,生成的代码还是比较可用的。
    andforce
        18
    andforce  
    OP
       12h 9m ago
    @momocraft #15 兄弟,你可以尝试这理解一下主题意思。

    你只看到了“时间”,难道有人会单纯为了让 AI 长时间瞎跑吗?

    那不是很明显个是想让 AI 长时间做最对自己有用的事么?
    litchinn
        19
    litchinn  
       12h 3m ago
    试试 gstack + get-shit-down
    IndexOutOfBounds
        20
    IndexOutOfBounds  
       11h 59m ago via Android
    @tanrenye 很真实,喜欢微操就不适合长时间跑
    momocraft
        21
    momocraft  
       11h 55m ago
    @andforce 你看你还是在把长时间当成目标。我的意思是 有用应该是唯一的目标,如果要再多一个目标就是节省人类时间

    我最成功节省自己时间的时候是这样:

    agent 在沙盒里跑,权限不管
    人和 agent 一起在充分知识下做计划,计划足够具体且可行
    执行的时候不容易偏,比如各 CLAUDE.md 里有足够具体信息,代码质量不差,agent 可以简单地自己跑测试
    andforce
        22
    andforce  
    OP
       11h 44m ago
    @momocraft #21 我看你是没有实际碰到具体使用场景,从而很难理解别人说的“长时间有用”。

    我给你举个例子吧,我现在的场景是:
    我白天在公司跟 AI 结对编程,这就不说了,就是提到的“人和 agent 一起在充分知识下做计划,计划足够具体且可行”,我跟 AI 确实在一起好几个小时。

    下班后我接了 2 个网站开发的活儿,有时候我还会自己开发开源项目,这些项目共同的特点就是:没有严格的苛刻的需求验收,大体上实现功能就行了。

    我想要在睡觉前,让 AI 把我这些活儿交给 AI 按照我需求一条一条干,我早上起来看一下。


    现在你明白使用场景了吗?

    “有用”怎么定义?在我这能给我完成活儿,挣到钱就好了,这就是对我有用的
    ntdll
        23
    ntdll  
       11h 28m ago
    其实拆了,也很难维持。我经常遇到 Claude 说

    我现在已经完成 xxxx ,下一步是 xxxx ,如果你愿意的话,我可以 xxxxx

    然后就停那了,明明它啥都知道,就是要你回个“继续”

    我也试过提示词里告诉他,直到完成之前,不要问我,也不用告诉我任何中间状态,但依旧出现:

    我已经完成了 xxxx ,下一步要做 xxxx ,用户的原话是:xxxx (就是我那一句让他不要停的提示词)

    然后停在那了,等我回复
    nicaiwss
        24
    nicaiwss  
       11h 20m ago via iPhone
    @ntdll 羞辱他不理解指令,告诉他 codex 要审核他的代码发现他居然没写完
    kulove
        25
    kulove  
       11h 14m ago via Android
    感觉是卖课做自媒体才这么搞 这么长时间无法控制结果和质量的 我这边最多让它完成一个小模块 然后大概半小时左右
    beimenjun
        26
    beimenjun  
    PRO
       11h 13m ago
    10 个小时的都有,cc 没有网络重试,就这么卡死了 10 个小时。

    其实我觉得不要盯着时间,而是盯着产出……
    maichael
        27
    maichael  
       11h 13m ago   ❤️ 1
    如果你「思考清楚了」整个计划,那么「几小时」的长编程几乎都是代码生成,当然正常是不用几个小时的。
    但是你是不可能提前「思考清楚了」,你正常只能想清楚大概,而且 LLM 生成代码也可能不出问题,不需要修正,所以包括「代码生成」、「 Cross-Agent Review 」、「路线修正」等等加起来耗几个小时是很正常的,当然,前提是你的机制(计划、loop 等)完善,才能一直跑不需要你介入。
    mengdu
        28
    mengdu  
       11h 8m ago
    dabinDev
        29
    dabinDev  
       11h 7m ago
    subagent 把
    任务规划 agent
    任务开发 agent
    任务测试 agent
    HomeZane
        30
    HomeZane  
       11h 7m ago
    用了上几个 skill 就行,比如 superpower
    不过让他写一个简单的 skill 就用了 4 个小时,让我对这个模式有点祛魅了
    还是要关注产出,关注产出,关注产出
    anyscript
        31
    anyscript  
       10h 56m ago
    github 上有一些开源的牛马框架 比如 https://github.com/kunchenguid/gnhf
    jackOff
        32
    jackOff  
       10h 44m ago
    1-讨论计划
    2-拆分计划和自验收标准
    3-给一台干净电脑的全部权限让它操作,允许他自我编译代码
    4-网络要极其好,网络波动或者断网,它就彻底断片了
    Liftman
        33
    Liftman  
       9h 42m ago
    hook
    adgfr32
        34
    adgfr32  
       9h 18m ago via Android
    死循环
    94
        35
    94  
       9h 9m ago
    长时间跑容易丢失专注力然后跑偏。所以一般都是拆任务,然后按照任务清单去跑,并且产生检查点方便回溯。及时人工介入纠正错误。
    要不然跑一两个小时发现牛头不对马嘴,花了时间又花钱了,拿不到结果不是炸了么。

    我都是在前期多轮对话写好 Plan (会用多个模型去挑刺),再启一个新的终端让他自己跑一整个开发计划。加上自测和小步提交,也完全不需要非常长的时间。
    如果只是小需求或者项目起步,需求清晰任务明确,时间长一点几十分钟就搞定了。

    但其实很多时候问题出在 Plan 不够细致,Agent 跑到一半或者整个任务跑完了才反应过来漏了一部分的细节…… 所以我觉得端板是在我这边。
    94
        36
    94  
       9h 4m ago
    时间长一点几十分钟就搞定了 => 时间长一点几十分也就搞定了。
    所以我觉得端板是在我这边 => 所以我觉得短板是在我这边。
    #35
    freak118
        37
    freak118  
       8h 56m ago
    @XuDongJianSama 方式 2 遇到同时修改同一个文件会有问题吗
    forbreak
        38
    forbreak  
       7h 30m ago
    我试过先写计划落地到 md 文件,然后告诉它按计划执行,直到计划完成在停止。 是可以一直做的,不加这句直到做完就不会一直跑。
    AOK123
        39
    AOK123  
       6h 29m ago
    session limit 顶不住啊,5 小时窗口 1 小时烧完
    teaguexiao
        40
    teaguexiao  
       4h 36m ago
    关键是任务拆解尽量细、每个子任务结果可验证,这样 context 不会被垃圾占满。我用 CC 时一般先让它出一份 plan.md 确认后再跑,单次任务不要跨得太大。
    cskeleton
        41
    cskeleton  
       4h 32m ago
    superpowers + 给权限。以及合适的任务。
    我之前让 opus 帮我写个整理密码的工具,结果它遇到坑了,去翻了 firefox 和 keepass 的源码,然后弄出来的解决办法,搞了好几个小时。这不连续工作就有了。
    Gilfoyle26
        42
    Gilfoyle26  
       3h 29m ago
    完全的黑箱,所有的权限都交出去,然后最后你能看到成果就行
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3127 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 92ms · UTC 14:39 · PVG 22:39 · LAX 07:39 · JFK 10:39
    ♥ Do have faith in what you're doing.