拿小米、deepseek、glm同时review gpt-5.5写的代码,小米的表现也太夸张了吧
冰原Bill
·
2026-04-30
·
via LINUX DO - 最新话题
这是gpt-5.5@xhigh一批8次提交写的爬虫-解析-落库流水线代码,流程和功能都不复杂。 因为各家模型的思考强度映射不一样,统一开了max effort。 小米耗时4分钟 全程在说对对对干得好,最后挑了点无关痛痒的代码风格小毛病。 DSV4耗时12分钟 找到了一些非关键问题。 GLM5.1耗时30分钟(和TPS慢也有关系) 主动调动了最多的subagents,找出了影响功能的关键问题。 最后是gpt基于这三份报告再自己review和打分,额外找到了一个关键问题(但是有了其他模型的既有工作,这里不能算gpt最强)。 报告 分数 评价 phase4_glm.md 80/100 最有价值。抓到了 CrossValidator 未接入,这是关键验收缺口。但把 evidence_grade() 枚举问题评成 Critical 偏重;compliance_rules.yaml 为空壳这个判断不成立,因为空/注释 YAML 会回落到默认规则。 phase4_deepseek.md 78/100 成本丢失判断准确,IntegrityError、fuzzy 性能等也有价值。但漏掉 CrossValidator 未接入,也漏掉 EntityMapper 状态被覆盖。部分项>偏风格或语义争议,比如 enqueue 后仍 pending 不一定是 bug。 phase4_mimo.md 48/100 覆盖了重复工具函数等风格问题,但“无严重代码实现错误”结论不成立。它漏掉 CrossValidator 未接入、实体映射状态覆盖、成本丢失,还把过宽 IntegrityError 捕获判断为合理。 review窗口 (点击了解更多详细信息) 2 个帖子 - 2 位参与者 阅读完整话题
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。