常见问题
DevGhost 如何估算投入、Ghost% 意味着什么,以及如何负责任地使用它。
你们在监控开发者吗?这些小时数从何而来?+
不——没有工时记录,没有屏幕,没有击键。我们只分析代码改动本身,并以一位参照开发者的小时数估算其认知难度。它是一把标尺,而非一张工时表。
“以小时估算”是什么意思?+
指这项改动需要一位熟悉代码库、不借助 AI 的中级开发者(3–4 年)花多久。它衡量的是工作的难度——不是行数,也不是在桌前实际花的时间。它涵盖写代码、手动测试和评审修复;不包括会议、规划和等待评审。
你们究竟如何估算投入?+
这不是“调用一次神经网络”,而是一条多阶段流水线,其中 AI 只是一层。首先一个模型读取代码改动本身——实际改了什么——并判断它对一位参照开发者的认知难度,而不是数行数或提交数。在此之上运行一个确定性的算法层:系统对每个改动的性质进行分类,单独识别高风险工作(例如基础设施、数据迁移、安全),过滤掉机械性和生成的改动(大规模查找替换、生成与移动的代码、格式化),并应用成套的修正规则和护栏,使单次模型猜测无法左右结果。大型和组合提交会被更细致地处理。同一套标准被自动地应用于每个人,每个提交只被评估一次且结果固定——由此带来可比性和可复现性。
这套方法论建立在哪些经验和数据之上?+
它脱胎于真实的企业开发:算法层编码了在真实项目上采集的经验性模式——哪些改动通常比看上去更费力,哪些尽管体量大却很廉价。这些规则会与真实的参照估算进行核对(校准)。因此系统的行为更像一位评估工作的资深技术负责人,而非一个简单的行数计数器。
我的团队用 AI。这会让指标失效吗?+
恰恰相反——这正是关键所在。我们把你的团队与一位不借助 AI 的参照开发者进行比较;如果 AI 让你每天交付更多,Ghost% 就会上升,而与“AI 之前基准”的这个差距正是产品所展示的。这不是失真——这就是结果。
什么是 Ghost%,我该如何解读它?+
你的每日产出与参照开发者产出之比。100% 表示与参照持平,更高意味着你每天交付更多,更低意味着更少。它不是小时数,也不是加班:高数字不代表“在燃尽”,低数字本身也不代表“能力弱”。
我能在多大程度上相信它?+
它是一个模型,而非一次测量。没有人能还原真实的时间,所以它的价值在于对所有人使用同一套规则:在趋势和比较上很强,但对单个人精确到小时则不然。它是一个用来提出更好问题的工具,而非用来下定论。
这个指标能被钻空子吗——靠拆分或合并提交?+
拆分和合并提交不会对它产生有意义的影响——被评估的是改动的实质和难度,而非提交或行数。更重要的是:任何被直接用来考核人的指标,最终都会被优化,而不是工作本身。所以请把它当作团队信号和趋势,而非个人 KPI——这样就没什么可钻空子的了。
某个人的数字与我的印象不符。为什么?+
系统看到的是代码,而非整个角色:设计、评审、辅导、规划和会议都不在估算之内。出现差异往往意味着一个人的大部分价值存在于提交之外——这本身就值得注意。
系统会考虑一个人并非只忙于写代码吗?+
它自身不会:它只看到代码,并不知道一个人真实的角色和工作量(评审、辅导、会议、支持)。只有管理者了解全部工作量。这正是 Share 参数的用途——一名员工实际花在写代码上的时间占比(0–100%)。默认为 100%(我们假设此人全身心投入代码);管理者手动调低它以反映非编码工作——代码中不包含的上下文正是从这里进入系统。这样一来,对那些并非整天写代码的人,与参照的比较也变得公平。
我能把它用于绩效评估、薪酬或裁员吗?+
不能单独使用。它是一个团队信号和一种趋势,用来开启对话,而非对个人的定论:单一指标无法捕捉质量、影响或上下文。
用钱表示的“成本”和“价值”是什么意思?+
成本大致是已交付工作按标准费率的花费;价值大致是不借助 AI、靠人工重现同等体量所需的花费。两者之间的差距是杠杆(工具/AI)的近似指标,而非损益表。

