常见问题

DevGhost 如何估算投入、Ghost% 意味着什么，以及如何负责任地使用它。

你们在监控开发者吗？这些小时数从何而来？+

不——没有工时记录，没有屏幕，没有击键。我们只分析代码改动本身，并以一位参照开发者的小时数估算其认知难度。它是一把标尺，而非一张工时表。

“以小时估算”是什么意思？+

指这项改动需要一位熟悉代码库、不借助 AI 的中级开发者（3–4 年）花多久。它衡量的是工作的难度——不是行数，也不是在桌前实际花的时间。它涵盖写代码、手动测试和评审修复；不包括会议、规划和等待评审。

你们究竟如何估算投入？+

这不是“调用一次神经网络”，而是一条多阶段流水线，其中 AI 只是一层。首先一个模型读取代码改动本身——实际改了什么——并判断它对一位参照开发者的认知难度，而不是数行数或提交数。在此之上运行一个确定性的算法层：系统对每个改动的性质进行分类，单独识别高风险工作（例如基础设施、数据迁移、安全），过滤掉机械性和生成的改动（大规模查找替换、生成与移动的代码、格式化），并应用成套的修正规则和护栏，使单次模型猜测无法左右结果。大型和组合提交会被更细致地处理。同一套标准被自动地应用于每个人，每个提交只被评估一次且结果固定——由此带来可比性和可复现性。

这套方法论建立在哪些经验和数据之上？+

它脱胎于真实的企业开发：算法层编码了在真实项目上采集的经验性模式——哪些改动通常比看上去更费力，哪些尽管体量大却很廉价。这些规则会与真实的参照估算进行核对（校准）。因此系统的行为更像一位评估工作的资深技术负责人，而非一个简单的行数计数器。

我的团队用 AI。这会让指标失效吗？+

恰恰相反——这正是关键所在。我们把你的团队与一位不借助 AI 的参照开发者进行比较；如果 AI 让你每天交付更多，Ghost% 就会上升，而与“AI 之前基准”的这个差距正是产品所展示的。这不是失真——这就是结果。

什么是 Ghost%，我该如何解读它？+

你的每日产出与参照开发者产出之比。100% 表示与参照持平，更高意味着你每天交付更多，更低意味着更少。它不是小时数，也不是加班：高数字不代表“在燃尽”，低数字本身也不代表“能力弱”。

我能在多大程度上相信它？+

它是一个模型，而非一次测量。没有人能还原真实的时间，所以它的价值在于对所有人使用同一套规则：在趋势和比较上很强，但对单个人精确到小时则不然。它是一个用来提出更好问题的工具，而非用来下定论。

这个指标能被钻空子吗——靠拆分或合并提交？+

拆分和合并提交不会对它产生有意义的影响——被评估的是改动的实质和难度，而非提交或行数。更重要的是：任何被直接用来考核人的指标，最终都会被优化，而不是工作本身。所以请把它当作团队信号和趋势，而非个人 KPI——这样就没什么可钻空子的了。

某个人的数字与我的印象不符。为什么？+

系统看到的是代码，而非整个角色：设计、评审、辅导、规划和会议都不在估算之内。出现差异往往意味着一个人的大部分价值存在于提交之外——这本身就值得注意。

系统会考虑一个人并非只忙于写代码吗？+

它自身不会：它只看到代码，并不知道一个人真实的角色和工作量（评审、辅导、会议、支持）。只有管理者了解全部工作量。这正是 Share 参数的用途——一名员工实际花在写代码上的时间占比（0–100%）。默认为 100%（我们假设此人全身心投入代码）；管理者手动调低它以反映非编码工作——代码中不包含的上下文正是从这里进入系统。这样一来，对那些并非整天写代码的人，与参照的比较也变得公平。

我能把它用于绩效评估、薪酬或裁员吗？+

不能单独使用。它是一个团队信号和一种趋势，用来开启对话，而非对个人的定论：单一指标无法捕捉质量、影响或上下文。

用钱表示的“成本”和“价值”是什么意思？+

成本大致是已交付工作按标准费率的花费；价值大致是不借助 AI、靠人工重现同等体量所需的花费。两者之间的差距是杠杆（工具/AI）的近似指标，而非损益表。