Wie DevGhost den Aufwand schätzt

Zuletzt aktualisiert 6. Juni 2026

DevGhost schätzt den kognitiven Aufwand hinter Code-Änderungen — wie schwierig die Arbeit war, nicht wie viele Zeilen sich geändert haben oder wie lange jemand an der Tastatur saß. Die Schätzung wird in den Stunden ausgedrückt, die ein Entwickler mittlerer Erfahrung (3–4 Jahre), der die Codebasis kennt und ohne KI arbeitet, benötigen würde: um Code zu schreiben, ihn manuell zu testen und Review-Korrekturen umzusetzen. Sie schließt Meetings, Planung und Wartezeiten auf Reviews bewusst aus.

Eine Pipeline, kein einzelner KI-Aufruf

Aufwand ist nicht das Ergebnis eines einzelnen Modellaufrufs. Zuerst liest ein Sprachmodell die tatsächliche Änderung — was hinzugefügt, entfernt und umstrukturiert wurde — und beurteilt ihre Schwierigkeit für den Referenz-Entwickler, statt Zeilen oder Commits zu zählen. Darauf aufbauend verhindert eine deterministische, regelbasierte Schicht, dass eine einzelne Modellschätzung das Ergebnis verzerrt.

Die deterministische Schicht

Die Regelschicht erledigt die Arbeit, die ein sorgfältiger Reviewer leisten würde:

Klassifiziert die Art jeder Änderung und erkennt risikoreiche Arbeit — Infrastruktur, Datenmigrationen, Sicherheit — gesondert.
Filtert mechanische und generierte Änderungen heraus: massenhaftes Suchen und Ersetzen, generierten oder verschobenen Code und Formatierung.
Wendet Sätze von Korrekturregeln und Schutzmechanismen an, sodass eine einzelne Modellschätzung das Ergebnis nicht verzerren kann.
Schlüsselt große und kombinierte Commits detaillierter auf, statt sie pauschal als eine einzige Änderung zu bewerten.

Aufwand über die Zeit verteilen

Der Aufwand eines einzelnen Commits wird über bis zu fünf Arbeitstage verteilt und auf fünf produktive Stunden pro Tag begrenzt, sodass ein großer Merge das Bild eines einzelnen Tages nicht verzerrt — und die Tageswerte, die in Ghost% einfließen, realistisch bleiben.

Konsistenz und Kalibrierung

Derselbe Maßstab wird automatisch auf alle angewendet. Jeder Commit wird einmal bewertet und das Ergebnis festgehalten; dadurch bleiben die Zahlen vergleichbar und reproduzierbar.

Die algorithmische Schicht bildet empirische Muster aus realer Enterprise-Entwicklung ab — welche Änderungen aufwendiger sind, als sie zunächst wirken, und welche trotz ihrer Größe wenig Aufwand verursachen — und diese Regeln werden gegen Referenzschätzungen geprüft. Das System verhält sich weniger wie ein Zeilenzähler und mehr wie ein erfahrener Tech Lead, der die Arbeit beurteilt.

Vom Aufwand zu Ghost%

Der Tagesaufwand wird anschließend mit der Ghost-Norm verglichen — drei produktive Stunden pro Arbeitstag — und daraus entsteht Ghost%: die Leistung des Teams relativ zu einer Baseline vor KI. Die Schätzungen sind probabilistisch und keine Messung einzelner Personen.

Was ist Ghost%? →