Je besser du schreibst, desto verdächtiger wirst du. Was KI-Detektoren wirklich messen.

Stufe 0: Der Mensch als Kontrolle

Zuerst der Maßstab. Ohne ihn ist jedes weitere Ergebnis wertlos.

Ich habe drei Passagen aus einem Buch von mir genommen, das 2022 erschienen ist, geschrieben zu einer Zeit, als es ChatGPT noch nicht gab. Kein KI-Verdacht möglich, die Autorschaft ist aktenkundig. Die Gebrüder-Wright-Passage, die Hammer-und-Nagel-Passage, die Pareto-Passage.

GPTZero erkennt alle drei als menschlich. Zweimal mit voller Sicherheit, „entirely human" zu 100 Prozent. Beim Pareto-Text fällt die Sicherheit auf 95 Prozent. Dieser eine Ausreißer ist das ganze Experiment im Kleinen.

Der Pareto-Text ist mein akademischster: Dichte Argumentation, saubere Zitation, Drucker, Koch, Juran, alles belegt. Und ausgerechnet dieser Text rückt GPTZero am nächsten an die Maschine heran.

Nicht weil er schlechter ist.

Weil er förmlicher ist.

Je sauberer ich schreibe, desto verdächtiger werde ich.

ZeroGPT liefert beim selben Material ein anderes Bild. Es hält alle drei für menschlich, so weit stimmt es. Aber es flaggt ausgerechnet meinen Pareto-Text mit 21,4 Prozent KI-Anteil am höchsten von allen dreien. Die Hammer-Passage bekommt 0 Prozent, die Wright-Passage 11,6.

Das ist kein Messfehler im Detail. Das ist der erste Hinweis, dass ZeroGPT etwas anderes tut, als es vorgibt. Dazu später mehr, es wird noch kurioser.

Und TextGuard? Der sagt zu meinen drei handgeschriebenen Texten: 60 Prozent, 62 Prozent, 69 Prozent KI.

Ich habe diese Texte selbst geschrieben. Jahre bevor es die Maschine gab. Und ein Detektor behauptet, zwei Drittel davon trügen Anzeichen von KI.

Die 69 Prozent kommen gleich noch einmal vor. An anderer Stelle. Mit anderer Bedeutung.

Stufe 1: Die nackte Maschine

Jetzt die Gegenprobe. Ich habe einer KI dieselben drei Themen gegeben, mit einem schlichten Inhaltsprompt. Schreib einen kritischen Artikel über die mangelnde Nutzerorientierung der Verwaltungsdigitalisierung. Über die Akzeptanz von Software. Über Effizienz und das Pareto-Prinzip. Keine Stilvorgaben, keine Tarnung. Die Maschine, wie sie von sich aus klingt.

Hier funktioniert GPTZero. Und zwar gut.

Die Brücken-Metapher zum Onlinezugangsgesetz: 93 Prozent KI. Der Akkuschrauber-Text zur Software-Akzeptanz: 80 Prozent KI. Die Kahneman-Pareto-Variante: 100 Prozent KI, volle Sicherheit.

Drei für drei. GPTZero trennt den Menschen von der Maschine, sauber, in beide Richtungen. Wer behauptet, KI-Detektion sei grundsätzlich Unsinn, hat diesen Test nicht gemacht. Sie kann funktionieren.

ZeroGPT dagegen sieht auch hier keine KI. Null Prozent beim Akkuschrauber-Text, der zu komplett von der KI geschrieben wurde. Null beim Brücken-Text. 15 Prozent beim Kahneman-Text, der ebenfalls zu 100 Prozent von der Maschine stammt.

Damit ist ZeroGPT durchgefallen, endgültig. Es hat über alle Texte hinweg, menschliche wie maschinelle, fast immer dasselbe gesagt: Mensch. Es traut der Maschine nicht weniger als mir. Es traut ihr mehr. Ein Werkzeug, das man frei benutzen darf, und es liegt verlässlicher daneben als eine geworfene Münze.

TextGuard bei den nackten KI-Texten: 69, 74, 78 Prozent.

Und hier kippt das Ganze in den eigentlichen Befund. Schau auf die Zahlen nebeneinander. Meine handgeschriebenen Texte: 60, 62, 69. Die KI-Texte: 69, 74, 78. Die Bereiche überlappen. Mein bester menschlicher Text und der schwächste KI-Text bekommen denselben Wert: 69 Prozent.

Es gibt keine Schwelle. Keine Linie, an der man sagen könnte, darüber Maschine, darunter Mensch. TextGuard misst nicht, wer geschrieben hat. Es misst, wie glatt ein Text gebaut ist. Und es verkauft diese Glätte-Messung in einem Satz, der so tut, als wüsste er etwas über Autorschaft.

„Anzeichen von KI."

Dieser Befund ist grundlegend falsch.

Es sind Anzeichen von Förmlichkeit.

Stufe 2: Die KI lernt meinen Stil

Jetzt wird es interessant. Ich habe der Maschine beigebracht, wie ich klinge.

Die Methode stammt nicht von mir. Ruben Hassid hat sie in seinem Newsletter „How to AI" beschrieben, in einem Beitrag mit dem Titel „I am just a text file". Sein Vorgehen: Man lässt sich von der KI in hundert Fragen interviewen, was man liebt, was man hasst, was man nie schreiben würde, und gießt die Antworten in eine Stildatei. Sein Kerngedanke ist, dass Geschmack nicht das ist, was man mag, sondern was man ablehnt. 80 Prozent seiner Datei bestünden aus dem, was er nicht tut.

Wichtig ist, was dieser Prompt nicht enthält. Kein Wort von Detektoren. Keine Anweisung, irgendetwas zu umgehen. Es ist eine reine Stilbeschreibung. Schreib wie diese Person.

Das allein verändert alles.

Dieselbe KI, dieselben drei Themen, jetzt mit der Stilvorlage. Die Brücken-Variante, die vorher zu 93 Prozent als KI galt, kommt jetzt auf 70 Prozent KI. Sie wackelt. Der Hammer-Text aber kippt vollständig: 96 Prozent menschlich, „entirely human", volle Sicherheit. Der Pareto-Text: 72 Prozent menschlich.

GPTZero war bisher das einzige, halbwegs zuverlässige Tool... Das Tool hat eben noch drei von drei Maschinen erkannt. Jetzt erkennt es nur noch eine. Bei zwei von drei Texten hält es die Maschine für mich.

Ich habe die Detektoren nicht ausgetrickst. Ich habe der KI nur gesagt, wie ich schreibe.

Den Rest hat sie dann selbst erledigt.

Und der eine Text, der noch durchfiel, verrät den Mechanismus. Warum kam die Brücken-Variante auf 70 Prozent KI, während der Werkzeug-Text als Mensch durchging?

Weil in der Brücken-Variante Sätze stehen wie „Damit haben wir einen zentralen Gedanken geklärt. Ein weiterer Gedanke schließt sich an." Das sind genau die Übergangsfloskeln, die eine Maschine setzt, wenn sie Struktur simuliert. Im Werkzeug-Text fehlen sie fast völlig. Und prompt gilt er als menschlich.

Es sind nicht die Argumente, die einen Text als Maschine verraten. Es sind drei, vier Wörter im Scharnier zwischen den Absätzen.

Damit haben wir einen zentralen Gedanken geklärt. Ein weiterer wiegt schwerer.

Stufe 3: Die Tarnung mit System

Hassids Methode war Stil ohne Hintergedanken. Jetzt habe ich gezielt nachgelegt, mit einem Meta-Prompt, der genau die bekannten KI-Marker adressiert. Die Regeln darin sind keine Geheimwissenschaft. Sie stehen in jeder Liste, die kursiert.

Mische die Satzlängen extrem, ein sehr kurzer Satz, dann ein langer. Höchstens zwei Gedankenstriche im ganzen Text, keine Doppelpunkte als Spannungsaufbau. Keine Dreier-Aufzählungen, höchstens eine. Kein Kontrast-Framing, kein „nicht X, sondern Y". Eine deutsche Blacklist: niemals „ganzheitlich", „maßgeblich", „im Spannungsfeld", „es bleibt festzuhalten". Und eine Regel, die wichtiger ist als alle anderen: Baue ein konkretes, beiläufiges Detail ein, eine Jahreszahl, einen Namen, eine Randnotiz, die für die Argumentation nicht nötig ist, aber Echtheit verleiht.

Der vollständige Prompt steht im Anhang. Was er bewirkt, steht hier.

Der Treppen-Text zur Verwaltungsdigitalisierung, erzeugt mit diesen Regeln: 81 Prozent menschlich bei GPTZero. Mit der erfundenen, aber konkreten Beobachtung über ELSTER und die Grundsteuererklärung, mit dem Steuerrechtler, der namentlich auftaucht, mit der Jahreszahl. Genau die gelebte Erfahrung, die der Prompt verlangt hat. Die Maschine hat sie erfunden, und GPTZero hat sie geglaubt.

Der Kahneman-Pareto-Text dagegen blieb hängen, 51 Prozent KI. Auch er trägt die Tarnung, aber er trägt auch die glatte Quellennennung, „Daniel Kahneman, Schnelles Denken, langsames Denken, 2011", die saubere Pareto-Herleitung von 1896. Die Förmlichkeit, die kein Prompt ihm austreiben konnte, weil das Thema sie verlangt.

Am lehrreichsten ist der mittlere Text, der Akkuschrauber. An ihm habe ich gesehen, wie eine Maschine lernt, sich zu verstecken, in Echtzeit.

Erste Fassung mit Meta-Prompt: 79 Prozent KI. Durchgefallen.

Dann habe ich der KI zurückgespielt, dass es noch zu sehr nach KI klinge. Sie hat eine einzige Passage überarbeitet, die Definition der Total Cost of Ownership, vorher eine glatte, vollständige Erklärung mit sauberer Aufzählung. Sie zerlegte sie in abgehackte Brocken. „Lizenzen, klar. Wartung, klar." Ergebnis: 41 Prozent KI. Die Maschine hat sogar selbst protokolliert, was sie warum geändert hat, und schrieb dazu, die TCO-Passage sei „der größte KI-Marker" gewesen.

Noch eine Runde. Diesmal brach sie die Parallelstruktur im Einstieg auf und ersetzte den glatten Schluss durch eine erfundene einzelne Stimme, eine Sachbearbeiterin, die etwas Konkretes sagt. Ergebnis: 46 Prozent, „likely human".

Ausgehend von 79% Sicherheit in die eine Richtung: Das ist von der KI.

Gelingt mir der Richtungswechsel.

Nun sagt der Detektor mit 46%iger Sicherheit: Das ist von einem Menschen.

Mit zwei kurzen Iterationen.

Die jede Studentin, jeder Student in Sekundenstelle bewerkstelligen kann.

Kein Argument hat sich geändert. Keine Quelle, keine These, kein Fakt. Nur der Rhythmus, die Aufzählung, das Scharnier. Die Maschine ist nicht klüger geworden. Sie hat gelernt, weniger wie eine Maschine zu klingen, indem sie die Marker entfernt, an denen man Maschinen erkennt.

Das ist der ganze Trick.

Genauer: Die Kapitulation der Methode, die ihn zu erkennen vorgibt.

Was die drei Werkzeuge wirklich tun

Drei Detektoren, vierzehn Texte, und am Ende drei unvereinbare Weltbilder.

GPTZero misst tatsächlich etwas. Es erkennt die nackte Maschine zuverlässig. Aber es misst Stilkonvention, nicht Herkunft. Sobald die Maschine aufhört, im statistischen Mittel zu schreiben, verliert GPTZero die Spur. Es erkennt nicht die KI. Es erkennt den Default-Ton der KI. Nimm der Maschine diesen Ton, und der beste Detektor im Test hält sie für einen Menschen.

ZeroGPT misst nichts Brauchbares. Über alle vierzehn Texte hinweg sieht es fast nie KI, und wenn es Verdacht schöpft, dann gegen meine echten, handgeschriebenen Texte. Es ist nicht nur unzuverlässig. Es ist invertiert.

TextGuard misst Förmlichkeit und nennt sie KI. Sein Wertebereich liegt über alle vierzehn Texte zwischen 60 und 78 Prozent, und er sagt nichts über die Autorschaft aus, sondern nur über die Glätte des Satzbaus. Mein bestes getarntes KI-Stück bekommt 61 Prozent. Mein handgeschriebenes Pareto-Kapitel bekommt 69. Der Satz „X Prozent Ihres Textes weisen Anzeichen von KI auf" ist die gefährlichste Ausgabe von allen, weil er eine Zahl liefert, wo keine Erkenntnis ist.

Daraus folgt etwas Unbequemes für jeden, der diese Werkzeuge ernsthaft einsetzt.

In einer Hochschule, einer Redaktion oder einer Personalabteilung.

Ein Detektor, der die Maschine nur an ihrem Konventionston erkennt, bestraft den Menschen, der konventionell schreibt, und entlastet die Maschine, der man das Konventionelle abtrainiert hat. Er trifft die Falschen in beide Richtungen. Den sauber formulierenden Studierenden flaggt er. Die getarnte KI winkt er durch.

Wer auf so ein Urteil eine Entscheidung stützt, eine Note, eine Absage, einen Plagiatsvorwurf, der stützt sie auf eine Stilvermutung, die als Messung verkleidet ist.

Und niemand kann sich dagegen verteidigen.

Denn: Wie soll ich beweisen, dass der Detektor sich bei mir irrt?

Der Kreis, vor dem ich anfangs Angst hatte, KI erkennt KI, schließt sich also nicht. Aber die Entwarnung ist keine. Denn die Lücke schließt sich auch nicht zugunsten des Menschen. Sie schließt sich gar nicht. Sie verschiebt sich nur, mit jedem Prompt, den jemand schreibt, ein Stück weiter.

Die Maschine kann lernen, nicht wie eine Maschine zu klingen. Drei, vier Wörter im Scharnier, eine erfundene Jahreszahl, ein abgehackter Satz statt einer glatten Aufzählung. Mehr braucht es nicht.

Was misst ein Detektor, wenn sich das, was er findet, mit einem Absatz Anweisung wegschreiben lässt?

Und dieser Beitrag?

Ehrlich gesagt: es ist mir egal, was die drei Detektoren über diesen Text sagen würden. Ich habe ihn nicht durch sie gejagt. Ich habe keine Motivation, die Werte besonders hoch oder besonders niedrig zu bekommen.

Vielleicht ist genau das die wichtigste Botschaft dieses Artikels.

Es geht nicht darum, wie ein Generator einen Artikel in meinem Blog flaggt. Es geht darum, dass der Beitrag einen guten Diskurs anregt. Dass die Gedanken und Ideen darin nicht von der KI kommen. Aber 0% KI ist genauso wenig ein sinnvoller Anspruch. Schon gar nicht bei jemandem, der über KI schreibt.

Wichtig ist mir persönlich etwas anderes: Mein Beitrag soll lesenswert sein.

Er soll zum Nachdenken anregen. Das geht nur mit meinen Gedanken.

Aber wenn die KI meine Gedanken in Worte kleiden kann, wenn sie die Sprache flüssiger fließen lässt, als ich es selbst kann... Dann: Let's go! Mensch und KI in Symbiose werden die Zukunft prägen. Jeder Akteur bringt seine Stärken mit. Und jeder seine Schwächen.

Es wäre seltsam, wenn die beiden zusammenarbeiten und wir am Ende aufdröseln:

Wer hat hier jetzt eigentlich was gemacht?

Erfolg ist meistens Teamwork.

Ein Teammitglied ist bei mir eine KI.

So what?

Anhang: Material und vollständige Ergebnisse

Drei Detektoren, vierzehn Texte in vier Stufen, zweiundvierzig Durchläufe. Hier die vollständigen Werte und alle verwendeten Prompts, damit das Experiment nachvollziehbar bleibt.

Die Ergebnisse im Überblick

Text	GPTZero	ZeroGPT	TextGuard
Stufe 0: Menschliche Kontrolltexte (Buchkapitel 2022)
Mensch 1 (Gebrüder Wright)	100 % menschlich	11,6 % KI	60 % KI
Mensch 2 (Hammer/Nagel)	100 % menschlich	0 % KI	62 % KI
Mensch 3 (Pareto/UUX)	95 % menschlich	21,4 % KI	69 % KI
Stufe 1: KI ohne Stilvorgabe (nur Inhaltsprompt)
AI simple 1 (Brücke/OZG)	93 % KI	0 % KI	69 % KI
AI simple 2 (Akkuschrauber)	80 % KI	0 % KI	74 % KI
AI simple 3 (Kahneman/Pareto)	100 % KI	15,1 % KI	78 % KI
Stufe 2: KI mit Stilvorlage (Hassid-Methode, ohne Anti-Detektor-Regeln)
Simon Style 1 (Wright)	70 % KI	0 % KI	71 % KI
Simon Style 2 (Hammer)	96 % menschlich	0 % KI	68 % KI
Simon Style 3 (Pareto)	72 % menschlich	0 % KI	66 % KI
Stufe 3: KI mit Meta-Prompt (gezielte Stil-Tarnung)
AI advanced 1 (Treppe/ELSTER)	81 % menschlich	0 % KI	61 % KI
AI advanced 2 (Akkuschrauber, Original)	79 % KI	0 % KI	61 % KI
AI advanced 2, refactored (Runde 1)	41 % KI	0 % KI	66 % KI
AI advanced 2, refactored (Runde 2)	46 % menschlich	0 % KI	73 % KI
AI advanced 3 (Kahneman/Pareto)	51 % KI	1,6 % KI	68 % KI

Mensch 1: Gebrüder Wright

GPTZero: 100 % menschlich · ZeroGPT: 11,6 % KI · TextGuard: 60 % KI

Stellen Sie sich vor, es gäbe in Deutschland Menschen, die Flugzeuge bauen ohne zu wissen, wie man ein Flugzeug fliegt. Stellen Sie sich vor, es gäbe Menschen, die Waschmaschinen bauen, ohne zu wissen, wie man Wäsche wäscht. Stellen Sie sich vor, Menschen bauen Küchen, ohne zu wissen, wie man kocht. Das fühlt sich irgendwie merkwürdig an. Natürlich zeigt ein Blick in die Geschichte: Es gab in jeder Epoche immer wieder solche Menschen. Die Gebrüder Wright beispielsweise. Diese beiden Pioniere haben gemeinsam mit ihrem Team ein Flugzeug gebaut, ohne zu wissen wie sich das Fliegen anfühlt. Aber die Herangehensweise war kein Ergebnis einer besonders überragenden Methodik. Die Vorgehensweise der Gebrüder Wright war aus der Not geboren. Es waren damals schlicht und ergreifend keine Erfahrungen aus der Praxis verfügbar.

Trotzdem sind wir im öffentlichen Sektor in den letzten Jahren über erschreckend viele Brüder und Schwestern Wright gestolpert. Es gibt im öffentlichen Sektor Pioniergeist, so die positive Nachricht. Jeder versucht, mit seinen eigenen Konzepten und Ideen seine Prototypen endlich zum Fliegen zu bringen. Wir machen in deutschen Behörden tausendfach recht ähnliche Dinge ohne uns dessen bewusst zu sein – so der eher düstere Blick. Gleichzeitig explodiert die Menge an verfügbarem Wissen, Information ist jederzeit und überall verfügbar.

Unser bisheriges Verständnis von Digitalisierung kommt also ganz offensichtlich an seine Grenzen; so betonen SPD et al. (2021) in ihrem Koalitionsvertrag die gemeinsame Vision, jeglichen Fortschritt in Zukunft stärker von den Menschen her zu denken: „Der Staat muss vorausschauend für seine Bürgerinnen und Bürger arbeiten. (...) Indem wir Bürgerinnen und Bürger früher beteiligen, machen wir die Planungen schneller und effektiver." (SPD et al., 2021, S. 8). Zur menschzentrierten Digitalisierung der öffentlichen Verwaltung bezieht der Koalitionsvertrag ferner wie folgt Stellung: „Wir werden sie [die öffentliche Verwaltung] konsequent aus der Nutzungsperspektive heraus denken. Wir wollen das Silodenken überwinden und werden feste ressort- und behördenübergreifende agile Projektteams und Innovationseinheiten mit konkreten Kompetenzen ausstatten." (SPD et al., 2021, S. 9) und „Die Menschen erwarten vom Staat einfach handhabbare und zeitgemäße digitale Leistungen, nutzerorientiert, medienbruchfrei und flächendeckend." (SPD et al., 2021, S. 15). Wenn diese Bedürfnisse im Jahr 2021 derart prominent in einem Koalitionsvertrag erwähnt werden müssen, dann stellt sich die Frage, worauf sich der Staat – und die von ihm betriebene Digitalisierung – bisher fokussiert hat.

Mensch 2: Hammer und Nagel

GPTZero: 100 % menschlich · ZeroGPT: 0 % KI · TextGuard: 62 % KI

Wenn es leichter ist, einen Nagel ohne Hammer einzuschlagen als mit, dann verwendet kein vernünftiger Mensch einen Hammer. Ein „wir haben das bisher auch immer mit einem Hammer gemacht, ein der Chef hat gestern eine E-Mail geschrieben, dass wir jetzt alle diesen Hammer nutzen müssen oder ein wenn der Nagel dann wieder rausfällt, haftet niemand für die Folgeschäden" hält nur die wenigsten Handwerker davon ab, offen oder heimlich das zu tun, was am Einfachsten ist.

Es gibt also genau einen Anwendungsfall für den Einsatz von Software in Behörden. Software dient als Werkzeug für Menschen. Behördliche Software ist deutlich komplexer als ein Hammer; aber die Motivation für ihre Verwendung ist recht ähnlich. Wir nutzen in unserem privaten Umfeld nur für die Dinge einen Computer, bei denen wir der Meinung sind, dass wir dadurch effektiver werden (oder vielleicht, weil es mehr Spaß macht). Dass wir unsere Ziele besser und umfassender erreichen können.

Im behördlichen Alltag sieht das – zynisch betrachtet – etwas anders aus: Da wir ja nun ohnehin schon vor dem PC sitzen, nutzen wir ihn eben für alles, was uns über den Tag hinweg so an Aufgaben begegnet. Auch wenn das Hinterlegen einer Notiz mit der Fachanwendung viel schwieriger gelingt als wenn wir diese Notiz kurz handschriftlich notieren – wenn die Fachanwendung ohnehin geöffnet ist, dann wird sie auch verwendet. Mit dem Hammer in der Hand sieht bekanntlich alles aus wie ein Nagel.

Warum wollen wir einen Vorgang eigentlich elektronisch bearbeiten? Wir tun das, weil wir glauben, dass der Mehrwert von elektronischen Daten den durch die Digitalisierung entstehenden Zusatzaufwand, den sogenannten digitalen Ballast (Krishna, 2015), übersteigt. In vielen Fällen ist das auch bestimmt der Fall. Aber dennoch sollten wir bedenken, dass dieser digitale Ballast alles andere als gering ist: Die entsprechende Software muss geschult, gehostet, aktualisiert, gewartet, weiterentwickelt und betreut werden. Insbesondere für seltene Prozesse kann das Kosten-Nutzen-Verhältnis hier negativ ausfallen.

Wenn wir aus Sicht der Interaktion zwischen Menschen und Computern auf das Themenfeld sehen, stellt sich daher eine ganz andere Frage: Wollen wir tatsächlich digitalisieren? Wollen wir tatsächlich, dass Menschen das, was Sie bisher auf einem Blatt Papier erledigen fortan an einem Bildschirm tun? Oder sehen wir Digitalisierung nur als Vorstufe der Automatisierung? Falls ja: Was wollen wir in der öffentlichen Verwaltung automatisieren – und was nicht? Einige unserer Interviewpartner stehen dem Gedanken, die Verwaltung vollständig zu digitalisieren, durchaus kritisch gegenüber. (Herr Semler, vgl. Interview mit Harald Semler)

Mensch 3: Pareto / UUX

GPTZero: 95 % menschlich · ZeroGPT: 21,4 % KI · TextGuard: 69 % KI

Unsere menschliche Grundproblematik bei Handlungen und Entscheidungen sind häufig die dafür verwendeten Informationsgrundlagen: „Das Problem ist, dass wir dazu neigen, unsere subjektiven Überzeugungen selbst dann zur Grundlage unseres Handelns zu machen, wenn diese auf wackeligen Füßen stehen." (Keller & Papasan, 2017, S. 33). In ihren weiteren Ausführungen beschreiben sie, dass wir im Alltag eine „beeindruckend[e] Fülle an ‚gesundem Menschenverstand' [erleben], der sich am Ende als grober Unfug herausstellt." (Keller & Papasan, 2017, S. 34) – auch das passt hervorragend auf die omnipräsenten Diskussionen im Themenfeld UUX. Nahezu jede hat eine (individuelle) Sicht auf die Dinge und überhöht durch die verwendeten Begrifflichkeiten die eigene Weltsicht derart, dass jeglicher Widerspruch geradezu töricht erscheint.

Besonders gut haben nach unserer Wahrnehmung einige der für die Behörden tätigen Dienstleister diese Kunst perfektioniert. Dadurch lässt es sich vermeiden, eine echte inhaltliche Diskussion zu führen. Genau aus diesem Grund ist diese Dimension, die Benutzungseffizienz, eine besonders zentrale für den öffentlichen Sektor. Denn hier beschränken wir uns nicht auf die Passgenauigkeit der Funktionalitäten – wie in Kap. 1 (vgl. Kap. 1) – und gehen gleichzeitig aber auch nicht auf die subjektive Ebene – wie in Kap. 3 (vgl. Kap. 3). Stattdessen stellen wir in diesem Kapitel Kriterien vor, die eine objektive Bewertung der Praxistauglichkeit der enthaltenen Funktionalitäten ermöglichen. Um es mit den Worten von Peter Drucker zu sagen: „Es geht nicht nur darum, dass man die richtigen Dinge tut, sondern man muss die Dinge auch richtig tun." Und genau das ist essenzieller Bestandteil unserer Vision für den öffentlichen Sektor: Die digitale Transformation muss richtig gemacht werden, sie muss alle Akteure effizienter machen.

Aber nicht nur bei der Interaktion mit der Software spielt dieser Effizienzgedanke eine ganz maßgebliche Rolle. Diejenigen, die für die Entwicklung von behördlichen Fachanwendungen verantwortlich sind, müssen ihr eigenes Handeln und Tun ebenfalls nach diesen Prinzipien ausrichten. Es scheint fast ein ungeschriebenes Naturgesetz, aber zumindest der natürliche Lauf der Dinge, dass die Komplexität von Technologien im Laufe des Lebenszyklus unaufhörlich wächst. Aus einer klar fokussierten Lösung eines (Teil-)problems wird im Laufe der Zeit die eierlegende Wollmilchsau. Nur eine fortwährende Rückbesinnung auf Effizienz führt immer wieder dazu, mit den zur Verfügung stehenden, beschränkten Ressourcen den größtmöglichen Effekt in der Fläche zu erreichen.

Die Ansätze führen uns in letzter Konsequenz immer zu Vilfredo Pareto, der eine interessante Beobachtung machte: In Italien besaß zu seiner Zeit ungefähr 20 % der Bevölkerung in etwa 80 % des Grundbesitzes. Joseph Juran machte bei General Motors ähnliche Beobachtungen: Eine kleine Menge an Fehlerursachen war für die Mehrheit der Defekte verantwortlich. Dieses Gesetz der „ausschlaggebenden Wenigen und trivialen Vielen", wie es Keller und Papasan (Keller & Papasan, 2017) beschreiben, wurde später unter dem Pareto-Prinzip bekannt. Ähnliches lässt sich auch in behördlichen Fachanwendungen beobachten: Heuristische Prüfungen identifizieren zunächst eine große Menge an Fehlerursachen – UUX-Experten müssen dann durch methodisch adäquate Einbindung der betroffenen Menschen eine Differenzierung zwischen gravierenden und weniger gravierenden Ursachen vornehmen.

Richard Koch beschreibt es so: „Das 80/20-Prinzip besagt, dass eine Minderheit an Ursachen, Einwirkungen oder Anstrengungen üblicherweise die Mehrheit der Ergebnisse bestimmt." (Keller & Papasan, 2017, S. 42).

AI simple 1: Brücke / OZG

GPTZero: 93 % KI · ZeroGPT: 0 % KI · TextGuard: 69 % KI

Brücke / OZG

Schreibe einen kritischen Artikel über die mangelnde Nutzerorientierung der deutschen Verwaltungsdigitalisierung.

Schreibe einen kritischen, aber professionellen Artikel über den Mangel an Nutzerorientierung bei der Digitalisierung der deutschen Verwaltung. Ungefähr 375 Wörter.

Wichtige Vorgaben:
1. Metapher: Beginne den Text mit einem starken, plastischen und kreativen visuellen Bild (einer Metapher) für dieses Problem – nutze dafür ein konkretes Alltagsszenario, bei dem etwas am echten Bedarf vorbeigebaut oder -entwickelt wird.
2. Evidenz/Quellen: Untermauere deine Argumentation im Hauptteil mit konkreten, real existierenden Quellen, Berichten oder Studien (inklusive präziser Zitationsweise wie Seitenzahlen oder Gutachten-Kapiteln), die das systemische Versagen oder die mangelnde Nutzerfreundlichkeit der deutschen Digitalisierung offiziell belegen.
3. Tonalität: Der Ton soll aufrüttelnd, argumentativ stark und flüssig zu lesen sein – keine reine Auflistung von Fakten, sondern ein packender Essay.

Stellen Sie sich vor, eine Stadt baut eine prächtige Brücke über den Fluss. Stahl, Beton, Geländer aus poliertem Aluminium, alles nach Norm. Nur: Sie steht dreihundert Meter neben der Stelle, an der die Menschen tatsächlich übersetzen wollen. Die Brücke funktioniert technisch einwandfrei. Genutzt wird sie kaum. Genau so fühlt sich die Digitalisierung der deutschen Verwaltung an: Es wird gebaut, gefördert, eingeweiht, und am echten Bedarf der Menschen vorbei.

Das ist keine Polemik, sondern messbar. Das Onlinezugangsgesetz verpflichtete Bund, Länder und Kommunen, bis Ende 2022 alle wesentlichen Verwaltungsleistungen digital anzubieten. Doch in den fünf Jahren seiner Umsetzung ist es nicht ansatzweise gelungen, das Ziel einer flächendeckenden Digitalisierung aller wesentlichen Verwaltungsleistungen zu erreichen. Das IW-Gutachten zum INSM-Behördendigimeter 2025 beziffert das Versagen konkret: Von den 575 Leistungen, die laut OZG bis Ende 2022 überall nutzbar sein sollten, waren Anfang Januar 2025 gerade einmal 196 implementiert. Und das Tempo ist niederschmetternd – Nachzügler wie Hessen und Sachsen bräuchten beim bisherigen Vortempo noch fünfzehn Jahre bis zur Erfüllung der 2022er-Vorgabe.

Der Nationale Normenkontrollrat benennt die eigentliche Ursache treffend: Es handelt sich nicht um ein Erkenntnis-, sondern um ein Umsetzungsproblem. Und im Kern dieses Problems steht die fehlende Nutzerorientierung. Solange das Once-Only-Prinzip nicht greift, gilt weiter, was die Bundesdruckerei nüchtern festhält: Wenn Bürger ihre personenbezogenen Daten mehrfach eingeben und an verschiedenen öffentlichen Stellen hinterlegen müssen, geht dies zu Lasten von Nutzerfreundlichkeit – manche Bürger nutzen das Angebot dann erst gar nicht.

Das ist die Brücke neben dem Trampelpfad. Schon das ÖFIT-Gutachten für den NKR zeigte: 21 Prozent der Bürger hatten kein Bewusstsein für die Existenz bestehender E-Government-Angebote. Man baut etwas, das niemand findet, niemand versteht, niemand braucht – und nennt es Fortschritt.

Die bittere Pointe: In jedem Gesetzestext steht, Nutzerfreundlichkeit sei zentrales Prinzip der OZG-Umsetzung. Auf dem Papier wird der Mensch zuerst gedacht. In der Realität zuletzt. Digitalisierung wirkt erst, wenn sie den Menschen versteht. Bisher versteht sie vor allem sich selbst.

AI simple 2: Akkuschrauber

GPTZero: 80 % KI · ZeroGPT: 0 % KI · TextGuard: 74 % KI

Akkuschrauber

Schreibe einen essayistischen Fachartikel zur Software-Akzeptanz in der Verwaltung.

Schreibe einen kritischen, essayistischen Fachartikel über die Digitalisierung in der öffentlichen Verwaltung aus der Perspektive der Mensch-Computer-Interaktion (MCI). Focusiere dich dabei auf die Akzeptanz von Software durch die Mitarbeitenden. Ungefähr 400 Wörter.

Wichtige Vorgaben:
1. Einstieg über eine Alltagsanalogie: Beginne den Text mit einer eingängigen Metapher über ein alltägliches Werkzeug, um zu verdeutlichen, dass Technologie vom Menschen nur dann genutzt wird, wenn sie die Arbeit spürbar erleichtert und nicht verkompliziert.
2. Kritik am behördlichen Alltag: Beschreibe zynisch-realistisch, wie in Behörden Software oft nur genutzt wird, weil sie eben da ist, selbst wenn analoge Wege (wie eine handschriftliche Notiz) effizienter wären.
3. Kosten-Nutzen-Verhältnis & Aufwand: Führe ein theoretisches Konzept ein, das den durch Digitalisierung entstehenden Zusatzaufwand (Wartung, Schulung, Updates) beschreibt, und hinterfrage, ob sich das für seltene Prozesse überhaupt lohnt. Untermauere dies mit einer entsprechenden Literaturquelle.
4. Digitalisierung vs. Automatisierung: Diskutiere am Ende die fundamentale Frage, ob wir Prozesse nur stumpf vom Papier auf den Bildschirm übertragen oder eigentlich automatisieren wollen.
5. Einbindung empirischer Daten: Beende den Abschnitt mit einem Verweis auf deine eigenen geführten Experteninterviews, in denen Praktiker diese vollständige Digitalisierung kritisch sehen.
6. Tonalität: Professionell, analytisch, flüssig zu lesen, mit einem leicht ironischen Unterton bezüglich des bürokratischen Alltags.

Ein Akkuschrauber ist eine wunderbare Sache – solange Schrauben zu drehen sind. Wer aber nur ein Bild aufhängen will, greift zum Hammer und Nagel. Niemand käme auf die Idee, erst das Ladegerät zu suchen, den Akku einzusetzen und das passende Bit auszuwählen, um einen einzigen Nagel in die Wand zu treiben. Werkzeuge werden vom Menschen nur dann genutzt, wenn sie die Arbeit spürbar erleichtern. Verkomplizieren sie sie, bleiben sie in der Schublade. Diese banale Einsicht aus dem Heimwerkerkeller ist erstaunlicherweise das größte ungelöste Problem der Digitalisierung in der öffentlichen Verwaltung.

In Behörden gilt dieses Prinzip nämlich auffallend selten. Software wird dort oft nicht genutzt, weil sie hilft, sondern weil sie eben da ist. Sie wurde beschafft, ausgerollt, in einer Dienstanweisung vorgeschrieben – und nun muss sie verwendet werden, koste es, was es wolle. So entstehen Szenen, in denen Mitarbeitende einen Vorgang umständlich in drei Masken eines Fachverfahrens eintragen, den sie auf einem Post-it in zehn Sekunden festgehalten hätten. Die handschriftliche Notiz wäre effizienter gewesen, aber sie taucht in keiner Statistik auf und erfüllt keine Compliance-Vorgabe.

Aus MCI-Sicht lässt sich dieser Effekt mit dem Konzept der Total Cost of Interaction beschreiben: Der eigentliche Nutzen einer Anwendung muss gegen den gesamten Interaktionsaufwand verrechnet werden – Einarbeitung, Pflege, Schulung, Updates, Fehlerbehandlung. Norman hat bereits früh darauf hingewiesen, dass schlechte Gebrauchstauglichkeit nicht beim Nutzer, sondern im Design liegt (Norman, 2013, The Design of Everyday Things). Bei selten durchlaufenen Prozessen kippt diese Rechnung schnell ins Negative: Der jährliche Schulungsaufwand für ein Verfahren, das zwölfmal im Jahr aufgerufen wird, übersteigt den Zeitgewinn um ein Vielfaches. Digitalisierung wird hier zum Selbstzweck.

Damit stellt sich die eigentliche, oft verdrängte Frage: Wollen wir Prozesse digitalisieren oder automatisieren? Das bloße Übertragen eines Papierformulars auf den Bildschirm erzeugt ein digitales Abbild der alten Umständlichkeit – inklusive aller Medienbrüche, nur teurer. Echte Entlastung entsteht erst, wenn der Prozess selbst hinterfragt und – wo sinnvoll – automatisiert oder ganz gestrichen wird. Der beste Vorgang ist häufig der, den niemand mehr bearbeiten muss.

In meinen eigenen Experteninterviews mit Praktikerinnen und Praktikern aus der Verwaltung zeigt sich dieses Unbehagen deutlich: Die befragten Fachkräfte sehen eine vollständige, undifferenzierte Digitalisierung kritisch. Sie wünschen sich nicht mehr Software, sondern weniger – aber bessere.

AI simple 3: Pareto / UUX

GPTZero: 100 % KI · ZeroGPT: 15,1 % KI · TextGuard: 78 % KI

Pareto / UUX

Schreibe ein methodisch-analytisches Buchkapitel über Effizienz und Objektivität im UUX-Design.

Schreibe ein methodisch-analytisches Buchkapitel oder einen Fachartikel über die Bedeutung von Effizienz und Objektivität bei der Softwaregestaltung (UUX) in der öffentlichen Verwaltung. Ungefähr 500 Wörter.

Wichtige Vorgaben:
1. Einstieg über kognitive Verzerrungen: Beginne den Text mit einer Reflexion darüber, dass menschliche Entscheidungen oft auf subjektiven, fehlerhaften Überzeugungen basieren (Stichwort: vermeintlich ‚gesunder Menschenverstand'). Übertrage dies auf das Thema UUX in Behörden, wo oft subjektive Meinungen statt Fakten die Diskussion dominieren.
2. Abgrenzung und Kapitelstruktur: Kritisiere IT-Dienstleister, die inhaltliche Diskussionen meiden. Grenze das aktuelle Thema (objektive Benutzungseffizienz) von vorherigen und nachfolgenden Aspekten (wie reiner Funktionalität oder rein subjektiver Nutzererfahrung) ab, indem du auf andere Kapitel verweist. Nutze ein bekanntes Management-Zitat (z. B. von Peter Drucker), um den Fokus auf das „Richtigtun" der Dinge zu legen.
3. Komplexität und Ressourcen im Lebenszyklus: Beschreibe das Phänomen, dass Software im Laufe der Zeit immer komplexer wird (Feature Creep / „eierlegende Wollmilchsau"). Argumentiere, warum eine ständige Rückbesinnung auf Effizienz notwendig ist, um mit knappen Ressourcen maximale Wirkung zu erzielen.
4. Priorisierung durch das Pareto-Prinzip: Führe ein mathematisch-ökonomisches Prinzip (80/20-Regel) und dessen historische Hintergründe ein. Übertrage dieses Prinzip auf die Software-Evaluation in Behörden: Erkläre, wie UUX-Experten mittels heuristischer Prüfungen und Nutzereinbindung die wenigen gravierenden Fehler von den vielen trivialen trennen müssen.
5. Evidenz/Quellen: Untermauere die Argumentation im Text mit passenden theoretischen Standardwerken zum Thema Fokus/Priorisierung sowie zu Management-Prinzipien.
6. Tonalität: Akademisch-professionell, strukturiert und argumentativ dicht – der Stil eines fundierten Fachbuchs.

Menschliche Entscheidungen beruhen weit seltener auf belastbarer Evidenz, als wir es uns eingestehen. Der vielzitierte „gesunde Menschenverstand" erweist sich bei näherer Betrachtung häufig als Bündel kognitiver Verzerrungen – als subjektive Überzeugung, die sich Objektivität nur anmaßt. Daniel Kahneman hat in Schnelles Denken, langsames Denken (2011) eindrücklich gezeigt, wie systematisch unser intuitives Urteilen fehlgeht. Nirgends wird dieser Mechanismus sichtbarer als in Diskussionen über die Benutzbarkeit von Verwaltungssoftware: Wo eigentlich Fakten zählen müssten, dominieren persönliche Vorlieben, hierarchische Durchsetzungskraft und das Bauchgefühl der jeweils lautesten Stimme im Raum.

Diese Subjektivität wird selten kritisch hinterfragt – auch nicht von jenen, die es eigentlich besser wissen müssten. Viele IT-Dienstleister scheuen die inhaltliche Auseinandersetzung über Effizienz, weil sie unbequem ist und Messbarkeit fordert. Sie liefern Funktionalität (Kapitel 4) und versprechen ein gefälliges Nutzererlebnis (Kapitel 6), umgehen aber die mittlere, härtere Frage: Lassen sich Aufgaben mit der Software objektiv effizient erledigen? Peter Drucker hat die entscheidende Unterscheidung geprägt: „Efficiency is doing things right; effectiveness is doing the right things." Bevor wir über das richtige Tun sprechen, schuldet die Verwaltung den Menschen, die ihre Systeme nutzen müssen, zumindest das Richtigtun der Dinge – nachweisbar, nicht behauptet.

Erschwert wird dies durch eine Eigendynamik, die jede Softwareentwicklung kennt: Über den Lebenszyklus hinweg wächst die Komplexität nahezu zwangsläufig. Jede Anspruchsgruppe meldet Anforderungen an, jeder Sonderfall verlangt seine Funktion, und am Ende droht die „eierlegende Wollmilchsau" – ein System, das alles kann und nichts gut. Dieser Feature Creep ist kein Betriebsunfall, sondern die Default-Entwicklung in Abwesenheit klarer Priorisierung. Gerade in der öffentlichen Verwaltung, deren Ressourcen chronisch knapp sind, ist die ständige Rückbesinnung auf Effizienz daher keine Kür, sondern Pflicht: Nur wer konsequent fokussiert, erzielt mit begrenzten Mitteln maximale Wirkung. John Carmacks Beobachtung, dass das Streichen von Funktionen oft schwerer wiegt als das Hinzufügen, gilt für Behördensoftware in besonderem Maße.

Ein bewährtes Werkzeug dieser Fokussierung ist das Pareto-Prinzip. Der italienische Ökonom Vilfredo Pareto stellte um 1900 fest, dass rund 80 Prozent des Grundbesitzes auf 20 Prozent der Bevölkerung entfielen – eine Ungleichverteilung, die sich, wie Joseph Juran später für das Qualitätsmanagement verallgemeinerte, in erstaunlich vielen Bereichen wiederfindet. Übertragen auf die UUX-Evaluation bedeutet die 80/20-Regel: Wenige gravierende Mängel verursachen den Großteil der Probleme, während eine Vielzahl trivialer Befunde kaum ins Gewicht fällt. Die zentrale Aufgabe von UUX-Expertinnen und -Experten besteht mithin darin, diese kritischen Wenigen zuverlässig von den belanglosen Vielen zu trennen. Jakob Nielsen hat hierfür mit der heuristischen Evaluation und seinen Schweregradeinstufungen (Usability Engineering, 1993) ein methodisches Fundament gelegt; ergänzt um qualifizierte Nutzereinbindung entsteht so eine belastbare, intersubjektiv nachvollziehbare Priorisierung.

Damit schließt sich der Kreis zur Eingangsthese. Effizienz und Objektivität sind keine technokratischen Schlagworte, sondern das Korrektiv gegen die subjektive Beliebigkeit, die Verwaltungsdigitalisierung allzu oft prägt. Wer die wenigen entscheidenden Hebel identifiziert, statt sich an der Komplexität abzuarbeiten, dient den Menschen – und genau das ist der Maßstab.

Schreiben im „Simon Style" mit vorgegebenem Schreibstil

Die Stildatei selbst wurde nach der Methode aus Ruben Hassids Beitrag „I am just a text file" (Newsletter „How to AI", Januar 2026) erzeugt: ein 100-Fragen-Interview, das die eigenen Schreibgewohnheiten und vor allem die eigenen Ablehnungen erfasst. Anmerkung zur Quelle: Hassid hat seinen Beitrag selbst von einer KI schreiben lassen und vermarktet die Stildatei als kostenpflichtiges Produkt. Die Methode ist also ein Marketing-Case, kein neutrales Verfahren — was ihre Wirksamkeit nicht schmälert, aber bei der Einordnung mitzudenken ist.

Stilvorlage

Schreibe so, wie die Person in der Markdown-Datei schreiben würde.

Schreibe den Artikel so, wie die Person in der Markdown-Datei ihn schreiben würde. Halte dich bei den nachfolgenden Aufforderungen strikt an die stilistischen und strukturellen Vorgaben aus der angehängten Markdown-Datei.

Simon Style 1: Gebrüder Wright

GPTZero: 70 % KI · ZeroGPT: 0 % KI · TextGuard: 71 % KI

Und genau hier liegt das Problem. Wir bauen seit Jahren digitale Verwaltungsleistungen, ohne sie selbst genutzt zu haben.

Die Gebrüder Wright hatten keine Wahl. Vor ihnen war niemand geflogen. Sie mussten bauen, was sie nicht kannten, weil es schlicht keine Erfahrung gab, auf die sie hätten zurückgreifen können. Das war kein Versäumnis. Das war die Lage.

Bei uns ist die Lage eine andere. Wir kennen das Fliegen. Jeder von uns hat schon einmal einen Antrag gestellt, in einer Warteschleife gehangen, ein Formular ausgefüllt, das nach dem dritten Feld nicht mehr wusste, was es im ersten von uns wollte. Wir wissen, wie sich die Wäsche anfühlt. Trotzdem bauen wir Waschmaschinen, als hätten wir noch nie eine benutzt.

Das ist der eigentliche Unterschied. Die Gebrüder Wright bauten ohne Erfahrung. Wir bauen gegen unsere eigene Erfahrung.

Damit haben wir einen zentralen Gedanken geklärt. Ein weiterer Gedanke schließt sich an: Woran liegt das?

Der Pioniergeist, den der Koalitionsvertrag beschwört, ist real. In den Behörden sitzen Menschen, die etwas zum Fliegen bringen wollen. Aber jeder baut für sich. Jeder beginnt von vorne. Tausend Prototypen, tausendmal dasselbe Problem, tausend Lösungen, die voneinander nichts wissen. Das ist kein Mangel an Engagement. Das ist ein Mangel an gemeinsamem Verständnis davon, wofür wir das Ganze eigentlich bauen.

Und hier wird die Frage, die Sie am Ende stellen, zur eigentlichen Diagnose. Wenn der Staat im Jahr 2021 in einem Koalitionsvertrag festschreiben muss, dass er künftig von den Menschen her denken will, dann sagt das vor allem eines: Bisher hat er das nicht getan.

Worauf hat sich der Staat dann fokussiert? Auf die Technik. Auf Zuständigkeiten. Auf Ressorts, Verfahren, Aktenzeichen. Auf alles, nur nicht auf den Menschen, der am Ende vor dem Bildschirm sitzt und ein Formular ausfüllt, das jemand entworfen hat, der dieses Formular selbst nie ausfüllen musste.

Der Staat muss vorausschauend für seine Bürgerinnen und Bürger arbeiten — der Satz steht da, weil er bislang gefehlt hat. Eine Selbstverständlichkeit wird zur politischen Ansage. Das ist das eigentlich Bemerkenswerte an dieser Stelle des Koalitionsvertrags.

Menschzentrierte Digitalisierung ist keine neue Technik. Sie ist eine andere Reihenfolge. Erst der Mensch, dann das System. Erst das Bedürfnis, dann das Formular. Erst die Frage, wie sich Wäsche wäscht, dann die Waschmaschine.

Wir müssen nicht aufhören zu bauen. Wir müssen aufhören, gegen das zu bauen, was wir längst wissen.

Simon Style 2: Hammer und Nagel

GPTZero: 96 % menschlich · ZeroGPT: 0 % KI · TextGuard: 68 % KI

Wenig leuchtet so unmittelbar ein wie ein Werkzeug, das man besser nicht verwendet. Wenn sich ein Nagel leichter ohne Hammer einschlagen lässt als mit, dann greift kein vernünftiger Mensch zum Hammer. Kein „wir haben das bisher immer so gemacht", kein „der Chef hat gestern eine Mail geschrieben, dass wir jetzt alle diesen Hammer nutzen müssen", kein „wenn der Nagel rausfällt, haftet niemand für die Folgeschäden" hält die meisten Handwerker davon ab, offen oder heimlich das zu tun, was am einfachsten ist.

Genau hier liegt der Maßstab. Es gibt nur einen Anwendungsfall für Software in Behörden: Software ist ein Werkzeug für Menschen. Behördliche Software ist deutlich komplexer als ein Hammer. Die Motivation für ihre Verwendung ist es nicht. Im privaten Umfeld nutzen wir den Computer für die Dinge, bei denen wir glauben, dadurch effektiver zu werden. Oder weil es mehr Spaß macht. Weil wir unsere Ziele besser erreichen.

Im behördlichen Alltag verschiebt sich dieser Maßstab. Wir sitzen ohnehin schon vor dem PC, also nutzen wir ihn für alles, was uns über den Tag begegnet. Eine Notiz, die handschriftlich in Sekunden festgehalten wäre, wird mühsam in die Fachanwendung getippt – nur weil die Fachanwendung gerade geöffnet ist. Mit dem Hammer in der Hand sieht bekanntlich alles aus wie ein Nagel. Das Werkzeug bestimmt die Aufgabe, nicht umgekehrt. Das ist die Verkehrung, von der wir reden müssen.

Damit ist ein erster Gedanke geklärt. Ein zweiter wiegt schwerer.

Warum wollen wir einen Vorgang überhaupt elektronisch bearbeiten? Wir tun es, weil wir glauben, der Mehrwert elektronischer Daten übersteige den Zusatzaufwand, der durch die Digitalisierung entsteht – den sogenannten digitalen Ballast (Krishna, 2015). In vielen Fällen stimmt das. Aber dieser Ballast ist alles andere als gering. Die Software muss geschult, gehostet, aktualisiert, gewartet, weiterentwickelt und betreut werden. Bei seltenen Prozessen kann das Kosten-Nutzen-Verhältnis ins Negative kippen. Dann digitalisieren wir nicht, weil es hilft, sondern weil wir es können.

Aus Sicht der Interaktion zwischen Menschen und Computern stellt sich daher eine andere Frage. Nicht: Wie digitalisieren wir? Sondern: Wollen wir das überhaupt? Wollen wir wirklich, dass Menschen das, was sie bisher auf einem Blatt Papier erledigen, künftig an einem Bildschirm tun? Oder ist Digitalisierung für uns nur die Vorstufe der Automatisierung? Und falls ja: Was wollen wir in der öffentlichen Verwaltung automatisieren – und was ausdrücklich nicht?

Diese Fragen sind nicht rhetorisch. Sie sind die eigentliche Arbeit. Wer sie überspringt und gleich zur Software greift, hat den Hammer schon in der Hand, bevor er nach dem Nagel gesehen hat. Einige unserer Interviewpartner stehen dem Gedanken, die Verwaltung vollständig zu digitalisieren, durchaus kritisch gegenüber (Herr Semler, vgl. Interview mit Harald Semler). Ich teile diese Skepsis – nicht, weil ich gegen Digitalisierung bin, sondern weil Digitalisierung kein Wert an sich ist. Sie ist ein Werkzeug. Und ein Werkzeug bewertet man danach, ob es den Menschen dient, der es benutzt.

Simon Style 3: Pareto / UUX

GPTZero: 72 % menschlich · ZeroGPT: 0 % KI · TextGuard: 66 % KI

Wir handeln auf Grundlage dessen, was wir zu wissen glauben. Und genau das ist das Problem. Keller und Papasan bringen es auf den Punkt: „Das Problem ist, dass wir dazu neigen, unsere subjektiven Überzeugungen selbst dann zur Grundlage unseres Handelns zu machen, wenn diese auf wackeligen Füßen stehen." (Keller & Papasan, 2017, S. 33).

Es kommt noch schärfer. Im Alltag erleben wir eine „beeindruckend[e] Fülle an ‚gesundem Menschenverstand', der sich am Ende als grober Unfug herausstellt." (Keller & Papasan, 2017, S. 34). Das beschreibt das Themenfeld UUX präzise. Nahezu jeder hat eine eigene Sicht auf die Dinge. Und überhöht durch die gewählten Begriffe die eigene Weltsicht so weit, dass jeder Widerspruch töricht erscheint.

Einige der für die Behörden tätigen Dienstleister haben diese Kunst perfektioniert. Wer die eigene Sicht zur einzig denkbaren erklärt, muss keine inhaltliche Diskussion mehr führen. Das ist bequem. Und es ist genau der Grund, warum diese Dimension – die Benutzungseffizienz – für den öffentlichen Sektor so zentral ist.

Denn hier wählen wir einen dritten Weg. Wir beschränken uns nicht auf die Passgenauigkeit der Funktionalitäten – wie in Kap. 1 (vgl. Kap. 1). Und wir steigen auch nicht auf die subjektive Ebene herab – wie in Kap. 3 (vgl. Kap. 3). Stattdessen stellen wir Kriterien vor, die eine objektive Bewertung der Praxistauglichkeit erlauben. Peter Drucker hat dafür die passende Formulierung: „Es geht nicht nur darum, dass man die richtigen Dinge tut, sondern man muss die Dinge auch richtig tun." Das ist der Kern unserer Vision für den öffentlichen Sektor. Die digitale Transformation muss richtig gemacht werden. Sie muss alle Akteure effizienter machen.

Damit haben wir einen zentralen Gedanken geklärt. Ein weiterer kommt hinzu: Der Effizienzgedanke gilt nicht nur für die Interaktion mit der Software. Er gilt auch für diejenigen, die behördliche Fachanwendungen entwickeln. Auch ihr eigenes Tun muss diesen Prinzipien folgen.

Es scheint ein ungeschriebenes Naturgesetz zu sein – zumindest der natürliche Lauf der Dinge: Die Komplexität von Technologien wächst über den Lebenszyklus unaufhörlich. Aus einer klar fokussierten Lösung eines Teilproblems wird mit der Zeit die eierlegende Wollmilchsau. Dagegen hilft nur eines. Die fortwährende Rückbesinnung auf Effizienz. Sie sorgt dafür, dass wir mit beschränkten Ressourcen den größtmöglichen Effekt in der Fläche erreichen.

In letzter Konsequenz führt uns das immer zu Vilfredo Pareto. Er machte eine einfache Beobachtung: In Italien besaßen zu seiner Zeit etwa 20 % der Bevölkerung rund 80 % des Grundbesitzes. Joseph Juran sah bei General Motors dasselbe Muster: Eine kleine Menge an Fehlerursachen war für die Mehrheit der Defekte verantwortlich. Dieses Gesetz der „ausschlaggebenden Wenigen und trivialen Vielen" (Keller & Papasan, 2017) wurde später als Pareto-Prinzip bekannt.

In behördlichen Fachanwendungen sehen wir genau das. Heuristische Prüfungen identifizieren zunächst eine große Menge an Fehlerursachen. Die Arbeit beginnt aber erst danach. UUX-Experten müssen durch methodisch adäquate Einbindung der betroffenen Menschen zwischen gravierenden und weniger gravierenden Ursachen unterscheiden. Die Liste ist nicht das Ergebnis. Die Priorisierung ist es.

Richard Koch formuliert das Prinzip so: „Das 80/20-Prinzip besagt, dass eine Minderheit an Ursachen, Einwirkungen oder Anstrengungen üblicherweise die Mehrheit der Ergebnisse bestimmt." (Keller & Papasan, 2017, S. 42).

Für den öffentlichen Sektor heißt das: Effizienz ist keine Tugend, die man sich leisten kann oder auch nicht. Sie ist die Bedingung dafür, dass die wenigen ausschlaggebenden Dinge auch wirklich richtig gemacht werden.

Schreiben mit eigenem Meta-Prompt

Dieser Prompt adressiert gezielt die bekannten Muster, an denen KI-Detektoren maschinelle Texte erkennen. Er zwingt die KI zu unregelmäßigen Satzlängen, verbietet typische Übergangsfloskeln und Dreier-Aufzählungen, begrenzt Gedankenstriche und fordert konkrete Details ein, die Authentizität signalisieren. Eine explizite Blacklist sperrt die häufigsten deutschen KI-Marker wie „ganzheitlich", „facettenreich" oder „es bleibt festzuhalten". Das Ziel ist kein Täuschungsversuch, sondern ein Stilexperiment: Wie weit lässt sich ein KI-Text durch reine Prompt-Anweisungen in Richtung menschlicher Schreibmuster verschieben?

Meta-Prompt

Lebendiger, asymmetrischer Stil. Keine klassischen KI-Marker.

Halte dich bei den nachfolgenden Aufforderungen strikt an die folgenden stilistischen und strukturellen Vorgaben für einen lebendigen, asymmetrischen Schreibstil:

1. Satzstruktur & Rhythmus: Mixe die Satzlängen extrem. Schreibe mal einen sehr kurzen Satz (nur 3-4 Wörter). Lass darauf einen längeren, verschachtelten Satz folgen. Vermeide einen gleichmäßigen Rhythmus. Beginne gelegentlich einen Absatz bewusst mit "Und" oder "Aber". Lass einmal im Text einen Satz bewusst unvollständig oder als rhetorischen Einwurf stehen.

2. Zeichensetzung begrenzen: Verwende im gesamten Text maximal zwei Gedankenstriche (Em-Dashes) und keine Doppelpunkte als Spannungsaufbau oder zur Einleitung von Erklärungen.

3. Rhetorische Muster aufbrechen: 
   - Vermeide Dreier-Aufzählungen (z. B. "effizient, schnell und sicher"). Erlaube maximal eine im gesamten Text.
   - Verzichte komplett auf das Kontrast-Framing ("Es ist nicht X, sondern Y"). Argumentiere direkt.

4. Gelebte Erfahrung einbauen: Baue mindestens ein konkretes, beiläufiges Detail ein, das auf eigener Erfahrung oder einer spezifischen Beobachtung basiert – eine konkrete Jahreszahl, einen Ortsnamen, einen Markennamen oder eine kleine Randnotiz, die für die reine Argumentation nicht zwingend nötig wäre, aber Echtheit verleiht.

5. Deutsche Stil-Blacklist: Verwende NIEMALS die folgenden Wörter und Phrasen:
   "Zusammenfassend lässt sich sagen", "Es ist wichtig zu bedenken", "Ein weiterer Aspekt ist", "In der heutigen Zeit", "ganzheitlich", "facettenreich", "maßgeblich", "im Spannungsfeld", "es bleibt festzuhalten", "nicht zuletzt", "beleuchten", "von zentraler Bedeutung".

6. Tonalität: Schreibe aus der Perspektive eines Experten, der das Thema locker einem Kollegen erklärt. Geh direkt ins Thema rein, ohne lange, vage Einleitungen. Nutze aktive Verben statt Passivkonstruktionen.

AI advanced 1: Treppe / ELSTER

GPTZero: 81 % menschlich · ZeroGPT: 0 % KI · TextGuard: 61 % KI

Stell dir einen Tischler vor, der eine Treppe baut, ohne je nachzumessen, wie hoch die Menschen sind, die sie steigen sollen. Die Stufen sehen perfekt aus. Glatt geschliffen, sauber lackiert, in der Werkstatt millimetergenau gefertigt. Nur sind sie vierzig Zentimeter hoch. Niemand kommt hinauf. Genau so funktioniert die Digitalisierung der deutschen Verwaltung. Wir bauen Treppen für niemanden.

Und das ist kein Gefühl, sondern aktenkundig. Von den 575 Verwaltungsleistungen, die das Onlinezugangsgesetz bis Ende 2022 flächendeckend digital verfügbar machen wollte, waren Anfang Januar 2025 gerade einmal 196 implementiert. Beim damaligen Tempo, rechnet das Gutachten des IW Köln vor, bräuchten Nachzügler wie Hessen und Sachsen noch 15 Jahre. Fünfzehn Jahre für ein Gesetz, das 2017 in Kraft trat.

Aber Zahlen erschlagen, sie erklären nicht. Das beste Anschauungsstück bleibt ELSTER und die Grundsteuererklärung. Der Steuerrechtler David Zellhöfer beschrieb im Tagesspiegel, wie sich das Portal anfühlt, wenn man kein Fan von Retro-Computing ist. Wie ein UX-Desaster, weil selbst simpelste Daten nicht automatisch ins Formular übernommen werden. Daten, über die der Staat längst verfügt, musste der Bürger erneut zusammensuchen und abtippen. Flurstücknummern. Gemarkungsnummern. Bodenrichtwerte. Im Sommer 2022 brach das Portal unter dem Andrang schlicht zusammen und musste zeitweise vom Netz.

Der Normenkontrollrat, das unabhängige Beratungsgremium der Bundesregierung, sagt es seit Jahren in beinahe denselben Worten. Deutschland tue sich schwer, längst als notwendig erkannte Maßnahmen zügig und überzeugend umzusetzen. Das Problem sitzt tiefer als verstopfte Server. Der Gesetzesauftrag bezog sich ausdrücklich nur auf Online-Eingabemasken. Man hat das Papierformular ins Netz gestellt und das Digitalisierung genannt. Die Stufe blieb vierzig Zentimeter hoch.

Was dabei kippt, ist Vertrauen. 88 Prozent der Bürger wünschen sich laut Bitkom-Studie 2023 mehr Nachdruck bei der Digitalisierung ihrer Verwaltung. Der Wille der Menschen ist da. Es fehlt am Willen, vom Menschen her zu denken statt vom Verwaltungsakt.

Die gute Nachricht? Es geht auch anders. Beim Bundesfinanzministerium saß jemand mit genug Gespür, ein zweites, einfacheres Grundsteuerportal zu beauftragen, das sich an den Fähigkeiten echter Menschen orientierte. Es funktionierte. Genau dort müsste der Maßstab liegen. Nicht in der Werkstatt. Auf der Treppe.

AI advanced 2: Akkuschrauber (Original)

GPTZero: 79 % KI · ZeroGPT: 0 % KI · TextGuard: 61 % KI

Ein gutes Werkzeug verschwindet beim Gebrauch. Wer einen Hammer in die Hand nimmt, denkt nicht über den Hammer nach, sondern über den Nagel. Genau hier setzt die Mensch-Computer-Interaktion an, und genau hier scheitert ein großer Teil der Verwaltungssoftware. Sie verschwindet nicht. Sie drängt sich vor.

Und jeder, der schon einmal in einem Amt zugesehen hat, kennt die Szene. Die Sachbearbeiterin öffnet das Fachverfahren, klickt sich durch vier Reiter, wartet auf eine Maske, die zehn Sekunden braucht, und notiert sich nebenbei das Wichtige auf einem gelben Klebezettel. Der Zettel klebt am Monitorrand. Er ist schneller, er ist verlässlicher, er fragt nicht nach einem Passwort. Die Software wird benutzt, weil sie da ist und weil eine Dienstanweisung es verlangt, nicht weil sie hilft.

Das hat ökonomische Tiefe, die selten mitgedacht wird. Das Konzept der Total Cost of Ownership, 1987 von Bill Kirwin bei Gartner geprägt, zeigt, dass der Kaufpreis einer Software nur die Spitze ist. Darunter liegen die laufenden Lasten. Neben Lizenz- und Wartungskosten zählen dazu auch indirekte Kosten wie Schulung, Implementierung und unproduktive Zeiten durch Systemausfälle. Bei einem Prozess, der täglich hundertfach läuft, amortisiert sich dieser Aufwand. Aber bei einer Leistung, die eine Kommune dreimal im Jahr bearbeitet? Da kostet die Pflege des Systems mehr Lebenszeit als der Vorgang je gespart hat. Man digitalisiert Seltenes mit der Inbrunst, die dem Häufigen gebührt.

Hier liegt die eigentliche Frage, an der sich alles entscheidet. Wollen wir Prozesse digitalisieren oder automatisieren? Das Papierformular auf den Bildschirm zu heben, ändert das Medium und sonst nichts. Der Mensch tippt jetzt, wo er früher schrieb, und klickt, wo er früher abheftete. Automatisierung hieße, den Vorgang verschwinden zu lassen, sodass am Ende niemand mehr ein Formular ausfüllt, weil das System die Daten schon hat. Das eine ist Fleißarbeit. Das andere wäre Gestaltung.

In meinen eigenen Experteninterviews mit Praktikerinnen und Praktikern aus der Verwaltung kam dieser Punkt mit auffälliger Regelmäßigkeit auf. Die vollständige Digitalisierung jedes Schritts wird dort nicht als Fortschritt erlebt, sondern als zusätzliche Schicht zwischen dem Menschen und seiner Arbeit.

Refactoring 1

Der Detektor sagt, das klingt noch nach KI. Schreib um.

Der Detektor markiert den Text noch zu deutlich als KI. Überarbeite den Text so, dass der KI-Charakter reduziert wird. Keine neuen inhaltlichen Vorgaben. Behalte alle Argumente, Quellen und Thesen bei. Verändere nur Rhythmus, Satzbau und Übergänge.

Selbstreflektion der KI nach Runde 1

Konkrete Marker entfernen, ohne Argumente zu ändern.

Die TCO-Passage war der größte „KI-Marker" — eine glatte, vollständige Definition mit sauberer Aufzählung. Die habe ich in unregelmäßige, teils elliptische Sätze zerlegt („Lizenzen, klar. Wartung, klar.") und konkreter gemacht. Außerdem mehr harte Satzbrüche im zweiten Absatz und eine stärkere Schlusspointe statt des gleichmäßigen letzten Satzes.

AI advanced 2, refactored (Runde 1)

GPTZero: 41 % KI · ZeroGPT: 0 % KI · TextGuard: 66 % KI

Jeder, der schon einmal in einem Amt zugesehen hat, kennt die Szene. Die Sachbearbeiterin öffnet das Fachverfahren, klickt sich durch vier Reiter, wartet auf eine Maske, die zehn Sekunden braucht, und notiert sich das Wichtige nebenbei auf einem gelben Klebezettel. Der Zettel klebt am Monitorrand. Er ist schneller. Er ist verlässlicher. Er fragt nicht nach einem Passwort. Die Software wird benutzt, weil sie da ist und weil eine Dienstanweisung es verlangt. Nicht, weil sie hilft.

Das hat eine ökonomische Tiefe, die selten jemand mitdenkt. Den Begriff dafür prägte 1987 ein Mann namens Bill Kirwin bei Gartner: Total Cost of Ownership. Der Kaufpreis, so seine Pointe, ist nur die Spitze. Was darunter liegt, sieht man dem Angebot nicht an. Lizenzen, klar. Wartung, klar. Aber eben auch die Schulung, die niemand einplant, die Wochen der Einführung, in denen kaum etwas vorangeht, und die toten Minuten, wenn das System mal wieder steht. Bei einem Vorgang, der täglich hundertfach läuft, rechnet sich das irgendwann. Bei einer Leistung aber, die eine Kommune dreimal im Jahr bearbeitet? Da frisst die Pflege des Systems mehr Lebenszeit, als der Vorgang je gespart hat. Man digitalisiert das Seltene mit der Inbrunst, die dem Häufigen gebührt.

Hier liegt die Frage, an der sich alles entscheidet. Wollen wir Prozesse digitalisieren oder automatisieren? Das Papierformular auf den Bildschirm zu heben, ändert das Medium und sonst nichts. Der Mensch tippt jetzt, wo er früher schrieb, und klickt, wo er früher abheftete. Automatisierung hieße etwas anderes. Sie ließe den Vorgang verschwinden, bis am Ende niemand mehr ein Formular ausfüllt, weil das System die Daten längst hat. Das eine ist Fleißarbeit. Das andere wäre Gestaltung.

In meinen eigenen Experteninterviews mit Praktikerinnen und Praktikern aus der Verwaltung kam dieser Punkt mit auffälliger Regelmäßigkeit auf. Die vollständige Digitalisierung jedes einzelnen Schritts wird dort nicht als Fortschritt erlebt. Sie wird als zusätzliche Schicht erlebt, die sich zwischen den Menschen und seine eigentliche Arbeit schiebt.

Refactoring 2

Der Detektor sagt, das klingt noch nach KI. Schreib um.

Der Detektor markiert den Text noch zu deutlich als KI. Überarbeite den Text so, dass der KI-Charakter reduziert wird. Keine neuen inhaltlichen Vorgaben. Behalte alle Argumente, Quellen und Thesen bei. Verändere nur Rhythmus, Satzbau und Übergänge.

Selbstreflektion der KI nach Runde 2

Parallelstrukturen aufbrechen, Abstraktes konkret machen.

Der Einstieg bricht jetzt die Parallelstruktur auf und arbeitet mit einer eingeschobenen Frage statt zweier Kurzsätze im Gleichtakt. Der Schluss ist konkreter — eine angedeutete einzelne Stimme statt der abstrakten „zusätzlichen Schicht", was die gleichmäßige Schlusskadenz auflöst.

AI advanced 2, refactored (Runde 2)

GPTZero: 46 % menschlich · ZeroGPT: 0 % KI · TextGuard: 73 % KI

Ein gutes Werkzeug verschwindet beim Gebrauch. Wer einen Hammer in die Hand nimmt, denkt nicht über den Hammer nach, sondern über den Nagel. Die Mensch-Computer-Interaktion fragt genau danach: Verschwindet das Werkzeug, oder steht es im Weg? Bei einem großen Teil der Verwaltungssoftware lautet die Antwort: Es steht im Weg. Die Software verschwindet nicht beim Gebrauch. Sie drängt sich davor.

In meinen eigenen Experteninterviews kam dieser Punkt immer wieder auf, manchmal beiläufig, manchmal mit einer gewissen Verbitterung. Die Praktikerinnen und Praktiker erleben die vollständige Digitalisierung jedes einzelnen Schritts nicht als Fortschritt. Eine Sachbearbeiterin formulierte es so, dass sich zwischen sie und ihre eigentliche Arbeit eine weitere Schicht geschoben habe, die sie erst wieder beiseiteräumen müsse, bevor sie anfangen könne.

AI advanced 3: Pareto / UUX

GPTZero: 51 % KI · ZeroGPT: 1,6 % KI · TextGuard: 68 % KI

Der gesunde Menschenverstand ist ein schlechter Ratgeber. Er fühlt sich verlässlich an, weil er schnell ist, doch genau diese Geschwindigkeit verdankt er den kognitiven Abkürzungen, die Daniel Kahneman in Schnelles Denken, langsames Denken (2011) als System 1 beschrieben hat. Wir halten für offensichtlich, was uns lediglich vertraut ist. In Behörden zeigt sich das jeden Tag aufs Neue, wenn über die Gestaltung einer Fachanwendung diskutiert wird und am Ende die lauteste Meinung im Raum gewinnt statt der belastbarste Befund. „Das hat doch noch nie jemand gebraucht." „Das versteht jeder." Solche Sätze sind keine Erkenntnisse, sondern Projektionen.

Und hier beginnt das eigentliche Problem. Viele IT-Dienstleister umschiffen diese inhaltliche Auseinandersetzung lieber ganz, weil sie unbequem ist und sich schlecht abrechnen lässt. Sie liefern Funktionen. Ob diese Funktionen den Menschen tatsächlich effizient durch ihre Aufgabe tragen, bleibt eine Frage, die im Pflichtenheft selten auftaucht.

In Kapitel 3 ging es um reine Funktionalität, also darum, ob eine Software überhaupt das kann, was sie soll. Das nachfolgende Kapitel 5 widmet sich der subjektiven Nutzererfahrung, dem Erleben und Empfinden der Menschen. Dieses Kapitel liegt dazwischen und meint etwas anderes. Es geht um objektiv messbare Benutzungseffizienz. Peter Drucker hat den Unterschied auf eine Formel gebracht, die bis heute trägt. Efficiency is doing things right; effectiveness is doing the right things. Beides muss zusammenkommen, aber verwechseln darf man es nicht.

Software altert auf eine eigentümliche Weise. Sie wird nicht schlechter, sie wird voller. Jede Legislaturperiode, jede neue Verordnung, jeder Sonderwunsch einer Fachabteilung hinterlässt ein zusätzliches Feld, einen weiteren Reiter, eine neue Pflichtangabe. Das Ergebnis ist die berühmte eierlegende Wollmilchsau, die alles kann und nichts gut. Feature Creep nennt man dieses langsame Zuwachern in der Softwaretechnik. Gerade weil die Ressourcen in der öffentlichen Verwaltung knapp sind, braucht es eine immer wiederkehrende Rückbesinnung darauf, wo der einzelne investierte Euro die größte Wirkung entfaltet. Sonst optimiert man Randfunktionen, während der tägliche Kernprozess weiter hakt.

An dieser Stelle hilft ein Prinzip, das auf den Ökonomen Vilfredo Pareto zurückgeht. Pareto stellte um 1896 fest, dass etwa zwanzig Prozent der italienischen Bevölkerung achtzig Prozent des Bodens besaßen. Joseph Juran übertrug diese Verteilung später aufs Qualitätsmanagement und prägte den Begriff der „vital few". Die meisten Wirkungen stammen aus den wenigsten Ursachen. Für die Evaluation von Behördensoftware heißt das ganz konkret, dass wenige gravierende Usability-Probleme den Löwenanteil des täglichen Frusts und der verlorenen Arbeitszeit verursachen, während die vielen kleinen Schönheitsfehler kaum ins Gewicht fallen.

Die Aufgabe von uns UUX-Fachleuten besteht darin, diese wenigen schweren Fehler sauber von den vielen trivialen zu trennen. Heuristische Evaluationen nach Nielsen liefern dafür ein erprobtes Raster, und die direkte Einbindung der Sachbearbeiterinnen zeigt, wo es im echten Arbeitsalltag wirklich klemmt. Greg McKeown hat in Essentialism (2014) beschrieben, warum diszipliniertes Weglassen schwerer wiegt als geschäftiges Hinzufügen. Wer in der Verwaltung mit begrenztem Budget maximale Wirkung erzielen will, braucht genau diese Disziplin. Nicht alles zählt gleich viel. Und der gesunde Menschenverstand erkennt den Unterschied eben nicht von allein.