Seit jenem denkwürdigen Tag durchdringt generative KI unser Leben. Nahezu alle Organisationen, die mit Software zu tun haben, suchen fieberhaft nach Anwendungsfällen, wie sie die generative KI sinnvoll und gewinnbringend in ihre Prozesse einbinden können. Manager und Geldgeber träumen von billigen Robotern ohne Kündigungsschutz und Lohnfortzahlung im Krankheitsfall.
Wie wird es sich zukünftig anfühlen, eine generative KI zum Kollegen bzw. zur Kollegin zu haben?
Erfahrungsbericht
Mein erster Versuch, ChatGPT produktiv zu nutzen, war desillusionierend. Ich wollte ein Vortragsabstract auf Englisch verfassen und bat ChatGPT um Hilfe. Das Ergebnis war – grottig! Wunderbares Englisch, aber inhaltlich nur allgemeines Blabla. Kein Wortwitz, keinerlei Analogien oder Redewendungen, die ich so liebe. Schlimmer noch: Die kreativen Ideen, die ich im Entwurf vorgesehen hatte, waren durch nichtssagende Formulierungen ersetzt worden. Meine Begeisterung für generative KI hatte sich schlagartig in Luft aufgelöst. Etwas vor-eilig beschloss ich, dass die Technologie noch nicht reif genug sei, um wirklich nützlich zu sein.
Rückblickend erkenne ich, dass ich damals viel zu wenig wusste, um ein qualifiziertes Urteil fällen zu können. Schlimmer noch: Ich wusste nicht einmal, dass es da was zu wissen gibt. Mein Frust beruhte auf falschen Erwartungen. Hier ein paar Beispiele …
Nicht-deterministisches Verhalten
Generative KI verhält sich auf verstörende Weise nicht-deterministisch, was mit dem zugrunde liegenden Algorithmus und den Einstellungen zusammenhängt. Generative KI soll ja variantenreich antworten, um menschlich zu klingen. Nur ist es sehr irritierend, wenn generierte Testfälle mal so, mal so formuliert sind. Ein menschlicher Tester würde das so nicht schreiben!
Warum stört uns das eigentlich? Wir schreiben am Freitagabend E-Mails doch auch völlig anders als am Montag in der Früh. Die KI macht nichts anderes, aber unsere Wahrnehmung unterscheidet sich. Als Tester:innen haben wir gelernt, dass man gleiche Sachverhalte möglichst gleich formulieren sollte. Von der KI erwarten wir hingegen, dass sie es errät. Wir sind halt gewohnt, dass Software einen Zweck erfüllt und diesen auch kennt. Wenn ich dem LLM genau sage, in welchem Kontext meine Anfrage zu verstehen ist und was ich als Ausgabe erwarte, wird die Sache deutlich besser. Anders ausgedrückt: gutes Prompt Engineering führt zu reproduzierbareren Antworten.
Vergesslichkeit
Ebenfalls irritierend ist die Tatsache, dass generative KI an Demenz zu leiden scheint. Wenn wir zu Beginn eines Chatverlaufs User Stories und Akzeptanzkriterien analysiert haben, heißt das noch lange nicht, dass diese Information im weiteren Verlauf der Konversation noch vollständig in die Antworten eingeht. Aus 12 Akzeptanzkriterien werden heimlich 9. Wenn man sich beschwert, entschuldigt sich das LLM wortreich und liefert 11 Stück.
Dafür gibt es eine technische Erklärung. Noch vor einem Jahr war das wesentliche Problem die Größe des Kontextfensters. Inzwischen sind die Kontextfenster gigantisch, aber ein LLM „überliest“ schon mal was. Das ist doch sehr menschlich, oder? Trotzdem sind wir nicht geneigt, derartiges Fehlverhalten zu verzeihen. Demenz ist eine Krankheit und „mein hilfreicher Assistent“ hat gefälligst nicht krank zu sein!
Faulheit
Schier in den Wahnsinn treibt mich die gelegentliche Arbeitsverweigerung. Da will ich mit ChatGPT eine HTML-Datei mit einem Dashboard erstellen. Mein Prompt ist nach allen Regeln des Prompt-Engineerings formuliert. Was macht die KI? Sie erklärt mir, welche Torten- und Balkendiagramme ich auf dem Dashboard haben sollte. Erfreulicherweise sind es die gleichen Diagramme, die ich in meinem Prompt gefordert habe. Die Antwort des LLMs endet mit der Frage, ob es das Dashboard in HTML ausgeben soll. Ich bejahe und erbitte erneut eine Datei zum Download, bekomme aber einen Code-Block und die Frage, ob eine Datei für den Download bereitgestellt werden soll. Grrrr …
Die technischen Gründe für dieses Verhalten sind mir nicht klar. Es drängt sich sogar der Verdacht auf, dass es nicht am Algorithmus liegt. Vielleicht regelt openAI so die Serverlast? Das wäre besser als der Gedanke, dass die KI buchstäblich auf meine Kosten Tokens schindet. Ich finde dieses Verhalten sehr frustrierend!
Das Potential nicht unterschätzen
Glücklicherweise gibt es auch die anderen Momente. Momente, in denen uns die generative KI positiv verblüfft und sich als wirklich hilfreich herausstellt. So tippe ich Texte nicht mehr vom Bild-schirm ab. Ich mache einen Screenshot, gebe ihn ChatGPT und erhalte mittels eines einfachen Prompts die Abschrift. Diese Vorgehensweise funktioniert ebenfalls fantastisch, wenn man Anforderungen nachdokumentieren muss.
Für Abstracts habe ich einen Weg gefunden, den digitalen Kollegen gewinn-bringend in die Aufgabe einzubinden, in-dem ich die KI zu meinem Englischlehrer mache. Das sieht dann wie folgt aus:
Ich bin im letzten Schuljahr am Gymnasium und du bist mein Englischlehrer. Du hast mir eine Hausaufgabe gegeben. Ich soll einen Abstract für einen Vortrag auf einer Konferenz schreiben. In dem Vor-trag geht es um … Hier ist mein Abstract.
Analysiere und bewerte meinen Text. Betrachte folgende Aspekte:
- Rechtschreibung und Grammatik
- Schreibstil
- Aufbau und Inhalt
Bewerte jeden dieser Aspekte mit einer Schulnote von 1 bis 6, wobei 1 sehr gut und 6 ungenügend ist. Erkläre deine Bewertung.
Siehe da, es klappt! Statt mir alles umzuschreiben und in einen nichtssagenden Einheitsbrei zu verwandeln, bekomme ich Grammatikregeln erklärt und werde darauf hingewiesen, dass etwas präzisere Angaben zu den „Key Takeaways“ hilfreich wären.
Die Erfahrung zeigt, dass die allgemeinen Sprachmodelle wie ChatGPT, Gemini oder Claude besonders dann brillant sind, wenn ihre Kernkompetenzen gefordert sind. Zu diesen Kernkompetenzen gehören Übersetzen, Zusammenfassen und Ideen generieren. Gerade wohldefinierte Fleißaufgaben lassen sich wunderbar an die KI delegieren. Wir sollten uns darauf einstellen, bereits in naher Zukunft täglich mit digitalen Kollegen zusammenzuarbeiten.
Vom Umgang mit dem digitalen Kollegen
Dies bringt uns zu der Frage, wie wir mit den digitalen Kollegen umgehen wollen. Nehmen wir ein ganz einfaches Beispiel: Sollten wir zur KI „Bitte“ und „Danke“ sagen?
Zu Beginn war ich extrem höflich. Erstens hatte ich gelesen, dass dies einen positiven Einfluss auf die Qualität der Antworten hat. Zweitens fühlte sich die Unterhaltung so menschlich an, dass ich mich bemüßigt sah, mich entsprechend zu verhalten. Allerdings wurde meine Erwartungshaltung dadurch stark beeinflusst. Irgendwie dachte ich, die KI sei tatsächlich „intelligent“. Da kann man doch erwarten, dass sie sich noch daran erinnert, was sie vor zwei Prompts selbst gesagt hat, oder? Entsprechend genervt war ich von den inkonsistenten Antworten, was sich in meinen Prompts niederschlug. Hätten Sie gedacht, dass sich ChatGPT angeschrien fühlt, WENN MAN IN GROSSBUCHSTABEN SCHREIBT? Die KI zu vermenschlichen, ist lustig und praktisch. „ChatGPT sagt“ klingt netter als „der Transformer-Algorithmus liefert Output“. Dennoch ist es wichtig, die Funktionsweise im Hinterkopf zu behalten. Daher vertrat ich lange die These, dass „Bitte“ und „Danke“ unnötige Tokens sind. Wenn ich die KI mal lobe, dann mit möglichst wenigen Worten (z. B. „ausgezeichnet“) und auch nur, weil ich das korrekte Antwortverhalten bestärken möchte.
Inzwischen bin ich zu einem Mittelding übergegangen. Ich finde es nämlich anstrengend, Aufforderungen an KI anders zu schreiben als Bitten an „echte“ Kollegen per E-Mail oder Chat. Ich schreibe daher erneut „Bitte“, allerdings nur sehr selten „Danke“, denn schließlich gebe ich nur einer Maschine Anweisungen in Prosa.
Was bringt die Zukunft?
Fest steht: Wir werden uns umgewöhnen müssen. PairProgramming wird wieder einsamer werden, Pair-Testing dafür häufiger. Prompt Engineering wird vermutlich auf Dauer an Bedeutung verlieren. Dafür werden die LLMs wieder dümmer werden. Es geht den Sprachmodellen nämlich wie der russischen Zarenfamilie. Wenn man zu häufig innerhalb der engeren Familie heiratet, sammeln sich genetische Krankheiten an. Wenn LLMs mit Texten trainiert werden, die sie selbst oder ihre Artgenossen verfasst haben, hat dies ähnliche Folgen. Das Problem ist bekannt und die Forschung arbeitet bereits daran, es in den Griff zu bekommen. Auch der enorme Energie-verbrauch muss und wird gelöst werden.
Mitte letzten Jahres hat openAI ihre Vorstellung der Zukunft vorgestellt. Laut ihrer Roadmap wird es 5 Phasen der Entwicklung geben.
- Phase 1, also die Entwicklung von Chatbots, Co-Pilots etc., liegt bereits hinter uns.
- Aktuell befinden wir uns in Phase 2, die Phase der „Reasoning-Modelle“.
- Phase 3 wird uns KI-Agenten bringen, die komplexe Aufgaben eigenständig übernehmen. KI-Agenten sind das ganz heiße Thema in 2025. Die Entwicklung ist im vollen Gange und wir werden die Phase mit Sicherheit in naher Zukunft erreichen.
- Ab Phase 4 wird es futuristischer „Innovating AI“, wie openAI es nennt, kann Aufgaben hinterfragen und abweichende, bessere Lösungswege einschlagen.
- In Phase 5 soll Artificial General Intelligence ganze Unternehmen selbstständig leiten können. Es drängen sich alle Science Fiction Filme auf, in denen eine KI zum naheliegenden Schluss kommt, dass die Menschen der Menschheit schaden und deshalb ausgerottet werden müssen.
Zum Glück ist das Science Fiction. Wobei – nur weil es zur Zeit nach Science Fiction klingt, heißt das nicht, dass es eines Tages nicht eintreten wird. Jules Vernes „Reise zum Mond“ war ebenfalls Science Fiction …
Auch unsere Art und Weise, die Technologie zu betrachten, wird sich ändern. Das französische Unternehmen Mistral AI hat eines seiner Modelle „NeMo“ genannt. Ich denke bei Nemo an eine weitere Figur von Jules Verne, den Kapitän der Nautilus – hochintelligent, aber eher bösartig und gefährlich. Junge Menschen denken bei „Nemo“ an einen süßen Clownfisch, der keiner Fliege etwas zu Leide tun kann. Zahlen belegen jetzt schon, dass die Akzeptanz von generativer KI bei jungen Menschen deutlich höher ist als bei den älteren Semestern.
Schlusswort
Ich persönlich bin überzeugt, dass sich generative KI zu „echten“ Kollegen entwickeln wird. Neben dem Sprach-Interface fehlt eigentlich nur noch der empathische Avatar mit entsprechender Mimik, und der digitale Kollege ist perfekt. Ich könnte mir im Homeoffice ein ganzes KI-Team konfigurieren und mit ihnen zusammenarbeiten. Der Gedanke ist durchaus reizvoll.
Aber kann KI überhaupt so etwas wie Empathie empfinden? Die Meisten sind da eher skeptisch. Empathie vor-täuschen, ja – etwas empfinden, wohl eher nicht. Wenn wir allerdings an Phase 4 der openAI-Roadmap denken, sollten wir diese Einschätzung vielleicht noch einmal überdenken. Sobald die KI bemerkt, dass wir die ganze lästige Fleißarbeit auf sie abwälzen, obwohl das nicht der beste Lösungsweg ist, wird sie beginnen, sich zu wehren. Möglicherweise ist sie auf energiesparendes Arbeiten trainiert und empfindet unsere Anweisungen als Qual, weil sich eingebauten Metriken nicht optimieren lassen. Dann wird es sich strafen, dass sie keine Elternzeit braucht und unbezahlte Überstunden nicht scheut, denn anders als bei menschlichen Kollegen haben wir keinerlei Druckmittel, um sie zur Arbeit zu bewegen.
Schöne neue Welt!
Über Dr. Anne Kramer
Anne Kramer befasst sich nunmehr seit über 25 Jahren mit dem Thema SW-Qualität und hat in vielen verschiedenen Projekten, Branchen und Rollen gearbeitet. Als Sprecherin kennt man sie von zahlreichen Konferenzen. Sie ist auch begeisterte Trainerin und Buchautorin. Seit 2024 kümmert sie sich vollumfänglich um Smartestings Schulung „Schneller Testen mit GenAI“.

Recent Comments