Von Prototyp zu Produktion: Wie wir bei Tamedia generative KI einführen
In welcher Phase des KI-Hypecycles sind wir gerade? Zeit, eine Zwischenbilanz anhand eines konkreten Beispiels zu ziehen.
Mittlerweile sind sich (fast) alle einig: Grosse Sprachmodelle wie GPT werden die Medienbranche nachhaltig beschäftigen. Das Spektrum der Prognosen für die Zunft – zwischen komplettem Bedeutungsverlust und absolutem Heilsversprechen – ist breit. Täglich kommen neue, leistungsfähige Modelle auf den Markt, die Integration in eigene Systeme wird immer einfacher. Newsletter und Webinars mit Beispielen aus der medialen Praxis und Cheatsheets zu den besten Prompts für die Praxis tauchen in inflationärem Tempo auf – bevor sie bereits wieder veraltet sind. Die politische und juristische Debatte wurde ebenfalls längst lanciert.
Unter diesem Gesichtspunkt kann es für manche schwierig sein, den Wald vor lauter Bäumen noch zu sehen, sprich: die Geduld zu haben, die Eignung generativer KI für die eigene Redaktion systematisch auf Herz und Nieren zu prüfen. Doch das ist zentral, will man längerfristig von den Verheissungen der neuen Technologie profitieren. Das heisst: effizienter werden und / oder neue Produkte lancieren, die ohne nicht möglich wären. Dabei läuft man ständig Gefahr, sich von den unzähligen «Wow-Momenten», die im Minutentakt auf Plattformen wie LinkedIn geteilt werden, blenden zu lassen. Oft handelt es sich dabei um klassisches «Cherrypicking», das dem Realitätstest nicht lange standhält.
Bei Tamedia haben wir uns relativ früh auf ein systematisches, iteratives Vorgehen verständigt, um schnell mögliche Anwendungsgebiete zu identifizieren und zu testen. Zentral ist der Einbezug der Nutzerinnen und Nutzer – bei uns in erster Linie die Redaktion – in allen Stadien der Entwicklung.
Erste Phase: Anwendungen brainstormen
Bereits im Januar letzten Jahres haben wir unter meiner Leitung eine erste Arbeitsgruppe gegründet. In einem ersten Schritt haben wir mit diversen Redaktionsmitgliedern Workshops durchgeführt. Wir wollten herausfinden, ob es repetitive und mühsame menschliche Prozesse gibt, die generative KI unterstützen oder ganz ersetzen könnte. Das Ziel war, den «Sweet Spot» zwischen Implementationsaufwand, erhoffter Effizienzsteigerung und möglichen Risiken zu finden und damit eine erste Anwendung zu skizzieren.
- Der eigentliche Implementationsaufwand war dank der schnellen Verfügbarkeit von Modellen via Programmierschnittstellen (APIs) vernachlässigbar. Zur Implementation zählen wir jedoch auch eine einfache und aussagekräftige Möglichkeit zur Evaluation.
- Die Effizienzsteigerung hängt im Wesentlichen ab von der Qualität der Resultate. Daneben muss auch der Aufwand im täglichen Gebrauch einer Applikation mitberücksichtigt werden, beispielsweise der Kontrollaufwand. Dieser wächst mit der Grösse des Inputs (den man kennen sollte) und des Outputs (den man auf inhaltliche und sprachliche Qualität überprüfen sollte).
- Risiken: Diese wachsen aus meiner Erfahrung ebenfalls mit der Grösse des Inputs und des erwarteten Outputs. Kurze Zusammenfassungen von eher kurzen Meldungen tendieren beispielsweise zu weniger Halluzinationen oder unzulässigen Verkürzungen als die komplette Redigierung eines Interviews. Gleichzeitig ist das Risiko bei einem kleinen Output geringer, bei der Kontrolle etwas zu übersehen.
In den Workshops kamen dutzende Ideen zustande, aus denen wir uns erstmal für eine entschieden: Vorschläge für Teaser (Oberzeile, Titel, Lead). Dabei hatten wir nicht primär Teaser für längere Texte und Eigenleistungen im Sinn – wir waren und sind auch heute noch überzeugt, dass unsere Mitarbeitenden hier deutlich bessere Teaser als eine Maschine schreiben. Vielmehr wollten wir Teaser für Artikel generieren, bei denen es in der Regel schnell gehen muss: bei Agentur- und Gemeindemeldungen. Letztere beziehen wir seit längerem vollautomatisch von Hunderten von Gemeinde-Webseiten. Meistens sind diese Meldungen nicht wirklich gut betitelt und müssen von unseren Leuten am Desk noch anders angeteasert werden. Insbesondere diesen Prozess wollten wir durch generative KI unterstützen lassen, indem sie mehrere Vorschläge präsentiert, die entweder komplett übernommen werden oder als Inspiration dienen.
Bei dieser Anwendung sahen wir also einerseits einen kleinen Implementationsaufwand (aus oben genannten Gründen), andererseits eine Zeitersparnis von ungefähr einer Viertelstunde pro Artikel und letztlich ein überschaubares Risiko, da die Meldungen meist relativ simpel und kurz daherkommen und der zu kontrollierende Output relativ klein ist. Mit dieser Einschätzung waren wir nicht allein, für viele andere Medien ist dieser Anwendungsfall einer der naheliegendsten. Andere gehen aber auch deutlich weiter, beispielsweise bis zur komplett virtuellen Journalistin.
Grundsätzlich haben wir uns in diesen ersten Monaten darauf geeinigt, bei unseren ersten Gehversuchen primär Prompts zu testen, die einen uns bekannten Input zusammenfassen oder redigieren. Demgegenüber stehen Prompts, die konkrete Recherchefragen enthalten oder um Hilfe beim Brainstorming bitten. Dass diese unzuverlässiger sind und in die falsche Richtung lenken können, ist nicht zuletzt der statistischen Natur von Sprachmodellen und der unausweichlich voreingenommenen und zeitlich eingeschränkten Trainingsgrundlage geschuldet. Mittlerweile erlauben der RAG-Ansatz (d.h. die Anreicherung mit eigenen Dokumenten und Daten) oder auch das integrierte Webbrowsen, das bei Produkten wie ChatGPT und Google Gemini angeboten wird, diese Einschränkung etwas zu lockern.
Zweite Phase: Anwendungen testen
Als nächstes haben wir einen Prototypen gebaut, der es erlaubt, auf einfache Art und Weise Prompts auszuprobieren und mit einem simplen System zu bewerten.
Eine ausgewählte Testgruppe, die nach und nach vergrössert wurde, konnte dort Artikel hineinkopieren und jeweils drei verschiedene Teaser-Varianten generieren lassen. Am Ende gab es jeweils die Möglichkeit, die Resultate betreffend ihrer Nutzbarkeit zu beurteilen. Wir stellten bewusst die Frage nach «hilfreich» oder «nicht hilfreich» und nicht nach der eigentlichen Qualität der Teaser. Als «hilfreich» wurden die Vorschläge bezeichnet, wenn mit ihnen unter dem Strich eine Zeitersparnis resultierte.
Für uns war wichtig, dass wir die Bewertungen systematisch erfassten und nach Prompt sowie nach Sprachmodell auswerten konnten
Nach einer mehrmonatigen Testphase pendelte sich der Anteil der Vorschläge, die als hilfreich bewertet wurden, bei 60 bis 70 Prozent ein – ein Wert, der für uns gut genug war, um den Schritt in die Produktion zu wagen.
Dritte Phase: Anwendungen breit verfügbar machen
Aus Erfahrung wissen wir, dass KI-Anwendungen – so gut sie noch sein mögen – sich nur dann im redaktionellen Alltag durchsetzen können, wenn sie einfach verfügbar sind. Der naheliegendste Ort für unseren Teaser-Generator war folglich das hauseigene CMS. Gegen Ende letzten Jahres begannen wir mit dem UX-Design für den neuen KI-Helfer und kurz vor den Festtagen – sozusagen als Weihnachtsgeschenk – lancierten wir unseren Teaser-Generator für alle.
Dabei war uns wichtig, keine zu hohen oder falsche Erwartungen zu schüren. Auf verschiedenen Kanälen wiesen wir darauf hin, dass das Werkzeug in erster Linie für Agentur- und Gemeindemeldungen verwendet werden soll, und nicht für eigene Texte. Ausserdem betonten wir mehrmals, dass wir mit dem Teaser-Generator keine besseren Teaser, sondern schnelle Vorschläge zur Unterstützung und Inspiration bereitstellen wollen.
Auch zwingend für uns war eine gut platzierte Warnung, die generierten Vorschläge jeweils sprachlich und inhaltlich zu kontrollieren, was im Einklang mit unseren KI-Richtlinien ist.
Vierte Phase: Weiter iterieren
Mit dem Launch eines KI-Produkts, ob intern oder extern, ist die Reise selbstredend noch nicht zu Ende. Gebannt beobachteten wir die Nutzungszahlen und stellten mit Befriedigung fest, dass das Tool rege genutzt wurde – und zwar deutlich mehr, als dies noch im Prototypen der Fall war. Unsere Redaktionsmitarbeitenden generieren mittlerweile mehrere tausend Vorschläge im Monat, mit steigender Tendenz.
Interessanterweise lag der Prozentsatz der Teaser, die dann tatsächlich 1:1 übernommen wurden, jedoch im kleinen einstelligen Bereich. Mittels einer Befragung der «Heavy User» fanden wir heraus, dass sich die meisten einfach inspirieren lassen und dann ihre eigenen Teaser formulieren. Und dass es hilfreich wäre, wenn man nur einzelne Elemente (Oberzeile, Titel, Lead) in den Artikel hineinkopieren könnte. Unsere nächste Iteration wird sich also primär an einem besseren UX-Erlebnis orientieren, während wir hinter den Kullissen bereits neue Prompts und andere Sprachmodelle wie die von Mistral ausprobieren.
Unsere Learnings
Parallel zu diesem einen Tool haben wir mit der Zeit immer mehr Ideen aufgegriffen, getestet, wieder verworfen oder erfolgreich lanciert. Um das systematischer anzugehen, haben wir Ende letzten Herbst ein «AI Lab» mit mehreren Mitarbeitenden aus Redaktion, Technologie und Produkt-Abteilung gegründet, um die grössten Learnings aus dem ersten Anwendungsfall professionell umzusetzen:
- Ein früher Einbezug der Nutzenden ist zwingend: Mittels einem offenen Kanal und regelmässiger Kommunikation erreichen wir schnell und einfach Interessierte, die uns bei Testings unterstützen können.
- Gerade bei generativer KI, deren Erfolg oft von gut geschriebenen Prompts und von spezifischen Modellvarianten abhängt, ist eine Versionierung aller Versuche von Vorteil. Auf unserer selbstgebauten Prototypen-Plattform können wir relativ schnell neue Apps aufschalten und evaluieren, da wir sämtliche Prompts, Inputs- und Outputs sowie Bewertungen abspeichern.
- Der Weg in die Produktion ist oft ein steiniger und will bewusst gewählt werden: Oft ist das Naheliegendste, ein komplett neues System unter einer neuen URL aufzuschalten. Aus oben genannten Gründen kann es aber zielführender sein, die KI-Anwendung in bestehende Tools zu integrieren. Dies ist bei selbst implementierten Systemen in der Regeln einfacher als bei eingekauften, der Aufwand dafür darf aber dennoch nicht unterschätzt werden. Gerade deswegen ergibt es keinen Sinn, nur unzureichend getestete KI-Ideen direkt in die Produktion schleusen zu wollen.
- Kultur ist die halbe Miete. KI-Tools können noch so gut sein, wenn sie aus Ängsten oder Vorbehalten nicht eingesetzt oder sogar boykottiert werden, ist niemandem geholfen. Ein regelmässiger Austausch über Events und Informationsanlässe und der Miteinbezug aller Beteiligten zahlen sich aus. Wir haben aber gemerkt: Das kann man nicht einfach so nebenbei noch tun, eine solche Kommunikationsrolle muss professionell aufgezogen werden und regelmässig betreut werden.
Im AI Lab arbeiten wir systematisch und mit einem grossen Teil unserer Pensen daran, KI im redaktionellen Umfeld und darüber hinaus zu etablieren. Etablieren bedeutet hier gerade nicht, den Kolleginnen und Kollegen aufs Geratewohl neue Tools aufzuschwätzen – sondern ganzheitlich und ergebnisoffen herauszufinden, ob und wie generative KI unsere Produkte und letztlich unser Unternehmen besser und zukunftsfähiger machen kann.