Hauptbild
Eine Straße, sie ist nicht extrem klar sichtbar, weil im Zentrum ein grafischer Kreis mit Zeigern aus Rot, Gelb und Lila-Tönen prangt, der das Gesehene etwas verzerrt. Die rechte Bildhälfte ist ingesamt deutlicher dunkler als die linke.

Bild generiert mit Easy Diffusion. Prompt: „an hour glass combined with a traffic jam, a bycicle and some positive ‚magic‘ elements“

Banner Full-Size

„Never late again“

Untertitel
Mit KI-Tools einen Audio-Werbespot erstellen
Vorspann / Teaser

Das Erstellen von Audio-Werbespots ist ein schulmusikalischer „Klassiker“. Schülerinnen und Schüler machen sich normalerweise eifrig an die Arbeit, die auch einen gewissen Unterhaltungswert verspricht. Mit dem üblichen Klassenraum-Instrumentarium fallen die Ergebnisse aber meist eher unbefriedigend aus. Vermutlich deshalb stehen in den aktuellen bayerischen Lehrplänen analytische Zugriffe im Vordergrund. In den letzten Monaten wurden zahlreiche sprachgesteuerte generative KI-Modelle allgemein zugänglich. Das führt zur Frage, ob sich die neue Technologie nutzen lässt, um „authentischere“ Lösungen für das Herstellen von Werbespots, das Vertonen kurzer Filmszenen und ähnliche Gestaltungsaufgaben zu bekommen. Hier das Protokoll eines Versuchs.

Publikationsdatum
Paragraphs
Text

Das Produkt

Ich entscheide mich für ein Produkt, von dem ich schon lange träume: eine „Entspätungs-App“ für Reisende. Die Idee geht zurück auf den liebenswürdigen Versprecher einer DB-Zugbegleiterin vor einigen Jahren. Den Gedanken, dass man sich nicht nur ver-, sondern auch entspäten könne, finde ich seitdem ausgesprochen faszinierend. Eine entsprechende App fürs Handy würde den Alltag sehr erleichtern. Leider ist es mir bisher nicht gelungen, ein technisches Konzept dafür zu entwickeln – aber mit der Werbung kann ich ja schon einmal anfangen…

Den Text erstellen

Zunächst lasse ich von ChatGPT 4 (in der Bing-Version)1 einen geeigneten Text erstellen. Prompt: „Erstelle mir drei Vorschläge für den Text eines Audio-Werbespots für Radio und Social Media. In der Werbung geht es um eine neuartige mobile App mit dem Namen ‚Never late again‘ (NLA). Zielgruppe: jüngere Erwachsene, die häufig gestresst sind, weil sie zu spät kommen (Flugzeug, Bus, Bahn haben Verspätung; Fahrradpanne; Stau im Berufsverkehr noch länger als sonst, und ähnliche Gründe). Versprechen: Die App entspätet dich! Moderne KI-basierte Technik macht es möglich. Egal, was unterwegs passiert: Mit der NLA-App kommst du immer pünktlich und entspannt an. Verfügbarkeit: Kostenlos im Fantasy App Store und überall da, wo es gute Apps gibt. Der Spot soll 20 bis 30 Sekunden dauern“.

ChatGPT bietet drei Entwürfe an, in denen jeweils eine neuartige Navigations-App beworben wird. Mir schwebt etwas weniger Alltägliches vor. So modifiziere ich die Anfrage in einem Punkt: „Versprechen: Die App entspätet dich auf magische Weise!“ Es entstehen drei neue kurze Texte, in denen unter anderem von einer „persönlichen Zeitblase“ die Rede ist – ein Gedanke, der mir auf Anhieb gefällt. Der nächste Prompt lautet: „Erstelle auch eine englische Version.“

Die englischsprachigen Vorschläge fallen ziemlich überzeugend aus. Ich kombiniere zwei Versionen und kürze noch etwas, damit der Text im Zeitlimit von maximal 30 Sekunden bleibt. Die deutschen Textvorschläge wirken dagegen sehr hölzern. Hier ist eine umfangreichere Nachbearbeitung erforderlich, das Grundgerüst stammt aber immer noch vom Chatbot: „Du hast einen wichtigen Termin, aber alles läuft schief. Dein Bus hat Verspätung, dein Fahrrad hat einen Platten, und dann ist da noch dieser gigantische Stau? Du bist gestresst, genervt und zu spät. Aber das muss nicht sein! Mit der neuen App ‚Never late again‘ kannst du dich entspannen. Eine persönliche Zeitblase macht dich immer pünktlich – egal, was passiert! Hol dir die App jetzt kostenlos im Fantasy App Store oder überall da, wo es gute Apps gibt. NLA: nie wieder zu spät!“

Bei diesem Arbeitsschritt wird der Chatbot als „Taschenrechner für Text“ genutzt. Schulische Lernmöglichkeiten lägen vor allem im sprachlichen Bereich und entstünden beim gemeinsamen Diskutieren und Überarbeiten der Bot-Vorschläge. Eine gute Möglichkeit für fächerübergreifendes Arbeiten!

Professionell sprechen (lassen)

Eine professionell klingende Sprechstimme in zwei Sprachen liefert Elevenlabs.io2. Als Prompts dienen die beiden mit Chat GPT erstellten Werbetexte. Elevenlabs bietet vorkonfigurierte Stimmen zur Auswahl, ich entscheide mich nach einigen Versuchen für „Charlie“. Auch hier gelingt die englische Version deutlich besser. Ein deutschsprachiges Endergebnis, mit dem ich einigermaßen zufrieden bin, erziele ich erst mit einigem Aufwand. Ich lasse mir insgesamt vier Versionen generieren und schneide mit Hilfe eines Audio-Editors die jeweils gelungensten Passagen zusammen. Kriterium für deren Auswahl ist die gewünschte Mischung aus Wortbetonungen und Ausdruck. Am Ende können sich beide Ergebnisse hören lassen.

Will man hier ein zufriedenstellen­des Ergebnis, dann ist das Beherrschen grundlegender Audioschnitt-Fertigkeiten zwingende Voraussetzung. Gesprochener Text lässt sich auch mit kostenlosen Tools wie Audacity3 gut bearbeiten. Lernmöglichkeiten gehen dabei über den sprachlichen Aspekt hinaus: Um sich für die jeweils überzeugendste Version einer vorgelesenen Textstelle zu entscheiden, muss man genau hinhören, Kriterien abwägen und verschiedene Möglichkeiten ausprobieren. Ein differenziertes Hörvermögen wird hier also mittrainiert. Folgt man den lernpsychologi­schen Annahmen des ICAP-Modells4,

dann müsste sich bei einer solchen Arbeit ein Lernprozess mit hoher Verarbeitungstiefe erzielen lassen. Voraussetzung für den schulischen Einsatz ab der 7. oder 8. Klasse wären aber eine klar strukturierte Aufgabenstellung und ebenso klar formulierte Qualitätskriterien.

Welche Musik passt?

Um passende Musik zu erzeugen, verwende ich Stable Audio5. Damit lassen sich Musikstücke in variabler Länge und mit teilweise beeindruckend authentischem Sound kreieren. Als Prompt wähle ich: „Music for an audio advertisement for an app that creates a personal time bubble that makes you always on time. Duration: 30 seconds.“ – etwas ungelenkes Englisch, aber es funktioniert. Von den drei angebotenen Versionen überzeugt die erste am meisten. Allerdings stellt sich heraus, dass sie einige Sekunden zu kurz geraten ist. So bearbeite ich auch sie mit Audacity nach, verlängere um ein paar Sekunden und ende mangels besserer Idee mit einem Fade-Out. Die Nachbearbeitung ist auch hier nicht besonders schwierig, weil die Musik in Loop-Form angelegt ist. Im Fall des NLA-Werbespots ist das Herstellen passender Musik eine recht einfache Angelegenheit, weil der umfangreiche Text einen eher konstant klingenden Hintergrund nahelegt. Möchte man etwas Kontrastreicheres, muss der Text gekürzt werden und die Ansprüche an Prompts und die Nachbearbeitung steigen.

Endmontage

Texte und Musik montiere ich – ganz ohne KI – in Audacity zusammen. Ergebnis sind zwei etwas textlastige, aber für meine Laien-Ohren ordentlich  klingende Audio-Werbespots. Sie lassen sich via YouTube anhören (https://t1p.de/werbespot-englisch und https://t1p.de/werbespot-deutsch). Damit auch etwas zu sehen ist, stelle ich mit Easy Diffusion6, einem Ableger von Stable Diffusion, ein etwas kitschiges Artwork für die Traum-App her.

Fazit: Licht …

Die verwendeten KI-Tools für Text, Sprachausgabe und Musik arbeiten browserbasiert, können also prinzipiell von jedem internet-fähigen Endgerät aus genutzt werden. Vom Prompt bis zur Ausgabe des Ergebnisses dauert es jeweils nur wenige Sekunden. Der gesamte Zeitaufwand für die Text- und Audio-Arbeiten betrug etwa 90 Minuten; für ein schulisches Projekt müsste er entsprechend höher angesetzt werden, erscheint aber im Rahmen des Realisierbaren. Um die KI-Ergebnisse nachbearbeiten zu können, sind Grundkenntnisse im Umgang mit gängiger Textbearbeitungs- und Audio­schnitt-Software erforderlich, aber auch ausreichend.  

Interessant an den KI-Tools ist vor allem die Möglichkeit, in zeitlich und organisatorisch überschaubarem Rahmen Produkte zu erstellen, die deutlich „authentischer“ klingen als Umsetzungsversuche mit Klassenraum-Instrumentarium. Schülerinnen und Schülern ab der 7. oder 8. Klasse sollten mit den Werkzeugen gut zurechtkommen. Sie sind einfach zu bedienen und machen Spaß. Der Lehrkraft bliebe die immer etwas undankbare Aufgabe, vom spielerischen Herumklicken zum strukturierten und zielgerichteten Umgang mit der Technologie überzuleiten: Nehmt nicht gleich das erstbeste Ergebnis. Probiert so lang aus und bearbeitet so lang nach, bis alle mit dem Resultat zufrieden sind!

… und Schatten

Den interessanten neuen Lernmöglichkeiten, die generative KI-Modelle bieten können, steht eine Reihe von Problemen und Risiken gegenüber, von denen hier nur zwei erwähnt werden sollen: Eine der größten Hürden für den Einsatz von KI-Tools im schulischen Unterricht sind die nach wie vor ungelösten Datenschutz-Probleme. So ist meist das Anlegen eines Benutzer-Accounts notwendig; wohin eingegebene Prompts und weitere Nutzungsdaten fließen, bleibt oft unklar. Angesichts dieser Situation weist  das bayerische Kultusministerium darauf hin, dass jede Nutzung KI-basierter Textgeneratoren im Unterricht eine datenschutzrechtliche Einzelfallprüfung voraussetze.7 Mittlerweile gibt es allerdings auch erste Angebote, die Schüler*innen und Lehrkräften DSGVO-konformes Arbeiten mit verschiedenen KI-Tools ermöglichen. Ein Beispiel ist die Lehrkräfte- und Fortbildungsplattform Fobizz, die Lehrkräfte im Bundesland Mecklenburg-Vorpommern im Rahmen einer Landeslizenz kostenfrei nutzen können.8

Ein zweites Problem ist der ökologische Fußabdruck der neuen Werkzeuge: Die kurzen Antwortzeiten der browserbasierten KI-Tools täuschen darüber hinweg, dass jede einzelne Anfrage einiges an Rechenleistung erfordert. Das Generieren der Antworten in Text-, Sprachausgabe- oder Musikform geschieht in großen Rechenzentren mit spezialisierter Hardware; übers Internet werden nur die Prompts in die eine und die Ergebnisse in die andere Richtung verschickt. Training und Betrieb KI-basierter generativer Technologien verbrauchen enorme Mengen an Energie und Wasser – und vergrößern dadurch den ökologischen Fußabdruck ihrer Nutzerinnen und Nutzer weiter.9

Eine Daueraufgabe für die Zukunft dürfte die Abwägung sein, in welchem Verhältnis neue Lernmöglichkeiten zu „Risiken und Nebenwirkungen“ der KI-basierten generativen Werkzeuge stehen. Aber mit solchen Überlegungen sind Lehrkräfte seit Jahrzehnten vertraut – neu ist immer nur die Technologie, um die es dabei geht.

Gabriele Puffer

Anmerkungen

1 https://www.bing.com/

2 https://elevenlabs.io

3 https://www.audacityteam.org

4 Siehe zum Beispiel https://mebis.bycs.de/beitrag/icap

5 https://stableaudio.com/generate

6 https://github.com/easydiffusion/easydiffusion#installation

7 https://www.km.bayern.de/schule-digital/orientierungsrahmen-ki-und-schule/arbeiten-mit-kuenstlicher-intelligenz.html

8 https://www.bildung-mv.de/aktuell/2023/fobizz-fuer-lehrkraefte-in-mv-verlaengert/

9 https://www.deutschlandfunk.de/energieverbrauch-kuenstlicher-intelligenz-verhagelt-uns-ki-die-klimabilanz-dlf-b6838034-100.html

 

Print-Rubriken
Unterrubrik