Liebe Leserinnen und Leser,

der IKKI-Newsletter im Oktober 2022 berichtet von großen Fortschritten bei generativen Modellen, gibt einen Einblick in die KI-Nutzung bei ams OSRAM und Prof. Höß stellt die Forschung zum Autonomen Fahren als Anwendungsgebiet für KI vor.

Interview mit Herrn Prof. Dr. Höß
Interview mit Herrn Dr. Weig von ams OSRAM
Stable Diffusion: Open-Source Bildgeneration
Text-To-Video: Next-Level generative KI
Hokkien-Übersetzer: Sprechen statt schreiben

Viel Spaß beim Lesen!

Interview mit Prof. Dr. Höß

Nachstehend finden Sie einen Auszug aus dem Interview mit Herrn Prof. Dr. Alfred Höß. Das ganze Interview finden Sie auf unserer IKKI-Website.

Wie kamen Sie dazu, mit KI zu arbeiten?

Durch nationale und europäische Forschungsprojekte. Seit mindestens 5 Jahren beschäftigen wir uns hier mit Methoden der KI.

Auf welche Forschungsgebiete sind Sie spezialisiert?

Automotive, Elektromobilität (energieoptimale Routenberechnung, Ladestopps etc.). Automatisiertes Fahren (Radar, Kamera, Lidar-Sensorik, Fusion …). Intelligente Infrastruktureinheiten für die Unterstützung autonomer Fahrzeuge, dabei liegt der Fokus auf vorgenannter Sensorik, der Datenabstraktion und der sicheren Kommunikation über Mobilfunk (einschließlich der Beurteilung der Quality of Service).

Was fasziniert Sie an diesen Themen?

Es ist die logische Fortsetzung von dem, was ich in meiner Industriezeit gemacht habe. Autos sicherer (Unfallzahlen reduzieren), effizienter, umweltfreundlicher und komfortabler zu machen, war schon immer mein Ziel.

Interview mit Herrn Dr. Weig von ams OSRAM

Im Folgenden finden Sie einen Auszug aus dem Interview mit Herrn Dr. Weig von ams OSRAM. Das ganze Interview finden Sie auf unserer IKKI-Website.

Um welche Dienstleistung geht es konkret?

In unserem Team arbeiten wir nicht an Algorithmen oder einer Software, die direkt im Produkt beim Kunden Anwendung finden, sondern wir unterstützen mit unserer Arbeit die Entwicklung und Fertigung und ermöglichen durch „datenbasierte“ Entwicklung neue Produkte.

Welche Bedeutung spielt KI dafür?

Die Bedeutung von KI wächst für uns. Aktuell befindet sich z.B. der Einsatz von Deep Learning noch in wenigen Lösungen, zum Großteil sind noch klassische (Machine Learning) Algorithmen im Einsatz. Für uns ist immer zunächst die Lösung der Problemstellung im Vordergrund. Wir entwickeln immer mehr dort an Lösungen mit Hilfe neuerer KI, wo wir Limitierungen mit klassischen Methoden erleben.

Welche Algorithmen / Arten von KI nutzen Sie?

Einerseits verwenden wir wie angesprochen viele klassische Methoden […] aber auch Bayes’sche Methoden und Reinforcement Learning (RL). Eine Besonderheit ist bei uns, dass wir auch Kausalitätsforschung einbeziehen. Beispielsweise betrachten wir kausale Themen auch in Verbindung mit RL. Ein Produktionsablauf ist ja eine Kette von vielen Prozessen mit vielen Wechselwirkungen. Wenn man die Daten daraus analysiert, findet man viele Korrelationen, von denen einige jedoch nur Scheinkorrelationen sind. [...] Unsere Vision hierfür ist es, ein kausales Modell zu haben, in dem mit RL interveniert werden kann. Denn die Produkteigenschaften am Ende (z.B. Lichtstrom, Farbe, …), werden schon durch Prozessschritte am Anfang der Kette kausal beeinflusst. So könnte man in den ersten Schritten früh eingreifen, um die Eigenschaften zu optimieren.

Stable Diffusion: Open-Source KI-Bildgeneration

Nein, Sie sehen hier nicht das World Press Photo of the Year. Genau genommen sehen Sie hier gar kein Photo – denn dies Bild wurde von einer KI generiert.

„Stable Diffusion” heißt die Text-to-Image KI von Stability.ai, die zuletzt in aller Munde war. Wir hatten in unserem Newsletter bereits von mehreren derartigen Modellen berichtet, die bisher wohl bekanntesten sind die der DALL-E Familie. Das könnte sich jedoch bald ändern, denn Stable Diffusion ist open-source und das Startup Stability.ai, das quasi aus dem Nichts erschien, konnte sich kürzlich rund 100 Millionen Dollar Venture Capital sichern.

Am einfachsten ausprobieren lässt sich Stable Diffusion über den extra eingerichteten Huggingface-Space. Ähnlich wie bei DALL-E mini bietet sich dort eine einfache Weboberfläche, die den Textinput entgegen nimmt und per Knopfdruck die Bilder generiert. Wir stellten Stable Diffusion also die gleiche Aufgabe wie schon DALL-E mini (vgl. Newsletter 06/2022) und ließen Bilder zu den Eingaben „Bavaria high definition” und „A horse riding an astronaut” erstellen. Die Ergebnisse finden Sie am Ende dieses Newsletters.

Probieren Sie es gerne selbst einmal hier aus.

Text-To-Video: Next-Level generative KI

Der Trend der generativen KI setzt sich weiterhin fort. Neben Bildern rücken nun auch immer mehr Videos in den Fokus. Auch hier konkurrieren mit Meta und Google zwei Tech-Giganten.

Metas System nennt sich Make-A-Video, Google betitelt seines als Imagen Video. Beide Systeme wurden nahezu zeitgleich publik gemacht, sind grundlegend ähnlich aufgebaut und produzieren auch vergleichbare Ergebnisse. Im Kern steht zunächst wieder ein Text-To-Image Modell, das, wie auch Stable Diffusion und DALL-E, auf der Diffusion Architektur basiert.

Make-A-Video ist jedoch etwas facettenreicher und kann neben reiner Text-To-Video-Generation, auch Bilder animieren, zwischen Bildern interpolieren und Variationen zu Videos erzeugen. Einige Beispiele befinden sich hier.

Bisher wirken die Videos noch unnatürlich. Betrachtet man aber den schnellen Fortschritt bei den Text-To-Image Systemen, ist davon auszugehen, dass in einigen Monaten auch bei den KI-generierten Videos nicht mehr zwischen echt und fake unterschieden werden kann.

Hokkien-Übersetzer: Sprechen statt schreiben

Rund 46 Millionen Menschen weltweit sprechen Hokkien (zum Vergleich: Spanien hat 47 Millionen Einwohner). Die meisten von ihnen wohnen in China und Taiwan. Die Betonung liegt auf „sprechen”, denn für Hokkien existiert keine standardisierte Schriftform.

Übersetzungen sind sicherlich eines der KI-Anwendungsgebiete mit denen die meisten Leute im Alltag in Kontakt kommen. Sei es bei Deepl oder Google Translate, moderne Übersetzer funktionieren so gut, da sie Sequence-To-Sequence Sprachmodelle verwenden. Sollen mündliche Spracheingaben übersetzt werden, werden diese normalerweise in einer Vorverarbeitung zunächst transkribiert, bevor der so entstandene Text übersetzt werden kann. Doch wie funktioniert das bei einer Sprache, die nicht geschrieben wird?

Auch hierfür bietet Meta eine Lösung an: Als Teil ihres Universal Speech Translator-Projekts zeigen sie anhand von Hokkien expemplarisch, dass Speech-To-Speech-Translation diese Lücke schließen kann. Umgesetzt wurde der Übersetzer mit einem Vorgehen, das Meta bereits zuvor vorgestellt hatte. Dabei wird die Audiospur in diskrete Einheiten abgebildet, diese übersetzt und aus den übersetzten Einheiten schließlich wieder Audio erzeugt. Die Zwischenstufe der Übersetzung besteht also nicht in der Schriftform des gesprochenen Textes, sondern in einer Art Pseudotext.

Langfristig ist Metas Ziel, Echtzeit-Übersetzung zwischen beliebigen Sprachen zu ermöglichen – das soll auch das Bevölkern des „Metaverse” vorantreiben.

Wir bedanken uns für das Lesen. Nachfolgend finden Sie die angekündigten Stable Diffusion Bilder.