


Silvan Mertes M.Sc.

Research Assistant
Chair for Human-Centered Artificial Intelligence
Phone: +49 (821) 598 - 2342
Room: 2038 (N)
Address: Universit?tsstra?e 6a, 86159 Augsburg

Research Interests

  • Deep Learning
  • Adversarial Learning
  • Generative Models
  • Sound and Image Processing

Academic Activities

  • Review activities for Transactions on Affective Computing
  • Review activities for ACM Conference on Human Factors in Computing Systems (CHI)
  • Review activities for?International Conference on Autonomous Agents and Multiagent Systems (AAMAS)
  • Review activities for?ACM Conference on Intelligent User Interfaces?(IUI)
  • Review activities for IEEE Signal Processing Magazine
  • Review activities for International Conference on Multimodal Interaction (ICMI)

  • Review activities for Transactions on Audio, Speech and Language Processing

  • Review activities for Applied Artificial Intelligence

  • Review activities for?XAI2023 (XAI@IJCAI)

  • Review activities for European Conference on Artificial Intelligence (ECAI)

  • Review activities for IEEE Robotics and Automation Letters

  • Review activities for Elsevier Expert Systems With Applications

  • Review activities for?International Conference on Affective Computing & Intelligent Interaction?(ACII)

  • Review activities for?Audio Mostly

  • Review activities for?PeerJ Computer Science


  • Coordinator Human-Centered Production Technologies in the AI production network Augsburg

  • Program Committee member?ACM Conference on Intelligent User Interfaces?(IUI) 2025

  • Program Committee member?International Conference on Autonomous Agents and Multiagent Systems (AAMAS) 2025

  • Scientific Committee member Audiomostly 2024

  • Organizing?Committee member?Interdisciplinary Tutorshop on Interactions with Embodied Virtual Agents? at IVA 2024

  • Session Chair 5th International Conference on Deep Learning Theory and Applications (DeLTA’24)

  • Program Committee member?Trustworthy Sequential Decicion-making and Optimization Workshop at ECAI 2024

  • Program Committee member?International Conference on Affective Computing & Intelligent Interaction?(ACII) 2024

  • Program Committee member?Workshop on Explainable Artificial Intelligence at IJCAI?2023

  • Session Chair 2nd International Conference on Deep Learning Theory and Applications (DeLTA’21)

  • Program Committee member?International Conference on Multimodal Interaction (ICMI) 2021-2023






  • International Conference on Deep Learning Theories and Applications (DeLTA 2020) - Best Paper Award Paper
  • IEEE Virtual Reality (IEEEVR 2022) - Honorable Mention Paper
  • Creativity & Cognition (C&C 2022) - Honorable Mention Paper
  • ACII A-VB Challenge 2022 "Type" Subtask - 1st Place Paper
  • ComParE Challenge 2021 "Escalation Detection" Subtask - 2nd Place Paper
  • International Conference on Deep Learning Theories and Applications (DeLTA 2024) - Best Poster Award
Supervised Theses

  • Latent Diffusion und Facial Action Coding für ein biopsychologisches Verst?ndnis von Facial Expression Recognition. (Master, 2024)
  • Dynamische Texturgenerierung von Videospielen mit Diffusion Models. (Master, 2024)
  • Automatische Generierung von Soundkulissen mit Hilfe von Deep Learning. (Bachelor, 2024)
  • Generating Personalized Counterfactual Feedback for Javelin Throw Technique Improvement. (Bachelor, 2024)
  • Automatische Kolorierung von Mangas mithilfe von Deep Learning.?(Bachelor, 2024)
  • Gezielte Manipulation von Umgebung und Darstellung virtueller Charaktere in Bildern durch Diffusion Models.?(Bachelor, 2024)
  • Konzeption und Implementierung einer nutzerfreundlichen grafischen Oberfl?che für multimodale Emotionserkennung.?(Bachelor, 2024)
  • Entwicklung eines interaktiven, durch maschinelles Lernen gestützten Trainingssystems für extreme Gesangstechniken.?(Bachelor, 2024, Co-Betreuung)
  • Computer-assisted Feedback for Javelin Throw.?(Bachelor, 2024, Co-Betreuung)
  • Texture Editing with Diffusion Models.?(Project Module, 2024)
  • GradCam zur Analyse von GAN-Trainingsprozessen.?(Bachelor, 2024)
  • Using CycleGAN to Learn Image-to-Image Translation for Unpaired Facial Expression Data. (Master, 2023, Co-Betreuung)
  • Computational Generation and Adaption of Climbing Routes through Adversarial Learning. (Master, 2023, Co-Betreuung)
  • Generating Audio Triggers for an Autonomous Sensory Meridian Response with Generative Adversarial Networks. (Bachelor, 2023)
  • Diffusion-based Counterfactual Explanation Generation for Facial Emotion Recognition. (Project Module, 2023)
  • Using GANs for Combining Counterfactual Explanations and Feature Attribution. (Master, 2023)
  • Evaluating GAN-based Alterfactual Explanation Generation. (Project Module, 2023)
  • Exploring Tangible User Interfaces for Latent Space Manipulation of Generative Adversarial networks. (Bachelor, 2022, Co-Betreuung)
  • Implementation of a Classification Model for Rhythmic Attunement in Music Therapy Sessions. (Bachelor, 2022, Co-Betreuung)
  • Generating Counterfactual Explanations for Atari Agents via Generative Adversarial Networks. (Master, 2022, Co-Betreuung)
  • Alterfactuals as a Novel Explanation Method for Image Classifiers. (Master, 2021)
  • Exploring Opportunities for Musical Creativity Support in VR through Human-Computer-Interfaces and Interaction Design. (Master, 2021, Co-Betreuung)
  • Reinforcement Learning Techniques as Enhancement of frame-level Speech Emotion Recognition. (Master, 2021, Co-Betreuung)
  • Kontr?re Chatbotpersonas im internen Businessumfeld: Entwicklung und Pr?ferenzanalyse. (Master, 2021)
  • Conditional Human Image Synthesis with Generative Adversarial Networks. (Bachelor, 2020)

Open Thesis Topics

The following topics can be flexibly varied in scope and orientation, so that the realization as a bachelor thesis, master thesis or project module is possible. Furthermore, the focus of the content can of course be aligned with the interests of the student.

Furthermore, I am always happy to receive your own suggestions for topics, as long as they show a certain overlap with my research focus.



Alterfactual Explanations

Alterfactual Explanations sind ein neuartiger Ansatz, künstliche Intelligenz zu erkl?ren. Hierbei werden Eingabedaten so ver?ndert, dass für die Entscheidung der KI irrelevante Merkmale ver?ndert werden. Ziel dieser Arbeit ist, existierende, GAN-basierte Algorithmen zur Erzeugung von Alterfactual Explanations auf mehrere Datens?tze anzuwenden und anschlie?end das Konzept von Alterfactuals in einer Nutzerstudie zu evaluieren.



Audio Diffusion Models

Diffusion Models sind die neuester Generation generativer künstlicher Intelligenz, bekannt geworden unter anderem durch Applikationen wie "DALL-E 2" oder "Midjourney". In dieser Arbeit soll untersucht werden, ob mit Hilfe von Diffusion Models Textbeschreibungen zu Audiodaten umgewandelt werden k?nnen, so wie es im Bereich der Bildgenerierung bereits verbreitet ist.



Interaktives Lehrsystem mit Diffusion Models ? ??

Diffusion Models sind die neuester Generation generativer künstlicher Intelligenz, bekannt geworden unter anderem durch Applikationen wie "DALL-E 2" oder "Midjourney", welche hochwertige Bilder aus Textbeschreibungen generieren k?nnen. Mit Hilfe von Diffusion Models ist es au?erdem m?glich, Teile eines vorhandenen Bildes neu zu generieren ("Inpainting"). In dieser Arbeit soll diese M?glichkeit ausgenutzt werden, um ein interaktives Erkl?rsystem zu implementieren, indem Diffusion Models und Techniken aus dem Bereich XAI kombiniert werden.



Text-to-Speech mit Diffusion Models ? ??

Diffusion Models sind die neuester Generation generativer künstlicher Intelligenz, bekannt geworden unter anderem durch Applikationen wie "DALL-E 2" oder "Midjourney". In dieser Arbeit soll untersucht werden, ob mit Hilfe von Diffusion Models Text zu Audio umgewandelt werden kann, um ein hochqualitatives Text-to-Speech System zu erhalten.



Audio Counterfactual Explanations

In dieser Arbeit soll ein System entwickelt werden, das auf Basis von Latent Vector Evolution (LVE) Erkl?rungen für KI-Systeme für die Audio-Dom?ne erzeugt. LVE ist ein auf evolution?ren Algorithmen basierendes Verfahren, um GANs zu durchsuchen. Mithilfe dieser Algorithmen sollen Counterfactual Explanations generiert werden. Dies bedeutet, von einer KI bewertete Audiodaten sollen so ver?ndert werden, dass sich die Bewertung der KI ?ndert. Dadurch wird dem Nutzer des Systems eine ?alternative Realit?t“ gezeigt, die ein besseres Verst?ndnis der KI bewirken soll.



Video Style Conversion mit Diffusion Models ? ??

Diffusion Models sind die neuester Generation generativer künstlicher Intelligenz, bekannt geworden unter anderem durch Applikationen wie "DALL-E 2" oder "Midjourney". Diffusion Models k?nnen beispielsweise dazu benutzt werden, den Stil eines Bildes zu ?ndern (z.B. von photorealistisch zu comic-like). In dieser Arbeit soll eine bestehende Diffusion Model Architektur erweitert werden, um den Stil von Videos zu ?ndern.



GUI Design for Social Signal Processing Framework ? ??

In this thesis, a functional and appealing graphical user interface for an existing Python framework that was developed at our lab is to be conceptualized and implemented. For this purpose, current developments and research work in the field of user design and user experience are to be included in the conception.





name semester type
Seminar Grundlagen der Generativen Künstlichen Intelligenz winter semester 2024/25 Seminar
Seminar Generative Künstliche Intelligenz winter semester 2024/25 Seminar
?bung zu Generative AI for Human-Computer Interaction Lab winter semester 2024/25 ?bung
Praktikum Spieleprogrammierung winter semester 2024/25 Praktikum
Generative AI for Human-Computer Interaction Lab winter semester 2024/25 Vorlesung


