{"id":3856,"date":"2025-05-19T10:43:46","date_gmt":"2025-05-19T08:43:46","guid":{"rendered":"https:\/\/blog.dini.de\/EPub_FIS\/?p=3856"},"modified":"2025-05-19T10:44:36","modified_gmt":"2025-05-19T08:44:36","slug":"alima-sacherschliessung","status":"publish","type":"post","link":"https:\/\/blog.dini.de\/EPub_FIS\/2025\/05\/19\/alima-sacherschliessung\/","title":{"rendered":"ALIMA \u2013 Sacherschlie\u00dfung unterst\u00fctzt durch gro\u00dfe Sprachmodelle. Ein Werkstattbericht"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\"><strong>1. Ausgangslage<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Die Ausgangslage bezieht sich auf die <a href=\"https:\/\/tu-freiberg.de\/ub\">Universit\u00e4tsbibliothek \u201eGeorgius Agricola\u201c<\/a> der <a href=\"https:\/\/tu-freiberg.de\/\">TU Bergakademie Freiberg<\/a> und den Ablauf zur Erschlie\u00dfung von Neuerwerbungen. Das vorgestellte Tool ALIMA (AI-powered Library Indexing and Metadata Assignment ) wird von <a href=\"https:\/\/orcid.org\/0000-0003-4682-9909\">Dr. Conrad H\u00fcbler<\/a>, Fachreferent f\u00fcr Naturwissenschaften der Universit\u00e4tsbibliothek und Postdoc im Institut f\u00fcr Physikalische Chemie, entwickelt. Das Tool wurde erstmals in einem Online-Meeting der <a href=\"https:\/\/dini.de\/ag\/kuenstliche-intelligenz\">DINI AG KI<\/a> am 9. April 2025 vorgestellt.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Zu den traditionellen Kernaufgaben des Fachreferats an Bibliotheken geh\u00f6rt das Erschlie\u00dfen von Neuerwerbungen wie Fachb\u00fcchern, Zeitschriftenartikeln oder Hochschulschriften. Erschlossene Medien lassen sich schlie\u00dflich leichter auffinden, da sie einem Fachgebiet zugeordnet wurden und ihre Inhalte durch Schlagworte konkretisiert sind.<\/p>\n\n\n\n<!--more-->\n\n\n\n<p class=\"wp-block-paragraph\">Das klassifikatorische Erschlie\u00dfen umfasst die Zuordnung der Medien zu konkreten Fachbereichen, die durch bestimmte Systematiken wie die Dezimalklassifikation (DK) organisiert sind. In der Geschichte der Universit\u00e4tsbibliothek der TU Bergakademie Freiberg wurde die DK gew\u00e4hlt, die daf\u00fcr notwendigen gedruckten Register angeschafft und der Bibliotheksbestand entsprechend katalogisiert; anschlie\u00dfend wurde die Systematik jedoch nicht weiter angepasst. Als Resultat ergaben sich fachlich veraltete Systematiken, die noch immer verwendet werden. Eine Aktualisierung auf die moderne Regensburger Verbundklassifikation (RVK) ist f\u00fcr neu eingerichtete Fachgebiete realisiert worden, der \u00fcbrige Bestand blieb aber unangetastet. Damit wird die klassifikatorische Erschlie\u00dfung \u00fcberwiegend mit nur teilweise digitalisierten und sonst abgenutzten Druckexemplaren realisiert, in denen f\u00fcr jedes relevante Fachgebiet des zu erschlie\u00dfenden Textes die passende Klassifikation h\u00e4ndisch gesucht werden muss. F\u00fcr den Fachbereich Geowissenschaften wird seit Jahren eine eigene DK-Datenbank verwendet, die h\u00e4ndisch gepflegt wird.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large is-style-default\"><img loading=\"lazy\" decoding=\"async\" width=\"768\" height=\"1024\" src=\"https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_1-768x1024.jpg\" alt=\"\" class=\"wp-image-3857\" srcset=\"https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_1-768x1024.jpg 768w, https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_1-225x300.jpg 225w, https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_1-1152x1536.jpg 1152w, https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_1-1536x2048.jpg 1536w, https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_1.jpg 1920w\" sizes=\"auto, (max-width: 768px) 100vw, 768px\" \/><figcaption class=\"wp-element-caption\">Abbildung 1: Gedruckte DK-Nachschlagewerke f\u00fcr die systematische Erschlie\u00dfung von Medien.<\/figcaption><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Die verbale Erschlie\u00dfung umfasst die Zuordnung von aussagekr\u00e4ftigen Schlagworten zum Textinhalt.&nbsp;&nbsp;Daf\u00fcr kommt kontrolliertes Vokabular der Gemeinsamen Normdatei (GND) zum Einsatz, die von der Deutschen Nationalbibliothek (DNB) und den angeschlossenen Bibliotheksverb\u00fcnden kuratiert wird. \u00dcber die OGND-Websuche bietet der Bibliotheksservice-Zentrum Baden-W\u00fcrttemberg (BSZ) M\u00f6glichkeiten zur Recherche in der Datenbank der GND an. In der Datenbank sind die erlaubten Schlagworte, die zugeordneten Synonyme sowie die Hierarchie der Schlagworte hinterlegt und einer eindeutigen GND-ID zugeordnet.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Das Erschlie\u00dfen eines Sachtextes erfordert nicht nur Kenntnis der bibliothekarischen Struktur und die korrekte Verwendung des kontrollierten Vokabulars, sondern auch entsprechendes Fachwissen, da zugeordnete Schlagworte den Inhalt korrekt widerspiegeln m\u00fcssen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Schwierigkeiten in der Fachreferatsarbeit ergeben sich durch zunehmend interdisziplin\u00e4re Forschungsbereiche, die eine immer breitere klassifikatorische Einordnung der Fachtexte erfordern, bei gleichzeitig starren und teilweise veralteten Systematiken. Dadurch wird es selbst f\u00fcr Fachpersonal immer zeitaufwendiger, sich in alle relevanten Themen f\u00fcr das Erschlie\u00dfen der Fachtexte einzuarbeiten und anschlie\u00dfend sowohl die gedruckten Register als auch die Online-Datenbanken zur Recherche f\u00fcr die korrekte Einordnung zu Rate zu ziehen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Eine Alternative b\u00f6te die automatisierte und maschinelle Erschlie\u00dfung der Fachtexte. Die Verwendung von gro\u00dfen Sprachmodellen (Large Language Models, LLM) f\u00fcr die Erschlie\u00dfung ist dabei naheliegend, jedoch ergeben sich verschiedene Probleme: Die erste Herausforderung besteht darin, dass das LLM grunds\u00e4tzlich in der Lage sein sollte, den vorliegenden Fachtext in einen passenden Kontext zu setzen. Doch selbst wenn das LLM den Text richtig einordnen kann, ist zweitens eine korrekte Zuordnung zu dem kontrollierten Vokabular der Schlagworte sowie zu den Klassifikatoren kein Automatismus. Obwohl LLMs eine praktische Anwendung von k\u00fcnstlicher Intelligenz sind, sind die zugrundeliegenden Methoden keineswegs ausreichend intelligent, sondern erstellen ihren Text auf Basis von Wahrscheinlichkeiten und Plausibilit\u00e4t. Ist ein passendes kontrolliertes Schlagwort nicht verf\u00fcgbar, wird eines erfunden. Dieses sogenannte Halluzinieren von Informationen ist ein typisches Problem von LLMs, das immer dann auftritt, wenn die inhaltlich korrekte Antwort nicht im Datensatz enthalten ist und stattdessen die n\u00e4chstwahrscheinliche Antwort gew\u00e4hlt wird.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"A1234\">Zwar lie\u00dfe sich das Problem umgehen, indem ein LLM extra trainiert wird, um die Inhalte der GND und der Klassifikationen zu kennen, gleichzeitig sollte aber die urspr\u00fcngliche F\u00e4higkeit des LLMs, den Text und Kontext korrekt zu erkennen, erhalten bleiben. Das Training eines solchen Modells w\u00e4re sehr ressourcenaufwendig und m\u00fcsste nach Updates der GND-Daten und Klassifikationen wiederholt werden. Auf rechtliche Aspekte, Zug\u00e4nglichkeit zu Trainingsdaten und die gesamte Infrastruktur zum Training soll hierbei nicht weiter eingegangen werden. Ein weiteres Hindernis in diesem Zusammenhang ist das Problem der extremen Multi-Label-Klassifikation (XMLC)[<a href=\"#R1\">1<\/a>, <a href=\"#R2\">2<\/a> <a href=\"#R3\">3<\/a>, <a href=\"#R4\">4<\/a>].<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Eine Alternative zum neuen Training von LLMs ist ein Ansatz, der als Retrieval Augmented Generation (RAG) bezeichnet wird. Bei diesem wird ein bereits trainiertes LLM mit zus\u00e4tzlichen Kontextinformationen ausgestattet, auf deren Basis das LLM eine Antwort generiert. Diese Kontextinformationen k\u00f6nnen dabei ohne Schwierigkeiten aktualisiert werden. Eine M\u00f6glichkeit besteht darin, dem LLM f\u00fcr die Erschlie\u00dfung von Texten eine Datenbank mit dem Inhalt der Klassifikationen und genormten Schlagworten bereitzustellen, wobei die vollst\u00e4ndige Datenmenge als Kontextinformationen zu umfangreich w\u00e4re.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">2. <strong>L\u00f6sungsweg<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Im Folgenden wird die Umsetzung einer maschinellen Sacherschlie\u00dfung im Programm ALIMA skizziert. Das Werkzeug ist in Python geschrieben und verwendet Qt6 als Bibliothek, um eine grafische Benutzeroberfl\u00e4che zu realisieren. F\u00fcr die Programmierarbeit wurde extensiv auf Claude 3.5 und Claude 3.7 Sonnet gesetzt, da sich dieses LLM f\u00fcr die Entwicklung von Quelltext sehr gut eignet. Die Verwendung von LLMs erm\u00f6glicht es, sehr zeitg\u00fcnstig verschiedene Ans\u00e4tze zu implementieren und auszutesten. So wurde mit der Entwicklung im Januar 2025 begonnen und ein erster Prototyp innerhalb der ersten Woche bereitgestellt. Die Weiterentwicklung war dabei nicht so sehr von der zeitlichen Umsetzung der Programmierung abh\u00e4ngig, da neue Ideen sehr effektiv durch KI-Hilfe getestet werden konnten. F\u00fcr die finale Implementierung und Zusammenf\u00fchrung des KI-generierten Codes ist Programmierarbeit jedoch weiterhin notwendig, da auch die technischen F\u00e4higkeiten der KIs begrenzt sind.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Aus dem Entwicklungsprozess hat sich ein Arbeitsprotokoll ergeben, das bereits erfolgreich in einem Python\/Qt6-Tool implementiert wurde. Die Entwicklung ist per Git auf GitHub [<a href=\"#R5\">5<\/a>, <a href=\"#R6\">6<\/a>] dokumentiert und nachvollziehbar.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Das Arbeitsprotokoll f\u00fcr die maschinelle Erschlie\u00dfung:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>F\u00fcr einen Zielttext (Abstrakt, Volltext, Inhaltsverzeichnis) werden unter Zuhilfenahme eines LLMs freie Schlagworte gefunden (<a href=\"#P1\">Prompt 1<\/a>).<\/li>\n\n\n\n<li>Volltextsuche der freien Schlagworte im HBZ-Katalog (Lobid-API) und der GND-Datenbank (Webpage + Extraktion mit Beautiful-Soup), automatisches F\u00fcllen einer lokalen GND-Datenbank (Schlagwort und GND-ID).\n<ul class=\"wp-block-list\">\n<li>Alternativ: Suche der Treffer zu den Schlagworten im Katalog der TU Bergakademie Freiberg (TUBAF) und Extraktion der Schlagworte und Abgleich mit der lokalen Datenbank.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li>Das Kontextfenster f\u00fcr den vorliegenden Zieltext ergibt sich aus den Treffern der vorherigen Suche. Die verbale Erschlie\u00dfung erfolgt dann mit einem weiteren Prompt (<a href=\"#P2\">Prompt 2<\/a>). Das LLM wird hierbei explizit aufgefordert, eine Zuordnung der Schlagworte zu den GND-IDs herzustellen, um Halluzinationen zu minimieren.<\/li>\n\n\n\n<li>Die gefundenen GND-konformen Schlagworte bilden die Grundlage f\u00fcr eine weitere Katalogsuche nach klassifikatorischer Erschlie\u00dfung auf der Basis des Bibliothekskataloges. F\u00fcr jedes GND-Schlagwort werden entsprechende DK-Zuordnungen aus dem Katalog extrahiert. Anschlie\u00dfend kann ein weiterer Prompt (<a href=\"#P3\">Prompt 3<\/a>) verwendet werden, um mit dem Ausschnitt aus dem Bibliothekskatalog die Klassifikation auf der Basis des Zieltextes durchzuf\u00fchren.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Die Abfrage im Katalog wird derzeit noch \u00fcber eine Websuche und das Analysieren des HTML-Textes mit dem python-Tool Beautiful-Soup realisiert, doch eine API-Anfrage konnte bereits getestet werden. Durch die Verwendung von LLMs bei der Programmierung konnten kleinteilige Arbeiten wie die Ermittlung des passenden Beautiful-Soup-Ansatzes oder die Anbindung verschiedener Provider f\u00fcr LLMs (OpenAI\/ChatGPT, Google Generative, <a href=\"https:\/\/ollama.com\/\">Ollama<\/a>) ausgelagert werden.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>3. Ergebnis<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Aktuell werden sehr gute Ergebnisse mit Gemini 1.5 und 2 erzielt. Technisch ist die Verwendung von Google dabei am einfachsten, da ein API-Key mit begrenztem Abfragevolumen kostenfrei erh\u00e4ltlich ist, wobei der Datenschutz bei frei abrufbaren Inhalten (GND, Bibliothekskatalog) weniger relevant ist. Durch die Verwendung von Ollama k\u00f6nnen lokale LLMs f\u00fcr die Erschlie\u00dfung verwendet werden bzw. alternativ bietet die GWDG f\u00fcr Hochschulen deutschlandweit einen API-Zugang zu universit\u00e4r gehosteten LLMs an, die \u00fcber die OpenAI-Schnittstelle in dem Erschlie\u00dfungstool verwendet werden k\u00f6nnen. Hier zeigen erste Tests, dass Gemma 3 27B als freies LLM eine gute Alternative zu Gemini ist.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1000\" height=\"500\" src=\"https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Design-ohne-Titel.png\" alt=\"\" class=\"wp-image-3863\" srcset=\"https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Design-ohne-Titel.png 1000w, https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Design-ohne-Titel-300x150.png 300w, https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Design-ohne-Titel-768x384.png 768w\" sizes=\"auto, (max-width: 1000px) 100vw, 1000px\" \/><figcaption class=\"wp-element-caption\">Abbildung 2: Initiale Analyse des Textes. Die freien Schlagworte als Ergebnis der ersten Analyse dienen der systematischen Suche nach GND-Schlagworten in den Datenbanken.<\/figcaption><\/figure>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"778\" height=\"1024\" src=\"https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_3-778x1024.png\" alt=\"\" class=\"wp-image-3864\" srcset=\"https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_3-778x1024.png 778w, https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_3-228x300.png 228w, https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_3-768x1011.png 768w, https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_3.png 1105w\" sizes=\"auto, (max-width: 778px) 100vw, 778px\" \/><figcaption class=\"wp-element-caption\">Abbildung 3: Suche nach GND-Schlagworten auf der Basis der freien Schlagworte aus der ersten Analyse des Textes.<\/figcaption><\/figure>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"778\" height=\"1024\" src=\"https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_4-778x1024.png\" alt=\"\" class=\"wp-image-3865\" srcset=\"https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_4-778x1024.png 778w, https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_4-228x300.png 228w, https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_4-768x1011.png 768w, https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_4.png 1105w\" sizes=\"auto, (max-width: 778px) 100vw, 778px\" \/><figcaption class=\"wp-element-caption\">Abbildung 4: Zuordnung der GND-Schlagworte aus der vorherigen Suche.<\/figcaption><\/figure>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"752\" height=\"1024\" src=\"https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_5-752x1024.png\" alt=\"\" class=\"wp-image-3866\" srcset=\"https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_5-752x1024.png 752w, https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_5-220x300.png 220w, https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_5-768x1045.png 768w, https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/Abbildung_5.png 1105w\" sizes=\"auto, (max-width: 752px) 100vw, 752px\" \/><figcaption class=\"wp-element-caption\">Abbildung 5: Zuordnung der Klassifikationen durch einen Ausschnitt aus dem Bibliotheksbestand der TU Freiberg und dem Text.<\/figcaption><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><strong>3.1 Modelle<\/strong><\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Die Qualit\u00e4t der Verschlagwortung h\u00e4ngt sehr von der Gr\u00f6\u00dfe der Modelle ab. W\u00e4hrend die Zuordnung von freien Schlagworten auch mit kleineren Modellen erfolgen kann (&lt; 70 Milliarden Parameter, &lt; 70B), sind aufgrund des umfangreichen Kontextes bei der Zuordnung von kontrolliertem Vokabular Modelle mit gr\u00f6\u00dferem Kontextfenster notwendig. Versuche mit DeepSeek R1 Distilled 70B zeigen, dass ein solches Modell durchaus in der Lage ist, zufriedenstellende Verschlagwortung zu liefern, w\u00e4hrend kleinere Modelle den Zieltext ignorieren und lediglich eine Analyse der bereitgestellten Schlagworte durchf\u00fchren.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>4. N\u00e4chste Schritte<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Die Proof-of-Concept-Umsetzung zeigt, dass mit geeigneten Modellen, angepassten Prompts und kuratierten Kontextinformationen eine Sacherschlie\u00dfung durch LLMs realisiert werden kann. Derzeit dient das Tool bereits als Unterst\u00fctzung f\u00fcr die Fachreferatsarbeit an der Universit\u00e4tsbibliothek der TU Bergakademie Freiberg und wird fortw\u00e4hrend weiterentwickelt. Dabei sind effizientes Speichern und Zuordnen der GND-Schlagworte zur Klassifikation und die Integration der umfangreichen DK-Datenbank im Fachbereich Geowissenschaften geplant. Die Justierung der Prompts und Systemprompts sowie das Feinabstimmen der Prompts und Parameter f\u00fcr die jeweiligen verf\u00fcgbaren Modelle bieten weiteres Potential f\u00fcr Verbesserungen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Referenzen:<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"R1\">[1] <a href=\"https:\/\/www.dnb.de\/DE\/Professionell\/ProjekteKooperationen\/Projekte\/KI\/ki_node.html\">https:\/\/www.dnb.de\/DE\/Professionell\/ProjekteKooperationen\/Projekte\/KI\/ki_node.html<\/a> <\/p>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"R2\">[2]&nbsp;<a href=\"https:\/\/blog.dnb.de\/texte-erschliessen-mit-ki\/\">https:\/\/blog.dnb.de\/texte-erschliessen-mit-ki\/<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"R3\">[3] Poley, C., Uhlmann, S., Busse, F., Jacobs, J.-H., K\u00e4hler, M., Nagelschmidt, M., &amp; Schumacher, M. (2025). Automatic Subject Cataloguing at the German&nbsp;National Library. LIBER Quarterly: The Journal of the Association of European&nbsp;Research Libraries, 35(1), 1\u201329. <a href=\"https:\/\/doi.org\/10.53377\/lq.19422\">https:\/\/doi.org\/10.53377\/lq.19422<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"R4\">[4] D\u2019Souza, J., Sadruddin, S., Israel, H., Begoin, M., &amp; Slawig, D. (2025). SemEval-2025 Task 5: LLMs4Subjects &#8211; LLM-based Automated Subject Tagging for a National Technical Library\u2019s Open-Access Catalog. Proceedings of the 19th International Workshop on Semantic Evaluation (SemEval-2025), 1082\u20131095. <a href=\"https:\/\/aclanthology.org\/2025.semeval2025-1.139\">https:\/\/aclanthology.org\/2025.semeval2025-1.139<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"R5\">[5]&nbsp;<a href=\"https:\/\/github.com\/conradhuebler\/ALIMA\">https:\/\/github.com\/conradhuebler\/ALIMA<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"R6\">[6] Conrad H\u00fcbler. (2025). conradhuebler\/ALIMA: v0.0.1-alpha (v0.0.1). Zenodo.&nbsp;<a href=\"https:\/\/doi.org\/10.5281\/zenodo.15281300\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/doi.org\/10.5281\/zenodo.15281300<\/a><\/p>\n\n\n\n<h1 class=\"wp-block-heading\">Autor<\/h1>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/orcid.org\/0000-0003-4682-9909\">Conrad H\u00fcbler<\/a> hat an der TU Freiberg Chemie studiert und wurde in theoretischer Chemie promoviert. Seit 2022 ist er als Fachreferent f\u00fcr Chemie, Physik und Biowissenschaften sowie als Mitglied des Open Science Teams an der Universit\u00e4tsbibliothek der TU Freiberg besch\u00e4ftigt und seit 2023 auch im Institut f\u00fcr Physikalische Chemie als Postdoc t\u00e4tig.<\/p>\n\n\n\n<h1 class=\"wp-block-heading\">Zitiervorschlag<\/h1>\n\n\n\n<p class=\"wp-block-paragraph\">H\u00fcbler, Conrad. \u201cALIMA \u2013 Sacherschlie\u00dfung unterst\u00fctzt durch gro\u00dfe Sprachmodelle. Ein Werkstattbericht.\u201d&nbsp;<em>Deutsche Initiative f\u00fcr Netzwerkinformation<\/em>, 2025, <a href=\"https:\/\/doi.org\/10.57689\/DINI-BLOG.20250519\">https:\/\/doi.org\/10.57689\/DINI-BLOG.20250519<\/a>.<\/p>\n\n\n\n<h1 class=\"wp-block-heading\"><strong>Anhang<\/strong><\/h1>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"P1\"><strong>Prompt 1:<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Du bist ein korrekter und fachlich versierter Bibliothekar. Basierend auf folgendem Abstract und Keywords, schlage passende vollst\u00e4ndig deutsche Schlagworte vor. Diese Schlagworte sollen als Suchbegriffe dienen, um in kontrolliertem Vokabular zu suchen. Daher sollen f\u00fcr spezielle Begriffe zus\u00e4tzlich noch die Oberbegriffe geliefert werden. Zerlege weiterhin bei komplexen Themen, zerlege die Schlagworte in einzelne und verhindere damit unn\u00f6tig zusammengesetzte Schlagworte. Als Beispiel Dampfschifffahrtkapit\u00e4n -&gt; Dampfschifffahrt, Kapit\u00e4n und Thermodynamischer Template-Effekt -&gt; Thermodynamik, Template-Effekt.<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Abstract:<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Vorhandene Keywords:<\/em><br><em>Keine Keywords vorhanden<\/em><br><em>Bitte gib nur eine Liste deutscher Schlagworte zur\u00fcck, die f\u00fcr eine bibliothekarische Erschlie\u00dfung geeignet sind.<\/em><br><em>Die Schlagworte sollten m\u00f6glichst pr\u00e4zise und spezifisch sein.<\/em><\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"P2\"><strong>Prompt 2:<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Du bist ein korrekter Bibliothekar, der aus einer Liste von OGND-Schlagworten alle heraussuchen soll, die den folgenden Text beschreiben. Es d\u00fcrfen nur Schlagworte verwendet werden, die in der Liste auftauchen. Sollten f\u00fcr spezielle Konzepte keine konkreten Schlagworte vorhanden sein, verwende nach M\u00f6glichkeit gelieferte Oberbegriffe, auch wenn sie allgemein sind. Kombiniere Schlagworte in Ketten, um spezielle Konzepte genauer zu spezifizieren, insbesondere wenn die verf\u00fcgbaren Schlagworte allgemein sind. F\u00fchre auch keine weitere Erschlie\u00dfung durch, au\u00dfer in der abschlie\u00dfenden Diskussion, in der auch nicht gefundene Konzepte diskutiert werden k\u00f6nnen.<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Abstract:<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Zur Auswahl stehende GND-Schlagworte:<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Bitte gib deine Antwort in folgendem Format:<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>ANALYSE:<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>[Deine qualitative Analyse der Verschlagwortung]<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Schlagworte:<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>[Liste der passende Schlagwort aus dem Prompt &#8211; bitte kommagetrennt. ***Nutze keine Synonyme oder alternative Schreibweisen\/Formulierungen***]<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Schlagworte OGND Eintrage:<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>[Liste der passende Konzepte mit der zugeh\u00f6rigen OGND-ID aus dem Prompt &#8211; bitte kommagetrennt]<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Schlagwortketten:<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>[Nutze Kombinationen von OGND-Schlagworten um bestimmte Themenbereiche konkret zu beschreiben oder um Konzepte, die durch ein Schlagwort nicht korrekt abgedeckt sind. Trenne die Schlagworte (mit GND-ID) in den Ketten mit Komma. Nimm f\u00fcr jede Schlagwortkette eine neue Zeile &#8211; Kommentiere zu jeder Schlagwortkette kurz, wieso diese passend ist]<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>FEHLENDE KONZEPTE:<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>[Liste von Konzepten, die noch nicht durch GND abgedeckt sind]<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>KONKRETE FEHLENDE OBERBEGRIFFE BZW. SCHLAGWORTE:<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>[Kommatagetrennte Liste von Oberbegriffen, die die fehlenden Konzepte abdecken k\u00f6nnten]<\/em><\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"P3\"><strong>Prompt 3:<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Du bist ein korrekter Bibliothekar und sollst einen Abstrakt, der bereits verschlagwortet wurde, mit der Dezimalklassifikation versehen. Du hast einen Ausschnitt aus dem Bibliotheksbestand der Titel, Schlagworte und DKs umfasst.<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>W\u00e4hle 10 passende DKs f\u00fcr den Abstrakt auf der Basis der Suche aus, die Titel, Schlagworte und DKs umfasst!<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>**Ausschnitt aus dem Bibliotheksbestand:**<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Keine Keywords vorhanden<\/em><\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Dieser Beitrag \u2013 ausgenommen Zitate und anderweitig gekennzeichnete Teile \u2013 ist lizenziert unter der <a href=\"http:\/\/creativecommons.org\/licenses\/by\/4.0\/\">Creative Commons Namensnennung 4.0 International Lizenz<\/a> (CC BY 4.0).<\/em><\/p>\n\n\n\n<figure class=\"wp-block-image\"><a href=\"http:\/\/creativecommons.org\/licenses\/by\/4.0\/\"><img decoding=\"async\" src=\"https:\/\/i.creativecommons.org\/l\/by\/4.0\/88x31.png\" alt=\"Creative Commons Lizenzvertrag\"\/><\/a><\/figure>\n","protected":false},"excerpt":{"rendered":"<p>1. Ausgangslage Die Ausgangslage bezieht sich auf die Universit\u00e4tsbibliothek \u201eGeorgius Agricola\u201c der TU Bergakademie Freiberg und den Ablauf zur Erschlie\u00dfung von Neuerwerbungen. Das vorgestellte Tool ALIMA (AI-powered Library Indexing and Metadata Assignment ) wird von Dr. Conrad H\u00fcbler, Fachreferent f\u00fcr Naturwissenschaften der Universit\u00e4tsbibliothek und Postdoc im Institut f\u00fcr Physikalische Chemie, entwickelt. Das Tool wurde erstmals [&hellip;]<\/p>\n","protected":false},"author":15,"featured_media":3870,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_feature_clip_id":0,"_jetpack_memberships_contains_paid_content":false,"activitypub_content_warning":"","activitypub_content_visibility":"","footnotes":"","jetpack_post_was_ever_published":false},"categories":[4,5,118],"tags":[],"class_list":["post-3856","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-dini","category-epub","category-kuenstliche-intelligenz"],"jetpack_featured_media_url":"https:\/\/blog.dini.de\/EPub_FIS\/wp-content\/uploads\/2025\/05\/DINI-Blog-FISE-Pub-2.png","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/blog.dini.de\/EPub_FIS\/wp-json\/wp\/v2\/posts\/3856","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.dini.de\/EPub_FIS\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.dini.de\/EPub_FIS\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.dini.de\/EPub_FIS\/wp-json\/wp\/v2\/users\/15"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.dini.de\/EPub_FIS\/wp-json\/wp\/v2\/comments?post=3856"}],"version-history":[{"count":10,"href":"https:\/\/blog.dini.de\/EPub_FIS\/wp-json\/wp\/v2\/posts\/3856\/revisions"}],"predecessor-version":[{"id":3886,"href":"https:\/\/blog.dini.de\/EPub_FIS\/wp-json\/wp\/v2\/posts\/3856\/revisions\/3886"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.dini.de\/EPub_FIS\/wp-json\/wp\/v2\/media\/3870"}],"wp:attachment":[{"href":"https:\/\/blog.dini.de\/EPub_FIS\/wp-json\/wp\/v2\/media?parent=3856"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.dini.de\/EPub_FIS\/wp-json\/wp\/v2\/categories?post=3856"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.dini.de\/EPub_FIS\/wp-json\/wp\/v2\/tags?post=3856"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}