Datenbank-Schnittstellen in natürlicher Sprache
Geschrieben am 29.12.2006
"Wie komme ich am Samstagnachmittag günstig und schnell von Berlin nach Aachen, was kostet das und wie lange brauche ich?" Daran, dass wir unserem Computer, besser gesagt einer Datenbank, demnächst Fragen wie diese stellen können, wird an vielen Stellen unter Hochdruck gearbeitet. Besonders Suchmaschinen wie Google haben ein großes Interesse an dieser Technologie. Richard Bergmair stellte seine Version einer solchen Schnittstelle vor.
Um beim Beispiel Google zu bleiben: Viele Nutzer geben dort jetzt schon Fragen in natürlicher Sprache ein und haben damit einen passablen Erfolg, aber nicht, weil die Suchmaschine verstünde, worum es geht, sondern weil auch die von ihr durchsuchten Webseiten in dieser Sprache geschrieben sind und sich Übereinstimmungen finden lassen. Stichworte würden jedoch genauso zum Erfolg oder Mißerfolg führen, denn einen Zusammenhang zwischen den Worten stellt Google nicht her.
Anders verfahren Schnittstellen auf Basis von Fuzzy Semantik (fuzzy - engl.: unscharf): Sie "erkennen" sozusagen die Bedeutung der Worte und ordnen ihnen Zahlenwerte zu. Dieses Prinzip ist eine Weiterentwicklung der Fuzzy Logik aus der Mathematik. Ein Beispiel verdeutlicht es: Ich suche eine "heiße trockene Stadt". Das Programm erkennt die Worte "heiß", "trocken" und "Stadt". Die Bezeichnung "Stadt" wird erkannt und definiert die Datensätze, in denen gesucht werden soll. Den Worten "heiß" und "trocken" sind Grenzwerte für Durchschnittstemperatur und Regenwahrscheinlichkeit zugeordnet, und nun filtert das Programm aus der Datenbank alle Städte, die überdurchschnittliche Temperaturen und unterdurchschnittlichen Regenfall haben.
Auf die gleiche Art könnte das Program eine "heiße Stadt nahe einer trockenen Stadt" finden oder eine "feuchtwarme Stadt nahe San Francisco". "San Francisco" wird, soweit es in der Datenbank enthalten ist, als Eigenname erkannt und die entsprechenden Werte, in diesem Fall die Position, ausgelesen. Das Potential eines solchen Systems wird zum einen von seinem "Verständnis" für Grammatik beschränkt (UND und ODER kennt nahezu jede Datenbank, aber welche kann etwas mit UNGEFÄHR, GRÖßER und KLEINER oder erst FEUCHTER anfangen?), zum anderen vom enthaltenen, definierten Wortschatz.
Das Wort "fuzzy" deutet es schon an: Die Begriffe sind unscharf. Ob eine Stadt nun "nah" oder "fern", "heiß" oder "kalt", "groß" oder "klein" ist, ist subjektiv. Die Macher des Interfaces verwendeten Durchschnittswerte aus repräsentativen Befragungen, in denen die Befragten den Worten Zahlen zuordnen sollten.
Beim System, an dessen Entwicklung Bergmair an der University of Cambridge arbeitete, lässt sich die zugrunde liegende Datenbank leicht austauschen. Die Anwendungsbereiche sind weit gestreut, von Büchereien über Routenplaner bis zum Traumziel, der intelligenten Suchmaschine, die nahezu auf alle sachlichen Fragen eine Antwort hat.
Steckbrief des Vortrags beim 23c3
0 Kommentare



