Bild
Bibliothek Atrium

17.09.2020 | News IntraFind baut Linguistik-Plugin für Elasticsearch weiter aus

IntraFind, Spezialist für Enterprise Search und Content Analytics, hat seine Linguistik-Erweiterung für Elasticsearch optimiert. Diese bietet nun auch Suche nach Entitäten, numerische Suche und Einheitensuche.

Mit seinem Linguistik-Plugin ermöglicht IntraFind den Nutzern der Open-Source-Suchmaschine und Analytics-Engine Elasticsearch vollständigere und relevantere Suchergebnisse. Dazu bietet das Plugin ab sofort auch die Erkennung von Entitäten, Zahlen und Einheiten sowie deren Integration in den Suchindex an. 

Die Entitätensuche des Plugins ermöglicht es nun beispielsweise, nach einer beliebigen Person in der Nähe (kleiner Wortabstand oder gleicher Satz) von „gründen“ und „Ärzte ohne Grenzen“ zu suchen. Wird für diese Suchanfrage ein Dokument gefunden, so enthält die relevante Textpassage durch Entitätenerkennung und Grundformennormalisierung mit hoher Wahrscheinlichkeit den Namen eines der Gründer von „Ärzte ohne Grenzen“ – beispielsweise Bernard Kouchner.

Die numerische Suche nach einem beliebigen Geldbetrag in einem Text in der Nähe von „Miete“ und Adressbestandteilen als weiteren Kontext könnte die Antwort auf die Frage nach der Miethöhe eines Objekts liefern. Die Suche nach den Wörtern „Siedepunkt “ und einer „Temperatur von 90 – 110 °C“ im gleichen Satz beispielsweise würde durch Einheitennormalisierung und Mehrsprachigkeit als Treffer auch den Satz „The boiling point of water is 212 °F“ liefern. 

Das Elasticsearch-Plugin von IntraFind bietet hochmoderne linguistische Analysen. Ausgehend von einer professionellen Identifikation von Sprache und Wortgrenzen, und auch komplexer Begriffe, macht eine sehr präzise morphologische Grundformennormalisierung die Suche qualitativ besser. Die Zerlegung von beliebig zusammengesetzten Begriffen (Kompositazerlegung) in die sinntragenden Einzelbestandteile steigert die Qualität weiter. Aufgrund der unendlich vielen Kombinationsmöglichkeiten bei der Bildung von Komposita arbeitet das Tool mit intelligenten Filterregeln und prozeduralen Lexika. 

„Mit ihren Neuerungen liefert unsere Linguistik-Erweiterung nun einen noch größeren Mehrwert für Elasticsearch-Installationen, denn Namen, etwa von Personen, Organisationen und Orten, spielen bei Suchen oft eine besonders wichtige Rolle. Dasselbe gilt für Zahlenangaben wie Preise, Datumsangaben oder technisch-wissenschaftliche Einheiten für beispielsweise Flächen, Geschwindigkeiten oder Temperaturen“, sagt Franz Kögl, Vorstand der IntraFind Software AG. „IT-Verantwortliche profitieren von der einfachen Integrationsmöglichkeit des Plugins für ihre bestehende Elasticsearch-Suche“.

Elasticsearch

Elasticsearch ist eine weitverbreitete Open-Source-Search-Technologie basierend auf Apache Lucene und entwickelt in Java. Elasticsearch ist vor allem in Cloud-Infrastrukturen eine wichtige Komponente für eine standortunabhängige Suche und ermöglicht eine "Suche in Echtzeit".