1. Startseite
  2. Wissenschaft
  3. Semantic Folding

Ein neues Sprachmodell – Vom Gehirn inspiriert

Hierarchical Temporal Memory einschließlich kortikaler Lernalgorithmen

Semantic Folding Theorie
und ihre Anwendung im Semantic Fingerprinting

Ein White Paper von Cortical.io
Autor: Francisco E. De Sousa Webber

Von den Neurowissenschaften inspiriertes Natural Language Understanding

Language Intelligence

Mit Semantic Folding:

Wörter, Sätze und ganze Texte  semantisch miteinander zu vergleichen

NLP-Aufgaben wie Klassifizierung und semantische Suche sind sehr effizient

das System völlig unüberwacht zu trainieren

KI-Modelle mit wenig Trainingsmaterial und ohne KI-Experte zu trainieren

Ausgehend von der Hierarchical Temporal Memory (HTM)-Theorie, einer von Numenta entwickelten computergestützten Theorie des menschlichen Kortex, hat Cortical.io Semantic Foldingeine entsprechende Theorie der Sprachrepräsentation entwickelt.

Semantic Folding beschreibt eine Methode zur Umwandlung von Text in eine semantischfundierte Darstellung, die als semantischer Fingerabdruck bezeichnet wird. Semantische Fingerabdrücke sind Sparse Distributed Representations (SDR) von Wörtern: große binäre Vektoren, die sehr spärlich gefüllt sind, wobei jedes Bit eine bestimmte semantische Information darstellt.

Viele praktische Probleme statistischer Natural Language Processing (NLP)-Systeme und neuerdings auch von Transformer-Modellen, wie die Notwendigkeit, große Trainingsdatensätze zu erstellen, die hohen Rechenkosten, die grundsätzliche Inkongruenz von Präzision und Recall, die komplexen Abstimmungsprozeduren usw., können elegant überwunden werden, indem man sie Semantic Folding auf die Textverarbeitung.

 

Semantic Folding Einfach erklärt:
Sehen Sie sich ein kurzes Video an

Semantic Folding wandelt Text in semantische Fingerabdrücke um, die die Bedeutung in einer topografischen Darstellung kapseln.

Semantische Fingerabdrücke ermöglichen den direkten Vergleich der Bedeutungen zweier beliebiger Textstücke und zeigen Tausende von semantischen Beziehungen auf.

Wenn zwei semantische Fingerabdrücke ähnlich aussehen, bedeutet dies, dass die Texte auch semantischähnlich sind.

Mit Semantic Foldingsind semantische Räume sprachübergreifend stabil und ermöglichen den direkten Vergleich von Texten in verschiedenen Sprachen ohne maschinelle Übersetzung.

Wie funktioniert Semantic Folding funktioniert?

Zunächst wählen wir Referenzmaterial aus, das die Domäne repräsentiert, in der das System arbeiten soll - Wikipedia für Anwendungen, die allgemeines Englisch verwenden, oder domänenbezogene Dokumentensammlungen für branchenspezifische Anwendungen.

Anschließend werden die Referenzdokumente in kontextbezogene Snippets zerlegt, die über eine 2D-Matrix verteilt werden, und zwar so, dass Snippets mit ähnlichen Themen (mit vielen gemeinsamen Wörtern) auf der Karte nahe beieinander platziert werden. Auf diese Weise entsteht eine 2D-Semantikkarte.

Im nächsten Schritt wird für jedes in den Referenzdokumenten enthaltene Wort ein Vektor erstellt, indem die Positionen aller Snippets, die dieses Wort enthalten, aktiviert werden. So entsteht ein großer, binärer, sehr spärlich gefüllter Vektor, der als Semantischer Fingerabdruck bezeichnet wird.

Ein Semantischer Fingerabdruck ist ein Vektor aus 16.384 Bits (128×128), wobei jedes Bit für einen konkreten Kontext (Thema) steht, der als eine Tasche von Wörtern der Trainingsschnipsel an dieser Position realisiert werden kann.

Der gesamte Semantic Folding Prozess ist völlig unüberwacht.

    Anwendungen von Semantic Folding

    Semantic Folding bildet die Grundlage für High-Level-Funktionalitäten von natural language processing , die in viele verschiedene Anwendungen integriert werden können.

    • Semantische Fingerabdrücke können für Sprachelemente wie Wörter, Sätze und ganze Dokumente erstellt werden.
    • Es können zwei beliebige Texte verglichen werden, unabhängig von ihrer Länge oder Sprache.
    • Durch die Messung der Überschneidung der semantischen Fingerabdrücke können Rechenoperationen an der Bedeutung von Textdaten durchgeführt werden.

    Semantische Fingerabdrücke eignen sich besonders gut für NLP-Aufgaben wie:

    • Klassifizierung: Anstatt den Klassifikator mit vielen annotierten Beispielen zu trainieren, kann ein Referenzfingerprint zur Beschreibung einer Klasse verwendet werden.
    • Semantische Suche: Der Vergleich der semantischen Überschneidungen zwischen dem semantischen Fingerabdruck einer Anfrage in natürlicher Sprache und den Fingerabdrücken der indizierten Dokumente erweist sich als äußerst genau und effizient.

    Vorteile von Semantic Folding

    • Hohe Genauigkeit

    Semantische Fingerabdrücke nutzen einen umfangreichen semantischen Merkmalsatz von 16k Parametern, der eine feinkörnige Disambiguierung von Wörtern und Konzepten ermöglicht.

    • Hohe Effizienz

    Semantic Folding benötigt eine Größenordnung weniger Trainingsmaterial (100er vs. 1'000er) und weniger Rechenressourcen, da es spärlich verteilte Vektoren verwendet.

    • Hohe Transparenz und Erklärbarkeit

    Jedes semantische Merkmal kann auf Dokumentenebene überprüft werden, so dass Verzerrungen in den Modellen beseitigt und Ergebnisse erklärt werden können.

    • Hohe Flexibilität und Skalierbarkeit

    Semantic Folding kann auf jede Sprache und jeden Anwendungsfall angewendet werden, und Geschäftsanwender können die Modelle leicht anpassen.

    Die Zukunft der KI ist hocheffiziente KI

    Video ansehen

    Was ist eine Sparse Distributed Representation?

    Mehr lesen