1. Startseite
  2. Wissenschaft
  3. Semantic Folding

Ein neues Sprachmodell – Vom Gehirn inspiriert

Hierarchical Temporal Memory einschließlich kortikaler Lernalgorithmen

Semantic Folding Theorie
und ihre Anwendung im Semantic Fingerprinting

Ein White Paper von Cortical.io
Autor: Francisco E. De Sousa Webber

Von den Neurowissenschaften inspiriertes Natural Language Understanding

Language Intelligence

Semantic Folding macht es möglich:

Wörter, Sätze und ganze Texte  semantisch miteinander zu vergleichen

Textanalyse-Aufgaben wie Klassifizierung und semantische Suche sehr effizient durchzuführen

das System völlig unüberwacht zu trainieren

KI-Modelle mit wenig Trainingsmaterial und ohne KI-Experte zu trainieren

Ausgehend von der Hierarchical Temporal Memory (HTM)-Theorie, einer von Numenta entwickelten computergestützten Theorie des menschlichen Kortex, hat Cortical.io mit Semantic Folding eine entsprechende Theorie der Sprachrepräsentation entwickelt.

Semantic Folding beschreibt eine Methode zur Umwandlung von Text in Semantic Fingerprints. Semantic Fingerprints sind Sparse Distributed Representations (SDR) von Wörtern: große binäre Vektoren, die sehr spärlich gefüllt sind, wobei jedes Bit eine bestimmte semantische Information darstellt.

Viele praktische Probleme statistischer Natural Language Processing (NLP)-Systeme und neuerdings auch von Transformer-Modellen, wie die Notwendigkeit, große Trainingsdatensätze zu erstellen, die hohen Rechenkosten, die grundsätzliche Inkongruenz von Präzision und Recall, die komplexen Abstimmungsprozeduren usw., können durch die Anwendung von Semantic Folding auf die Textverarbeitung elegant überwunden werden.

 

Semantic Folding einfach erklärt:
Sehen Sie sich ein kurzes Video an

Semantic Folding wandelt Text in Semantic Fingerprints um, die die Bedeutung in einer topografischen Darstellung speichern.

Semantic Fingerprints ermöglichen den direkten Vergleich der Bedeutungen zweier beliebiger Textstücke und zeigen Tausende von semantischen Beziehungen auf.

Wenn zwei Semantic Fingerprints ähnlich aussehen, bedeutet dies, dass die Texte auch semantisch ähnlich sind.

Mit Semantic Folding sind die semantischen Räume sprachübergreifend stabil und ermöglichen den direkten Vergleich von Texten in verschiedenen Sprachen ohne maschinelle Übersetzung.

Wie funktioniert Semantic Folding?

Zunächst wählen wir Referenzmaterial aus, das die Domäne repräsentiert, in der das System arbeiten soll - Wikipedia für Anwendungen, die allgemeines Englisch verwenden, oder domänenbezogene Dokumentensammlungen für branchenspezifische Anwendungen.

Anschließend werden die Referenzdokumente in kontextbezogene Snippets zerlegt, die über eine 2D-Matrix verteilt werden, und zwar so, dass Snippets mit ähnlichen Themen (mit vielen gemeinsamen Wörtern) auf der Karte nahe beieinander platziert werden. Auf diese Weise entsteht eine 2D-Semantikkarte.

Im nächsten Schritt wird für jedes in den Referenzdokumenten enthaltene Wort ein Vektor erstellt, indem die Positionen aller Snippets, die dieses Wort enthalten, aktiviert werden. So entsteht ein großer, binärer, sehr spärlich gefüllter Vektor, der Semantic Fingerprint genannt wird.

Ein Semantic Fingerprint ist ein Vektor von 16.384 Bits (128×128), wobei jedes Bit für einen konkreten Kontext (Thema) steht, der als "bag of words" der Trainings-Snippets an dieser Position realisiert werden kann.

Der gesamte Semantic Folding Prozess ist völlig unüberwacht.

    Anwendungen von Semantic Folding

    Semantic Folding bildet die Grundlage für High-Level-Funktionalitäten von Natural Language Processing, die in viele verschiedene Anwendungen integriert werden können.

    • Semantic Fingerprints können für Sprachelemente wie Wörter, Sätze und ganze Dokumente erstellt werden.
    • Es können zwei beliebige Texte verglichen werden, unabhängig von ihrer Länge oder Sprache.
    • Die Bedeutung von Text kann durch Messung der Überlappung von Semantic Fingerprints einfach "gerechnet" werden (je größer die Überlappung, umso ähnlicher die Texte).

    Semantic Fingerprints eignen sich besonders gut für NLP-Aufgaben wie:

    • Klassifizierung: Anstatt den Klassifikator mit vielen annotierten Beispielen zu trainieren, kann ein Referenzfingerprint zur Beschreibung einer Klasse verwendet werden.
    • Semantische Suche: Semantic Fingerprints erhöhen die Genauigkeit und Effizienz von Textsuche. Das System vergleicht einfach die Überlappungen zwischen dem Semantic Fingerprint der Abfrage und dem Semantic Fingerprint der indizierten Dokumente.

    Vorteile von Semantic Folding

    • Hohe Genauigkeit

    Semantic Fingerprints nutzen einen umfangreichen Satz semantischer Merkmale mit 16k Parametern, die eine feinkörnige Disambiguierung von Wörtern und Konzepten ermöglichen.

    • Hohe Effizienz

    Semantic Folding benötigt eine Größenordnung weniger Trainingsdokumente (Hunderte vs. Tausende) und weniger Rechenressourcen, da es spärlich verteilte Vektoren verwendet.

    • Hohe Transparenz und Erklärbarkeit

    Jedes semantische Merkmal kann auf Dokumentenebene überprüft werden, so dass Biases in den Modellen beseitigt und Ergebnisse erklärt werden können.

    • Hohe Flexibilität und Skalierbarkeit

    Semantic Folding kann auf jede Sprache und jeden Anwendungsfall angewendet werden, und Geschäftsanwender können die Modelle leicht anpassen.

    Die Zukunft der KI ist hocheffiziente KI

    Video ansehen

    Was ist eine Sparse Distributed Representation?

    Mehr lesen