Performance Autor: Tom 18.01.2021
Google hat einen neuen Algorithmus: SMITH. Nach BERT folgt also nun der Google SMITH Algorithmus, der der Suchmaschine dabei hilft längerer Texte zu verstehen, statt sich auf einzelne Sätze zu konzentrieren. SMITH steht dabei für „Siamese Multi-depth Transformer-based Hierarchical Encoder for Long-Form Document Matching“ oder frei übersetzt „Siamesischer Transformator mit verschiedenen Ebenen, basierend auf einem hierarchischen Kodierer für den Abgleich von Langform-Dokumenten“. SMITH halt. Wir von den Suchhelden haben in diesem Beitrag ein Date mit dem Google SMITH Algorithmus und erklären seine Aufgaben und Funktionen. Dafür lassen wir Autoren einer wissenschaftlichen Untersuchung zu Wort kommen, die uns den Google SMITH Algorithmus näherbringen werden.
Der Google SMITH Algorithmus hilft der Suchmaschine beim Verstehen von Suchanfragen und Daten. Während BERT, der davor eingesetzte Algorithmus, seinen Fokus auf einzelne Sätze oder Absätze setzt, unterstützt SMITH Google nun beim Lesen längerer Texte.
„In den letzten Jahren haben Modelle, die auf dem Prinzip der Eigenerkennung (Self-Attention) basieren, wie BERT, bei der Aufgabe des Texterkennens eine Spitzenleistung erzielt. Diese Modelle sind jedoch aufgrund der großen Rechenkomplexität von Self-Attention in Bezug auf die Länge des Eingabetextes immer noch auf kurze Texte wie einige Sätze oder einen Absatz beschränkt. In dieser Arbeit gehen wir dieses Problem an, indem wir den Siamese Multi-depth Transformer-based Hierarchical (SMITH) Encoder für das Matching von langen Dokumenten einsetzen.“
Der Google SMITH Algorithmus ist also entwickelt worden, um komplette Absätze im Kontext von längeren Texten eingebettet zu verstehen, was die Suchmaschine in die Lage versetzt komplette Webseiten und längere Suchanfragen miteinander zu vergleichen. Damit das funktioniert erhöhte man die Zeichenlänge von 512 auf ganz 2.048.
„Im Vergleich zu BERT-basierten Systemen ist das Modell in der Lage, die maximale Eingabetextlänge von 512 auf 2.048 zu erhöhen.“
1.) Wenn beide Texte lang sind, erfordert das Matching ein gründlicheres Verständnis der semantischen Beziehungen, einschließlich des Matching-Musters zwischen Textfragmenten mit großem Abstand.
2.) Lange Dokumente enthalten eine interne Struktur wie Abschnitte, Passagen und Sätze. Für menschliche Leser spielt die Struktur normalerweise eine Schlüsselrolle für das Verständnis des Inhalts. In ähnlicher Weise muss ein Modell auch Informationen über die Dokumentenstruktur berücksichtigen, um eine bessere Leistung beim Vergleichen von Dokumenten zu erzielen.
3.) Die Verarbeitung langer Texte führt ohne sorgfältiges Modelldesign eher zu praktischen Problemen, z. B. wenn der Speicher erschöpft ist.
Der Google SMITH Algorithmus kann in unterschiedlichen Fällen sinnvoll zum Einsatz kommen. Nachrichten, Artikelempfehlungen oder für das Clustern von Dokumenten. Hierbei müssen jedoch erste Erfahrungswerte gesammelt werden.
„Unseres Wissens nach ist das semantische Matching zwischen langen Dokumentenkombinationen, die viele wichtige Einsatzgebiete haben, wie z. B. Nachrichtenempfehlungen, Vorschläge für verwandte Artikel und das Zusammenstellen von Dokumentenclustern, weniger erforscht und bedarf weiterer Forschungsanstrengungen.“
Einer der wichtigsten Elemente des Google SMITH Algorithmus ist das „Pre-Training und Finetuning“. Gleiches zeigte auch BERT. Das Pre-Training sorgt dafür, dass der Google SMITH Algorithmus mittels überwachten Lernens die Basis für umfangreiche und nicht gelabelte Texte erhält. Dazu werden bestimmte Wörter in einzelnen Sätzen getarnt, die der Google SMITH Algorithmus nun versuchen muss aufzudecken.
„Für das Pre-Training von SMITH verwenden wir die verdeckte Satzblock-Sprachmodellierungsaufgabe zusätzlich zur ursprünglichen verdeckten Wort-Sprachmodellierungsaufgabe, die in BERT für lange Texteingaben eingesetzt wird.“
Wichtig bei langen Texten sind Textverständnis, Beziehungen zwischen einzelnen Wörtern und Verhältnis von Sätzen und Absätzen. Daher kommt beim Pre-Training des Google SMITH Algorithmus die Maskierung einzelner Wörter als auch ganzer Satzblöcke zum Einsatz.
„Wenn ein Eingabetext lang wird, werden sowohl die Beziehungen zwischen den Wörtern in einem Satzblock als auch die Beziehungen zwischen den Satzblöcken innerhalb eines Dokuments für das inhaltliche Verständnis wichtig.“
„Deshalb verdecken wir beim Pre-Training von SMITH sowohl zufällig ausgewählte Wörter als auch Satzblöcke.“
So soll es für den Google SMITH Algorithmus möglich sein die Beziehungen zwischen Absätzen besser zu verstehen.
Beim Finetuning werden überwachte, nachgelagerte Aufgaben mit nur wenigen Parametern gelernt.
„Für das Training von SMITH verwenden wir das „Pre-Training und Fine-Tuning“ wie bei BERT. Dieser Ansatz besteht darin, das Modell zunächst mit großen, unbeschrifteten Fließtexten in einer unüberwachten Lernweise vorzutrainieren und dann mit einer überwachten nachgelagerten Aufgabe zu verfeinern, sodass nur wenige Parameter von Grund auf gelernt werden müssen.“
SMITH besteht aus verschiedenen Ebenen. Auf der obersten ist der Document Encoder zu finden, der nach einer hierarchischen Struktur alle Elemente eines Textes verarbeitet. Auf der unteren Ebene finden sich Positionen und verschlüsselte Informationen.
Texte werden für die Verständlichkeit in mehrere Satzblöcke zerlegt. Jeder kann dabei mehrere Sätze umfassen, dennoch hat jeder der Satzblöcke eine vorgegebene Länge. Wird diese überschritten, wird der Satz in den nächsten Block verschoben. Es kann zudem passieren, dass ein Satz abgeschnitten wird, wenn dieser die Höchstlänge eines Blocks überschreitet.
„Konkret teilen wir ein Dokument in mehrere Satzblöcke mit vordefinierter Länge auf, sodass jeder Satzblock einen oder mehrere natürliche Sätze enthalten kann. Wir versuchen, so viele Sätze wie möglich in einen Satzblock zu füllen, bis der Block die vordefinierte maximale Blocklänge erreicht. Wenn der letzte Satz den aktuellen Block nicht ausfüllen kann, verschieben wir ihn in den nächsten Block. Wenn ein einzelner Satz allein länger ist als die maximale Satzblocklänge, schneiden wir ihn ab, damit er in den aktuellen Block passt.“
Die Autorinnen und Autoren stellen am Ende das Fazit auf, dass der Google SMITH Algorithmus in jedem Fall eine bessere Performance beim Abgleich längerer Dokumente erzielen kann.
„Wir können feststellen, dass SMITH im Allgemeinen eine bessere Leistung erzielt, wenn die maximale Dokumentenlänge zunimmt. Dies bestätigt die Notwendigkeit der Modellierung von Langtextinhalten für das Document Matching. Der Google SMITH Algorithmus, der im Vergleich zu anderen Standard-Self-Attention-Modellen längere Eingabetextlängen bewältigt, ist eine bessere Wahl für das Lernen und Vergleichen langer Textdarstellungen.“
Derzeit ist von keiner offiziellen Stelle bekannt, dass oder ob der Google SMITH Algorithmus schon im Einsatz ist. BERT wurde seitens Google bestätigt.
Letztlich bleibt zu vermuten, dass der Google SMITH Algorithmus zum Einsatz kommt, wenn die Passage Based Indexing zum Greifen kommt. Hierbei zielt Google auf die Indexierung von Abschnitten von längeren Seiten ab. Scheint eine gute Möglichkeit zu sein, bei der der Google SMITH Algorithmus seine Asse aus dem Ärmel holen kann.
Das bleibt bisher noch abzuwarten. Bisher zeigten sich auch bei BERT wenig Empfehlungen für die Suchmaschinenoptimierung. Letztlich bieten die neuen Algorithmen eine verbesserte Qualität der Suchergebnisse. Daher heißt es heute wie gestern und so auch morgen: hochwertige Inhalte, klare Strukturen und ein Mehrwert für den Nutzer. Damit wir sicher auch den Google SMITH Algorithmus beeindrucken.
Sollten Sie noch weitere Fragen zu dem Google SMITH Algorithmus und anderweitig ein Anliegen verspüren, dann zögern Sie nicht uns zu kontaktieren.