Performance Autor: Tom 18.01.2021

Google SMITH Algorithmus – lĂ€ngere Texte im Fokus

Google hat einen neuen Algorithmus: SMITH. Nach BERT folgt also nun der Google SMITH Algorithmus, der der Suchmaschine dabei hilft lĂ€ngerer Texte zu verstehen, statt sich auf einzelne SĂ€tze zu konzentrieren. SMITH steht dabei fĂŒr „Siamese Multi-depth Transformer-based Hierarchical Encoder for Long-Form Document Matching“ oder frei ĂŒbersetzt „Siamesischer Transformator mit verschiedenen Ebenen, basierend auf einem hierarchischen Kodierer fĂŒr den Abgleich von Langform-Dokumenten“. SMITH halt. Wir von den Suchhelden haben in diesem Beitrag ein Date mit dem Google SMITH Algorithmus und erklĂ€ren seine Aufgaben und Funktionen. DafĂŒr lassen wir Autoren einer wissenschaftlichen Untersuchung zu Wort kommen, die uns den Google SMITH Algorithmus nĂ€herbringen werden.

Was ist der Google SMITH Algorithmus?

Der Google SMITH Algorithmus hilft der Suchmaschine beim Verstehen von Suchanfragen und Daten. WĂ€hrend BERT, der davor eingesetzte Algorithmus, seinen Fokus auf einzelne SĂ€tze oder AbsĂ€tze setzt, unterstĂŒtzt SMITH Google nun beim Lesen lĂ€ngerer Texte.

„In den letzten Jahren haben Modelle, die auf dem Prinzip der Eigenerkennung (Self-Attention) basieren, wie BERT, bei der Aufgabe des Texterkennens eine Spitzenleistung erzielt. Diese Modelle sind jedoch aufgrund der großen RechenkomplexitĂ€t von Self-Attention in Bezug auf die LĂ€nge des Eingabetextes immer noch auf kurze Texte wie einige SĂ€tze oder einen Absatz beschrĂ€nkt. In dieser Arbeit gehen wir dieses Problem an, indem wir den Siamese Multi-depth Transformer-based Hierarchical (SMITH) Encoder fĂŒr das Matching von langen Dokumenten einsetzen.“

Der Google SMITH Algorithmus ist also entwickelt worden, um komplette AbsÀtze im Kontext von lÀngeren Texten eingebettet zu verstehen, was die Suchmaschine in die Lage versetzt komplette Webseiten und lÀngere Suchanfragen miteinander zu vergleichen. Damit das funktioniert erhöhte man die ZeichenlÀnge von 512 auf ganz 2.048.

„Im Vergleich zu BERT-basierten Systemen ist das Modell in der Lage, die maximale EingabetextlĂ€nge von 512 auf 2.048 zu erhöhen.“

Was sind eigentlich die Herausforderung bei langen Texten?

1.) Wenn beide Texte lang sind, erfordert das Matching ein grĂŒndlicheres VerstĂ€ndnis der semantischen Beziehungen, einschließlich des Matching-Musters zwischen Textfragmenten mit großem Abstand.

2.) Lange Dokumente enthalten eine interne Struktur wie Abschnitte, Passagen und SĂ€tze. FĂŒr menschliche Leser spielt die Struktur normalerweise eine SchlĂŒsselrolle fĂŒr das VerstĂ€ndnis des Inhalts. In Ă€hnlicher Weise muss ein Modell auch Informationen ĂŒber die Dokumentenstruktur berĂŒcksichtigen, um eine bessere Leistung beim Vergleichen von Dokumenten zu erzielen.

3.) Die Verarbeitung langer Texte fĂŒhrt ohne sorgfĂ€ltiges Modelldesign eher zu praktischen Problemen, z. B. wenn der Speicher erschöpft ist.

Wann kommt der Google SMITH Algorithmus zum Einsatz?

Der Google SMITH Algorithmus kann in unterschiedlichen FĂ€llen sinnvoll zum Einsatz kommen. Nachrichten, Artikelempfehlungen oder fĂŒr das Clustern von Dokumenten. Hierbei mĂŒssen jedoch erste Erfahrungswerte gesammelt werden.

„Unseres Wissens nach ist das semantische Matching zwischen langen Dokumentenkombinationen, die viele wichtige Einsatzgebiete haben, wie z. B. Nachrichtenempfehlungen, VorschlĂ€ge fĂŒr verwandte Artikel und das Zusammenstellen von Dokumentenclustern, weniger erforscht und bedarf weiterer Forschungsanstrengungen.“

Pre-Training beim Google SMITH Algorithmus

Einer der wichtigsten Elemente des Google SMITH Algorithmus ist das „Pre-Training und Finetuning“. Gleiches zeigte auch BERT. Das Pre-Training sorgt dafĂŒr, dass der Google SMITH Algorithmus mittels ĂŒberwachten Lernens die Basis fĂŒr umfangreiche und nicht gelabelte Texte erhĂ€lt. Dazu werden bestimmte Wörter in einzelnen SĂ€tzen getarnt, die der Google SMITH Algorithmus nun versuchen muss aufzudecken.

„FĂŒr das Pre-Training von SMITH verwenden wir die verdeckte Satzblock-Sprachmodellierungsaufgabe zusĂ€tzlich zur ursprĂŒnglichen verdeckten Wort-Sprachmodellierungsaufgabe, die in BERT fĂŒr lange Texteingaben eingesetzt wird.“

Wichtig bei langen Texten sind TextverstÀndnis, Beziehungen zwischen einzelnen Wörtern und VerhÀltnis von SÀtzen und AbsÀtzen. Daher kommt beim Pre-Training des Google SMITH Algorithmus die Maskierung einzelner Wörter als auch ganzer Satzblöcke zum Einsatz.

„Wenn ein Eingabetext lang wird, werden sowohl die Beziehungen zwischen den Wörtern in einem Satzblock als auch die Beziehungen zwischen den Satzblöcken innerhalb eines Dokuments fĂŒr das inhaltliche VerstĂ€ndnis wichtig.“

„Deshalb verdecken wir beim Pre-Training von SMITH sowohl zufĂ€llig ausgewĂ€hlte Wörter als auch Satzblöcke.“

So soll es fĂŒr den Google SMITH Algorithmus möglich sein die Beziehungen zwischen AbsĂ€tzen besser zu verstehen.

Beim Finetuning werden ĂŒberwachte, nachgelagerte Aufgaben mit nur wenigen Parametern gelernt.

„FĂŒr das Training von SMITH verwenden wir das „Pre-Training und Fine-Tuning“ wie bei BERT. Dieser Ansatz besteht darin, das Modell zunĂ€chst mit großen, unbeschrifteten Fließtexten in einer unĂŒberwachten Lernweise vorzutrainieren und dann mit einer ĂŒberwachten nachgelagerten Aufgabe zu verfeinern, sodass nur wenige Parameter von Grund auf gelernt werden mĂŒssen.“

Das hierarchische Modell des Google SMITH Algorithmus

SMITH besteht aus verschiedenen Ebenen. Auf der obersten ist der Document Encoder zu finden, der nach einer hierarchischen Struktur alle Elemente eines Textes verarbeitet. Auf der unteren Ebene finden sich Positionen und verschlĂŒsselte Informationen.

Texte werden fĂŒr die VerstĂ€ndlichkeit in mehrere Satzblöcke zerlegt. Jeder kann dabei mehrere SĂ€tze umfassen, dennoch hat jeder der Satzblöcke eine vorgegebene LĂ€nge. Wird diese ĂŒberschritten, wird der Satz in den nĂ€chsten Block verschoben. Es kann zudem passieren, dass ein Satz abgeschnitten wird, wenn dieser die HöchstlĂ€nge eines Blocks ĂŒberschreitet.

„Konkret teilen wir ein Dokument in mehrere Satzblöcke mit vordefinierter LĂ€nge auf, sodass jeder Satzblock einen oder mehrere natĂŒrliche SĂ€tze enthalten kann. Wir versuchen, so viele SĂ€tze wie möglich in einen Satzblock zu fĂŒllen, bis der Block die vordefinierte maximale BlocklĂ€nge erreicht. Wenn der letzte Satz den aktuellen Block nicht ausfĂŒllen kann, verschieben wir ihn in den nĂ€chsten Block. Wenn ein einzelner Satz allein lĂ€nger ist als die maximale SatzblocklĂ€nge, schneiden wir ihn ab, damit er in den aktuellen Block passt.“

Die Schlussfolgerung zum Google SMITH Algorithmus

Die Autorinnen und Autoren stellen am Ende das Fazit auf, dass der Google SMITH Algorithmus in jedem Fall eine bessere Performance beim Abgleich lÀngerer Dokumente erzielen kann.

„Wir können feststellen, dass SMITH im Allgemeinen eine bessere Leistung erzielt, wenn die maximale DokumentenlĂ€nge zunimmt. Dies bestĂ€tigt die Notwendigkeit der Modellierung von Langtextinhalten fĂŒr das Document Matching. Der Google SMITH Algorithmus, der im Vergleich zu anderen Standard-Self-Attention-Modellen lĂ€ngere EingabetextlĂ€ngen bewĂ€ltigt, ist eine bessere Wahl fĂŒr das Lernen und Vergleichen langer Textdarstellungen.“

Ist der Google SMITH Algorithmus schon im Einsatz?

Derzeit ist von keiner offiziellen Stelle bekannt, dass oder ob der Google SMITH Algorithmus schon im Einsatz ist. BERT wurde seitens Google bestÀtigt.

Letztlich bleibt zu vermuten, dass der Google SMITH Algorithmus zum Einsatz kommt, wenn die Passage Based Indexing zum Greifen kommt. Hierbei zielt Google auf die Indexierung von Abschnitten von lĂ€ngeren Seiten ab. Scheint eine gute Möglichkeit zu sein, bei der der Google SMITH Algorithmus seine Asse aus dem Ärmel holen kann.

Was bedeutet der Google SMITH Algorithmus fĂŒr das SEO?

Das bleibt bisher noch abzuwarten. Bisher zeigten sich auch bei BERT wenig Empfehlungen fĂŒr die Suchmaschinenoptimierung. Letztlich bieten die neuen Algorithmen eine verbesserte QualitĂ€t der Suchergebnisse. Daher heißt es heute wie gestern und so auch morgen: hochwertige Inhalte, klare Strukturen und ein Mehrwert fĂŒr den Nutzer. Damit wir sicher auch den Google SMITH Algorithmus beeindrucken.

Sollten Sie noch weitere Fragen zu dem Google SMITH Algorithmus und anderweitig ein Anliegen verspĂŒren, dann zögern Sie nicht uns zu kontaktieren.

Artikel teilen auf:

ALS PARTNER AUSGEZEICHNET

Logo 1A Yachtcharter
Logo Ebay
Logo Cornelsen
Suchhelden Partner StreitkrÀftebasis
Logo Deichmann
Logo Rheinzink
Logo Ergo Versicherung
Logo Fischer Trauringe