Performance Autor: Tom 18.01.2021
Google hat einen neuen Algorithmus: SMITH. Nach BERT folgt also nun der Google SMITH Algorithmus, der der Suchmaschine dabei hilft lĂ€ngerer Texte zu verstehen, statt sich auf einzelne SĂ€tze zu konzentrieren. SMITH steht dabei fĂŒr âSiamese Multi-depth Transformer-based Hierarchical Encoder for Long-Form Document Matchingâ oder frei ĂŒbersetzt âSiamesischer Transformator mit verschiedenen Ebenen, basierend auf einem hierarchischen Kodierer fĂŒr den Abgleich von Langform-Dokumentenâ. SMITH halt. Wir von den Suchhelden haben in diesem Beitrag ein Date mit dem Google SMITH Algorithmus und erklĂ€ren seine Aufgaben und Funktionen. DafĂŒr lassen wir Autoren einer wissenschaftlichen Untersuchung zu Wort kommen, die uns den Google SMITH Algorithmus nĂ€herbringen werden.
Der Google SMITH Algorithmus hilft der Suchmaschine beim Verstehen von Suchanfragen und Daten. WĂ€hrend BERT, der davor eingesetzte Algorithmus, seinen Fokus auf einzelne SĂ€tze oder AbsĂ€tze setzt, unterstĂŒtzt SMITH Google nun beim Lesen lĂ€ngerer Texte.
âIn den letzten Jahren haben Modelle, die auf dem Prinzip der Eigenerkennung (Self-Attention) basieren, wie BERT, bei der Aufgabe des Texterkennens eine Spitzenleistung erzielt. Diese Modelle sind jedoch aufgrund der groĂen RechenkomplexitĂ€t von Self-Attention in Bezug auf die LĂ€nge des Eingabetextes immer noch auf kurze Texte wie einige SĂ€tze oder einen Absatz beschrĂ€nkt. In dieser Arbeit gehen wir dieses Problem an, indem wir den Siamese Multi-depth Transformer-based Hierarchical (SMITH) Encoder fĂŒr das Matching von langen Dokumenten einsetzen.â
Der Google SMITH Algorithmus ist also entwickelt worden, um komplette AbsÀtze im Kontext von lÀngeren Texten eingebettet zu verstehen, was die Suchmaschine in die Lage versetzt komplette Webseiten und lÀngere Suchanfragen miteinander zu vergleichen. Damit das funktioniert erhöhte man die ZeichenlÀnge von 512 auf ganz 2.048.
âIm Vergleich zu BERT-basierten Systemen ist das Modell in der Lage, die maximale EingabetextlĂ€nge von 512 auf 2.048 zu erhöhen.â
1.) Wenn beide Texte lang sind, erfordert das Matching ein grĂŒndlicheres VerstĂ€ndnis der semantischen Beziehungen, einschlieĂlich des Matching-Musters zwischen Textfragmenten mit groĂem Abstand.
2.) Lange Dokumente enthalten eine interne Struktur wie Abschnitte, Passagen und SĂ€tze. FĂŒr menschliche Leser spielt die Struktur normalerweise eine SchlĂŒsselrolle fĂŒr das VerstĂ€ndnis des Inhalts. In Ă€hnlicher Weise muss ein Modell auch Informationen ĂŒber die Dokumentenstruktur berĂŒcksichtigen, um eine bessere Leistung beim Vergleichen von Dokumenten zu erzielen.
3.) Die Verarbeitung langer Texte fĂŒhrt ohne sorgfĂ€ltiges Modelldesign eher zu praktischen Problemen, z. B. wenn der Speicher erschöpft ist.
Der Google SMITH Algorithmus kann in unterschiedlichen FĂ€llen sinnvoll zum Einsatz kommen. Nachrichten, Artikelempfehlungen oder fĂŒr das Clustern von Dokumenten. Hierbei mĂŒssen jedoch erste Erfahrungswerte gesammelt werden.
âUnseres Wissens nach ist das semantische Matching zwischen langen Dokumentenkombinationen, die viele wichtige Einsatzgebiete haben, wie z. B. Nachrichtenempfehlungen, VorschlĂ€ge fĂŒr verwandte Artikel und das Zusammenstellen von Dokumentenclustern, weniger erforscht und bedarf weiterer Forschungsanstrengungen.â
Einer der wichtigsten Elemente des Google SMITH Algorithmus ist das âPre-Training und Finetuningâ. Gleiches zeigte auch BERT. Das Pre-Training sorgt dafĂŒr, dass der Google SMITH Algorithmus mittels ĂŒberwachten Lernens die Basis fĂŒr umfangreiche und nicht gelabelte Texte erhĂ€lt. Dazu werden bestimmte Wörter in einzelnen SĂ€tzen getarnt, die der Google SMITH Algorithmus nun versuchen muss aufzudecken.
âFĂŒr das Pre-Training von SMITH verwenden wir die verdeckte Satzblock-Sprachmodellierungsaufgabe zusĂ€tzlich zur ursprĂŒnglichen verdeckten Wort-Sprachmodellierungsaufgabe, die in BERT fĂŒr lange Texteingaben eingesetzt wird.â
Wichtig bei langen Texten sind TextverstÀndnis, Beziehungen zwischen einzelnen Wörtern und VerhÀltnis von SÀtzen und AbsÀtzen. Daher kommt beim Pre-Training des Google SMITH Algorithmus die Maskierung einzelner Wörter als auch ganzer Satzblöcke zum Einsatz.
âWenn ein Eingabetext lang wird, werden sowohl die Beziehungen zwischen den Wörtern in einem Satzblock als auch die Beziehungen zwischen den Satzblöcken innerhalb eines Dokuments fĂŒr das inhaltliche VerstĂ€ndnis wichtig.â
âDeshalb verdecken wir beim Pre-Training von SMITH sowohl zufĂ€llig ausgewĂ€hlte Wörter als auch Satzblöcke.â
So soll es fĂŒr den Google SMITH Algorithmus möglich sein die Beziehungen zwischen AbsĂ€tzen besser zu verstehen.
Beim Finetuning werden ĂŒberwachte, nachgelagerte Aufgaben mit nur wenigen Parametern gelernt.
âFĂŒr das Training von SMITH verwenden wir das âPre-Training und Fine-Tuningâ wie bei BERT. Dieser Ansatz besteht darin, das Modell zunĂ€chst mit groĂen, unbeschrifteten FlieĂtexten in einer unĂŒberwachten Lernweise vorzutrainieren und dann mit einer ĂŒberwachten nachgelagerten Aufgabe zu verfeinern, sodass nur wenige Parameter von Grund auf gelernt werden mĂŒssen.â
SMITH besteht aus verschiedenen Ebenen. Auf der obersten ist der Document Encoder zu finden, der nach einer hierarchischen Struktur alle Elemente eines Textes verarbeitet. Auf der unteren Ebene finden sich Positionen und verschlĂŒsselte Informationen.
Texte werden fĂŒr die VerstĂ€ndlichkeit in mehrere Satzblöcke zerlegt. Jeder kann dabei mehrere SĂ€tze umfassen, dennoch hat jeder der Satzblöcke eine vorgegebene LĂ€nge. Wird diese ĂŒberschritten, wird der Satz in den nĂ€chsten Block verschoben. Es kann zudem passieren, dass ein Satz abgeschnitten wird, wenn dieser die HöchstlĂ€nge eines Blocks ĂŒberschreitet.
âKonkret teilen wir ein Dokument in mehrere Satzblöcke mit vordefinierter LĂ€nge auf, sodass jeder Satzblock einen oder mehrere natĂŒrliche SĂ€tze enthalten kann. Wir versuchen, so viele SĂ€tze wie möglich in einen Satzblock zu fĂŒllen, bis der Block die vordefinierte maximale BlocklĂ€nge erreicht. Wenn der letzte Satz den aktuellen Block nicht ausfĂŒllen kann, verschieben wir ihn in den nĂ€chsten Block. Wenn ein einzelner Satz allein lĂ€nger ist als die maximale SatzblocklĂ€nge, schneiden wir ihn ab, damit er in den aktuellen Block passt.â
Die Autorinnen und Autoren stellen am Ende das Fazit auf, dass der Google SMITH Algorithmus in jedem Fall eine bessere Performance beim Abgleich lÀngerer Dokumente erzielen kann.
âWir können feststellen, dass SMITH im Allgemeinen eine bessere Leistung erzielt, wenn die maximale DokumentenlĂ€nge zunimmt. Dies bestĂ€tigt die Notwendigkeit der Modellierung von Langtextinhalten fĂŒr das Document Matching. Der Google SMITH Algorithmus, der im Vergleich zu anderen Standard-Self-Attention-Modellen lĂ€ngere EingabetextlĂ€ngen bewĂ€ltigt, ist eine bessere Wahl fĂŒr das Lernen und Vergleichen langer Textdarstellungen.â
Derzeit ist von keiner offiziellen Stelle bekannt, dass oder ob der Google SMITH Algorithmus schon im Einsatz ist. BERT wurde seitens Google bestÀtigt.
Letztlich bleibt zu vermuten, dass der Google SMITH Algorithmus zum Einsatz kommt, wenn die Passage Based Indexing zum Greifen kommt. Hierbei zielt Google auf die Indexierung von Abschnitten von lĂ€ngeren Seiten ab. Scheint eine gute Möglichkeit zu sein, bei der der Google SMITH Algorithmus seine Asse aus dem Ărmel holen kann.
Das bleibt bisher noch abzuwarten. Bisher zeigten sich auch bei BERT wenig Empfehlungen fĂŒr die Suchmaschinenoptimierung. Letztlich bieten die neuen Algorithmen eine verbesserte QualitĂ€t der Suchergebnisse. Daher heiĂt es heute wie gestern und so auch morgen: hochwertige Inhalte, klare Strukturen und ein Mehrwert fĂŒr den Nutzer. Damit wir sicher auch den Google SMITH Algorithmus beeindrucken.
Sollten Sie noch weitere Fragen zu dem Google SMITH Algorithmus und anderweitig ein Anliegen verspĂŒren, dann zögern Sie nicht uns zu kontaktieren.