Prinzip
Das Prinzip, auf der die Similarity Engine basiert, ist an sich nicht sehr kompliziert, abgesehen von sprachlichen Hindernissen, mit denen das Patent ausgeschmückt ist, und natürlich der Umsetzung, die fortgeschrittene Mathematik-Kenntnisse erfordern.
Im ersten Schritt wird ein Dokument in Form von Vektoren dargestellt. Jedem Bestandteil des Kontents bzw. jedem Wort wird ein representativer und eindeutiger Vektor zugewiesen.
Anschließend wird abhängig von der Häufigkeit eines Begriffs dessen Gewichtung berechnet, die beim Vergleich bzw. bei der Überprüfung von großer Bedeutung ist.
Durch Multiplikation des jeweiligen Wort-Vektors mit der Gewichtung wird ein Gesamtvektor für den vollständigen Text errechnet.
Als letztes kommt es zum (Bit-für-Bit) Vergleich zweier Dokumente, die zuvor in sogenannten "result vectors" dargestellt wurden, wonach entschieden wird, wie sehr sich die Texte ähneln, wobei hierbei nicht vernachlässigt wird, dass die Verwendung mancher Wörter schlimmer ist als die anderer Wörter (siehe Schritt zur Festlegung der Gewichtung).