Weitere Einflussfaktoren im Rahmen des PageRank-Verfahrens
Vollständiger Text:
Es wurde bereits vielerorts diskutiert, ob für die PageRank-Berechnung seit der Veröffentlichung der wissenschaftlichen Arbeiten durch Lawrence Page und Sergey Brin weitere Kriterien als nur die einfache Link-Struktur des Webs für die Berechnung des PageRanks hinzugezogen wurden. Lawrence Page selbst skizziert in der Patentschrift zum PageRank-Verfahren die folgenden potentiellen Einflussfaktoren:
- Die Stärke der Hervorhebung eines Links
- Die Position eines Links innerhalb des Dokuments
- Die Distanz zwischen Webseiten
- Die Bedeutung einer verweisenden Seite
- Die Aktualität einer verweisenden Seite
Die Implementierung dieser weiteren Einflussfaktoren würde zunächst auf bessere Annäherung des Random Surfer Modells an tatsächliches Nutzerverhalten abzielen. Mit der Einbeziehung von Hervorhebung und Position eines Links geht man davon aus, das ein Benutzer nicht völlig wahllos klickt, sondern unabhängig vom Ankertext eher die deutlich erkennbaren und unmittelbar sichtbaren Links verfolgt. Mit der Berücksichtigung der anderen Faktoren könnte Google darüber hinaus eine weit größere Flexibilität in der Bestimmung der Bedeutung eines eingehenden Links für eine Webseite erreichen, als durch die bereits erwähnten Methoden.
Unterschiedliche Bewertung von Links innerhalb einzelner Seiten
Zwei wesentliche von Lawrence Page in der Patentschrift zum PageRank-Verfahren genannte Bewertungskriterien für Links sind deren Grad der Hervorhebung und Position innerhalb eines Dokuments. Es handelt es sich hierbei also um Kriterien, die die Wahrscheinlichkeit widerspiegeln, mit der der Zufalls-Surfer einen bestimmten Link auf einer Website in Relation zu einem anderen Link auf dieser Website verfolgt.
Im ursprünglichen PageRank-Algorithmus Sind dieWahrscheinlichkeiten für das Verfolgen von Links von einer Seite für alle Links jeweils gleich. Eine Zuweisung unterschiedlicher Wahrscheinlichkeiten für das Verfolgen von Links könnte beispielhaft durch eine Wichtung erfolgen: X stellt die Hervorhebung eines Links dar. X ist gleich 1, sofern der Links nicht hervorgehoben und gleich 2, sofern der Link etwa fett oder kursiv hervorgehoben ist. Y stellt die Position eines Links im Dokument dar. Y ist gleich 1, sofern der Link in der unteren Hälfte des Dokuments und gleich 3, sofern der Link in der oberen Hälfte des Dokuments erscheint. Enstprechend höher sind dann die jeweiligen Verweise zu bewerten.
Unterschiedliche Bewertung von Links nach Eigenschaften der verweisenden Seite
Neben der unterschiedlichen Bewertung von Links innerhalb einer Seite führt Lawrence Page in der Patentschrift zum PageRank-Verfahren an, dass Links auch nach Kriterien gewichtet werden können, denen eine Bewertung der verweisenden Seite zu Grunde liegt. Dies scheint auf den ersten Blick überflüssig, da es bereits der Grundgedanke des PageRank-Konzepts ist, dass Links einen um so größeren Einfluss haben, je bedeutender die verlinkende Seite ist. Page und Brin erkannten allerdings sehr früh, dass ihr Algorithmus anfällig gegen das ?künstliche Aufblähen? des PageRank einzelner Seiten ist.
Eine Beinflussung des PageRank kann in erster Linie dadurch erfolgen, dass Webmaster eine Vielzahl von Webseiten generieren, deren Links den PageRank so verteilen, dass einzelne Seiten im System eine besondere Bedeutung erlangen. Diese Seiten können dann einen hohen PageRank inne haben, ohne dass von anderen Websites mit hoher Relevanz auf sie verlinkt wird. Hierdurch wird nicht nur das Konzept des PageRank unterwandert, sondern insbesondere auch der Suchmaschinenindex mit einer Vielzahl von Webseiten überflutet, die lediglich zum Zwecke der Beeinflussung des PageRank geschaffen wurden.
Als ein Mittel der Verhinderung dieser Form der Beinflussung zeigt Lawrence Page in seiner Patentschrift die Bewertung von Links anhand der Distanz zwischen verlinkender und verlinkter Seite auf. Hintergrund ist, dass je größer die Distanz zwischen zwei Seiten ist, um so geringer ist die Wahrscheinlichkeit, dass ein und dieselbe Person beide Seiten kontrolliert. Kriterium der Distanz zwischen Seiten kann etwa sein, ob Sie auf der selben Domain liegen oder nicht. Damit würden interne Links weniger gewichtet als externe. Aber auch jedes andere Kriterium der Distanz käme laut Page in Frage, also etwa ob Seiten sich auf dem selben Webserver befinden. Letztlich sei auch gerade die Verlinkung durch Websites aus unterschiedlichen geographischen Regionen ein deutliches Indiz für die Relevanz einer Seite.
Aktualität als Indiz für die Bedeutung
Als weiteres Indiz für die Bedeutung einer Seite nennt Page die Aktualität der verlinkenden Seite. Die Informationen einer Seite sind mit viel geringerer Wahrscheinlichkeit veraltet, je mehr kürzlich modifizierte Seiten auf sie verlinken. Dagegen bevorzugt das eigentliche PageRank-Verfahren wie auch jedes Verfahren der Messung der Link-Popularität eher ältere Dokumente, die erst im Laufe ihrer Existenz eine Vielzahl eingehender Links erhalten haben und mit einer geringeren Wahrscheinlichkeit als neue Dokumente kürzlich verändert wurden. Die Aktualität einer Seite ist allerdings nicht zwingend ein Indiz für die Qualität der auf Ihr präsentierten Informationen. Daher ist es ratsam, wie von Page vorgeschlagen, nicht die Aktualität einer Seite selbst zu bewerten, sondern vielmehr die Aktualität ihrer eingehenden Links.
Schließlich nennt Page als Kriterium für die Bedeutung eines Links noch die grundsätzliche Bedeutung der verlinkenden Seite. Als Beispiel wird in der Patentschrift zum PageRank Verfahren der Link von der Startseite einer Domain genannt.
Dieser Beitrag ist eine überarbeitete Zusammenfassung eines Artikel von Markus Sobek.
Den Originalartikel erreichen Sie unter der Adresse http://pr.efactory.de/d-pagerank-einflussfaktoren.shtml.
PageRank und Google sind geschützte Marken der Google Inc., Mountain View CA, USA.
Das PageRank Verfahren unterliegt dem US Patent 6,285,999.
