Berechnung der Trefferqualität

Zur Berechnung der Quote einer Übereinstimmung werden Texte in ONTRAM nach unten folgendem Ablauf verglichen. Treffer mit einer Qualität unterhalb der 50% Grenze werden in ONTRAM nicht berücksichtigt. Die empfohlene Qualitätsgrenze liegt bei mindestens 60%.

Bestimmung der gewichteten Gesamtlänge

  1. Der Text wird in kleine logische Einheiten zerlegt.
  2. Jeder Einheit wird ein Typ mit einer Gewichtung (siehe Tabelle "Gewichtungen") zugewiesen.
  3. Die Zeichenlänge jeder Einheit wird mit der Gewichtung multipliziert.
  4. Von allen Einheiten werden die aus Schritt 3 resultierenden Werte zur gewichteten Textlänge addiert.
  5. Schritt 1-4 wird nun ebenfall für den zweiten Text durchgeführt.
  6. Die gewichteten Textlängen von Text 1 und Text 2 werden miteinander addiert

Ergebnis: Die gewichtete Gesamtlänge beider Texte wurde berechnet.

Beispiel

Zu vergleichende Texte:

  • Text 1: 80 kg Mehl
  • Text 2: 80 kg Zucker

Schritt

Ergebnis

1 80, kg, Mehl
2 80 = Nummer(75), kg = Einheit(70), Mehl = Wort(100)
3 2*75, 2*70, 4*100
4 Gewichtete Textlänge Text 1 = 150 + 140 + 400 = 690
5 Gewichtete Textlänge Text 2 = 2*75 + 2*70 + 6*100 = 890
6 Gewichtete Gesamtlänge = 690 + 890 = 1580

Berechnung der Änderungslänge

  1. Die Texte werden in kleine logische Einheiten zerlegt.
  2. Jeder Einheit wird ein Typ mit einer Gewichtung zugewiesen.
  3. Mit einem Algorithmus basierend auf der Levenshtein-Distanz wird die prozentuale Ähnlichkeit der Einheiten berechnet.
  4. Die Ähnlichkeit wird mit der gewichteten Zeichenlänge für die jeweiligen Einheiten beider Texte multipliziert
  5. Die Werte werden miteinander addiert.

Ergebnis: Die Änderungslänge wurde berechnet.

Beispiel

Zu vergleichende Texte:

  • Text 1: 80 kg Mehl
  • Text 2: 80 kg Zucker

Schritt

Ergebnis

1
  • 80
  • 80
  • kg
  • kg
  • Mehl
  • Zucker
2
  • 80 = Nummer(75)
  • 80 = Nummer(75)
  • kg = Einheit(70)
  • kg = Einheit(70)
  • Mehl = Wort(100)
  • Zucker= Wort(100)
3
  • 80 : 80 = Levenshtein Distanz 0, Unterschied 0%
  • kg : kg = Levenshtein Distanz 0, Unterschied 0%
  • Mehl : Zucker = Levenshtein-Distanz 6, Unterschied = 80 %
4
  • 0% * (2*75 + 2*75) = 0
  • 0% * (2*70 + 2*70) = 0
  • 80% * (4*100 + 6*100) = 800
5 Änderungslänge = 0 + 0 + 800 = 800

Bestimmung der Trefferqualität

Die Trefferqualität wird berechnet anhand der Formel (Gewichtete Gesamtlänge - Änderungslänge) / Gewichtete Gesamtlänge

Beispiel

Trefferqualität = (1580 - 800) / 1580 = 49%

Gewichtungen (Standardeinstellung)

Typ

Gewichtung

Andere 20
Wort 100
Wortnummern 110
Mehrdeutigkeit 100
URL 50
E-Mail 50
Stoppwort 80
Abkürzung 75
Nummer 75
Einheit 70
Interpunktion 30
Tag 10