Berechnung der Trefferqualität
Zur Berechnung der Quote einer Übereinstimmung werden Texte in ONTRAM nach unten folgendem Ablauf verglichen. Treffer mit einer Qualität unterhalb der 50% Grenze werden in ONTRAM nicht berücksichtigt. Die empfohlene Qualitätsgrenze liegt bei mindestens 60%.
Bestimmung der gewichteten Gesamtlänge
- Der Text wird in kleine logische Einheiten zerlegt.
- Jeder Einheit wird ein Typ mit einer Gewichtung (siehe Tabelle "Gewichtungen") zugewiesen.
- Die Zeichenlänge jeder Einheit wird mit der Gewichtung multipliziert.
- Von allen Einheiten werden die aus Schritt 3 resultierenden Werte zur gewichteten Textlänge addiert.
- Schritt 1-4 wird nun ebenfall für den zweiten Text durchgeführt.
- Die gewichteten Textlängen von Text 1 und Text 2 werden miteinander addiert
Ergebnis: Die gewichtete Gesamtlänge beider Texte wurde berechnet.
Beispiel
Zu vergleichende Texte:
- Text 1: 80 kg Mehl
- Text 2: 80 kg Zucker
Schritt
|
Ergebnis
|
1 |
80, kg, Mehl |
2 |
80 = Nummer(75), kg = Einheit(70), Mehl = Wort(100) |
3 |
2*75, 2*70, 4*100 |
4 |
Gewichtete Textlänge Text 1 = 150 + 140 + 400 = 690 |
5 |
Gewichtete Textlänge Text 2 = 2*75 + 2*70 + 6*100 = 890 |
6 |
Gewichtete Gesamtlänge = 690 + 890 = 1580 |
Berechnung der Änderungslänge
- Die Texte werden in kleine logische Einheiten zerlegt.
- Jeder Einheit wird ein Typ mit einer Gewichtung zugewiesen.
- Mit einem Algorithmus basierend auf der Levenshtein-Distanz wird die prozentuale Ähnlichkeit der Einheiten berechnet.
- Die Ähnlichkeit wird mit der gewichteten Zeichenlänge für die jeweiligen Einheiten beider Texte multipliziert
- Die Werte werden miteinander addiert.
Ergebnis: Die Änderungslänge wurde berechnet.
Beispiel
Zu vergleichende Texte:
- Text 1: 80 kg Mehl
- Text 2: 80 kg Zucker
Schritt
|
Ergebnis
|
1 |
|
2 |
- 80 = Nummer(75)
- 80 = Nummer(75)
- kg = Einheit(70)
- kg = Einheit(70)
- Mehl = Wort(100)
- Zucker= Wort(100)
|
3 |
- 80 : 80 = Levenshtein Distanz 0, Unterschied 0%
- kg : kg = Levenshtein Distanz 0, Unterschied 0%
- Mehl : Zucker = Levenshtein-Distanz 6, Unterschied = 80 %
|
4 |
- 0% * (2*75 + 2*75) = 0
- 0% * (2*70 + 2*70) = 0
- 80% * (4*100 + 6*100) = 800
|
5 |
Änderungslänge = 0 + 0 + 800 = 800 |
Bestimmung der Trefferqualität
Die Trefferqualität wird berechnet anhand der Formel (Gewichtete Gesamtlänge - Änderungslänge) / Gewichtete Gesamtlänge
Beispiel
Trefferqualität = (1580 - 800) / 1580 = 49%
Gewichtungen (Standardeinstellung)
Typ
|
Gewichtung
|
Andere |
20 |
Wort |
100 |
Wortnummern |
110 |
Mehrdeutigkeit |
100 |
URL |
50 |
E-Mail |
50 |
Stoppwort |
80 |
Abkürzung |
75 |
Nummer |
75 |
Einheit |
70 |
Interpunktion |
30 |
Tag |
10 |