Die Geschichte des Projekts aspell op Platt
die Idee
Im April 2004 schrieb bekam KDE op Platt Post von Kevin Atkinson, dem Autoren von aspell. Er schrieb damals systematisch die Übersetzungsteams von KDE an, für deren Sprache es noch kein Rechtschreibmodul für aspell gab. Grundlage für so ein Rechtschreibmodul war immer eine Wortliste. Und falls wir noch keine Wortliste hätten, hätte Kevin Patrick Scannel ein Programm namens Crubadan, das einem helfen könne, so eine Wortliste zu erstellen.
Crubadan
Crubadan wird mit einer oder mehrerer Startseiten aus dem Web gefüttert, von denen bekannt ist, dass sie in der gewünschten Sprache geschrieben sind. Anschließend ergoogelt sich Crubadan Webseiten, die Wörter aus den Startseiten enthalten und unterzieht diese Seiten einer statistischen Analyse, um zu ermitteln, ob sie in der gewünschten Sprache geschrieben sind. Aus den so gefundenen Seiten kann man dann eine Wortliste erstellen, die man nachbearbeitet und in aspell hineinfüttert.
die Ergebnisse
Wir haben diesen Ansatz dann ausprobiert. Ausgangspunkt waren die plattdeutschen Seiten von Marlou Lessing, eine der umfangreichsten plattdeutschen Websites im Internet.
Crubadan lieferte dann auch eine Liste mit anderen Webseiten, die mit hoher Wahrscheinlichkeit als Plattdeutsch klassifiziert waren. Crubadan hatte recht, es waren plattdeutsche Seiten, allerdings oft auch mit hochdeutschen Passagen mittendrin. Hinzu kam, dass die plattdeutsche Rechtschreibung dieser Seiten sehr uneinheitlich war. Die Durchsicht der damit erstellten Wortliste erwies sich daher als aufwendig.
ein einfacherer Ansatz
Aber die Idee, die Arbeit an KDE op Platt mit einer Rechtschreibprüfung wie aspell auf innere Konsistenz zu prüfen, war verlockend. Das brachte uns auf die Idee, dass wir ja eigentlich unsere bisherige Übersetzungsarbeit für KDE direkt heranziehen könnten. Wir nahmen unsere Übersetzungsdateien, trennten Plattdeutsch (die Übersetzungen) von den englischen Passagen (jeweils die zu übersetzenden Systemmeldungen), spalteten das in einzelne Wörter auf, ermittelten, wie oft welches Wort vorkam, und sortieren diese Liste nach Häufigkeit.
Hierbei standen dann Wörter oben, die wir oft verwendet hatten. Und unten standen seltene Wörter und offensichtliche Falschschreibungen. Alles, was nur ein oder zweimal verwendet worden war, kam gleich weg. Die daraus resultierende Liste war einfacher korrekturzulesen und sie diente dann als Grundstock, den wir von Zeit zu Zeit ergänzten.