|
787 books posted to PG from DP!
|
| DP » Richtlinien zum Scannen, Vorbereiten und Einreichen von Projekten |
Richtlinien zum Scannen, Vorbereiten und Einreichen von ProjektenFragen und Antworten zum Scannen Sie haben also den Rang eines "Proofer Extraordinaire" erreicht und haben Sich gedacht, dass Sie Sich in andere Gebiete ausbreiten würden. Oder vielleicht ist Korrekturlesen nicht so richtig Ihr Bier, aber Sie möchten die Website trotzdem unterstützen. Vielleicht gibt es auch ein Buch, bei dem Sie nicht warten können, es ins Projekt Gutenberg zu bringen. Was immer der Grund ist, früher oder später kommt eine Zeit, in der Sie Sich fragen: "Was muss ich tun, um einen Text bei "Distributed Proofreaders" einzuliefern?" Diese Richtlinien sind da, um Ihnen bei diesem Prozess zu helfen. Bitte beachten Sie, dass Sie nicht alle diese Schritte selbst ausführen müssen. Es ist durchaus möglich, einige der Schritte selbst auszuführen und Ihre Resultate an jemand anderes weiterzugeben. [Aber wir müssen beschreiben, wie Sie diesen Jemand finden können.] Sie können Sich auch dafür entscheiden, das Projekt zu leiten, nachdem die notwendigen Dateien auf den DP Server hochgeladen worden sind. Beachten Sie Fragen und Antworten zum Projektmanagement für Einzelheiten. Fragen und Antworten—(Separate Seite) Einige häufige Fragen in Bezug auf Scannen, Texterkennung und ähnliches, die hier nicht behandelt werden. Welche Art Bücher wollen Sie für "Distributed Proofreaders"? Wo erhalte ich ein Buch zum Bearbeiten? Wie stelle ich sicher, dass das Buch geeignet ist? Gut, ich habe mein Buch; ich habe eine Freigabe-Zeile; wie weiter? Puh! Ich habe die Bilddateien erledigt. Was kommt als Nächstes? Du machst Witze! Ich bin noch immer nicht fertig? Jetzt bin ich fertig. Wie reiche ich das Projekt ein? Welche Art Bücher wollen Sie für "Distributed Proofreaders"?Welche Art Bücher haben Sie :-) Im Ernst, es gibt wirklich nur wenige Einschränkungen in Bezug auf die Art der Texte, die Sie bei DP einreichen können. Die größte und wahrscheinlich die wichtigste Einschränkung: Das Buch muss sich im Allgemeingut ("Public Domain") oder der Urheberrechts-Schutz muss abgelaufen sein. Im Allgemeinen bedeutet dies, dass das Buch vor 1923 geschrieben wurde. Es gibt Ausnahmen zur 1923 Regel, aber oft ist es beschwerlich den Beweis anzutreten. Es gibt eine gute detaillierte Diskussion dessen, was in Frage kommt beim Projekt Gutenberg auf dieser Seite. Der Katalog der "Library of Congress" ist ein hervorragender Ort, um Publikationsdaten für Bücher, die in den USA veröffentlich wurden zu überprüfen. Das Buch sollte nicht bereits beim Projekt Gutenberg vorhanden sein. Diese Website existiert als Zuträger für das Projekt Gutenberg, und es macht wenig Sinn, so viel Zeit und Aufwand in einen Text zu stecken, der schon da ist. Eine andere Version eines vorhandenen Buches ist jedoch in Ordnung. Sie können mit der Projekt-Gutenberg-Suche herausfinden, ob das Buch schon vorhanden ist. Es gibt auch eine Website mit Namen "Davids In-Progress List", die alle Bücher aufführt, an denen zur Zeit gearbeitet wird. Nochmals, dies hilft uns doppelte Arbeit zu vermeiden. Falls Sie Ihr Buch aufgeführt finden und das Freigabedatum mehr als ein Jahr zurückliegt, so ist es wahrscheinlich in Ordnung weiterzumachen. [Wirklich?—JMD] Sie sollten Sich wahrscheinlich auf eine kürzere Dichtung beschränken beim dem ersten Projekt, das Sie einreichen. Denken Sie daran: Nachdem das Buch durch die Korrektur-Runden gegangen ist, wird in der Regel—mit wenigen Ausnahmen—erwartet, dass die Person, die das Buch eingeliefert hat auch die Nachbearbeitung übernimmt. Falls Sie nicht in der Lage sind, die Nachbearbeitung zu übernehmen, oder dies nicht tun wollen, so sollten Sie dies von Anfang an klar stellen, wenn Sie das Buch einreichen. (Oder noch besser: bevor Sie es einreichen.) Es ist wahrscheinlich besser, Bücher zu meiden, die eine Menge Abbildungen, Karten, Diagramme, Tabellen und Bilder enthalten. Obwohl diese interessante Texte ergeben, können Sie nur schlecht oder gar nicht in ASCII wiedergegeben werden, und der Text verliert einen Großteil seines Nutzens. (Einem solchen Werk wäre wohl mit einer Datei von Scan-Bildern auf dem "Million-Buch" Projekt besser gedient..., aber dies ist eine andere Kategorie von Fragen und Antworten.) Andere Sprachen als Englisch sind auch in Ordnung, innerhalb vernünftiger Grenzen. Denken Sie daran, dass der Text in ASCII dargestellt werden muss, nicht in Unicode. Wenn der Text also ein Menge Nicht-ASCII Zeichen enthält, so wird dies das Korrekturlesen und die Nachbearbeitung erschweren und den Zweck bei der Verwendung von DP vereiteln. Europäische Sprachen scheinen in Ordnung zu sein. Griechisch, Sanskrit, Arabisch und dergleichen sind problematisch. Es ist hilfreich, aber nicht notwendig, dass Sie die Sprache, in der das Buch geschrieben ist, verstehen. Es wird theoretisch bei der Nachbearbeitung leichter sein, aus dem Zusammenhang zu unterscheiden, ob am Anfang einer Seite ein neuer Paragraph beginnt. Sie können dies aber auch erreichen, indem Sie den Text mit den Scan-Bildern vergleichen. Wo erhalte ich ein Buch zum Bearbeiten?Von Büchereien, Flohmärkten, Gartenmärkten, Auktionen, Immobilienverkäufen, von Ihren Eltern oder Großeltern, aus dem Abfall (Wenn Sie wüssten zu erfahren, was Leute so alles wegwerfen ...), von Buchantiquariaten, Freunden, Schulen. Woran Sie auch denken, es gibt dort ein Buch. Es ist besser, ein Buch zu haben, das Sie für die ganze Zeit, während der am Projekt gearbeitet wird, zur Hand haben. So können Sie Sich darauf beziehen, falls Fragen zu den Scan-Bildern auftauchen. (Dies geschieht betrüblich oft.) (Sie werden wahrscheinlich nicht viele geeignete Bücher in der Ausleih-Abteilung Ihrer lokalen Bibliothek finden, weil die meisten Bibliotheken die älteren Bücher nicht ausleihen. Auch wenn dies möglich ist, sollten Sie vorsichtig sein, da der Scan-Vorgang für das Buch ziemlich hart sein kann, und es dabei beschädigt werden könnte.) Wenn Sie versuchen ein bestimmtes Buch zu finden, so gibt auch viele Internet Websites, die sich auf gebrauchte Bücher spezialisieren:
um nur ein paar zu nennen. Es gibt auch viele Websites, die Bücher online als PDF- oder Bild-Datei zur Verfügung stellen, die dann heruntergeladen und im Texterkennung-Programm verarbeitet werden können. Universitätsbibliotheken und historische Gesellschaften scheinen reiche Quellen zu sein. Dies ist besonders hilfreich, falls Sie keinen Zugang zu einem Scanner oder zu physischen Büchern haben. Es gibt auch Nachteile: sie ergeben ein ziemlich intensives Herunterladen, was sich besonders über ein Wählverbindung; und Sie haben keinen Zugang zu dem wirklichen Buch, um darin gegenzulesen, falls später Probleme auftreten. Dann ist auch die Auswahl beschränkt. Dass Sie Sich nicht um das Scannen zu kümmern brauchen, ist jedoch ein großer Vorteil. Es gibt eine lange Liste von möglichen Quellen für Scan-Bildern auf den Internet im Forum "Content Providers" unter dem Thema " Where to find scanned images online" (Wo finden Sie Scan-Bilder auf dem Internet). Bitte befolgen Sie die Richtlinien der einzelnen Websites in Bezug auf die akzeptierte Verwendung der Bilder und die Etikette. Wir möchten nicht die schlechten Nachbarn sein. Falls Sie Sich für diesen Weg entscheiden, so gehört es zum guten Ton, dass Sie die Quelle der Scan-Bilder zitieren, wenn der Text beim Projekt Gutenberg eingeliefert wird. Wie stelle ich sicher, dass das Buch geeignet ist?Wenn Sie ein Buch gefunden haben, das Sie für einen guten Kandidaten halten, sollten Sie zuerst ein Freigabe beschaffen. Dies ist eine Genehmigung, wenn Sie so wollen, für das Buch von der Website des Projektes Gutenberg, und damit wird auch das Buch registriert, damit Andere wissen, dass es reserviert ist, so dass nicht doppelte Arbeit entsteht. Die bevorzugte Art, um eine Freigabe zu beantragen ist das folgende Web-Formular (http://beryl.ils.unc.edu/copy.html). Dort finden Sie auch einige nützliche Tipps und Verknüpfungen. Falls Sie das Formular nicht verwenden können, so gibt es immer noch einige ältere Methoden, die zwar nicht empfohlen werden, aber im Notfall immer noch dienlich sind. Um die Fragen und Antworten des Projektes Gutenberg ("Project Gutenberg FAQ") zu zitieren:
Sie sollten wahrscheinlich nicht zuviel Zeit investieren, bevor Sie Ihre Freigabe-Zeile erhalten haben. Gut, ich habe mein Buch; ich habe eine Freigabe-Zeile; wie weiter?Jetzt müssen Sie es scannen. Es gibt zu viele Scanner und Texterkennungs-Pakete, um hier spezifische Anleitungen zu geben. Im Allgemeinen sind dies gute Allzweck-Parameter für das Scannen: 300dpi, Schwarzweiß (nicht Graustufen) und eine durchschnittliche Helligkeit, außer wenn das Papier sehr gelblich ist. Höhere Auflösungen ergeben nicht notwendig bessere Texterkennungsraten außer wenn der Text extrem klein ist. Sie wollen gute, einigermaßen saubere Bilder erreichen, an denen sich die Texterkennung nicht die Zähne ausbeißt. Die Beispiele und Erklärungen setzen voraus, dass Sie Abbyy Finereader benutzen. Diese F&A haben eine Tendenz, sich auf den Gebrauch von Abbyy Finereader Pro zu konzentrieren. Die Gründe dafür sind:
Abbyy Finereader Pro 5.0 oder eine höhere Version (ebenso wie die meisten Hochleistungs-Texterkennungs-Pakete) haben integrierte Scan-Funktionen und erlauben es, den Prozess hochgradig zu automatisieren. Um in Finereader einen Stapelbefehl zu erzeugen, drücken Sie File -> New Batch (Ctrl+N) und geben ihm einen geeigneten Namen. (Der abgekürzte Titel des Buches ist eine gute Wahl) Dies ist der Ort, an dem Finereader alle temporären Dateien für das Projekt speichert. Es wahrscheinlich eine gute Idee, ein separates Verzeichnis anzulegen, in dem Sie alle Ihre Stapelbefehle ablegen können. Wenn wir schon beim Thema sind, lassen Sie uns ein bisschen über die Verzeichnisstruktur sprechen. Am besten verwenden Sie eine logischen Verzeichnisstruktur um den Überblick über die Dinge zu behalten. Es gibt keine "richtige" oder "falsche" Art, dies zu tun und hängt von Ihren persönlichen Vorlieben ab. Auf der anderen Seite müssen Sie gewisse Strukturen verwenden, wenn Sie Funktionen der Werkzeuge verwenden, die sich auf dies verlassen. Beginnen Sie an einem geeigneten Ort in Ihrer Verzeichnisstruktur. (Wir verwenden in den Beispielen "C:\". Sie wählen einen für Sie geeigneten Ort) Legen Sie zwei Verzeichnisse an: "Batch" und "Projects". Jedes Mal, wenn Sie in Abbyy einen Stapelbefehl ausführen, erzeugt es automatisch ein Verzeichnis, in dem es die rohen Bilder und Textdaten ablegt. Das Verzeichnis wird mit den Namen des Stapelbefehls versehen. Speichern Sie die unter dem "Batch" Verzeichnis. Legen Sie im "Projects" Verzeichnis noch ein Verzeichnis an. Geben Sie ihm wieder den Namen des Stapelbefehls, den Finereader verwendet. In diesem Verzeichnis legen Sie nun die Verzeichnisse "png", "textw", "textwo" an. In diesen Verzeichnissen wird Abbyy die Bilder beziehungsweise die Textdateien ablegen. "textw" steht für Texte mit Zeilenumbruch (englisch: with line breaks), und "textwo" für Text ohne Zeilenumbrüche (englisch: without line breaks). Diese verwenden später noch näher erklärt. Hier ist eine Abbildungen, die dies verdeutlicht. Der Name des Buches ist hier "Book1": Manche Leute ziehen es vor den Stapelbefehl im gleichen Verzeichnis wie das "png"-Verzeichnis und die Textverzeichnisse abzulegen, um so Alles zusammen zu halten. Das ist auch in Ordnung. Es hängt viel von Ihren Vorlieben ab. Nachdem Sie die Verzeichnisstruktur vorbereitet haben, wählen Sie in Abbyy File->Scan Multiple Images (Ctrl+Shift+K), um das Buch zu scannen. Von diesem Punkt an hängt das weiter Vorgehen stark davon ab, welche Funktionen Ihr Scanner aufweist (Automatischer Dokumenteneinzug) und von Ihren persönlichen Vorlieben (Bestätigen jedes Scans oder eine zeitgesteuerte Pause). Andere Software-Pakete werden verschieden funktionieren. Am besten lesen Sie die Dokumentation, die mit Ihrer Texterkennungs-Software geliefert werden. Wenn die Größe des Scanner-Bettes dies erlaubt, so scannen Sie gleichzeitig zwei Buchseiten, da dies den Scan-Vorgang verkürzen wird. Versuchen Sie das Buch nach dem Umblättern immer an der selben Stelle auf dem Scanner zu halten, zum Beispiel direkt in einer Ecke. Dies wird das Zuschneiden und Aufteilen der Bilder vereinfachen. Falls nötig schneiden Sie die Bilder zu, um schwarze Ränder zu entfernen. Falls Sie nach dem Scannen sehr breite schwarze Ränder um Ihre Bilder herum erhalten, so sollten Sie Ihr Scan-Fenster frisch einstellen, so dass Sie nur dort scannen, wo das Buch tatsächlich auf dem Scanner liegt. Dies führt zu einer Zeitersparnis—der Scan betrifft eine kleinere Fläche—und die Bilder werden entsprechend weniger Speicherplatz benötigen. Schneiden Sie die Ränder nicht so stark ab, dass überhaupt keine oder nur ganz wenig Rand um den Text herum bleibt. Dies kann sich negativ auf die Erkennungsrate auswirken, und später beim Korrekturlesen weitere Probleme verursachen. Ideal ist, wenn Sie etwas weißen Rand um den Text herum stehen lassen, aber keinen schwarzen. Falls Sie Doppelseiten scannen, so trennen Sie diese in Einzelseiten auf. Im Allgemeinen gibt es zwei einfache Arten um aus Doppelseiten-Bildern Einzelseiten zu erzeugen:
Wenn Sie nicht sicher sind, so ist es oft am besten einige Test-Scans durchzuführen. Wenn Sie die Bilder speichern, so tun Sie dies in Schwarzweiß, nicht in Farbe oder in Graustufen. Vermutlich sollten Sie als Speicherformat TIFF oder PNG wählen. Später werden Sie definitiv PNG-Dateien verwenden müssen. Wenn Ihre Texterkennung also solche verwenden kann, so ist verwenden Sie diese am besten von Anfang an. Vermeiden Sie JPEG als Speicherformat (ein verlustbehaftetes Format) oder als BMP-Dateien (riesige Datenmengen). In Finereader können Sie alle Bilder auf einmal speichern. Dazu wählen Sie zuerst alle Bilder (klicken Sie in das Fenster mit den Verkleinerungen, dann Ctrl+A), und dann wählen Sie File->Save Images (F12). Stellen Sie sicher, dass Sie den Bildern einen Namen geben, da dies nicht automatisch geschieht. Dadurch werden die Bilder als Folge von Dateien gespeichert. Die Namen der Dateien sind aus dem angegebenen Namen, einem Bindestrich und einem vierstelligen Zähler zusammengesetzt. (Book1 - 0001.png, Book1 - 0002.png ... u.s.w. ) Speichern Sie diese im Verzeichnis "Projects\Book1\pngs". SEHR WICHTIG!—Stellen Sie sicher, dass die Dateien in der richtigen Rolle alphabetisch sortiert vorliegen. (Dies geschieht automatisch unter Finereader, wenn die Bilder in der richtigen Reihenfolge geladen wurden.) Wenn Ihre Software dies erlaubt, so benennen Sie die Dateien am besten in der Form "001.png" (oder .tif), "002.png", "003.png", u.s.w. (Finereader unterstützt dieses Vorgehen nicht; Sie werden später die Dateien in der weiteren Vorbereitung entsprechend umbenennen müssen. Es stellt jedoch die benötigte aufsteigende Namensfolge her, aber nicht in genau dem Format, das wir später brauchen werden.) Diese Form macht es leicht, die Ordnung zu behalten und auch Lücken in der Nummerierung zu vermeiden. (Und später werden Sie ohnehin diese Namensgebung befolgen müssen.) Wenn Sie bereits gescannte Bilder oder PDF-Dateien aus dem Internet bearbeiten, so müssen diese am gleichen Ort landen. Falls die Seitenbilder als individuelle Bilder vorhanden sind (TIF, GIF, oder PNG) so laden Sie diese herunter, konvertieren Sie in das PNG-Format und stellen Sie sicher, dass die Dateinamen, den oben beschriebenen Regeln folgen. Falls die Bilder jeweils mehr als eine Seite darstellen, so müssen Sie diese zuerst aufteilen. Für PDF-Dateien können Sie ein Hilfsprogramme verwenden, um die einzelnen Seitenbilder zu extrahieren (normalerweise in TIF-Format) Merke: Abbyy Finereader OCR 6.0 kann direkt mit PDF-Dateien arbeiten. Sie brauchen nicht zuerst die Seitenbilder zu extrahieren. Wenn Sie einen Stapelbefehl aufsetzen, so wird er die TIF-Bilder automatisch während dem Laden der PDF-Datei extrahieren (ins "Batch" Verzeichnis). Diese können dann für den weiteren Gebrauch in PNG-Dateien konvertiert werden. Puh! Ich habe die Bilddateien erledigt. Was kommt als Nächstes?Jetzt müssen Sie die Bilder durch die Texterkennung laufen lassen. Wie bereits oben erwähnt, gibt es zu viele verschiedene Programme um für alle Hinweise zu geben. Sie werden am gleichen Ort anlangen, auch wenn der Weg verschieden sein kann. Wenn Sie überhaupt nicht über ein Texterkennungs-Paket verfügen, so versuchen Sie, Sich mit jemandem zusammenzutun, der ein solches besitzt. Um jemand zu finden, hinterlassen Sie eine entsprechende Nachricht im Forum "Content Providers". Sehr wahrscheinlich wird sich jemand finden, der Sie gerne unterstützt. Einmal angenommen, dass Sie eine Texterkennungs-Software haben ... Falls Sie Finereader für das Scannen verwendet haben, so haben Sie bereits einen Stapelbefehl vorbereitet, und die Bilder sind ebenfalls an Ort und Stelle. Falls nicht, so öffnen Sie nun Abbyy Finereader OCR. Wählen Sie File->New Batch, (Ctrl+N), und geben Sie dem neuen Stapelbefehl einen geeigneten Namen. Wählen Sie dann File->Open Image, (Ctrl+O). Wählen Sie alle Bilder aus und drücken Sie "Open". Vielleicht wollen Sie zuerst nur ein oder zwei Bilder öffnen, um sicher zu sein, dass alles reibungslos funktioniert, und dann den Rest verarbeiten. Versuchen Sie die Bilder in der richtigen Reihenfolge auszuwählen. Falls die Dateien bereits so benannt sind, dass die korrekt sortier sind, dann können Sie auch alle auf einmal auswählen. Es wird dann zwischen einigen Sekunden und mehreren Stunden dauern, um alle Bilder zu laden. Die Zeit hängt ab von der Anzahl der Bilder, die Sie haben, vom Format, in dem die Bilder vorliegen und von der Geschwindigkeit Ihres Rechners. Nachdem alle Bilddateien geladen sind, überprüfen Sie diese im Fenster des Stapelbefehles. Falls sie nicht in der richtigen Reihenfolge sind, so können Sie dies unter Abbyy 6.0 noch korrigieren und die Dateien umnummerieren (Menu "Batch Processing"). In Abbyy 5.0 ist dies nicht so einfach. Es ist besser, wenn Sie gleich mit der richtigen Reihenfolge anfangen. Überprüfen Sie die Einstellungen unter "Tools->Options". Wählen Sie die passende Sprache zum Text aus. Drücken Sie (Ctrl+Shift+R) oder die Ikone "Read all", um die Texterkennungsphase zu starten, dann gönnen Sie Sich eine Pause (normalerweise eine kürzere). Es gibt unter dem Menu "Process" auch eine Funktion, die es erlaubt, die Verarbeitung im Hintergrund durchzuführen, so dass Sie das Fenster verkleinern können und in der Zwischenzeit etwas anderes erledigen können. Für komplexe oder "nervöse" Seiten voller Text und Abbildungen kann es etwas zusätzliche Arbeit geben. Abbyy Finereader versucht die Anordnung der Seite zu analysieren während der Text erkannt wird. Für einfache, zweispaltige Seiten gelingt dies gewöhnlich, aber wenn die Spalten durch Abbildungen oder Tabellen unterbrochen werden, ist es fast sicher, dass etwas schief gehen wird. Sie können Finereader zeigen, wie der Text gruppiert werden soll, indem Sie Kästchen auf das Bild zeichnen. Wenn Sie die Kästchen gezeichnet haben, können Sie auch angeben in welcher Reihenfolge der Text der einzelnen Kästchen in den resultierenden Text eingefügt werden soll. Um die Kästchen zu zeichnen, drücken Sie auf das Symbol mit dem verkleinerten Kästchen in der Nähe des linken Fensterrandes. Normalerweise ist dies Funktion schon aktiv und Sie brauchen nicht auf das Symbol zu drücken. Verschieben Sie die Maus zum Anfangspunkt und ziehen Sie diese dann weiter (bei gedrückter Taste) um ein Kästchen in der richtigen Größe aufzuspannen. Sie können dann in der vergrößerten Ansicht am unteren Fensterrand noch Feinabstimmungen vornehmen. Falls Sie die Kästchen in der Reihenfolge zeichnen, in der auch der Text verwendet werden soll, dann haben Sie nichts weiter zu tun. Manchmal wollen Sie aber die Kästchen in einer anderen Reihenfolge zeichnen. Sie können in diesem Fall Finereader die richtige Reihenfolge mitteilen, indem sie zuerst auf das Symbol "123" am linken Rand des Fensters drücken, und dann in der gewünschten Verarbeitungs-Reihenfolge in die Kästchen klicken. Die Zahlen, die auf den Kästchen erscheinen werden angepasst und zeigen die Reihenfolge, in der fertige Text zusammengesetzt wird. Wenn Finereader dann die Seite bearbeitet, kann dies in einer beliebigen Reihenfolge geschehen, aber am Schluss wird der Text in der richtigen Reihenfolge zusammengesetzt. Wenn Sie die Texterkennung für ein langes, komplexes Projekt durchführen, dann geht es gut, wenn Sie Finereader die Texterkennung für alle Seiten durchführen lassen, und dann die Seiten durchgehen, und jede Seite kurz begutachten, um zu entscheiden, ob Sie diese manuell nacharbeiten müssen. Sie können Sich rasch durch die Seiten bewegen, indem Sie die Tasten Alt+Down (Pfeil nach unten) verwenden. Wenn Sie eine Seite bemerken, die Finereader nicht richtig erkannt hat, dann können Sie den nur den erkannten Text löschen, oder den erkannten Text zusammen mit den Bearbeitungskästchen, je nachdem, wie schlimm das Resultat herausgekommen ist. Korrigieren Sie die Kästchen oder zeichnen Sie sie neu, und stellen Sie die richtige Reihenfolge ein. Danach gehen Sie zur nächsten Seite. Falls Sie Bearbeitung im Hintergrund eingeschaltet haben, so wird die Texterkennung durchgeführt, während Sie die nächste Problemseite suchen. Beachten Sie, dass Sie auch für jedes Kästchen eine andere Erkennungssprache einstellen können, aber—wenigstens noch in Finereader 5.0—Sie müssen dies von Hand tun, und jedes Kästchen in der richtigen Reihenfolge erkennen lassen, was diese Art zu arbeiten sehr zeitaufwendig macht. In komplexen Projekten, spart es den Korrekturlesern eine Menge Zeit, wenn Sie Finereader den Text richtig gruppieren und in der richtigen Reihenfolge verarbeiten lassen. Dies macht den zusätzlichen Zeitaufwand in der Phase der Texterkennung mehr als wett. Wenn dies Alles getan ist, müssen Sie die Textdateien für die weitere Verarbeitung speichern. Je nach Werkzeug, das Sie für die Vorbearbeitung einsetzen wollen, werden sich die Speicherformate und die Ablageorte unterscheiden. Wenn Sie guiprep/winprep verwenden (wärmstens empfohlen) oder das "cleanup" Skript, so werden Sie etwa Folgendes benötigen: Ein Auszug aus dem guiprep Handbuch. (Dies wird mit guiprep mitgeliefert.) Einrichten der Textdateien:Extraktion der RTF Formatinformation:Wenn Sie die "Ent-Trennungs"-Funktion des Skripts verwenden wollen, so müssen Sie den erkannten Text von Abbyy Finereader zwei Mal in zwei verschiedenen Verzeichnissen speichern. (Dies sollte auch bei anderen Programmen gehen, wenn sie wohlgeformtes RTF produzieren können.) Angenommen Sie verwenden das Verzeichnis "Project", dann brauchen Sie in diesem Verzeichnis zwei Unterverzeichnisse "textw" und "textwo". "textw" steht für "Text mit Zeilenumbrüchen" (englisch: text with line breaks) und "textwo" steht für "Text ohne Zeilenumbrüche" (englisch: text without line breaks). Nachdem Sie alle Bilder geladen wurden und die Texterkennung durchgelaufen ist, wählen Sie File->Save Text As. Es wird ein Dialogfenster erscheinen. Für das "textw"-Verzeichnis stellen Sie hier die folgenden Einstellungen ein:
Es spielt dabei kein Rolle, wie der Dateiname gesetzt wird. Der Name des Stapelbefehles sollte in Ordnung sein. Für das "textwo"-Verzeichnis verwenden Sie beim Speichern die folgenden Einstellungen:
Verwenden Sie den gleichen Dateinamen zum Speichern wie beim "textw" Verzeichnis. Verwendung des Skriptes ohne Extraktion der RTF Formatinformation:Falls Sie die Formatierung des Textes nicht extrahieren wollen (oder Ihre Texterkennung gar keine RTF-Dateien unterstützt), so können Sie den Schritt, in dem Sie die RTF-Dateien speichern, überspringen und die Dateien als gewöhnliche Textdateien speichern. Wenn Sie die Ent-Trennungs-Funktion verwenden wollen, so müssen Sie wieder die Dateien zwei Mal, jeweils in den Verzeichnissen "textw" und "textwo" speichern. Speichern Sie in "textw" den Text mit den Zeilenumbrüchen. Der ISO 8859-1 (Latin-1) Zeichensatz ergibt ziemlich gute Resultate für Englisch und die meisten europäischen Sprachen. Die Website arbeitet mit ISO Latin-1 und so ist dieser Zeichensatz noch am einfachsten mit den verwendeten Zeichen in Übereinstimmung zu bringen. Falls nötig, können Sie andere Zeichensatzeinstellungen ausprobieren, aber beachten Sie, dass diese auf der Website nicht problemlos verwendet werden können. Einige der Skriptfunktionen könnten möglicherweise auch nicht mehr zufrieden stellend laufen. Für das "textwo" sollten Sie die gleichen Einstellungen verwenden, außer dass Sie die Option Keep line breaks (Zeilenumbrüche beibehalten) ausschalten müssen. Verwenden Sie zum Speichern des Textes den gleichen Zeichensatz wie für das andere Verzeichnis. Von dieser Stelle an wird das Skript in beiden Fällen gleich funktionieren. Nur werden Sie die Routine zum Extrahieren der Formatinformation überspringen. Verwenden des Skriptes ohne Extraktion der RTF Formatinformation und ohne Ent-Trennung:Wenn Sie ein Texterkennungs-Paket verwenden, dass weder RTF-Dateien speichern, noch automatisch die getrennten Zeilen wieder zusammenfügen kann, so müssen Sie möglicherweise diese zwei Funktionen auslassen. Speichern Sie in diesem Fall die Dateien in einem Verzeichnis mit Namen "text" und verwenden Sie die gleichen Einstellungen wie oben für "textw". Schalten Sie die beiden Optionen "Extract" (Extrahieren) und "Dehyphenate" (Ent-Trennen) im Reiter "Process Text" (Text verarbeiten) aus. Es spielt eigentlich keine Rolle, wenn Sie die Optionen eingeschaltet lassen, nur wird sich das Skript beschweren, dass es die anderen Verzeichnisse und Dateien nicht finden kann. Wenn Sie etwas anderes als guiprep oder cleanup, verwenden, so speichern Sie einfach die Testdateien in das "text" Verzeichnis. Speichern Sie die Texte als gewöhnlichen Text, behalten Sie die Zeilenumbrüche bei, benutzen Sie Leerzeilen zur Trennung von Absätzen (Paragraphen). (Falls Ihre Texterkennung diese Möglichkeiten nicht bietet, so finden Sie ein Werkzeug zum Einfügen dieser Leerzeilen im PRTK). Falls Sie Finereader für das Scannen und die Texterkennung verwenden, so können hat Robert einen Satz von gespeicherten Voreinstellungen, die Sie nützlich finden könnten. Du machst Witze! Ich bin noch immer nicht fertig?Jetzt werden Sie noch ein bisschen Vorverarbeitung auf diese Textdateien anwenden. Die Werkzeuge, die Sie dafür verwenden, bestimmen hier das Vorgehen. Die zwei wichtigsten Werkzeuge guiprep und PRTK sind hier beschrieben. Guiprep/Winprep:Guiprep erkennt die Formatierungen für Kursivschrift und Fettschrift im erkannten Text (dies spart viel Zeit beim Korrekturlesen), entfernt Trennzeichen am Ende der Zeile und fügt getrennte Worte wieder zusammen, filtert sehr viele Scan-Fehler, passt die Dateinamen der Textdateien an, und erkennt Dateien der Länge Null. Alles automatisch. Es hat auch eine interaktive Funktion zum Entfernen der Seitenköpfe, die stabiler und ergonomischer ist als die entsprechende Funktion von PRTK. Das mitgelieferte Handbuch ist ziemlich umfassend und sollte für alle Detailfragen konsultiert werden. Es folgt ein allgemeiner Überblick seiner Verwendung: Wenn Sie das Skript starten, so öffnet sich eine grafische Bedienoberfläche. Guiprep benutzt eine Unterteilung des Fensters unter verschiedene Reiter. Ähnliche Funktionen sind jeweils unter einem Reiter gruppiert. Schritt 1: Gehen Sie zum Reiter "Change Directory" (Verzeichnis wechseln). Navigieren Sie hier zu dem Verzeichnis, welches die Verzeichnisse "textw" und "textwo" (oder "text") enthält. Schritt 2: Gehen Sie zum Reiter "Select Options" (Einstellungen). Wählen Sie diejenigen Einstellungen, die am besten zu Ihrem Text passen. Die Standart-Einstellung sind wahrscheinlich für die meisten Texte in Ordnung. Ausnahmen und Warnhinweise finde Sie im Handbuch. Schritt 3: Gehen Sie zum Reiter "Process Text" (Text verarbeiten). Wählen Sie die Funktionen, die Sie durchführen wollen: "Extract" (Format-Extraktion), "Dehyphenate" (Ent-Trennung). Drücken Sie dann den Knopf "Do all selected" (Alle gewählten Funktionen ausführen) oder drücken Sie die Knöpfe, die die einzelnen Funktionen ausführen. Ein Statusfenster wird den Fortschritt bei der Abarbeitung der Funktion, sowie allfällige Fehler anzeigen. Schritt 4: Gehen Sie zum Reiter "Header Removal" (Entfernen der Seitenköpfe). Drücken Sie "Get Header" (Köpfe ermitteln), um eine Liste der der Köpfe in den Dateien zu erhalten. Wählen Sie diejenigen Köpfe, die Sie entfernen möchten. Drücken Sie "Remove headers" (Köpfe entfernen). Wiederholen Sie diesen Vorgang so oft als nötig. Die fertigen Textdateien werden im Verzeichnis "text" abgelegt. Guiprep kann auch die PNG-Dateien automatisch umbenennen und dient als Schnittstelle zum Programm pngcrush, welches (verlustfrei) die Größe Ihrer PNG-Dateien verkleinert und so das Hochladen beschleunigt. Eine FTP (Dateitransfer) Funktion ist ebenfalls eingebaut, so dass Sie die Resultate direkt hochladen können. An dieser Stelle ist die Vorverarbeitung abgeschlossen. PRTK:PRTK unterstützt die beiden Funktionen zur Extraktion der Formatierung, sowie der Rückgängigmachung der Silbentrennung nicht. Sie müssen deshalb zuerst guiprep.pl laufen lassen um die Format-Information zu extrahieren und cleanup.pl oder guiprep verwenden, um die Silbentrennung rückgängig zu machen. Erst dann arbeiten Sie mit PRTK weiter. Die Verwendung von guiprep ist oben erklärt. Um cleanup.pl zu verwenden, speichern Sie zuerst die Textdateien, wie es unter der Überschrift Verwendung des Skriptes ohne Extraktion der RTF Formatinformation. Wenn Sie dies getan haben, kopieren Sie cleanup.pl in das to Oberverzeichnis von "textw" and "textwo" und lassen es laufen. Dies wird die Entfernung der Silbentrennung ausführen und die Resultate im "text" Verzeichnis speichern. Falls das Verzeichnis nicht vorhanden ist, so wird es durch das Skript angelegt. Wenn dies getan ist, so starten Sie PRTK und gehen ans Eingemachte. Aber bevor Sie beginnen: PRTK ist nicht sehr geschickt im Umgang mit Dateien der Länge Null. Wenn es eine antrifft, neigt es dazu, einzufrieren und abzustürzen. Sie müssen Sich deshalb vergewissern, dass keine solchen leeren Dateien unter Ihren Textdateien vorkommen. Begeben Sie Sich zum Verzeichnis, in dem die Textdateien abgelegt sind. Stellen Sie Ihren Browser so ein, dass die Dateigröße angezeigt wird und sortieren Sie die Liste dann nach aufsteigender Dateigröße. Falls Sie leere Dateien entdecken, so öffnen Sie diese mit einem Texteditor und schreiben Sie irgend etwas hinein. "[Blank Page]" (leere Seite) ist eine verbreitete Variante. (Aha, deshalb begegne ich diesen beim Korrekturlesen.) In der Tat sollten Sie zwei Zeilen einfügen, um Sich vor späteren Ärger zu schützen. Verwenden Sie etwas in der Form: HEADER Hauptsache, die Datei ist nicht länger leer. Behandeln Sie alle Dateien mit Länge Null in dieser Art. Speichern Sie das Resultat jeweils als gewöhnlichen Text. (TXT-Datei). Falls Sie dies noch nicht getan haben, so werden Sie jetzt die Namen der Bilddateien in die Form "001.png", "002.png", "003.png" u.s.w. ohne Unterbrechungen bringen müssen. Dies muss der Reihenfolge der Seiten im Buch entsprechen. Sie müssen auch die führenden Nullen in den Namen verwenden und dürfen vor der Dateierweiterung auch nur die Ziffer benutzen. PRTK bietet ein Werkzeug, das Ihnen erlaubt, die Text- und Bilddateien umzubenennen. Wählen Sie das "Tools" Menü und den "File Renamer". Dies wird einen (etwas knappen) Dialog öffnen, in dem Sie diese Aufgabe erledigen können. (Oder, falls Sie ein anderes Programm vorziehen, verwenden Sie dieses. 1-4a Renamer im Abschnitt über Programme ist sehr hübsch.) Wenn Sie dies getan haben, so wiederholen Sie dasselbe mit den Textdateien. Falls das Buch mehr als 1000 Seiten hat, so sollten Sie es in zwei (oder mehr) annähernd gleich große Stücke aufteilen, und es als zwei Projekte zum Korrekturlesen einreichen. Sie können es bei der Nachbearbeitung wieder zusammensetzen. Hoffentlich haben Sie nun die Bild- und Textdateien mit den korrekten Namen und so dass die die Namen der Bilder und der Textdateien einer Seite jeweils zusammenpassen. (Ein Bild und einen Text.) Führen Sie an einigen Paaren zufällige Stichproben durch. Falls sie nicht übereinstimmen, so müssen Sie herausfinden woran dies liegt und die Situation korrigieren, bevor Sie das Projekt einreichen können. Stellen Sie auch sicher, dass Sie gleich viele Bilder und Texte haben. In PRTK wählen Sie dann "Processing"->"Text Batch Pre-Proofing". Unten auf dem Dialog gehen Sie zu dem Verzeichnis, das die Textdateien enthält (oder geben dessen Namen ein). Im Allgemeinen können Sie die Standarteinstellungen einfach übernehmen. Einige Texte in Fremdsprachen oder Spezialtexte könnten dadurch etwas. Sie werden möglicherweise an einer Kopie der Texte etwas experimentieren müssen, um geeignete Einstellungen zu finden. Die meisten der Einstellungen verstehen sich von selbst. Die einzige, die der Erklärung bedarf ist "Remove Headers" (Köpfe entfernen). Stellen Sie sicher, dass das Verzeichnis richtig eingestellt ist, und drücken Sie dann "Enter Headers" (Köpfe eingeben). Drücken Sie "Read Headers" (Köpfe lesen), um die erste Zeile aller Textdateien anzuzeigen. Aktivieren Sie die Auswahl bei denen, die Sie entfernen wollen. Normalerweise ist es einfach mit "Select All" (Alle auswählen) anzufangen und dann diejenigen abzuwählen, die Sie nicht löschen wollen. (Hier wird die HEADER Zeile in den vorher leeren Dateien gebraucht). Wenn Sie mit der Auswahl zufrieden sind, drücken Sie "Insert" (Einfügen) und "Done" (Fertig). Danach drücken Sie "Start" und schauen Sich an, wie der Fortschrittsbalken nur so vorbeifliegt. Hiermit ist die Vorbearbeitung abgeschlossen. Also, ich bin fertig. Wie liefere ich das Projekt ein?Falls dies das erste Mal ist, da Sie ein Projekt einreichen und Sie auch nicht Projektleiterin sind, so senden Sie eine E-Mail oder eine private Forum-Nachricht an JulietS, die die folgenden Daten enthält: Autorin, Titel, und so fort. Im Idealfall senden Sie auch die Freigabe-Zeile und allfällige Kommentare, die Sie auf der Projekt-Seite stehen haben möchten. Stellen Sie sicher, dass Ihr Name und eine Ihre E-Mail-Adresse vorhanden sind (falls diese nicht mit der Absenderadresse übereinstimmt). Sie werden mit Ihnen Kontakt aufnehmen und Ihnen eine FTP-Adresse und ein Verzeichnis angeben, in das Sie die Bild- und Text-Dateien hochladen können. Benutzen Sie ein FTP-Programm, um alle PNG-Dateien und TXT-Dateien, die Sie vorher erzeugt haben, in dieses Verzeichnis hochzuladen. (Es gibt einige wenige freie FTP-Programme, die im Abschnitt über Programme aufgeführt sind. Guiprep enthält eine FTP-Funktion, die es erlaubt einen Teil dieser Schritte zu automatisieren.) Wenn Sie dies erledigt haben, so senden Sie eine Nachricht an die Person, die mit Ihnen Kontakt aufgenommen hat. Wenn Sie planen, mehrere Projekte einzuliefern, können Sie eine E-Mail an JulietS senden, und eine Projektleitungsrolle beantragen. Dies wird Ihnen Zugang zu Funktionen ermöglichen, mit denen Sie Projekte erstellen und kontrollieren können. Wenn Sie erst einmal Projektleiterin sind, so kommen dieselben Verfahren zur Anwendung; Sie müssen nur Ihre eigenen Projekt-Seiten und Verzeichnisse zum Hochladen bereitstellen. Die Einzelheiten dazu finden Sie auf der Projektleitungs-Seite. An dieser Stelle ist es wahrscheinlich sicher, das Verzeichnis für den Stapelbefehlt von Finereader unterhalb des "Batch" Verzeichnisses zu entfernen. Sie können diese Daten wenn nötig wieder aus den Bilddateien erzeugen. Behalten Sie die Bilddateien und die Textdateien noch eine Weile, mindestens bis das Buch durch die Nachbearbeitung gelaufen und beim Projekt Gutenberg eingereicht worden ist, so dass Sie bei Bedarf darauf Bezug nehmen können. Besonders dann, wenn Sie die Nachbearbeitung selbst durchführen. Toll! Das hat Spaß gemacht; wir machen es gleich noch einmal! :-) Erinnern Sie Sich daran, dass auf dem Korrekturlesen des Textes auf der Website, die Nachbearbeitung folgt ... Siehe die Fragen und Antworten zur Nachbearbeitung für Einzelheiten. Nützliche ProgrammeScanner- und Texterkennungs-SoftwareAbbyy Finereader Kommerziell [Win32, Mac]—Aktuelle Version 6.0—Texterkennungs-Programm. Sehr nett. :-) Ziemlich teuer. :-( Gratis Probeversion. :-) Robert Rowe hat einen Satz von gespeicherten Einstellungen, die Sie nützlich finden könnten. Die Version 5.0 ist viel billiger als die Version 6.0 und ist immer noch erhältlich (wenn auch nicht direkt bei Abbyy Software) und erledigt alles, was gebraucht wird. Falls möglich, verwenden Sie ausschließlich die Pro Version; die Home-Version und die Sprint-Version haben nicht alle notwendigen Funktionen. Gut zum Scannen, aber etwas wählerisch was die Unterstützung von Scannern angeht. Bearbeitung von Textdateien:Guiprep / Winprep Frei [Perl - Win32] Ein Werkzeug, welches PRTK nachempfunden ist, aber auf die Vorbearbeitung von Textdateien für den Gebrauch bei Distributed Proofreaders ausgerichtet ist. Automatische Format-Extraktion. Rückgängigmachen der Silbentrennung. Filtern. Umbenennen und mehr. Diese beiden Werkzeuge verwenden dieselben Codes. Benutzen Sie guiprep, falls Sie perl auf Ihrem System installiert haben. Benutzen Sie winprep (nur für Windows) nur, falls Sie Perl nicht installiert haben. Es ist viel größer und ist genau das gleiche Programm, da es im wesentlichen noch Perl enthält. cleanup.pl Frei [Perl] - Perl Skript für die Entfernung der Silbentrennung und für die Behandlung von leeren Dateien. Diese Funktionen sind auch in guiprep.pl eingebaut. Proofreaders Toolkit oder PRTK. Frei [Win32] Eine gelungene Sammlung von Werkzeugen, die speziell auf das Korrekturlesen ausgerichtet sind. Alles in einem Paket. Diese Sammlung wurde von Robert Rowe speziell für DP entwickelt. Wenn Sie keinen Zugang zu einem Windows-Rechner haben, so bitten Sie Robert um Unterstützung. Er hat freiwillig gemeldet, Ihr Projekt in solchen Fällen mit PRTK zu bearbeiten. Diese Werkzeuge sind etwas ins Alter gekommen. Sie werden nicht mehr gewartet. Manche Teile sind schwierig zu benutzen, manche sind instabil. Auf der anderen Seite ist dies eine recht umfassende Sammlung von Werkzeugen für die Arbeit vom rohen Text nach der Texterkennung bis hin zum fertigen Produkt. Gutcheck Frei-GPL [Dos/Win, Unix] Gutenberg Textprüfungs-Programm. Dies wird verwendet, um zu prüfen, dass ein Text den Gutenberg Richtlinien entspricht. Gutcheck ist auch in PRTK integriert, aber die Version die dort mitgeliefert wird, ist ziemlich alt. Sie sollten die aktuelle Version herunterladen und in das Verzeichnis von PRTK über die alte Version kopieren (beziehungsweise extrahieren). (Der Standartpfad ist "C:\Program Files\ProofReader's Toolkit") Bildbetrachter und Bildbearbeitung:Irfanview32 Frei [Win32]: Nettes Mehrzweck-Programm zur Bearbeitung und Konversion von Bildern. XnView Frei [Win32] - Nettes Mehrzweck-Programm zur Bearbeitung und Konversion von Bildern. Firehand Ember Shareware [Win32] - Noch ein nettes Mehrzweck-Programm zur Betrachtung und Konversion von Bildern. Stapelprogramme zum Umbenennen von Dateien in Massen1-4a-Rename Freeware [Win32] Nettes, sehr konfigurierbares Werkzeug zum Umbenennen von Dateien. Sehr intuitiv. Renamer Freeware [Win32] Ein weiteres nützliches Werkzeug zum Umbenennen von Dateien. Dateiarchivierungs- und -Komprimierungs-Werkzeuge:7.zip Lizenz: Frei-GPL [win32; UNIX] Frei erhältliches Werkzeug zum Entpacken von ZIP-Archiven. ICEOWS Freeware [Win32] Komprimieren von Dateien in den Formaten ICE und ZIP, sowie Entpacken von fast allen normalen Archiv-Formaten. Die Benutzeroberfläche ist in vielen verschiedenen Sprachen erhältlich. Info-ZIP Lizenz: Frei-BSD [Fast alle Betriebssysteme und Plattformen] Eine Sammlung von Werkzeugen zum Bearbeiten von Dateien, die im ZIP-Format komprimiert wurden. Unterstützung für eine große Zahl von Plattformen und Betriebssystemen. FILZIP Freeware [Win32] Ziele-und-Klicke Manipulation von komprimierten Dateien. Graphische Benutzeroberfläche. Extraktion von mehreren Dateien. Eine Menge netter Merkmale. WinZip Shareware [Win32] Werkzeug zum Erzeugen und Entpacken von ZIP-Archiv-Dateien. Gratis Probeversion. FTP Werkzeuge:>WS_FTP LE Shareware [Win32]: Ein bequemes FTP-Programm. Gratis für den nicht-kommerziellen Einsatz. Smart FTP Shareware [Win32]: Noch ein bequemes FTP-Programm. Gratis für den nicht-kommerziellen Einsatz. Andere Werkzeuge:Xpdf Lizenz: Frei-GPL [Dos/Win; UNIX] Hilfsprogramme zum Extrahieren von Bildern oder Text aus Adobe PDF-Dateien (unter anderem). convert-to-dp Lizenz: Frei-GPL [Perl] Hilfsprogramm zum Entpacken von TIF- oder PDF-Dateien in PNG-Dateien, zum Zurechtschneiden von Bildern, und auch um Scan-Bilder, die zwei Seiten enthalten, in zwei getrennte Dateien zu unterteilen. |