Distributed Proofreaders 543 books posted to PG from DP!   Visit DP-INT 
  DP » Content Provider's FAQ
ID: Password:  ·  Register ·  Help 
 

FAQ del Fornitore di Materiale

      FAQ sulla Scansione


E così hai raggiunto il grado di "Correttore Strordinario" e pensi di allargarti ad altre aree.
Oppure la correzione non è proprio il tuo forte ma vuoi sempre aiutarci nel sito.
Forse c'è un libro che non vedi l'ora di portare al Progetto Gutenberg.
Quale che sia la ragione, prima o poi arriva il tempo in cui ti chiedi:  "Come faccio a fornire un testo alla Distributed Proofreaders?"

Queste istruzioni ti aiuteranno nel procedimento.

Nota che non devi fare da solo tutti questi passi. È possibilissimo fare alcune operazioni e poi passare i risultati a qualcun altro. [Ma dobbiamo spiegarti come trovare il "qualcun altro".] Puoi scegliere di coordinare il progetto una volta che i file necessari siano stati introdotti nel server DP. Vedi Guida del Manager di Progetto per dettagli.


FAQ sulla Scansione  -  (pagina separata) Alcune domande comuni relative a scansione, OCR ecc. che non sono trattate qui.


Che tipo di libri volete, alla Distributed Proofreaders?
Dove trovo un libro da elaborare?
Come mi assicuro che il libro sia legalmente idoneo?
OK, ho il mio libro, ho la mia autorizzazione; e adesso?
Ha! Ho fatto i file delle immagini. E ora?
Scherzi? Non basta ancora?
OK, ho finito, adesso come consegno il progetto?
Software utile.


Che tipo di libri volete, alla Distributed Proofreaders?

Che tipo di libri hai? :-)

Seriamente, ci sono poche restrizioni nel tipo di libri da proporre. La maggiore e più importante potrebbe essere: il libro deve essere o di Dominio Pubblico oppure il copyright deve essere scaduto. In genere questo significa che sia stato scritto prima del 1924 (in USA). Ci sono eccezioni a questa regola, ma spesso è difficoltoso stabilirle. Se ne discute su questa pagina.  Per discutere sul termine del copyright in altri paesi, vedi questa pagina.
The Library of Congress Catalog e The British Library Public Catalogue sono buoni siti per controllare le date di pubblicazione dei libri.

Il libro non deve già trovarsi nell'archivio del Progetto Gutenberg. Questo sito, DP , è un fornitore del Progetto Gutenberg e non avrebbe senso sprecare energie per un libro che è gia lì. Però una diversa versione di un libro esistente va bene. Quindi controlla il Project Gutenberg online catalog per vedere se quel libro c'è già.

C'è anche un sito: David's In-Progress List che elenca tutti i libri su cui la gente sta attualmente lavorando. Di nuovo, questo aiuta ad evitare rischi di duplicazioni. Se trovi il tuo libro elencato ma la data di scadenza è passata da oltre un anno allora probabilmente si può andare avanti.

Per la proposta del tuo primo progetto potresti scegliere un breve libro di narrativa. Forse è meglio evitare libri che contengono un sacco di illustrazioni, mappe, grafici, tavole e foto, per il tuo primo "progetto".

Testi in lingue diverse sono pure interessanti, fino ad un certo punto. Ricorda che al momento PGDP-(INT) impiega Latin-1, non Unicode. Tutte le lingue europee sono fattibili, il Latino senza marchi ed anche Swahili.

Tuttavia, testi con molti caratteri fuori del Latin-1 sono meglio trattati nel sito DP-EU, che usa "Unicode". Le procedure di preparazione dei testi sono le stesse in entrambi i siti, ma l'autorizzazione a diventare PM (manager di progetto) va richiesta separatamente all'amministratore di ciascun sito. Se vuoi chiedere se una certa lingua sia appropriata per il DP, metti la domanda al Forum Fornitori di Materiale.

È utile, sebbene non strettamente necessario che tu comprenda la lingua del libro. Teoricamente (e praticamente, ndt) facilita nella correzione il poter capire dal contesto qualche situazione complessa, (negli a capo e fine pagina) anche se di solito l'immagine aiuta molto.


Dove trovo un libro da elaborare?

Biblioteche, mercatini, vendita all'asta, botteghe varie, ituoi genitori/nonni, nell'immondizia, (vedessi cosa getta via la gente!) amici, scuole, fai tu, ci sono libri dovunque. È meglio essere in possesso del libro in oggetto, come riferimento continuo in caso di problemi alle scansioni (succedono e come).

(Probabilmente non troverai molti libri candidati fra quelli circolanti in prestito della tua biblioteca locale, perché raramente ti lasceranno portar via i libri vecchi. Anche se lo fanno, stai attento perché la scansione può danneggiare i libri).

Ci sono anche diversi siti dedicati ai libri usati:

Advanced Book Exchange
Alibris
Elephant Books
Trussel BookSearch
e quel vecchio affidabile:
Half.com / Ebay
per indicarne solo alcuni.

Ci sono poi molti siti che hanno libri disponibili online come .pdf o file di immagini che possono essere scaricati e poi passati all'OCR. (Nota che alcuni file PDF non contengono vere immagini di pagine, bensì testo risultante da OCR o ribattuta, con possibili errori. Siccome per sicurezza ci servono le vere immagini delle pagine, non useremo file PDF nel DP.) Biblioteche universitarie e associazioni storiche sembrano essere delle ricche fonti. Ciò è utile quando non hai accesso ad uno scanner o ai veri libri. Ci sono dei "contro": si tratta dei tempi di trasmissione notevoli, specialmente su linea commutata (lenta); non c'è accesso al vero libro per verificare se ci sono problemi successivi e la scelta è limitata. Certo non dover fare la scansione è un bel "pro".

C'è una lunga lista di possibili siti con scansioni nel nostro Forum dei Fornitori di Materiale, sotto la voce: "Fonti online di immagini scandite da libri"

Per favore attieniti alle istruzioni individuali circa l'etichetta da usare per motivi di buon vicinato.
Se decidi di seguire questa via, è buona norma dichiarare la fonte delle scansioni all'atto della consegna al PG.


Come mi assicuro che il libro sia legalmente idoneo?

Quando ti sembra di aver trovato un buon candidato, la prima cosa è cercare di procurarsi una autorizzazione. Si tratta di una approvazione del libro per il sito PG ed anche registra il libro come Lavori in Corso, a significare che il libro è prenotato, evitando duplicazioni.

Il modo preferibile per presentare richieste di autorizzazioni è in internet nel sito questa pagina (http://copy.pglaf.org). Ci sono un po' di suggerimenti utili ed altri link.

Meglio che tu non perda troppo tempo sul progetto finché non hai ricevuto la "riga di autorizzazione".


OK, ho il mio libro, ho la mia autorizzazione; e adesso?

Adesso devi scandirlo.

Ci sono troppi scanner e programmi di scansione per dare consigli qui. In generale ecco i parametri di scansione: 300 dpi, bianco/nero, (non scala di grigi) e luminosità media a meno che la carta sia molto ingiallita. Maggior numero di dpi non da' migliori scansioni a meno che il testo sia estremamente piccolo. Meglio produrre immagini abbastanza pulite e di dimensioni ragionevoli per non strozzare il programma OCR.

Gli esempi seguenti sono relativi al programma Abbyy Finereader Pro. Questa FAQ tende a concentrarsi su questo programma perché:

  • È uno dei più popolari software usati dagli amministratori del DP.
  • È molto accurato anche su immagini scadenti; diciamolo, libri di 100 anni fa non sono spesso in buono stato.
  • È facile da automatizzare in molti processi.
  • È di uso gratuito per 30 giorni oppure 15 ore complessive.

Abbyy Finereader Pro 5.0 o maggiore, (e altri programmi di alto livello) hanno delle funzioni specializzate particolari; Per esempio iniziare una sequenza (batch): cliccare su File-> New Batch, (Ctrl+N) e dargli un nome appropriato. (Il titolo del libro, abbreviato, è una buona scelta). Qui il programma immagazzina tutti i file temporanei del progetto. E' meglio fare una cartella (alias directory) separata di batch (lavori in sequenza) in cui mettere tutti i batch individuali.

Parliamo un po' della struttura gerarchica. È bene che sia logica, per facilitare le cose. Non c'è un modo "giusto" o "sbagliato" di fare questo, dipende dalle preferenze.

Scelto un punto appropriato della struttura del disco, fai due nuove cartelle: "Batch" e "Progetti".

Ogni volta che inizi un nuovo batch in Finereader, questo genera una cartella dove mette immagini grezze e testo, nominata come desideri tu. Tienila nella cartella "Batch".

Nella cartella "Progetti" creane un'altra; chiamala con lo stesso nome "batch" usato da Finereader. In questa fai diverse altre cartelle: "pngs", "textw" e "textwo". Lì metterai immagini e testi di Finereader. "Textw" significa testo con (with) ritorni a capo e "textwo" vuol dire testo senza (wo=without) linee spezzate. Ne parleremo dopo.

Ecco un grafico dimostrativo. Il libro sia chiamato Book1:

Directory Structure


Alcuni mettono il batch di Finereader nella stessa cartella con le png e il testo per seguirle meglio. Questione di preferenze.

 Quando la tua cartella di batch è pronta, nel programma seleziona File-> Scan Multiple Images (Ctrl+Shift+K) per iniziare la scansione. Da qui la procedura è variabile in funzione del tipo di scanner, con alimentatore di fogli o no, preferenze, ecc. (confermare ogni scansione o fare una pausa breve fra esse). In caso di altro software, vedi le relative istruzioni.

Se lo spazio nello scanner lo consente, cerca di scandire two-up, (due pagine per immagine), il che abbrevia i tempi. Cerca di piazzare le pagine sempre nella stessa posizione, per esempio contro un angolo. Sarà poi più facile rifilare e dividere le pagine.

Rifila le immagini se necessario, per minimizzare i bordi neri attorno all'immagine. Se ti vengono GROSSI bordi neri attorno, dovrai restringere la "finestra di scansione". Si risparmia tempo nella scansione e spazio sul disco. Non ti attaccare troppo ai confini del testo, perché questo può danneggiare il riconoscimento. Insomma un po' di spazio bianco attorno al testo e niente nero.

Se hai le immagini a doppia pagina, dividile in pagine singole (one-up). Si può fare in due modi:

  • Se il programma ha una opzione per farlo ad ogni scansione, chiedilo. (Fine Reader lo può fare purché ci sia spazio bianco tra pagine).
  • Usa un programma esterno.
Se ci sono dubbi è meglio fare prove su più scansioni.

Salva i file di immagini in bianco/nero, ne' colore, ne' scala di grigi. Userai formato ".tif" o ".png". Più tardi ti SERVIRANNO in ".png", quindi se lo scanner lo supporta è meglio usarlo subito. Evita di registrare in jpeg (compressione con perdita) o ".bmp" (file grossi). Con Finereader, per salvare tutte le immagini in un colpo, selezionale tutte assieme (Ctrl+A) poi File-> Save Images (F12), e dai un nome alle immagini perché non viene fatto automaticamente. Il programma salva tutta la serie con quel nome, trattini e numero di 4 cifre progressivo. (Book1-0001.png, Book1-0002.png...ecc) Salvale nella directory "Projects\Book1\pngs".

MOLTO IMPORTANTE! - Accertati che i file siano in ordine sequenziale e alfabetico. È opportuno che i file siano nominati, o rinominati dopo, come 001.png, 002.png, (o .tif) ecc. (Fine Reader non lo fa e ti toccherà rinominarli più tardi, in fase di preprocessing. Il programma dà una numerazione sequenziale, ma non come serve a noi). Sarà così più facile mantenere l'ordine ed evitare buchi nei nomi dei file.

I file e-text/.pdf devono andare a finire nello stesso posto. Se hai a disposizione immagini di pagine singole di tipo diverso (tif, gif, png), le devi convertire tutte a .png-- coi nomi come detto sopra. Se i file sono doppia pagina, li devi prima dividere. Coi file originati in .pdf ti occorre una utility per estrarre l'immagine (di solito .tif ) che è all'interno.

Nota: Abbyy Finereader OCR 6.0 accetta direttamente i file .pdf. Non devi prima estrarre le immagini. Se imposti un batch, lui estrae "al volo" le .tif nella directory batch. Poi le convertirai in .png.

Per altre informazioni su Abbyy FineReader, vai al Forum Trucchi e Consigli su FineReader.



Ha! Ho fatto i file delle immagini. E ora?

Ora passa le immagini nel programma OCR (Optical Character Recognition). Ancora, ci sono diversi programmi in giro, per trattarli tutti. Puoi raggiungere l'obiettivo per strade diverse.

Se non hai un programma OCR, puoi sfruttare il Gruppo OCR (ocr pool). Sono altri volontari del DP che possiedono programmi di OCR; essi saranno ben lieti di interpretare le tue pagine per te.

Se invece hai software di OCR...

Se hai usato Finereader c'è già un batch e le immagini sono lì.

Se no, apri Finereader OCR. Clicca su File->New Batch, (Ctrl+N) e dagli un nome. Cicca File->Open Image, (Ctrl+O). Seleziona tutte le immagini e poi "Open". Magari prima ne apri un paio per vedere se funziona bene, poi fai il resto. Selezionale nell'ordine. Se i nomi sono sequenziali li puoi selezionare tutti assieme.
A seconda di quanti file sono, in quale formato e quanto è veloce il computer, ci vogliono da parecchi secondi a qualche ora a caricare tutte le immagini.

Quando le immagini sono state tutte lette, controllale nella finestra del batch; se non sono in ordine, con Abbyy 6.0 puoi rinumerare le immagini nel menu "Batch Processing". In Abbyy 5.0, no; meglio cominciare con l'ordine giusto.

Controlla le regolazioni sotto Tools -> Options. Scegli la lingua del testo. Premi (Ctrl-shift-R) o l'icona "Read All", per iniziare la sequenza OCR, alzati e prenditi una pausa. Nel menu "Process" c'è anche un'opzione per eseguire il processo in background, per cui potresti ridurre la finestra e fare altri lavori contemporaneamente.

Per pagine complesse o piene di grafica, può esser necessario lavoro extra. Abbyy Finereader cerca di analizzare la struttura della pagina mentre interpreta. Riesce bene a distinguere pagine semplici su due colonne, ma se le colonne sono interrotte da illustrazioni, tavole, ecc, quasi certamente sbaglia la disposizione.
 
Puoi tracciare dei box sull'immagine scandita per dire al programma quali pezzi unire e in che ordine. Scegli l'attrezzo rettangolo e traccia il box attorno al testo, poi lo potrai spostare accuratamente. Se tracci i rettangoli nella giusta sequenza, non serve altro. A volte invece conviene tracciarli in ordine diverso e poi dire al programma qual'è l'ordine cliccando prima il simbolo 123 sulla sinistra, poi cliccando in sequenza i rettangoli; i numeri sui rettangoli cambieranno di conseguenza. Il programma può scandire i box in ordine diverso ma alla fine il testo viene nel giusto ordine.
 
In progetti lunghi e complessi conviene lasciar fare l'interpretazione di tutte le pagine ed alla fine guardare velocemente ogni pagina per vedere se necessita di aggiustamenti manuali. Si salta da una pagina all'altra con Alt-Freccia Giù. Quando una pagina riesce male, puoi cancellare il solo testo o ANCHE i box di testo. Riaggiusta i box, cambia l'ordine se errato, e continua l'esame. Se hai inserito Backgound Processing, questo prosegue mentre tu esamini altre pagine problematiche.
 
Si può specificare una diversa lingua per ogni box, ma in Finereader 5.0 devi farlo manualmente, assieme all'ordine di lettura; ci vuole tempo.
 
In progetti complicati, la corretta sequenza dei testi aiuta molto i correttori.

A fine OCR devi registrare i file di testo per altre lavorazioni. Secondo quali programmi userai, i formati e i luoghi saranno diversi. Per usare lo script guiprep/ winprep (raccomandato) o lo script di pulizia, dovrai fare qualcosa di simile:

Estratto da guiprep.pl manual. (Incluso nello script guiprep)

Preparazione File di Testo: [segue in inglese]

RTF Markup Extraction:

In order to use the dehyphenization features of this script, you NEED to save the text from ABBYY FineReader (or possibly other OCR packages, should work as long as they produce standard well formed rtf files) two times in two different directories. Assuming you have a project directory named "PROJECT", under the project directory you will need two directories "textw" and "textwo". "textw" stands for "text with line breaks" and "textwo" stands for "text without line breaks".

In ABBYY after all of your images are loaded and OCRed, select  File => Save Text As;  A dialog box will pop up.


In the "textw" directory, save the text with the settings: Save as type Rich text Format, Create a separate file for each page, Retain font and font size. On the RTF tab of the Formats Settings, check Keep page breaks and Keep line breaks and uncheck everything else. It doesn't matter what the File name is set to. The name of your batch is probably fine.

In the "textwo" directory, save the text with the settings: Save as type Rich text Format, Create a separate file for each page, Retain font and font size. On the RTF tab of the Formats Settings, check Keep page breaks and Remove optional hyphens and uncheck everything else. Make sure the File name is set the same as in the textw directory.


Using the script without RTF Markup Extraction:

If you don't want to do markup extraction, (or your OCR package won't support RTF files)  you can skip saving the files as RTFs and just save them as plain text files. Again, to do dehyphenization, you will need to save the files in two directories, textw and textwo.

Save the text with line breaks in textw. The ISO Latin-1 code page will give you pretty good results for English and most European languages. The site works with ISO Latin-1 so that will be least problematic to fit into the character space used. If necessary, you can try other code pages but be aware that they may not be as easy to use on the site and may not yeild satisfactory results with some of the script functions.

The textwo directory should use all of the same settings except that Keep line breaks needs to be unchecked. Be sure to use the same code page and file names in both the textw and textwo directories.

At this point the script is used exactly the same way except you'll skip the Extract Markup routine.


Using the script without RTF Markup Extraction or Dehyphenization:

If you are using a different OCR package that can't save as rtf or do automatic line rejoining, you may need to skip those two functions. Save the files in a directory named "text" using the same settings as for textw without RTF extraction above. Uncheck both Extract and  Dehyphenate under the Process Text tab. It won't hurt to leave them checked but the script will complain that it can't find the other directories and/or files.

If you aren't using guiprep, just save the files into the "text" directory. Save as plain text, keep line breaks, use blank line as paragraph separator.


You're kidding me! I'm not done yet?

Now you are going to need to do a little preprocessing on those text files.  The tools you use will dictate how you proceed. The two major tools (Guiprep and PRTK) are covered here.

Guiprep / Winprep:

Guiprep is capable of extracting italic and bold markup from the OCRed text. (save lots of time for proofers), removing the end-of-line hyphens and rejoining the broken words, filtering out many, many scanning errors, renaming the files in the format need by Distributed Proofreaders and checking for zero byte files, all automatically. It also provides an interactive mechanism for header removal which is more stable and user friendly than PRTKs. The manual included with the script is quite comprehensive and should be consulted for any detailed questions.

 A general overview of how to use it:

Open the script, a graphical user interface will pop up. Guiprep uses a tabbed screen scheme, similar functions are grouped on different tabs.
Step 1. Goto the Change Directory tab. Navigate to the directory containing the textw and textwo (or text) directories.
Step 2. Goto the Select options tab. Select the appropriate options for your text. The defaults are probably fine for most texts. Exceptions and caveats are discussed in the manual.
Step 3. Go to the Process Text tab. Select which functions you want to perform; extract, dehyphenate...etc. Press the Do All Selected button or just press the buttons to run each function individually. A status box will display progress and error messages if they occur.
Step 4. Go to the header removal page. Press Get Headers to get a list of the headers from the files. Select the headers you want to be deleted. Press remove headers. Repeat as necessary.

The finished files will be in a directory named "text".

Guiprep also can automatically rename your .png files and provides a front end to pngcrush to losslessly reduce the size of your png file and reduce your upload. It also has a FTP client built in which will automate a lot of the upload.

Pre-processing complete.


OK, I'm finished, how do I upload the project?

If this is your first time submitting a project and/or you are not a project manager,  send an e-mail or private message to zstefanovic, that includes the author, title, etc and, ideally, the clearance line and any comments you may want included on the project page.  Make sure you include your name and a contact e-mail address (if different from the sending address). They will contact you with an FTP address and directoryname where you can upload the image and text files. Use an FTP client to upload all of the .png and .txt files you generated earlier into that directory. (There are a few free FTP clients listed in the sofware section, or,  the guiprep toolkit has an FTP client built in that will automate some of the process). Alternately, if you anticipate having several projects, you may want to send a message to Nikola and ask to be made a project manager. This will open up access to some of the project creation and control features. The same general procedures are used once you are a project manager, you just need to create your own project pages and set up your own upload directories, details are given on the project managers page.

At this point it is probably safe to delete the batch directory used by Finereader under the "Batch" directory. You could always regenerate it from the image files again if necessary. Keep the text and image files around at least until the book is done post-processing and has been submitted to Project Gutenberg so you can refer back to them, if necessary, especially if you are going to do the post-processing yourself. (See the Post-Processing FAQ for more details.)

Wow! That was fun, let's do another! :-)



Useful Software

Scanning / OCR software:

Abbyy Finereader Commercial [Win32, Mac] - Current Version 6.0 - OCR software.    Very nice. :-)   Quite expensive. :-(   Free Trial. :-)     See our FineReader Tips and Tricks forum topic.

5.0 Pro is much cheaper than 6.0 and is still available (though not directly from Abbyy software) and does what is needed. If possible, stick with the Pro version though; the Home and Sprint versions don't have necessary features. Good for scanning, but a little finicky about which scanners it supports.

Text file processing tools:


Guiprep / Winprep Free [Win32, Unix] A tool set modelled after PRTK but specifically geared toward pre-processing text files for use by Distributed proofreaders. Automatic markup extraction, dehyphenization, filtering, renaming & more. See also this forum topic. Guiprep requires perl. Please see the guiprep manual for more infomation about obtaining a perl interpreter for your system.
Image viewing and manipulation:

Irfanview32 Free [Win32] - Nice general purpose image manipulation and conversion software.

XnView Free [Win32] - Nice general purpose image manipulation and conversion software.

Firehand Ember Shareware [Win32] - Another nice image viewing and conversion program.

netpbm Free [Win32, Unix] - A toolkit for manipulation of graphic images, including conversion of images between a variety of different formats.


Batch file renamers:

1-4a-Rename Freeware [Win32] Nice very configurable utility for batch renaming files. Very point 'n click.


File Archiving and Compression tools:

7.zip Free-GPL [win32 Unix] Free utility to uncompress .zip archives.

ICEOWS  Freeware [Win32] Compress files in ICE and ZIP formats and uncompress nearly any common format. Many language interfaces available.

Info-ZIP Free-BSD [Nearly all OS's and Platforms] A collection of utilities for working with zip format compressed files. Support for a large number of platforms and OS's.

FILZIP Freeware [Win32] Point and click manipulation of compressed files. GUI interface. Multiple file extraction. Lots of nice features.

WinZip Shareware [Win32] Utility to create and extract .zip archives. Free trial.

FTP tools:

WS_FTP LE Shareware [Win32] Easy to use FTP client. Free for non-commercial use.

Smart FTP Shareware [Win32] Another easy to use FTP client. Free for-non commercial use.

Other utilities:

Xpdf Free-GPL [Dos/Win Unix] Utilities to extract images or text from .pdf files among other things.



 
Copyright Distributed Proofreaders (Page Build Time: 0.065) Report a Bug