|
543 books posted to PG from DP!
|
| DP » Content Provider's FAQ |
FAQ del Fornitore di MaterialeE così hai raggiunto il grado di "Correttore Strordinario" e pensi di allargarti ad altre aree. Queste istruzioni ti aiuteranno nel procedimento. Nota che non devi fare da solo tutti questi passi. È possibilissimo fare alcune operazioni e poi passare i risultati a qualcun altro. [Ma dobbiamo spiegarti come trovare il "qualcun altro".] Puoi scegliere di coordinare il progetto una volta che i file necessari siano stati introdotti nel server DP. Vedi Guida del Manager di Progetto per dettagli. FAQ sulla Scansione - (pagina separata) Alcune domande comuni relative a scansione, OCR ecc. che non sono trattate qui.
Che tipo di libri volete, alla Distributed Proofreaders? Che tipo di libri hai? :-) Seriamente, ci sono poche restrizioni nel tipo di libri da proporre. La maggiore e più importante potrebbe essere: il libro deve essere o di Dominio Pubblico oppure il copyright deve essere scaduto. In genere questo significa che sia stato scritto prima del 1924 (in USA). Ci sono eccezioni a questa regola, ma spesso è difficoltoso stabilirle. Se ne discute su questa pagina.
Per discutere sul termine del copyright in altri paesi, vedi questa
pagina. Il libro non deve già trovarsi nell'archivio del Progetto Gutenberg. Questo sito, DP , è un fornitore del Progetto Gutenberg e non avrebbe senso sprecare energie per un libro che è gia lì. Però una diversa versione di un libro esistente va bene. Quindi controlla il Project Gutenberg online catalog per vedere se quel libro c'è già. C'è anche un sito: David's In-Progress List che elenca tutti i libri su cui la gente sta attualmente lavorando. Di nuovo, questo aiuta ad evitare rischi di duplicazioni. Se trovi il tuo libro elencato ma la data di scadenza è passata da oltre un anno allora probabilmente si può andare avanti. Per la proposta del tuo primo progetto potresti scegliere un breve libro di narrativa. Forse è meglio evitare libri che contengono un sacco di illustrazioni, mappe, grafici, tavole e foto, per il tuo primo "progetto". Testi in lingue diverse sono pure interessanti, fino ad un certo punto. Ricorda che al momento PGDP-(INT) impiega Latin-1, non Unicode. Tutte le lingue europee sono fattibili, il Latino senza marchi ed anche Swahili. Tuttavia, testi con molti caratteri fuori del Latin-1 sono meglio trattati nel sito DP-EU, che usa "Unicode". Le procedure di preparazione dei testi sono le stesse in entrambi i siti, ma l'autorizzazione a diventare PM (manager di progetto) va richiesta separatamente all'amministratore di ciascun sito. Se vuoi chiedere se una certa lingua sia appropriata per il DP, metti la domanda al Forum Fornitori di Materiale. È utile, sebbene non strettamente necessario che tu comprenda la lingua del libro. Teoricamente (e praticamente, ndt) facilita nella correzione il poter capire dal contesto qualche situazione complessa, (negli a capo e fine pagina) anche se di solito l'immagine aiuta molto. Dove trovo un libro da elaborare? Biblioteche, mercatini, vendita all'asta, botteghe varie, ituoi genitori/nonni, nell'immondizia, (vedessi cosa getta via la gente!) amici, scuole, fai tu, ci sono libri dovunque. È meglio essere in possesso del libro in oggetto, come riferimento continuo in caso di problemi alle scansioni (succedono e come). (Probabilmente non troverai molti libri candidati fra quelli circolanti in prestito della tua biblioteca locale, perché raramente ti lasceranno portar via i libri vecchi. Anche se lo fanno, stai attento perché la scansione può danneggiare i libri). Ci sono anche diversi siti dedicati ai libri usati: Advanced Book Exchange Ci sono poi molti siti che hanno libri disponibili online come .pdf o file di immagini che possono essere scaricati e poi passati all'OCR.
(Nota che alcuni file PDF non contengono vere immagini di pagine, bensì testo risultante da OCR o ribattuta, con possibili errori. Siccome per sicurezza ci servono le vere immagini delle pagine, non useremo file PDF nel DP.)
Biblioteche universitarie e associazioni storiche sembrano essere delle ricche fonti.
Ciò è utile quando non hai accesso ad uno scanner o ai veri libri. Ci sono dei "contro": si tratta dei tempi di trasmissione notevoli, specialmente su linea commutata (lenta); non c'è accesso al vero libro per verificare se ci sono problemi successivi e la scelta è limitata. Certo non dover fare la scansione è un bel "pro". C'è una lunga lista di possibili siti con scansioni nel nostro Forum dei Fornitori di Materiale, sotto la voce: "Fonti online di immagini scandite da libri" Per favore attieniti alle istruzioni individuali circa l'etichetta da usare per motivi di buon vicinato.Se decidi di seguire questa via, è buona norma dichiarare la fonte delle scansioni all'atto della consegna al PG. Come mi assicuro che il libro sia legalmente idoneo?
Quando ti sembra di aver trovato un buon candidato, la prima cosa è cercare di procurarsi una autorizzazione. Si tratta di una approvazione del libro per il sito PG ed anche registra il libro come Lavori in Corso, a significare che il libro è prenotato, evitando duplicazioni. Il modo preferibile per presentare richieste di autorizzazioni è in internet nel sito questa pagina
(http://copy.pglaf.org). Ci sono un po' di suggerimenti utili ed altri link. Meglio che tu non perda troppo tempo sul progetto finché non hai ricevuto la "riga di autorizzazione". OK, ho il mio libro, ho la mia autorizzazione; e adesso? Adesso devi scandirlo. Ci sono troppi scanner e programmi di scansione per dare consigli qui. In generale ecco i parametri di scansione: 300 dpi, bianco/nero, (non scala di grigi) e luminosità media a meno che la carta sia molto ingiallita. Maggior numero di dpi non da' migliori scansioni a meno che il testo sia estremamente piccolo. Meglio produrre immagini abbastanza pulite e di dimensioni ragionevoli per non strozzare il programma OCR. Gli esempi seguenti sono relativi al programma Abbyy Finereader Pro. Questa FAQ tende a concentrarsi su questo programma perché:
Abbyy Finereader Pro 5.0 o maggiore, (e altri programmi di alto livello) hanno delle funzioni specializzate particolari; Per esempio iniziare una sequenza (batch): cliccare su File-> New Batch, (Ctrl+N) e dargli un nome appropriato. (Il titolo del libro, abbreviato, è una buona scelta). Qui il programma immagazzina tutti i file temporanei del progetto. E' meglio fare una cartella (alias directory) separata di batch (lavori in sequenza) in cui mettere tutti i batch individuali. Parliamo un po' della struttura gerarchica. È bene che sia logica, per facilitare le cose. Non c'è un modo "giusto" o "sbagliato" di fare questo, dipende dalle preferenze. Scelto un punto appropriato della struttura del disco, fai due nuove cartelle: "Batch" e "Progetti". Ogni volta che inizi un nuovo batch in Finereader, questo genera una cartella dove mette immagini grezze e testo, nominata come desideri tu. Tienila nella cartella "Batch". Nella cartella "Progetti" creane un'altra; chiamala con lo stesso nome "batch" usato da Finereader. In questa fai diverse altre cartelle: "pngs", "textw" e "textwo". Lì metterai immagini e testi di Finereader. "Textw" significa testo con (with) ritorni a capo e "textwo" vuol dire testo senza (wo=without) linee spezzate. Ne parleremo dopo. Ecco un grafico dimostrativo. Il libro sia chiamato Book1: Alcuni mettono il batch di Finereader nella stessa cartella con le png e il testo per seguirle meglio. Questione di preferenze. Quando la tua cartella di batch è pronta, nel programma seleziona File-> Scan Multiple Images (Ctrl+Shift+K) per iniziare la scansione. Da qui la procedura è variabile in funzione del tipo di scanner, con alimentatore di fogli o no, preferenze, ecc. (confermare ogni scansione o fare una pausa breve fra esse). In caso di altro software, vedi le relative istruzioni. Se lo spazio nello scanner lo consente, cerca di scandire two-up, (due pagine per immagine), il che abbrevia i tempi. Cerca di piazzare le pagine sempre nella stessa posizione, per esempio contro un angolo. Sarà poi più facile rifilare e dividere le pagine. Rifila le immagini se necessario, per minimizzare i bordi neri attorno all'immagine. Se ti vengono GROSSI bordi neri attorno, dovrai restringere la "finestra di scansione". Si risparmia tempo nella scansione e spazio sul disco. Non ti attaccare troppo ai confini del testo, perché questo può danneggiare il riconoscimento. Insomma un po' di spazio bianco attorno al testo e niente nero. Se hai le immagini a doppia pagina, dividile in pagine singole (one-up). Si può fare in due modi:
Salva i file di immagini in bianco/nero, ne' colore, ne' scala di grigi. Userai formato ".tif" o ".png". Più tardi ti SERVIRANNO in ".png", quindi se lo scanner lo supporta è meglio usarlo subito.
Evita di registrare in jpeg (compressione con perdita) o ".bmp" (file grossi). Con Finereader, per salvare tutte le immagini in un colpo, selezionale tutte assieme (Ctrl+A) poi File-> Save Images (F12), e dai un nome alle immagini perché non viene fatto automaticamente. Il programma salva tutta la serie con quel nome, trattini e numero di 4 cifre progressivo. (Book1-0001.png, Book1-0002.png...ecc) Salvale nella directory "Projects\Book1\pngs". I file e-text/.pdf devono andare a finire nello stesso posto. Se hai a disposizione immagini di pagine singole di tipo diverso (tif, gif, png), le devi convertire tutte a .png-- coi nomi come detto sopra. Se i file sono doppia pagina, li devi prima dividere. Coi file originati in .pdf ti occorre una utility per estrarre l'immagine (di solito .tif ) che è all'interno. Nota: Abbyy Finereader OCR 6.0 accetta direttamente i file .pdf. Non devi prima estrarre le immagini. Se imposti un batch, lui estrae "al volo" le .tif nella directory batch. Poi le convertirai in .png. Per altre informazioni su Abbyy FineReader, vai al Forum Trucchi e Consigli su FineReader. Ha! Ho fatto i file delle immagini. E ora? Ora passa le immagini nel programma OCR (Optical Character Recognition). Ancora, ci sono diversi programmi in giro, per trattarli tutti. Puoi raggiungere l'obiettivo per strade diverse. Se non hai un programma OCR, puoi sfruttare il Gruppo OCR (ocr pool). Sono altri volontari del DP che possiedono programmi di OCR; essi saranno ben lieti di interpretare le tue pagine per te. Se invece hai software di OCR... Se hai usato Finereader c'è già un batch e le immagini sono lì. Se no, apri Finereader OCR. Clicca su File->New Batch, (Ctrl+N) e dagli un nome. Cicca File->Open Image, (Ctrl+O). Seleziona tutte le immagini e poi "Open". Magari prima ne apri un paio per vedere se funziona bene, poi fai il resto. Selezionale nell'ordine. Se i nomi sono sequenziali li puoi selezionare tutti assieme. Controlla le regolazioni sotto Tools -> Options. Scegli la lingua del testo. Premi (Ctrl-shift-R) o l'icona "Read All", per iniziare la sequenza OCR, alzati e prenditi una pausa. Nel menu "Process" c'è anche un'opzione per eseguire il processo in background, per cui potresti ridurre la finestra e fare altri lavori contemporaneamente. Per pagine complesse o piene di grafica, può esser necessario lavoro extra. Abbyy Finereader cerca di analizzare la struttura della pagina mentre interpreta. Riesce bene a distinguere pagine semplici su due colonne, ma se le colonne sono interrotte da illustrazioni, tavole, ecc, quasi certamente sbaglia la disposizione.
Puoi tracciare dei box sull'immagine scandita per dire al programma quali pezzi unire e in che ordine. Scegli l'attrezzo rettangolo e traccia il box attorno al testo, poi lo potrai spostare accuratamente. Se tracci i rettangoli nella giusta sequenza, non serve altro. A volte invece conviene tracciarli in ordine diverso e poi dire al programma qual'è l'ordine cliccando prima il simbolo 123 sulla sinistra, poi cliccando in sequenza i rettangoli; i numeri sui rettangoli cambieranno di conseguenza. Il programma può scandire i box in ordine diverso ma alla fine il testo viene nel giusto ordine.
In progetti lunghi e complessi conviene lasciar fare l'interpretazione di tutte le pagine ed alla fine guardare velocemente ogni pagina per vedere se necessita di aggiustamenti manuali. Si salta da una pagina all'altra con Alt-Freccia Giù. Quando una pagina riesce male, puoi cancellare il solo testo o ANCHE i box di testo. Riaggiusta i box, cambia l'ordine se errato, e continua l'esame. Se hai inserito Backgound Processing, questo prosegue mentre tu esamini altre pagine problematiche.
Si può specificare una diversa lingua per ogni box, ma in Finereader 5.0 devi farlo manualmente, assieme all'ordine di lettura; ci vuole tempo.
A fine OCR devi registrare i file di testo per altre lavorazioni. Secondo quali programmi userai, i formati e i luoghi saranno diversi. Per usare lo script guiprep/ winprep (raccomandato) o lo script di pulizia, dovrai fare qualcosa di simile: Preparazione File di Testo: [segue in inglese] In the "textw" directory, save the text with the settings: Save as type Rich text Format, Create a separate file for each page, Retain font and font size. On the RTF tab of the Formats Settings, check Keep page breaks and Keep line breaks and uncheck everything else. It doesn't matter what the File name is set to. The name of your batch is probably fine. In the "textwo" directory, save the text with the settings: Save as type Rich text Format, Create a separate file for each page, Retain font and font size. On the RTF tab of the Formats Settings, check Keep page breaks and Remove optional hyphens and uncheck everything else. Make sure the File name is set the same as in the textw directory. Using the script without RTF Markup Extraction: If you don't want to do markup extraction, (or your OCR package won't support RTF files) you can skip saving the files as RTFs and just save them as plain text files. Again, to do dehyphenization, you will need to save the files in two directories, textw and textwo. Save the text with line breaks in textw. The ISO Latin-1 code page will give you pretty good results for English and most European languages. The site works with ISO Latin-1 so that will be least problematic to fit into the character space used. If necessary, you can try other code pages but be aware that they may not be as easy to use on the site and may not yeild satisfactory results with some of the script functions. The textwo directory should use all of the same settings except that Keep line breaks needs to be unchecked. Be sure to use the same code page and file names in both the textw and textwo directories. At this point the script is used exactly the same way except you'll skip the Extract Markup routine. Using the script without RTF Markup Extraction or Dehyphenization: If you are using a different OCR package that can't save as rtf or do automatic line rejoining, you may need to skip those two functions. Save the files in a directory named "text" using the same settings as for textw without RTF extraction above. Uncheck both Extract and Dehyphenate under the Process Text tab. It won't hurt to leave them checked but the script will complain that it can't find the other directories and/or files. If you aren't using guiprep, just save the files into the "text" directory. Save as plain text, keep line breaks, use blank line as paragraph separator. You're kidding me! I'm not done yet? Now you are going to need to do a little preprocessing on those text
files. The tools you use will dictate how you proceed. The two
major tools (Guiprep and PRTK) are covered here. Guiprep is capable of extracting italic and bold markup from the
OCRed text. (save lots of time for proofers), removing the end-of-line
hyphens and rejoining the broken words, filtering out many, many
scanning errors, renaming the files in the format need by Distributed
Proofreaders and checking for zero byte files, all automatically. It
also provides an interactive mechanism for header removal which is more
stable and user friendly than PRTKs. The manual included with the script is quite comprehensive and should be consulted
for any detailed questions. A general overview of how to use it: Open the script, a graphical user interface will pop up. Guiprep uses a tabbed screen scheme, similar functions are grouped on different tabs. The finished files will be in a directory named "text". Guiprep also can automatically rename your .png files and provides a
front end to pngcrush to losslessly reduce the size of your png file and
reduce your upload. It also has a FTP client built in which will
automate a lot of the upload. Pre-processing complete. OK, I'm finished, how do I upload the project? If this is your first time submitting a project and/or you are not a
project manager, send an e-mail or private message to zstefanovic, that includes
the author, title, etc and, ideally, the clearance line and any comments
you may want included on the project page. Make sure you include
your name and a contact e-mail address (if different from the sending
address). They will contact you with an FTP address and directoryname
where you can upload the image and text files. Use an FTP client to
upload all of the .png and .txt files you generated earlier into that
directory. (There are a few free FTP clients listed in the sofware
section, or, the guiprep toolkit has an FTP client built in that
will automate some of the process).
Alternately, if you anticipate having several
projects, you may want to send a message to Nikola and ask
to be made a project manager. This will open up access to some of the
project creation and control features. The same general procedures are
used once you are a project manager, you just need to create your own
project pages and set up your own upload directories, details are given
on the project managers page. Wow! That was fun, let's do another! :-) Scanning / OCR
software: Abbyy Finereader Commercial [Win32, Mac] - Current Version 6.0 - OCR software. Very nice. :-) Quite expensive. :-( Free Trial. :-) See our FineReader Tips and Tricks forum topic. 5.0 Pro is much cheaper than 6.0 and is still available (though not directly from Abbyy software) and does what is needed. If possible, stick with the Pro version though; the Home and Sprint versions don't have necessary features. Good for scanning, but a little finicky about which scanners it supports.Text file processing tools:
Irfanview32 Free
[Win32] - Nice general purpose image manipulation and conversion
software. XnView Free [Win32] - Nice general purpose image manipulation and conversion software. Firehand Ember Shareware [Win32] - Another nice
image viewing and conversion program. netpbm Free [Win32, Unix] - A toolkit for manipulation of graphic images, including conversion of images between a variety of different formats.
1-4a-Rename Freeware
[Win32] Nice very configurable utility for batch renaming files. Very
point 'n click. File Archiving and Compression tools: 7.zip Free-GPL [win32
Unix] Free utility to uncompress .zip archives. ICEOWS Freeware [Win32] Compress files in
ICE and ZIP formats and uncompress nearly any common format. Many
language interfaces available. Info-ZIP Free-BSD [Nearly all OS's and
Platforms] A collection of utilities for working with zip format
compressed files. Support for a large number of platforms and OS's. FILZIP Freeware [Win32] Point and click
manipulation of compressed files. GUI interface. Multiple file
extraction. Lots of nice features. WinZip Shareware [Win32]
Utility to create and extract .zip archives. Free trial. FTP tools: WS_FTP LE Shareware
[Win32] Easy to use FTP client. Free for non-commercial use. Smart FTP Shareware [Win32] Another easy to
use FTP client. Free for-non commercial use. Other utilities: Xpdf Free-GPL [Dos/Win Unix] Utilities to extract images or text from .pdf files among other things. |