|
528 books posted to PG from DP!
|
| DP » Scanning FAQ |
Skannauksen FAQSkannauksen - Materiaalin toimittamisen ohjeetOnko minun pakko käyttää Abbyy Finereaderiä? Millainen skanneri minun tulisi hankkia? Pitäisikö minun hankkia automaattisella arkinsyöttölaitteella varustettu skanneri? Millainen skanneri charlzilla on? Paljonko sellainen muuten maksaa? Kuvani ovat huonoja, onko korjausehdotuksia? Voinko käyttää digitaalista kameraa kuvien "skannaamiseen"? Kuinka kauan kirjan skannaus kestää? Minulla on skanneri muttei sopivia kirjoja / Minulla on useita kirjoja ehdolla muttei skanneria / Minulla on kuvat kirjasta muttei OCR-ohjelmaa Minulla ei ole tietokonetta; Miten voin auttaa? Käytän Linuxia, onko sille sopivaa OCR-ohjelmaa? Linuxista puheen ollen, mitä skannereita tuetaan? Onko tarjolla ilmaisia OCR-ohjelmia?
Onko minun pakko käyttää Abbyy Finereaderiä? Ei, tietenkään ei. Skannauksen ohjeet on suunnattu lähinnä
tuolle ohjelmistolle yksinkertaisesti siksi, että webpalvelumme henkilöstö
on tottunut käytämään juuri tuota pakettia, jolloin he voivat
paremmin vastata myös sitä koskeviin kysymyksiin. Ei ole välttämätöntä
ostaa uusinta versiota, 5.0 Pro riittää hyvin useimpiin tarkoituksiin.
(Kolme tärkeää henkilöämme charlz, aldarondo ja JulietS
käyttävät kaikki 5.0 Pro versiota.) Sitä saa vielä
monilta ohjelmien myyjiltä paljon halvemmalla kuin uusinta versiota, ja
sitä tarjotaan usein käytettynä ebay-huutokaupassa. Vältä
Home ja Sprint versioita, mikäli mahdollista. Niistä puuttuu paljon
toimintoja, jotka tekevät työn helpoksi.
Millainen skanneri minun tulisi hankkia? On varsin monia mahdollisuuksia. Yleisesti ottaen Sinun tulisi pitäytyä tasoskannerissa. Tyypillinen tietokonekaupasta löytyvä skanneri on hieman suurempi kuin kirjekoko (tai A4 Euroopassa) ja siinä on yleensä kolme eri liitäntämahdollisuutta: SCSI, USB ja rinnakkaisportti. SCSI on nopein, mutta se saattaa vaatia lisäkortin yms. asentamisen koneeseesi. Nykyään useimmat tietokoneet on varustettu USB-liitännällä, ja nämä skannerit on varsin helppo laittaa toimintakuntoon. Rinnakkaisliitäntä on hitain vaihtoehto, mutta se saattaa olla ainut toimiva liitäntä vanhemmissa koneissa. Enenevässä määrin löytyy myös firewire- tai USB2-liitäntäisiä skannereita, mutta nämä ovat yleensä kalliimpia ja tarkoitettu erityiskäyttöön. Et todennäköisesti halua käyttää käsiskannereita, jolloinka itse joudut kuljettamaan linssin tekstisivun yli. Ne vaativat tasaisen vakaan liikkeen, mikä saattaa olla vaikeata saavuttaa kerran tai kaksi saati sitten 300 tai 400 kertaa koko kirjan osalta. Jotkut tällaiset skannerit eivät myöskän ole riittävän leveitä, jotta koko sivu voitaisiin skannata yhdellä pyyhkäisyllä, jolloin kuvat on erikseen yhdistettävä; tämä prosessi saattaa olla varsin hankala ja vaatii paljon aikaa.
Pitäisikö minun hankkia automaattisella arkinsyöttölaitteella varustettu skanneri? Tämä riippuu henkilökohtaisista mieltymyksistä. ADF voi nopeuttaa huomattavasti itse skannausta, mutta tällöinhän kirjan sivut on PAKKO irrottaa ja kirja siis tuhota, joten menetelmä ei ole järkevä harvinaisten ja arvokkaiden kirjojen kohdalla. ADF on monesti mahdollista hankkia erikseen tavallisiin skannereihin ja asentaa sekä irrottaa tarpeen mukaan, joten vaikka Sinulla olisikin sellainen, ei sitä ole pakko käyttää. Mikäli voit perustella lisäkustannukset, se saattaa helpottaa ja nopeuttaa työtäsi, mutta ei ole tarkasti ottaen välttämätön.
Millainen skanneri charlzilla on? Fujitsu FI-4340C, jossa on väri ja kaksoistaso sekä ADF. Toimimme (Charles Franks & Co.) niin, että revimme kirjan kannen irti (huh), leikkaamme kirjan sivujen neljä reunaa (huh huh!!), sitten lähetämme kaikki sivut arkinsyöttölaitteen läpi, minkä jälkeen kirja etenee normaalisti webpalvelussamme.
Paljonko sellainen muuten maksaa? Noin USD 3500. Huh... Niinpä.
Kuvani ovat huonoja, onko korjausehdotuksia? Kaikki on kiinni siitä, mikä niissä on vialla. Skanneriohjelman oletusasetukset riittävät usein varsin hyvin. Varmistu siitä, että käytät mahdollisuuksien mukaan "teksti" tai OCR-asetuksia. Skannaa mustavalkeana, ei harmaasävynä. 300 tai 400 dpi on yleensä riittävä, ellei tekstisi ole erittäin pientä. Suuremmasta resoluutiosta seuraa yleensä vain isompi tiedosto, ja niiden käsittelystä saattaa tulla aika hankalaa. Jos kuvat ovat epäselviä tai vesittyneitä, kokeile säätää kirkkautta ylös tai alas. Kokeile eri asetuksia. Kannattaisi tehdä muutamia tekstin skannauksia ja ajaa niihin OCR-tunnistus ennen koko kirjan käsittelyä. Jos käytät Abbyytä tekstin skannaukseen, voit ehkä antaa pikemminkin Abbyyn kuin twain-ajurin kontrolloida kirkkaustasoa. Tämä mahdollistaa sopeuttavan kirkkaustason säädön aikaansaaden onnistuneen skannauksen, mutta varjopuolena on suuri nopeuden lasku erityisesti hitaammilla tietokoneilla. Muistathan painaa kirjan selkämyksen riittävän tiiviisti skannerin lasia vasten. Liiallinen sivujen kaarevuus jättää OCR-tunnistuksessa kirjaimia pois reunoista sekä lisää virheitä tekstiin.
Voinko käyttää digitaalista kameraa kuvien "skannaamiseen"? Tämä kysymys esitetään yhä useammin erityisesti nyt, kun digitaaliset kamerat ovat halventuneet ja laatu on parantunut. Vastaus on... Ehkä. Jos Sinulla on kamera, jonka voit kohdentaa tarkasti lähelle, valaista sivun hyvin ja yhtenäisesti (älä luota salamavaloihin), saat parhaan tuloksen, jos sijoitat kameran telineelle liikkeen minimoimiseksi sekä pidät huolen siitä, että sivut ovat niin tasaisen litteitä kuin mahdollista. Aseta kamera ottamaan suurella resoluutiolla "korkealaatuisia" mustavalkeita kuvia. Käännä, leikkaa ja muunna kuvasi tarpeen mukaan. Avaa OCR-ohjelma ja kokeile tekstintunnistusta. Kyllä, voit varmaankin saada käyttökelpoisia "skanneja", mutta valmistaudu melko heikkoon OCR-tarkkuuteen, ellet satu olemaan hyvin taitava tai onnekas.
Kuinka kauan kirjan skannaus kestää? Tämä riippuu skannerisi nopeudesta ja säädöistä sekä kirjan kunnosta ja koosta. Huippunopa, automaattisella arkinsyöttölaitteella (ADF) varustettu skanneri kykenee skannaamaan 400-sivuisen, hyvässä kunnossa olevan kirjan alle kymmenessä minuutissa. Tavallisella tasoskannerilla ja kääntäen sivuja manuaalisesti oikeaan rytmiin päästyäsi saat ehkä kuvan joka 20-40 sekunti eli n. 3-6 sivua minuutissa (koko aukeama kerralla), 180-360 sivua tunnissa. Kun otetaan mukaan pikku pulmat, lyhyet tauot yms, vienee 400-sivuisen kirjan skannaus kokonaisuudessaan runsaat kaksi tuntia.
Minulla on skanneri muttei sopivia kirjoja / Minulla on useita kirjoja ehdolla muttei skanneria / Minulla on kuvat kirjasta muttei OCR-ohjelmaa Jätä tätä koskeva viesti "Materiaalin tuottajat" foorumille.
Meillä on jo yli 10000 jäsentä. Varmaankin löytyy joku,
jolla on päinvastainen tilanne kuin Sinulla. Meillä ei toistaiseksi
ole mitään virallista menetelmää, jolla saattaisimme tällaiset
ihmiset yhteen. Mikäli Sinulla on sellaisia kirjoja, joita et halua takaisin,
voit ehkä lähettää ne charlzille (Charles Franks) superskannerilla
käsiteltäväksi. Lähetä hänelle foorumi- tai sähköpostiviesti
yksityiskohtien selvittämiseksi. Jos Sinulla on OCR-tunnistusta vaativia
skannerikuvia eikä foorumeilta löydy ketään halukasta, niin
JulietS tai toinen Charlesimme,
Aldarondo tai Charlz yrittää järjestää
niihin tekstintunnistuksen. Muistathan varmistua kuvien juoksevasta numeroinnista
ja oikeasta muodosta, kuten aiemmin on selitetty skannausohjeissa.
Minulla ei ole tietokonetta; Miten voin auttaa? Mitenkä muuten sait tämän FAQ:n käsiisi? Et taidakaan vähästä lannistua! Ellei muuta, niin ainahan tarvitsemme rahaa uusiin (vanhoihin) kirjoihin, uusiin ohjelmiin, uuteen superskanneriin charlzille (pikemmin kuin arvata saattaakaan nykymenolla :-) tai satunnaismenoihin. Etsi tai lahjoita kirjoja, joita joku muu voi skannata. Mene paikalliseen kirjastoon, monissa on nettiyhteydellä varustettuja tietokoneita yleisön käytössä. Voit kirjoittautua sisään ja oikolukea silloin tällöin jokusen sivun.
Käytän Linuxia, onko sille sopivaa OCR-ohjelmaa? Tarjolla on JOITAKIN ohjelmia. Ehkä pisimmälle kehittynyt kirjoitushetkellä
on Clara OCR, GPL-vapaa
OCR-ohjelma. Sen tarkkuus on kuitenkin heikko, eikä sitä voi vielä
tällä hetkellä suositella. Toivottavasti tilanne paranee kehityksen
myötä. On useita kaupallisia Unix/Linux -koneissa toimivia OCR-ohjelmia,
mutta ne ovat yleensä HYVIN kalliita (tuhansia dollareita!). Lienee parasta
liittyä yhteen jonkun Windows- tai Mac-käyttäjän kanssa,
ja pyytää häntä suorittamaan koneellaan tekstintunnistuksen.
Tai järjestä asia niin, että JulietS, aldarondo tai charlz hoitaa
OCR-tunnistuksen skannatuista kuvistasi. Linuxista puheen ollen, mitä skannereita tuetaan? On todennäköisesti tiedettävä tämä: Mitkä
skannerit ovat SANE-ajurin (Scanner Access Now Easy) kanssa yhteensopivia? Mene
tälle
sivulle ja tarkista yhteensopivuus. Onko tarjolla ilmaisia OCR-ohjelmia? Tässä muutama: http://www.simpleocr.com/ (Windows) http://www.claraocr.org/ (Linux) http://jocr.sourceforge.net/ (Linux) http://www.expervision.com/webtr6.htm (Windows) http://ftp.cityu.edu.hk/pub/chinese/ifcss/unix/ocr/omniocr2.2.README (Unix - kiinaksi) http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html (Linux) Kannattaa kuitenkin olla tietoinen siitä, että OCR-maailmassa yleensä laatu ja hinta käyvät käsi kädessä.
|