Distributed Proofreaders 528 books posted to PG from DP!   Visit DP-INT 
  DP » Смернице за скенирање, пред-обраду и подношење сајту
ID: Password:  ·  Register ·  Help 
 

Смернице за скенирање, пред-обраду и подношење сајту

      FAQ за скенирање


Ето, достигли сте ранг "Изванредног коректоре" и желели бисте да се опробате и у некој другој арени.
Или можда кориговање једноставно није за вас али бисте још увек желели да помогнете сајту.
Можда постоји нека књига коју жарко желите да видите на Пројекту Гутенберг.
Који год да је разлог у питању, пре или касније дође време када питате:   "Како уопште могу да поднесем текст Дистрибуираним коректорима?"

Ове смернице су зато ту, да би вам помогле у том процесу.

Напомињемо да не морате нужно да све те кораке обавите сами. Сасвим је могуће обавити неке кораке и резултате предати неком другом. [Али морамо да опишемо како да пронађете тог "неког другог".] Такође можете да одаберете да управљате пројектом једном када су потребни фајлови послати на сервер ДК. Погледајте FAQ за управнике пројеката за детање.


Често постављана питања - (засебна страница) Нека честа питања која су везана за скенирање, оптичке читаче текста итд. која овде нису обрађена.


Какве књиге желите за Дистрибуиране коректоре?
Где да пронађем књигу ради обраде?
Како да будем сигуран/на да је књига погодна?
ОК, имам књигу, имам одобрење; шта сада?
Ух! Фајлови са сликама су готови! Шта је следеће?
Шалите се! Још није готово?
ОК, сад јесте готово, како да поднесем пројекат?
Користан софтвер


Какве књиге желите за Дистрибуиране коректоре?

Какве књиге имате? :-)

Озбиљно, заиста има мало рестрикција по питању врсте текста који можете поднети ДК. Највећа, и вероватно и најбитнија, јесте: књига МОРА бити или у јавном власништву или са истеклим ауторским правима. То у суштини најчешће значи књиге које су написане пре 1923. Постоје изузеци из правила 1923, али доста често је заморно да покушате то да докажете. Постоји добра, детаљна дискусија о томе шта јеста а шта није погодна књига на пројекту Гутенберг на овој страници. За дискусију о условима ауторских права у другим земљама, погледајте ову страницу.
Каталог библиотеке Конгреса је сјајно место за проверу датума изфавања књига издатих у САД.

Књига не треба већ да постоји на пројекту Гутенберг. Овај сајт постоји као сајт за пружање материјала пројекту Гутенберг, и нема смисла потрошити пуно времена и труда на књигу коју пројекат Гутенберг већ има. Међутим, друга верзија књиге која већ постоји је у реду. Можете проверити страницу за претрагу пројекта Гутенберг да видите да ли нека књига тамо већ постоји.

Такође постоји сајт који се зове Давидов списак дела у току на којем су наведене све књиге на којима људи тренутно раде. То је такође корисно, да би се избегао двоструки труд. Уколико пронађете вашу књигу на списку али датум одобравања је од пре више од годину дана, вероватно је у реду да ту књигу ипак почнете да радите. [Стварно? -JMD]

Можда би било добро да одаберете краће прозно дело за први пројекат који ћете поднети. Имајте у виду да се, након што књига прође кроз процес кориговања, са малим изузецима, од особе која је књигу поднела сајту очекује и да је пост-коригује. Уколико не можете или не желите да се бавите процесом пост-кориговања, треба то да нагласите у тренутку када књигу подносите. (Или још боље, ПРЕ него што је поднесете.)
Вероватно би било добро да избегнете књиге са много илустрација, мапа, дијаграма, табела и слика. Премда оне чине текст занимљивим за читање, њих је скоро или потпуно немогуће приказати у ASCII коду, и текст у приличној мери губи на корисности. (Нешто такво би било боље поставити у форми фајла са скенираним сликама на "The Million Book Project"... али то је сасвим друго питање.

И текстови на не-енглеским језицима су у реду, у разумним границама. Имајте у виду да текст мора да има мост приказивања у ASCII коду, не у Unicode-у, према томе ако тај језик садржи МНОГО не-ASCII слова, то ће прилично отежати и кориговање и пост-кориговање, и помало се коси са наменом сајта ДК. Европски језици су у начелу, чини се, у реду. Грчки, Санскрит, арапски итд. представљају проблем.

Корисно је, мада не сасвим нужно, да познајете језик на којем је књига писана. Теоретски ће бити лакше током пост-кориговања да се процени из контекста да ли преломи пасуса треба да буду на прелому странице; међутим, пажљиво проверавање оригиналне књиге би требало да вам такође помогне око тога.


Где да пронађем књигу ради обраде?

Из библиотека, са бувљих пијаца, аукција, од ваших родитеља, бака и дека, из ђубрета (ЗАПАЊИЛИ бисте се шта све људи бацају!), из продавница половних књига, од пријатеља, из школе; на сваком месту које можете да смислите има књига. Боље би било да имате књигу којој ћете имати приступа све време док се ради на пројекту, да бисте могли да проверите у књизи уколико у скенирању дође до проблема или нејасноћа. (Депримирајуће честа појава.)

(Вероватно нећете пронаћи много погодних књига међу онима у вашој локалној библиотеци које се могу из ње изнети, јер већина библиотека на допушта изношење старих издања. Чак и ако успете, будите пажљиви, јер процес скенирања може бити мало груб и књига би се могла оштетити.)

Такође има много сајтова на интернету који су посвећени старим књигама, ако покушавате неку одређену да нађете:

Advanced Book Exchange
Alibris
Elephant Books
Trussel BookSearch
и стари добри
Half.com / Ebay
да побројимо тек неколико.

Такође има и много сајтова који имају књиге у форми фајлова са сликама или у .pdf формату, које се могу скинути са интернета и пропустити кроз оптички читач. Библиотеке факултета и историјска друштва делују као богати извори. То је нарочито корисно ако немате приступ скенеру или физичким књигама. Постоје и мане: обично је потребно пуно времена да се скину са интернета, нарочито преко класичне модемске конекције; немате приступа самој књизи ради провере уколико касније дође до неких проблема, и избор је ограничен. Међутим велико је плус то што не морати сами да обавите процес скенирања.

На форуму за пружање садржаја постоји дугачак списак сајтова који су потенцијални извори скенираних књига, под дискусијом "Online sources of scanned book images". Молимо вас да се придржавате смерница сваког сајта понаособ што се тиче прихваћене употребе и протокола. Не бисмо желели да будемо лоши суседи.
Ако будете књиге набавили тим путем, сматра се прикладним да се наведе извор скенираног текста када се текст поднесе на пројекат Гутенберг.


Како да будем сигуран/на да је књига погодна?

Јендом када пронађете књигу за коју мислите да би могла бити добар кандидат, прво што треба да урадите јесте да добијете доказ о слободним ауторским правима. То је одобрење, да тако кажемо, да је допуштено књигу поставити на пројекат Гутенберг, а истовремено то одобрење које добијете књигу обележава као дело у току да би други знали да је резервисана и да би се спречио двоструки труд.

Препоручени метод за подношење захтева за одобрење јесте корисничка маска на овој страници (http://beryl.ils.unc.edu/copy.html). Тамо такође можете наћи приличан број корисних савета и згодних линкова.

Ако не можете то да користите, још има неколико старијих метода на располагању, не баш цењених, али још увек употребљивих у случају нужде.

Да цитирамо FAQ пројекта Гутенберг:

Како да добијем одобрење о слободним ауторским правима?

Од јануара 2002, постоје два начина да се текст пошаље за одобрење.

Да би се послао обичном поштом, фотокопирајте предњу и задњу страну насловне стране, чак и ако је задња страна празна, напишите своју е-адресу на њој, и пошаљите фотокопије на:

MICHAEL STERN HART
405 WEST ELM STREET
URBANA, IL 61801-3231 USA

Ово се зове "Title Page & Verso", или скраћено "TP&V", и потребно је за истраживање о ауторским правима. Најбоље је да користите коверту у боји, да бисте били сигурно да је ваше писмо препознато као "TP&V".

Пошаљите е-поруку Мајклу hart@pobox.com када их пошаљете, да би знао да су на путу. Ако вам не стигне никакав одговор после недељу дана можете му писати поново да проверите шта се дешава.

Да би се послао електронском поштом, скенирајте предњу и задњу страну насловне стране, чак и ако је задња страна празна, уверите се да је слика читљива, и пошаљите слике за Greg Newby као TIFF, JPEG или GIF у средњој резолуцији.

Без обзира на то који метод користите, трабали бисте да очекујете да добијете е-поруку после око недеље, са једном линијом која садржи име аутора, наслов, ваше име и датум са речју "OK" на крају. Ово значи да је ваш текст одобрен. Ако не добијете никакав одговор, пошаљите е-писмо да проверите да ли је ваш "TP&V" уредно примљен. Ако реч на крају линије није "OK", то значи да ваш текст није одобрен.

Вероватно би било добро да не уложите много времена у књигу док не добијете одобрење.


ОК, имам књигу, имам одобрење; шта сада?

Сада треба да је скенирате.

Превише има скенера и пакета за скенирање да бисмо могли овде да дамо прецизна упутства. Уопштено, добри параметри за скенирање већине ствари би били: 300 dpi, црно-бело (а не нијансе сиве), и средња осветљеност уколико папир није баш много жут. Виша резолуција не значи нужно и боље препознавање оптичког читача, изузев у случају да је текст веома ситан. Жељени резултат су вам добре, релативно јасне слике на којима се софтвер за оптичко читање скенираног текста неће гушити.

Следећи примери и објашњења подразумевају да ви користите Abbyy Finereader. Овај FAQ се прилично концентрише на коришћење Abbyy Finereader Pro из следећих разлога:

  • То је један од популарнијих пакета за оптичко читање које користе администратори ДК.
  • Веома је тачан на прилично лошим сликама а, да се не лажемо, књиге старе 100 година обично нису у сјајној форми.
  • Прилично се лако може аутоматизовати за већи део процеса.
  • Може се бесплатно користити 30 пробних дана или 15 сати.

Abbyy Finereader Pro 5.0 или више (и већина других добрих програма за оптичко читање) има уграђену функционалност скенирања и допустиће вам да аутоматизујете процес у великој мери. У Abbyy Finereader Pro, да бисте отворили нови беч, кликните на File->New Batch, (Ctrl+N) и дајте му одговарајући назив. (Скраћени наслов књиге би био добар избор.) То је место у којем Finereader чува све међу-фајлове пројекта. Вероватно би било добро да направите засебни беч директоријум у који ћете смештати све своје бечеве.

У ствари, кад смо већ код тога, хајде мало да причамо о структури директоријума. Увек је добра идеја користити логичну структуру директоријума да бисте ствари држали под контролом. Не постоји "исправан" нити "погрешан" начин да се то уради; то углавном зависи од личних афинитета. Међутим, да бисте могли да користите неке од опција алатки које су написане да би олакшале ствари, мора се поштовати одређена структура.

Почињемо од одговарајућег места у вашој структури директоријума (у овом примеру приказаног као "C:\", а ви одаберите место које вама одговара). Направите два директоријума, "Batch" и "Projekti".

Сваки пут када у Finereader-у почнете нови беч, аутоматски се генерише директоријум у којем се чувају сирови подаци о сликама и тексту, под називом који ви одредите. Снимите то под директоријумом "Batch".

Под директоријумом "Projekti", направите нови директоријум. Дајте му исто име као што сте дали беч фајлу Finereader-а. Под тим директоријумом, направите још неколико директоријума: "png", "textw" и "textwo". Ту ћете снимати фајлове са сликама и текстом које добијете из Finereader-а. "Textw" је за текстове са преломима редова, а "textwo" за текст без прелома редова. О томе ћемо више мало касније.

Ево мале графике као пример. Претпоставимо да се књига зове Књига1:

Структура директоријума


Неки људи воле да стављају беч из Finereader-а у исти директоријум као и png и текст директоријуме, да би их лакше држали под контролом. То је сасвим у реду ако се вама тако више свиђа. Лично нахођење и комфор овде играју велику улогу.

Када направите беч директоријум, у Finereader-у одаберите File->Scan Multiple images (Ctrl+Shift+K) да бисте почели да скенирате књигу. Одавде па на даље ће процедура веома да се разликује у зависности од тога које опције ваш скенер нуди (аутоматско убацивање докумената или не), и од ваших личних склоности (да потврдите сваку скенирану слику или да имате одређену паузу између два скенирања). Очигледно је да ће се други пакети разликовати, и најбоље би било да прочитате фајлове са помоћи који иду уз пакет који користите.

Уколико могу да стану на плочу скенера, скенирајте "двоструке" слике (две странице књиге у једној слици), пошто ћете на тај начин убрзати процес скенирања. Покушајте да код свкг скенирања поставите књигу на исто место на скенеру (на пример у сам ћошак). Тиме ћете олакшати опсецање (кроповање) и раздвајање слике.

Опсеците слике, ако треба, да бисте минимизирали црне ивице око слике странице. Ако добијате ВЕЛИКЕ црне ивице око слике странице, вероватно би требало да подесите "прозор" за скенирање на мањи формат, да бисте избегли скенирање изван саме површине књиге на плочи скенера. Тиме ћете уштедети време - скенер не мора да скенира тако велику област, и простор на диску - мањи фајлови. Немојте опсецати слику толико да оставите премалу или никакву маргину око текста, јер то може утицати на препознавање и ствара потешкоће током процеса кориговања. У идеалном случају, треба да добијете мало белог простора око текста, али да нема црног.

Ако имате двоструке слике, поделите их у засебне (појединачне) слике страница. Обично има два једноставна начина да се добију појединачне слике страница од двоструких:

  • Уколико ваш програм за скенирање има опцију да аутоматски раздваја слике како их скенира, подесите ту опцију. (Finereader може то да ради, под условом да има мало белог простора између страница.)
  • Користите PRTK (погледајте помоћ за PRTK). Ако сте књигу држали на истом месту на скенеру приликом сваког скенирања, PRTK може лако да подели слике.
Ако је било шта нејасно, најбоље је направити неколико пробних скенирања.

Када снимате фајлове са сликама, снимите их као црно-беле слике, а не у боји или у нијансама сиве; вероватно ће вам требати слике у формату ".tif" или ".png". Касније ће вам ТРЕБАТИ фајлови у формату ".png", па ако ваш софтвер за оптичко читање може да их обрађује, можда би било боље да одмах користите тај формат. Немојте их снимати као jpeg (лош формат) или као .bmp битмапе (огромни фајлови). У Finereader-у, да бисте снимили све фајлове са сликама одједном, прво их све селектујте (кликните у прозор са малецким сличицама сваке слике и притисните Ctrl+A) и онда одаберите File->Save Images (F12) и свакако дајте име сликама јер се не убацује назив беча аутоматски. Снимиће их у низу са датим именом, цртицом, и четвороцифреним бројем. (Knjiga1 - 0001.png, Knjiga1 - 0002.png... итд.) Снимите их у директоријум Projekti\Knjiga1\png.

ВЕОМА ВАЖНО! Проверите да су називи фајлова по реду, и поређани абецедним редоследом (што Finereader ради аутоматски ако су странице убациване правилним редоследом). Ако ваш пакет то допушта, било би најбоље да фајловима дате називе "001.png (или .tif), 002.png, 003.png, итд.". (Finereader то не ради, мораћете касније да их преименујете у процесу пред-обраде. Даће им редне бројеве али не баш у формату који је нама потребан.) На тај начин ће се лакше водити рачуна о редоследу и избећи рупе у систему именовања (а свеједно ћете морати после да их убаците у тај формат).

За етекстове/.pdf фајлове, треба да завршите на истом месту. Ако су слике страница у форми .tif, .gif, или .png-ова засебних страница, треба да их скинете са сајта, да их конвертујете у .png и да проверите да ли су називи фајлова у правилном формату. Ако имате слике вишеструких страница, можда ћете морати прво да их раздвојите. Са .pdf фајловима ћете морати да користите једну од опција софтвера да бисте извукли .tif (обично) слике из .pdf фајла.

Напомена: Abbyy Finereader OCR 6.0 може да ради директно са .pdf фајловима. Не морате прво да извучете слике. Ако успоставите беч, извлачиће .tif слике директно у беч директоријум док учитава .pdf фајлове. Њих онда можете конвертовати у .png за каснију употребу.



Ух! Фајлови са сликама су готови! Шта је следеће?

Сада морате да пропустите слике кроз оптички читач текста са скенираних слика. Опет, има превише програма те врсте да бисмо могли да дамо корисна специфична упутства за сваки од њих понаособ. Мораћете да завршите на истом месту мада ће пут којим будете дошли до тог места можда бити другачији.

Ако немате пакет за оптичко читање текста, покушајте да се удружите са неким ко има: поставите поруку о томе на форуму за пружање садржаја. Вероватно ће вам неко радо помоћи.

Под претпоставком да ИМАТЕ софтвер за оптичко читање...

Ако сте користили Finereader за скенирање, већ сте направили беч и слике су већ у њему.

Ако не, отворите Abbyy FR OCR. Кликните на File->New Batch, (Ctrl+N) и дајте му одговарајући назив. Кликните на File->Open Image,(Ctrl+O). Изаберите све слике и кликните на Open. Можда би било боље да прво отворите само једну или две, да бисте се уверили да све ради како треба, па да да творите све остале. Покушајте да водите рачуна о томе да их изаберете редоследом којим треба. Ако су тако именовани фајлови да ће се исправно сортирати абецедним распоредом, можете их изабрати све одједном.
У зависности од тога колико фајлова имате, у којем су формату фајлови и брзине вашег рачунара, биће потребно од неколико секунди до неколико сати да се учитају сви фајлови.

Када сви фајлови са сликама буду прочитани, проверите слике у беч прозору. Ако нису у правилном редоследу, у Abbyy 6.0 можете пренумерисати слике у менију "Batch Processing". У Abbyy 5.0 ово није тривијално. Било би боље да почнете правим редоследом.

Проверите како су подешене опције у "Tools->Options". Изаберите прави језик за ваш текст. Притисните (Ctrl-shift-R) или иконицу "read all" да бисте започели секвенцу оптичког читања, и онда идите на (обично) малу паузу. Такође постоји опција под менијем "Process" којом се обавља обрада у позадини, што значи да можете да минимизирате прозор и радите нешто друго док чекате.

За комплексне странице или странице пуне текста и илустрација, можда ће бити потребно нешто додатног рада. ABBYY Finereader покушава да анализира распоред странице док врши оптичко читање текста. За просте странице са два ступца обично исправно процени распоред, али ако су ступци испрекидани са табелама, илустрацијама итд. скоро ће сигурно погрешити.
 
Могу се исцртати оквири на скенираној слици да би се показало ABBYY Finereader-у које делове текста треба да групише заједно. Једном када су оквири исцртани, можете одредити како ће их ABBYY Finereader распоредити у прочитаном тексту. Да бисте исцртали оквире, кликните на иконицу са оквиром на врху иконица дуж леве ивице прозора. То је обично подразумевана опција, тако да можда неће ни бити потребе да кликнете на ту иконицу. Пронађите тачку од које почињете, држите притиснут тастер на мишу и вуците миша док оквир не буде одговарајуће величине. Оквир можете детаљно подесити у повећаној слици на дну прозора. Ако оквире исцртате оним редом којим желите да буду обрађени онда не морате ништа више да урадите, само притисните Ctrl-R и пустите програм да оптички прочита текст. Међутим, понекад није згодно исцртати оквире одговарајућим редоследом. Можете одредити редослед којим желите да оквири буду обрађени тако што ћете кликнути на иконицу 123 са леве стране прозора. Онда кликћите на оквире са текстом и илустрацијама оним редоследом којим желите да тече обрада. Бројеви на оквирима ће се променити и показивати редослед којим ће бити сложени после обраде. Напомињемо да се током самог читања оквири можда неће обрађивати редоследом који сте ви одредили, али ће резултат бити исправно поређан.
 
Када вршите оптичко читање на великом, компликованом пројекту, добра је идеја да пустите програм да прочита све странице, па онда да прођете кроз њих и баците кратак поглед на сваку страницу понаособ да бисте видели да ли јој треба ручна дорада. Можете се прилично брзо кретати са странице на страницу коричћењем тастера Alt и стрелице на доле. Када спазите неку страницу која није добро прочитана, можете обрисати или само прочитани текст или и текст и оквире за текст, у зависности од тога колико је лоше испало читање. Поправите или поново исцртајте оквире и поправите редослед по потреби, и идите на следећу страницу. Ако вам је укључена обрада у позадини, обављаће се поновно читање те странице док ви тражите следећу проблематичну.
 
Такође напомињемо да можете одредити различите језике за различите оквире са текстом, али, барем у Finereader 5.0, морате ручно да мењате језик сваки пут, и сваки оквир мора бити прочитан у правом редоследу, па то захтева прилично времена.
 
Код компликованог пројекта, ако убедите Finereader да исправно групише текст и прикаже га у правом редоследу уштедећете коректорима МНОГО времена. ВЕОМА се исплати уложити додатни труд и исправно одрадити фазу оптичког читања текста.

Када то завршите, треба да снимите фајлове са текстом да би се они даље обрађивали. Зависно од тога које ћете алатке користити у пред-обради, формати и локације на којима ћете их снимати ће се разликовати. Да бисте користили guiprep / winprep script (веома препоручљиво) или cleanup script, мораћете да урадите нешто овако:

Одељак из приручника за guiprep, који се добија уз guiprep script:

Припремање фајлова са текстом:

Извлачење RTF обележја:

Да бисте употребили опцију за уклањање цртица коју овај скрипт нуди, МОРАТЕ да снимите текст из ABBYY FineReader-а (а можда и из других пакета за оптичко читање; требало би да функционише уколико производе стандардне, добро форматизоване .rtf фајлове) два пута у два различита директоријума. Под претпоставком да имате директоријум за пројекте под називом "PROJECT", под тим директоријумом ће вам требати два директоријума, "textw" и "textwo". "textw" је за текстове са преломом редова, а "textwo" је за текстове без прелома редова.

У ABBYY FineReader, након што све ваше слике буду учитане и оптички прочитане, изаберите File => Save Text As; искочиће оквир за текст.


У директоријуму "textw", снимите текст са опцијама: Rich text Format, Create a separate file for each page, Retain font and font size. На RTF табу под Formats Settings, обележите Keep page breaks и Keep line breaks и укините било шта друго што је обележено. Није важно како подесите назив фајла. Назив вашег беча је вероватно сасвим у реду.

У директоријуму "textwo", снимите текст са опцијама: Save as type Rich text Format, Create a separate file for each page,Retain font and font size. На RTF табу под Formats Settings, обележите Keep page breaks и Remove optional hyphens и укините било шта друго што је обележено. Пазите да назив фајла буде исти као и у директоријуму "textw".


Коришћење скрипта безбез извлачења RTF обележја:

Ако не желите да вршите извлачење обележја (или ваш пакет за оптичко читање не подржава RTF фајлове), можете да прескочите корак снимања фајлова у RTF формату и да их снимите као прост текст. Опет, да бисте укинули цртице, треба да снимите фајлове у два директоријума, "textw" и "textwo".

Снимите текст са преломима редова у текстс. ISO Latin-1 кодна страница ће вам дати прилично добре резултате за енглески и већину европских језика. Сајт ради са ISO Latin-1 па ће то бити најмање проблематиучно уклопити у коришћене знакове. Ако имате потребе, можете пробати и друге кодне странице али будите свесни тога да се оне можда неће тако лако користити на сајту и да се можда неће добити задовољавајући резултати са неким од функција скрипта.

Директоријум текстб би требало да користи исте постављене вредности, осим што Keep line breaks не треба да буде обележено. Пазите да користите исту кодну страницу и називе фајлова и у textw и у textwo директоријуму.

Одавде се скрипт користи на потпуно исти начин, сем што прескачете рутину за извлачење обележја.


Коришћење скрипта без извлачења RTF обележја и укидања цртица:

Ако користите другачији пакет за оптичко читање који не може да снима у .rtf формату и да аутоматски спаја редове поново, можда ћете морати да прескочите те две радње. Снимите фајлове у директоријуму под називом "text" користећи исте одабране вредности као за "textw" без извлачења RTF обележја, што смо горе описали. Укините обележавање и Extract и Dehyphenate под табом Process Text. Не би шкодило ни да остану обележене те вредности, али би се скрипт бунио да не може да пронађе остале директоријуме и/или фајлове.

Ако не користите ни guiprep ни cleanup, само снимите фајлове у директоријум "text". Снимите их као прост текст (plain text), и користите празан ред за раздвајање пасуса. (Ако ваш програм за оптичко читање нема ту опцију, PRTK има алатку која вам може помоћи.) Ако користите Finereader за ваше скенирање/оптичко читање текста, Роберт има скуп снимљених опција које би вам можда могле бити корисне.


Шалите се! Још није готово?

Сада треба да извршите мало пред-обраде на тим фајловима са текстом. Алатке које будете користили ће диктирати како ћете то да обавите. Овде покривамо две главне алатке, Guiprep и PRTK.

Guiprep / Winprep:

Guiprep може да извуче обележја за писана и подебљана слова из оптички прочитаног текста (што коректорима штеди много времена), да уклања цртице за прелом речи на крају реда и да поново спаја преломљене речи у целе речи, да филтрира много, много грешака у скенирању, да преименује фајлове у формат који је потребан Дистрибуираним коректорима и да пронађе фајлове са нула бајтова, и све то ради аутоматски. Такође пружа и интерактивни механизам за уклањање заглавња који је стабилнији и наклоњенији корисницима од механизма који PRTK пружа. Приручник који иде уз скрипт је сасвим разложан и треба у њему тражити одговоре на сва питања у вези са детаљима.

 Уоштен преглед коришћења те алатке:

Отворите скрипт, и појавиће се сликовита корисничка маска. Guiprep користи табовану шему екрана, сличне функције су груписане на различитим табовима.
Корак 1: Идите на таб Change Directory. Пронађите директоријум у којем се налазе фајлови textw и textwo (или text).
Корак 2: Идите на таб Select options. Подесите одговарајуће опције за ваш текст. Подразумеване опције су вероватно добро подешене за већину текстова. Изузетке и упозорења можете наћи у приручнику.
Корак 3: Идите на таб Process Text. Изаберите које функције желите да извршите: извлачење, уклањање цртица, итд. Кликните на поље Do All Selected или само кликните на свако појединачно поље да сваку функцију обавите засебно. У оквиру за статус ће се приказивати докле је која функција стигла и поруке о грешкама ако их буде.
Корак 4: Идите на страницу за уклањање заглавња. Кликните на Get Headers да бисте добили списак заглавља из фајлова. Изаберите она која желите да буду обрисана. Кликните на remove headers. Понављајте по потреби.

Готови фајлови ће бити у директоријуму под називом "text".

Guiprep такође може аутоматски да преименује ваше .png фајлове и пружа везу са pngcrush да бисте смањили величину ваших .png фајлова без губитака и смањили величину фајлова које треба да поднесете на сајт. Такође има и уграђени FTP клијент који ће аутоматизовати већи део слања тих фајлова.

Пред-обрада завршена.

PRTK:

PRTK не може да обавља извлачење обележја нити уклањање цртица, тако да ћете морати да користите guiprep.pl за извлачење и cleanup.pl или guiprep за уклањање цртица пре него што наставите са радом са PRTK.
Да бисте користили guiprep, пратите горе наведена упутства. Да бисте користили cleanup.pl требаће вам фајлови са текстом снимљени на начин који је горе описан под насловом Коришћење скрипта без извлачења RTF обележја. Једном кад то обавите, прекопирајте cleanup.pl у директоријум у којем се налазе textw и textwo, и онда га извршите. Обавиће уклањање цртица у тим фајловима, и снимиће их у директоријум под називом "text", креирајући га ако буде потребно.

Када је и то обављено, треба да покренете PRTK и обавите следећи део посла, али пре него што почнете, PRTK се не сналази најбоље са фајловима са нула бајта. Када се сусретне са таквим фајлом, обично се закочи у умре страшном смрћу. Према томе, треба да се осигурате да не буде фајлова са нула бајта међу вашим фајловима са текстом. Идите на директоријум где су снимљени текст фајлови. Подесите view тако да видите величине фајлова, и онда сортирајте фајлове од најмањег ка највећем. Погледајте најмањи фајл са текстом. Ако је већи од нула бајтова онда је у реду, а ако не, отворите фајл помоћу неког текст процесора и НЕШТО убаците унутра. "Празна страна" је популарно. (Аха! Дакле зато се оне појављују понекад кад корисгујем странице!) У ствари, било би добро да убаците два реда нечега унутра да бисте себе поштедели мука касније.
Нешто попут:

НАСЛОВ
Празна страница

Само да не буде више нула бајтова. Урадите то за све .txt фајлове са нула бајта, и онда их снимите као прост текст.

Ако то нисте већ урадили, мораћете да преименујете фајлове са сликама у формат 001.png, 002.png, 003.png....итд. без рупа и прескочених бројева у низу, ИСТИМ редоследом као и у књизи. МОРАТЕ да имате почетне нуле и МОРА име фајла да се састоји само из цифара. PRTK има алатку која вам омогућава да преименујете фајлове са сликама и/или текстом. Кликните на мени Tools и идите на File Renamer. Овим ће се отворити мало шкрт дијалог који ће вам омогућити да урадите управо то. (Или, ако вам се то више свиђа, можете да користите и неку другу алатку, 1-4a Renamer у одељку са софтвером је баш фина.) Када то буде обављено, урадите исто то са фајловима са текстом. Ако ваша књига има више од 1000 страница, (!!) поделите је у два приближно једнака дела и поднесите је као два засебна пројекта за корак кориговања, па је поново склопите у току пост-кориговања.

Сада би требало да имате фајлове са сликама и фајлове са текстом, са називима у исправном формату и са одговарајућим бројевима који указују на исту страницу (један фајл са сликом, један са текстом за сваку страницу у књизи). Проверите неколико парова насумице; ако се не слажу, треба да откријете зашто и да то средите пре него што поднесете текст. Проверите да ли има подједнак број фајлова са сликама и фајлова са текстом.

У PRTK-у, отворите Processing->Text Batch Pre-Proofing. На дну оквира за текст пронађите или ручно откуцајте директоријум који садржи фајлове са текстом. Углавном је безбедно оставити подразумеване опције које су већ обележене. Међутим, то можда неће бити добро за неке стране језике или стручне текстове. Можда ћете морати да експериментишете да бисте пронашли одговарајући скуп опција. Већина њих је јасна сама по себи. Једина опција којој је заправо потребно додатно објашњавање јесте поње "Remove Headers". Проверите да ли је опција за директоријум подешена за исправан директоријум, па кликните на "Enter Headers".
Кликните на "Read Headers". То ће вам показати горњи ред сваког фајла са текстом. Одаберите оквир за штиклирање поред сваког којег желите да се отарасите. Обично је лакше кликнути на "Select All" па онда укинути штиклирање код оних које НЕ желите да избришете. (Ево зашто је потребан онај ред у фајловима од нула бајтова.) Када будете задовољи са оним што сте одабрали, кликните на "Insert". Онда кликните на "Done". Онда притисните "Start".

Пред-обрада завршена.


ОК, сад јесте готово, како да поднесем пројекат?

Уколико вам је ово први пут да подносите неки пријекат и/или нисте управник пројекта, пошаљите приватну поруку или е-писмо JulietS, у којем стоје аутор, наслов итд и, у идеалном случају, одобрење, и било које коментаре које бисте желели да ставите на страницу са коментарима о пројекту. Свакако ставите и ваше име и контакт адресу за е-писма (уколико се разликује од адресе са које шаљете). Они ће вас контактирати са FTP адресом и називом директоријума на који можете да поставите фајлове са сликама и текстом. Користите FTP клијент за постављање свих .png и .txt фајлова које сте генерисали у тај директоријум. (Постоје неки бесплатни уграђени FTP клијенти у одељку за софтвер, или, guiprep комплет има уграђени FTP клијент који ће аутоматизовати део процеса.) Када то завршите, пошаљите е-писмо о томе особи која вас је контактирала. Алтернативно, ако очекујете да ћете имати неколико пројеката, можда ћете желети да пошаљете поруку JulietS и затражите да постанете управник пројеката. То ће вам отворити приступ неким од опција за креирање и управљање пројектима. Исте опште процедуре се користе и када постанете управник пројекта, само што треба да креирате сопствене странице о пројекту и да направите сопствене директоријуме за слање пројеката, а детаље о томе можете наћи на страници за управнике пројеката.

У овом тренутку вероватно можете безбедно да обришете беч директоријум који је Finereader користио под директоријумом "Беч". Увек можете поново да га генеришете из фајлова са сликама ако вам то буде потребно. Фајлове са сликама и текстом сачувајте барем док књига не буде пост-коригована и док не буде постављена на пројекат Гутенберг да бисте могли да их користите, ако буде потребно, нарочито ако ћете ви сами да обављате процес пост-кориговања.

Хеј! То је било забавно, хајде да урадимо још једну! :-)

Имајте на уму да, након што је текст прошао кроз сајт, вама припада задатак пост-кориговања... Погледајте FAQ за пост-кориговање за више детаља о томе.


Користан софтвер

Софтвер за скенирање / оптичко читање текста са скенираних слика:

Abbyy Finereader Комерцијалан [Win32, Mac] - тренутна верзија 6.0 - Софтвер за оптичко читање. Веома добар :-) Прилично скуп :-( Бесплатан пробни период :-)
Роберт Роу има скуп снимљених опција који би вам могао бити користан.

5.0 Pro је много јефтинији од 6.0 и још увек се може наћи (мада не директно од Abbyy софтвера) и обавља све што је потребно. Међутим, ако можете, држите се верзије Pro, јер верзије Home и Sprint не нуде потребне могућности. Добар је за скенирање, мада је мало пробирљив по питању тога које скенере подржава.

Алатке за обраду текст фајлова:


Guiprep / Winprep Слободни [Perl - Win32] Комплет алатки који је направљен по узору на PRTK али је подешен посебно за пред-обраду текст фајлова за употребу на сајту Дистрибуираних коректора. Аутоматско извлачење обележја, уклањање цртица, филтрирање, преименовање и још тога.

Та два програма (Guiprep/Winprep) користе исти код. Koristite Guiprep ако имате perl на вашем рачунару. Winprep користите само ако немате perl. МНОГО је већи а у суштини је потпуно идентичан програм само што садржи и преводилац за perl.


cleanup.pl Free [Perl] - Perl скрипта за уклањање цртица и проверу за фајлове са нула бајтова у текст фајловима оптички прочитаног текста. Једнака функционалност са guiprep.pl.

Proofreaders Toolkit или PRTK. Бесплатан [Win32] Фина колекција алатки које су специјално прављене за кориговање, упаковане у један пакет. Специјално за ДК га је направио Роберт Роу. За оне који немају приступ рачунару који има Windows, слободно напишите е-писмо Роберту и упитајте га за помоћ. Он се добровољно понудио да пропусти ваш пројекат кроз PRTK уместо вас.

Постаје помало застарео. Више се не одржава. Неки делови су мало незгодни за коришћење, неки су мало несигурни, али је прилично обухватан комплет алатки за рад на тексту од сировог оптички прочитаног текста па до финалног производа.

Gutcheck Слободан-GPL [Dos/Win, Unix] Програм за проверу Гутенберг текстова. Потребан је за проверу усаглашености текста са Гутенберг стандардима.

Gutcheck је интегрисан у PRTK али је верзија у пакету прилично застарела. Требало би да скинете најновију верзију Gutcheck-а и да га убаците у директоријум PRTK, пишући преко већ постојећих фајлова. (Подразумевани директоријум је "C:\Program files\ProofReader's Toolkit").

Гледање и обрада слика:

Irfanview32 Бесплатан [Win32] - Фин софтвер опште намене за обраду и конверзију слика.

XnView Бесплатан [Win32] - Фин софтвер опште намене за обраду и конверзију слика.

Firehand Ember Shareware [Win32] - Још један фин програм за гледање и конверзију слика.


Програми за масовно преименовање фајлова:

1-4a-Rename Freeware [Win32] Фин програм који се лако конфигурише за преименовање беч фајлова. Веома лак за употребу.

Renamer Freeware [Win32] Још један користан програм за преименовање беч фајлова.


Алатке за архивирање и компресију фајлова:

7.zip Слободан-GPL [win32, Unix] Бесплатан програм за декомпресију .zip архива.

ICEOWS  Freeware [Win32] Врши компресију фајлова у ICE и ZIP формату и декомпресију малтене било којег чешћег форматa. Постоје корисничке маске на многим језицима.

Info-ZIP Слободан-BSD [Скоро сви оперативни системи и платформе] Скуп алатки за рад са фајловима у zip формату. Нуди подршку за велики број оперативних система и платформи.

FILZIP Freeware [Win32] Лак рад кликом са компримованим фајловима. GUI корисничка маска. Извлачење вишеструких фајлова. Пуно згодних опција.

WinZip Shareware [Win32] Програм за креирање и извлачење .zip архива. Бесплатан пробни период.

FTP алатке:

WS_FTP LE Shareware [Win32] FTP клијент лак за коришћење. Бесплатан за некомерцијалну употребу.

Smart FTP Shareware [Win32] Још један FTP клијент лак за коришћење. Бесплатан за некомерцијалну употребу.

Други програми:

Xpdf Слободан-GPL [Dos/Win Unix] Програми за извлачење слика или текста из .pdf фајлова, између осталог.

convert-to-dp Слободан-GPL [Perl] Програм за распаковање .tif или .pdf фајлова у .png фајлове, за опсецање (кроповање) слика а такође и за раздвајање двоструких скенираних страница у два засебна фајла.




 
Copyright Distributed Proofreaders (Page Build Time: 0.103) Report a Bug