|
528 books posted to PG from DP!
|
| DP » Смернице за скенирање, пред-обраду и подношење сајту |
Смернице за скенирање, пред-обраду и подношење сајтуЕто, достигли сте ранг "Изванредног коректоре" и желели бисте да се
опробате и у некој другој арени. Ове смернице су зато ту, да би вам помогле у том процесу. Напомињемо да не морате нужно да све те кораке обавите сами. Сасвим је могуће обавити неке кораке и резултате предати неком другом. [Али морамо да опишемо како да пронађете тог "неког другог".] Такође можете да одаберете да управљате пројектом једном када су потребни фајлови послати на сервер ДК. Погледајте FAQ за управнике пројеката за детање. Често постављана питања - (засебна страница) Нека честа питања која су везана за скенирање, оптичке читаче текста итд. која овде нису обрађена.
Какве књиге желите за Дистрибуиране коректоре? Какве књиге имате? :-) Озбиљно, заиста има мало рестрикција по питању врсте текста који можете
поднети ДК. Највећа, и вероватно и најбитнија, јесте: књига МОРА бити или
у јавном власништву или са истеклим ауторским правима. То у суштини
најчешће значи књиге које су написане пре 1923. Постоје изузеци из
правила 1923, али доста често је заморно да покушате то да докажете.
Постоји добра, детаљна дискусија о томе шта јеста а шта није погодна књига
на пројекту Гутенберг на
овој страници. За
дискусију о условима ауторских права у другим земљама, погледајте
ову
страницу. Књига не треба већ да постоји на пројекту Гутенберг. Овај сајт постоји као сајт за пружање материјала пројекту Гутенберг, и нема смисла потрошити пуно времена и труда на књигу коју пројекат Гутенберг већ има. Међутим, друга верзија књиге која већ постоји је у реду. Можете проверити страницу за претрагу пројекта Гутенберг да видите да ли нека књига тамо већ постоји. Такође постоји сајт који се зове Давидов списак дела у току на којем су наведене све књиге на којима људи тренутно раде. То је такође корисно, да би се избегао двоструки труд. Уколико пронађете вашу књигу на списку али датум одобравања је од пре више од годину дана, вероватно је у реду да ту књигу ипак почнете да радите. [Стварно? -JMD] Можда би било добро да одаберете краће прозно дело за први пројекат који
ћете поднети. Имајте у виду да се, након што књига прође кроз процес
кориговања, са малим изузецима, од особе која је књигу поднела сајту
очекује и да је пост-коригује. Уколико не можете или не желите да се
бавите процесом пост-кориговања, треба то да нагласите у тренутку када
књигу подносите. (Или још боље, ПРЕ него што је поднесете.) И текстови на не-енглеским језицима су у реду, у разумним границама. Имајте у виду да текст мора да има мост приказивања у ASCII коду, не у Unicode-у, према томе ако тај језик садржи МНОГО не-ASCII слова, то ће прилично отежати и кориговање и пост-кориговање, и помало се коси са наменом сајта ДК. Европски језици су у начелу, чини се, у реду. Грчки, Санскрит, арапски итд. представљају проблем. Корисно је, мада не сасвим нужно, да познајете језик на којем је књига писана. Теоретски ће бити лакше током пост-кориговања да се процени из контекста да ли преломи пасуса треба да буду на прелому странице; међутим, пажљиво проверавање оригиналне књиге би требало да вам такође помогне око тога. Где да пронађем књигу ради обраде? Из библиотека, са бувљих пијаца, аукција, од ваших родитеља, бака и дека, из ђубрета (ЗАПАЊИЛИ бисте се шта све људи бацају!), из продавница половних књига, од пријатеља, из школе; на сваком месту које можете да смислите има књига. Боље би било да имате књигу којој ћете имати приступа све време док се ради на пројекту, да бисте могли да проверите у књизи уколико у скенирању дође до проблема или нејасноћа. (Депримирајуће честа појава.) (Вероватно нећете пронаћи много погодних књига међу онима у вашој локалној библиотеци које се могу из ње изнети, јер већина библиотека на допушта изношење старих издања. Чак и ако успете, будите пажљиви, јер процес скенирања може бити мало груб и књига би се могла оштетити.) Такође има много сајтова на интернету који су посвећени старим књигама, ако покушавате неку одређену да нађете: Advanced Book Exchange Такође има и много сајтова који имају књиге у форми фајлова са сликама
или у .pdf формату, које се могу скинути са интернета и пропустити кроз
оптички читач. Библиотеке факултета и историјска друштва делују као богати
извори. То је нарочито корисно ако немате приступ скенеру или физичким
књигама. Постоје и мане: обично
је потребно пуно времена да се скину са интернета, нарочито преко класичне
модемске конекције; немате приступа самој књизи ради провере уколико
касније дође до неких проблема, и избор је ограничен. Међутим велико је
плус то што не морати сами да обавите процес скенирања. На форуму за пружање садржаја постоји дугачак списак сајтова који су
потенцијални извори скенираних књига, под дискусијом "Online sources of
scanned book images". Молимо вас да се придржавате смерница сваког
сајта понаособ што се тиче прихваћене употребе и протокола. Не бисмо
желели да будемо лоши суседи. Како да будем сигуран/на да је књига погодна? Јендом када пронађете књигу за коју мислите да би могла бити добар
кандидат, прво што треба да урадите јесте да добијете доказ о слободним ауторским правима.
То је одобрење, да тако кажемо, да је допуштено књигу поставити на
пројекат Гутенберг, а истовремено то одобрење које добијете књигу
обележава као дело у току да би други знали да је резервисана и да би се
спречио двоструки труд. Препоручени метод за подношење захтева за одобрење јесте корисничка
маска на овој страници
(http://beryl.ils.unc.edu/copy.html). Тамо такође можете наћи приличан
број корисних савета и згодних линкова. Ако не можете то да користите, још има неколико старијих метода на
располагању, не баш цењених, али још увек употребљивих у случају
нужде. Да цитирамо FAQ пројекта Гутенберг:
Вероватно би било добро да не уложите много времена у књигу док не добијете одобрење. ОК, имам књигу, имам одобрење; шта сада? Сада треба да је скенирате. Превише има скенера и пакета за скенирање да бисмо могли овде да дамо прецизна упутства. Уопштено, добри параметри за скенирање већине ствари би били: 300 dpi, црно-бело (а не нијансе сиве), и средња осветљеност уколико папир није баш много жут. Виша резолуција не значи нужно и боље препознавање оптичког читача, изузев у случају да је текст веома ситан. Жељени резултат су вам добре, релативно јасне слике на којима се софтвер за оптичко читање скенираног текста неће гушити. Следећи примери и објашњења подразумевају да ви користите Abbyy Finereader. Овај FAQ се прилично концентрише на коришћење Abbyy Finereader Pro из следећих разлога:
Abbyy Finereader Pro 5.0 или више (и већина других добрих програма за оптичко читање) има уграђену функционалност скенирања и допустиће вам да аутоматизујете процес у великој мери. У Abbyy Finereader Pro, да бисте отворили нови беч, кликните на File->New Batch, (Ctrl+N) и дајте му одговарајући назив. (Скраћени наслов књиге би био добар избор.) То је место у којем Finereader чува све међу-фајлове пројекта. Вероватно би било добро да направите засебни беч директоријум у који ћете смештати све своје бечеве. У ствари, кад смо већ код тога, хајде мало да причамо о структури
директоријума. Увек је добра идеја користити логичну структуру
директоријума да бисте ствари држали под контролом. Не постоји "исправан"
нити "погрешан" начин да се то уради; то углавном зависи од личних
афинитета. Међутим, да бисте могли да користите неке од опција алатки које
су написане да би олакшале ствари, мора се поштовати одређена
структура. Почињемо од одговарајућег места у вашој структури директоријума (у овом
примеру приказаног као "C:\", а ви одаберите место које вама одговара).
Направите два директоријума, "Batch" и "Projekti". Сваки пут када у Finereader-у почнете нови беч, аутоматски се генерише
директоријум у којем се чувају сирови подаци о сликама и тексту, под
називом који ви одредите. Снимите то под директоријумом "Batch". Под директоријумом "Projekti", направите нови директоријум. Дајте му
исто име као што сте дали беч фајлу Finereader-а. Под тим директоријумом,
направите још неколико директоријума: "png", "textw" и "textwo". Ту
ћете снимати фајлове са сликама и текстом које добијете из Finereader-а.
"Textw" је за текстове са преломима редова, а "textwo" за текст без
прелома редова. О томе ћемо више мало касније. Ево мале графике као пример. Претпоставимо да се књига зове
Књига1: Неки људи воле да стављају беч из Finereader-а у исти директоријум као и png и текст директоријуме, да би их лакше држали под контролом. То је сасвим у реду ако се вама тако више свиђа. Лично нахођење и комфор овде играју велику улогу. Када направите беч директоријум, у Finereader-у одаберите File->Scan Multiple images (Ctrl+Shift+K) да бисте почели да скенирате књигу. Одавде па на даље ће процедура веома да се разликује у зависности од тога које опције ваш скенер нуди (аутоматско убацивање докумената или не), и од ваших личних склоности (да потврдите сваку скенирану слику или да имате одређену паузу између два скенирања). Очигледно је да ће се други пакети разликовати, и најбоље би било да прочитате фајлове са помоћи који иду уз пакет који користите. Уколико могу да стану на плочу скенера, скенирајте "двоструке" слике (две странице књиге у једној слици), пошто ћете на тај начин убрзати процес скенирања. Покушајте да код свкг скенирања поставите књигу на исто место на скенеру (на пример у сам ћошак). Тиме ћете олакшати опсецање (кроповање) и раздвајање слике. Опсеците слике, ако треба, да бисте минимизирали црне ивице око слике странице. Ако добијате ВЕЛИКЕ црне ивице око слике странице, вероватно би требало да подесите "прозор" за скенирање на мањи формат, да бисте избегли скенирање изван саме површине књиге на плочи скенера. Тиме ћете уштедети време - скенер не мора да скенира тако велику област, и простор на диску - мањи фајлови. Немојте опсецати слику толико да оставите премалу или никакву маргину око текста, јер то може утицати на препознавање и ствара потешкоће током процеса кориговања. У идеалном случају, треба да добијете мало белог простора око текста, али да нема црног.
Ако имате двоструке слике, поделите их у засебне (појединачне) слике
страница. Обично има два једноставна начина да се добију појединачне слике
страница од двоструких:
Када снимате фајлове са сликама, снимите их као црно-беле слике, а не у
боји или у нијансама сиве; вероватно ће вам требати слике у формату ".tif"
или ".png". Касније ће вам ТРЕБАТИ фајлови у формату ".png", па ако ваш
софтвер за оптичко читање може да их обрађује, можда би било боље да одмах
користите тај формат. Немојте их снимати као jpeg (лош формат) или као
.bmp битмапе (огромни фајлови). У Finereader-у, да бисте снимили све
фајлове са сликама одједном, прво их све селектујте (кликните у прозор са
малецким сличицама сваке слике и притисните Ctrl+A) и онда одаберите
File->Save Images (F12) и свакако дајте име сликама јер се не убацује
назив беча аутоматски. Снимиће их у низу са датим именом, цртицом, и
четвороцифреним бројем. (Knjiga1 - 0001.png, Knjiga1 - 0002.png... итд.)
Снимите их у директоријум Projekti\Knjiga1\png. За етекстове/.pdf фајлове, треба да завршите на истом месту. Ако су слике страница у форми .tif, .gif, или .png-ова засебних страница, треба да их скинете са сајта, да их конвертујете у .png и да проверите да ли су називи фајлова у правилном формату. Ако имате слике вишеструких страница, можда ћете морати прво да их раздвојите. Са .pdf фајловима ћете морати да користите једну од опција софтвера да бисте извукли .tif (обично) слике из .pdf фајла. Напомена: Abbyy Finereader OCR 6.0 може да ради директно са .pdf
фајловима. Не морате прво да извучете слике. Ако успоставите беч,
извлачиће .tif слике директно у беч директоријум док учитава .pdf фајлове.
Њих онда можете конвертовати у .png за каснију употребу. Ух! Фајлови са сликама су готови! Шта је следеће? Сада морате да пропустите слике кроз оптички читач текста са скенираних
слика. Опет, има превише програма те врсте да бисмо могли да дамо корисна
специфична упутства за сваки од њих понаособ. Мораћете да завршите на
истом месту мада ће пут којим будете дошли до тог места можда бити
другачији. Ако немате пакет за оптичко читање текста, покушајте да се удружите са неким ко има: поставите поруку о томе на форуму за пружање садржаја. Вероватно ће вам неко радо помоћи. Под претпоставком да ИМАТЕ софтвер за оптичко читање... Ако сте користили Finereader за скенирање, већ сте направили беч и слике су већ у њему. Ако не, отворите Abbyy FR OCR. Кликните на File->New Batch, (Ctrl+N)
и дајте му одговарајући назив. Кликните на File->Open Image,(Ctrl+O).
Изаберите све слике и кликните на Open. Можда би било боље да прво
отворите само једну или две, да бисте се уверили да све ради како треба,
па да да творите све остале. Покушајте да водите рачуна о томе да их
изаберете редоследом којим треба. Ако су тако именовани фајлови да ће се
исправно сортирати абецедним распоредом, можете их изабрати све
одједном. Проверите како су подешене опције у "Tools->Options". Изаберите
прави језик за ваш текст. Притисните (Ctrl-shift-R) или иконицу "read all"
да бисте започели секвенцу оптичког читања, и онда идите на (обично) малу
паузу. Такође постоји опција под менијем "Process" којом се обавља обрада
у позадини, што значи да можете да минимизирате прозор и радите нешто
друго док чекате. За комплексне странице или странице пуне текста и илустрација, можда
ће бити потребно нешто додатног рада. ABBYY Finereader покушава да
анализира распоред странице док врши оптичко читање текста. За просте
странице са два ступца обично исправно процени распоред, али ако су ступци
испрекидани са табелама, илустрацијама итд. скоро ће сигурно
погрешити.
Могу се исцртати оквири на скенираној слици да би се показало ABBYY
Finereader-у које делове текста треба да групише заједно. Једном када су
оквири исцртани, можете одредити како ће их ABBYY Finereader распоредити у
прочитаном тексту. Да бисте исцртали оквире, кликните на иконицу са
оквиром на врху иконица дуж леве ивице прозора. То је обично подразумевана
опција, тако да можда неће ни бити потребе да кликнете на ту иконицу.
Пронађите тачку од које почињете, држите притиснут тастер на мишу и вуците
миша док оквир не буде одговарајуће величине. Оквир можете детаљно
подесити у повећаној слици на дну прозора. Ако оквире исцртате оним редом
којим желите да буду обрађени онда не морате ништа више да урадите, само
притисните Ctrl-R и пустите програм да оптички прочита текст. Међутим,
понекад није згодно исцртати оквире одговарајућим редоследом. Можете
одредити редослед којим желите да оквири буду обрађени тако што ћете
кликнути на иконицу 123 са леве стране прозора. Онда кликћите на оквире са
текстом и илустрацијама оним редоследом којим желите да тече обрада.
Бројеви на оквирима ће се променити и показивати редослед којим ће бити
сложени после обраде. Напомињемо да се током самог читања оквири можда
неће обрађивати редоследом који сте ви одредили, али ће резултат бити
исправно поређан.
Када вршите оптичко читање на великом, компликованом пројекту, добра
је идеја да пустите програм да прочита све странице, па онда да прођете
кроз њих и баците кратак поглед на сваку страницу понаособ да бисте видели
да ли јој треба ручна дорада. Можете се прилично брзо кретати са странице
на страницу коричћењем тастера Alt и стрелице на доле. Када спазите неку
страницу која није добро прочитана, можете обрисати или само прочитани
текст или и текст и оквире за текст, у зависности од тога колико је лоше
испало читање. Поправите или поново исцртајте оквире и поправите редослед
по потреби, и идите на следећу страницу. Ако вам је укључена обрада у
позадини, обављаће се поновно читање те странице док ви тражите следећу
проблематичну.
Такође напомињемо да можете одредити различите језике за различите
оквире са текстом, али, барем у Finereader 5.0, морате ручно да мењате
језик сваки пут, и сваки оквир мора бити прочитан у правом редоследу, па
то захтева прилично времена.
Када то завршите, треба да снимите фајлове са текстом да би се они даље
обрађивали. Зависно од тога које ћете алатке користити у пред-обради,
формати и локације на којима ћете их снимати ће се разликовати. Да бисте
користили guiprep / winprep script (веома препоручљиво) или cleanup
script, мораћете да урадите нешто овако: Припремање фајлова са текстом: У директоријуму "textw", снимите текст са опцијама: Rich text Format, Create a separate file for each page, Retain font and font size. На RTF табу под Formats Settings, обележите Keep page breaks и Keep line breaks и укините било шта друго што је обележено. Није важно како подесите назив фајла. Назив вашег беча је вероватно сасвим у реду. У директоријуму "textwo", снимите текст са опцијама: Save as type Rich text Format, Create a separate file for each page,Retain font and font size. На RTF табу под Formats Settings, обележите Keep page breaks и Remove optional hyphens и укините било шта друго што је обележено. Пазите да назив фајла буде исти као и у директоријуму "textw". Коришћење скрипта безбез извлачења RTF обележја: Ако не желите да вршите извлачење обележја (или ваш пакет за оптичко читање не подржава RTF фајлове), можете да прескочите корак снимања фајлова у RTF формату и да их снимите као прост текст. Опет, да бисте укинули цртице, треба да снимите фајлове у два директоријума, "textw" и "textwo". Снимите текст са преломима редова у текстс. ISO Latin-1 кодна страница ће вам дати прилично добре резултате за енглески и већину европских језика. Сајт ради са ISO Latin-1 па ће то бити најмање проблематиучно уклопити у коришћене знакове. Ако имате потребе, можете пробати и друге кодне странице али будите свесни тога да се оне можда неће тако лако користити на сајту и да се можда неће добити задовољавајући резултати са неким од функција скрипта. Директоријум текстб би требало да користи исте постављене вредности, осим што Keep line breaks не треба да буде обележено. Пазите да користите исту кодну страницу и називе фајлова и у textw и у textwo директоријуму. Одавде се скрипт користи на потпуно исти начин, сем што прескачете рутину за извлачење обележја. Коришћење скрипта без извлачења RTF обележја и укидања цртица: Ако користите другачији пакет за оптичко читање који не може да снима у .rtf формату и да аутоматски спаја редове поново, можда ћете морати да прескочите те две радње. Снимите фајлове у директоријуму под називом "text" користећи исте одабране вредности као за "textw" без извлачења RTF обележја, што смо горе описали. Укините обележавање и Extract и Dehyphenate под табом Process Text. Не би шкодило ни да остану обележене те вредности, али би се скрипт бунио да не може да пронађе остале директоријуме и/или фајлове. Ако не користите ни guiprep ни cleanup, само снимите фајлове у директоријум "text". Снимите их као прост текст (plain text), и користите празан ред за раздвајање пасуса. (Ако ваш програм за оптичко читање нема ту опцију, PRTK има алатку која вам може помоћи.) Ако користите Finereader за ваше скенирање/оптичко читање текста, Роберт има скуп снимљених опција које би вам можда могле бити корисне. Сада треба да извршите мало пред-обраде на тим фајловима са текстом.
Алатке које будете користили ће диктирати како ћете то да обавите. Овде
покривамо две главне алатке, Guiprep и PRTK. Guiprep може да извуче обележја за писана и подебљана слова из оптички
прочитаног текста (што коректорима штеди много времена), да уклања цртице
за прелом речи на крају реда и да поново спаја преломљене речи у целе
речи, да филтрира много, много грешака у скенирању, да преименује фајлове
у формат који је потребан Дистрибуираним коректорима и да пронађе фајлове
са нула бајтова, и све то ради аутоматски. Такође пружа и интерактивни
механизам за уклањање заглавња који је стабилнији и наклоњенији
корисницима од механизма који PRTK пружа. Приручник
који иде уз скрипт је сасвим разложан и треба у њему тражити одговоре на
сва питања у вези са детаљима. Уоштен преглед коришћења те алатке: Отворите скрипт, и појавиће се сликовита корисничка маска. Guiprep
користи табовану шему екрана, сличне функције су груписане на различитим
табовима. Готови фајлови ће бити у директоријуму под називом "text". Guiprep такође може аутоматски да преименује ваше .png фајлове и пружа
везу са pngcrush да бисте смањили величину ваших .png фајлова без губитака
и смањили величину фајлова које треба да поднесете на сајт. Такође има и
уграђени FTP клијент који ће аутоматизовати већи део слања тих
фајлова. Пред-обрада завршена. PRTK: PRTK
не може да обавља извлачење обележја нити уклањање цртица, тако да ћете
морати да користите guiprep.pl
за извлачење и cleanup.pl
или guiprep
за уклањање цртица пре него што наставите са радом са PRTK. Када је и то обављено, треба да покренете PRTK
и обавите следећи део посла, али пре него што почнете, PRTK се не сналази
најбоље са фајловима са нула бајта. Када се сусретне са таквим фајлом,
обично се закочи у умре страшном смрћу. Према томе, треба да се осигурате
да не буде фајлова са нула бајта међу вашим фајловима са текстом. Идите на
директоријум где су снимљени текст фајлови. Подесите view тако да видите
величине фајлова, и онда сортирајте фајлове од најмањег ка највећем.
Погледајте најмањи фајл са текстом. Ако је већи од нула бајтова онда је у
реду, а ако не, отворите фајл помоћу неког текст процесора и НЕШТО убаците
унутра. "Празна страна" је популарно. (Аха! Дакле зато се оне појављују
понекад кад корисгујем странице!) У ствари, било би добро да убаците два
реда нечега унутра да бисте себе поштедели мука касније. НАСЛОВ Ако то нисте већ урадили, мораћете да преименујете фајлове са сликама у формат 001.png, 002.png, 003.png....итд. без рупа и прескочених бројева у низу, ИСТИМ редоследом као и у књизи. МОРАТЕ да имате почетне нуле и МОРА име фајла да се састоји само из цифара. PRTK има алатку која вам омогућава да преименујете фајлове са сликама и/или текстом. Кликните на мени Tools и идите на File Renamer. Овим ће се отворити мало шкрт дијалог који ће вам омогућити да урадите управо то. (Или, ако вам се то више свиђа, можете да користите и неку другу алатку, 1-4a Renamer у одељку са софтвером је баш фина.) Када то буде обављено, урадите исто то са фајловима са текстом. Ако ваша књига има више од 1000 страница, (!!) поделите је у два приближно једнака дела и поднесите је као два засебна пројекта за корак кориговања, па је поново склопите у току пост-кориговања. Сада би требало да имате фајлове са сликама и фајлове са текстом, са називима у исправном формату и са одговарајућим бројевима који указују на исту страницу (један фајл са сликом, један са текстом за сваку страницу у књизи). Проверите неколико парова насумице; ако се не слажу, треба да откријете зашто и да то средите пре него што поднесете текст. Проверите да ли има подједнак број фајлова са сликама и фајлова са текстом. У PRTK-у,
отворите Processing->Text Batch Pre-Proofing. На дну оквира за текст
пронађите или ручно откуцајте директоријум који садржи фајлове са текстом.
Углавном је безбедно оставити подразумеване опције које су већ обележене.
Међутим, то можда неће бити добро за неке стране језике или стручне
текстове. Можда ћете морати да експериментишете да бисте пронашли одговарајући
скуп опција. Већина њих је јасна сама по себи. Једина опција којој је заправо
потребно додатно објашњавање јесте поње "Remove Headers". Проверите да ли је
опција за директоријум подешена за исправан директоријум, па кликните на
"Enter Headers". Пред-обрада завршена. ОК, сад јесте готово, како да поднесем пројекат? Уколико вам је ово први пут да подносите неки пријекат и/или нисте
управник пројекта, пошаљите приватну поруку или е-писмо JulietS, у којем стоје
аутор, наслов итд и, у идеалном случају, одобрење, и било које коментаре
које бисте желели да ставите на страницу са коментарима о пројекту.
Свакако ставите и ваше име и контакт адресу за е-писма (уколико се
разликује од адресе са које шаљете). Они ће вас контактирати са FTP
адресом и називом директоријума на који можете да поставите фајлове са
сликама и текстом. Користите FTP клијент за постављање свих .png и .txt
фајлова које сте генерисали у тај директоријум. (Постоје неки бесплатни
уграђени FTP клијенти у одељку за софтвер, или, guiprep комплет има
уграђени FTP клијент који ће аутоматизовати део процеса.) Када то
завршите, пошаљите е-писмо о томе особи која вас је контактирала.
Алтернативно, ако очекујете да ћете имати неколико пројеката, можда ћете
желети да пошаљете поруку JulietS и затражите да
постанете управник пројеката. То ће вам отворити приступ неким од опција
за креирање и управљање пројектима. Исте опште процедуре се користе и
када постанете управник пројекта, само што треба да креирате сопствене
странице о пројекту и да направите сопствене директоријуме за слање
пројеката, а детаље о томе можете наћи на страници за управнике
пројеката. Хеј! То је било забавно, хајде да урадимо још једну! :-) Имајте на уму да, након што је текст прошао кроз сајт, вама припада
задатак пост-кориговања... Погледајте FAQ за
пост-кориговање за више детаља о томе. Софтвер за скенирање
/ оптичко читање текста са скенираних слика: Abbyy Finereader Комерцијалан
[Win32, Mac] - тренутна верзија 6.0 - Софтвер за оптичко читање. Веома
добар :-) Прилично скуп :-( Бесплатан пробни период :-) 5.0 Pro је много јефтинији од 6.0 и још увек се може наћи (мада не директно од Abbyy софтвера) и обавља све што је потребно. Међутим, ако можете, држите се верзије Pro, јер верзије Home и Sprint не нуде потребне могућности. Добар је за скенирање, мада је мало пробирљив по питању тога које скенере подржава.Алатке за обраду текст фајлова:
Та два програма (Guiprep/Winprep) користе
исти код. Koristite Guiprep ако имате perl на вашем рачунару. Winprep користите
само ако немате perl. МНОГО је већи а у суштини је потпуно идентичан
програм само што садржи и преводилац за perl.
Proofreaders Toolkit или PRTK. Бесплатан [Win32] Фина колекција алатки које су специјално прављене за кориговање, упаковане у један пакет. Специјално за ДК га је направио Роберт Роу. За оне који немају приступ рачунару који има Windows, слободно напишите е-писмо Роберту и упитајте га за помоћ. Он се добровољно понудио да пропусти ваш пројекат кроз PRTK уместо вас. Постаје помало застарео. Више се не одржава. Неки делови су мало незгодни за коришћење, неки су мало несигурни, али је прилично обухватан комплет алатки за рад на тексту од сировог оптички прочитаног текста па до финалног производа. Gutcheck Слободан-GPL [Dos/Win, Unix] Програм за проверу Гутенберг текстова. Потребан је за проверу усаглашености текста са Гутенберг стандардима. Gutcheck је интегрисан у PRTK али је верзија у пакету прилично застарела. Требало би да скинете најновију верзију Gutcheck-а и да га убаците у директоријум PRTK, пишући преко већ постојећих фајлова. (Подразумевани директоријум је "C:\Program files\ProofReader's Toolkit"). Гледање и обрада слика: Irfanview32 Бесплатан
[Win32] - Фин софтвер опште намене за обраду и конверзију слика. XnView Бесплатан [Win32] - Фин софтвер опште намене за обраду и конверзију слика. Firehand Ember Shareware [Win32] - Још један фин програм за
гледање и конверзију слика.
1-4a-Rename Freeware
[Win32] Фин програм који се лако конфигурише за преименовање беч фајлова.
Веома лак за употребу. Renamer Freeware
[Win32] Још један користан програм за преименовање беч фајлова. Алатке за архивирање и компресију фајлова: 7.zip Слободан-GPL [win32,
Unix] Бесплатан програм за декомпресију .zip архива. ICEOWS Freeware [Win32] Врши компресију
фајлова у ICE и ZIP формату и декомпресију малтене било којег чешћег
форматa. Постоје корисничке маске на многим језицима. Info-ZIP Слободан-BSD [Скоро сви оперативни
системи и платформе] Скуп алатки за рад са фајловима у zip формату.
Нуди подршку за велики број оперативних система и платформи. FILZIP Freeware [Win32] Лак рад кликом
са компримованим фајловима. GUI корисничка маска. Извлачење вишеструких
фајлова. Пуно згодних опција. WinZip Shareware [Win32]
Програм за креирање и извлачење .zip архива. Бесплатан пробни период. FTP алатке: WS_FTP LE Shareware
[Win32] FTP клијент лак за коришћење. Бесплатан за некомерцијалну употребу. Smart FTP Shareware [Win32] Још један FTP клијент лак
за коришћење. Бесплатан за некомерцијалну употребу. Други програми: Xpdf Слободан-GPL [Dos/Win Unix] Програми за извлачење слика или текста из .pdf фајлова, између осталог. convert-to-dp Слободан-GPL [Perl] Програм за распаковање .tif или .pdf фајлова у .png фајлове, за опсецање (кроповање) слика а такође и за раздвајање двоструких скенираних страница у два засебна фајла. |