FAQ's de Digitalização

Ver também as FAQ's do Fornecedor de Conteúdos.


Tenho de usar o Abbyy Finereader?
Que tipo de scanner devo utilizar?
Devo utilizar um scanner com um alimentador automático?
Que tipo de scanner utiliza o charlz?
Quanto custa um desses?
As minhas digitalizações não estão muito boas. Alguma sugestão?
Posso utilizar uma máquina fotográfica digital para "digitalizar" as imagens?
Quanto tempo demora a digitalizar um livro?
Tenho um scanner, mas não tenho livros que reúnam as condições necessárias /
Tenho vários livros que gostaria de submeter no sítio, mas não tenho acesso a um scanner /
Tenho as imagens de um livro, mas não tenho software para criar o OCR

Não tenho computador; Como posso ajudar?
Uso Linux. Existe alguns programas de OCR que possa usar?
Por falar em Linux, quais os scanners suportados?
Existem algumas soluções de OCR disponíveis gratuitamente?
Tenho de usar o Abbyy Finereader?

Não, claro que não. As regras de digitalização referem-no apenas porque é o mais utilizado por quem participa no sítio. Existem assim mais pessoas familiarizadas com ele para poder responder a dúvidas. Não precisa de comprar a versão mais recente. A versão 5.0 Pro é excelente para as tarefas que a maioria das pessoas necessita. (Os três grandes: charlz, aldorondo e JulietS usam a versão 5.0 Pro). Esta versão continua disponível nos vários distribuidores de software por um preço mais acessível do que o da última versão. É ainda frequente encontrá-lo à venda em segunda-mão no eBay. Evite as versões Home e Sprint se possível. Faltam-lhes muitas ferramentas que tornam o trabalho mais fácil.
Existem mais duas alternativas para além do Abbyy Finereader: OmniPage Pro 10 & 11 e Textbridge Millennium Pro. Têm ambas um bom nível de reconhecimento e funcionalidades similares até à automatização do processo de digitalização. Os detalhes variam, mas são rapidamente assimilados ao ler os ficheiros de ajuda. O software OEM oferecido gratuitamente com os scanners PODE ser usado... tenha apenas em atenção que a sua precisão é geralmente de pior qualidade, E prepare-se para gravar e formatar ficheiros manualmente.


Que tipo de scanner devo utilizar?

Bem, existem várias opções. A mais comum é um scanner de mesa. Os scanners que encontra numa loja de computadores são um pouco maior do que uma carta (ou A4 se viver na Europa), contendo uma de três interfaces: SCSI, USB e paralelas. A SCSI oferece uma maior rapidez, mas pode necessitar de um hardware adicional para se ligar ao seu computador. Hoje em dia, a maioria dos computadores têm portas USB e estes scanners são geralmente mais fáceis de instalar. A interface mais lenta é através do uso de paralelas, sendo no entanto a única opção real dos computadores mais antigos. Existem alguns scanners com firewire ou USB2, mas estes são geralmente mais caros, sendo orientados para objectivos mais específicos. Deve evitar os scanners manuais, em que a lente percorre a página de cima a baixo gradualmente. Requerem precisão entre as páginas, o que se já é difícil em duas páginas, imagine em 300 ou 400 de forma a concluir a digitalização de todo o livro. Alguns scanners são ainda pequenos comparativamente a um determinado livro, sendo necessário "colar" as imagens: um processo de grande precisão que toma muito tempo.


Devo utilizar um scanner com um alimentador automático?

É uma questão de preferência pessoal. Os alimentadores automáticos (ADF's) PODEM tornar a digitalização mais rápida, mas tenha consciência de que para utilizar este método, o livro TEM DE ser destruído, o que não é uma situação aceitável para livros raros e valiosos. O ADF é muitas vezes disponibilizado como um extra de um scanner e pode ser instalado e removido de acordo com a necessidade. Assim, ter um, não significa que tenha de o usar. Se achar que justifica, tornará o trabalho mais simples e rápido, mas não é estritamente necessário.


Que tipo de scanner utiliza o charlz?

Fujitsu FI-4340C color, duplex Flatbed e ADF

super scanner

O processo que nós (Charles Franks) utilizamos: arrancamos a capa (ai!), cortamos as margens dos quatro lados do livro (ai! ai!), digitalizamos através do alimentador automático, e depois colocamo-lo no sítio.


Quanto custa um desses?

Cerca de $3500 US.

Uau...

Pois.


As minhas digitalizações não estão muito boas. Alguma sugestão?

Depende do que acha que está errado com elas. As definições por omissão do software de digitalização são geralmente muito boas. Verifique se está a usar a opção "texto" ou OCR, se existir. Digitalize a preto e branco, e não em tons de cinzento (grayscale). 300 ou 400dpi dá geralmente uma qualidade razoável, excepto se a fonte do texto for extremamente pequena. A digitalização numa resolução mais alta gera ficheiros de imagem maiores, tornando-se difíceis de gerir. Tente ajustar o brilho para melhorar imagens pouco nítidas. Explore um pouco. É boa ideia fazer vários testes à digitalização e ao OCR, antes de avançar para o livro todo. Se utilizar o Abbyy para captar o texto, pode deixá-lo controlar o nível de luminosidade em vez do driver para o scanner (driver twain). Esta acção fará com que seja feito um ajuste adaptativo ao nível de luminosidade de forma a assegurar digitalizações utilizáveis, embora tenda a tornar o processo mais lento, principalmente em computadores mais lentos. Pressione a lombada para que as páginas fiquem espalmadas e direitas no scanner.  Ao não o fazer, o texto parecerá começar/acabar em curva, dificultando a sua revisão.


Posso utilizar uma máquina fotográfica digital para "digitalizar" as imagens?

Esta questão surge mais frequentemente a partir do momento em que as máquinas fotográficas digitais começaram a aparecer no mercado com uma qualidade/preço cada vez melhor. A resposta é... talvez. Se tiver uma máquina que consiga focar bem ao perto, ilumine bem a página idealmente de forma uniforme (não conte com o flash fotográfico), coloque máquina num balcão ou tripé para reduzir movimento e certifique-se que a página está o mais espalmada possível. Prepare a sua máquina para tirar fotografias de "alta qualidade", escolhendo uma resolução alta a preto e branco. Rode, corte e convertas as suas imagens se for necessário. Inicie o seu programa de OCR e experimente. Sim, pode eventualmente conseguir "digitalizações" utilizáveis, mas prepare-se para obter uma precisão relativamente baixa no OCR, a não ser que seja muito bom ou esteja com muita sorte.


Quanto tempo demora a digitalizar um livro?

Depende da rapidez e opções do seu scanner, bem como do estado e tamanho do livro a digitalizar. Um scanner de alta velocidade (high speed) com um alimentador automático consegue digitalizar um livro em boas condições de 400 páginas em menos de dez minutos. Utilizando um scanner de mesa de uso manual, depois de ganhar um certo ritmo, deve conseguir uma digitalização a cada 20-40 segundos, ou seja, entre 3 a 6 páginas por minuto (a duas páginas por digitalização), entre 180 e 360 por hora. Contando com pequenos impasses, pausas, etc. um livro de 400 páginas deverá demorar cerca de duas horas a ser completamente digitalizado.


Tenho um scanner, mas não tenho livros que reúnam as condições necessárias /
Tenho vários livros que gostaria de submeter no sítio, mas não tenho acesso a um scanner /
Tenho as imagens de um livro, mas não tenho software para criar o OCR

Deixe uma mensagem no fórum do "Fornecedor de Conteúdos". Pode utilizar igualmente a OCR Pool para esse efeito. Veja o fórum de Fornecedor de Conteúdos para obter informação mais detalhada. Pergunte e alguém o ajudará.


Não tenho computador; Como posso ajudar?

Assim como tem acesso a esta FAQ? Uau, não se deixa vencer pelos obstáculos, pois não? Pode sempre comprar novos livros (antigos), software ou um novo super scanner (mais cedo do que previsto ao ritmo actual  :-). Procure ou doe livros a alguém que possa digitalizar. Dirija-se à sua biblioteca local. Muitas têm acesso público a computadores com Internet. Pode entrar como utilizador e rever algumas páginas ocasionalmente.


Uso Linux. Existe alguns programas de OCR  que possa usar?

Existem ALGUMAS soluções disponíveis. Talvez Clara OCR seja o mais desenvolvido até agora, o Free-GPL OCR. No entanto, a sua precisão não é muito boa, não sendo recomendada actualmente (Finais de 2002). Espera-se que melhore com o tempo. Existem ainda vários produtos que correm em Unix/Linux, mas têm uma tendência para serem MUITO caros (na ordem dos milhares de dólares). Aconselha-se que utilize o OCR Pool. Para mais informações, veja o Fórum dos Fornecedores de Conteúdos.


Por falar em Linux, quais os scanners suportados?

Provavelmente, o que precisa de saber é: Quais os scanners compatíveis com o driver SANE (Scanner Access Now Easy)? Verifique a compatibilidade aqui.
Veja a página principal do SANE aqui.


Existem algumas soluções de OCR disponíveis gratuitamente?

Aqui estão alguns:
http://www.simpleocr.com/ (Windows)
http://www.claraocr.org/ (Linux)
http://jocr.sourceforge.net/ (Linux)
http://www.expervision.com/webtr6.htm (Windows)
http://ftp.cityu.edu.hk/pub/chinese/ifcss/unix/ocr/omniocr2.2.README (Unix - Chinese)
http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html (Linux)

Escolha conscienciosamente, no mundo do OCR recebe exactamente aquilo pelo qual pagou.