Postagens

Mostrando postagens de setembro, 2009

OCR no Ubuntu/Linux 9.04, utilizando tesseract e gscan2pdf

Imagem
Recentemente, fui instigado por várias vezes, por meu grande amigo André Brun da lista de discussão Gitec (Grupo Interlegis de Tecnologia) . Andŕe, que trabalha na Câmara Municipal de Agudo , lá no distante Rio Grande do Sul, me questionou várias vezes, sobre qual a melhor alternativa de scanner para o Ubuntu e sobre qual o melhor software para a realização de OCR (Optical Character Recognition ou Reconhecimento Ótico de Caracteres), com a possibilidade de gerar um arquivo de PDF. Prá quem não conhece o André, ele é daqueles gaúchos autênticos e sistemáticos, um exímio defensor e utilizador de software livre, o qual prefere voltar a fazer legislação na pena, do que utilizar o MS-Word. ;) Como é muito ruim desapontar um grande amigo, resolvi realizar uma pesquisa mais profunda sobre o OCR no Ubuntu, e assim, acabei chegando ao software livre tesseract-ocr, o qual faz, e muito bem por sinal, o reconhecimento otico de caracteres no linux. Mas infelizmente o tal "tesseract"