OCR no Ubuntu/Linux 9.04, utilizando tesseract e gscan2pdf
Recentemente, fui instigado por várias vezes, por meu grande amigo André Brun da lista de discussão Gitec (Grupo Interlegis de Tecnologia). Andŕe, que trabalha na Câmara Municipal de Agudo, lá no distante Rio Grande do Sul, me questionou várias vezes, sobre qual a melhor alternativa de scanner para o Ubuntu e sobre qual o melhor software para a realização de OCR (Optical Character Recognition ou Reconhecimento Ótico de Caracteres), com a possibilidade de gerar um arquivo de PDF.
Prá quem não conhece o André, ele é daqueles gaúchos autênticos e sistemáticos, um exímio defensor e utilizador de software livre, o qual prefere voltar a fazer legislação na pena, do que utilizar o MS-Word. ;)
Como é muito ruim desapontar um grande amigo, resolvi realizar uma pesquisa mais profunda sobre o OCR no Ubuntu, e assim, acabei chegando ao software livre tesseract-ocr, o qual faz, e muito bem por sinal, o reconhecimento otico de caracteres no linux. Mas infelizmente o tal "tesseract" trabalha em linha de comando, o que me causou uma certa decepção, já que é complexo implementar, produtos que utilizam linha de comando para usuários não-tecnicos. Não que o André não seja tecnico, mas eu já estava pensando em utilizar aqui no trabalho.
Mas como a decepção, pode ser a semente da motivação, aprofundei minha pesquisa e acabei encontrando este ótimo artigo do blog Thadeu Penna' s Wiki, o qual falava sobre o OCR de qualidade no linux: agora é fácil!. No artigo o autor, apresenta além o tesseract, um outro software chamado "gscan2pdf", que veio prencher perfeitamente a lacuna do tesseract e suas linhas de comandos.
Complementando as informações do artigo do Thadeu, vou descrever abaixo o processo de instalação do tesseract e do gscan2pdf no Ubuntu 9.04, para isso, vá até o terminal e digite:
$ sudo apt-get install tesseract-ocr tesseract-ocr-por gscan2pdf
Pronto, a parti daí o gscan2pdf , estará listado no menu Aplicativos, submenu Gráficos, como é demonstrado na imagem abaixo:

Apesar da utilização ser bastante intuitiva, fiz um pequeno vídeo tutorial para ajudar na sua utilização.
Prá quem não conhece o André, ele é daqueles gaúchos autênticos e sistemáticos, um exímio defensor e utilizador de software livre, o qual prefere voltar a fazer legislação na pena, do que utilizar o MS-Word. ;)
Como é muito ruim desapontar um grande amigo, resolvi realizar uma pesquisa mais profunda sobre o OCR no Ubuntu, e assim, acabei chegando ao software livre tesseract-ocr, o qual faz, e muito bem por sinal, o reconhecimento otico de caracteres no linux. Mas infelizmente o tal "tesseract" trabalha em linha de comando, o que me causou uma certa decepção, já que é complexo implementar, produtos que utilizam linha de comando para usuários não-tecnicos. Não que o André não seja tecnico, mas eu já estava pensando em utilizar aqui no trabalho.
Mas como a decepção, pode ser a semente da motivação, aprofundei minha pesquisa e acabei encontrando este ótimo artigo do blog Thadeu Penna' s Wiki, o qual falava sobre o OCR de qualidade no linux: agora é fácil!. No artigo o autor, apresenta além o tesseract, um outro software chamado "gscan2pdf", que veio prencher perfeitamente a lacuna do tesseract e suas linhas de comandos.
Complementando as informações do artigo do Thadeu, vou descrever abaixo o processo de instalação do tesseract e do gscan2pdf no Ubuntu 9.04, para isso, vá até o terminal e digite:
$ sudo apt-get install tesseract-ocr tesseract-ocr-por gscan2pdf
Pronto, a parti daí o gscan2pdf , estará listado no menu Aplicativos, submenu Gráficos, como é demonstrado na imagem abaixo:

Apesar da utilização ser bastante intuitiva, fiz um pequeno vídeo tutorial para ajudar na sua utilização.
Comentários
Postar um comentário
Parafraseando do ditado "quem conta um conto aumenta um ponto", aqui "quem comenta um post, aumenta um ponto"!