Prá quem não conhece o André, ele é daqueles gaúchos autênticos e sistemáticos, um exímio defensor e utilizador de software livre, o qual prefere voltar a fazer legislação na pena, do que utilizar o MS-Word. ;)
Como é muito ruim desapontar um grande amigo, resolvi realizar uma pesquisa mais profunda sobre o OCR no Ubuntu, e assim, acabei chegando ao software livre tesseract-ocr, o qual faz, e muito bem por sinal, o reconhecimento otico de caracteres no linux. Mas infelizmente o tal "tesseract" trabalha em linha de comando, o que me causou uma certa decepção, já que é complexo implementar, produtos que utilizam linha de comando para usuários não-tecnicos. Não que o André não seja tecnico, mas eu já estava pensando em utilizar aqui no trabalho.
Mas como a decepção, pode ser a semente da motivação, aprofundei minha pesquisa e acabei encontrando este ótimo artigo do blog Thadeu Penna' s Wiki, o qual falava sobre o OCR de qualidade no linux: agora é fácil!. No artigo o autor, apresenta além o tesseract, um outro software chamado "gscan2pdf", que veio prencher perfeitamente a lacuna do tesseract e suas linhas de comandos.
Complementando as informações do artigo do Thadeu, vou descrever abaixo o processo de instalação do tesseract e do gscan2pdf no Ubuntu 9.04, para isso, vá até o terminal e digite:
$ sudo apt-get install tesseract-ocr tesseract-ocr-por gscan2pdf
Pronto, a parti daí o gscan2pdf , estará listado no menu Aplicativos, submenu Gráficos, como é demonstrado na imagem abaixo:

Apesar da utilização ser bastante intuitiva, fiz um pequeno vídeo tutorial para ajudar na sua utilização.













