Introdução   Existem diversas ferramentas livre para Optical Character Recognition ( OCR  - Reconhecimento ótico de caracteres ) como o gocr  e o ocrad . Entretanto, eu ainda não tinha obtido uma eficiência tão boa até usar o Tesseract OCR .   O Tesseract OCR foi desenvolvido em um laboratórios da Hewlett-Packard entre 1985 e 1995. Em 1995 era um dos 3 melhores na competição de exatidão de OCR's organizada pela Universidade de Nevada  em Las Vegas (UNLV) . Entretanto, logo após isto, a HP decidiu sair do ramo de OCR e o Tesseract foi descontinuado. Felizmente a HP com a ajuda do Instituto de Pesquisas em Ciência da Informação da UNLV decidiu abrir o código fonte do Tesseract. Atualmente o Tesseract é mantido pela Google e já suporta vários idiomas, inclusive o português.   Instalação no Debian   Já existem pacotes nos repositórios do Debian  para o Tesseract OCR e alguns idiomas, mas não consegui fazer com que eles funcionassem corretamente. Então eu baixei o código fonte, acrescen...
 
 
Comentários