Blog de Marcos Roberto Ribeiro

Postagens

Mostrando postagens de abril, 2009

Tesseract OCR: obtendo textos a partir de imagens

Introdução Existem diversas ferramentas livre para Optical Character Recognition ( OCR - Reconhecimento ótico de caracteres ) como o gocr e o ocrad . Entretanto, eu ainda não tinha obtido uma eficiência tão boa até usar o Tesseract OCR . O Tesseract OCR foi desenvolvido em um laboratórios da Hewlett-Packard entre 1985 e 1995. Em 1995 era um dos 3 melhores na competição de exatidão de OCR's organizada pela Universidade de Nevada em Las Vegas (UNLV) . Entretanto, logo após isto, a HP decidiu sair do ramo de OCR e o Tesseract foi descontinuado. Felizmente a HP com a ajuda do Instituto de Pesquisas em Ciência da Informação da UNLV decidiu abrir o código fonte do Tesseract. Atualmente o Tesseract é mantido pela Google e já suporta vários idiomas, inclusive o português. Instalação no Debian Já existem pacotes nos repositórios do Debian para o Tesseract OCR e alguns idiomas, mas não consegui fazer com que eles funcionassem corretamente. Então eu baixei o código fonte, acrescen...