Tesseract

FacebookTwitter
gscan2pdf est une interface graphique permettant initialement de réaliser des fichiers PDF de plusieurs pages à partir d'un scanner (ou par importation d'images déjà numérisées) ; gscan2pdf est fonctionnel sur presque n'importe quelle machine Linux/ BSD … et notamment sous Ubuntu. Ce logiciel permet en outre de concaténer plusieurs fichiers images afin d'en obtenir un seul au format PDF , composé de plusieurs pages et dont on peut définir la compression (et donc le poids) en fonction de ses besoins. L'importation de plusieurs fichiers PDF afin de les concaténer est également possible, mais seules les images contenues dans ces PDF seront prises en compte à l'exclusion du texte. Ceci n'est pas un bug mais une limitation du logiciel.

gscan2pdf

http://doc.ubuntu-fr.org/gscan2pdf
http://code.google.com/p/tesseract-ocr/wiki/FAQ A collection of frequently asked questions and the answers, or pointers to them. If you have question, please post it to forums. Wiki comments are for wiki commenting and not for Troubleshooting.

FAQ - tesseract-ocr - Frequently Asked Questions - An OCR Engine that was developed at HP Labs between 1985 and 1995... and now at Google.

Quelques mots sur Tesseract, le meilleur moteur OCR Libre Historiquement, Tesseract a été créé en 1985 par Hewlett Packard et abandonné 10 ans plus tard. Tesseract était pourtant l’un des meilleurs logiciels de Reconnaissance Optique de Caractères. Resté longtemps sans évolution, Tesseract a été rendu public l’année dernière (licence Apache 2.0), après quelques débuggages de la part de Google qui s’occupe dorénavant de son développement . http://ubunteros.tuxfamily.org/spip.php?article148

[màj] Interface graphique pour Tesseract : gscan2pdf

Cette reconnaissance optique de caractères ne s'apparenterait-elle pas aux techniques utilisées par la NSA à propos de reconnaissance de technique de frappe et identification de toutes les recherches que chaque individu exécute? by pneuma.antanaklasi May 25

> > > Some years ago, I was using tesseract and was very satisfied of the > > result, I tried to use it on a new computer, and it doesn't work. > > > [papa@localhost ~]$ tesseract out.tiff text.txt -l fra > > Tesseract Open Source OCR Engine > > name_to_image_type:Error: Unrecognized image type:out.tiff > > IMAGE::read_header:Error:Can't read this image type:out.tiff > > tesseract:Error:Read of file failed:out.tiff > > Erreur de segmentation (core dumped) > > [papa@localhost ~]$ > > > Have I forgotten anything? should I install something else to make it > > work properly? > > > OS mandriva 2010.2-64 bit, tesseract: 2.04 i586 with tesseract-fra > > > thanks > > > -- > > You received this message because you are subscribed to the Google > > Groups "tesseract-ocr" group. > > To post to this group, send email to tesser... http://groups.google.com/group/tesseract-ocr/browse_thread/thread/482fcbfa0c985c54?pli=1

Difficulties to use Tesseract - tesseract-ocr

http://www.libtiff.org/tools.html

TIFF Tools Overview

This software distribution comes with a small collection of programs for converting non-TIFF format images to TIFF and for manipulating and interogating the contents of TIFF images. Several of these tools are useful in their own right. Many of them however are more intended to serve as programming examples for using the TIFF library. Device-dependent Programs There are two device-dependent programs that serve as simple examples for writing programs to display and save TIFF images. Device-independent Programs

tesseract-ocr

Tesseract est un moteur de reconnaissance optique de caractères (ROC, OCR ) qui a été conçu par les ingénieurs de HP de 1984 à 1995, avant d'être abandonné. Après 10 ans de purgatoire, son code est ouvert en 2005, et le développement est repris sous la houlette de Google. Les premiers résultats sont prometteurs. Enfin un bon logiciel libre d' OCR sous linux ? L'avenir nous le dira… Il permet déjà d'obtenir une reconnaissance optique de qualité sur un certain nombre de documents (sans mise en page complexe). Tesseract a pour vocation d'être utilisé : http://doc.ubuntu-fr.org/tesseract-ocr