
Tesseract
gscan2pdf est une interface graphique permettant initialement de réaliser des fichiers PDF de plusieurs pages à partir d'un scanner (ou par importation d'images déjà numérisées) ; gscan2pdf est fonctionnel sur presque n'importe quelle machine Linux/ BSD … et notamment sous Ubuntu. Ce logiciel permet en outre de concaténer plusieurs fichiers images afin d'en obtenir un seul au format PDF , composé de plusieurs pages et dont on peut définir la compression (et donc le poids) en fonction de ses besoins. L'importation de plusieurs fichiers PDF afin de les concaténer est également possible, mais seules les images contenues dans ces PDF seront prises en compte à l'exclusion du texte. Ceci n'est pas un bug mais une limitation du logiciel.
gscan2pdf
FAQ - tesseract-ocr - Frequently Asked Questions - An OCR Engine that was developed at HP Labs between 1985 and 1995... and now at Google.
Quelques mots sur Tesseract, le meilleur moteur OCR Libre Historiquement, Tesseract a été créé en 1985 par Hewlett Packard et abandonné 10 ans plus tard. Tesseract était pourtant l’un des meilleurs logiciels de Reconnaissance Optique de Caractères. Resté longtemps sans évolution, Tesseract a été rendu public l’année dernière (licence Apache 2.0), après quelques débuggages de la part de Google qui s’occupe dorénavant de son développement .
[màj] Interface graphique pour Tesseract : gscan2pdf
Cette reconnaissance optique de caractères ne s'apparenterait-elle pas aux techniques utilisées par la NSA à propos de reconnaissance de technique de frappe et identification de toutes les recherches que chaque individu exécute? by May 25
> > > Some years ago, I was using tesseract and was very satisfied of the > > result, I tried to use it on a new computer, and it doesn't work. > > > [papa@localhost ~]$ tesseract out.tiff text.txt -l fra > > Tesseract Open Source OCR Engine > > name_to_image_type:Error: Unrecognized image type:out.tiff > > IMAGE::read_header:Error:Can't read this image type:out.tiff > > tesseract:Error:Read of file failed:out.tiff > > Erreur de segmentation (core dumped) > > [papa@localhost ~]$ > > > Have I forgotten anything? should I install something else to make it > > work properly? > > > OS mandriva 2010.2-64 bit, tesseract: 2.04 i586 with tesseract-fra > > > thanks > > > -- > > You received this message because you are subscribed to the Google > > Groups "tesseract-ocr" group. > > To post to this group, send email to tesser...

