Limitations
Seulement testé sur Ubuntu Raring et Debian Wheezy.
Développement
Le code du plugin est sur la zone.
On développe dans trunk
.
Possibles améliorations
Langue :
- appliquer
tesseract
dans la langue du site par défaut - ajouter un paramètre de configuration de la langue (par défaut avec la langue du site)
- si le document a un champ
lang
, utiliser cette langue pour l’analyse. Voir langdoc.
Programme d’analyse :
- utiliser php-tesseract directement, au lieu d’une commande native,
- permettre de se brancher sur d’autres programmes d’analyse, comme OpenOcr.
- proposer un document de test pour vérifier que l’analyse se fait bien
- détecter la résolution du document et avertir de la faible fiabilité possible du résultat en cas de faible résolution du document
- ajouter à la configuration une liste de mots personnalisable, permettant d’enrichir le modèle de langue (noms propres récurrents dans les documents du site, par exemple).
SPIP :
Indexation et recherche :
- générer un document hOCR donnant la position des lettres reconnues par OCR dans l’image, et générer un PDF « cherchable », attaché au document original.
- tester avec Sphinx et utiliser ses nouvelles fonctions JSON pour donner également la page du PDF.