Project naphta, l’extension chrome pour récupérer du texte coincé dans une image
Récupérer du texte dans une image, c’est joie, merci Project Naphta !
L’idée est simple : sur google chrome (exclusivement :/), une petite extension qui réalise, en tâche de fond, de la reconnaissance de caractère dans les images.
Le premier intérêt – limité – est de pouvoir récupérer des textes dans des images tels gif animés et autres loleries.
Le second intérêt, bien plus riche pour de simples journalistes ou indépendants sans logiciel de reconnaissance de caractère, c’est que project naphta fonctionne aussi sur des documents que vous avez en local sur votre ordinateur.
Du coup, imaginez un pdf qui est le scan d’une décision de justice : enfer et damnation, sans OCR, difficile d’extraire du texte : vous devez tout réécrire.
Avec Project Naphta, vous pouvez ! Pour ce faire, quelques prérequis testés, prouvés et approuvés.
– Une fois l’extension installée, allez dans chrome://extensions/, trouvez Project Naphta, et cochez bien la petite case « Autoriser l’accès aux URL de fichier ». Cf screenshot ci-dessous.
– pour le pdf : sauvegardez-le dans votre ordinateur, sur le bureau, dans vos documents, ou ailleurs.
– sous Mac – je ne connais pas la manip sous PC – il suffit de faire un screenshot de votre pdf (cmd shift 4) puis d’ouvrir ce screenshot avec chrome.
Pour de longs pdf, il y a apparemment une ruse avec Automator mais je ne l’ai pas essayée.
[Via engadget.]