J'ai déjà examiné deux outils différents pour extraire du texte de divers formats populaires - Outil d'exploration de texte et Terminal OCR. Ces outils vous permettent d'extraire du texte de différents formats d'image, format PDF et HTML, etc. Si vous recherchez un outil beaucoup plus large, un utilitaire qui peut extraire du texte de plus de formats, alors teXtracta vous sera utile.
C'est un outil qui fonctionne sur le principe d'IFilter. Une interface COM développée par Microsoft pour son service d'indexation afin qu'il puisse indexer des fichiers de différents formats. Ces fichiers indexés sont ensuite utilisés dans Windows 7 / Vista Search, Windows Desktop Search, etc. Vous devez avoir installé les IFilters appropriés sur votre ordinateur avant de pouvoir extraire du texte de différents formats à l'aide de teXtracta. Pour installer les IFilters appropriés, allez ici.
Dans cet article, je vais vous expliquer comment extraire du texte d'un document PDF à titre d'exemple. Téléchargez d'abord l'IFilter approprié à partir du lien ci-dessus, prenez teXtracta à partir du lien donné à la fin de cet article. Maintenant, chargez l'outil et sélectionnez le fichier unique que vous souhaitez traiter. Vous pouvez également sélectionner un dossier, de cette manière, tous les fichiers à l'intérieur de ce dossier seront traités. Cochez ensuite les options souhaitées, telles que Afficher le texte, Enregistrer le texte et Inclure les sous-répertoires.
Une fois terminé, choisissez enfin les filtres comme j'ai choisi le PDF IFilter comme indiqué dans la capture d'écran ci-dessous.
Lorsque vous sélectionnez un fichier ou un dossier, les options telles que Démarrer le traitement, Suspendre le traitement et Arrêter le traitement sont automatiquement activées.
Maintenant, appuyez sur le bouton Démarrer le traitement pour commencer le processus d'extraction de texte. Si vous n'avez pas installé correctement IFilter, il vous en informera immédiatement, sinon le processus se déroulera sans heurts. Notez que le temps pris par le processus dépendra en grande partie du fichier que vous pouvez convertir.
Si l'option Enregistrer le texte est activée, la sortie sera enregistrée au format txt dans le même répertoire où le fichier ou le dossier est présent.
Télécharger teXtracta
Il fonctionne sur Windows 2000, Windows XP, Windows Vista et Windows 7. Prendre plaisir!
Sous Windows 7, vous pouvez graver et graver n'importe quel DVD et ...
Même un tout nouvel ordinateur de bureau peut contenir de nombreux ...
Il fut un temps où les jeux vidéo étaient considérés comme réservés...