Extraire le texte de plusieurs formats de fichiers avec teXtracta

click fraud protection

J'ai déjà examiné deux outils différents pour extraire du texte de divers formats populaires - Outil d'exploration de texte et Terminal OCR. Ces outils vous permettent d'extraire du texte de différents formats d'image, format PDF et HTML, etc. Si vous recherchez un outil beaucoup plus large, un utilitaire qui peut extraire du texte de plus de formats, alors teXtracta vous sera utile.

C'est un outil qui fonctionne sur le principe d'IFilter. Une interface COM développée par Microsoft pour son service d'indexation afin qu'il puisse indexer des fichiers de différents formats. Ces fichiers indexés sont ensuite utilisés dans Windows 7 / Vista Search, Windows Desktop Search, etc. Vous devez avoir installé les IFilters appropriés sur votre ordinateur avant de pouvoir extraire du texte de différents formats à l'aide de teXtracta. Pour installer les IFilters appropriés, allez ici.

Dans cet article, je vais vous expliquer comment extraire du texte d'un document PDF à titre d'exemple. Téléchargez d'abord l'IFilter approprié à partir du lien ci-dessus, prenez teXtracta à partir du lien donné à la fin de cet article. Maintenant, chargez l'outil et sélectionnez le fichier unique que vous souhaitez traiter. Vous pouvez également sélectionner un dossier, de cette manière, tous les fichiers à l'intérieur de ce dossier seront traités. Cochez ensuite les options souhaitées, telles que Afficher le texte, Enregistrer le texte et Inclure les sous-répertoires.

instagram viewer

textracta-extract-text-from-various-file-formats

Une fois terminé, choisissez enfin les filtres comme j'ai choisi le PDF IFilter comme indiqué dans la capture d'écran ci-dessous.

pdf-ifilter-filters-for-textracta

Lorsque vous sélectionnez un fichier ou un dossier, les options telles que Démarrer le traitement, Suspendre le traitement et Arrêter le traitement sont automatiquement activées.

extraire-texte-options-surligné

Maintenant, appuyez sur le bouton Démarrer le traitement pour commencer le processus d'extraction de texte. Si vous n'avez pas installé correctement IFilter, il vous en informera immédiatement, sinon le processus se déroulera sans heurts. Notez que le temps pris par le processus dépendra en grande partie du fichier que vous pouvez convertir.

textracta-main-windows-capture d'écran

Si l'option Enregistrer le texte est activée, la sortie sera enregistrée au format txt dans le même répertoire où le fichier ou le dossier est présent.

Télécharger teXtracta

Il fonctionne sur Windows 2000, Windows XP, Windows Vista et Windows 7. Prendre plaisir!

watch instagram story