Extraheer tekst uit meerdere bestandsindelingen met teXtracta

click fraud protection

Ik heb eerder twee verschillende tools bekeken om tekst uit verschillende populaire formaten te halen - Text Mining Tool en OCR-terminal. Met deze tools kunt u tekst extraheren uit verschillende afbeeldingsindelingen, PDF- en HTML-indeling, enz. Als u op zoek bent naar een veel bredere tool, een hulpprogramma dat tekst uit meer formaten kan halen, dan is teXtracta handig.

Het is een tool die werkt volgens het principe van IFilter. Een COM-interface die door Microsoft is ontwikkeld voor de indexeringsservice, zodat het bestanden van verschillende indelingen kan indexeren. Deze geïndexeerde bestanden worden vervolgens gebruikt in Windows 7 / Vista Search, Windows Desktop Search, enzovoort. U moet geschikte IFilters op uw computer hebben geïnstalleerd voordat u tekst uit verschillende formaten kunt extraheren met teXtracta. Ga om de juiste IFilters te installeren hier.

In dit artikel zal ik uitleggen hoe u als voorbeeld tekst uit een PDF-document kunt extraheren. Download eerst de juiste IFilter van de link hierboven, pak teXtracta van de link aan het einde van dit artikel. Laad nu de tool en selecteer het enkele bestand dat u wilt verwerken. U kunt ook een map selecteren, op deze manier worden alle bestanden in die map verwerkt. Controleer vervolgens de gewenste opties, zoals Tekst weergeven, Tekst opslaan en Subdirectory's opnemen.

instagram viewer

textracta-extract-text-from-various-file-formats

Als u klaar bent, kiest u eindelijk de filters zoals ik de PDF IFilter heb gekozen, zoals weergegeven in de onderstaande schermafbeelding.

pdf-ifilter-filters-voor-textracta

Wanneer u een bestand of map selecteert, worden opties zoals Start Processing, Pause Processing en Stop Processing automatisch ingeschakeld.

extract-text-options-gemarkeerd

Druk nu op de knop Start Processing om het tekstextractieproces te starten. Als u niet de juiste IFilter hebt geïnstalleerd, wordt u hiervan onmiddellijk op de hoogte gesteld, anders verloopt het proces soepel. Merk op dat de tijd die het proces in beslag neemt grotendeels afhangt van het bestand dat u kunt converteren.

textracta-main-windows-screenshot

Als de optie Tekst opslaan is ingeschakeld, wordt de uitvoer opgeslagen in txt-indeling in dezelfde map waar het bestand of de map aanwezig is.

Download teXtracta

Het werkt op Windows 2000, Windows XP, Windows Vista en Windows 7. Genieten!

watch instagram story