Pakk ut tekst fra flere filformater med teXtracta

click fraud protection

Jeg har gjennomgått to forskjellige verktøy før for å trekke ut tekst fra forskjellige populære formater - Text Mining Tool og OCR-terminal. Disse verktøyene lar deg trekke ut tekst fra forskjellige bildeformater, PDF- og HTML-format, etc. Hvis du er ute etter et mye bredere verktøy, et verktøy som kan hente ut tekst fra flere formater, vil teXtracta komme til nytte.

Det er et verktøy som fungerer etter prinsippet til IFilter. Et COM-grensesnitt utviklet av Microsoft for sin indekseringstjeneste, slik at det kan indeksere filer med forskjellige formater. Disse indekserte filene blir deretter brukt i Windows 7 / Vista Search, Windows Desktop Search og så videre. Du må ha passende IFilters installert på datamaskinen din før du kan trekke ut tekst fra forskjellige formater ved bruk av teXtracta. Gå til hvis du vil installere de aktuelle IFilters her.

I denne artikkelen vil jeg forklare hvordan du kan hente ut tekst fra et PDF-dokument som eksempel. Last ned passende IFilter fra lenken gitt ovenfor, ta teXtracta fra lenken gi på slutten av denne artikkelen. Last nå opp verktøyet og velg enkeltfilen du vil behandle. Du kan også velge en mappe, på denne måten blir alle filene i den mappen behandlet. Kontroller deretter de ønskede alternativene, for eksempel, Vis tekst, Lagre tekst og Inkluder underkataloger.

instagram viewer

textracta-ekstrakt-tekst-fra-forskjellige-fil-formater

Når du er ferdig, velger du endelig filtrene som om jeg har valgt PDF IFilter som vist på skjermdumpen nedenfor.

pdf-iFilter-filter-for-textracta

Når du velger en fil eller mappe, vil alternativer som Start prosessering, pausebehandling og stoppebehandling aktiveres automatisk.

ekstrakt-tekst-alternativer-uthevet

Nå trykker du på Start prosessering-knappen for å starte tekstuttrekkingsprosessen. Hvis du ikke har riktig IFilter installert, vil det varsle deg umiddelbart, ellers vil prosessen gå greit. Merk at tiden det tar prosessen i stor grad vil avhenge av filen du kan konvertere.

textracta-hoved-windows-skjermbilde

Hvis alternativet Lagre tekst er aktivert, blir utdataene lagret i txt-format i den samme katalogen som filen eller mappen er til stede.

Last ned teXtracta

Det fungerer på Windows 2000, Windows XP, Windows Vista og Windows 7. Nyt!

watch instagram story