Ištraukite tekstą iš kelių failų formatų naudodami „teXtracta“

click fraud protection

Prieš tai peržiūrėjau du skirtingus įrankius, norėdamas išgauti tekstą iš įvairių populiarių formatų - Teksto gavybos įrankis ir OCR terminalas. Šie įrankiai leidžia išgauti tekstą iš įvairių vaizdo formatų, PDF ir HTML formatų ir kt. Jei ieškote daug platesnio įrankio, naudingumo įrankio, galinčio išgauti tekstą iš daugiau formatų, tada „teXtracta“ bus naudinga.

Tai įrankis, veikiantis „IFilter“ principu. COM sąsaja, kurią sukūrė „Microsoft“ indeksavimo tarnybai, kad ji galėtų indeksuoti įvairaus formato failus. Šie indeksuoti failai tada naudojami „Windows 7“ / „Vista“ paieškoje, „Windows“ darbalaukio paieškoje ir kt. Kad galėtumėte išgauti įvairių formatų tekstą naudodami „teXtracta“, kompiuteryje turite būti įdiegę tinkamus IF filtrus. Norėdami įdiegti tinkamus IF filtrus, eikite čia.

Šiame straipsnyje kaip pavyzdį paaiškinsiu, kaip ištraukti tekstą iš PDF dokumento. Pirmiausia atsisiųskite atitinkamą „IFilter“ iš aukščiau pateiktos nuorodos, patraukite „teXtracta“ iš nuorodos, pateiktos šio straipsnio pabaigoje. Dabar įkelkite įrankį ir pasirinkite vieną failą, kurį norite apdoroti. Taip pat galite pasirinkti aplanką, tokiu būdu bus apdoroti visi tame aplanke esantys failai. Kitas pažymėkite norimas parinktis, pvz., Rodyti tekstą, Įrašyti tekstą ir Įtraukti pakatalogius.

instagram viewer

teksto-ekstrakto-teksto-iš-įvairių-failų formatai

Kai baigsite, pagaliau pasirinkite filtrus, kaip ir pasirinkau „PDF IFilter“, kaip parodyta toliau esančioje ekrano kopijoje.

„pdf-ifilter-filters-for-textracta“

Kai pasirinksite failą ar aplanką, tokios parinktys kaip Pradėti apdorojimą, Pristabdyti apdorojimą ir Baigti apdorojimą bus įjungtos automatiškai.

ištrauka-tekstas-paryškinimai

Dabar paspauskite mygtuką Pradėti apdorojimą, kad pradėtumėte teksto gavimo procesą. Jei netinkamai įdiegėte „IFilter“, jis nedelsdamas apie tai praneš, kitaip procesas vyks sklandžiai. Atminkite, kad proceso trukmė daugiausia priklausys nuo failo, kurį galite konvertuoti.

„textracta-main-windows“ ekrano kopija

Jei įjungta parinktis Išsaugoti tekstą, išvestis bus išsaugota txt formatu tame pačiame kataloge, kuriame yra failas ar aplankas.

Atsisiųskite „teXtracta“

Jis veikia „Windows 2000“, „Windows XP“, „Windows Vista“ ir „Windows 7“. Mėgautis!

watch instagram story