Izvleči besedilo iz več datotek datotek s teXtracta

click fraud protection

Prej sem pregledal dve različni orodji za črpanje besedila iz različnih priljubljenih formatov - Orodje za rudarjenje besedil in OCR terminal. Ta orodja omogočajo črpanje besedila iz različnih formatov slik, PDF in HTML itd. Če iščete veliko širše orodje, pripomoček, s katerim lahko besedilo izvlečete iz več formatov, bo teXtracta prišla prav.

To je orodje, ki deluje po principu IFilter. COM vmesnik, ki ga je razvil Microsoft za storitev indeksiranja, tako da lahko indeksira datoteke različnih formatov. Te indeksirane datoteke se nato uporabijo v iskanju Windows 7 / Vista, iskanju v namizju Windows in tako naprej. Preden lahko črpate besedilo iz različnih formatov s pomočjo teXtracta, morate imeti nameščen ustrezen IFilters. Če želite namestiti ustrezne IFilters, pojdite tukaj.

V tem članku bom razložil, kako izvleči besedilo iz dokumenta PDF kot primer. Najprej naložite ustrezni IFilter s zgornje povezave, na koncu tega članka pa primite teXtracta s povezave. Zdaj naložite orodje in izberite eno datoteko, ki jo želite obdelovati. Izberete lahko tudi mapo, na ta način bodo obdelane vse datoteke znotraj te mape. Nato preverite želene možnosti, na primer Pokaži besedilo, Shrani besedilo in Vključi podmape.

instagram viewer

formatov textracta-ekstrakt-tekst-iz-različnih datotek

Ko končate, končno izberite filtre, kot sem izbral PDF IFilter, kot je prikazano na spodnjem posnetku.

pdf-ifilter-filtri-za-besedilo

Ko izberete datoteko ali mapo, bodo samodejno omogočene možnosti, kot so Začetek obdelave, Zaustavitev obdelave in Ustavitev obdelave.

izvlečke-besedilo-možnosti-poudarjene

Zdaj pritisnite gumb Začni obdelavo, da začnete postopek pridobivanja besedila. Če nimate nameščenega ustreznega IFilterja, vas bo takoj obvestil, sicer bo postopek potekal nemoteno. Upoštevajte, da bo čas, potreben v postopku, v veliki meri odvisen od datoteke, ki jo lahko pretvorite.

textracta-main-windows-screenshot

Če je možnost Shranjevanje besedila omogočena, se izhod shrani v obliki txt v isti imenik, v katerem je datoteka ali mapa.

Prenesite teXtracta

Deluje v sistemih Windows 2000, Windows XP, Windows Vista in Windows 7. Uživajte!

watch instagram story