Ekstrak Teks Dari Berbagai Format File Dengan teXtracta

click fraud protection

Saya telah meninjau dua alat berbeda sebelum mengekstraksi teks dari berbagai format populer - Alat Penambangan Teks dan Terminal OCR. Alat-alat ini memungkinkan Anda untuk mengekstrak teks dari berbagai format gambar, format PDF dan HTML, dll. Jika Anda mencari alat yang lebih luas, sebuah utilitas yang dapat mengekstraksi teks dari format yang lebih banyak, maka teXtracta akan berguna.

Ini adalah alat yang bekerja berdasarkan prinsip IFilter. Antarmuka COM yang dikembangkan oleh Microsoft untuk layanan pengindeksan sehingga dapat mengindeks file dari berbagai format. File yang diindeks ini kemudian digunakan di Windows 7 / Vista Search, Windows Desktop Search, dan sebagainya. Anda harus menginstal IFilters yang sesuai pada komputer Anda sebelum dapat mengekstraksi teks dari berbagai format menggunakan teXtracta. Untuk menginstal IFilters yang sesuai, buka sini.

Pada artikel ini saya akan menjelaskan cara mengekstrak teks dari dokumen PDF sebagai contoh. Pertama-tama unduh IFilter yang sesuai dari tautan yang diberikan di atas, ambil teXtracta dari tautan yang diberikan di akhir artikel ini. Sekarang muat alat dan pilih satu file yang ingin Anda proses. Anda juga dapat memilih folder, dengan cara ini semua file di dalam folder itu akan diproses. Selanjutnya periksa opsi yang diinginkan, seperti, Tampilkan Teks, Simpan Teks, dan Sertakan Subdirektori.

instagram viewer

textracta-ekstrak-teks-dari-berbagai-format file

Setelah selesai, akhirnya pilih filter seperti saya telah memilih IFilter PDF seperti yang ditunjukkan pada gambar di bawah.

pdf-ifilter-filter-for-textracta

Ketika Anda akan memilih file atau folder, opsi seperti Mulai Pemrosesan, Jeda Pemrosesan, dan Stop Pemrosesan akan diaktifkan secara otomatis.

ekstrak-teks-opsi-disorot

Sekarang tekan tombol Mulai Pemrosesan untuk memulai proses ekstraksi teks. Jika Anda tidak menginstal IFilter dengan benar, IFilter akan segera memberi tahu Anda, jika tidak, prosesnya akan berjalan lancar. Perhatikan bahwa waktu yang dibutuhkan oleh proses akan sangat tergantung pada file yang dapat Anda konversi.

textracta-main-windows-tangkapan layar

Jika opsi Simpan Teks diaktifkan, output akan disimpan dalam format txt di direktori yang sama di mana file atau folder berada.

Unduh teXtracta

Ini bekerja pada Windows 2000, Windows XP, Windows Vista, dan Windows 7. Nikmati!

watch instagram story