Wyodrębnij tekst z wielu formatów plików za pomocą teXtracta

click fraud protection

Wcześniej sprawdziłem dwa różne narzędzia do wyodrębnienia tekstu z różnych popularnych formatów - Narzędzie wyszukiwania tekstu i Terminal OCR. Narzędzia te pozwalają wyodrębnić tekst z różnych formatów graficznych, PDF i HTML itp. Jeśli szukasz znacznie szerszego narzędzia, narzędzia, które może wyodrębnić tekst z większej liczby formatów, przyda się teXtracta.

Jest to narzędzie działające na zasadzie IFiltera. Interfejs COM opracowany przez Microsoft dla jego usługi indeksowania, aby mógł indeksować pliki o różnych formatach. Te zindeksowane pliki są następnie używane w wyszukiwaniu Windows 7 / Vista, Windows Desktop Search i tak dalej. Aby wyodrębnić tekst z różnych formatów przy użyciu teXtracta, musisz mieć zainstalowane odpowiednie filtry IFilter. Aby zainstalować odpowiednie filtry IFil, przejdź tutaj.

W tym artykule wyjaśnię, jak wyodrębnić tekst z dokumentu PDF jako przykład. Najpierw pobierz odpowiedni IFilter z linku podanego powyżej, pobierz teXtracta z linku podanego na końcu tego artykułu. Teraz załaduj narzędzie i wybierz pojedynczy plik, który chcesz przetworzyć. Możesz także wybrać folder, w ten sposób wszystkie pliki w tym folderze zostaną przetworzone. Następnie sprawdź żądane opcje, takie jak Pokaż tekst, Zapisz tekst i Uwzględnij podkatalogi.

instagram viewer

textracta-extract-tekst-z-różnych-formatów plików

Po zakończeniu wybierz filtry, tak jak wybrałem IFilter PDF, jak pokazano na zrzucie ekranu poniżej.

pdf-ifilter-filter-for-textracta

Po wybraniu pliku lub folderu opcje takie jak Rozpocznij przetwarzanie, Wstrzymaj przetwarzanie i Zatrzymaj przetwarzanie zostaną włączone automatycznie.

wyodrębnij-tekst-podświetlone opcje

Teraz naciśnij przycisk Rozpocznij przetwarzanie, aby rozpocząć proces wyodrębniania tekstu. Jeśli nie masz zainstalowanego odpowiedniego IFiltera, natychmiast Cię o tym powiadomi, w przeciwnym razie proces przebiegnie bezproblemowo. Pamiętaj, że czas potrzebny na proces będzie w dużej mierze zależał od pliku, który możesz przekonwertować.

textracta-main-windows-screenshot

Jeśli włączona jest opcja Zapisz tekst, dane wyjściowe zostaną zapisane w formacie txt w tym samym katalogu, w którym znajduje się plik lub folder.

Pobierz teXtracta

Działa w systemach Windows 2000, Windows XP, Windows Vista i Windows 7. Cieszyć się!

watch instagram story