חלץ טקסט מתבניות קבצים מרובות באמצעות teXtracta

click fraud protection

סקרתי בעבר שני כלים שונים כדי לחלץ טקסט מפורמטים פופולריים שונים - כלי לכריית טקסט ו מסוף OCR. כלים אלה מאפשרים לך לחלץ טקסט מתבניות תמונה שונות, מתבנית PDF ו- HTML וכו '. אם אתם מחפשים כלי רחב הרבה יותר, כלי שיכול לחלץ טקסט מפורמטים נוספים, אז teXtracta יגיע שימושי.

זהו כלי שעובד על העיקרון של IFilter. ממשק COM שפותח על ידי מיקרוסופט עבור שירות האינדקס שלה כך שהוא יכול לאינדקס קבצים בפורמטים שונים. לאחר מכן משתמשים בקבצים האינדקסים ב- Windows 7 / Vista Search, חיפוש שולחן העבודה של Windows וכן הלאה. עליכם להתקין מסנני IFilters מתאימים במחשבכם לפני שתוכלו לחלץ טקסט מתבניות שונות באמצעות teXtracta. כדי להתקין את המסננים המתאימים, גש כאן.

במאמר זה אסביר כיצד לחלץ טקסט ממסמך PDF כדוגמה. הורד תחילה את ה- IFilter המתאים מהקישור שצוין לעיל, אחוז teXtracta מהקישור לתת בסוף מאמר זה. כעת טען את הכלי ובחר את הקובץ היחיד שברצונך לעבד. אתה יכול גם לבחור תיקיה, בדרך זו כל הקבצים שבתיקיה הזו יעובדו. הבא בדוק את האפשרויות הרצויות, כגון הצגת טקסט, שמור טקסט וכלול ספריות משנה.

textracta-extract-text-from-files-formats

בסיום בחר סוף סוף את המסננים כמו שבחרתי ב- PDF IFilter כפי שמוצג בתמונת המסך למטה.

instagram viewer
pdf-ifilter-filters-for-textracta

כשתבחר קובץ או תיקיה, אפשרויות כגון התחל עיבוד, השהיית עיבוד והפסקת העיבוד יופעלו באופן אוטומטי.

לחלץ טקסט-אפשרויות-מודגשים

כעת לחץ על לחצן התחל עיבוד כדי להתחיל בתהליך חילוץ הטקסט. אם אין לך התקנת IFilter תקינה, זה יודיע לך מייד, אחרת התהליך יעבור בצורה חלקה. שים לב שהזמן שלוקח התהליך יהיה תלוי במידה רבה בקובץ שאתה יכול להמיר.

textracta-main-windows-screenshot

אם האפשרות שמור טקסט מופעלת, הפלט יישמר בתבנית txt באותה ספרייה בה נמצא הקובץ או התיקיה.

הורד teXtracta

זה עובד על Windows 2000, Windows XP, Windows Vista ו- Windows 7. תהנה!

watch instagram story