סקרתי בעבר שני כלים שונים כדי לחלץ טקסט מפורמטים פופולריים שונים - כלי לכריית טקסט ו מסוף OCR. כלים אלה מאפשרים לך לחלץ טקסט מתבניות תמונה שונות, מתבנית PDF ו- HTML וכו '. אם אתם מחפשים כלי רחב הרבה יותר, כלי שיכול לחלץ טקסט מפורמטים נוספים, אז teXtracta יגיע שימושי.
זהו כלי שעובד על העיקרון של IFilter. ממשק COM שפותח על ידי מיקרוסופט עבור שירות האינדקס שלה כך שהוא יכול לאינדקס קבצים בפורמטים שונים. לאחר מכן משתמשים בקבצים האינדקסים ב- Windows 7 / Vista Search, חיפוש שולחן העבודה של Windows וכן הלאה. עליכם להתקין מסנני IFilters מתאימים במחשבכם לפני שתוכלו לחלץ טקסט מתבניות שונות באמצעות teXtracta. כדי להתקין את המסננים המתאימים, גש כאן.
במאמר זה אסביר כיצד לחלץ טקסט ממסמך PDF כדוגמה. הורד תחילה את ה- IFilter המתאים מהקישור שצוין לעיל, אחוז teXtracta מהקישור לתת בסוף מאמר זה. כעת טען את הכלי ובחר את הקובץ היחיד שברצונך לעבד. אתה יכול גם לבחור תיקיה, בדרך זו כל הקבצים שבתיקיה הזו יעובדו. הבא בדוק את האפשרויות הרצויות, כגון הצגת טקסט, שמור טקסט וכלול ספריות משנה.
בסיום בחר סוף סוף את המסננים כמו שבחרתי ב- PDF IFilter כפי שמוצג בתמונת המסך למטה.
כשתבחר קובץ או תיקיה, אפשרויות כגון התחל עיבוד, השהיית עיבוד והפסקת העיבוד יופעלו באופן אוטומטי.
כעת לחץ על לחצן התחל עיבוד כדי להתחיל בתהליך חילוץ הטקסט. אם אין לך התקנת IFilter תקינה, זה יודיע לך מייד, אחרת התהליך יעבור בצורה חלקה. שים לב שהזמן שלוקח התהליך יהיה תלוי במידה רבה בקובץ שאתה יכול להמיר.
אם האפשרות שמור טקסט מופעלת, הפלט יישמר בתבנית txt באותה ספרייה בה נמצא הקובץ או התיקיה.
הורד teXtracta
זה עובד על Windows 2000, Windows XP, Windows Vista ו- Windows 7. תהנה!
כיסינו בעבר כמה מחלצי אודיו אך אין כמו חולץ האודיו בחינם של GikSoft...
יישומי Nero תמיד היו משאב מצוין לניהול קבצי מולטימדיה. לרוע המזל, מ...
כאשר עובדים עם צגים כפולים זה יכול להיות די מכשול להתמודד עם תצוגה ...