לדלג לתוכן

ויקיטקסט:OCR

מתוך ויקיטקסט, מאגר הטקסטים החופשי

הקדמה

[עריכה]

יש הרבה מאוד טקסטים שמתאימים להיכנס לוויקיטקסט שנמצאים בפורמט סרוק בקבצי pdf או DJVU שמחכים לאפשרות להכניס אותם באופן אוטומטי לוויקיטקסט. קיימים בשוק הרבה תכנות OCR, תכנת לזיהוי אופטי של אותיות. עמותת ויקימדיה ישראל סייעה למתנדבי ויקיטקסט בקניית מחשב עם אחת התכנות הללו.

זיהוי תווים אופטי – OCR

[עריכה]

טכנולוגית הw:זיהוי תווים אופטי (OCR) מאפשרת את תרגום הצילום לאותיות, הגם שהיא אינה מדויקת לחלוטין, היא בהחלט מקלה על העבודה ומאיצה בצורה משמעותית את ההקלדה. עמותת ויקימדיה רכשה למען ויקיטקסט תוכנת OCR מתקדמת אשר מאוחסנת על מחשב בעמותה וניתנת לשימוש באמצעות גישה מרחוק. לצורך כך יש להעלות את הקובץ לתיקיה משותפת שנמצאת על שרתי הענן של תוכנת copy, ונמצאת בכתובת הזו. הקובץ יסרק ויועלה לתיקיה שנמצאת כאן כשהוא עבר סריקת OCR וכך תוכלו להקליד בנוחות רבה. את הטקסט המוקלד יש להוסיף לקטגוריה המוסתרת קטגוריה:OCR עמותה.

בדיקה ידנית

[עריכה]

טעות לעולם חוזר ובכל טקסט שהוקלד, כמובן שיכולות להיות טעויות, גם לאחר הגהה.

לשם כך הדרך הכי טובה היא להציג את צילום הספר המקורי במקביל לטקסט המוקלד, וכך יכול כל עורך באתר לתקן בקלות את הטקסט גם אם הספר המקורי אינו בהישג יד.

אז איך עושים זאת?

[עריכה]

הסברים מפורטים ניתן למצוא בעזרה:OCR.


כיצד? יש להעלות קובץ לאתר ויקישיתוף שמכיל את צילום כל הדפים (בתסדיר DJVU או PDF) וליצור דף "מפתח:" כגון זה, שמכיל קישורים לדפי "עמוד:", להוראות ראו עזרה:דף מפתח.

את הטקסט שהוקלד בדפים אלו אפשר להכליל (בהכללה רגילה של דף שלם או של קטעים על ידי LST, לתוך דפים מסודרים כגון זה.

כדאי ליצור קישור עריכה מתוך הדף הסופי אל דפי ה"עמוד:".


לעזרה נוספת ניתן לפנות לאיתן96.