LaTeX ועברית - תמונת מצב

ב־17.2.2007, מאת ארתיום; פורסם תחת: פיתוח, תכנה ומחשבים, LaTeX ועברית; ‏10 תגובות

לאחר אכזבה מכל ערכות יישומים משרדיים - Open Office, Microsoft Office, KOffice, Gnome Office והכרות עם יכולות של LaTeX בכל הנוגע לכתיבה באנגלית - החלטתי לבדוק את היכולות של LaTeX בתחום עברית.

LaTeX ועברית - הבעיות:

למרות ש-LaTeX היום מספק תמיכה בעברית אודות ivritex המצב רחוק משלמות. הנה רשימה קצרה של בעיות:

  • חוסר תיעוד - קיימים שתיים וחצי אתרים עם תיעוד בסיסי לשימוש ב-LaTeX בעברית וגם הם לא מעודכנים או מטעים.
  • התקנה - למרות שגרסה בסיסית של ivritex מסופקת עם רוב הפצות לינוקס, התקנה של גופנים נוספים או התקנה של ivritex העדכני ביותר, עדיין בעייתית.
  • תמיכה בניקוד לוקה בחסר (או ליתר דיוק דורשת מאמצים עיליים להפעלה).
  • קהילת משתמשים קטנה - דבר שפוגע בהתפתחות שוטפת של LaTeX.
  • הבעית כיווניות - שילוב של עברית עם טקסט שכתוב משמאל בעייתית - היא הופכת את הכתיבה למסובכת למידי.

למרות כל הנאמר לעיל - אני בהחלט אופטימי - כי רוב הבעיות הן פתירות, יותר מזה, כשמתגברים עליהם בסופו של דבר מקבל כלי עבודה חזק ואיכותי.

תמיכה בכיווניות

אחת הבעיות המציקות (לי) ביותר היא הצורה שבא אני נדרש לכתוב טקסטים:

שמי ארתיום - \L{Artyom} נולדתי ב-\L{1981} בקייב )אוקראינה(.

המשמעות היא - להפוך סוגריים ולשים תג מסביב לכל קטע שנכתב משמאל לימין. כמובן "כתיבה כזו" מאוד בעייתית, אבל בדיוק בשביל זה כתבתי את התכנה BiDiTeX שנועדה לפתור את הבעיה. כמובן שהתכנה עדיין צעירה ולא תמיד עושה את העבודה ב-100% במקרים מסובכים, אבל היא כן מקלה על העבודה בצורה משמעותית.

מכאן, אם יש לך דרישות צנועות, ניתן לעבוד עם ivritex בצורה טובה.

תיעוד והתקנה

כרגיל - כמו בכל מקום בקוד פתוח - זאת בעיה של "ביצה ותרנגולת". אין משתמשים אין תיעוד - אין תיעוד אין משתמשים. כך או אחרת, אם LaTeX יהפוך ליותר פופולרי אז יהיה יותר תיעוד, הוא יהיה עדכני יותר. יהיו יותר חבילות מוכנות מראש. יותר בעיות ייפתרו.

במצב של היום, זה לא מסובך להתחיל לכתוב ב-LaTeX. אבל כל פעולה מעבר לבסיסית דורשת מאמצים עיליים על מנת לעשות אותה - כמו התקנה של גרסה חדשה של ivirtex או התקנת חבילת nikud.

נִקּוּד

חבילת ivirtex לא מספקת תמיכה בסיסית בניקוד. הוא זוחל בצורה שאי אפשר להשתמש בו. יש שתי חבילות שמספקות את העבודה עם ניקוד - חבילת גופנים nikud וחבילת גופני TrueType של Microsoft שמאפשרים הצגה של גופנים כאשר קבצי tex באים בקידוד cp1255 בלבד.

למרות שתי החבילות מספקות את הדרוש, יש להן מספר בעיות:

  1. שימוש בחבילת nikud מחייב עבודה עם ghostscript 7.07 (ולא גרסה אחרת!).
  2. חבילת גופני TrueType מספקת איכות ירודה של ניקוד ונותנת גופנים שהם לא "עבריים".
  3. בשני המקרים התוצאה הסופית יכולה להיות רק קובץ pdf.
  4. התקנה מאוד מסובכת.

חבילות הגופנים השונות

היום קיימות מספר חבילות שונות שמספקות גופנים עבריים ל-LaTeX בעברית

  • hebfont - החבילה שבאה עם ivritex. היא מספקת את גופן "דוד" כגופן ברירת מחדל. ניתן לראות דוגמה למסמך - כאן.
  • culmus - חבילה שמסופקת ע"י nikud. היא באה עם גופן "פרנק ריהל" איכותי, נותנת תמיכה יוצאת מן הכלל בניקוד עברי. ניתן לראות דוגמה למסמך - כאן.
  • ttfheb - חבילה שמאפשרת עבודה עם גופני TrueType. היא עובדת עם ‎Times New Roman. ניתן לראות דוגמה למסמך - כאן.

כל מי שמתעניין קצת יותר לעומק בהיסטוריה של גופנים עבריים ודפוס עברי, מוזמן לקרוא את המאמר המצוין הזה.

חבילה גופנים hebfont של ivritex.

hebfontהחבילה הזו באה כברירת מחדל עם ivirtex ולא דורשת שום מאמץ להתקנה. כמו שכבר ציינתי לעיל היא מספקת גופן "דוד" כברירת מחדל. למרות שבסה"כ, לעבודה שוטפת אין בעיות מיוחדות, היא לא מספקת מספר דברים חשובים:

  1. ניקוד פשוט לא עובד, גם אם הוא מוצג הוא מוזז לגמרי
  2. בגופן "דוד" אין סימן מקף "--" וצריך להשתמש בתג emdash\ או endash\ על מנת להציג אותו (או להשתמש בטיפול ש-BiDiTeX נותן). הוא מוצג בעזר גופן לועזי ונראה לא מספיק טבעי בתוך הטקסט העברי.
  3. יש התנגשות בינו לבין חבילת newcent שמספקת גופן לטיני יותר "עבה" שנראה יותר טבעי בתוך הטקסט העברי.

הבעיות האלו לא קריטיות עבור רוב המשתמשים אבל מספיק גדולות על מנת למנוע שימוש "מקצועי" בחבילה הזו.

חבילת גופנים culmus של nikud.

קולמוסהחבילה הזו מספקת אחד הגופנים העבריים האיכותיים ביותר - "פרנק ריהל" שנמצא בשימוש רחב בדפוס עברי. כמו כן, היא מספקת תמיכה מעולה בניקוד בעזרת שיטה שמתוארת במאמר של פרופ' סיון טולדו.

למרות שאיכות הגופנים בחבילה הזו מעולה, היא סובלת ממספר בעיות משמעותיות:

  1. התקנה שלה די מסובכת
  2. לא ניתן לעבוד עם pdflatex כשמשתמשים בחבילה הזו.
  3. חובה להשתמש ב-ghostscript 7.07 ולא אחר - גרסאות אחרות קורסות בהמרה ל-pdf
  4. חובה לעבוד רק עם קידוד cp1255 - מה שמונע שימוש בה בסביבה רב־לשונית.
  5. דורשת שימוש בחבילה newcent להצגת גופנים לטיניים - אחרת הם יזחלו בתוך שורת טקסט.

למרות כל הבעיות האלו, החבילה הזו נותנת את הפתרון האיכותי ביותר להצגת טקסט עברי.

גופני TrueType של ttfheb.

TrueTypeהחבילה הזו מאפשרת שימוש בגופן Times New Roman בתור גופן עברי. היא נותנת פתרון חלקי לבעיית ניקוד (הניקוד מוצג אבל לא תמיד בצורה מספיק טובה). חבילה זו סובלת ממספר בעיות:

  1. גופן Times New Roman בשום־פנים־ואופן לא יכול להיחשב כ"גופן עברי איכותי". הוא לא מספיק "עבה" בשביל טקסטים עבריים, הוא לא נותן סימני פיסוק אופיינים לטקסטים עבריים
  2. הוא עובד רק עם pdflatex - כך שזה פוסל אפשרות הכנסת שרטוטים בצורה "טבעית" ל-LaTeX - קבצי eps
  3. ניקוד לא מוצג בצורה מספיק טובה וניתן להשתמש בו רק כאשר הטקסט מקודד ב-cp1255
  4. סגנון נוכחי מכיל באג בקידוד של מספר סימני ניקוד (תיקנתי, שלחתי - אבל בינתיים לא קיבלתי תשובה).

סיכום

  • במצב של היום - תמיכה בעברית ב-LaTeX מאפשרת לעבוד בצורה בסיסית אם אין דרישות מיוחדות.
  • הבעיות העיקריות - כיווניות, גופנים וניקוד הן פתירות אבל דורשות מאמץ בפתרון שלהם (לפעמים מאמץ גדול כמו התקנה של גרסה נוספת של ghostscript).
  • איכות התוצאה הסופית היא מאוד גובהה (במיוחד אם משתמשים בחבילת nikud).

רשימת קישורים ומקורות

תגובות

nadavvin נדב, ב־17.2.2007, 14:43

אפשר לדעת מה הבעיה עם מיקרוסופט אופיס?

והאמת, אפשר לעשות זאת בקלות באופן אופיס, לא?

חוץ מיזה הבעיה היא שאין עורכי טקסט טובים.

כאלה שתוכל להכריח כיווניות בקלות כמו לחיצה על ctrl+shift ואז יהיה לך יותר קל לעשות דברים.

דבר שני מה עם docbook? למרות שאני מניח שהוא גם בעיתי מבחינות שונות בעברית אבל הייתרון שיש לך יותר שליטה ומקסימום להתאים XSLT שהתוצאה תיראה יותר טובה.

ובנוסף אפשר להכניס לאטקס בשביל נוסחאות.

והאמת גם אפשר בקלות לעבוד עם open document ישירות. יש לkword אפשרות לשמור מסמך בodf בצורה לא דחוסה, כלומר הוא מפזר את קבצי הXML במקום בקובץ ODT אחד.

אבל אני מניח שכבר עדיף לעבוד עם דוקבוק.

ארתיום, ב־17.2.2007, 15:04

נדב, אני מציע לך שתקרא את המאמר "מעבדי-תמלילים: טיפשים ולא יעילים", שנתתי קישור אליו - יש שם הסבר מקיף מה ההבדל בין מעבד תמלילים לבין LaTeX. אני לא מרוצה מגישה WYSIWYG באופן כללי - כי יש בה יסודות מוטעים.

לא מדובר בנוסחאות בלבד - מדובר בהפרדה בין התוכן לבין הסידור של הטקסט על הדף הסופי.

בכל אופן - זה לא הנושא שכתבתי עליו - כתבתי על "עברית" ב-LaTeX ולא על מעבד תמלילים מול LaTeX - ואני לא רוצה להרחיב בנושא.

כאלה שתוכל להכריח כיווניות בקלות כמו לחיצה על ctrl+shift ואז יהיה לך יותר קל לעשות דברים.

אני משתמש ב-gedit - התגים נכתבים בשורות נפרדות והם נראים בצורה טבעית. בנוסף אם אתה מעוניין ב-ctrl+shift אז יש תמיכה כזו ב-qt - לדוגמה ב-kedit (אם כי הוא קצת יותר מידי פשוט).

יונתן אורלב, ב־17.2.2007, 19:03

הנושא של LaTex וההבחנה בין מעבדי תמלילים לשפות סידור (?) לא ממש מובנים לי, אבל זה דבר שאני אצטרך לקרוא עליו בקישור שנתת ובמקומות אחרים.

השאלה שלי אחרת: האם זה לא מוציא את הנשמה לעבוד באמצעות קידוד ישיר? האם זה לא קצת כמו לכתוב HTML באופן ישיר?

כלומר, לדברים קטנים אין בעיה, אבל כשזה נעשה מורכב, איך אפשר להבין מה מה צריך להקליד?

ושאלה נוספת: באיזה עורך אתה משתמש?

אין צורך בתשובה ארוכה, אם התייחסת לזה אמור לי ואני אמצא.

תודה רבה מראש (-:

nadavvin נדב, ב־17.2.2007, 22:49

"ושאלה נוספת: באיזה עורך אתה משתמש?

אין צורך בתשובה ארוכה, אם התייחסת לזה אמור לי ואני אמצא.

תודה רבה מראש (-: "

הוא אמר בסוף התגובה שמעליך: "אני משתמש ב-gedit - התגים נכתבים בשורות נפרדות והם נראים בצורה טבעית. בנוסף אם אתה מעוניין ב-ctrl+shift אז יש תמיכה כזו ב-qt - לדוגמה ב-kedit (אם כי הוא קצת יותר מידי פשוט). "

וזה ממש לא כמו HTML אלא הרבה יותר קל ופשוט. אתה יכול לראות בשביל ההמכשה מדריך קצר על לאטקס: http://www.maths.tcd.ie/~dwilkins/LaTeXPrimer/

ארתיום, ב־17.2.2007, 22:59

בקשר לכתיבה ל-LaTeX - זה כן מזכיר כתיבה של HTML אבל זה גם שונה בהרבה מובנים.

האם זה לא מוציא את הנשמה לעבוד באמצעות קידוד ישיר?

בפעמים הראשונות כן - כשאתה צריך לרוץ אחרי כל פקודה לתיעוד ולחפש. לאחר מכן, ממש לא. פשוט אתה מוסיף סמנטיקה למסמך שלך שהייתה מוסיף בעזרת תפריט "Headings" או כל דבר אחר. אם אתה כותב לרוב טקסט פשוט אז אתה גם לא צריך להוסיף יותר מידי דברים מיותרים. ושוב, כשמדובר בדברים מורכבים גם מעבד תמלילים זה לא דבר פשוט במיוחד בלי הכרות מוקדמת - הכל עניין של הרגל (וכמובן למידה).

חשוב לציין - בלי BiDiTeX הכתיבה בעברית אכן מסובכת... (בגלל של-LaTeX אין תמיכה טבעית באלגוריתם BiDi של Unicode)

באיזה עורך אתה משתמש?

כפי שאמרתי לנדב, אני משתמש ב-gedit (העורך הסטנדרטי של gnome) עושה את העובדה מספיק טוב - במיוחד כשמדובר בעברית.

יונתן אורלב, ב־24.2.2007, 15:15

אוקיי ארתיום, תודה. (-:

איתי, ב־11.3.2007, 20:47

שלום ארתיום אני סטודנט להנדסת תעו"ן. אני בונה editor אדפטיבי מתמטי ב web לפרויקט גמר. הבעיה שלי היא שאין תמיכה לשירות latex בעברית. כלומר שליחה של טקסט בעברית וlatex לשרת וקבלה חזרה תמונה (gif) של הטקסט. שליחה של latex ללא טקסט בעברית יוצר מצב של חוסר פרופורציה בין התמונה לטקסט. ידוע לי שיש דרכים אחרים לייצג ביטןיים מתמטים כמו mathml אבל המנחים שלי נעולים על latex השאלה שלי היא כיצד ניתן לפתור את הבעיה? האם IvriTeX וBiDiTeXיעזרו לי? ואם יש פתרון אחר שתוכל להציע?

בתודה מראש איתי

ארתיום, ב־11.3.2007, 21:03

תשמע, אני לא מכיר את הנושא של LaTeX ב-Web אבל עד כמה שידוע לי יש הרבה יישומים שמשתמשים במנוע LaTeX לתצוגת נוסחאות. לדוגמה Wikipedia משתמשת בתחביר LaTeX. ראה לדגומה http://he.wikipedia.org/wiki/LaTeX

אני מניח שאתה יכול לקבל השראה מהם (בנוסף mediawiki הוא מנוע קוד פתוח כך שתוכל לראות מה הם עושים בנידון). אני בטוח שיש פרמטרים שניתן לכוון הן עבור גודל הטקסט בעברית והן עבור הנוסחאות.

מה שכן, לפי דעתי, אתה לא ממש זקוק ל-ivirtex או biditex לנושא דפי אינטרנט', כי יש פתרונות טבעיים לתצוגה של עברית וטיפול בכיווניות ב-web.

בכל אופן, אני לא מכיר את הנושא של LaTeX ו-Web מספיק טוב.

אריאל, ב־29.10.2008, 1:25

אני צריך את הגופן קורן ואת הגופן סיוון. איפה ניתן להשיגם? תודה

ארתיום, ב־29.10.2008, 7:20

אני צריך את הגופן קורן ואת הגופן סיוון. איפה ניתן להשיגם? תודה

לא ממש ניתן. LaTeX משתמש בגופני Type1. אתה בטח מדבר על גופני TrueType. יש אוסף יפה של גופנים שבא עם culmus-latex שבד"כ מספיק.

בנוסף, אתה יכול לנסות להשתמש ב־XeTeX שיודע לעבוד עם גופני TrueType. אבל הוא עדיין לא ממש שמיש מבחינת עברית.

הוסף תגובה:

 
 כתובת דוא"ל לא תוצג
 

ניתן לכתוב תגובות עם שימוש בתחביר Markdown.

חובה לאפשר JavaScript כדי להגיב.

דפים

נושאים