מאמרים בנושא ‏Unicode‏.

ספריית Boost.Locale התקבלה ב־Boost

ב־יום שבת, 23 באפריל 2011, מאת ארתיום; פורסם תחת: תכנה חופשית, פיתוח, תכנה ומחשבים, Unicode, Boost‏; ‏4 תגובות

הספריה Boost.Locale‏ - ספרית לוקליזציה חוצת פלטפורמה התקבלה ב־Boost.

במהלך 16 ימי הבחינה התקבלו 15 סקירות שונות כאשר 10 מתוכם הצביע בעד שילוב הספרייה ב־Boost ו־5 נגד. במהלך הבחינה קיבלתי הרבה הערות בונות שרובן ייכנסו בגרסה הראשונה שתשולב ב־Boost.

ה־Review של Boost.Locale מתחיל עכשיו

ב־יום חמישי, 7 באפריל 2011, מאת ארתיום; פורסם תחת: תכנה חופשית, פיתוח, C++‎‏, Unicode, Boost‏; ‏0 תגובות

בהמשך לפוסט הקודם ה־Formal Review של Boost.Locale מתחיל היום.

אני מקווה ש־Boost.Locale תעבור אותו בהצלחה ותשולב ב־Boost.

עכשיו זה רשמי: Boost.Locale תיבחן לשילוב ב־Boost

ב־יום חמישי, 17 בפברואר 2011, מאת ארתיום; פורסם תחת: תכנה חופשית, פיתוח, תכנה ומחשבים, C++‎‏, Unicode, Boost‏; ‏6 תגובות

עכשיו זה רשמי, תהליך הבחינה הפורמלית (Formal Review) של Boost.Locale‏ לשילוב ב־Boost‏ תיערך בין 7 ל־16 באפריל.

קצת רקע

Boost היא אוסף של ספריות C++‎ חופשיות המשפיע ביותר על הפיתוח המודרני של השפה. הוא מכיל עשרות רכיבים חשובים, שחלקם כבר שולבו בתקן הבא של C++‎ הידוע כ־C++0x‏ בספריה הסטנדרטית. רבים מהם כבר ניתן למצוא בגרסאות האחרונות של קומפיילרים של GNU,‏ Intel ושל Microsoft.

זהו פרויקט קהילתי שמפתח ספריות C++‎ שימושיות חוצות פלטפורמה. כל ספריה, כדי שהיא תשולב ב־Boost צריכה לעבור תהליך בחינה רשמית (formal review) שבמהלכו מפתחים שונים סוקרים את הספרייה בוחנים אותה: תיעוד, קוד, תכנון, מימוש ועוד ובסופו של דבר מצביעים האם כדאי לשלב את הספרייה בתוך Boost או לא.

התהליך מפוקח ע"י מנהל הבחינה (Review Manager) שבסופו של דבר מכריע על סמך קולות והערות המשתתפים אם לשלב את הספרייה ב־Boost או לא.

Chad Nelson, מפתח ספריית Xint התנדב להיות מנהל הבחינה, התאריך נקבע ועכשיו זה רשמי - Boost.Locale תעבור את תהליך הבחינה באפריל.

על הספרייה עצמה

Boost.Locale זאת ספריית לוקליזציה ותמיכה ביוניקוד שמקלה על בנאום ולוקליזציה. היא פותחה על בסיס ספריית ICU שמהווה היום את state-of-the-art בתחום היוניקוד וגם מאפשרת עבודה עם תמיכה מובנית בלוקליזציה שמערכות הפעלה מודרניות מספקות היום.

רכיבים:

  • תרגום מחרוזות (על בסיס gettext)
  • תמיכה במיון של טקסט
  • פרמוט של תאריכים, מספרים, מטבע וכד' בהתאם ללוקל.
  • תמיכה בלוחות שנה שונים (לא גרגוריאני) כמו לוח שנה עברי
  • תמיכה טיפול מחרוזות כמו נורמליזציה
  • תמיכה בחלוקת הטקס ליחידות כמו תווים, מילים, משפטים ועוד.
  • תמיכה בהמרת קידוד הטקסט

ועוד

חשוב לציין שהיא עושה את זה בצורה חוצת פלטפורמה וגם מאפשר לבצע חלק נכבד מהמשימות האלה גם ללא תלות ב־ICU כך שהפרויקטים שלא דורשים תכונות מסובכות מידי יכולים לעבוד עם ספרייה מאוד קלילה ללא תלויות רבות.

שיהיה לי ולספריית Boost.Locale בהצלחה!

נ.ב.: ראוי לציין שהספרייה פותחה במקור עבור פרויקט CppCMS ואחרי שראיתי את התועלת שהיא יכול להביא לתחום הלוקליזציה החלטתי לעבוד בצורה הרבה יותר מאומצת ולהכין אותה ל־Boost.

נ.נ.ב.: לכל המעוניינים, בקרוב תשוחרר גרסה תיעוד הספרייה קצת יותר מועדכנים.

שוחררה גרסה מקדימה של Boost.Locale 3.

ב־יום שישי, 10 בספטמבר 2010, מאת ארתיום; פורסם תחת: תכנה חופשית, לינוקס, פיתוח, תכנה ומחשבים, C++‎‏, Unicode, Boost‏; ‏0 תגובות

שלום,

שוחררה גרסה מקדימה של Boost.Locale

חדש בגרסה:

  • התווספה תמיכה במנגנוני לוקליזציה מרובים:
    • ספריית ICU - ברירת מחדל
    • תמיכה בסיסית של הספריית הסטנדרטית של C++‎ עם שיפורים.
    • POSIX 2008 API (כמו strftime_l)
    • Windows API.

    התמיכה הזו מאפשרת להשתמש בכלי לוקליזציה בסיסיים גם ללא ספריית ICU הכבדה.

  • שיפורים משמעותיים בממשק וניהול לוקלים
  • תיקוני ביצועים עובר ICU
  • שיפורים בעבודה עם UTF-8
  • תיקונים בתמיכה ב־UTF-16

ועוד.

קיימת תמיכה ב:

  • מערכות הפעלה: Linux, ‏FreeBSD,‏ OpenSolaris,‏ Windows,‏ Cygwin, (בקרוב גם Mac OS X).
  • מהדרים (קומפיילרים) gcc (גרסאות 3.4 עד 4.5), ‏Intel 11,‏ MSVC9, ‏SunCC 5.10/stlport

אמת המרה על רמת התמיכה בלוקליזציה

ב־יום ראשון, 5 בספטמבר 2010, מאת ארתיום; פורסם תחת: תכנה חופשית, פיתוח, תכנה ומחשבים, C++‎‏, Unicode, Boost‏; ‏0 תגובות

כפי שחלק מקוראי הבלוג אולי יודעים, אני עובד על ספריית Boost.Locale‏ שאני מקווה תשולב ב־Boost בעתיד.

הספריה נותנת בין השאר תכונות חשובות כמו: תרגום מחרוזות, הצגת תאריכים, מספרים, חלוקת הטקטס לתווים, מילים, מיון לפי סדר אלף־בית וכד'.

כדי לאפשר תמיכה נאותה בכל המרכיבים האלה, אני משתמש בספרית ICU‏ שנותנת את כל הדרוש, למעט API שמתכנת C++‎ שפוי יכול להשתמש בו.

למרות ש־ICU היא ספריה מצוינת, יש לה גם לא מעט חסרונות:

  • גודל הספרייה שמכילה את כל הנתונים הוא כ־12 מ"ב! זה בד"כ מאוד בעייתי עבור סביבות משובצות מחשב.
  • ביצועים - היא לא מצטיינת בהם, למשל יצירת תאריך או מספר לוקחת עד פי 10 יותר זמן בעזרת פונקציות ICU השוואה לפונקציות כמו strftime.

לכן, החלטתי להוסיף ל־Boost.Locale מנגנונים שיאפשרו לעבוד עם התמיכה הבסיסית בלוקליזציה שנמצאת בכל מערכת הפעלה או ספריה סטנדרטית.

למרות שכמעט בכל מערכת הפעלה יש פונקציות כמו setlocale, strcoll או strftime הן לא מתאימות לי כי הן אינן מאפשרות לעבוד עם מספר לוקלים שונים באותו תהליך בצורה בטוחה.

אבל עדיין, יש לי שלוש אופציות:

  • שימוש בספריית C++‎ הסטנדרטית שמכילה את מרבית הדברים הנדרשים.
  • שימוש ב־API של POSIX 2008 שמגדיר אוסף פונקציות כמו newlocale, strftime_l או strcoll_l במערכות תואמות POSIX (למעשה, ה־API הזה נתמך בלינוקס ובמק).
  • שימוש ב־Win32 API שנותן פונקציות די עשירות כמו GetDateFormat, CompareString וכד' שנותנות תמיכה רצינית בלוקליזציה.

כמובן פה ושם צריך לסדר דבר או שניים כמו MSVC שלא מכיר בשמות לקול כמו en_US.UTF-8 ולא תומך ב־UTF-8, לעשות התאמות פה ושם להבדלים בין לינוקס ומק במימוש של API של לוקליזציה וכד'.

עד כאן זה נראה מבטיח, אבל מסתבר שרק על הנייר...

  • libstdc++‎ של GCC לא תומך בלוקליזציה בשום מערכת הפעלה מלבד Linux (לא שזה חדש, בגלל זה הוספתי את שתי האופציות הנוספות).
  • ‏מסתבר שב־Mac OS X (וגם ב־FreeBSD) פונקציה strcoll שבורה לחלוטין, כך הוא לא יודע לסדר a < ç < d או אפילו a < C < d כפי שזה מתבקש בשפה בטבעית.
  • ב־Solaris פונקציות towupper ו־towlower לא ממש מתחשבות בלוקל (למשל בלוקל טורקי i הופכת ל-"İ" ולא ל־"I" ב־upper case)

בגדול... עצוב ומעצבן, אבל... טוב שיש לנו ICU וטוב שלפחות לינוקס וחלונות מספקים API שעובד בצורה סבירה (אם כי ממש לא מושלמת).

העמוד הבא

העמוד הבא

דפים

נושאים