הבלוג של ארתיום
בלוג על לינוקס, תוכנה חופשית, מוזיקה, סלסה, ומה לא!
מאמרים בנושא תכנה ומחשבים.
"האח הגדול" בהתנדבות ושמו Facebook.
ביום ראשון, חזרתי מקונגרס הסלסה ורציתי למצוא מה מספרים האנשים על הקונגרס באתרי הסלסה הגדולים כמו: LaMusica.co.il, salsa.co.il שעד לא מזמן, היו מקורות מידע מעולים. לתדהמתי גיליתי אתרים שוממים לגמרי. אף אחד לא שואל: "איך היה", לא מספר "היה מגניב" או מתלונן, אף אחד לא מביע ביקורת.
למעשה, בשנה האחרונה, לא קראתי ולא כתבתי באתרים אלו באופן פעיל, אלא הייתי רק מציץ לשתי דקות פעם בחודש--חודשיים. הבנתי, משהו רע מאוד קרה לאתרי הסלסה בארץ. אז נתקלתי בדיון הזה בפורום ב־LaMusica והבנתי שכל הפעילות, כל הדיונים עברו ל־Facebook. למעשה, כל השיחות התפזרו בין קבוצות ומועדונים שונים ב־Facebook עצמו אם כי בצורה שונה מהדיונים שהיו פעם. כפי ש־"Icy" סיכם:
לדעתי הפייסבוק ... אינו מהווה שום תחליף למקום בו ראוי לפרוק את יצר הכתיבה, בטח לא תחליף ל-Lamusica באספקט הזה.
מה שכן, כולם שם. למה? כי כולם שם. למה? כי כולם שם...
למרות, התנגדותי ל־Facebook ורשתות חברתיות בפרט, החלטתי לפתוח חשבון על שם וכתובת דוא"ל בדויים ולהיכנס כדי לראות: מה כותבים על הקונגרס ב"ספר הפרצופים" הגדול בתולדות האנשות.
מה שגיליתי, פשוט הפחיד אותי... באמת!
המשך...האם אתה מוכן לבינאום ולוקליזציה?
הכנתי שאלון קצת שמאפשר לכם לבדוק... האם אתם מוכנים לכתיבת תכנה שתהיה מוכנה להתאמה לתרבויות שונות?
- אני רוצה לייצג מחרוזת, כ־
char *some_text
. מהו המידע שחסר לי? - יש לי מחרוזת
wchar_t *text
אוString text
ב־Java, אני רוצה לקחת את התו הראשון שלה: wchar_t c=text[0]; // C Char c=text.charAt(0); // Java האם זהו קוד נכון? - אני כותב את הקוד הבא: if n==1: print translate("You have one aplle") else: print translate("You have %d apples") % n מה לא בסדר בקוד הזה?
מה לא בסדר בקוד הבא: #include <stdio.h> #include <time.h>
int main() { time_t now_t=time(NULL); struct tm *now=localtime(&now_t); char str_time[32]; strftime(str_time,sizeof(str_time),"%d/%m/%y",now); printf("Today is %s\n",str_time); return 0; }
- מהו גודל הזכרון הנדרש לשמירת תו unicode בודד?
- מהו גודל של wchar_t? (למתכנתי C++/C)?
- מהי גודל של תו unicode בשפת התכנות שאתה אוהב?
- מהו קידוד של מחרוזת (unicode) בשפת התכנות/toolkit שאתה אוהב?
- מה הבדל בין utf-8, utf-16, utf-32?
- מהו אורך התו הארוך ביותר ב־utf8?
- בניתי ספרייה עם שתי פונקציות בלבד. מה לא בסדר בקוד הבא (שתי בעיות לפחות)? extern Char32 to_upper_char(Char32); void to_upper(String str) { for(int i=0;i<str.size();i++) str[i]=to_upper(str[i]); }
- מה לא בסדר בקוד הבא: def print_error_message(message): print translate("Error occured: ")+"“"+translate(message)+"”"
- מה לא בסדר בקוד הזה:
<?php $rtl_langs=array("he","ar","pa"); ?>
...
> ...
- אני רוצה לחתוך את הטקסט בצורה יפה, כך שזה לא ייחתך באמצע המילה: מה לא בסדר בקוד הבא: // Cut nice pice of text wstring cut_nicely(wstring const &orig,int n) { if(orig.size()<=n) return orig; return orig.substr(orig.find_first_of(L" \r\n\t\f",n)); }
Unicode ב־C++ תיקון טעות.
עדכון קטן על תמיכה ב־Unicode ב־C++. למעשה, כשאמרתי בכתבה קודמת שאין כל תמיכה ב־Unicode, טעיתי. דווקא יש תמיכה אם כי היא לא מתקרבת למה ש־ICU נותן.
std::locale נותן מספר ממשקים בפרט: std::ctype<> שמאפשר המרה של case והמרת קידוד בין קידוד מקומי כמו utf-8 או cp1255 למחרוזות של wchar_t. הוא מצליח להמודד עם מקרים יחסית פשוטים כמו המרת "Артём" (השם הפרטי שלי ברוסית) לאותיות גדולות וקטנות בצורה נכונה: АРТЁМ. דבר שכל הכלים, אפילו פחות מוצלחים כמו Python ו־qt3 מצליחים לבצע ללא בעיה.
אבל תמיכה מובנית עדיין לא מצליחה להתמודד עם מקרים מסובכים יותר כמו ß הגרמנית ו־Σ היוונית.
כך שלצרכים הבסיסיים, ניתן להסתפק ב־API של C++ כפישהו, אבל כמובן זאת לא תמיכה מלאה (כמו גם בשפות אחרות, משל Python).
לדוגמה toupper:
// Set global locale
locale::global(locale("en_US.UTF-8"));
// Now we can use locale for various purposes
wchar_t str[]=L"Артём";
use_facet<ctype<wchar_t> >(locale()).toupper(str,str+5);
ייסורי Unicode ב־2009, או תמיכה ב־unicode בסביבות שונות.
אחד הדברים החסרים ביותר ב־C++, מבחינתי, זה העדר תמיכה טובה ב־Unicode. למרות ש־std::wstring ו־std::locale קיימים הם לא נותנים מענה על כל דרישות העבודה עם Unicode.
יש שפות תכנות כמו Python ו־Java בהן התמיכה הזו נחשבת ל"טבעית". אז החלטתי לעשות בדיקה ולבדוק מספר דברים חיוניים בעיבוד טקסט טבעי: החלפה בין אותיות גדולות וקטנות וכן מציאת גבולות המילים. דברים שנראים טריוויאליים עבור אנגלית למעשה הופכים לכלל לא טריויאליים כאשר מדובר בשפות אחרות:
- שינוי אות קטנה לגדולה: ß גרמנית צריכה להפוך ל־SS (שתי אותיות).
- שינוי אות גדולה לקטנה: Σ היוונית הופכת ל־σ במרכז המילה ול־ς בסופה.
- הפרדת מילים לצורך חיתוך הטקסט: 中文 אלה שתי מילים ולא מילה אחת.
בדקתי 6 כלים: ספריית ICU עם API במספר שפות, ספריית glib יחד עם pango עבור C, ספריות Qt3 ו־Qt4 עבור C++, וגם כלים טבעיים של Java, C++ ושל Python.
אקדים ואומר, המקרים הפשוטים כמו המרת: "Артём" (השם הפרטי שלי ברוסית) ל"АРТЁМ" עבדו בכל הכלים ושפות, אבל במקרים יותר מורכבים התוצאות היו כלל לא מעודדות:
כלי | לאותיות גדולות | לאותיות קטנות | גבולות המילים |
---|---|---|---|
C++ | נכשל | נכשל | אין תמיכה |
C++/ICU | הצליח | הצליח | הצליח |
C++/Qt4 | הצליח | נכשל | הצליח |
C++/Qt3 | נכשל | נכשל | אין תמיכה |
C/glib+pango | הצליח | הצליח | נכשל |
Java/JDK | הצליח | הצליח | נכשל |
Java/ICU4j | הצליח | הצליח | הצליח |
Python | נכשל | נכשל | אין תמיכה |
Python/PyICU | הצליח | הצליח | הצליח |
עכשיו פרטים
המשך...האם בסיס הנתונים הוא צוואר הבקבוק של המערכת?
אחת הדעות המקובלות בקרב מפתח Web היא שבסיס הנתונים הוא צוואר בקבוק של המערכות. בסופו של דבר, אם יש המון נתונים והחיפוש לוקח אז אין מה לעשות. ברמה תיאורתית זה נכון.
אם יש לך בסיס נתונים של 1,000,000Gb (שזה ) אז כנראה החזקה מספיק גדולה ואין משמעות לטכנולוגיות אחרות... השאלה היא האם זה נכון?
כידוע, מודל הסיבוכיות הוא עובד יפה כשמדובר במספרים גדולים מספיק ונוהג להתעלם מקבועים. מסתבר שהקבועים הם מספיק חשובים.
כדי להבין את זה, נקח כדוגמה את אחד הפרוייקטי ה־web הגדולים --- wikipedia או ליתר דיוק את חוות השרתים של wikimedia.
נתונים גולמיים:
- בחוות השרתים נמצאים כ־300 שרתים שונים.
- מתוכם במסלול הראשי:
- 95 שרתי Squid -- מה שנקרא Upstream cache שנותנים מענה לכ־78% מכל הבקשות (hit ratio שלהם).
- 144 שרתי Apache+PHP. שנותנים מענה ל־25% הנותרים.
- 20 שרתי MySQL שונים הרצים בתצורות Master Slave השונות.
- השרתים האחרים נותנים מענה לחיפוש, טיפול בקבצים סטטיים ועוד.
- מנגנון memcached משפרים ב־7% הנוספים את היעילות של יצירת התוכן ע"י שרתי Apache.
לכן כיצד שרתי SQL יכולים להוות צוואר בקבוק של המערכת אם הם מהווים פחות מ־10% מכל השרתים הקיימים בחווה? בהנחה שהמערכת שנבנתה ע"י media wiki היא מאוזנת, ברור לנו שרוב העומס החישובי נופל דווקא על שרתי apache המריצים את PHP.
אז האם באמת בסיס הנתונים הוא צוואר הבקבוק?