הבלוג של ארתיום
בלוג על לינוקס, תוכנה חופשית, מוזיקה, סלסה, ומה לא!
מאמרים בנושא אינטרנט.
"האח הגדול" בהתנדבות ושמו Facebook.
ביום ראשון, חזרתי מקונגרס הסלסה ורציתי למצוא מה מספרים האנשים על הקונגרס באתרי הסלסה הגדולים כמו: LaMusica.co.il, salsa.co.il שעד לא מזמן, היו מקורות מידע מעולים. לתדהמתי גיליתי אתרים שוממים לגמרי. אף אחד לא שואל: "איך היה", לא מספר "היה מגניב" או מתלונן, אף אחד לא מביע ביקורת.
למעשה, בשנה האחרונה, לא קראתי ולא כתבתי באתרים אלו באופן פעיל, אלא הייתי רק מציץ לשתי דקות פעם בחודש--חודשיים. הבנתי, משהו רע מאוד קרה לאתרי הסלסה בארץ. אז נתקלתי בדיון הזה בפורום ב־LaMusica והבנתי שכל הפעילות, כל הדיונים עברו ל־Facebook. למעשה, כל השיחות התפזרו בין קבוצות ומועדונים שונים ב־Facebook עצמו אם כי בצורה שונה מהדיונים שהיו פעם. כפי ש־"Icy" סיכם:
לדעתי הפייסבוק ... אינו מהווה שום תחליף למקום בו ראוי לפרוק את יצר הכתיבה, בטח לא תחליף ל-Lamusica באספקט הזה.
מה שכן, כולם שם. למה? כי כולם שם. למה? כי כולם שם...
למרות, התנגדותי ל־Facebook ורשתות חברתיות בפרט, החלטתי לפתוח חשבון על שם וכתובת דוא"ל בדויים ולהיכנס כדי לראות: מה כותבים על הקונגרס ב"ספר הפרצופים" הגדול בתולדות האנשות.
מה שגיליתי, פשוט הפחיד אותי... באמת!
המשך...האם בסיס הנתונים הוא צוואר הבקבוק של המערכת?
אחת הדעות המקובלות בקרב מפתח Web היא שבסיס הנתונים הוא צוואר בקבוק של המערכות. בסופו של דבר, אם יש המון נתונים והחיפוש לוקח אז אין מה לעשות. ברמה תיאורתית זה נכון.
אם יש לך בסיס נתונים של 1,000,000Gb (שזה ) אז כנראה החזקה מספיק גדולה ואין משמעות לטכנולוגיות אחרות... השאלה היא האם זה נכון?
כידוע, מודל הסיבוכיות הוא עובד יפה כשמדובר במספרים גדולים מספיק ונוהג להתעלם מקבועים. מסתבר שהקבועים הם מספיק חשובים.
כדי להבין את זה, נקח כדוגמה את אחד הפרוייקטי ה־web הגדולים --- wikipedia או ליתר דיוק את חוות השרתים של wikimedia.
נתונים גולמיים:
- בחוות השרתים נמצאים כ־300 שרתים שונים.
- מתוכם במסלול הראשי:
- 95 שרתי Squid -- מה שנקרא Upstream cache שנותנים מענה לכ־78% מכל הבקשות (hit ratio שלהם).
- 144 שרתי Apache+PHP. שנותנים מענה ל־25% הנותרים.
- 20 שרתי MySQL שונים הרצים בתצורות Master Slave השונות.
- השרתים האחרים נותנים מענה לחיפוש, טיפול בקבצים סטטיים ועוד.
- מנגנון memcached משפרים ב־7% הנוספים את היעילות של יצירת התוכן ע"י שרתי Apache.
לכן כיצד שרתי SQL יכולים להוות צוואר בקבוק של המערכת אם הם מהווים פחות מ־10% מכל השרתים הקיימים בחווה? בהנחה שהמערכת שנבנתה ע"י media wiki היא מאוזנת, ברור לנו שרוב העומס החישובי נופל דווקא על שרתי apache המריצים את PHP.
אז האם באמת בסיס הנתונים הוא צוואר הבקבוק?
ניהול Sessions ב־CppCMS
הערה 05/01/2009: פורסם מדריך לעבודה עם sessions בויקי
אחד החלקים חשובים של כל תשתית פיתוח יישומי אינטרנט הוא --- תמיכה בניהול Sessions: שמירת מידע בין בקשות שונות. זה מאפשר להפוך פרוטוקול HTTP שהוא stateless בטבעו ל־statefull. זהו מרכיב הכרחי שקיימ ברוב התשתיות כמו Django או RoR.
בד"כ, אני נוהג להסתכל בפתרונות הקיימים, לבחור את הטוב ביותר וליישמו במסגרת האילוצים של CppCMS. גם הפעם הסתכלתי בשתי התשתיות הפופולריות RoR ו־Django והבנתי, שהפתרון שהם מציעים, כפי שהוא לא מתאים בגלל אילוצי ביצועים.
הדרך "זולה" ביותר, היא לשמור את המידע ב"עוגיות" אבל יש לה שני מגרעות:
- יש מגבלה של כ־4K נתונים שניתן לשמור בעוגיה (לא כולל קידוד וכד').
- RoR שנותנת אפשרות ניהול מידע בעוגיות, לא מבטיחה שהמידע השמור לא ייחשף ללקוח --- תחשבו על פתרון Captcha ששמור בתוך עוגיה..
שמירת המידע בצד השרת כרוכה בשתי בעיות:
- ניהול בסיס נתונים כלשהו לשמירת המידע --- שיכול להוות צוואר בקבוק.
- בעית הביזור שלו גישה מרובת משתמשים.
לכן, החלטתי שב־CppCMS אני אלך על פתרון קצת שונה שמשלב את התכונות של שניהם (עם שיפורים).
המשך...תולדות הבלוג שלי (בעקבותיו של שלומי).
שלומי ישראל (הידוע כ־sijp) העביר לי משימה לכתוב בנושא "תולדות הבלוג שלי". בד"כ אני לא מתפתה להשתתף בשרשורי משימות כאלה, אבל הפעם, החלטתי שהנושא מספיק מעניין.
הכל התחיל לפני יותר משנתיים, כאשר פרסמתי את הכתבה הראשונה שלי. אז התקנתי מערכת בלוגים WordPress בעברית הסטנדרטית שהייתה אז עוד בגרסה 2.0.7. המערכת הייתה מאוד נחמדה והשתמשתי בה הרבה מאוד זמן.
התכנון המקורי היה להתרכז בשני נושאים:
- סלסה וריקוד ולהחליף פרסום כתבות באתר LaMusica.co.il בכתיבה בבלוג שלי.
- להתחיל לכתוב בנושא תכנה חופשית
לצערי, הנושא הראשון, בסופו של דבר, הסתכם במספר מצומצם של כתבות, כך שהבלוג הפך לבלוג מחשבים כמעט טהור; ובסביבות אוקטובר 2007, הוא זכה להיכנס ל־planet.linux.org.il.
במקביל התחלתי לפתח טכנולוגיית web חדשה --- CppCMS; ובדצמבר 2007, פתחתי בלוג נוסף באנגלית, שהיה אמור לשמש אותי לשתי מטרות:
- בניית פלטפורמת הניסוי של הטכנולוגיה החדשה
- פרסום מידע אודות CppCMS לקהל שלא מדבר בעברית.
יחד עם התקדמות הפרויקט, מערכת הבלוגים הפכה ליותר ויותר בשלה. במאי 2008 החלטתי להיפרד מוורדפרס ולהחליפו במערכת החדשה. מאד הבלוג הזה רץ על טהרת C++.
מה השתנה בדפדפן הזה, או הניצוץ של כרום.
לא, אני לא הולך לכתוב עוד אחת מאלף ואחת סקירות מתלהבות (או לא כל־כך) על Google Chrome. בסה"כ הגיע עוד דפדפן מעשרות הקיימים: IE, Maxton, Firefox, Galeon, Epiphany, Konqueror, Safari, Flock, Camino, Opera ועוד. אז יש לנו עוד דפדפן, מה הסיפור שלו? היום, לבנות דפדפן זה משהו יחסית פשוט. קח מחלקה של KHTML, Gecko, או של WebKit, דחוף אותה למעטפת GUI ויש לך דפדפן. עכשיו נשאר להמציא עוד כמה עשרות כפתורים מוזרים, להוסיף כמה פיצ'רים נחמדים ולשווק.
לכן, כפי שאתם יכולים להבין אני לא הולך לדבר על דפדפן עצמו. הוא לא מעניין אותי בתור דפדפן יותר מאשר רוב הדפדפנים שפירטתי לעיל. מה שמעניין אותי באמת, זה הצירוף של WebKit עם המותג Google.
המשך...