יום רביעי, 23 בנובמבר 2016

חידושים בעבודה עם מידע

לפני כחודשיים שוחררה גרסת ה-MATLAB השנייה לשנה זו, R2016b. הגרסה החדשה כוללת הרבה שיפורים ויכולות חדשות ל-MATLAB ולכלים המשלימים אותו, ובפרט - בכל הנוגע
לעבודה עם 
data ו- big data. סקירה בנושא חידושים הקשורים לעבודה עם big data פורסמה בבלוג זה זמן קצר לאחר יציאת הגרסה (לחצו לקריאה). להלן סקירה בנושא חידושים הקשורים לעבודה עם data, אשר נכתבה על ידי שירן גולן, מהנדסת אפליקציה בחברת סיסטמטיקס. סקירות אודות חידושים נוספים בסביבת MATLAB - יפורסמו בהמשך.

חידושים הקשורים לעבודה עם data:
בגרסת ה-MATLAB החדשה אפשר לעבוד בקלות עם מידע מסוגים חדשים - פיצ'רים חדשים מאפשרים גישה נוחה למידע, עיבוד מקדים ואנליזה של המידע ללא תלות בפורמט בו הוא שמור.

ניתן לשלוט בקלות באופן ייבוא מידע מקבצים, מבלי שנצטרך לפתוח אותם - באמצעות הפונקציה  dete​ctImportOptionsהטעינה עצמה תתבצע באמצעות פקודת readtable שהתווספה לפני כשלוש שנים.

שלב העיבוד המקדים צורך זמן רב בעבודה עם מידע. פונקציות ויכולות חדשות שנוספו בגרסת R2016b מאפשרות לייעל ולזרז את התהליך. לדוגמא: 
-          טיפול במידע חסר או שגוי באמצעות פונקציה ייעודית כמו fillmissing, אשר התווספה ל-standardizeMissing  
-          חלוקה למקטעים במרווח קבוע של מערכי זמן מסוג datetime ו-duration, באמצעות פונקציית discretize
-          אפשרות להתעלם מערכים חסרים בעבודה עם פונקציות שמבצעות פעולה מצטברת ((cumsum, cummax, cummin

     - ניתן לעבוד בקלות עם מידע שמיוצג בזמן, למשל מידע שנדגם מסנסורים בנקודות זמן שונות - באמצעות אובייקט חדש הנקרא timetable ושלל פונקציות ייעודיות כמו סנכרון טבלאות ושליפות מידע מבוססות זמן.

timetable, כפי שניתן לראות בתמונה למטה (ניתן ללחוץ להגדלה), היא למעשה טבלה שמקשרת זמן לכל שורה. הזמן אינו נחשב לעמודה נוספת בטבלה, אלא הינו מאפיין של כל שורה בטבלה. כלומר, במקום לעבוד עם שורות ועמודות בטבלה, אנו עובדים עם זמן ועמודות.



העבודה עםtimetable  דומה לעבודה עם table (לחצו לפוסט בנושא), וגם בה ניתן לשלב משתנים מסוגים שונים, אלא שבניגוד לטבלה הרגילה, היא מוסיפה עוד הרבה פונקציות ספציפיות לזמן - כדי לבצע עיבוד מקדים, לסדר את המידע מחדש, להוציא מידע ספציפי ולסנכרן מידע בזמן.


     - ניתן לעבוד עם טקסט בפשטות ובמהירות - באמצעות טיפוס נתונים חדש הנקרא string שמאפשר שמירה בזיכרון, עיבוד והשוואה של מידע טקסטואלי באופן יעיל ואינטואיטיבי. לטיפוס נתונים זה הצטרפה ערימת פונקציות ייעודיות לשרשור, מיון ופיצול מערכים של טקסט, חיפוש וכו' – רלוונטי מאוד לעובדים עם טקסט בתחומים rocessingNatural Language P ו-Machine Learning. בעזרת פונקציות חדשות, ניתן לעבור ממשתנים מסוג cell או char למשתנה string, לקרוא מקבצים הישר למשתנה string, לגשת לאותיות מסוימות, לחבר מילים על ידי אופרטור +, למצוא מילים לפי האות הראשונה או האחרונה ועוד. בתמונה למטה ניתן לראות מספר פעולות לדוגמה (בצד שמאל), ואת תוצאות הפעלתן (בצד ימין) – ניתן ללחוץ להגדלה.


רוצים מידע נוסף על עבודה עם מידע? לחצו פה.