דף הבית  | אודותינו  | סטטיסטיקה ביו רפואית  | סטטיסטיקה לניסויים קליניים  | סטטיסטיקה למדעי החברה  | סטטיסטיקה לכלכלה  | הייעוץ הסטטיסטי  | צור קשר

מהי מולטיקולינאריות ולמה היא הורסת לנו את המודל

מאת אריאלה כנעני

ההחלטה, אולי הקריטית ביותר שעלינו לקבל כאשר בונים מודל של רגרסיה לינארית מרובה היא הבחירה הראשונית של המשתנים המסבירים. שיקול עיקרי בבחירת המשתנים המנבאים הוא בעיית המולטיקולינאריות.

מהי מולטיקולינאריות

מולטיקולינאריות היא קורלציה חמורה של המשתנים הבלתי תלויים. היא מובילה לאומדים לא אמינים ולא יציבים של מקדמי הרגרסיה.

השיפוע החלקי ברגרסיה מרובה אומד את ההשפעה הצפויה, של שינוי של משתנה בלתי תלוי אחד, על המשתנה המוסבר, כאשר מחזיקים את כל שאר המשתנים קבועים. אולם, כאשר כמה או כל המשתנים המנבאים קשורים אחד לשני , יתכן שיהיה זה כמעט בלתי אפשרי להפריד את ההשפעה המנבאת של כל אחד מהמשתנים המנבאים.

כאשר יש תלות גבוהה של המנבאים אחד בשני, יתכן מצב בו מיבחן ה F , הבוחן את ההשערה שכל המקדמים שווים ל 0, מובהק מאד, אבל אף אחד ממיבחני ה t , שבוחנים את ההשערות שהמקדמים במישוואת הרגרסיה הם 0, אינו קרוב אפילו למובהקות. המובהקות של ה F מצביעה על כך שיש ערך מנבא כלשהוא בין המשתנים המסבירים, חוסר המובהקות של מבחני ה t מצביעה על כך שאנחנו לא יכולים לזהות ערך חיזויי נוסף עבור כל משתנה, בהינתן כל האחרים. הסיבה היא שהמנבאים, שיש ביניהם קורלציה גבוהה, מהווים תחליף אחד של השני. כל אחד מהם בנפרד יכול לנבא היטב את המשתנה המוסבר, אבל להוספה של משתנים נוספים לא יהיה ערך ניבויי.

הכללת משתנים מסבירים שיש ביניהם קולינאריות חמורה במודל רגרסיה מרובה, עלולה להקשות על ההבנה של התשובה לשאלה: מי מהמשתנים המנבאים הוא זה שקשור למשתנה התלוי.

איך תדעו האם יש לכם בעיה?

ישנן מספר דרכים להעריך את רמת המולטיקולינאריות בקבוצה של משתנים מסבירים.

השיטה הפשוטה ביותר היא להסתכל על מטריצת הקורלציות (פירסון) שלהם. ככל שהקורלציות האלה גבוהות יותר, כך חמורה יותר בעיית המולטיקולינאריות. במרבית המצבים, כל קורלציה מעל 0.9 בהחלט מצביעה על בעיה חמורה.

אפשרות נוספת, היא לייצר מטריצת scatterplot , דיאגרמת פיזור, לכל זוג משתנים. קוליניאריות מופיעה במטריצה כזו כיחס קרוב ליחס לינארי בין לפחות שניים מהמשתנים המסבירים. דיאגרמת פיזור יכולה להיות שימושית בזיהוי יחסים לא לינאריים וערכים חריגים. המטריצה כוללת דיאגרמת פיזור של המשתנה התלוי כנגד כל משתנה בלתי תלוי בנפרד. לעיתים ניראה בברור בגרפים עקומה או ערך חריג. בפעמים אחרות, ההשפעה של המשתנים הבלתי תלויים האחרים יכולה להסתיר את הבעיה. ניתוח שאריות, שיידון במאמרים הבאים, היא דרך טובה אחרת לחפש הפרה של ההנחות.

יתכן מצב בו מטריצת הקורלציות ומטריצת דיאגרמות הפיזור לא יחשפו את בעיית המולטיקולינאריות. לפעמים, שני משתנים יחדיו מנבאים משתנה שלישי, אפילו שכל אחד מהשניים בניפרד מראה קורלצייה צנועה יותר עם המשתנה השלישי. מספר דרכים מתוחכמות יותר לזיהוי בעיית המולטיקולינאריות מובנות בחבילות התוכנה הסטטיסטיות.

אחד מהמאבחנים האלה הוא פקטור השונות האינפלציונית, variance inflation factor, VIF. פקטור השונות האינפלציונית מחושב כ 1/(1-R2) , כאשר R2   הוא אחוז השונות המוסבר במודל שבו המשתנה המוסבר הוא המשתנה אותו בוחנים והמשתנים המסבירים הם שאר המשתנים. ה VIF לוקח בחשבון את כל היחסים בין המנבאים, כך שהוא שלם יותר מקורלציות פשוטות .

ה VIF נקרא פקטור השונות האינפלציוני כיוון שהוא אומר כמה מהשונות של המקדם "מנופחת" בגלל התלות הלינארית במנבאים האחרים. לכן , VIF של 1.8 מספר לנו שהשונות (ריבוע סטיית התקן) של האומד של מקדם מסויים גדולה ב 80% ממה שהייתה אמורה להיות אם המשתנה הזה היה בלתי תלוי לחלוטין בכל המנבאים האחרים.

הגבול התחתון של הVIF הוא 1 ואין לו גבול עליון. חוקרים חלוקים ביניהם בשאלה איזה ערך של VIF מעיד על בעייה. פול אליסון, גורס שערך גבוה מ 2.5 מעורר חשש למולטיקולינאריות. באוניברסיטה של קליפורניה, UCLA , מתייחסים לערך גבוה מ 10.

מדד נוסף הוא ה tolerance שמחושב כ (1/VIF) ,   tolerance של 0.1 מקביל ל VIF 10. כלומר המשתנה נחשב כקומבינציה לינארית של המשתנים האחרים.

למה ומתי כדאי להפטר מהמולטיקולינאריות?

מולטיקוליניאריות מהווה בעיה כאשר רוצים לאמוד את מקדמי משוואת הרגרסיה. אם השונויות של המקדמים "מנופחות" בגלל מולטיקוליניאריות, אז רווחי הסמך של אומדי השיפועים יהיו רחבים מאד ולכן פחות שימושיים. ניטרול או אפילו הפחתה של המולטיקולינאריות יניבו רווחי סמך צרים יותר. מה שיגרום, אולי, למשתנה להיות מובהק.

המולטיקולינאריות משפיעה רק על רווח הסמך של המשתנה התלוי בשאר המשתנים. לכן אם ה VIF הגבוה הוא של משתנה מפקח, שאין עיניין במובהקות שלו, ולשאר המשתנים אין VIF גבוה. אומד השונות של המשתנה המפקח תהייה מנופחת ולא של שאר המשתנים. במצב כזה אין צורך לטפל במולטיקולינאריות.

אז מה עושים?

האפשרות הראשונה

אם יש לנו סיבה מדעית טובה לכך שצריך את כל המשתנים במודל, אפשר לשקול לאסוף נתונים נוספים. יש לדאוג לכך שהנתונים הנוספים שיאספו יהיו כאלה שמקטינים את הקורלציה בין המשתנים המסבירים, אולי על ידי הרחבה של ההגדרה של אוכלוסיית המחקר, כשמקפידים לדווח על כך.

האפשרות השניה

האפשרות הקלה ביותר היא להשמיט מהמודל את המשתנים שגורמים למולטיקולינאריות ולהשאיר רק את המשתנים שאינם תלויים זה בזה. חסרונה הוא איבוד האינפורמציה שניתן לקבל מהכללה של כל המשתנים המסבירים.

האפשרות השלישית והרביעית

האפשרות השלישית לפתרון בעיית המולטיקולינאריות היא שימוש ברגרסיית רכיבים ראשיים, Principle component regression.

האפשרות הרביעית היא להתאים לנתונים מודל לינארי מורחב, General linear model, שאינו מחייב את ההנחה של אי התלות בין התצפיות. שתי אפשרויות אלה לא ידונו במאמר זה.

מחקר המכונית הקומפקטית

שישים ושלושה כתבי רכב התבקשו לדרג בסקאלה של 0 ל 100 את הביצועים, הנוחות והמראה של מכונית קומפקטית חדשה ולתת לה ציון איכות כללי. מנהל קידום המכירות העורך את המחקר רוצה לדעת מי מהמשתנים מנבא באופן הטוב ביותר את הדרוג שנותן הכתב לאיכות הכללית של המכונית. במטריצת דיאגרמות הפיזור רואים שיש יחס לינארי ברור בין דירוגי הביצועים, הנוחות והמראה מה שמצביע על מולטיקולינאריות ניכרת.

מטריצת הקורלציות מאשרת עובדה זו.

החוקר התאים לנתונים מודל רגרסיה בו המשתנה המוסבר הוא ציון האיכות הכללי של המכונית והמשתנים המסבירים הם: הנוחות, המראה והביצועים. ההשערה הכללית שכל המקדמים שווים ל 0 נדחתה (p value < 0.0001 ) ואלה אומדי המקדמי שקיבל:

ניראה שגם הנוחות וגם המראה אינם תורמים להסבר הציון הכללי מעבר למה שמסביר הדרוג שנותן כתב הרכב לביצועי המכונית.

כאשר החוקר ביקש לקבל את מדדי המולטיקולינאריות הוא קיבל את הטבלה הזו:

ה Tolerance וה VIF של ה'נוחות' וה'מראה' מעוררים חשד למולטיקולינאריות.

החוקר בדק אצל עורך העיתון האם אפשר לגייס תקציב לביצוע מחקר נוסף בקרב משתמשים של המכונית. העורך סירב והחוקר פנה לדרך השניה בה ניתן להתמודד עם הבעיה. הוא השמיט מהמודל את המשתנה 'מראה' שה VIF שלו הוא הגדול ביותר.

הוא קיבל את המודל הבא:

אומנם המשתנה 'נוחות' שנישאר במודל אינו מובהק, אך סטיית התקן שלו קטנה יותר. ה Tolerance הפך ל 0.2 והחוקר השתכנע שבעיית המולטיקולינאריות נפתרה והוא יכול לסמוך המודל שקיבל. כלומר, מהמחקר שערך עולה שמה שמשפיע על הציון הכללי שכתבי המכוניות נותנים למכונית הוא ציון הביצועים והציון הניתן לנוחות אינו תורם לציון הכללי.

בבליוגרפיה:

Lyman Ott R., & Longnecker M (2001) An Introduction to Statistical Methods and Data Analysis (5th ed.) Duxbury:Thomson Learning

Allison Paul, When Can You Safely Ignore Multicollinearity?, from http://www.statisticalhorizons.com/multicollinearity

Regression with SAS, UCLA: Statistical Consulting Group, from http://www.ats.ucla.edu/stat/sas/webbooks/reg/chapter2/sasreg2.htm

Charlie Huang, Multicollinearity and the solutions, from http://www.sasanalysis.com/2011/07/linear-model2-deal-with.html

להרשמה לניוזלטר
  החודשי שלנו

שם
אי מייל
גם אנחנו שונאים דואר זבל, אנחנו מתחייבים לא להעביר את כתובת המייל לאף אחד

למאמרים שלנו