דף הבית  | אודותינו  | סטטיסטיקה ביו רפואית  | סטטיסטיקה לניסויים קליניים  | סטטיסטיקה למדעי החברה  | סטטיסטיקה לכלכלה  | הייעוץ הסטטיסטי  | צור קשר

רגרסיה לוגיסטית -
מה עושים כאשר למשתנה המוסבר שלנו יש שני ערכים אפשריים?

מה רע במודל הלינארי?

בסידרת מאמרים זו נסביר מתי ולמה כדאי להשתמש ברגרסיה לוגיסטית. הפרק הזה מוקדש לבעייתיות של התאמת מודל רגרסיה לינארית רגילה, כאשר למישתנה המוסבר יש שני ערכים, כן או לא, אפס או אחד.

מאת אריאלה כנעני

מחקר התקפי הלב

באוניברסיטת דרום קליפורניה נאספו נתונים על חולים שהגיעו לבית החולים השייך לאוניברסיטה בגלל התקף לב. החוקרים קיוו שניתן יהיה להפחית את מספר החולים החוזרים בתוך שנה לבית החולים עם התקף לב נוסף אם יצליחו ללמד את החולים לשלוט בכעס. הם פיתחו סדנא שבמהלכה לומדים המשתתפים טכניקות לשליטה בכעס.

המשתנה התלוי של המחקר הוא האם החולה עבר התקף לב חוזר בתוך שנה (1- כן,0-לא). בנוסף נאספו לכל חולה שני נתונים נוספים, שיהוו את המשתנים המסבירים. הנתון הראשון הוא האם החולה השלים את סדנת ה'שליטה בכעסים' (1-כן,0-לא). והנתון השני הוא הציון בשאלון החרדה, (הציון נע בין 0 ל 100, ציון גבוה יותר מעיד על חרדה רבה יותר).

השאלה הראשונה שעניינה את החוקרים היא: האם הציון בשאלון החרדה יכול לנבא התקף לב חוזר בתוך שנה?

כדי לענות על השאלה החוקרים ציירו גרף, שבו ציון החרדה נמצא על ציר ה X ועל ציר ה Y הערכים של המשתנה התלוי. הם ניסו להתאים לנתונים מודל רגרסיה לינארית רגילה וציירו את קו הריבועים הפחותים על אותו הגרף בו נמצאים הנתונים. קו הריבועים הפחותים ישמש כתחזית של החוקרים לסיכוי של החולה לקבל התקף לב נוסף בתוך שנה.

האם השיטה של החוקרים טובה?

ראשית, מה טוב?

אם מתבוננים רק בתצפיות עצמן ניתן ללמוד שיש קשר מסוים בין החרדה להתקף לב נוסף. החולים החרדים ביותר אכן חזרו לבית החולים במהלך השנה, עם התקף לב נוסף. חלק מהחולים שציון החרדה שלהם היה נמוך קיבלו גם הם התקף לב נוסף, אם כי ניראה שהם מעטים יחסית. לגבי חרדה בינונית, קשה להחליט. הקו הלינארי בהחלט משקף עובדות אלה.

הבעייה העיקרית של השיטה

להתאמה של רגרסיה לינארית רגילה כאשר המשתנה המוסבר דיכוטומי יש בכל זאת חיסרון מהותי.

נתחיל בצד החיובי, עבור שתי נקודות על הגרף המודל מתאים בדיוק לנתונים. עבור ציון 80 בשאלון החרדה, המודל חוזה את הערך 1, כלומר התקף לב ודאי בתוך שנה, ואכן ניבדק מספר 2 קיבל ציון 80 בשאלון החרדה ובתוך שנה היגיע שוב לבית החולים עם התקף לב חוזר. נקודה נוספת בה המודל עובד מצויין היא הנקודה (35,0) . עבור ציון 35 המודל חוזה שלא יהיה התקף לב נוסף. נתון שמתאים בדיוק לניבדק 14.

לעומת זאת, עבור כל שאר הנקודות המודל עובד הרבה פחות טוב. נבדוק לדוגמא מה התחזית של המודל כאשר הציון בשאלון החרדה הוא 60. התחזית המתקבלת היא 0.47. עבור אנשים שהחרדה שלהם היא 30 המודל חוזה 0.1- ובשביל אלה החרדים 90 המודל חוזה 1.2 . מה אומרות כל התחזיות האלה? לא הרבה. מבחינתנו יש משמעות רק לשני מספרים. 1 מציין שיהיה התקף לב חוזר בתוך שנה ו 0 שלא. שאר המספרים הם חסרי משמעות.

כלומר החיסרון העיקרי של המודל הלינארי הוא שהתחזיות שהוא מפיק אינן מוגבלות לערכים אפס או אחד כפי שהיינו רוצים שיהיו.

בעייה נוספת

אחת ההנחות של המודל הלינארי היא שהשאריות, עבור ערך ספציפי של המשתנה המסביר, מתפלגות נורמלית. זה לא מה שקורה אצלנו.

השאריות הן ההפרש בין הערך של המשתנה המוסבר לערך שחוזה עבורו המודל. כיוון שהמשתנה המוסבר שלנו יכול לקבל רק שני ערכים, אפס או אחד, גם השאריות יכולות לקבל שני ערכים בלבד ולכן הן אינן מתפלגות נורמלית.

בעצם, הנחת הנורמליות של השאריות אינה נדרשת אם המדגם גדול מספיק . משפט הגבול המרכזי מבטיח לנו שאומדי המקדמים יתפלגו בהתפלגות שהיא בקרוב נורמלית, כך שאפשר להשתמש בקרוב הנורמלי כדי לבחון את ההנחה שהמקדמים שווים לאפס ולחשב רווחי סמך. אם המדגם קטן, קרובים אלה עשויים להיות גרועים.

הבעיה השלישית

הנחה נוספת של הרגרסיה הלינארית היא שהשונות של השאריות קבועה עבור כל הערכים של x. הנחה זו נקראת הנחת ההומוסקדסטיות .

עבור משתנה מוסבר בינרי זה לא המצב. בדוגמא שלנו, אם נתבונן בחמשת הניבדקים שציון החרדה שלהם הוא בין 50 ל 60, ניראה שהפער בין הערך שהמודל חוזה עבורם לערך שקיבלו בפועל, די קרוב ל 0.5. לעומתם הפער הזה אצל האנשים שציון החרדה שלהם נמוך מ 40 או גבוה מ 70, הוא בדרך כלל קרוב לאפס. במיקרים בהם המודל פישל, השאריות קרובות לאחד.

את ההוכחה המדוייקת לכך שהנחת שיוויון השונויות אינה מתקיימת ניתן למצוא בפרק השני בספר של פול אליסון.

להפרה של הנחת שיוויון השונויות יש שתי השלכות. הראשונה, אומדי המקדמים אינם יעילים סטטיסטית, זה אומר שיש שיטות אמידה אלטרנטיביות עם שגיאות תקן קטנות יותר. השנייה, וחמורה יותר, אומדי שגיאות התקן אינם אומדים עקיבים לשגיאת התקן האמיתית. כלומר, אומדי שגיאות התקן עשויים להיות מוטים (כלפי מעלה או כלפי מטה) במידה בלתי ידועה, ובגלל ששגיאות התקן משמשות לחישוב סטטיסטי המיבחן, המיבחנים הסטטיסטיים עשויים להיות בעייתיים. אליסון, בסיפרו, מראה איך ניתן לתקן את האומדים גם כאשר הנחת שיוויון השונויות אינה מתקיימת .

אז מה עושים?

במאמרים הבאים נראה מה בכל זאת אפשר לעשות.

בבליוגרפיה:

Paul D. Allison (2012) , Logistic Regression Using SAS: Theory and Application , Second Edition , SAS Press

Robert B. Burns , Richard A. Burns (2008) , Business Research Methods and Statistics Using SPSS , SAGE Publications Ltd

Michael T. Brannick , Multiple Regression; Research Methods , from http://luna.cas.usf.edu/~mbrannic/files/regression/Logistic.html

Prof. Galit Shmueli , Linear regression for a binary outcome: is it Kosher? , from http://www.bzst.com/2012/05/linear-regression-for-binary-outcome-is.html

להרשמה לניוזלטר
  החודשי שלנו

שם
אי מייל
גם אנחנו שונאים דואר זבל, אנחנו מתחייבים לא להעביר את כתובת המייל לאף אחד

למאמרים שלנו