דף הבית  | אודותינו  | סטטיסטיקה ביו רפואית  | סטטיסטיקה לניסויים קליניים  | סטטיסטיקה למדעי החברה  | סטטיסטיקה לכלכלה  | הייעוץ הסטטיסטי  | צור קשר

רגרסיה לוגיסטית -
מה עושים כאשר למשתנה המוסבר שלנו יש שני ערכים אפשריים?

אולי מודל ההסתברות הלינארית?

בסידרת מאמרים זו נסביר מתי ולמה כדאי להשתמש ברגרסיה לוגיסטית. במאמר הקודם ראינו שמודל רגרסיה לינארית רגילה לא מתאים למצב בו למישתנה המוסבר יש שני ערכים, כן או לא, אפס או אחד . במאמר הזה נבדוק האם מודל ההסתברות הלינארית, שבו המשתנה המוסבר, הוא ההסתברות לקבל את הערך אחד, פותר את הבעייה.

מאת אריאלה כנעני

ניסיון נוסף של החוקרים מאוניברסיטת דרום קליפורניה

כזכור, השאלה הראשונה עמה התמודדו החוקרים היא האם הציון המסכם של שאלון החרדה יכול לנבא התקף לב חוזר בתוך שנה.

מאחר שהרעיון להשתמש במודל לינארי פשוט לא עלה יפה, החוקרים הגו רעיון חדש, להפוך את התוצאות להסתברויות.

הרעיון שלהם היה כזה: עבור כל ערך על ציר ה X , חושב הממוצע של ערכי Y. המספר שיתקבל יהווה אומד להסתברות להתקף לב חוזר. לדוגמא, כיוון שהציון של ארבעה חולים במבחן החרדה היה 50, ומתוכם לאחד היה התקף לב חוזר, האומד להסתברות להתקף לב חוזר עבור חולים שציון החרדה שלהם הוא 50 תהיה 0.25.

באותו אופן חושבו הסתברויות עבור כל ציוני החרדה שהתקבלו במדגם. התוצאות רוכזו בטבלה הבאה:

החוקרים ציירו את מה שהתקבל על גרף, והוסיפו עליו את קו הריבועים הפחותים המתאים.

המודל שהתקבל נקרא מודל ההסתברות הלינארית. כמו שאפשר לנחש מהשם, במודל ההסתברות הלינארית מתאימים לנתונים פונקציה לינארית שחוזה מתוך המשתנים המסבירים את ההסתברות שהמשתנה המוסבר יקבל את הערך 1.

כש הוא הציון של החולה בשאלון החרדה. ו הם ערכים קבועים הנאמדים מהנתונים. אופן האמידה מתבצע בשיטת הריבועים הפחותים.

במודל כזה למקדמי הרגרסיה יש פירוש ישיר. מציין בכמה, תוספת של יחידה אחת בציון של שאלון החרדה, מגדילה את ההסתברות שהאדם יקבל התקף לב חוזר בתוך שנה.

האם ניתן מענה לכל הבעיות שעלו במודל הקודם?

היתרון במודל הזה הוא כאמור בפירוש הישיר של המקדמים. יתרון נוסף הוא, שעכשיו בניגוד למודל הלינארי הרגיל, לערכים החזויים בין 0 ל 1, יש משמעות הגיונית, ההסתברות שהמשתנה המוסבר יקבל את הערך אחד.

במאמר הקודם הראנו ששתי הנחות של המודל הלינארי הרגיל, הנורמליות של השאריות ושיוויון השונויות אינן מתקיימות. הנחות אלה אינן מתקיימות גם כאן. אולם, הראנו שאם המדגם מספיק גדול, אפשר להסתדר גם כשההנחות אינן מתקיימות.

אבל הבעיה העיקרית עדיין לא נפתרה . המודל עדיין חוזה ערכים גדולים מ 1 וקטנים מ 0 , שאין להם אינטרפטציה מתאימה.

בעייה נוספת שמתעוררת היא שניראה שהקשר בין המשתנים המסבירים למשתנה המוסבר הוא לא לינארי . כאשר הציון בשאלון החרדה מנבא היסתברות להתקף לב חוזר קרובה לאחד, תוספת של יחידה בציון החרדה מגדילה את הסיכוי להתקף לב חוזר הרבה פחות מאשר תוספת של יחידה לציון שמנבא סיכוי של 50% להתקף לב חוזר.

אז מה עושים?

בהמשך נראה הצעה נוספת שאולי היא זו שתתן מענה לבעיות שנותרו.

בבליוגרפיה:

Paul D. Allison (2012) , Logistic Regression Using SAS: Theory and Application , Second Edition , SAS Press

Michael T. Brannick , Multiple Regression; Research Methods , from http://luna.cas.usf.edu/~mbrannic/files/regression/Logistic.html

Prof. Galit Shmueli , Linear regression for a binary outcome: is it Kosher? , from http://www.bzst.com/2012/05/linear-regression-for-binary-outcome-is.html

להרשמה לניוזלטר
  החודשי שלנו

שם
אי מייל
גם אנחנו שונאים דואר זבל, אנחנו מתחייבים לא להעביר את כתובת המייל לאף אחד

למאמרים שלנו