דף הבית  | אודותינו  | סטטיסטיקה ביו רפואית  | סטטיסטיקה לניסויים קליניים  | סטטיסטיקה למדעי החברה  | סטטיסטיקה לכלכלה  | הייעוץ הסטטיסטי  | צור קשר

רגרסיה לוגיסטית -
מה עושים כאשר למשתנה המוסבר שלנו יש שני ערכים אפשריים?

אמידת המקדמים

במאמר הזה נסביר בקיצור איך אומדים את המקדמים של מודל הרגרסיה הלוגיסטית, מי שרוצה יכול לדלג על הקריאה כי בכל מקרה ה spss יודע לחשב את המקדמים לבד.

מאת אריאלה כנעני

מה הם המקדמים?

במאמר הקודם הראינו שהמודל הלוגיסטי ניראה כך:

כאשר pi היא ההסתברות שהמשתנה המוסבר יקבל את הערך 1.

α ו β הם מקדמי הרגרסיה. המטרה שלנו היא להחליף את α ואת β במספרים כך שיתקבלו תכונות רצויות מסויימות. כלומר, לאמוד את α ואת β.

כיצד אומדים את המקדמים ברגרסיה לינארית רגילה?

במודל רגרסיית ריבועים פחותים רגיל, הקריטריון לבחירת הקו הלינארי הוא הקו שממזער את ריבועי המרחקים בין התצפיות לקו הרגרסיה, כלומר ממזער את ריבועי השגיאות. שיטת הריבועים הפחותים מספקת נוסחה למציאת המקדמים שעונים על הקריטריון.

אי אפשר להשתמש באותה שיטה גם בשביל רגרסיה לוגיסטית?

לא, שיטת הריבועים הפחותים לא עובדת כאשר המשתנה המוסבר הוא לוג יחס הסיכויים.

מה עושים?

אומדים את המקדמים בשיטת אומדים את המקדמים בשיטת הניראות המקסימלית. הניראות מקסימלית היא גישה כללית לאמידה, משתמשים בה בהרבה סוגים של מודלים סטטיסטיים. ישנן שתי סיבות לפופולריות של השיטה.

הסיבה הראשונה היא שלאומדי ניראות מקסימלית יש תכונות טובות כשהם נאמדים על סמך מדגמים גדולים. תחת תנאים כלליים סבירים אומדי ניראות מקסימלית הם עקיבים, יעילים אסימפטוטית ונורמליים באופן אסימפטוטי.

המשמעות של עקיבות היא שככל שהמידגם גדל, ההסתברות שהאומד נמצא במרחק קטן מהערך האמיתי, גדלה גם היא. לא משנה כמה קטן המרחק או כמה גדולה ההסתברות, תמיד יש גודל מידגם שיביא לכך שתהיה הסתברות גדולה יותר שהאומד נמצא במרחק זה מהערך האמיתי. ההשלכות המשמחות של התכונה הזו הן שאומדי הניראות המקסימלית אינם מוטים כשהמדגם גדול.

יעילות אסימפטוטית אומרת שבמדגמים גדולים סטיות התקן של האומדים לא יהיו גדולים מסטיות תקן של אומדים שהתקבלו בכל שיטת אמידה אחרת.

ולבסוף, במידגמים גדולים התפלגות הדגימה של האומדים תהיה בקרוב נורמלית. מה שאומר שאפשר להשתמש בהתפלגות הנורמלית ובהתפלגות חי בריבוע כדי לחשב רווחי סמך ו p value –ים.

הסיבה השנייה לפופולריות של הניראות המקסימלית היא שלעיתים תכופות קל יחסית לחשב אומדים בשיטה הזו כאשר השיטות האחרות לא עובדות. אחד המיקרים האלה הוא עבור נתונים עם משתנה תלוי קטגוריאלי, כמו במיקרה שלנו.

לכן אמידת המקדמים עבור הרגרסיה הלוגיסטית תעשה בשיטת הניראות המקסימלית.

איך מוצאים את הניראות?

שיטת הניראות המקסימלית מניבה ערכים עבור הפרמטרים הלא ידועים שממקסמים את ההסתברות לקבל את הנתונים שנצפו בפועל.

השיטה כוללת שני צעדים:
1.   כותבים ביטוי המתאר את הסתברות לקבל את הנתונים הנצפים כפונקציה של הפרמטרים הלא ידועים,
      פונקציה זו ניקראת פונקציית הניראות.
2.   אומדי הניראות המקסימלית של פרמטרים אלה נבחרים להיות אלה שממקסמים את פונקציית הניראות.

על מנת לתאר את פונקציית הניראות נניח שהמשתנה התלוי הדיכוטומי, מתפלג בהתפלגות ברנולי כשההסתברות ל"הצלחה", כלומר ההסתברות לקבל את הערך שהוגדר כ 1, היא pi נניח ש pi תלוי במשתנים המסבירים באופן שמתואר בפיסקה הראשונה. לבסוף, נניח שהתצפיות הן בלתי תלויות אחת בשניה.

השלב השני של יישום השיטה עבור המודל הלוגיסטי מצריך תהליך נומרי איטרטיבי.

לא נתאר כאן את אופן כתיבת פונקציית הניראות ואת התהליך של מיקסומה. אפשר למצוא תאור מפורט של מציאת אומדי הניראות גם בספר של אליסון וגם אצל הוסמר ולמשואו.

טוב, איך אומדים את המקדמים?

למזלנו מתכנתי ה spss קראו בעיון את ספרי התיאוריה ושילבו בתוכנה את החישוב האיטרטיבי של אמידת המקדמים. במאמרים הבאים ניראה מהם הפקודות שיש לתת ל spss כדי שיאמוד עבורנו את מקדמי הרגרסיה.

בבליוגרפיה:

Paul D. Allison (2012) , Logistic Regression Using SAS: Theory and Application , Second Edition , SAS Press

David W. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant (2013) , Applied Logistic Regression , Third Edition, John Wiley & Sons .

להרשמה לניוזלטר
  החודשי שלנו

שם
אי מייל
גם אנחנו שונאים דואר זבל, אנחנו מתחייבים לא להעביר את כתובת המייל לאף אחד

למאמרים שלנו