דף הבית  | אודותינו  | סטטיסטיקה ביו רפואית  | סטטיסטיקה לניסויים קליניים  | סטטיסטיקה למדעי החברה  | סטטיסטיקה לכלכלה  | הייעוץ הסטטיסטי  | צור קשר

משתנים מבלבלים
מלכודות לחוקרים

מאת אריאלה כנעני

מהם משתנים מבלבלים או ערפלנים או משתנים מתערבים?

כאשר משווים ממוצעים, פרופורציות או זמני שרידות בין שתי קבוצות, מניחים בדרך כלל שההבדל היחיד בין שתי הקבוצות הוא הטיפול הניסויי. אבל מה קורה אם הקבוצות שונות באופנים אחרים? מה אם קבוצה אחת מבוגרת יותר מהשנייה? מה אם הקבוצה שקיבלה את טיפול הפלצבו הייתה חולה יותר מלכתחילה? במצבים אלה, ישנם מספר הסברים אפשריים להבדל בין הקבוצות. קשה לדעת האם ההבדלים נובעים מהטיפול או בגלל ההבדלים האחרים בין הקבוצות.

כאשר אפשר להסביר את התוצאה ביותר מדרך אחת, נאמר שהתוצאות "מבולבלות". משתנה מבלבל, או ערפלן
(Confounding Variable), הוא משתנה חיצוני המשפיע הן על משתנה התוצאה והן על משתנה הטיפול באופן דומה, ולפיכך עלול להוביל למסקנה מוטעית על קשר סיבתי ביניהם. הנוכחות של משתנה מבלבל מסבכת את הניתוח של הרבה מחקרים.

דרך פורמלית יותר להגדיר משתנים מבלבלים.

ניסויים

ניסויים כוללים בדרך כלל שלושה סוגים של משתנים: בלתי תלויים (independent), תלויים (dependent)
וחיצוניים (extraneous). המשתנים עליהם החוקר מבצע מניפולציות (או המשמשים לבחירת נבדקים) נקראים משתנים בלתי תלויים . משתנה התגובה (response) אותו מודד החוקר נקרא המשתנה התלוי. מטרת המחקר היא לבדוק האם המשתנים הבלתי תלויים משפיעים על המשתנה התלוי. משתנים שמשפיעים על המשתנה התלוי אבל אינם חלק מתוכנית המחקר נקראים משתנים חיצוניים. כאשר משתנה חיצוני קשור באופן שיטתי למשתנה בלתי תלוי, נגיד שהמשתנה הוא משתנה מבלבל, כך שקשה לקבוע האם ההבדלים במשתנה התלוי נובעים מהמשתנה הבלתי תלוי או מהמשתנה החיצוני.

מחקרים תצפיתיים

אפידמיולוגיים משתמשים במילה מחלה (disease) כדי לתאר את המאורע הבריאותי או התוצאה אותה הם מעוניינים לחקור. התוצאה יכולה להיות מצב רפואי (כמו סרטן או מחלת לב) אבל יכולה להיות גם בעיה פסיכולוגית או חברתית (כמו דיכאון, להיות חסר בית או ביצועים אקדמיים). התוצאה יכולה לעיתים להיות גם חיובית, כמו החלמה מאיידס.

למרות שהחוקרים יודעים שישנם מספר גורמים למחלה אותה הם חוקרים, בדרך כלל הם מעוניינים לחקור גורם אחד כסיבה האפשרית למחלה. משתנה זה יקרא גורם סיכון (risk factor). גורמים רבים עשויים להוות גורם חשיפה, כמו, חשיפה לקרינה או לכימיקליים תעשייתיים, התנהגויות כמו דיאטות דלות או מחסור בפעילות גופנית, ואפילו מאפיינים אישיים כמו מין או גיל.

גורמי הסיכון האחרים למחלה נחקרים, רק בגלל, שהם עשויים להיות מבלבלים, ולא בגלל שיש בהם עניין ישיר. המטרה היא, אם כן, ללמוד על ההשפעה של גורם הסיכון על המחלה "מפוקחת" או מתוקננת עבור הגורמים האחרים.

נתחיל בדוגמא קלאסית עתיקה: רצח וגלידה.

ידוע שלאורך כל השנה, יש קורלציה חיובית גבוהה בין שיעורי רציחות ומכירות של גלידות. כלומר, כאשר שיעורי הרצח עולים, כך גם מכירת הגלידות. ישנן שלושה הסברים אלטרנטיביים לקורלציה הזו:

אפשרות #1: רציחות גורמות לאנשים לרכוש גלידות. בעולם שבו זה נכון, אולי כשמישהו נירצח, הוא מתעורר לתחיה כזומבי שניזון בעיקר על גלידה, או שהרוצח חש תשוקה עזה לגלידה לאחר הרצח.

אפשרות #2: רכישה של גלידה גורמת לאנשים לרצוח או להירצח. שוב, אפשר לדמיין עולם שבו זה נכון. אולי אם מישהו אוכל גלידה, אלה שאין להם גלידה מקנאים ורוצחים את אלה שיש להם.

אפשרות #3: ישנו משתנה שלישי – משתנה מבלבל – שגורם לעלייה במכירות הגלידה וגם בשיעורי הרציחות. לדוגמא, מזג האוויר. כאשר קר וגשום אנשים נשארים בבית ולא יוצאים החוצה ורוצחים אנשים. סביר להניח שהם גם לא אוכלים הרבה גלידה. כאשר חם וקייצי, אנשים מבלים יותר בחוץ ומתערבבים ביניהם, ולכן סביר יותר שיקלעו למצבים שיובילו לרצח. הם גם קונים יותר גלידה, כיוון ששום דבר אינו יכול להתחרות במנגינה של אוטו גלידה ביום קייצי לוהט.

בדוגמא זו, מזג האוויר, הוא משתנה שחסרונו מבלבל את היחס בין מכירות גלידה ושיעורי רציחות.

דוגמא נוספת, קיים מתאם חיובי בין כמות שיער אפור לבין התקפי לב, כאשר לא מחפשים משתנה מבלבל, ניתן להתרשם שצבע השיער גורם להתקפי לב או שהתקפי לב מאפירים את השיער. אולם, ההסבר המקובל הוא שאין קשר סיבתי בין השניים, אלא ישנו גורם שלישי מבלבל, גיל האדם, המשפיע לחיוב על שני המשתנים: עם הגיל מתרבים השערות האפורות וכן גם התקפי הלב.

תכנון מחקר בכדי לנטרל משתנים מבלבלים.

מחקר טוב מתוכנן באופן שמקטין את ההשפעה של משתנים חיצוניים. אפשר לעשות זאת בעזרת הטכניקות הבאות:

נדגים את השימוש בטכניקות בעזרת מחקר שמטרתו לבדוק האם דיאטה דלת שומנים מקטינה את הסיכוי לאוטם שריר הלב.

  • זיווג – אם חושדים שגיל הוא משתנה מבלבל, ניתן לזווג קבוצות לפי גיל (לכל מיקרה לוקחים ביקורת באותו גיל). נקבל שתי קבוצות עם גיל ממוצע שווה. במקרה זה נושא הגיל יורד ולא נוכל לבדוק את השפעתו. לכל נחקר שקיבל דיאטה דלת שומנים בקבוצת המחקר יזווג נחקר שקיבל תפריט רגיל באותו הגיל. תושווה פרופורציית מיקרי אוטם שריר הלב בקרב מקבלי הדיאטה הדלה לפרופורציית המקרים בקרב אלה שאכלו תפריט רגיל. ממוצע הגילאים בשתי הקבוצות יהיה שווה.
  • הקצאה אקראית של הטיפולים (randomization) – הקצאה רנדומית של הטיפולים מבטיחה, באופן תיאורטי, במדגמים מספיק גדולים, שכל הקטגוריות של המשתנה המבלבל יתחלקו באופן שווה בין שתי הקבוצות, כך שההבדל היחיד בין הקבוצות יהיה ההבדל במשתנה הבלתי תלוי. הקצאה אקראית של נבדקים לקבוצת מקבלי התפריט הדל ולקבוצת מקבלי התפריט הרגיל אמורה להבטיח שהתפלגות הגילאים בשתי הקבוצות תהיה דומה.
  • רנדומיזציה מרובדת (Stratified randomization) - ישנם מחקרים בהם הנבדקים מחולקים לקבוצות (שכבות) המבוססות על גיל או מצב המחלה. נבדקים בכל קבוצה מחולקים באופן אקראי בין שני הטיפולים. זה מבטיח שהמשתנה המקבץ (גיל) לא יכול לבלבל את התוצאות. הנבדקים ימוינו לשתי קבוצות גיל- מבוגרים וצעירים. הנבדקים ימוינו לשתי קבוצות גיל- מבוגרים וצעירים. בכל קבוצת גיל הנחקרים יוגרלו באופן אקראי לאחת משתי הדיאטות.
  • הגבלה (restriction) – למשל, לבצע את המחקר על מבוגרים בלבד.
  • Crossover design – במחקרים כאלה כל נבדק משמש כביקורת של עצמו.

התמודדות בשלב הניתוח.

הטיפול בשלב עיבוד הנתונים הוא שכיח יותר. מי שלא תיכנן מראש יכול לנסות להשתמש באותן שיטות בשלב הניתוח. אפשר לנסות לזווג את הנחקרים, אולם יתכן שיהיה קשה למצוא זיווג לחלק מהתצפיות ואולי יהיה צורך לוותר עליהן ולאבד נתונים יקרים.

גישה אפשרית נוספת היא תיקנון (standardization). בשיטה זו מחשבים את שיעור הארעות אוטם שריר הלב בכל קבוצת גילאים בקרב הקבוצה שקיבלה דיאטה דלה. את השיעורים האלה כופלים בפרופורציית בני אותו גיל בקבוצת הדיאטה הרגילה. מתקבלים שיעורי הארעות אוטם שריר הלב מתוקננים הניתנים להשוואה בין שתי הקבוצות למרות הבדלי הגילאים.

גישה זו מוחלפת כיום בשיטות המבוססות על
מודלים סטטיסטיים רב משתניים (Multivariate Regression Analysis). כשמתאימים לנתונים מודל של רגרסיה לינארית מרובה, המקדמים של המודל מתארים את הגידול הממוצע במשתנה המוסבר כאשר ערך המשתנה המסביר גדל ביחידה ושאר המשתנים במודל הם קבועים. כלומר ההשפעה של כל משתנה מסביר מתוקננת (או מפוקחת) על ידי המשתנים האחרים במודל. לכן במודל רגרסיה הכולל גם את גורם הסיכון וגם את המשתנה המבלבל בתור משתנים מסבירים, ההשפעה של המשתנה המבלבל מנוטרלת.

לכן, כאשר המטרה העיקרית של מחקר היא לתאר את ההשפעה הסיבתית של גורם החשיפה, או של המשתנים הבלתי תלויים על המשתנה התלוי, גורם החשיפה וכל המשתנים המבלבלים חייבים להיות כלולים במודל. הבחירה הסופית של המשתנים למודל מוכתבת על ידי הצורך לנטרל את הבלבול ולא עיקרון הצמצום.

יש לזכור שרגרסיה דורשת הנחות חזקות על צורת היחס בין המשתנים המסבירים והמשתנה התלוי. נטרול המשתנים המבלבלים תלוי המידה מסוימת בתקפות ההנחות האלה. לכן מומלץ לבצע ניתוחי רגישות וטיב התאמה של המודל המותאם.

בבליוגרפיה:

Motulsky Harvey J. (1995), Intuitive Biostatistics: A Nonmathematical Guide to Statistical Thinking, (1st ed.), Oxford University press

Spunt Bob, What is a confounding variable?, from http://www.psychologyinaction.org/2011/10/30/what-is-a-confounding-variable/

McNamee R, Regression modelling and other methods to control confounding, from http://oem.bmj.com/content/62/7/500.full

Baumgarten Mona, Olsen Chris (2004), Confounding in Epidemiology, The Young Epidemiology Scholars Program (YES) from Confounding in Epidemiology

להרשמה לניוזלטר
  החודשי שלנו

שם
אי מייל
גם אנחנו שונאים דואר זבל, אנחנו מתחייבים לא להעביר את כתובת המייל לאף אחד

למאמרים שלנו