| דף הבית | | | אודותינו | | | סטטיסטיקה ביו רפואית | | | סטטיסטיקה לניסויים קליניים | | | סטטיסטיקה למדעי החברה | | | סטטיסטיקה לכלכלה | | | הייעוץ הסטטיסטי | | | צור קשר |
|
משתנים מבלבלים
מאת אריאלה כנעני מהם משתנים מבלבלים או ערפלנים או משתנים מתערבים? כאשר משווים ממוצעים, פרופורציות או זמני שרידות בין שתי קבוצות, מניחים בדרך כלל שההבדל היחיד בין שתי הקבוצות הוא הטיפול הניסויי. אבל מה קורה אם הקבוצות שונות באופנים אחרים? מה אם קבוצה אחת מבוגרת יותר מהשנייה? מה אם הקבוצה שקיבלה את טיפול הפלצבו הייתה חולה יותר מלכתחילה? במצבים אלה, ישנם מספר הסברים אפשריים להבדל בין הקבוצות. קשה לדעת האם ההבדלים נובעים מהטיפול או בגלל ההבדלים האחרים בין הקבוצות.
כאשר אפשר להסביר את התוצאה ביותר מדרך אחת, נאמר שהתוצאות "מבולבלות". משתנה מבלבל, או ערפלן
דרך פורמלית יותר להגדיר משתנים מבלבלים. ניסויים
ניסויים כוללים בדרך כלל שלושה סוגים של משתנים: בלתי תלויים
(independent),
תלויים
(dependent)
מחקרים תצפיתיים אפידמיולוגיים משתמשים במילה מחלה (disease) כדי לתאר את המאורע הבריאותי או התוצאה אותה הם מעוניינים לחקור. התוצאה יכולה להיות מצב רפואי (כמו סרטן או מחלת לב) אבל יכולה להיות גם בעיה פסיכולוגית או חברתית (כמו דיכאון, להיות חסר בית או ביצועים אקדמיים). התוצאה יכולה לעיתים להיות גם חיובית, כמו החלמה מאיידס. למרות שהחוקרים יודעים שישנם מספר גורמים למחלה אותה הם חוקרים, בדרך כלל הם מעוניינים לחקור גורם אחד כסיבה האפשרית למחלה. משתנה זה יקרא גורם סיכון (risk factor). גורמים רבים עשויים להוות גורם חשיפה, כמו, חשיפה לקרינה או לכימיקליים תעשייתיים, התנהגויות כמו דיאטות דלות או מחסור בפעילות גופנית, ואפילו מאפיינים אישיים כמו מין או גיל. גורמי הסיכון האחרים למחלה נחקרים, רק בגלל, שהם עשויים להיות מבלבלים, ולא בגלל שיש בהם עניין ישיר. המטרה היא, אם כן, ללמוד על ההשפעה של גורם הסיכון על המחלה "מפוקחת" או מתוקננת עבור הגורמים האחרים. נתחיל בדוגמא קלאסית עתיקה: רצח וגלידה. ידוע שלאורך כל השנה, יש קורלציה חיובית גבוהה בין שיעורי רציחות ומכירות של גלידות. כלומר, כאשר שיעורי הרצח עולים, כך גם מכירת הגלידות. ישנן שלושה הסברים אלטרנטיביים לקורלציה הזו: אפשרות #1: רציחות גורמות לאנשים לרכוש גלידות. בעולם שבו זה נכון, אולי כשמישהו נירצח, הוא מתעורר לתחיה כזומבי שניזון בעיקר על גלידה, או שהרוצח חש תשוקה עזה לגלידה לאחר הרצח. אפשרות #2: רכישה של גלידה גורמת לאנשים לרצוח או להירצח. שוב, אפשר לדמיין עולם שבו זה נכון. אולי אם מישהו אוכל גלידה, אלה שאין להם גלידה מקנאים ורוצחים את אלה שיש להם. אפשרות #3: ישנו משתנה שלישי – משתנה מבלבל – שגורם לעלייה במכירות הגלידה וגם בשיעורי הרציחות. לדוגמא, מזג האוויר. כאשר קר וגשום אנשים נשארים בבית ולא יוצאים החוצה ורוצחים אנשים. סביר להניח שהם גם לא אוכלים הרבה גלידה. כאשר חם וקייצי, אנשים מבלים יותר בחוץ ומתערבבים ביניהם, ולכן סביר יותר שיקלעו למצבים שיובילו לרצח. הם גם קונים יותר גלידה, כיוון ששום דבר אינו יכול להתחרות במנגינה של אוטו גלידה ביום קייצי לוהט. בדוגמא זו, מזג האוויר, הוא משתנה שחסרונו מבלבל את היחס בין מכירות גלידה ושיעורי רציחות. דוגמא נוספת, קיים מתאם חיובי בין כמות שיער אפור לבין התקפי לב, כאשר לא מחפשים משתנה מבלבל, ניתן להתרשם שצבע השיער גורם להתקפי לב או שהתקפי לב מאפירים את השיער. אולם, ההסבר המקובל הוא שאין קשר סיבתי בין השניים, אלא ישנו גורם שלישי מבלבל, גיל האדם, המשפיע לחיוב על שני המשתנים: עם הגיל מתרבים השערות האפורות וכן גם התקפי הלב. תכנון מחקר בכדי לנטרל משתנים מבלבלים. מחקר טוב מתוכנן באופן שמקטין את ההשפעה של משתנים חיצוניים. אפשר לעשות זאת בעזרת הטכניקות הבאות: נדגים את השימוש בטכניקות בעזרת מחקר שמטרתו לבדוק האם דיאטה דלת שומנים מקטינה את הסיכוי לאוטם שריר הלב.
התמודדות בשלב הניתוח. הטיפול בשלב עיבוד הנתונים הוא שכיח יותר. מי שלא תיכנן מראש יכול לנסות להשתמש באותן שיטות בשלב הניתוח. אפשר לנסות לזווג את הנחקרים, אולם יתכן שיהיה קשה למצוא זיווג לחלק מהתצפיות ואולי יהיה צורך לוותר עליהן ולאבד נתונים יקרים. גישה אפשרית נוספת היא תיקנון (standardization). בשיטה זו מחשבים את שיעור הארעות אוטם שריר הלב בכל קבוצת גילאים בקרב הקבוצה שקיבלה דיאטה דלה. את השיעורים האלה כופלים בפרופורציית בני אותו גיל בקבוצת הדיאטה הרגילה. מתקבלים שיעורי הארעות אוטם שריר הלב מתוקננים הניתנים להשוואה בין שתי הקבוצות למרות הבדלי הגילאים. גישה זו מוחלפת כיום בשיטות המבוססות על מודלים סטטיסטיים רב משתניים (Multivariate Regression Analysis). כשמתאימים לנתונים מודל של רגרסיה לינארית מרובה, המקדמים של המודל מתארים את הגידול הממוצע במשתנה המוסבר כאשר ערך המשתנה המסביר גדל ביחידה ושאר המשתנים במודל הם קבועים. כלומר ההשפעה של כל משתנה מסביר מתוקננת (או מפוקחת) על ידי המשתנים האחרים במודל. לכן במודל רגרסיה הכולל גם את גורם הסיכון וגם את המשתנה המבלבל בתור משתנים מסבירים, ההשפעה של המשתנה המבלבל מנוטרלת. לכן, כאשר המטרה העיקרית של מחקר היא לתאר את ההשפעה הסיבתית של גורם החשיפה, או של המשתנים הבלתי תלויים על המשתנה התלוי, גורם החשיפה וכל המשתנים המבלבלים חייבים להיות כלולים במודל. הבחירה הסופית של המשתנים למודל מוכתבת על ידי הצורך לנטרל את הבלבול ולא עיקרון הצמצום. יש לזכור שרגרסיה דורשת הנחות חזקות על צורת היחס בין המשתנים המסבירים והמשתנה התלוי. נטרול המשתנים המבלבלים תלוי המידה מסוימת בתקפות ההנחות האלה. לכן מומלץ לבצע ניתוחי רגישות וטיב התאמה של המודל המותאם. בבליוגרפיה: Motulsky Harvey J. (1995), Intuitive Biostatistics: A Nonmathematical Guide to Statistical Thinking, (1st ed.), Oxford University press Spunt Bob, What is a confounding variable?, from http://www.psychologyinaction.org/2011/10/30/what-is-a-confounding-variable/ McNamee R, Regression modelling and other methods to control confounding, from http://oem.bmj.com/content/62/7/500.full Baumgarten Mona, Olsen Chris (2004), Confounding in Epidemiology, The Young Epidemiology Scholars Program (YES) from Confounding in Epidemiology |
|
|