ההבטחה המוגזמת של מה שמכונה כריית נתונים משוחדת


חתן פרס נובל, ריצ'רד פיינמן, ביקש פעם מתלמידיו בקלטק לחשב את ההסתברות שאם ילך מחוץ לכיתה, המכונית הראשונה במגרש החניה תהיה בעלת לוחית רישוי ספציפית, למשל 6ZNA74. בהנחה שכל מספר ומכתב יהיו סבירים באותה מידה וייקבעו באופן עצמאי, התלמידים העריכו את ההסתברות להיות פחות מ -1 ב -17 מיליון. כאשר סיימו התלמידים את חישוביהם, גילה פיינמן שההסתברות הנכונה היא 1: הוא ראה את לוחית הרישוי הזאת בדרכו לכיתה. משהו מאוד לא סביר הוא בכלל לא סביר אם זה כבר קרה.

מלכודת פיינמן – שודדת נתונים עבור דפוסים ללא כל מושג מראש של מה הוא מחפש – הוא עקב אכילס של מחקרים המבוססים על כריית נתונים. מציאת משהו יוצא דופן או מפתיע אחרי זה כבר התרחשה הוא לא יוצא דופן ולא מפתיע. דפוסי בטוח נמצאים, והם עשויים להיות מטעה, אבסורדי, או גרוע מזה.

בשנת 2001 הנמכר ביותר שלו הספר מטוב למצוין, ג'ים קולינס השווה 11 חברות שעלו על שוק המניות הכולל ב -40 השנים האחרונות ל -11 חברות שלא היו. הוא זיהה חמש תכונות ייחודיות שהיו לחברות המשותפות. "לא התחלנו את הפרויקט הזה בתיאוריה כדי לבדוק או להוכיח", התרברב קולינס. "ביקשנו לבנות תיאוריה מהיסוד, הנגזרת ישירות מן הראיות".

הוא נכנס למלכודת פיינמן. כאשר אנו מסתכלים אחורה בזמן על כל קבוצה של חברות, הטוב או הגרוע ביותר, אנחנו תמיד יכולים למצוא כמה מאפיינים משותפים, ולכן מציאת אותם מוכיח שום דבר בכלל. בעקבות פרסום מטוב למצוין, הביצועים של 11 מניות מפואר של קולינס היה בינוני למדי: חמש מניות עשו טוב יותר מאשר בשוק המניות הכולל, בעוד שששה עשו יותר גרוע.

בשנת 2011, Google יצרה תוכנית בינה מלאכותית בשם Google Flu, שהשתמשה בשאילתות חיפוש כדי לחזות התפרצויות של שפעת. תוכנית כריית הנתונים של גוגל בדקה 50 מיליון שאילתות חיפוש וזיהתה את ה- 45 שהיו המתואמים ביותר עם שכיחות שפעת. זוהי דוגמה נוספת למלכודת כריית הנתונים: מחקר תקף יציין את מילות המפתח מראש. לאחר פרסום הדו"ח, Google Flu העריך את מספר מקרי השפעת עבור 100 מתוך 108 השבועות הבאים, בשיעור ממוצע של כמעט 100%. Google Flu כבר לא עושה תחזיות שפעת.

משווק באינטרנט חשב שזה יכול לשפר את ההכנסות שלה על ידי שינוי צבע כחול האינטרנט המסורתי שלה בצבע שונה. לאחר מספר שבועות של בדיקות, החברה מצאה תוצאה מובהקת סטטיסטית: כנראה שאנגליה אוהבת טיל. על ידי הסתכלות על כמה צבעים חלופיים עבור מאה מדינות בערך, הם הבטיחו כי הם ימצאו גידול בהכנסות עבור צבע כלשהו עבור מדינה כלשהי, אבל הם לא היה מושג מראש אם teal ימכרו יותר באנגליה. כפי שהתברר, כאשר צבע האינטרנט של אנגליה היה שונה כדי teal, ההכנסות ירדו.

ניסוי מדעי המוח כולל הצגת מתנדב במכונת MRI תמונות שונות לשאול שאלות על התמונות. המדידות רועשות, קולטות אותות מגנטיים מהסביבה ומהווריאציות בצפיפות רקמת השומן בחלקים שונים של המוח. לפעמים הם מתגעגעים לפעילות המוח. לפעמים הם מציעים פעילות שאין בהם.

סטודנט לתואר Dartmouth השתמש במכונת MRI כדי לחקור את פעילות המוח של סלמון כפי שהוצגו תצלומים ושאל שאלות. הדבר המעניין ביותר במחקר זה לא היה כי סלמון נלמד, אבל הסלמון היה מת. כן, סלמון מת שנרכש בשוק המקומי הוכנס לתוך מכונת ה- MRI, וכמה דפוסים התגלו. היו דפוסים בלתי נמנעים – והם היו חסרי משמעות.

בשנת 2018, פרופסור לכלכלה באוניברסיטת ייל ותלמיד מחקר, חישב את המתאם בין השינויים היומיים במחירי ביטקווין לבין מאות משתנים פיננסיים אחרים. הם מצאו כי מחירי Bitcoin היו בקורלציה חיובית עם תשואות מלאי של מוצרי צריכה וענפי הבריאות, וכי הם היו מתואמים שלילית עם תשואות המניות של מוצרים מפוברק תעשיות כריית מתכת. "אנחנו לא נותנים הסברים", אומר הפרופסור, "אנחנו פשוט מתעדים את ההתנהגות הזו". במילים אחרות, הם יכולים גם לראות את המתאמים של מחירי ביטקוין עם מאות רשימות של מספרי טלפון ודיווחו על המתאמים הגבוהים ביותר.

מנהל מעבדת המזון והמעבדה של אוניברסיטת קורנל חיבר (או שיתף פעולה) יותר מ -200 מאמרים שנחקרו על ידי עמיתים וכתב שני ספרים פופולריים, שתורגמו ליותר מ -25 שפות.

ב -2006 בבלוג שכותרתו "סטודנט גראד שמעולם לא אמר לא", הוא כתב על דוקטורט סטודנט אשר קיבלו נתונים שנאספו במזנון איטלקי כל מה שאתה יכול לאכול.

התכתבות אימייל, שבה הציע הפרופסור לתלמיד לתואר שני להפריד את הסועדים ל"זכרים, נקבות, צופי ארוחת צהריים, אוכלים, אנשים יושבים לבד, אנשים אוכלים עם קבוצות של 2 אנשים, אוכלים בקבוצות של 2+, אנשים שמזמינים אלכוהול , אנשים שמזמינים משקאות קלים, אנשים שיושבים קרוב למזנון, אנשים שיושבים רחוק, וכן הלאה … "ואז היא יכלה להסתכל על דרכים שונות שבהן תת-הקבוצות האלה עשויות להיות שונות:" פיסות פיצה, # נסיעות, של צלחת, האם הם מקבלים קינוח, הם הזמינו משקה, וכן הלאה … "

הוא הגיע למסקנה כי היא צריכה "לעבוד קשה, לסחוט קצת דם מהסלע הזה". מעולם לא אמר לא, הסטודנט קיבל ארבעה מאמרים (הידועים כיום בשם "דפי הפיצה") שפורסמו עם פרופסור קורנל כמחבר שותף. העיתון המפורסם ביותר דיווח כי גברים אוכלים פיצה 93 אחוז יותר כאשר הם אוכלים עם נשים. זה לא נגמר. בספטמבר 2018 הגיעה ועדת סגל של קורנל למסקנה כי הוא "נעשה התנהגות לא הולמת אקדמית במחקר שלו." הוא התפטר, ונכנס לתוקף ביוני הבא.

מחקר טוב מתחיל עם רעיון ברור של מה הוא מחפש ומצפה למצוא. כריית נתונים פשוט מחפש דפוסים ובלתי נמנע למצוא כמה.

הבעיה הפכה אנדמית בימינו, כי מחשבים חזקים כל כך טוב לבזוז נתונים גדולים. כורי נתונים מצאו קורלציות בין מילות טוויטר או שאילתות חיפוש של Google ופעילות פלילית, התקפי לב, מחירי מניות, תוצאות בחירות, מחירי ביטקוין והתאמות כדורגל. אתה עלול לחשוב שאני עושה את הדוגמאות האלה למעלה. אני לא.

ישנם מתאמים חזקים עוד יותר עם מספרים אקראיים בלבד. זהו היבריס נתונים גדולים לחשוב כי מתאם נתונים נתונים חייב להיות משמעותי. מציאת דפוס יוצא דופן ב- Big Data אינה משכנעת יותר (או שימושית) מאשר מציאת לוחית רישיון יוצאת דופן מחוץ לכיתה של פיינמן.

חוות דעת חכמה מפרסם יצירות שנכתבו על ידי תורמים חיצוניים ומייצג מגוון רחב של נקודות מבט. קרא עוד דעות כאן. שלח מאמר דעה ב דעת @ wired.com


עוד סיפורים גדולים