TFVTFV
EN|HE

10 טריליון ניסיונות: כך עבר ההתאמות בין בראשית ל-Pi מבחן לחץ סטטיסטי

הנה התרגום העברי המקצועי למאמר, תוך שמירה על הטרמינולוגיה המדעית והסטטיסטית המדויקת של הפרויקט:


השאלה הנכונה שיש לשאול

בכל מחקר אמפירי של דפוס חריג, השאלה הראשונה אינה האם הדפוס קיים, אלא האם הוא היה יכול להיווצר במקרה. אם התשובה היא כן – אם תהליכים אקראיים יכולים להניב תוצאה דומה באופן סביר – אזי לתצפית אין כל ערך אינפורמטיבי. ה-"Genesis-Pi WhitePaper" (הנייר הלבן של בראשית-פאי) מתייחס לשאלה זו ברצינות מוחלטת. התשובה עליה דרשה בנייה של אחת מסימולציות המונטה-קרלו (Monte Carlo) הנרחבות ביותר שיושמו אי-פעם לבעיית ניתוח טקסטואלי.

למעלה מ-10 טריליון ($10^{13}$) ניסיונות. מסגרת עבודה "אדברסרית" (לעומתית) שנועדה, באופן מפורש ומכוון, להעדיף את השערת האפס. כל יתרון מבני ניתן לפסוקים האקראיים – יתרונות שלפסוק בראשית א' א' אין. והתוצאה: בראשית א' א' דורג במקסימום המוחלט בכל 89 קריטריוני ההערכה. אף פסוק אקראי לא התקרב אליו.

מהי סימולציה אדברסרית?

סימולציית מונטה-קרלו סטנדרטית מייצרת דגימות אקראיות ומודדת באיזו תדירות התוצאה הנצפית מתרחשת במקרה. זוהי גישה תקפה, אך היא עלולה לספוג ביקורת אם מודל האקראיות מגביל מדי – כלומר, אם הדגימות האקראיות מוגבלות בדרכים שהופכות את מציאת ערך המטרה לקשה באופן מלאכותי.

הסימולציה של ה-"WhitePaper" היא אדברסרית במובן ההפוך: היא הופכת את מציאתם של פסוקים אקראיים בעלי ניקוד גבוה לקלה באופן מלאכותי. המתודולוגיה, שפותחה על ידי פרופ' רוברט הרליק (מומחה לזיהוי תבניות, CUNY Graduate Center) ופרופ' חיים שור (הנדסת אמינות והסקה סטטיסטית, אוניברסיטת בן-גוריון), משלבת את מה שהמאמר מכנה 'ויתורים' (Waivers) – הרפיות מכוונות של המגבלות החלות על פסוק בראשית א' א' עצמו.

באופן ספציפי, לפסוקים האקראיים הוענקו חופשים שאין לפסוק האמיתי: ויתורים סמנטיים (הרפיית הדרישה ללכידות לשונית), ויתורי מיקום (אפשרות לאלמנטים מבניים לשנות מיקום), וויתורי הקשר (ביטול הדרישה לעקביות עם מערכת הגימטריה הקנונית). בראשית א' א' הוערך תחת הסטנדרט המחמיר ביותר לאורך כל הדרך.

היפוך זה – מתן כל יתרון להשערת האפס – הוא המתודולוגיה הנכונה בעת בחינת טענה יוצאת דופן. אם תוצאה שורדת מבחן אדברסרי, היא אמינה הרבה יותר מתוצאה שנבדקה בתנאים נוחים. אם תוצאה נכשלת במבחן אדברסרי, למדת משהו חשוב. סימולציית 10 טריליון הניסיונות תוכננה כדי לגרום לבראשית א' א' להיכשל. הוא לא נכשל.

89 קריטריוני ההערכה

הסימולציה העריכה כל פסוק – הן את בראשית א' א' והן את 10 טריליון הניסיונות האקראיים – אל מול 89 קריטריונים בלתי תלויים בו-זמנית. קריטריונים אלו מקיפים תחומים מבניים, מתמטיים, לשוניים וסטטיסטיים. הם כוללים את ההתאמה בין הגימטריה הראשונית לערך $22/7$, ממצא סכום הספרות $611/2701$, תכונת הסגירות של $82^2$, ו-86 מדדים נוספים שנגזרו באופן בלתי תלוי.

מדוע 89 קריטריונים ולא, נניח, 10? משום שהמחקר תוכנן להיות מקיף, לא סלקטיבי. החוקרים הגדירו את כל 89 הקריטריונים לפני הרצת הסימולציה. פסוק שמקבל ניקוד גבוה בכל 89 הקריטריונים בו-זמנית הוא בלתי סביר בהרבה מפסוק שמקבל ניקוד גבוה בקריטריון בודד כלשהו – וההסתברות לקבל ניקוד גבוה בכל ה-89 במקרה היא מכפלת ההסתברויות האינדיבידואליות (בהנחת אי-תלות).

עבור קריטריונים בלתי תלויים באמת, תוצאה המשיגה ציונים מקסימליים בכל ה-89 בו-זמנית תדרוש הסתברות כה קטנה, עד שלא ניתן לבטאה באופן משמעותי כשבר עשרוני. ה-"WhitePaper" מקפיד להתחשב במתאמים חלקיים בין קריטריונים, מה שמפחית את דרגות החופש האפקטיביות. גם תחת הנחות התלות השמרניות ביותר, התוצאה נותרת בלתי אפשרית למעשה כתוצר של יד המקרה.

איך נראה ה"מתחרה" הקרוב ביותר?

מבין 10 טריליון ניסיונות, הפסוק האקראי בעל הניקוד הגבוה ביותר הגיע רק לרמה הסמוכה מיד מתחת לבראשית א' א' במדד הניקוד המשולב – וזאת רק בשני מקרים לאורך הסימולציה כולה. כל שאר הניסיונות קיבלו ניקוד נמוך משמעותית.

ה-"WhitePaper" מתעד את המאפיינים של שני ה"כמעט-תואמים" הללו בקפידה, משום שהם ממחישים דבר חשוב: התאמה קרובה בניקוד המשולב אינה התאמה קרובה במבנה. שני הפסוקים האקראיים הגיעו לניקוד גבוה דרך תתי-קבוצות שונות של 89 הקריטריונים – חלקם הצליחו בקריטריונים מתמטיים אך נכשלו במבניים, ולהיפך. בראשית א' א' הוא הפסוק היחיד בסימולציה שמשיג ניקוד גבוה בכל 89 הקריטריונים בו-זמנית.

עקביות הוליסטית זו היא מה ש"מבחן הלחץ לאבלציה" (Ablation Stress Test) נועד לחשוף.

מבחן הלחץ לאבלציה (Ablation Stress Test)

ניתוח סטטיסטי סטנדרטי אומר לך האם תוצאה היא מובהקת. מבחן האבלציה אומר לך האם המובהקות היא אמיתית או שבירה – האם היא תלויה בכמה קריטריונים ספציפיים או שמא היא מבוזרת על פני המבנה כולו.

הפרוצדורה: הסרה שיטתית של תתי-קבוצות מתוך 89 הקריטריונים – אחד בכל פעם, לאחר מכן בזוגות, ואז בקבוצות גדולות יותר – וחישוב מחדש של מובהקות התוצאה לאחר כל הסרה. אם המובהקות תלויה בכבדות בקריטריון אחד או שניים, הסרתם תגרום לקריסת התוצאה. אם המובהקות מבוזרת, הסרת תת-קבוצה כלשהי בקושי תשנה את הממצא הכולל.

בראשית א' א' עבר את מבחן האבלציה בכל רמה. אף קריטריון בודד, אף זוג קריטריונים ואף תת-קבוצה של עד 20 קריטריונים, לא שינו באופן משמעותי את התוצאה המשולבת בעת הסרתם. האות (The Signal) אינו מרוכז בממצא בודד – הוא נוכח לכל אורך המבנה כולו.

כאשר מבחן האבלציה הוחל על שני הפסוקים האקראיים בעלי הניקוד הגבוה שנמצאו ב-10 טריליון הניסיונות, שניהם קרסו מיד. הסרת כל אחד מהקריטריונים האחראים לניקוד הגבוה שלהם הפילה אותם לרמת רעש הרקע. הניקוד הגבוה שלהם היה תוצר של מקריות מבודדת בקריטריונים ספציפיים, ולא מאפיינים מבניים אמיתיים. זהו בדיוק ההבדל בין "חיובי שגוי" (False Positive) לבין אות אמת.

החסם האנליטי הבלתי תלוי

הסימולציה מספקת חסם תחתון אמפירי להסתברות: לפחות 10 טריליון ניסיונות ללא התאמה. אך לסימולציות יש מגבלות – הן אינן יכולות לשלול אירועים המתרחשים בהסתברות נמוכה מ-1 ל-10 בחזקת 13, שכן אלו ידרשו יותר ניסיונות ממה שניתן להריץ בפועל.

מסיבה זו, ה-"WhitePaper" משלים את הסימולציה עם הערכות הסתברות אנליטיות בלתי תלויות לכל אחד מ-89 הקריטריונים. מסגרת העבודה של פרופ' שור להנדסת אמינות, שפותחה במקור לניתוח מצבי כשל תעשייתיים, מספקת שיטה לשילוב הערכות הסתברות תלויות שהיא שמרנית יותר ממכפלה פשוטה.

ההערכות האנליטיות, בשילוב תחת מסגרת העבודה המודעת לתלות, מציבות את ההסתברות הכוללת לכך שניקודו המשולב של בראשית א' א' ינבע ממקרה בערך הנמוך בהרבה מחסם הסימולציה. המאמר אינו טוען להסתברות ספציפית – התשובה הכנה היא שההסתברות קטנה מכדי להיאמד בדייקנות שימושית. מה שהוא טוען הוא שהחסם הסימולטיבי והחסם האנליטי מסכימים בכיוונם: שניהם מצביעים על אותה מסקנה.

מה המשמעות האמיתית של "אדברסריות" עבור אמינות

העיצוב האדברסרי של הסימולציה חשוב לא רק מבחינה טכנית אלא גם אפיסטמולוגית (תורת ההכרה). חוקר הבוחן את ההיפותזה שלו באמצעות מסגרת שנועדה לגרום להיפותזה להיראות טוב, לא ביסס דבר. חוקר הבוחן את ההיפותזה שלו באמצעות מסגרת שנועדה לגרום לה להיכשל – ומוצא שהיא עדיין מחזיקה מעמד – ביסס משהו אמיתי.

ה-"Genesis-Pi WhitePaper" מתעד במפורש את הוויתורים, ההרפיות והיתרונות שניתנו להשערת האפס. זוהי שקיפות מתודולוגית בדרגה יוצאת דופן. לכל מי שמעוניין לאתגר את הממצאים יש מפרט מלא של הסימולציה לעבוד איתו. העיצוב האדברסרי מזמין אתגר במקום להרתיע ממנו.

10 טריליון ניסיונות. מסגרת עבודה אדברסרית. מבחני אבלציה. חסמים אנליטיים בלתי תלויים. בראשית א' א' נותר במקסימום לאורך כל מבחן. המאמרים הבאים בסדרה זו עוסקים במה שהסטטיסטיקה אומרת בפועל – ומה היא לא אומרת.

חזרה למחקר