10 טריליון ניסיונות: כך עבר ההתאמות בין בראשית ל-Pi מבחן לחץ סטטיסטי
השאלה הנכונה שיש לשאול
בכל מחקר אמפירי המזהה דפוס חריג במערכת נתונים, השאלה הראשונה שיש לשאול אינה "מה המשמעות של הדפוס?", אלא: האם הדפוס – או משהו שקול לו סטטיסטית – היה יכול להיווצר באקראי? אם התשובה היא חיובית, כלומר, אם תהליכים סטוכסטיים רגילים יכולים להניב תוצאה דומה בסבירות מתקבלת על הדעת, אזי לתצפית אין כל ערך אינפורמטיבי.
מחקר הבסיס "Genesis-Pi WhitePaper" (הנייר הלבן של בראשית-פאי) מתייחס לשאלה זו ברצינות מוחלטת וללא פשרות. מענה מוחלט לשאלה זו דרש פיתוח והרצה של סימולציות מונטה-קרלו (Monte Carlo) בהיקף עצום – כנראה מהנרחבות ביותר שיושמו אי-פעם בבעיית ניתוח טקסטואלי מורכב.
המחקר ביצע למעלה מ-10 טריליון ($10^{13}$) איטרציות במסגרת עבודה "אדברסרית" (Adversarial Framework) שנועדה, באופן מפורש ומכוון, להעדיף את השערת האפס באופן קיצוני. כל יתרון מבני והסתברותי ניתן לפסוקים האקראיים שנוצרו – יתרונות שלפסוק בראשית א' א' המקורי מעולם לא היו. הסימולציה כללה גם את כלל פסוקי התנ"ך, הן בתצורתם המקורית והן בתצורה מחוזקת שסיפקה פי 10,000 יותר הזדמנויות לכל פסוק לייצר התאמות.
התוצאה: בראשית א' א' דורג במקסימום המוחלט מול כלל הפסוקים האקראיים (והתנ"כיים) בכל היבט מהותי המאפשר הערכה של דפוס אמיתי. למרות 89 דרגות חופש (קריטריונים) שהועמדו לרשות הפסוקים המלאכותיים, והוויתורים העצומים שנעשו לטובתם, אף פסוק לא התקרב לרמת המובהקות של הפסוק המקורי.
מהי סימולציה אדברסרית?
סימולציית מונטה-קרלו סטנדרטית מייצרת דגימות אקראיות ומודדת באיזו תדירות מתרחשת התוצאה הנצפית. זוהי גישה תקפה, אך היא חשופה לביקורת לפיה מודל האקראיות עשוי להיות "נוקשה" מדי – כלומר, מקשה באופן מלאכותי על הדגימות האקראיות להגיע לערך המטרה.
הסימולציה של ה-"WhitePaper" היא אדברסרית במובן ההפוך לחלוטין: היא הופכת את מציאתם של פסוקים אקראיים בעלי ניקוד גבוה לקלה באופן חסר פרופורציה.
המתודולוגיה, אשר נבחנה ואושרה על ידי פרופ' רוברט הרליק (Robert Haralick, מומחה עולמי לזיהוי תבניות), משלבת מנגנון של 'ויתורים' (Waivers) – הרפיות מכוונות של המגבלות החלות על הפסוק המקורי.
באופן ספציפי, לפסוקים המלאכותיים הוענקו חירויות שנעדרו לחלוטין מהפסוק האמיתי:
- ויתורים סמנטיים: ביטול הדרישה ללכידות לשונית ותחבירית (הורדת רף ההסתברות הנדרש ביותר מ-10 סדרי גודל לטובת השערת האפס).
- ויתורים איטרטיביים: מתן $10^{14}$ יותר אפשרויות התאמה לפסוקים המלאכותיים לעומת בראשית א' א'.
- ויתורי מיקום והקשר: אפשרות גמישה לאלמנטים מבניים לשנות מיקום, תוך ביטול הדרישה לעקביות מחמירה.
היפוך זה – הענקת יתרון אסטרונומי להשערת האפס – הוא המתודולוגיה המדעית הנכונה לבחינת טענות יוצאות דופן. אם תוצאה שורדת מבחן אדברסרי קיצוני שכזה, היא אינה תוצר של "כריית נתונים" (Data Mining). סימולציית ה-10 טריליון תוכננה ספציפית כדי לגרום לבראשית א' א' להיכשל ולהיבלע ברעש הרקע. הוא לא נכשל.
מטריצת 89 הקריטריונים
הסימולציה העריכה כל איטרציה – את בראשית א' א' ואת 10 טריליון הפסוקים האקראיים – אל מול מטריצה של 89 קריטריונים בו-זמנית. קריטריונים אלו מקיפים תחומים מבניים, מתמטיים, גיאומטריים וסטטיסטיים. למעט קריטריוני מבנה הכרחיים, המדדים נוסחו באופן אוניברסלי כדי לאפשר לכל פסוק להשתמש במאפיינים העצמאיים שלו לצורך יצירת התאמה.
מדוע נבחרו 89 קריטריונים ולא 10? משום שהמחקר תוכנן להיות מקיף (Exhaustive) ולא סלקטיבי. פסוק שמקבל ציון גבוה ב-89 קריטריונים נפרדים בו-זמנית דורש עקביות מתמטית חסרת תקדים. עבור קריטריונים בלתי תלויים, ההסתברות לקבל ציון מקסימלי בכל ה-89 היא מכפלת ההסתברויות האינדיבידואליות. המחקר החמיר וחישב מתאמים חלקיים (Partial Correlations) בין הקריטריונים כדי למנוע ספירה כפולה של דרגות חופש. אפילו תחת הנחות התלות השמרניות והמחמירות ביותר, רמת המובהקות שומרת על הפסוק מחוץ לגבולות ההיתכנות האקראית.
אנטומיה של "חיובי שגוי": המתחרים הקרובים ביותר
מתוך $10^{13}$ איטרציות, הפסוקים האקראיים בעלי הניקוד הגבוה ביותר הגיעו רק לרמה הסמוכה מתחת לבראשית א' א' – וזאת רק בשני מקרים בודדים לאורך הסימולציה כולה (כל שאר הניסיונות נותרו הרחק מאחור).
המחקר מתעד את "הכמעט-תואמים" הללו בקפידה, משום שהם מדגימים עיקרון קריטי בסטטיסטיקה: התאמה קרובה בניקוד משולב אינה התאמה קרובה במבנה. שני הפסוקים האקראיים הגיעו לניקוד גבוה דרך תתי-קבוצות שונות (לדוגמה: הצלחה בקריטריונים מתמטיים על חשבון קריסה בקריטריונים מבניים). בראשית א' א' הוא הפסוק היחיד שמפגין עקביות הוליסטית בכל ה-89 בו-זמנית.
כאשר המחקר שקלל את העוצמה היחסית של ההתאמות (תוך התחשבות בתלות המשתנים), התברר כי הפסוק הראשון נמצא בסקאלה מתמטית נפרדת לחלוטין מכל מתחריו, בפער מובהקות מוערך של 1 ל-$10^{19}$.
מבחן הלחץ: אבלציה מרובת ממדים (Ablation Stress Test)
ניתוח סטטיסטי סטנדרטי קובע האם תוצאה היא מובהקת. מבחן האבלציה קובע האם המובהקות היא פנימית ואמיתית, או שמא היא שבירה ותלויה בקריטריונים שוליים שניפחו את התוצאה.
הפרוצדורה: הפשטה שיטתית (Ablation) של למעלה מ-50% מהקריטריונים, ואילוץ כלל הפסוקים (האקראיים והאמיתיים) להישען אך ורק על מבנה וערכי הבסיס (RGV - גימטריה רגילה), ללא שימוש בערכי משנה (SGV - גימטריה קטנה).
אם האות (Signal) של הפסוק המקורי היה תוצר של מניפולציה עודפת בדרגות חופש, השמטת חצי מהקריטריונים והשענות רק על ערכי הבסיס הייתה גורמת לעוצמת האות לקרוס. מבחן האבלציה הופעל מחדש על כלל 10 טריליון הפסוקים האקראיים ועל כלל התנ"ך.
התוצאה: האות של בראשית א' א' נותר יציב לחלוטין לאורך כל $10^{13}$ ההרצות המחודשות. לעומת זאת, כאשר מבחן האבלציה הוחל על שני הפסוקים האקראיים שהגיעו למקום השני והשלישי – שניהם קרסו מיד לרמת רעש הרקע. הניקוד הגבוה שלהם נחשף כתוצר של מקריות מבודדת בערכי משנה, ולא כמאפיין מבני אמיתי. תהליך זה ממחיש באופן חד-משמעי את ההבדל בין "חיובי שגוי" (False Positive) הנובע מכריית נתונים, לבין קידוד אמת (True Signal).
החסם האנליטי הבלתי תלוי
הסימולציה מספקת חסם תחתון אמפירי ברור: אפס התאמות מתוך $10^{13}$ ניסיונות. אך כדי לכמת אירועים נדירים אף יותר, נדרש מודל אנליטי.
ה-"WhitePaper" משלים את ממצאי המחשב עם הערכות הסתברות אנליטיות בלתי תלויות, על בסיס מסגרת עבודה שאושרה על ידי פרופ' הרליק. ניתוח זה, שלוקח בחשבון סטטוס הצלחות יחסי ותלות משתנים, מצביע על רמת מובהקות של $10^{-19}$.
המאמר אינו מתיימר לקבוע הסתברות ספציפית בודדת – מדעית, ההסתברות קטנה מכדי להיאמד כערך מוחלט. הטיעון המרכזי הוא שהחסם הסימולטיבי (האמפירי) והחסם האנליטי מצביעים שניהם, באותה עוצמה, על אותה מסקנה בלתי נמנעת: התופעה חורגת מגבולות ההסבר האקראי.
סיכום: משמעותה האמיתית של אדברסריות
העיצוב האדברסרי הקיצוני של המחקר חשוב לא רק טכנית, אלא גם אפיסטמולוגית. חוקר הבוחן היפותזה באמצעות מודל שנועד לגרום לה להיראות טוב, לא הוכיח דבר. חוקר הבוחן היפותזה באמצעות מודל שתוכנן לרסק אותה, ומגלה שהיא נותרת יציבה ושלמה – גילה אנומליה אמיתית.
מחקר הבסיס "Genesis-Pi" מתעד במלוא השקיפות את המפרט המלא של הוויתורים, ההרפיות ואלגוריתם הסימולציה. שקיפות מתודולוגית זו מזמינה אתגר מדעי במקום להסתתר ממנו.
10 טריליון ניסיונות. אפס פשרות. פסוק אחד שנותר במקסימום לאורך כל מבחן.

