8.12 होल्डआउट सेट, ब्लाइंडिंग, शून्य-जाँच और क्रॉस-पाइपलाइन पुनरावृत्ति: EFT को “कहानी गढ़ने वाला सिद्धांत” बनने से कैसे रोका जाए | ऊर्जा फिलामेंट सिद्धांत

एक. इस अनुभाग का निष्कर्ष

यह अनुभाग अब कोई नई वस्तु-स्तरीय निर्णय-रेखा नहीं जोड़ता; यह जो जोड़ता है, वह अधिक ठंडी, अधिक कठोर और अधिक असुविधाजनक समीक्षा-व्यवस्था है। यदि EFT 8.4 से 8.11 तक के लाल विचलन अवशेषों, साझा-आधार-मानचित्र बंदता, संरचनात्मक स्तरीकरण, निकट-क्षितिज की सूक्ष्म रेखाओं, सीमा उपकरण दहलीज़ों और क्वांटम सुरक्षा-रेखाओं को “समर्थन” के रूप में दर्ज करना चाहती है, तो उसे पहले चार एकीकृत सुरक्षा-रेखाएँ स्वीकार करनी होंगी: होल्डआउट सेट के बाद मानदंड वापस नहीं बदले जाएँगे; ब्लाइंडिंग में उत्तर नहीं झाँका जाएगा; शून्य-जाँच मुख्य परिणाम के साथ समान रूप से महत्वपूर्ण नहीं होगी; और क्रॉस-पाइपलाइन पुनरावृत्ति में सत्य पर किसी एक रास्ते का एकाधिकार नहीं होगा। इन चार दरवाज़ों के बिना खंड 8 कितना भी प्रभावशाली हो, वह अब भी उच्च-व्याख्यात्मक शक्ति वाली कथा भर हो सकता है; इन चार दरवाज़ों से गुजरने के बाद ही वह एक ऐसी उम्मीदवार सिद्धांत-व्यवस्था जैसा दिखना शुरू करता है जो सचमुच समीक्षा सहने को तैयार है।

दो. वस्तु-स्तर के बाद एक पद्धतिगत मुख्य-द्वार भी चाहिए

पिछले 8.4 से 8.11 तक EFT के वे सारे वस्तु-स्तरीय रणक्षेत्र मेज़ पर रखे जा चुके हैं जहाँ वह सबसे अधिक जीतना चाहती है और सबसे आसानी से घायल भी हो सकती है: क्रॉस-जांच-साधन विक्षेपण-रहित साझा पद, TPR मुख्य धुरी और PER अवशेष, घूर्णन–लेंसिंग–विलय का साझा आधार-मानचित्र, संरचना-उत्पत्ति-विज्ञान, आधार-नेगेटिव और पर्यावरणीय टोमोग्राफी, निकट-क्षितिज और सीमा-विशिष्ट हस्ताक्षर, सीमा उपकरण और प्रबल-क्षेत्र निर्वात, तथा क्वांटम प्रसार और असंचार सुरक्षा-रेखा। यदि ये सामग्री केवल यह लिखकर रुक जाए कि “क्या मापा जाए”, “कौन-सा परिणाम समर्थन माना जाए” और “कौन-सा परिणाम संरचनात्मक क्षति पहुँचाएगा”, तो यह पर्याप्त नहीं है। कारण यह है कि EFT की भाषा स्वयं बहुत अधिक व्याख्यात्मक शक्ति रखती है; और जिन सिद्धांतों की व्याख्यात्मक शक्ति अधिक होती है, उन्हें सबसे बड़ा डर उदाहरणों की कमी से नहीं, बल्कि इस बात से होता है कि उदाहरण बहुत अधिक होने पर कोई भी बाद में उन्हें समझा सकता है।

इसलिए पिछली चर्चा में अभी एक मुख्य-द्वार बाकी था: जो भी परिणाम अंक पाना चाहते हैं, उनसे पहले पूछा जाना चाहिए कि क्या वे एक ही पद्धतिगत सुरक्षा-व्यवस्था के भीतर जीते गए हैं। यह मुख्य-द्वार पहले साफ़ लिखा जाए, तभी बाद का कुल हिसाब “प्रत्यक्ष समर्थन”, “कसाव” और “संरचनात्मक क्षति” के बीच अंतर करने का अधिकार रखता है; वरना वह आसानी से बाद में चुने गए उदाहरणों की उपलब्धि-पुस्तिका बन जाएगा।

तीन. यह अनुभाग नया प्रयोग-परिवार नहीं जोड़ता, केवल समीक्षा-अनुशासन जोड़ता है

इस अनुभाग को सांख्यिकी की पाठ्यपुस्तक नहीं बनना चाहिए। वैसा करने से खंड 8 अचानक ठंडा पड़ जाएगा और वह अपने असली काम से भी हट जाएगा। 8.12 पाठक को यह सिखाने नहीं आया कि प्रशिक्षण सेट, परीक्षण सेट, महत्त्वता, बेयज़ फैक्टर या मॉडल-औसत क्या होते हैं; वह केवल एक अधिक कठोर काम करता है: EFT को स्वयं अपने को धोखा देने से कैसे रोका जाए।

इसलिए 8.12 में कही गई चार व्यवस्थाएँ अलग-अलग तकनीकी क्रियाएँ नहीं हैं, बल्कि एक ही समग्र अनुशासन के चार रूप हैं: परिणाम देखने से पहले मानदंड जमा दो; परिणाम आने के बाद केवल हिसाब लिखो, बात मत बदलो। नमूने कैसे चुने जाएँगे, कौन-सी वस्तुएँ मुख्य नमूने में आएँगी, कौन-से आवृत्ति-बैंड या लाल विचलन स्तर केवल होल्डआउट रहेंगे, कौन-से पर्यावरणीय सूचक मुख्य विश्लेषण में जाएँगे, कौन-सी बहिष्करण-शर्तें मान्य होंगी और कौन-से स्कोरिंग नियम “हिट” माने जाएँगे—ये सब मुख्य परिणाम देखने से पहले लिखे जाने चाहिए। इस कदम के बिना होल्डआउट सेट चुपके से खा लिया जाएगा, ब्लाइंडिंग अभिनय बन जाएगी, शून्य-जाँच के लिए सबसे कमजोर नियंत्रण चुन लिया जाएगा, और क्रॉस-पाइपलाइन पुनरावृत्ति भी “एक ही पूर्वाग्रह को दो बार चलाने” में बदल जाएगी।

उतना ही ज़रूरी है भूमिकाओं को अलग करना। खंड 8 के कई प्रयोग और अवलोकन स्वाभाविक रूप से एक साझा ढाँचे के अनुकूल हैं: फीड-फ़ॉरवर्ड दल केवल पर्यावरण, ज्यामिति और पहले से जमा किए गए प्रॉक्सी मानों के आधार पर पूर्वानुमान कार्ड जारी करे; मापन दल उस कार्ड की सामग्री जाने बिना पठन निकाले; और मध्यस्थ दल अंत में पूर्व-पंजीकृत स्कोरिंग-सारणी के अनुसार पूर्वानुमान और परिणाम को मिलाए। हर निर्णय-रेखा को इन तीन दलों की यांत्रिक नकल करने की आवश्यकता नहीं है, पर यह ढाँचा इस अनुभाग की सबसे महत्वपूर्ण बात याद दिलाता है: पूर्वानुमान सुंदर चित्र से पहले होना चाहिए, और नियम सुंदर कहानी से पहले।

चार. पहली सुरक्षा-रेखा: होल्डआउट सेट — परिणाम देखकर मानदंड वापस न बदले जाएँ

8.12 में होल्डआउट सेट कोई नरम “सामान्यीकरण-क्षमता जाँच” नहीं है; वह परिणाम देखकर मानदंड वापस मोड़ने से रोकने वाली धारदार छुरी है। क्योंकि EFT की सबसे आसान भूल यह नहीं है कि उसे कोई संकेत बिल्कुल दिखाई नहीं देता, बल्कि यह है कि हल्की-सी दिशा दिखने के बाद वह नमूना, पर्यावरणीय वर्गीकरण, दहलीज़, पृष्ठभूमि-मानदंड और फिटिंग-परिवार को बार-बार बदलती जाए, जब तक वह दिशा एक सुंदर चित्र न बन जाए। होल्डआउट सेट का अर्थ ही इस पलायन-पथ को बंद करना है: प्रशिक्षण भाग में मानदंड तय किए जा सकते हैं, पर जो भाग होल्डआउट रखा गया है उसे वापस लाकर पहले कही हुई बात को सुधारने की अनुमति नहीं है।

ब्रह्माण्ड-विज्ञान खंड में होल्डआउट सेट लाल विचलन की एक खिड़की, स्रोतों की एक श्रेणी, आकाश का एक क्षेत्र, सर्वेक्षण का एक संस्करण, यहाँ तक कि एक पूरी स्वतंत्र दूरी-श्रृंखला भी हो सकता है; चरम-ब्रह्माण्ड खंड में वह कुछ वस्तुएँ, कुछ युग, कुछ वलय-दिशात्मक खंड, कुछ विलय-समूह या कुछ पर्यावरणीय स्तर हो सकता है; प्रयोगशाला और क्वांटम खंड में वह पैरामीटर की कोई खिड़की, सामग्री की कोई श्रेणी, कोई उपकरण, या दहलीज़ के पास पर अभी-अप्रकाशित लेबलों वाला स्कैन-समूह हो सकता है। रूप अलग हो सकते हैं, पर अनुशासन एक ही है: होल्डआउट केवल सत्यापन करता है, उल्टा पैरामीटर-संशोधन नहीं।

EFT को सचमुच अंक देने वाला होल्डआउट परिणाम वह नहीं है जिसमें प्रशिक्षण सेट में एक बार देखी गई प्रवृत्ति होल्डआउट में भी “कुछ-कुछ वैसी” लगे; असली कसौटी है कि दिशा न पलटे, क्रम न बिखरे और मानदंड न बदले। उदाहरण के लिए 8.4 का साझा पद यदि सचमुच विक्षेपण-रहित साझा आधार-रंग है, तो होल्डआउट आवृत्ति-बैंड, घटना-खिड़की या स्टेशन पर जाने के बाद भी उसे कम-से-कम वही दिशा और वही खिड़की बचाए रखनी चाहिए; 8.5 की TPR मुख्य धुरी यदि सचमुच आधार-रंग को समाहित कर सकती है, तो होल्डआउट स्रोत-वर्ग या आकाश-क्षेत्र पर जाने के बाद सामान्य α को तुरंत बदलना नहीं चाहिए; 8.6 का साझा आधार-मानचित्र यदि सचमुच व्यक्तिगत उदाहरणों की जोड़-तोड़ नहीं है, तो जमा किए गए आधार-मानचित्र को होल्डआउट वस्तुओं पर ले जाते ही नई पैबंद-व्यवस्था नहीं माँगनी चाहिए। इसके विपरीत, जैसे ही कोई प्रवृत्ति होल्डआउट में प्रवेश करते ही दिशा बदल दे, क्रम खो दे या नमूने फिर से चुनने पड़ें, वह मुख्य निष्कर्ष नहीं रहती; उसे फिर से केवल संकेत के स्तर पर उतारना होगा।

एक बात और साफ़ लिखनी होगी: होल्डआउट सेट में केवल “सबसे आसानी से पास होने वाला हिस्सा” नहीं छोड़ा जा सकता। यदि सिद्धांत सबसे साफ़, सबसे परिचित और सबसे अनुकूल नमूनों को अंत के लिए बचाए, और उच्च-जोखिम आकाश-क्षेत्रों, कठिन-अंशांकन आवृत्ति-बैंडों, जटिल वस्तुओं तथा दहलीज़-निकट पैरामीटर खिड़कियों को पहले ही प्रशिक्षण भाग में बार-बार आज़मा ले, तो तथाकथित होल्डआउट पहले ही प्रदूषित हो चुका है। असली होल्डआउट में उन इकाइयों को सक्रिय रूप से शामिल होना चाहिए जो सबसे अधिक मुँह तोड़ सकती हैं, क्योंकि खंड 8 का लक्ष्य जीत की दर को ऊँचा लिखना नहीं, बल्कि जीत-हार की शर्तों को कठोर लिखना है।

पाँच. दूसरी सुरक्षा-रेखा: ब्लाइंडिंग — सुंदर चित्र से पहले पूर्वानुमान को बोलने दो

ब्लाइंडिंग का मूल्य केवल इतना नहीं कि वह औपचारिक रूप से “अधिक वैज्ञानिक” दिखती है; उसका वास्तविक मूल्य यह है कि वह सिद्धांत को जोखिम वाले हिस्से पहले से बोलने पर मजबूर करती है। EFT में बहुत-सी जगहें ऐसी हैं जहाँ परिणाम देख लेने के बाद एक व्याख्या जोड़ देना आसान है: साझा पद पर्यावरणीय वृद्धि जैसा दिखा, तो कहा जा सकता है कि पर्यावरणीय वृद्धि तो पहले से अपेक्षित थी; कोई पक्षपात केवल नोडीय वातावरण में अधिक मजबूत लगा, तो कहा जा सकता है कि कंकाल को वैसा ही होना था; कोई प्लेटफ़ॉर्म दहलीज़ के बाद दिखाई दिया, तो कहा जा सकता है कि यह दहलीज़ीय विविक्तता जैसा ही है। यदि ये वाक्य परिणाम देखने से पहले नहीं लिखे गए, तो वे पूर्वानुमान नहीं, केवल पश्च-दृष्टि की शैली हैं।

इसलिए 8.12 जिस ब्लाइंडिंग की माँग करता है, वह केवल फ़ाइल नाम छिपा देने या नमूना-लेबल उलट-पुलट देने भर की बात नहीं है। EFT के लिए अधिक महत्वपूर्ण है फीड-फ़ॉरवर्ड—मापन—मध्यस्थता की संरचित ब्लाइंडिंग। फीड-फ़ॉरवर्ड चरण में सिद्धांत को केवल पहले से जमा किए गए पर्यावरणीय सूचकों, ज्यामितीय सूचना, सामग्री-पैरामीटरों या पुराने खातों के आधार पर यह पूर्वानुमान कार्ड लिखना होगा कि “कौन-सा स्तर अधिक मजबूत होगा, कौन-सा कमजोर होगा, अपेक्षित दिशा समान होगी या विपरीत, विक्षेपण-रहितता बनी रहनी चाहिए या नहीं, और संकेत उसी खिड़की में उभरना चाहिए या नहीं”; मापन चरण में संकेत निकालने वाले लोगों को यह नहीं पता होना चाहिए कि उस कार्ड में क्या लिखा है; मध्यस्थता चरण में तीसरा पक्ष जमा किए गए नियमों के अनुसार हिट, गलत दिशा और खाली प्रहार की गिनती करे। केवल तब EFT सचमुच अपने गले को दाँव पर रख रही होगी।

अलग-अलग खंडों में ब्लाइंडिंग का ठोस रूप बहुत अलग हो सकता है। 8.4 और 8.5 में पर्यावरणीय स्तरीकरण और स्रोत-वर्ग लेबल ब्लाइंड किए जा सकते हैं; 8.6 से 8.9 तक कंकाल-दिशा क्षेत्र, विलय-चरण, शीत-धब्बा स्तर, निकट-क्षितिज दिशा-टेम्पलेट या वस्तु-वर्गीकरण ब्लाइंड किए जा सकते हैं; 8.10 और 8.11 में सामग्री-बैच, दहलीज़ स्तर, ड्राइविंग क्रम, लिंक-स्वच्छता स्तर, यहाँ तक कि यह भी ब्लाइंड किया जा सकता है कि कोई पैरामीटर खिड़की होल्डआउट का हिस्सा है या नहीं। मुख्य बात रूप की समानता नहीं, अनुशासन की समानता है: पहले कहो कि क्या होगा, फिर देखो कि वह हुआ या नहीं; पहले जो दिखा उसे देखकर यह मत कहो कि हमें तो पहले से मालूम था।

ब्लाइंडिंग का एक और मूल्य है जिसे आसानी से नज़रअंदाज़ किया जाता है: वह EFT को फीड-फ़ॉरवर्ड में पूर्वानुमेय और परिणाम के बाद व्याख्येय के बीच अंतर करने पर मजबूर करती है। काग़ज़ पर दोनों ही “सही कहा” जैसे दिख सकते हैं, पर उनका वैज्ञानिक दर्जा पूरी तरह अलग है। पहला परिणाम आने से पहले जोखिम लेता है; दूसरा परिणाम आने के बाद उसे समाहित करने वाली भाषा खोजता है। 8.12 जिस चीज़ की रक्षा करना चाहता है, वह पहला है; क्योंकि केवल वही सिद्धांत की जीत की संभावना को सचमुच बदल सकता है।

छह. तीसरी सुरक्षा-रेखा: शून्य-जाँच — छद्म-संकेतों को नई भौतिकी न समझो

EFT की कई निर्णय-रेखाएँ “कमज़ोर पर अनुशासित” संरचनाओं को पढ़ना पसंद करती हैं: विक्षेपण-रहित साझा पद, पर्यावरणीय एकदिशता, सह-स्थितीय स्केलिंग, दहलीज़-पश्च प्लेटफ़ॉर्म, फीड-फ़ॉरवर्ड हिट, और क्रॉस-जांच-साधन साझा आधार-मानचित्र। ठीक इसलिए कि ये संकेत अक्सर इतने बड़े कुल-मान नहीं होते कि सब कुछ दबा दें, बल्कि अधिकतर क्रम, चिह्न, समान खिड़की, अवशेष और स्तरीकरण जैसे रूपों में आते हैं, इन्हें प्रणालीगत त्रुटियाँ, चयन-फलन, अंशांकन ड्रिफ्ट, टेम्पलेट पक्षपात और विश्लेषण-श्रृंखला की आदतें चुपचाप गढ़ सकती हैं। शून्य-जाँच का काम इन्हीं छद्म-संकेतों के लिए एक अदालत बनाना है।

वास्तव में कठोर शून्य-जाँच में कम-से-कम दो श्रेणियाँ होनी चाहिए।

संरचना-विखंडन प्रकार की शून्य-जाँच: लेबल permutation, समय-उलटाव, आवृत्ति-बैंड permutation, स्टेशन permutation, आकाश-घूर्णन, कंकाल-दिशा रैंडमाइज़ेशन, वस्तु-परिचय उलट-पुलट, दहलीज़-क्रम पुनर्व्यवस्था। ये पूछती हैं: यदि EFT जिन संरचनात्मक संबंधों पर निर्भर है उन्हें तोड़ दिया जाए, तो क्या तथाकथित मुख्य परिणाम फिर से यादृच्छिक स्तर पर लौटता है।
लिंक-प्रदूषण प्रकार की शून्य-जाँच: बैंडपास व्यवधान, समय-पैमाना खिसकाना, टेम्पलेट injection, यादृच्छिक mask, नकली नियंत्रण-खिड़की, स्थानापन्न सामग्री, छद्म-दहलीज़ स्कैन, उलटी polarity, off-axis ज्यामिति। ये पूछती हैं: क्या कोई ज्ञात गैर-भौतिक कारक प्रक्रिया के भीतर मुख्य परिणाम जैसी ही महत्त्वता का संकेत बना सकता है।

शून्य-जाँच सहायक पात्र नहीं है और उसे केवल परिशिष्ट में औपचारिकता की तरह नहीं रखा जाना चाहिए। 8.4 के लिए, यदि समय-उलटाव, आवृत्ति-बैंड permutation और विक्षेपण नियंत्रण भी वैसा ही “शून्य समय-विलंब साझा पद” दे दें, तो मुख्य परिणाम खड़ा ही नहीं रह सकता; 8.6 और 8.7 के लिए, यदि कंकाल को यादृच्छिक रूप से घुमाने या आधार-मानचित्र को विचलित करने के बाद भी तथाकथित सह-रेखीयता और साझा आधार-मानचित्र बने रहें, तो परिणाम एल्गोरिथ्मिक पक्षपात जैसा अधिक दिखता है; 8.9 के लिए, यदि निकट-क्षितिज की सूक्ष्म रेखाएँ इमेजिंग मानदंड और टेम्पलेट दिशा बदलते ही उतनी ही महत्वपूर्ण हो जाएँ, तो विशिष्ट हस्ताक्षर केवल processing chain खा रहा है; 8.10 और 8.11 के लिए, यदि स्थानापन्न संरचना, नकली load, खाली गुहा, कटा हुआ classical accounting या छद्म-दहलीज़ नियंत्रण भी “नया संकेत” दे दें, तो तथाकथित नई भौतिकी उपकरण के भीतर ही घूम रही है। मुख्य परिणाम यदि शून्य-जाँच के सामने अपनी विशिष्टता नहीं बचा सकता, तो उसे समर्थन में उन्नत करने का अधिकार नहीं है।

इसके अतिरिक्त, शून्य-जाँच के साथ सकारात्मक नियंत्रण भी चाहिए। यानी प्रक्रिया को केवल “EFT संरचना न होने पर” सही ढंग से असफल होना ही नहीं आना चाहिए; “ज्ञात संरचना injection की गई हो” या “ज्ञात भौतिकी प्रकट होनी चाहिए” तब सही ढंग से सफल होना भी आना चाहिए। यदि कोई पाइपलाइन छद्म-संकेत को तोड़ नहीं सकती और ज्ञात संकेत को वापस भी नहीं ला सकती, तो उसके मुख्य परिणाम को कोई अंक पाने का अधिकार नहीं है। इसलिए खंड 8 की शून्य-जाँच केवल गिराने का साधन नहीं है; वह “जहाँ सफल होना चाहिए वहाँ सफल हो, जहाँ असफल होना चाहिए वहाँ असफल हो” इस बात को भी साथ-साथ लॉक करती है।

सात. चौथी सुरक्षा-रेखा: क्रॉस-पाइपलाइन पुनरावृत्ति — सत्य पर किसी एक रास्ते का एकाधिकार न हो

खंड 8 में सबसे खतरनाक प्रकार की विजय वह है जो “डेटा-प्रसंस्करण का रास्ता बदलते ही खड़ी नहीं रहती।” क्योंकि EFT जिन अनेक राशियों की चिंता करता है, वे मूलतः जटिल निष्कर्षण-श्रृंखलाओं पर निर्भर हैं: पृष्ठभूमि-घटाव कैसे किया गया, कंकाल कैसे निकाला गया, लेंसिंग कैसे invert की गई, वलय-छवि कैसे पुनर्निर्मित हुई, दहलीज़ कैसे पहचानी गई, मूल प्रवाह को समय से कैसे मिलाया गया, और शोर तथा पश्च-चयन का हिसाब कैसे बाँटा गया। यदि इनमें से किसी भी चरण में किसी एक टीम की डिफ़ॉल्ट आदत पर अत्यधिक निर्भरता है, तो एकल पाइपलाइन का सुंदर परिणाम कभी अपने-आप भौतिक निष्कर्ष नहीं बन सकता।

इसलिए 8.12 की क्रॉस-पाइपलाइन पुनरावृत्ति का अर्थ यह बिल्कुल नहीं कि उसी कोड को अलग random seed से दो बार चला दिया जाए। इसकी माँग वास्तविक स्वतंत्रता है: स्वतंत्र preprocessing chain, स्वतंत्र पृष्ठभूमि मॉडल, स्वतंत्र कंकाल या image reconstruction method, स्वतंत्र fitting family, स्वतंत्र calibration route, और बेहतर हो तो स्वतंत्र टीम, स्वतंत्र संस्था तथा स्वतंत्र hardware version भी। खगोलीय डेटा के लिए इसका अर्थ है कि अलग-अलग सर्वेक्षण उत्पाद, अलग-अलग imaging या inversion pipelines, और अलग-अलग macro-model sets समान दिशा का निष्कर्ष दें; प्रयोगशाला डेटा के लिए इसका अर्थ है कि अलग उपकरण, अलग control software, अलग data acquisition और अलग post-processing chain परिणाम को मनमाने ढंग से उलट न सकें।

EFT को यहाँ हर पाइपलाइन से संख्यात्मक रूप से हूबहू एक ही उत्तर नहीं चाहिए। उसे सचमुच जिस चीज़ की आवश्यकता है, वह अधिक सरल और अधिक कठिन-से-नकली चीज़ है: मुख्य चिह्न की संगति, मुख्य क्रम की संगति और मुख्य संरचना की संगति। यदि कोई संकेत केवल किसी खास पृष्ठभूमि-घटाव, खास reconstruction regularization, खास template basis या खास post-selection window में ही खड़ा रह सकता है, और दूसरी तर्कसंगत पाइपलाइन आते ही बिखर जाता है, तो खंड 8 को ईमानदारी से यह नहीं लिखना चाहिए कि “यह विवादास्पद है पर बहुत आशाजनक है”; उसे लिखना चाहिए कि “फिलहाल यह processing-chain से जुड़ा संकेत मात्र है।”

क्रॉस-पाइपलाइन पुनरावृत्ति अंततः खुले खाते और पुनर्गणना-क्षमता पर आकर टिकती है। हर टीम को अपने सारे मध्यवर्ती फ़ाइलें बिना शर्त एक ही बार सार्वजनिक करनी हों, यह आवश्यक नहीं; पर बाहरी समीक्षकों को कम-से-कम प्रमुख निर्णय-बिंदु देखने मिलें: कौन-से नमूने हटाए गए, कौन-से पैरामीटर जमा किए गए, कौन-से होल्डआउट इकाइयाँ छुई नहीं गईं, कौन-सी शून्य-जाँचें असफल हुईं, और कौन-सी स्वतंत्र पाइपलाइन सहमत नहीं हुई। यदि ये खाते केवल मूल टीम के हाथ में रहेंगे, तो बाहरी दुनिया के लिए “यह जटिल घटना है” और “यह जटिल प्रक्रिया है” के बीच फर्क करना कठिन रहेगा।

आठ. चारों सुरक्षा-रेखाएँ समानांतर क्यों चलनी चाहिए, औपचारिकता की तरह अलग-अलग नहीं

केवल होल्डआउट करना और ब्लाइंडिंग न करना यह मौका देता है कि व्यक्ति पहले प्रवृत्ति देखे और फिर सावधानी से कोई “तर्कसंगत” होल्डआउट चुन ले; केवल ब्लाइंडिंग करना और शून्य-जाँच न करना यह हो सकता है कि उत्तर न झाँकने के बावजूद प्रणालीगत छद्म-संकेत को आश्चर्य समझ लिया जाए; केवल शून्य-जाँच करना और क्रॉस-पाइपलाइन न करना यह होने देता है कि एक विश्लेषण-मार्ग मुख्य परिणाम और शून्य-जाँच दोनों में एक ही पक्षपात साथ लिए रहे; केवल क्रॉस-पाइपलाइन करना और होल्डआउट न करना यह संभव बनाता है कि कई टीमों ने मिलकर प्रशिक्षण सेट को लगभग देववाणी की तरह overfit कर दिया हो। चारों सुरक्षा-रेखाएँ चार सजावटी हिस्से नहीं, एक श्रृंखला हैं।

इसीलिए 8.12 को एक बहुत आम भरपाई-तर्क को स्पष्ट रूप से अस्वीकार करना होगा: “होल्डआउट नहीं था, लेकिन हमने ब्लाइंडिंग की”; “शून्य-जाँच औसत थी, लेकिन क्रॉस-पाइपलाइन संगति अच्छी है”; “स्वतंत्र पुनरावृत्ति अभी नहीं है, पर प्रशिक्षण सेट पर परिणाम बहुत सुंदर है।” प्रचार में ऐसी scoring शायद उपयोगी लगे, पर audit में यह नियम-भंग है। खंड 8 “समग्र प्रभाव अंक” पाने नहीं आया है; वह यह पूछने आया है कि सबसे प्रतिकूल नियमों में भी क्या चीज़ खड़ी रह सकती है। कोई भी मुख्य दरवाज़ा न पार हो तो दूसरे दरवाज़े की सुंदर उपलब्धि उससे कटौती नहीं कर सकती।

नौ. ये चार पद्धतिगत सुरक्षा-रेखाएँ 8.4 से 8.11 तक कैसे उतरती हैं

8.4 और 8.5 में उतरते हुए चारों सुरक्षा-रेखाओं का मुख्य काम यह रोकना है कि “साझा पद” और “TPR/PER खाता-विभाजन” बाद में सिलकर न बनाए जाएँ। यहाँ होल्डआउट सेट के रूप में स्रोत-वर्ग, आकाश-क्षेत्र, आवृत्ति-बैंड और घटना-खिड़कियाँ बचाई जानी चाहिए; ब्लाइंडिंग में पर्यावरणीय पूर्वानुमान कार्ड और मुख्य राशि—अवशेष खाता-विभाजन नियम पहले जमा होने चाहिए; शून्य-जाँच में विक्षेपण-नियम स्थानापन्न, समय-उलटाव, लेबल permutation और स्टेशन permutation को प्राथमिकता मिलनी चाहिए; और क्रॉस-पाइपलाइन पुनरावृत्ति में कम-से-कम लाल विचलन processing chain, time-delay processing chain, independent distance chain और lensing-modeling chain शामिल होनी चाहिए। जब तक ये सुरक्षा-रेखाएँ पूरी नहीं होतीं, 8.4 और 8.5 बहुत आसानी से फिर “यह चित्र भी वैसा लगता है, वह चित्र भी समझाया जा सकता है” में फिसल जाएँगे।

8.6 से 8.9 में उतरते हुए चारों सुरक्षा-रेखाओं का काम यह रोकना है कि “साझा आधार-मानचित्र, कंकाल-दिशा, निकट-क्षितिज सूक्ष्म रेखाएँ और सीमा-विशिष्ट हस्ताक्षर” छवि-व्याख्या में न बदल जाएँ। यहाँ होल्डआउट सेट में अधिकतर होल्डआउट वस्तुएँ, होल्डआउट युग, होल्डआउट लाल विचलन स्तर, होल्डआउट विलय-चरण और होल्डआउट line-of-sight इकाइयाँ उपयोगी होंगी; ब्लाइंडिंग को कंकाल-दिशा क्षेत्र, पर्यावरणीय स्तर, दिशा-टेम्पलेट, वस्तु-वर्गीकरण और विशिष्ट-हस्ताक्षर पूर्वानुमान कार्ड पर रखा जा सकता है; शून्य-जाँच में template rotation, random skeleton, random mask, off-axis control, fake hot spot / fake cold spot, translation और resampling पर विशेष ज़ोर होना चाहिए; और क्रॉस-पाइपलाइन पुनरावृत्ति में अलग कंकाल algorithms, अलग mass reconstruction, अलग imaging schemes और अलग time-delay extraction chains को एक साथ समान दिशा का निष्कर्ष देना होगा।

8.10 और 8.11 में उतरते हुए चारों सुरक्षा-रेखाएँ और भी ढीली नहीं हो सकतीं। क्योंकि प्रयोगशाला खंड में “संकेत सुंदर है, पर असल में केवल इसी उपकरण और इसी processing script में टिकता है” जैसी छद्म-विजय सबसे आसानी से आती है। यहाँ होल्डआउट सेट पूरी पैरामीटर खिड़की, पूरी सामग्री-श्रेणी, पूरा उपकरण या chip batch हो सकता है; ब्लाइंडिंग को दहलीज़ स्तर, सामग्री-लेबल, driving order और link-cleanliness grading पर रखा जा सकता है; शून्य-जाँच में substitute configuration, empty cavity, fake load, reverse polarity, broken-chain control, time mismatch और injection recovery अनिवार्य होने चाहिए; और क्रॉस-पाइपलाइन पुनरावृत्ति को बेहतर हो तो cross-institution, cross-hardware और cross-control-software तक ले जाना चाहिए, विशेषतः raw ledger और post-selection ledger दोनों मार्गों से खुले होने चाहिए। केवल इस तरह खंड 8 engineering accident को EFT की नई योग्यता के रूप में नहीं लिखेगा।

दस. किस तरह का पद्धतिगत परिणाम EFT का सचमुच समर्थन करता है

8.12 के दृष्टिकोण से, EFT का सचमुच समर्थन यह नहीं कि कोई वस्तु-श्रेणी “EFT जैसी अधिक दिखती है”, बल्कि यह है कि सबसे प्रतिकूल नियम स्वीकार करने के बाद भी EFT कई निर्णय-रेखाओं में संरचनात्मक हिट हासिल करे। विशेष रूप से, कम-से-कम ये बातें साथ-साथ होनी चाहिए:

होल्डआउट सेट पर दिशा, क्रम और मुख्य संरचना प्रशिक्षण भाग के साथ समान दिशा में रहें, और मानदंड वापस मोड़कर जीवित न रखे जाएँ;
ब्लाइंडिंग पूर्वानुमान कार्ड की hit rate यादृच्छिक और permutation controls से स्थिर रूप से ऊपर रहे, न कि केवल deblinding के बाद “यह तो पहले से ऐसा ही होना चाहिए था” जैसा लगे;
मुख्य परिणाम संरचना-विखंडन प्रकार की शून्य-जाँच और लिंक-प्रदूषण प्रकार की शून्य-जाँच को स्पष्ट रूप से मात दे सके;
दो या अधिक सचमुच स्वतंत्र पाइपलाइन और टीमें नए नियम फिर से गढ़े बिना समान दिशा का निष्कर्ष दे सकें।

यदि ये शर्तें किसी एक अलग-थलग सूक्ष्म रेखा पर नहीं, बल्कि 8.4 से 8.11 तक के कई परिवारों में एक साथ टिकती हैं, तो EFT पहली बार “कहानी गढ़ने वाला सिद्धांत” वाली सबसे खतरनाक टिप्पणी से सचमुच बाहर निकलता है। क्योंकि इसका अर्थ होगा कि वह केवल वस्तुओं को समझा ही नहीं सकता, बल्कि अपनी व्याख्यात्मक सत्ता को पद्धति द्वारा संकुचित होने भी देता है; और अधिक महत्वपूर्ण बात यह कि संकुचन के बाद भी उसके पास कुछ शेष रहता है।

एक बात और कठोरता से लिखनी होगी: पद्धतिगत समर्थन के भी स्तर होते हैं। सबसे कमजोर स्तर केवल यह है कि कोई परिणाम सुरक्षा-रेखाओं के सामने गिरा नहीं; अधिक मजबूत स्तर यह है कि वह सुरक्षा-रेखाओं के सामने न केवल नहीं गिरा, बल्कि फीड-फ़ॉरवर्ड हिट, होल्डआउट स्थिरता, शून्य-जाँच से विभेद्यता और cross-team समान दिशा की चार-घटक बंदता भी दिखाए। खंड 8 को वास्तव में पहले स्तर की नहीं, दूसरे स्तर की आवश्यकता है। क्योंकि पहला स्तर केवल यह बताता है कि EFT को अभी तक प्रक्रिया-जन्य गलती करते पकड़ा नहीं गया; दूसरा स्तर बताता है कि वह प्रक्रिया-संबंधी विश्वसनीयता जीतना शुरू कर रहा है।

ग्यारह. कौन-से परिणाम केवल कसाव हैं, तत्काल बाहर होना नहीं

पद्धति से जुड़ी हर कठिनाई EFT को तुरंत पुनर्लेखन क्षेत्र में नहीं फेंकती। कुछ परिणाम समाप्ति नहीं, बल्कि कसाव जैसे होते हैं।

पहला कसाव यह है कि होल्डआउट सेट केवल कुछ खिड़कियों में टिके। यानी कुछ दावे विशेष स्रोत-वर्ग, विशेष वातावरण, विशेष प्लेटफ़ॉर्म या विशेष पैरामीटर खिड़की में चारों सुरक्षा-रेखाएँ पार कर सकें, पर उन खिड़कियों से बाहर जाते ही कमजोर हो जाएँ। ऐसा परिणाम संकेत देता है कि EFT ने शायद कोई वास्तविक चीज़ पकड़ी है, पर उसका प्रयोज्यता क्षेत्र संकीर्ण करना होगा।
दूसरा कसाव यह है कि ब्लाइंडिंग में हिट मौजूद हो, पर केवल दिशा के लिए पर्याप्त हो, परिमाण के लिए नहीं; केवल स्तरीकरण के लिए पर्याप्त हो, एकीकृत पैमाने के लिए नहीं। ऐसे में EFT अपनी “पूर्वानुमेयता” बचा सकता है, पर अत्यधिक शक्तिशाली सार्वत्रिक भाषा नहीं। तीसरा कसाव यह है कि शून्य-जाँच कुल मिलाकर पार हो जाए, पर कुछ उच्च-जोखिम उपक्षेत्रों में अभी भी संवेदनशील रहे—जैसे कोई विशेष आकाश-क्षेत्र, विशेष bandwidth edge, विशेष imaging configuration या विशेष material batch। चौथा कसाव यह है कि क्रॉस-पाइपलाइन समान दिशा दे, पर convergence के लिए अधिक चौड़ी systematic-error band चाहिए। इन्हें पूर्ण समर्थन की तरह सजाया नहीं जाना चाहिए, पर ये तुरंत बाहर होना भी नहीं हैं; ये केवल EFT को अपनी महत्वाकांक्षा छोटी लिखने और अपने वाक्य कठोर लिखने पर मजबूर करते हैं।

बारह. कौन-से परिणाम सीधे संरचनात्मक क्षति पहुँचाएँगे

EFT की पद्धतिगत मुख्य-रीढ़ को सचमुच चोट पहुँचाने वाली पहली श्रेणी वह है जिसमें होल्डआउट सेट व्यवस्थित रूप से दिशा पलट दे। यानी प्रशिक्षण भाग में स्थिर लगती दिशा, क्रम और बंदता होल्डआउट में प्रवेश करते ही गायब हो जाए, उलट जाए या उसे बचाने के लिए नमूने फिर से चुनने पड़ें। यह स्थिति “सामान्यीकरण थोड़ा कमजोर है” नहीं, बल्कि यह बताती है कि मुख्य निष्कर्ष शायद परिणाम-आधारित मानदंड-वापसी पर निर्भर था।
दूसरी श्रेणी यह है कि ब्लाइंडिंग लंबे समय तक हिट न करे, पर deblinding के बाद हमेशा सुंदर व्याख्या जोड़ी जा सके। यदि जमा किए गए मानदंडों में पूर्वानुमान कार्ड की hit rate यादृच्छिक के करीब हो, गलत-दिशा दर ऊँची रहे, या चित्र देख लेने के बाद दहलीज़, वर्गीकरण और प्रॉक्सी मान बार-बार फिर से लिखने पड़ें, तो EFT उन व्याख्याओं को आगे prediction syntax के रूप में नहीं लिख सकता।
तीसरी श्रेणी यह है कि शून्य-जाँच और मुख्य परिणाम साथ-साथ महत्वपूर्ण हो जाएँ। यदि लेबल permutation, समय-उलटाव, template rotation, substitute material, fake control window, bandpass perturbation या random skeleton भी लगभग समान शक्ति के “support signal” पैदा कर दें, तो खंड 8 को सबसे पहले यह स्वीकार करना चाहिए कि “परिणाम जटिल है” नहीं, बल्कि “process signal बना रही है।”
चौथी श्रेणी यह है कि केवल एक ही पाइपलाइन या एक ही टीम EFT को देख सके। जैसे ही background model, inversion method, imaging route, calibration chain या hardware version बदलता है और मुख्य परिणाम बिखर जाता है; या cross-institution पुनर्गणना लंबे समय तक समान दिशा का निष्कर्ष नहीं निकाल पाती, EFT दूसरों से उसे स्वीकार करने की योग्यता खो देता है। पाँचवीं, और सबसे कठोर श्रेणी, यह है कि चारों सुरक्षा-रेखाएँ आपस में लड़ें: होल्डआउट पार हो, पर ब्लाइंडिंग हिट न करे; मुख्य परिणाम महत्वपूर्ण हो, पर शून्य-जाँच भी उतनी ही महत्वपूर्ण हो; एक टीम में स्थिर रहे, पर कई टीमों में पुनरुत्पन्न न हो। यदि यह विभाजन कई निर्णय-परिवारों में लगातार दिखाई दे, तो 8.12 को पद्धतिगत अंक नहीं, बल्कि पूरे खंड की विश्वसनीयता की कठोर चोट के रूप में लिखा जाना चाहिए।

पद्धति में संरचनात्मक क्षति की एक और स्थिति है जिसे अक्सर कम आँका जाता है: नियम हमेशा परिणाम आने के बाद उन्नत या बदले जाते रहें। आज कहा जाए कि समान दिशा देखनी है, कल कहा जाए कि क्रम देखना है, परसों कहा जाए कि केवल मजबूत-पर्यावरण उपनमूना देखना है; आज कहा जाए कि दो पाइपलाइन पर्याप्त हैं, कल असंगति के कारण कहा जाए कि केवल उनमें से एक पर भरोसा है; आज कहा जाए कि होल्डआउट आकाश-क्षेत्र है, कल दिशा पलटने पर उसे होल्डआउट आवृत्ति-बैंड बना दिया जाए। जब तक “नियम परिणामों के पीछे भागते हैं” वाली स्थिति लंबे समय तक मौजूद रहती है, 8.12 को इसे गंभीर चोट मानना चाहिए, क्योंकि इसका अर्थ है कि EFT ने अभी खुद को स्थिर नियमों के हवाले करना नहीं सीखा।

तेरह. आज किन स्थितियों में अभी निर्णय नहीं दिया जा सकता

यह अनुभाग निश्चित ही “अभी-अनिर्णीत” के लिए जगह छोड़ता है, पर उसकी सीमा बहुत संकरी होनी चाहिए। सचमुच उचित अभी-अनिर्णीत स्थिति की पहली श्रेणी यह है कि raw ledger और प्रमुख metadata अभी पर्याप्त रूप से खुले नहीं हैं। यदि time-scale chain, bandpass chain, calibration chain, holdout-unit definition या environmental proxies अभी पारदर्शी नहीं हैं, तो ज़बरदस्ती निर्णय देना बहस को और अधिक शोर में धकेल देगा।
दूसरी श्रेणी यह है कि नमूना-कवरेज अभी असली होल्डआउट संरचना बनाने के लिए पर्याप्त नहीं है। उदाहरण के लिए कुछ विशिष्ट-हस्ताक्षर पूर्वानुमानों में वस्तुएँ अभी इतनी कम हैं कि एक वस्तु छोड़ना लगभग नमूना न बचने जैसा है; या कुछ चरम प्लेटफ़ॉर्मों पर अभी cross-institution शर्तें ही नहीं हैं। ऐसी स्थिति में अभी-अनिर्णीत रहना संयम है।
तीसरी श्रेणी यह है कि चारों सुरक्षा-रेखाओं की साझा परिभाषा अभी बनी नहीं है। यदि अलग-अलग टीमों में इस बात पर मूल सहमति नहीं कि स्वतंत्र पाइपलाइन क्या है, प्रभावी शून्य-जाँच क्या है, ब्लाइंडिंग hit क्या है और होल्डआउट इकाई क्या है, तो आज भारी निर्णय देना सचमुच उचित न हो सकता है। लेकिन यह अभी-अनिर्णीत स्थिति अनंत जीवन-विस्तार नहीं बन सकती। जैसे ही raw ledger खुल जाए, मानदंड जमा हो जाएँ, होल्डआउट और शून्य-जाँच हो जाएँ, स्वतंत्र पाइपलाइन भी पूरी हो जाएँ—और परिणाम फिर भी उल्टी दिशा दें—तो यह “अभी निर्णय नहीं दिया जा सकता” नहीं रहता। वह EFT को कमजोर कर रहा होता है, बेहतर बहाना आने की प्रतीक्षा नहीं।

एक और उचित पर खतरनाक अभी-अनिर्णीत स्थिति यह है कि वस्तु बहुत दुर्लभ हो, प्लेटफ़ॉर्म बहुत महँगा हो या पुनरावृत्ति प्रयोग का चक्र बहुत लंबा हो। उदाहरण के लिए कुछ निकट-क्षितिज सूक्ष्म रेखाएँ, चरम विलय या उच्च-लागत क्वांटम links सचमुच सामान्य प्रयोगों की तरह जल्दी multi-institution पुनरावृत्ति पूरी नहीं कर सकते। ऐसी स्थिति में 8.12 अस्थायी रूप से “साक्ष्य-घनत्व अपर्याप्त है” कहने की अनुमति दे सकता है, पर इसे चुपके से “इसलिए पहले समर्थन के रूप में हिसाब लिखो” में बदलने की अनुमति नहीं है। खंड 8 की व्याकरण में महँगा और दुर्लभ निर्णय को धीमा कर सकते हैं, जीत की संभावना को ऊपर नहीं उठा सकते।

चौदह. “समझा सकना” को “समीक्षा सह सकना” मत मानो: इस अनुभाग का सबसे महत्वपूर्ण मोड़

यह अनुभाग कुछ अतिरिक्त तकनीकी शर्तें नहीं जोड़ता; यह पूरे खंड की मुद्रा को व्याख्या-शास्त्र से समीक्षा-शास्त्र की ओर मोड़ता है। व्याख्या-शास्त्र हर नए वस्तु के लिए उसे रख देने वाला एक वाक्य खोजने में सबसे निपुण होता है; समीक्षा-शास्त्र इसके उलट पहले स्वयं को बाँधता है, फिर पूछता है कि उसके बाद क्या बचता है। EFT जैसे आधार-मानचित्र को पुनर्लेखित करने का प्रयास करने वाले सिद्धांत के लिए यह मोड़ विशेष रूप से महत्वपूर्ण है। क्योंकि वह जितना अधिक बोल सकता है, उसे पहले चुप रहना उतना ही सीखना होगा; वह जितना अधिक सब कुछ समझा सकता है, उसे सबसे प्रतिकूल नियम पहले उतने ही स्वीकार करने होंगे।

यही इस अनुभाग की सबसे याद रखने योग्य बात भी है: मिथ्याकरण की असली भयावहता इस बात में नहीं कि विरोधी कितना मजबूत है, बल्कि इसमें है कि क्या सिद्धांत स्वयं को सबसे प्रतिकूल नियमों से जाँचने को तैयार है। यदि EFT ऐसा करने को तैयार नहीं, तो भले ही दूसरे लोग कुछ समय तक उसका खंडन न कर सकें, वह फिर भी केवल कहानी गढ़ने वाला सिद्धांत रहेगा; इसके विपरीत, यदि वह सबसे प्रतिकूल नियमों के नीचे केवल कुछ खिड़कियों में ही जीतता है, तो वे आंशिक जीतें सुरक्षा-रेखाओं से मुक्त पूरी किताब भर की सुंदर व्याख्याओं से कहीं अधिक भारी होंगी।

पंद्रह. इस अनुभाग का संक्षेप

खंड 8 टिकेगा या नहीं, यह केवल इस पर निर्भर नहीं कि उसने क्या देखा, बल्कि इस पर भी निर्भर है कि क्या वह होल्डआउट सेट, ब्लाइंडिंग, शून्य-जाँच और क्रॉस-पाइपलाइन पुनरावृत्ति इन चार दरवाज़ों के सामने स्वयं को पहले असुविधा में डालने को तैयार है। केवल जब EFT पहले इस कठिन व्यवस्था को स्वीकार करता है, तभी बाद में उसे मिला कोई भी समर्थन आत्म-कथा की प्रतिध्वनि भर नहीं रह जाता।