याद रखें (अस्पष्ट रूप से) आपने कैसे चलना, बात करना, बाइक चलाना या ड्राइव करना सीखा? यह गन्दा और गलतियों से भरा था, लेकिन आपने इस तरह से जो कौशल सीखा, वह बना रहा। जीवित प्रणालियों के बाहर, 'वास्तविक जीवन के अनुभव' को लेने और कृत्रिम बुद्धि के लिए चिपचिपा, अनुकूलनीय व्यवहार विकसित करने के लिए पर्याप्त मजबूत एल्गोरिदम की संरचना करना चुनौतीपूर्ण रहा है।
खैर, अल्फा गो ज़ीरो ने अभी किया।
'यह एक खाली स्लेट से शुरू होता है और केवल स्वयं के लिए, केवल आत्म-खेल से, और बिना किसी मानव ज्ञान, या किसी मानव डेटा, या सुविधाओं, या उदाहरणों, या मनुष्यों के हस्तक्षेप के बिना ही पता चलता है। दीपमाइंड के प्रोफेसर डेविड सिल्वर कहते हैं, 'यह पता चलता है कि गो के खेल को पहले सिद्धांतों से कैसे खेलना है।
एआई में कई पुनरावृत्तियां हुई हैं, प्रत्येक पहले की तुलना में अधिक स्मार्ट और अधिक सक्षम है। पिछले संस्करण में एल्गोरिदम के एक समूह के साथ पिछले खेलों के एक विशाल डेटाबेस का उपयोग किया गया था जो इसे जीतने की ओर इशारा करता था। उस दृष्टिकोण के कारण विश्व चैंपियन पेशेवर गो खिलाड़ी की हार हुई। पोकर में, एआई लिब्रेटस ने हाल ही में दुनिया के शीर्ष पोकर खिलाड़ियों को लगभग 2 मिलियन डॉलर से कम कर दिया, वह भी मानव गेम डेटा के बजाय सेल्फ-प्ले के माध्यम से सीखकर।
डॉन डेवनपोर्ट और जोहान कोकी
अब, अल्फा गो के इस नवीनतम संस्करण में, कृत्रिम बुद्धिमत्ता कार्यक्रम सिखाया गया अपने आप गो कैसे खेलें - बिना किसी मानवीय पृष्ठभूमि के।
खुद के खिलाफ लाखों गेम सिमुलेशन चलाना, इसे सीखने में 40 दिन लगे - खरोंच से - खुद के विश्व चैंपियन संस्करण को कैसे हराया जाए। यह वास्तव में गेम-चेंजिंग है, न केवल गो के लिए, बल्कि यह भी कि कैसे नए ज्ञान की खोज की जाती है। आपकी डोमेन विशेषज्ञता कितनी सटीक या पूर्ण है? वहाँ है बहुत अल्फा गो ज़ीरो के साथ सीखने का यह आकर्षक प्रयोग हमें क्या बता रहा है।
एक यूट्यूब पोस्ट में सिल्वर के अनुसार, 'अल्फा गो का विचार बाहर जाकर इंसानों को हराना नहीं है, बल्कि वास्तव में यह पता लगाना है कि विज्ञान करने का क्या मतलब है - एक कार्यक्रम के लिए खुद से सीखने में सक्षम होना कि ज्ञान क्या है। सफलता।
अल्फा गो ज़ीरो डीप माइंड टीम इसे प्रथम-सिद्धांत, 'तबुला रस' (रिक्त स्लेट) सीखना कहती है।
'अगर आप हासिल कर सकते हैं' टाबुला रस सीखने के लिए, आपके पास एक एजेंट है जिसे गो के गेम से किसी अन्य डोमेन में ट्रांसप्लांट किया जा सकता है, और आप जिस गेम में हैं, उसकी विशिष्टताएं, आप एक एल्गोरिदम के साथ आते हैं जो इतना सामान्य है कि इसे कहीं भी लागू किया जा सकता है, 'वे कहते हैं . जब आप अवधारणा का विस्तार करते हैं तो यह एक उत्तेजक विचार है। जरा सोचिए कि हम मजबूत, सीखने वाले एल्गोरिदम के एक सेट के साथ क्या कर सकते हैं जो व्यवस्थित रूप से कठिन समस्याओं से निपट सकता है और हमारी सभ्यता के सामूहिक ज्ञान की तुलना में तेजी से सीख सकता है। . . दिनों में, दशकों में नहीं।
कितना पुराना है आइवी मीक्स
अभी के लिए, बड़ी बात यह है कि, 'एल्गोरिदम कंप्यूटिंग या उपलब्ध डेटा से कहीं अधिक मायने रखता है,' सिल्वर ने कहा। यह अकेला एक गेम-चेंजर है कि हम किस तरह से ज्ञात दुनिया का विस्तार करते हैं। जबकि अल्फा गो हार्डवेयर में लगभग $ 25 मिलियन पर चलता है - यह बिल्कुल हल्का सिस्टम नहीं है - आप जानते हैं कि एआई गुरु लंबे समय से क्लीनर, बेहतर डेटा सेट बनाने पर काम कर रहे हैं। आज, कृत्रिम बुद्धि को सटीक रूप से प्रशिक्षित करने के लिए कई बड़े डेटा सेट बहुत शोर-शराबे वाले-खराब डेटा से भरे हुए माने जाते हैं। यदि एआई डेटा से सीख रहा है, और डेटा खराब है, तो यह नहीं सीखता है। बड़ी समस्या।
क्या होगा यदि आपको स्वच्छ डेटा की आवश्यकता नहीं है, लेकिन केवल अनुभव है, और कृत्रिम बुद्धि खुद को प्रशिक्षित कर सकती है?
अल्फा गो जीरो में यही रोमांचक उपलब्धि है। भले ही यह खेलों की आला, नियम-आधारित दुनिया में है, भौतिक नियमों से काम करने वाले हर उद्योग में इसके बड़े निहितार्थ हैं - रसायन विज्ञान, यातायात, जीव विज्ञान, औषध विज्ञान, यात्रा, रसद और निर्माण के बारे में सोचें। यदि हम नियमों को इतना लचीला बना सकते हैं कि वे व्यापक अनुभव से काम कर सकते हैं, और इतने दिशात्मक हैं कि वे हमेशा मजबूत कौशल बनाते हैं - जैसे अल्फा गो ज़ीरो - तो कृत्रिम बुद्धिमत्ता प्राप्त करना संभव है जो मास्टरमाइंड सिस्टम है। इन प्रणालियों को किसी बाहरी डेटा की आवश्यकता नहीं होगी, डेटा की सफाई की कोई समस्या नहीं होगी, और मानव-में-लूप मंदी की आवश्यकता नहीं होगी। इसलिए आंशिक रूप से Google की मूल कंपनी, Alphabet, ने कंपनी को कृत्रिम बुद्धिमत्ता पर दांव लगाया और कृत्रिम बुद्धिमत्ता में तीव्र दर से निवेश कर रही है। (अमेज़ॅन अपने नवीनतम एआई अधिग्रहण बॉडीलैब्स की तरह कृत्रिम बुद्धिमत्ता में भी निवेश कर रहा है।)
ट्रे ब्रूक्स और उनके भाई
डीप माइंड के प्रोफेसर डेविड सिल्वर कहते हैं, 'तथ्य यह है कि हमने एक कार्यक्रम को एक उच्च-स्तरीय प्रदर्शन हासिल करते देखा है...इसका मतलब यह होना चाहिए कि अब हम मानवता के लिए सबसे चुनौतीपूर्ण और प्रभावशाली समस्याओं में से कुछ से निपटना शुरू कर सकते हैं।'
इस पोस्ट को यह स्पष्ट करने के लिए अद्यतन किया गया है कि एआई लिब्रेटस ने हाल ही में शीर्ष पोकर खिलाड़ियों को एक रणनीति का उपयोग करके हराया है जिसमें मानव-दर्ज किए गए डेटा के बजाय स्वयं-खेल शामिल है।