Financial Management
जयपुर निवेश:डीप लर्निंग 500 प्रश्न -Chapter10: लर्निंग को मजबूत करना (1)
लेख निर्देशिका
10.1 सीखने को मजबूत करने की मुख्य विशेषताएं
10.1.1 परिभाषा
10.2 सीखने के आवेदन के उदाहरणों को मजबूत करना
10.3 सीखने को मजबूत करने और सीखने और नॉन -सूपरविज़न लर्निंग की देखरेख के बीच का अंतर
10.3.1 सीखने और पर्यवेक्षण सीखने के बीच अंतर को मजबूत करें
10.30
कई अन्य मशीन लर्निंग एल्गोरिदम में, लर्निंग डिवाइस सीखा जाता है, और आरएल सीखता है कि एक विशिष्ट स्थिति में सीखने की कोशिश में सबसे बड़ा इनाम प्राप्त करने के लिए कौन सी कार्रवाई करें।कई परिदृश्यों में, वर्तमान क्रियाएं न केवल वर्तमान पुरस्कारों को प्रभावित करेगी, बल्कि राज्य और पुरस्कारों की एक श्रृंखला को भी प्रभावित करेगी।आरएल के तीन सबसे महत्वपूर्ण हैं:
(1) मूल रूप से एक बंद लूप के रूप में;
(2) सीधे इंगित न करें कि कौन सी कार्रवाई चुननी है (क्रियाएं);
(३) कार्यों और इनाम के संकेतों की एक श्रृंखला प्रभावित होने के बाद लंबे समय को प्रभावित करेगी।
10.1.1 परिभाषा
लर्निंग को मजबूत करना मशीन लर्निंग की एक महत्वपूर्ण शाखा है।इसमें मुख्य रूप से चार तत्व, एजेंट, पर्यावरण स्थिति, कार्रवाई, पुरस्कार शामिल हैं, और सीखने को मजबूत करने का लक्ष्य सबसे अधिक संचयी पुरस्कार प्राप्त करना है।हम कई उदाहरणों को सूचीबद्ध करते हैं: बच्चे चलना चाहते हैं, लेकिन इससे पहले, उसे पहले खड़े होने की जरूरत है, और हमें खड़े होने के बाद एक संतुलित रखना चाहिए। ।बच्चे एजेंट हैं। पुरस्कृत (चॉकलेट खाना), और जब वह नहीं चल सका, तो वह चॉकलेट नहीं देता।
ऊपर दिए गए आंकड़े में एजेंट खुद का प्रतिनिधित्व करता है। पर्यावरण। पर्यावरण, और फिर पर्यावरण को बदल देता है। ऐसा चक्र;
प्रतिक्रिया के दो तरीके हैं: 1। अच्छा (इनाम), जो सकारात्मक प्रतिक्रिया है। 2। खराब (सजा सजा) नकारात्मक प्रतिक्रिया है।
एजेंट अच्छा कर सकता है, या यह अच्छी तरह से किया जा सकता है। विकास प्रक्रिया के दौरान धीरे -धीरे सही और गलत के बीच अंतर करेगा, जो सीखने को मजबूत करना है।
(1) विनिर्माण
उदाहरण के लिए, एक जापानी कंपनी Fanuc, जब कारखाना रोबोट एक वस्तु को चुनता है, तो यह इस प्रक्रिया के वीडियो पर कब्जा कर लेगा।
(२) इन्वेंट्री मैनेजमेंट
इन्वेंट्री प्रबंधन में, प्रबंधन के लिए बाधाएं बड़े इन्वेंट्री, इन्वेंट्री डिमांड में बड़े उतार -चढ़ाव और धीमी इन्वेंट्री रीप्रेशन की गति के कारण प्रबंधन के लिए एक कठिन समस्या है। ।
(३) गतिशील मूल्य निर्धारण
सीखने में क्यू-लर्निंग को मजबूत करने का उपयोग गतिशील मूल्य निर्धारण मुद्दों से निपटने के लिए किया जा सकता है।
(४) ग्राहक वितरण
जब निर्माता को प्रत्येक ग्राहक तक ले जाया जाता है।ग्राहकों की सभी जरूरतों को पूरा करते हुए टीम की कुल लागत को कम करना चाहते हैं।मल्टी-एजेंट्स सिस्टम और क्यू-लर्निंग के माध्यम से, समय कम किया जा सकता है और वाहनों की संख्या को कम किया जा सकता है।
(५) ईकॉमर्स वैयक्तिकरण
ई -कॉमर्स में, आप ग्राहकों की व्यक्तिगत आवश्यकताओं को पूरा करने के लिए ग्राहक व्यवहार, अनुकूलित उत्पादों और सेवाओं को सीखने और विश्लेषण करने के लिए सीखने के एल्गोरिदम को मजबूत करने और विश्लेषण करने के लिए भी कर सकते हैं।
(६) विज्ञापन सेवारत
उदाहरण के लिए, एल्गोरिथ्म लाइनुसीबी (एन्हांस्ड लर्निंग एल्गोरिथ्म बैंडिट से संबंधित एक एल्गोरिथ्म) विज्ञापनों की एक विस्तृत श्रृंखला डालने की कोशिश करेगा, हालांकि इसे अतीत में बहुत कुछ नहीं किया गया है, यह वास्तविक क्लिक दर का बेहतर अनुमान लगा सकता है।एक और उदाहरण यह है कि डबल 11 के अनुशंसित परिदृश्य में, अलीबाबा सीखने और अनुकूली ऑनलाइन सीखने के लिए -अपस्फीति को मजबूत करता है। उत्पाद की विशेषताएं हर उपयोगकर्ता को हर उपयोगकर्ता को जल्दी से बच्चे की खोज करने और लोगों और सामानों की युग्मन दक्षता में सुधार करने में मदद करने के लिए।इसके अलावा, बढ़ाया सीखने के उपयोग ने मोबाइल फोन उपयोगकर्ताओं की क्लिक दर में 10-20%की वृद्धि की है।
(() वित्तीय निवेश निर्णय
उदाहरण के लिए, यह कंपनी PIT.AI, जो ट्रेडिंग रणनीतियों का मूल्यांकन करने के लिए सीखने को मजबूत करने का उपयोग करती है, उपयोगकर्ताओं को ट्रेडिंग रणनीतियों को स्थापित करने और उन्हें अपने निवेश लक्ष्यों को प्राप्त करने में मदद कर सकती है।
(() चिकित्सा उद्योगजयपुर निवेश
डायनेमिक ट्रीटमेंट स्कीम (DTR) रोगियों के लिए प्रभावी उपचार विधियों को खोजने के लिए चिकित्सा अनुसंधान का एक विषय है।उदाहरण के लिए, कैंसर, जैसे कि कैंसर, लंबे समय तक दवा की आवश्यकता होती है।
मशीन लर्निंग में, हम पर्यवेक्षण और गैर -सुगंधित सीखने से अधिक परिचित हैं। सुदृढीकरण लीड (सुदृढीकरण सीखने), कंस्ट्रक्टर नीचे दिखाया गया है:
10.3.1 सीखने और पर्यवेक्षण सीखने के बीच अंतर को मजबूत करें
पर्यवेक्षण सीखने की तरह है जब आप पढ़ रहे हैं, तो एक संरक्षक उसके बगल में है। एक संरक्षक के लिए संभावित परिणामों को जानना असंभव है।
इस समय, सीखने की सुदृढ़ीकरण को बिना किसी लेबल के कुछ व्यवहार करने की कोशिश करके एक परिणाम मिलेगा।
यह ऐसा है जैसे आपके पास एक पिल्ला है, जिसने अच्छी तरह से प्रशिक्षित नहीं किया है। अंततः एक ज्ञान सीखेंगे, जो लिविंग रूम को गड़बड़ करने के लिए एक बुरा व्यवहार है।जयपुर फाइनेंस
दोनों सीखने के तरीके आउटपुट के लिए एक मैपिंग इनपुट सीखेंगे। अच्छा या बुरा।इसके अलावा, सीखने को मजबूत करने के परिणामों पर प्रतिक्रिया में देरी होती है। एल्गोरिथ्म।
और इनपुट का सामना करना पड़ रहा है, जब भी एल्गोरिथ्म एक अधिनियम बनाता है, तो यह अगले निर्णय के इनपुट को प्रभावित करता है, और पर्यवेक्षण सीखने का इनपुट स्वतंत्र और वितरित होता है।कानपुर फाइनेंस
सीखने को मजबूत करके, एक एजेंट खोज और विकास (व्याख्या और व्याख्या) के बीच वजन कर सकता है और अधिकतम रिटर्न का चयन कर सकता है।
अन्वेषण कई अलग -अलग चीजों को देखने की कोशिश करेगा कि क्या उन्होंने पहले बेहतर कोशिश की है।
अन्वेषण पिछले अनुभव में सबसे प्रभावी व्यवहार की कोशिश करेगा।
सामान्य पर्यवेक्षण और शिक्षण एल्गोरिथ्म इस संतुलन पर विचार नहीं करता है, यह केवल शोषक है।
10.30
नॉन -मोनिटोरिंग आउटपुट के लिए एक मैपिंग इनपुट नहीं है, लेकिन एक मोड है।उदाहरण के लिए, उपयोगकर्ताओं को समाचार लेखों की सिफारिश करने के कार्य में, नॉन -सुपरविज़न उन उपयोगकर्ताओं को पाएंगे जिन्होंने पहले भी इसी तरह के लेख पढ़े हैं और उन्हें एक सिफारिश की है। स्वयं उपयोगकर्ता।
गैर -शंपरविज़न सीखने के लिए, यह प्रशिक्षण उदाहरण के माध्यम से प्रशिक्षण उदाहरण के माध्यम से सीखता है, जो प्रशिक्षण उदाहरण में छिपे हुए संरचनात्मक ज्ञान की खोज करता है।यहां प्रशिक्षण उदाहरणों का वैचारिक अंकन अज्ञात है, इसलिए प्रशिक्षण नमूने की अस्पष्टता उच्चतम है।सुदृढीकरण सीखने के लिए, यह किसी भी वैचारिक अंकन द्वारा विलंबित वैचारिक या प्रभावशीलता (विलंबित वैचारिक चिह्न के रूप में) के साथ जुड़े प्रशिक्षण उदाहरणों के माध्यम से सीखता है, लेकिन राज्य से कार्रवाई तक एक निश्चित मानचित्रण प्राप्त करने के लिए।यहां वैचारिक चिह्नों की कोई अवधारणा नहीं है, लेकिन विलंबित पुरस्कारों को एक विलंबित अवधारणा चिह्न के रूप में माना जा सकता है।
यह ध्यान दिया जाना चाहिए कि पर्यवेक्षण और सीखने और नॉन -सुपरविज़न लर्निंग शुरू से ही सापेक्ष हैं, और सीखने को मजबूत करना पर्यवेक्षण सीखने और गैर -शूपरविशन सीखने के बीच के अंतर पर विचार नहीं करता है, इसलिए प्रशिक्षण नमूना अस्पष्टता के परिप्रेक्ष्य से। अध्ययन में, सीखने को मजबूत करना एक विशेष गैर -शूपरविज़न सीखने के रूप में माना जाता है।वास्तव में, सीखने को मजबूत करने की स्थिति अभी भी विवादास्पद है, और कुछ विद्वान यह भी सोचते हैं कि यह "उदाहरण से सीखने" के समान स्तर का समान स्तर है।
प्रशिक्षण नमूना अस्पष्टता के परिप्रेक्ष्य से वर्गीकरण प्रणाली से, हाल के वर्षों में, कुछ एक्सटेंशन हैं, जैसे कि मल्टी-इंस्ट्रक्शनलिंग, आदि। प्रशिक्षण नमूना अस्पष्टता के परिप्रेक्ष्य से, एक बहुत ही विशेष नया शिक्षण ढांचा इस प्रणाली में प्रवेश कर सकता है।लेकिन अब तक, किसी भी नए ढांचे को मान्यता नहीं दी गई है।इसके अलावा, अर्ध-सुपरविसेलिंग में भी कुछ उम्मीद है। नमूने।यह पर्यवेक्षण सीखने की प्राकृतिक अस्पष्टता, गैर -शंपरविज़न सीखने और सीखने को मजबूत करने से पूरी तरह से अलग है।अर्ध -शूपरविस्ड लर्निंग में कृत्रिम अस्पष्टता की आवश्यकता है और इंजीनियरिंग समस्याओं को हल करने में उपयोगी है (बड़ी संख्या में नमूनों को चिह्नित करने की लागत बेहद महंगी हो सकती है), लेकिन यह कार्यप्रणाली या सीखने की समस्याओं के बड़े लोगों का कारण नहीं हो सकता है।
सीखने और पहले दो के बीच आवश्यक अंतर को मजबूत करें:
पिछले दो की स्पष्ट डेटा अवधारणा के बिना, यह परिणामों को नहीं जानता है, केवल लक्ष्य।डेटा की अवधारणा डेटा की एक बड़ी मात्रा है। प्रशिक्षण और अनुकूलन के बाद, आप एक झांग ब्रांड के नए बिल्लियों और कुत्तों के साथ एक का उपयोग करते हैं।
-
Previous
जयपुर निवेश:प्लेटफ़ॉर्म्स का एक oratform बनाना, इलेक्ट्रिक वाहन चार्जिंग, यह गुआंगज़ौ टेक इनोवेशन कंपनी एक बिट ⺒;
चूंकिBYDने2006मेंशेन्ज़ेनमेंचार्जिंगस्टेशनोंकापहलाबैचबनायाथा,इ
-
Next
आगरा स्टॉक:नॉर्वेजियन फॉरेस्ट: द ड्रामा एंड नॉवेल्स ऑफ़ द नोबेल प्राइज इन लिटरेचर, जॉनफोर्ड
"खालीपहाड़ोंकोनहींदेखाजाताहै,लेकिनलोगोंकेशब्दोंकोसुनाजाता
Related Articles
- Hyderabad Wealth Management:Why Nvidia Stock Skyrocketed 239% in 2023
- Agra Investment:What Will Happen After Chipotle❼Massive 50-for-1 Stock Split? Here❼What History Shows.
- Simla Investment:707 Angel Number
- Indore Stock:Gold Price In India Steady, Sept 3: Check Latest Yellow Metal Prices, Silver Stable Too
- Pune Wealth Management:Insiders Selling Nvidia (NVDA) Amid Blackwell GPU Delay and Stock Surge
- Chennai Stock:Three young entrepreneurs talk about their small business journey
- Lucknow Stock:What Does a Financial Advisor Do?
- Mumbai Investment:Stocks in focus today: Indian Oil, Tata Power, Alkem Laboratories, HUL and more
- Surat Investment:India asks utilities to order $33 billion in equipment this year to boost coal power output, sources say
- Lucknow Wealth Management:NXP puts more than a billion dollars into R&D activities in India