Investment financial projects | Gold investment advantages

Your current location is:Index > Financial Management > Text

Financial Management

जयपुर निवेश:डीप लर्निंग 500 प्रश्न -Chapter10: लर्निंग को मजबूत करना (1)

Admin882024-10-17Financial Management22
  लेखनिर्देशिका  10.1सीखनेकोमजबूतकरनेकीमुख्यविशेषताएं  10.1.1परिभाषा  10.2सी

डीप लर्निंग 500 प्रश्न -Chapter10: लर्निंग को मजबूत करना (1)

  लेख निर्देशिका

  10.1 सीखने को मजबूत करने की मुख्य विशेषताएं

  10.1.1 परिभाषा

  10.2 सीखने के आवेदन के उदाहरणों को मजबूत करना

  10.3 सीखने को मजबूत करने और सीखने और नॉन -सूपरविज़न लर्निंग की देखरेख के बीच का अंतर

  10.3.1 सीखने और पर्यवेक्षण सीखने के बीच अंतर को मजबूत करें

  10.30

  कई अन्य मशीन लर्निंग एल्गोरिदम में, लर्निंग डिवाइस सीखा जाता है, और आरएल सीखता है कि एक विशिष्ट स्थिति में सीखने की कोशिश में सबसे बड़ा इनाम प्राप्त करने के लिए कौन सी कार्रवाई करें।कई परिदृश्यों में, वर्तमान क्रियाएं न केवल वर्तमान पुरस्कारों को प्रभावित करेगी, बल्कि राज्य और पुरस्कारों की एक श्रृंखला को भी प्रभावित करेगी।आरएल के तीन सबसे महत्वपूर्ण हैं:

  (1) मूल रूप से एक बंद लूप के रूप में;

  (2) सीधे इंगित न करें कि कौन सी कार्रवाई चुननी है (क्रियाएं);

  (३) कार्यों और इनाम के संकेतों की एक श्रृंखला प्रभावित होने के बाद लंबे समय को प्रभावित करेगी।

  10.1.1 परिभाषा

  लर्निंग को मजबूत करना मशीन लर्निंग की एक महत्वपूर्ण शाखा है।इसमें मुख्य रूप से चार तत्व, एजेंट, पर्यावरण स्थिति, कार्रवाई, पुरस्कार शामिल हैं, और सीखने को मजबूत करने का लक्ष्य सबसे अधिक संचयी पुरस्कार प्राप्त करना है।हम कई उदाहरणों को सूचीबद्ध करते हैं: बच्चे चलना चाहते हैं, लेकिन इससे पहले, उसे पहले खड़े होने की जरूरत है, और हमें खड़े होने के बाद एक संतुलित रखना चाहिए। ।बच्चे एजेंट हैं। पुरस्कृत (चॉकलेट खाना), और जब वह नहीं चल सका, तो वह चॉकलेट नहीं देता।

  ऊपर दिए गए आंकड़े में एजेंट खुद का प्रतिनिधित्व करता है। पर्यावरण। पर्यावरण, और फिर पर्यावरण को बदल देता है। ऐसा चक्र;

  प्रतिक्रिया के दो तरीके हैं: 1। अच्छा (इनाम), जो सकारात्मक प्रतिक्रिया है। 2। खराब (सजा सजा) नकारात्मक प्रतिक्रिया है।

  एजेंट अच्छा कर सकता है, या यह अच्छी तरह से किया जा सकता है। विकास प्रक्रिया के दौरान धीरे -धीरे सही और गलत के बीच अंतर करेगा, जो सीखने को मजबूत करना है।

  (1) विनिर्माण

  उदाहरण के लिए, एक जापानी कंपनी Fanuc, जब कारखाना रोबोट एक वस्तु को चुनता है, तो यह इस प्रक्रिया के वीडियो पर कब्जा कर लेगा।

  (२) इन्वेंट्री मैनेजमेंट

  इन्वेंट्री प्रबंधन में, प्रबंधन के लिए बाधाएं बड़े इन्वेंट्री, इन्वेंट्री डिमांड में बड़े उतार -चढ़ाव और धीमी इन्वेंट्री रीप्रेशन की गति के कारण प्रबंधन के लिए एक कठिन समस्या है। ।

  (३) गतिशील मूल्य निर्धारण

  सीखने में क्यू-लर्निंग को मजबूत करने का उपयोग गतिशील मूल्य निर्धारण मुद्दों से निपटने के लिए किया जा सकता है।

  (४) ग्राहक वितरण

  जब निर्माता को प्रत्येक ग्राहक तक ले जाया जाता है।ग्राहकों की सभी जरूरतों को पूरा करते हुए टीम की कुल लागत को कम करना चाहते हैं।मल्टी-एजेंट्स सिस्टम और क्यू-लर्निंग के माध्यम से, समय कम किया जा सकता है और वाहनों की संख्या को कम किया जा सकता है।

  (५) ईकॉमर्स वैयक्तिकरण

  ई -कॉमर्स में, आप ग्राहकों की व्यक्तिगत आवश्यकताओं को पूरा करने के लिए ग्राहक व्यवहार, अनुकूलित उत्पादों और सेवाओं को सीखने और विश्लेषण करने के लिए सीखने के एल्गोरिदम को मजबूत करने और विश्लेषण करने के लिए भी कर सकते हैं।

  (६) विज्ञापन सेवारत

  उदाहरण के लिए, एल्गोरिथ्म लाइनुसीबी (एन्हांस्ड लर्निंग एल्गोरिथ्म बैंडिट से संबंधित एक एल्गोरिथ्म) विज्ञापनों की एक विस्तृत श्रृंखला डालने की कोशिश करेगा, हालांकि इसे अतीत में बहुत कुछ नहीं किया गया है, यह वास्तविक क्लिक दर का बेहतर अनुमान लगा सकता है।एक और उदाहरण यह है कि डबल 11 के अनुशंसित परिदृश्य में, अलीबाबा सीखने और अनुकूली ऑनलाइन सीखने के लिए -अपस्फीति को मजबूत करता है। उत्पाद की विशेषताएं हर उपयोगकर्ता को हर उपयोगकर्ता को जल्दी से बच्चे की खोज करने और लोगों और सामानों की युग्मन दक्षता में सुधार करने में मदद करने के लिए।इसके अलावा, बढ़ाया सीखने के उपयोग ने मोबाइल फोन उपयोगकर्ताओं की क्लिक दर में 10-20%की वृद्धि की है।

  (() वित्तीय निवेश निर्णय

  उदाहरण के लिए, यह कंपनी PIT.AI, जो ट्रेडिंग रणनीतियों का मूल्यांकन करने के लिए सीखने को मजबूत करने का उपयोग करती है, उपयोगकर्ताओं को ट्रेडिंग रणनीतियों को स्थापित करने और उन्हें अपने निवेश लक्ष्यों को प्राप्त करने में मदद कर सकती है।

  (() चिकित्सा उद्योगजयपुर निवेश

  डायनेमिक ट्रीटमेंट स्कीम (DTR) रोगियों के लिए प्रभावी उपचार विधियों को खोजने के लिए चिकित्सा अनुसंधान का एक विषय है।उदाहरण के लिए, कैंसर, जैसे कि कैंसर, लंबे समय तक दवा की आवश्यकता होती है।

  मशीन लर्निंग में, हम पर्यवेक्षण और गैर -सुगंधित सीखने से अधिक परिचित हैं। सुदृढीकरण लीड (सुदृढीकरण सीखने), कंस्ट्रक्टर नीचे दिखाया गया है:

  10.3.1 सीखने और पर्यवेक्षण सीखने के बीच अंतर को मजबूत करें

  पर्यवेक्षण सीखने की तरह है जब आप पढ़ रहे हैं, तो एक संरक्षक उसके बगल में है। एक संरक्षक के लिए संभावित परिणामों को जानना असंभव है।

  इस समय, सीखने की सुदृढ़ीकरण को बिना किसी लेबल के कुछ व्यवहार करने की कोशिश करके एक परिणाम मिलेगा।

  यह ऐसा है जैसे आपके पास एक पिल्ला है, जिसने अच्छी तरह से प्रशिक्षित नहीं किया है। अंततः एक ज्ञान सीखेंगे, जो लिविंग रूम को गड़बड़ करने के लिए एक बुरा व्यवहार है।जयपुर फाइनेंस

  दोनों सीखने के तरीके आउटपुट के लिए एक मैपिंग इनपुट सीखेंगे। अच्छा या बुरा।इसके अलावा, सीखने को मजबूत करने के परिणामों पर प्रतिक्रिया में देरी होती है। एल्गोरिथ्म।

  और इनपुट का सामना करना पड़ रहा है, जब भी एल्गोरिथ्म एक अधिनियम बनाता है, तो यह अगले निर्णय के इनपुट को प्रभावित करता है, और पर्यवेक्षण सीखने का इनपुट स्वतंत्र और वितरित होता है।कानपुर फाइनेंस

  सीखने को मजबूत करके, एक एजेंट खोज और विकास (व्याख्या और व्याख्या) के बीच वजन कर सकता है और अधिकतम रिटर्न का चयन कर सकता है।

  अन्वेषण कई अलग -अलग चीजों को देखने की कोशिश करेगा कि क्या उन्होंने पहले बेहतर कोशिश की है।

  अन्वेषण पिछले अनुभव में सबसे प्रभावी व्यवहार की कोशिश करेगा।

  सामान्य पर्यवेक्षण और शिक्षण एल्गोरिथ्म इस संतुलन पर विचार नहीं करता है, यह केवल शोषक है।

  10.30

  नॉन -मोनिटोरिंग आउटपुट के लिए एक मैपिंग इनपुट नहीं है, लेकिन एक मोड है।उदाहरण के लिए, उपयोगकर्ताओं को समाचार लेखों की सिफारिश करने के कार्य में, नॉन -सुपरविज़न उन उपयोगकर्ताओं को पाएंगे जिन्होंने पहले भी इसी तरह के लेख पढ़े हैं और उन्हें एक सिफारिश की है। स्वयं उपयोगकर्ता।

  गैर -शंपरविज़न सीखने के लिए, यह प्रशिक्षण उदाहरण के माध्यम से प्रशिक्षण उदाहरण के माध्यम से सीखता है, जो प्रशिक्षण उदाहरण में छिपे हुए संरचनात्मक ज्ञान की खोज करता है।यहां प्रशिक्षण उदाहरणों का वैचारिक अंकन अज्ञात है, इसलिए प्रशिक्षण नमूने की अस्पष्टता उच्चतम है।सुदृढीकरण सीखने के लिए, यह किसी भी वैचारिक अंकन द्वारा विलंबित वैचारिक या प्रभावशीलता (विलंबित वैचारिक चिह्न के रूप में) के साथ जुड़े प्रशिक्षण उदाहरणों के माध्यम से सीखता है, लेकिन राज्य से कार्रवाई तक एक निश्चित मानचित्रण प्राप्त करने के लिए।यहां वैचारिक चिह्नों की कोई अवधारणा नहीं है, लेकिन विलंबित पुरस्कारों को एक विलंबित अवधारणा चिह्न के रूप में माना जा सकता है।

  यह ध्यान दिया जाना चाहिए कि पर्यवेक्षण और सीखने और नॉन -सुपरविज़न लर्निंग शुरू से ही सापेक्ष हैं, और सीखने को मजबूत करना पर्यवेक्षण सीखने और गैर -शूपरविशन सीखने के बीच के अंतर पर विचार नहीं करता है, इसलिए प्रशिक्षण नमूना अस्पष्टता के परिप्रेक्ष्य से। अध्ययन में, सीखने को मजबूत करना एक विशेष गैर -शूपरविज़न सीखने के रूप में माना जाता है।वास्तव में, सीखने को मजबूत करने की स्थिति अभी भी विवादास्पद है, और कुछ विद्वान यह भी सोचते हैं कि यह "उदाहरण से सीखने" के समान स्तर का समान स्तर है।

  प्रशिक्षण नमूना अस्पष्टता के परिप्रेक्ष्य से वर्गीकरण प्रणाली से, हाल के वर्षों में, कुछ एक्सटेंशन हैं, जैसे कि मल्टी-इंस्ट्रक्शनलिंग, आदि। प्रशिक्षण नमूना अस्पष्टता के परिप्रेक्ष्य से, एक बहुत ही विशेष नया शिक्षण ढांचा इस प्रणाली में प्रवेश कर सकता है।लेकिन अब तक, किसी भी नए ढांचे को मान्यता नहीं दी गई है।इसके अलावा, अर्ध-सुपरविसेलिंग में भी कुछ उम्मीद है। नमूने।यह पर्यवेक्षण सीखने की प्राकृतिक अस्पष्टता, गैर -शंपरविज़न सीखने और सीखने को मजबूत करने से पूरी तरह से अलग है।अर्ध -शूपरविस्ड लर्निंग में कृत्रिम अस्पष्टता की आवश्यकता है और इंजीनियरिंग समस्याओं को हल करने में उपयोगी है (बड़ी संख्या में नमूनों को चिह्नित करने की लागत बेहद महंगी हो सकती है), लेकिन यह कार्यप्रणाली या सीखने की समस्याओं के बड़े लोगों का कारण नहीं हो सकता है।

  सीखने और पहले दो के बीच आवश्यक अंतर को मजबूत करें:

  पिछले दो की स्पष्ट डेटा अवधारणा के बिना, यह परिणामों को नहीं जानता है, केवल लक्ष्य।डेटा की अवधारणा डेटा की एक बड़ी मात्रा है। प्रशिक्षण और अनुकूलन के बाद, आप एक झांग ब्रांड के नए बिल्लियों और कुत्तों के साथ एक का उपयोग करते हैं।