இந்த இடுகையில், “மாற்று” முன்னுதாரணத்தின் அடிப்படையில் வலுவூட்டல் கற்றல் (RL) அல்காரிதத்தை அறிமுகப்படுத்துகிறேன்: பிரித்து வெற்றி. பாரம்பரிய முறைகளைப் போலன்றி, இந்த வழிமுறை இல்லை தற்காலிக வேறுபாடு (TD) கற்றலின் அடிப்படையில் (இதில் உள்ளது அளவிடுதல் சவால்கள்), மற்றும் நீண்ட அடிவான பணிகளுக்கு நன்றாக அளவிடுகிறது.



தற்காலிக வேறுபாடு (TD) கற்றலுக்குப் பதிலாக, பிரித்து வெற்றி பெறுவதன் அடிப்படையில் வலுவூட்டல் கற்றலை (RL) செய்யலாம்.

சிக்கல் அமைப்பு: ஆஃப்-பாலிசி RL

எங்கள் பிரச்சனை அமைப்பு ஆஃப் பாலிசி ஆர்.எல். இதன் பொருள் என்ன என்பதை சுருக்கமாகப் பார்ப்போம்.

RL இல் இரண்டு வகை அல்காரிதம்கள் உள்ளன: பாலிசி RL மற்றும் ஆஃப் பாலிசி RL. கொள்கையில் RL என்றால் நம்மால் முடியும் மட்டுமே தற்போதைய கொள்கையால் சேகரிக்கப்பட்ட புதிய தரவைப் பயன்படுத்தவும். வேறு வார்த்தைகளில் கூறுவதானால், பாலிசியைப் புதுப்பிக்கும் ஒவ்வொரு முறையும் பழைய தரவை தூக்கி எறிய வேண்டும். PPO மற்றும் GRPO (மற்றும் பொதுவாக கொள்கை சாய்வு முறைகள்) போன்ற அல்காரிதம்கள் இந்த வகையைச் சேர்ந்தவை.

ஆஃப்-பாலிசி RL என்பது இந்தக் கட்டுப்பாடு எங்களிடம் இல்லை: நாம் பயன்படுத்தலாம் ஏதேனும் பழைய அனுபவம், மனித ஆர்ப்பாட்டங்கள், இணையத் தரவு மற்றும் பலவற்றை உள்ளடக்கிய தரவு வகை. எனவே ஆஃப்-பாலிசி RL ஆனது பாலிசி RL ஐ விட மிகவும் பொதுவானது மற்றும் நெகிழ்வானது (நிச்சயமாக கடினமானது!). Q-கற்றல் என்பது மிகவும் பிரபலமான ஆஃப் பாலிசி RL அல்காரிதம் ஆகும். தரவு சேகரிப்பு விலை அதிகம் உள்ள களங்களில் (எ.கா, ரோபாட்டிக்ஸ்உரையாடல் அமைப்புகள், சுகாதாரம் போன்றவை), ஆஃப் பாலிசி RL ஐப் பயன்படுத்துவதைத் தவிர எங்களுக்கு பெரும்பாலும் வேறு வழியில்லை. அதனால்தான் இது ஒரு முக்கியமான பிரச்சனை.

2025 ஆம் ஆண்டு நிலவரப்படி, கொள்கையில் RL (ஆர்எல்) அளவை அதிகரிப்பதற்கான நியாயமான நல்ல சமையல் குறிப்புகள் எங்களிடம் இருப்பதாக நான் நினைக்கிறேன் (எ.காPPO, GRPO மற்றும் அவற்றின் வகைகள்). இருப்பினும், “அளவிடக்கூடியது” எங்களால் இன்னும் கண்டுபிடிக்கப்படவில்லை ஆஃப் பாலிசி ஆர்.எல் சிக்கலான, நீண்ட அடிவான பணிகளுக்கு நன்கு அளவிடும் வழிமுறை. ஏன் என்பதை சுருக்கமாக விளக்குகிறேன்.

மதிப்புக் கற்றலில் இரண்டு முன்னுதாரணங்கள்: தற்காலிக வேறுபாடு (TD) மற்றும் மான்டே கார்லோ (MC)

ஆஃப்-பாலிசி RLல், டெம்போரல் டிஃபரென்ட் (TD) கற்றலைப் பயன்படுத்தி மதிப்பு செயல்பாட்டைப் பயிற்றுவிப்போம் (அதாவதுக்யூ-லேர்னிங்), பின்வரும் பெல்மேன் புதுப்பிப்பு விதியுடன்:

\\[\begin{aligned} Q(s, a) \gets r + \gamma \max_{a’} Q(s’, a’), \end{aligned}\]

பிரச்சனை இதுதான்: அடுத்த மதிப்பான $Q(s’, a’)$ இல் உள்ள பிழையானது தற்போதைய மதிப்பான $Q(s, a)$ க்கு பூட்ஸ்ட்ராப்பிங் மூலம் பரவுகிறது, மேலும் இந்த பிழைகள் குவிக்க முழு அடிவானத்திலும். இது அடிப்படையில் TD கற்றல் போராட்டத்தை நீண்ட அடிவான பணிகளுக்கு அளவிடச் செய்கிறது (பார்க்க இந்த இடுகை நீங்கள் மேலும் விவரங்களில் ஆர்வமாக இருந்தால்).

இந்தச் சிக்கலைத் தணிக்க, மக்கள் மான்டே கார்லோ (எம்சி) வருமானத்துடன் TD கற்றலைக் கலந்துள்ளனர். எடுத்துக்காட்டாக, நாம் $n$-படி TD கற்றல் (TD-$n$) செய்யலாம்:

\\[\begin{aligned} Q(s_t, a_t) \gets \sum_{i=0}^{n-1} \gamma^i r_{t+i} + \gamma^n \max_{a’} Q(s_{t+n}, a’). \end{aligned}\]

இங்கே, முதல் $n$ படிகளுக்கு உண்மையான Monte Carlo வருவாயை (தரவுத்தொகுப்பிலிருந்து) பயன்படுத்துகிறோம், பின்னர் அடிவானத்தின் மற்ற பகுதிகளுக்கு பூட்ஸ்ட்ராப் செய்யப்பட்ட மதிப்பைப் பயன்படுத்துகிறோம். இந்த வழியில், பெல்மேன் மறுநிகழ்வுகளின் எண்ணிக்கையை $n$ மடங்கு குறைக்கலாம், எனவே பிழைகள் குறைவாகக் குவிகின்றன. $n = \infty$ இன் தீவிர வழக்கில், நாங்கள் தூய்மையான மான்டே கார்லோ மதிப்புக் கற்றலை மீட்டெடுக்கிறோம்.

இது ஒரு நியாயமான தீர்வு (மற்றும் அடிக்கடி நன்றாக வேலை செய்கிறது), இது மிகவும் திருப்தியற்றது. முதலில், அது இல்லை அடிப்படையில் பிழை குவிப்பு சிக்கலை தீர்க்கவும்; இது பெல்மேன் மறுநிகழ்வுகளின் எண்ணிக்கையை ஒரு நிலையான காரணி ($n$) மூலம் மட்டுமே குறைக்கிறது. இரண்டாவதாக, $n$ வளரும்போது, ​​நாம் அதிக மாறுபாடு மற்றும் துணைத்தன்மையால் பாதிக்கப்படுகிறோம். எனவே நாம் $n$ ஐ ஒரு பெரிய மதிப்பாக அமைக்க முடியாது, மேலும் ஒவ்வொரு பணிக்கும் அதை கவனமாக டியூன் செய்ய வேண்டும்.

இந்த சிக்கலை தீர்க்க அடிப்படையில் வேறுபட்ட வழி உள்ளதா?

“மூன்றாவது” முன்னுதாரணம்: பிரித்து வெற்றி

எனது கூற்று என்னவென்றால் அ மூன்றாவது மதிப்புக் கற்றலில் முன்னுதாரணம், பிரித்து வெற்றிதன்னிச்சையாக நீண்ட அடிவான பணிகளுக்கு அளவிடும் ஆஃப்-பாலிசி RLக்கு சிறந்த தீர்வை வழங்கலாம்.



பிரித்து வெல்வது பெல்மேன் மறுநிகழ்வுகளின் எண்ணிக்கையை மடக்கை முறையில் குறைக்கிறது.

ஒரு பாதையை இரண்டு சம நீளப் பகுதிகளாகப் பிரித்து, அவற்றின் மதிப்புகளை ஒன்றிணைத்து முழுப் பாதையின் மதிப்பைப் புதுப்பிப்பதே பிரித்து வெற்றிகொள்வதற்கான முக்கிய யோசனையாகும். இந்த வழியில், நாம் (கோட்பாட்டில்) பெல்மேன் மறுநிகழ்வுகளின் எண்ணிக்கையைக் குறைக்கலாம் மடக்கை ரீதியாக (நேரியல் அல்ல!). மேலும், இதற்கு $n$ போன்ற ஹைப்பர் பாராமீட்டரைத் தேர்ந்தெடுக்க வேண்டிய அவசியமில்லை, மேலும் இது $n$-படி TD கற்றல் போலல்லாமல், அதிக மாறுபாடு அல்லது துணைத் தன்மையால் பாதிக்கப்படுவதில்லை.

கருத்துப்படி, பிரித்து வெற்றி பெறுவது மதிப்புக் கற்றலில் நாம் விரும்பும் அனைத்து நல்ல பண்புகளையும் கொண்டுள்ளது. எனவே இந்த உயர்மட்ட யோசனையைப் பற்றி நான் நீண்ட காலமாக உற்சாகமாக இருந்தேன். பிரச்சனை என்னவென்றால், நடைமுறையில் இதை எப்படி செய்வது என்பது தெளிவாகத் தெரியவில்லை… சமீபத்தில் வரை.

ஒரு நடைமுறை அல்காரிதம்

ஒரு சமீபத்திய வேலை உடன் இணைந்து வழிநடத்தியது ஆதித்யாஇந்த யோசனையை உணர்ந்து அளப்பதில் அர்த்தமுள்ள முன்னேற்றம் அடைந்துள்ளோம். குறிப்பாக, குறைந்த பட்சம் RL சிக்கல்களின் ஒரு முக்கிய வகுப்பிலாவது, மிகவும் சிக்கலான பணிகளுக்கு (எனக்குத் தெரிந்தவரை, இதுவே முதல் வேலை!) பிரித்து-வெற்றி மதிப்பைக் கற்றலை அதிகரிக்க முடிந்தது. இலக்கு-நிபந்தனை RL. இலக்கு-நிபந்தனை RL என்பது வேறு எந்த மாநிலத்திலிருந்தும் எந்த மாநிலத்தையும் அடையக்கூடிய கொள்கையைக் கற்றுக்கொள்வதை நோக்கமாகக் கொண்டுள்ளது. இது ஒரு இயற்கையான பிளவு மற்றும் வெற்றி கட்டமைப்பை வழங்குகிறது. இதை விளக்குகிறேன்.

கட்டமைப்பு பின்வருமாறு. இயக்கவியல் உறுதியானது என்று வைத்துக்கொள்வோம், மேலும் $s$ மற்றும் $g$ ஆகிய இரண்டு மாநிலங்களுக்கு இடையே உள்ள குறுகிய பாதை தூரத்தை (“தற்காலிக தூரம்”) $d^*(s, g)$ எனக் குறிப்பிடுவோம். பின்னர், இது முக்கோண சமத்துவமின்மையை பூர்த்தி செய்கிறது:

\\[\begin{aligned} d^*(s, g) \leq d^*(s, w) + d^*(w, g) \end{aligned}\]

அனைத்து $s, g, w \in \mathcal{S}$.

மதிப்புகளின் அடிப்படையில், இந்த முக்கோண சமத்துவமின்மையை பின்வருவனவற்றிற்கு சமமாக மொழிபெயர்க்கலாம் “இடைநிலை” பெல்மேன் புதுப்பித்தல் விதி:

\\[\begin{aligned}
V(s, g) \gets \begin{cases}
\gamma^0 & \text{if } s = g, \\\\
\gamma^1 & \text{if } (s, g) \in \mathcal{E}, \\\\
\max_{w \in \mathcal{S}} V(s, w)V(w, g) & \text{otherwise}
\end{cases}
\end{aligned}\]

இங்கு $\mathcal{E}$ என்பது சுற்றுச்சூழலின் மாற்ற வரைபடத்தில் உள்ள விளிம்புகளின் தொகுப்பாகும், மேலும் $V$ என்பது ஸ்பேஸ் ரிவார்டு $r(s, g) = 1(s = g)$ உடன் தொடர்புடைய மதிப்பு செயல்பாடு ஆகும். உள்ளுணர்வாகஇதன் பொருள் $V(s, g)$ இன் மதிப்பை இரண்டு “சிறிய” மதிப்புகளைப் பயன்படுத்தி புதுப்பிக்கலாம்: $V(s, w)$ மற்றும் $V(w, g)$, $w$ என்பது குறுகிய பாதையில் உகந்த “நடுப்புள்ளி” (துணைகோல்) ஆகும். இதுவே நாம் தேடும் மதிப்பைப் பிரித்து வெற்றிபெறச் செய்யும் விதி!

பிரச்சனை

இருப்பினும், இங்கே ஒரு சிக்கல் உள்ளது. பிரச்சனை என்னவென்றால், நடைமுறையில் $w$ உகந்த துணை இலக்கை எவ்வாறு தேர்வு செய்வது என்பது தெளிவாக இல்லை. அட்டவணை அமைப்புகளில், உகந்த $w$ (இது அடிப்படையில் Floyd-Warshall குறுகிய பாதை அல்காரிதம்) கண்டுபிடிக்க அனைத்து மாநிலங்களையும் கணக்கிடலாம். ஆனால் பெரிய மாநில இடைவெளிகளைக் கொண்ட தொடர்ச்சியான சூழலில், நாம் இதைச் செய்ய முடியாது. அடிப்படையில், இந்த யோசனை பல தசாப்தங்களாக இருந்து வந்தாலும், முந்தைய படைப்புகள் மதிப்புக் கற்றலைப் பிரித்து வெற்றிபெறச் செய்யப் போராடின. கேல்பிளிங் (1993) – பார்க்க எங்கள் காகிதம் தொடர்புடைய படைப்புகள் பற்றிய கூடுதல் விவாதத்திற்கு). எங்கள் பணியின் முக்கிய பங்களிப்பு இந்த சிக்கலுக்கு ஒரு நடைமுறை தீர்வாகும்.

தீர்வு

இங்கே எங்கள் முக்கிய யோசனை: நாங்கள் கட்டுப்படுத்து தரவுத்தொகுப்பில் தோன்றும் நிலைகளுக்கான $w$ இன் தேடல் இடம், குறிப்பாக, தரவுத்தொகுப்புப் பாதையில் $s$ மற்றும் $g$ இடையே உள்ளவை. மேலும், உகந்த $\text{argmax}_w$ ஐத் தேடுவதற்குப் பதிலாக, “மென்மையான” $\text{argmax}$ ஐப் பயன்படுத்தி கணக்கிடுகிறோம் எதிர்பார்ப்பு பின்னடைவு. அதாவது, பின்வரும் இழப்பைக் குறைக்கிறோம்:

\\[\begin{aligned} \mathbb{E}\left[\ell^2_\kappa (V(s_i, s_j) – \bar{V}(s_i, s_k) \bar{V}(s_k, s_j))\right]\end{aligned}\]

$\bar{V}$ என்பது இலக்கு மதிப்பு நெட்வொர்க் ஆகும், $\ell^2_\kappa$ என்பது ஒரு எதிர்பார்ப்பு $\kappa$ உடன் எதிர்பார்க்கப்படும் இழப்பு, மேலும் எதிர்பார்ப்பானது $i \leq k \leq j$ உடன் அனைத்து $(s_i, s_k, s_j)$ டூப்பிள்களையும் தோராயமாக மாதிரி தரவுத்தொகுப்புப் பாதையில் எடுக்கப்படுகிறது.

இதனால் இரண்டு நன்மைகள் உண்டு. முதலில், நாம் முழு மாநில இடத்தையும் தேட வேண்டியதில்லை. இரண்டாவதாக, “மென்மையான” எதிர்பார்ப்பு பின்னடைவைப் பயன்படுத்தி $\max$ ஆபரேட்டரிடமிருந்து மதிப்பு மிகை மதிப்பீட்டைத் தடுக்கிறோம். இதை அல்காரிதம் என்கிறோம் டிரான்சிட்டிவ் ஆர்எல் (டிஆர்எல்). பாருங்கள் எங்கள் காகிதம் மேலும் விவரங்கள் மற்றும் கூடுதல் விவாதங்களுக்கு!

இது நன்றாக வேலை செய்கிறதா?



மனிதப் பிரமை



புதிர்

எங்களின் முறையானது சிக்கலான பணிகளுக்குச் சிறப்பாகச் செயல்படுகிறதா என்பதைப் பார்க்க, TRL ஐ நேரடியாகச் சில சவாலான பணிகளில் மதிப்பீடு செய்தோம். OGBenchஆஃப்லைன் கோல்-கண்டிஷன் செய்யப்பட்ட RLக்கான அளவுகோல். பெரிய, 1B-அளவிலான தரவுத்தொகுப்புகளுடன், மனித உருவம் மற்றும் புதிர் பணிகளின் கடினமான பதிப்புகளை நாங்கள் முக்கியமாகப் பயன்படுத்தினோம். இந்தப் பணிகள் மிகவும் சவாலானவை 3,000 சுற்றுச்சூழல் படிகள்.



TRL மிகவும் சவாலான, நீண்ட அடிவான பணிகளில் சிறந்த செயல்திறனை அடைகிறது.

முடிவுகள் மிகவும் அற்புதமானவை! வெவ்வேறு பிரிவுகளில் (TD, MC, குவாசிமெட்ரிக் கற்றல், முதலியன) பல வலுவான அடிப்படைகளுடன் ஒப்பிடும்போது, ​​TRL பெரும்பாலான பணிகளில் சிறந்த செயல்திறனை அடைகிறது.



TRL சிறந்த, தனித்தனியாக டியூன் செய்யப்பட்ட TD-$n$ உடன் பொருந்துகிறது, $\boldsymbol{n}$ அமைக்க தேவையில்லை.

இது எனக்கு மிகவும் பிடித்த சதி. $1$ (தூய TD) முதல் $\infty$ (தூய MC) வரை $n$ இன் வெவ்வேறு மதிப்புகளுடன் $n$-படி TD கற்றலுடன் TRL ஐ ஒப்பிட்டோம். விளைவு உண்மையில் நன்றாக இருக்கிறது. TRL அனைத்து பணிகளிலும் சிறந்த TD-$n$ உடன் பொருந்துகிறது, $\boldsymbol{n}$ அமைக்க தேவையில்லை! பிரித்து வெற்றிபெறும் முன்னுதாரணத்திலிருந்து இதைத்தான் நாங்கள் விரும்பினோம். ஒரு பாதையை மீண்டும் மீண்டும் சிறியதாகப் பிரிப்பதன் மூலம், அது முடியும் இயற்கையாகவே பாதைத் துண்டுகளின் நீளத்தை தன்னிச்சையாகத் தேர்ந்தெடுக்காமல், நீண்ட எல்லைகளைக் கையாளவும்.

காகிதத்தில் கூடுதல் பரிசோதனைகள், பகுப்பாய்வுகள் மற்றும் நீக்குதல்கள் உள்ளன. நீங்கள் ஆர்வமாக இருந்தால், சரிபார்க்கவும் எங்கள் காகிதம்!

அடுத்து என்ன?

இந்த இடுகையில், எங்களின் புதிய பிரித்து-வெற்றி மதிப்பு கற்றல் அல்காரிதம், ட்ரான்சிடிவ் RL இலிருந்து சில நம்பிக்கைக்குரிய முடிவுகளைப் பகிர்ந்துள்ளேன். இது பயணத்தின் ஆரம்பம் மட்டுமே. ஆராய பல திறந்த கேள்விகள் மற்றும் அற்புதமான திசைகள் உள்ளன:

  • இலக்கு-நிபந்தனை RL ஐத் தாண்டி வழக்கமான, வெகுமதி அடிப்படையிலான RL பணிகளுக்கு TRL ஐ எவ்வாறு விரிவாக்குவது என்பது மிக முக்கியமான கேள்வி. வழக்கமான RL ஆனது நாம் சுரண்டக்கூடிய அதே போன்ற பிளவு மற்றும் வெற்றி கட்டமைப்பைக் கொண்டிருக்குமா? எந்தவொரு வெகுமதி அடிப்படையிலான RL பணியையும் குறைந்தபட்சம் கோட்பாட்டளவில் ஒரு இலக்கு-நிபந்தனைக்கு மாற்றுவது சாத்தியம் என்பதால் நான் இதைப் பற்றி மிகவும் நம்பிக்கையுடன் இருக்கிறேன் (பக்கம் 40 ஐப் பார்க்கவும் இந்த புத்தகம்)

  • மற்றொரு முக்கியமான சவால் சீரற்ற சூழல்களைக் கையாள்வது. TRL இன் தற்போதைய பதிப்பு, தீர்மானிக்கும் இயக்கவியலைக் கருதுகிறது, ஆனால் பல நிஜ-உலக சூழல்கள் சீரற்றவை, முக்கியமாக பகுதி அவதானிப்பு காரணமாக. இதற்காக, “சீரற்ற” முக்கோண ஏற்றத்தாழ்வுகள் சில குறிப்புகளை வழங்கலாம்.

  • நடைமுறையில், TRL ஐ மேலும் மேம்படுத்த இன்னும் நிறைய இடங்கள் இருப்பதாக நான் நினைக்கிறேன். எடுத்துக்காட்டாக, சப்கோல் வேட்பாளர்களைத் தேர்ந்தெடுப்பதற்கான சிறந்த வழிகளை நாம் காணலாம் (அதே பாதையில் உள்ளவர்களைத் தாண்டி), ஹைப்பர்பாராமீட்டர்களை மேலும் குறைக்கலாம், பயிற்சியை மேலும் உறுதிப்படுத்தலாம் மற்றும் வழிமுறையை இன்னும் எளிதாக்கலாம்.

பொதுவாக, பிரித்து வெற்றிபெறும் முன்னுதாரணத்தின் திறனைப் பற்றி நான் மிகவும் உற்சாகமாக இருக்கிறேன். ஐ இன்னும் RL இல் உள்ள மிக முக்கியமான பிரச்சனைகளில் ஒன்று (மற்றும் இயந்திர கற்றலில் கூட) ஒரு கண்டுபிடிக்க வேண்டும் அளவிடக்கூடியது ஆஃப்-பாலிசி RL அல்காரிதம். இறுதித் தீர்வு எப்படி இருக்கும் என்று எனக்குத் தெரியவில்லை, ஆனால் பிரித்து வெற்றி பெற வேண்டும் என்று நினைக்கிறேன் சுழல்நிலை பொதுவாக முடிவெடுப்பது, இந்த ஹோலி கிரெயிலை நோக்கிய வலுவான வேட்பாளர்களில் ஒன்றாகும் (இதன் மூலம், மற்ற வலுவான போட்டியாளர்கள் (1) மாதிரி அடிப்படையிலான RL மற்றும் (2) சில “மேஜிக்” தந்திரங்களுடன் TD கற்றல் என்று நினைக்கிறேன்). உண்மையில், பிற துறைகளில் பல சமீபத்திய படைப்புகள் மறுநிகழ்வு மற்றும் பிரித்து வெற்றிபெறுவதற்கான உத்திகளின் வாக்குறுதியைக் காட்டியுள்ளன. குறுக்குவழி மாதிரிகள், பதிவு நேரியல் கவனம்மற்றும் சுழல்நிலை மொழி மாதிரிகள் (நிச்சயமாக, Quicksort, segment trees, FFT மற்றும் பல போன்ற கிளாசிக் அல்காரிதம்கள்). எதிர்காலத்தில் அளவிடக்கூடிய ஆஃப்-பாலிசி RL இல் இன்னும் அற்புதமான முன்னேற்றத்தைக் காண்பேன் என்று நம்புகிறேன்!

அங்கீகாரங்கள்

நான் நன்றி சொல்ல விரும்புகிறேன் கெவின் மற்றும் செர்ஜி இந்த இடுகையில் தங்களின் பயனுள்ள கருத்துக்கு.


இந்த இடுகை முதலில் தோன்றியது சியோஹோங் பூங்காவின் வலைப்பதிவு.

By admin

Leave a Reply

Your email address will not be published. Required fields are marked *

InCred Money
InCred Money High Yield Bonds/FDs
Zerodha
Zerodha Stocks & F&O
Groww
Groww Mutual Funds & SIP