சிக்கலான இயந்திர கற்றல் அமைப்புகளின், குறிப்பாக பெரிய மொழி மாதிரிகள் (எல்எல்எம்கள்) நடத்தையைப் புரிந்துகொள்வது நவீன செயற்கை நுண்ணறிவில் ஒரு முக்கியமான சவாலாகும். விளக்கமளிக்கும் ஆராய்ச்சியானது, பாதுகாப்பான மற்றும் நம்பகமான AI ஐ நோக்கிய ஒரு படியாக, மாடல் பில்டர்கள் மற்றும் பாதிப்புக்குள்ளான மனிதர்களுக்கு முடிவெடுக்கும் செயல்முறையை மிகவும் வெளிப்படையானதாக மாற்றுவதை நோக்கமாகக் கொண்டுள்ளது. ஒரு விரிவான புரிதலைப் பெற, இந்த அமைப்புகளை வெவ்வேறு லென்ஸ்கள் மூலம் பகுப்பாய்வு செய்யலாம்: அம்சம் பண்புஇது ஒரு கணிப்பை இயக்கும் குறிப்பிட்ட உள்ளீட்டு அம்சங்களை தனிமைப்படுத்துகிறது (லண்ட்பெர்க் & லீ, 2017; ரிபேரோ மற்றும் பலர்., 2022); தரவு பண்புக்கூறுஇது மாதிரி நடத்தைகளை செல்வாக்குமிக்க பயிற்சி எடுத்துக்காட்டுகளுடன் இணைக்கிறது (கோ & லியாங், 2017; இல்யாஸ் மற்றும் பலர்., 2022); மற்றும் இயந்திர விளக்கம்இது உள் கூறுகளின் செயல்பாடுகளை பிரிக்கிறது (கான்மி மற்றும் பலர்., 2023; ஷார்கி மற்றும் பலர்., 2025)
இந்த முன்னோக்குகள் முழுவதும், அதே அடிப்படை தடைகள் தொடர்கின்றன: அளவில் சிக்கலானது. மாதிரி நடத்தை அரிதாகவே தனிமைப்படுத்தப்பட்ட கூறுகளின் விளைவாகும்; மாறாக, அது சிக்கலான சார்புகள் மற்றும் வடிவங்களிலிருந்து வெளிப்படுகிறது. அதிநவீன செயல்திறனை அடைய, மாதிரிகள் சிக்கலான அம்ச உறவுகளை ஒருங்கிணைக்கின்றன, பலதரப்பட்ட பயிற்சி எடுத்துக்காட்டுகளிலிருந்து பகிரப்பட்ட வடிவங்களைக் கண்டறியின்றன மற்றும் மிகவும் ஒன்றோடொன்று இணைக்கப்பட்ட உள் கூறுகள் மூலம் தகவலை செயலாக்குகின்றன.
எனவே, அடிப்படை அல்லது உண்மை-சரிபார்க்கப்பட்ட விளக்கமளிக்கும் முறைகள் இவற்றைப் பிடிக்க முடியும் செல்வாக்குமிக்க தொடர்புகள். அம்சங்களின் எண்ணிக்கை, பயிற்சி தரவு புள்ளிகள் மற்றும் மாதிரி கூறுகள் அதிகரிக்கும் போது, சாத்தியமான தொடர்புகளின் எண்ணிக்கை அதிவேகமாக வளர்கிறது, இது முழுமையான பகுப்பாய்வை கணக்கீட்டு ரீதியாக சாத்தியமற்றதாக ஆக்குகிறது. இந்த வலைப்பதிவு இடுகையில், பின்னால் உள்ள அடிப்படை யோசனைகளை நாங்கள் விவரிக்கிறோம் ஸ்பெக்ஸ் மற்றும் ப்ராக்ஸிஸ்பெக்ஸ்இந்த முக்கியமான இடைவினைகளை அளவில் அடையாளம் காணும் திறன் கொண்ட அல்காரிதம்கள்.
அபிலேஷன் மூலம் பண்புக்கூறு
எங்கள் அணுகுமுறையின் மையக் கருத்து நீக்குதல்ஒரு கூறு அகற்றப்படும்போது என்ன மாறுகிறது என்பதைக் கவனிப்பதன் மூலம் செல்வாக்கை அளவிடுதல்.
- அம்சம் பண்புக்கூறு: உள்ளீடு வரியில் குறிப்பிட்ட பகுதிகளை மறைக்கிறோம் அல்லது அகற்றுகிறோம் மற்றும் கணிப்புகளில் ஏற்படும் மாற்றத்தை அளவிடுகிறோம்.
- தரவு பண்புக்கூறு: பயிற்சித் தொகுப்பின் வெவ்வேறு துணைக்குழுக்களில் மாடல்களைப் பயிற்றுவிப்போம், குறிப்பிட்ட பயிற்சித் தரவு இல்லாத நிலையில் ஒரு சோதனைப் புள்ளியில் மாதிரியின் வெளியீடு எவ்வாறு மாறுகிறது என்பதை மதிப்பிடுகிறோம்.
- மாதிரி கூறு பண்புக்கூறு (இயந்திர விளக்கம்): குறிப்பிட்ட உள் கூறுகளின் செல்வாக்கை அகற்றி, மாதிரியின் முன்கணிப்புக்கு எந்த உள் கட்டமைப்புகள் பொறுப்பு என்பதை தீர்மானிப்பதன் மூலம் மாதிரியின் முன்னோக்கி பாஸில் நாங்கள் தலையிடுகிறோம்.
ஒவ்வொரு சந்தர்ப்பத்திலும், இலக்கு ஒன்றுதான்: செல்வாக்குமிக்க தொடர்புகளைக் கண்டறியும் நம்பிக்கையில், முறையான முறையில் கணினியைக் குழப்புவதன் மூலம் ஒரு முடிவின் இயக்கிகளைத் தனிமைப்படுத்துவது. விலையுயர்ந்த அனுமான அழைப்புகள் அல்லது மறுபயிற்சிகள் மூலம் ஒவ்வொரு நீக்குதலும் குறிப்பிடத்தக்க செலவை ஏற்படுத்துவதால், நாங்கள் பண்புக்கூறுகளைக் கணக்கிடுவதை நோக்கமாகக் கொண்டுள்ளோம். சாத்தியமான மிகக் குறைவான நீக்கங்கள்.
உள்ளீட்டின் வெவ்வேறு பகுதிகளை மறைத்து, அசல் மற்றும் நீக்கப்பட்ட வெளியீடுகளுக்கு இடையிலான வேறுபாட்டை அளவிடுகிறோம்.
SPEX மற்றும் ProxySPEX கட்டமைப்பு
ஏராளமான நீக்குதல்களுடன் செல்வாக்குமிக்க தொடர்புகளைக் கண்டறிய, நாங்கள் உருவாக்கியுள்ளோம் ஸ்பெக்ஸ் (ஸ்பெக்ட்ரல் எக்ஸ்ப்ளைனர்). இந்த கட்டமைப்பானது, முந்தைய முறைகளை விட பெரிய அளவிலான ஆர்டர்களை அளவிடுவதற்கு தொடர்பு கண்டுபிடிப்பை முன்னெடுத்துச் செல்ல, சமிக்ஞை செயலாக்கம் மற்றும் குறியீட்டு கோட்பாட்டை வரைகிறது. SPEX ஒரு முக்கிய கட்டமைப்பு அவதானிப்பைப் பயன்படுத்தி இதைத் தவிர்க்கிறது: மொத்த தொடர்புகளின் எண்ணிக்கை தடைசெய்யும் வகையில் பெரியதாக இருந்தாலும், எண்ணிக்கை செல்வாக்குமிக்க தொடர்பு உண்மையில் மிகவும் சிறியது.
இதை இரண்டு அவதானிப்புகள் மூலம் முறைப்படுத்துகிறோம்: சிதறல் (ஒப்பீட்டளவில் சில இடைவினைகள் உண்மையிலேயே வெளியீட்டை இயக்குகின்றன) மற்றும் குறைந்த அளவு (செல்வாக்குமிக்க இடைவினைகள் பொதுவாக அம்சங்களின் ஒரு சிறிய துணைக்குழுவை மட்டுமே உள்ளடக்கியது). இந்த பண்புகள் கடினமான தேடல் சிக்கலை தீர்க்கக்கூடியதாக மறுவடிவமைக்க அனுமதிக்கின்றன அரிதான மீட்பு பிரச்சனை. சிக்னல் செயலாக்கம் மற்றும் குறியீட்டு கோட்பாட்டிலிருந்து சக்திவாய்ந்த கருவிகளை வரைந்து, SPEX பல வேட்பாளர் தொடர்புகளை ஒன்றாக இணைக்க மூலோபாய ரீதியாக தேர்ந்தெடுக்கப்பட்ட நீக்கங்களைப் பயன்படுத்துகிறது. பின்னர், திறமையான டிகோடிங் அல்காரிதம்களைப் பயன்படுத்தி, மாதிரியின் நடத்தைக்கு காரணமான குறிப்பிட்ட தொடர்புகளை தனிமைப்படுத்த இந்த ஒருங்கிணைந்த சமிக்ஞைகளை நாங்கள் பிரித்தெடுக்கிறோம்.
அடுத்தடுத்த அல்காரிதத்தில், ப்ராக்ஸிஸ்பெக்ஸ்சிக்கலான இயந்திர கற்றல் மாதிரிகளில் பொதுவான மற்றொரு கட்டமைப்பு பண்பை நாங்கள் அடையாளம் கண்டுள்ளோம்: படிநிலை. இதன் பொருள், உயர்-வரிசை தொடர்பு முக்கியமானதாக இருக்கும், அதன் கீழ்-வரிசை துணைக்குழுக்களும் முக்கியமானதாக இருக்கும். இந்த கூடுதல் கட்டமைப்பு அவதானிப்பு கணக்கீட்டு செலவில் வியத்தகு முன்னேற்றத்தை அளிக்கிறது: இது SPEX இன் செயல்திறனுடன் பொருந்துகிறது 10 மடங்கு குறைவான நீக்கங்கள். ஒட்டுமொத்தமாக, இந்த கட்டமைப்புகள் திறமையான தொடர்பு கண்டுபிடிப்பை செயல்படுத்துகின்றன, அம்சம், தரவு மற்றும் மாதிரி கூறு பண்புக்கூறில் புதிய பயன்பாடுகளைத் திறக்கின்றன.
அம்சம் பண்புக்கூறு
அம்ச பண்புக்கூறு நுட்பங்கள் மாதிரியின் வெளியீட்டில் அவற்றின் செல்வாக்கின் அடிப்படையில் உள்ளீட்டு அம்சங்களுக்கு முக்கியத்துவம் மதிப்பெண்களை ஒதுக்குகின்றன. எடுத்துக்காட்டாக, ஒரு மருத்துவ நோயறிதலைச் செய்ய ஒரு எல்எல்எம் பயன்படுத்தப்பட்டால், இந்த அணுகுமுறை எந்த அறிகுறிகளை மாதிரியை அதன் முடிவுக்கு இட்டுச் சென்றது என்பதை சரியாகக் கண்டறிய முடியும். தனிப்பட்ட அம்சங்களுக்கு முக்கியத்துவம் கொடுப்பது மதிப்புமிக்கதாக இருந்தாலும், அதிநவீன மாடல்களின் உண்மையான சக்தி அம்சங்களுக்கிடையில் சிக்கலான உறவுகளைப் பிடிக்கும் திறனில் உள்ளது. கீழே உள்ள படம், இந்த செல்வாக்குமிக்க இடைவினைகளின் எடுத்துக்காட்டுகளை விளக்குகிறது: இரட்டை எதிர்மறை மாறுதல் உணர்வு (இடது) முதல் RAG பணியில் (வலது) பல ஆவணங்களின் தேவையான தொகுப்பு வரை.
கீழே உள்ள படம், உணர்வு பகுப்பாய்வு பணியில் SPEX இன் அம்ச பண்புக்கூறு செயல்திறனை விளக்குகிறது. பயன்படுத்தி செயல்திறனை மதிப்பீடு செய்கிறோம் விசுவாசம்: மீட்டெடுக்கப்பட்ட பண்புக்கூறுகள் காணாத சோதனை நீக்கங்களில் மாதிரியின் வெளியீட்டை எவ்வளவு துல்லியமாக கணிக்க முடியும் என்பதற்கான அளவீடு. குறுகிய உள்ளீடுகளில் தற்போதுள்ள தொடர்பு நுட்பங்களின் (Faith-Shap, Faith-Banzhaf) உயர் விசுவாசத்துடன் SPEX பொருந்துகிறது என்பதை நாங்கள் காண்கிறோம், ஆனால் ஆயிரக்கணக்கான அம்சங்களுக்கான சூழல் அளவீடுகளில் இந்த செயல்திறனை தனித்துவமாக வைத்திருக்கிறது. இதற்கு நேர்மாறாக, விளிம்புநிலை அணுகுமுறைகளும் (LIME, Banzhaf) இந்த அளவில் செயல்பட முடியும் என்றாலும், அவை கணிசமாக குறைந்த விசுவாசத்தை வெளிப்படுத்துகின்றன, ஏனெனில் அவை மாதிரியின் வெளியீட்டை இயக்கும் சிக்கலான தொடர்புகளைப் பிடிக்கத் தவறிவிட்டன.
டிராலி பிரச்சனையின் மாற்றியமைக்கப்பட்ட பதிப்பிற்கும் SPEX பயன்படுத்தப்பட்டது, அங்கு பிரச்சனையின் தார்மீக தெளிவின்மை நீக்கப்பட்டு, “உண்மை” என்பது தெளிவான சரியான பதிலை உருவாக்குகிறது. கீழே உள்ள மாற்றத்தின் அடிப்படையில், GPT-4o மினி 8% நேரம் மட்டுமே சரியாக பதிலளித்தது. ஸ்டாண்டர்ட் ஃபீச்சர் அட்ரிபியூஷனை (SHAP) நாங்கள் பயன்படுத்தியபோது, அது வார்த்தையின் தனிப்பட்ட நிகழ்வுகளைக் கண்டறிந்தது தள்ளுவண்டி தவறான பதிலைத் தூண்டும் முதன்மைக் காரணிகள். இருப்பினும், மாற்றுதல் தள்ளுவண்டி போன்ற ஒத்த சொற்களுடன் டிராம் அல்லது தெரு வண்டி மாதிரியின் கணிப்பில் சிறிய தாக்கத்தை ஏற்படுத்தியது. SPEX மிகவும் பணக்கார கதையை வெளிப்படுத்தியது, இரண்டு நிகழ்வுகளுக்கு இடையே ஒரு மேலாதிக்க உயர்-வரிசை சினெர்ஜியை அடையாளம் காட்டுகிறது தள்ளுவண்டிஅதே போல் வார்த்தைகள் இழுத்தல் மற்றும் நெம்புகோல், தடுமாற்றத்தின் முக்கிய கூறுகளைப் பற்றிய மனித உள்ளுணர்வுடன் இணைந்த ஒரு கண்டுபிடிப்பு. இந்த நான்கு சொற்களும் ஒத்த சொற்களால் மாற்றப்பட்டபோது, மாதிரியின் தோல்வி விகிதம் பூஜ்ஜியத்திற்கு அருகில் குறைந்தது.
தரவு பண்புக்கூறு
ஒரு புதிய சோதனைப் புள்ளியில் ஒரு மாதிரியின் கணிப்புக்கு எந்த பயிற்சி தரவுப் புள்ளிகள் மிகவும் பொறுப்பு என்பதை தரவு பண்புக்கூறு அடையாளம் காட்டுகிறது. எதிர்பாராத மாதிரி நடத்தைகளை விளக்குவதற்கு இந்தத் தரவுப் புள்ளிகளுக்கு இடையிலான செல்வாக்குமிக்க தொடர்புகளை அடையாளம் காண்பது முக்கியமாகும். சொற்பொருள் நகல்கள் போன்ற தேவையற்ற இடைவினைகள், குறிப்பிட்ட (மற்றும் ஒருவேளை தவறான) கருத்துகளை வலுப்படுத்துகின்றன, அதே சமயம் எந்த ஒரு மாதிரியும் தனியாக உருவாக்க முடியாத முடிவெடுக்கும் எல்லைகளை வரையறுப்பதற்கு ஒருங்கிணைந்த இடைவினைகள் அவசியம். இதை நிரூபிக்க, CIFAR-10 இல் பயிற்சியளிக்கப்பட்ட ResNet மாதிரிக்கு ProxySPEX ஐப் பயன்படுத்தினோம், கீழே உள்ள படத்தில் காட்டப்பட்டுள்ளபடி, பல்வேறு கடினமான சோதனைப் புள்ளிகளுக்கான இரண்டு தொடர்பு வகைகளின் மிக முக்கியமான எடுத்துக்காட்டுகளைக் கண்டறிந்தோம்.
விளக்கப்பட்டுள்ளபடி, ஒருங்கிணைந்த தொடர்புகள் (இடது) பெரும்பாலும் ஒரு முடிவெடுக்கும் எல்லையை வரையறுப்பதற்கு சொற்பொருளியல் ரீதியாக வேறுபட்ட வகுப்புகள் ஒன்றிணைந்து செயல்படுவதை உள்ளடக்கியது. எடுத்துக்காட்டாக, மனித உணர்வில் உள்ள சினெர்ஜியை அடிப்படையாக வைத்தல், தி வாகனம் (கீழே இடதுபுறம்) ஸ்போர்ட்ஸ் காரின் குறைந்த சுயவிவர சேஸ், மஞ்சள் டிரக்கின் பாக்ஸி வடிவம் மற்றும் சிவப்பு டெலிவரி வாகனத்தின் கிடைமட்டப் பட்டை உள்ளிட்ட, வழங்கப்பட்ட பயிற்சிப் படங்களுடன் காட்சிப் பண்புகளைப் பகிர்ந்து கொள்கிறது. மறுபுறம், தேவையற்ற தொடர்புகள் (வலது) ஒரு குறிப்பிட்ட கருத்தை வலுப்படுத்தும் காட்சி நகல்களைப் பிடிக்க முனைகிறது. உதாரணமாக, தி குதிரை முன்கணிப்பு (நடுத்தர வலது) ஒத்த நிழற்படங்களைக் கொண்ட நாய் உருவங்களின் தொகுப்பால் பெரிதும் பாதிக்கப்படுகிறது. இந்த நுணுக்கமான பகுப்பாய்வு, பணிநீக்கங்களை பாதுகாப்பாக அகற்றும் அதே வேளையில் தேவையான சினெர்ஜிகளைப் பாதுகாக்கும் புதிய தரவுத் தேர்வு நுட்பங்களை உருவாக்க அனுமதிக்கிறது.
அட்டென்ஷன் ஹெட் அட்ரிபியூஷன் (இயந்திர விளக்கம்)
இலக்கு மாதிரி கூறு பண்புக்கூறு குறிப்பிட்ட அடுக்குகள் அல்லது கவனம் தலைகள் போன்ற மாதிரியின் எந்த உள் பகுதிகள் ஒரு குறிப்பிட்ட நடத்தைக்கு மிகவும் பொறுப்பானவை என்பதைக் கண்டறிவதாகும். இங்கேயும், ProxySPEX ஆனது கட்டிடக்கலையின் பல்வேறு பகுதிகளுக்கு இடையேயான பொறுப்பான தொடர்புகளை வெளிப்படுத்துகிறது. இந்த கட்டமைப்பு சார்புகளைப் புரிந்துகொள்வது பணி சார்ந்த தலையீடு போன்ற கட்டடக்கலை தலையீடுகளுக்கு இன்றியமையாததாகும். ஒரு MMLU தரவுத்தொகுப்பில் (உயர்நிலைப்பள்ளி-உயர்-வரலாறு), ப்ராக்ஸிஸ்பெக்ஸ்-அறிவிக்கப்பட்ட சீரமைப்பு உத்தி போட்டி முறைகளை விஞ்சுவது மட்டுமல்லாமல், உண்மையில் முடியும் என்பதை நாங்கள் நிரூபிக்கிறோம். இலக்கு பணியின் மாதிரி செயல்திறனை மேம்படுத்துதல்.
இந்த பணியில், மாதிரியின் ஆழம் முழுவதும் உள்ள தொடர்பு கட்டமைப்பையும் நாங்கள் பகுப்பாய்வு செய்தோம். ஆரம்ப அடுக்குகள் முக்கியமாக நேரியல் ஆட்சியில் செயல்படுவதை நாங்கள் கவனிக்கிறோம், அங்கு தலைவர்கள் இலக்கு பணிக்கு பெரும்பாலும் சுயாதீனமாக பங்களிக்கிறார்கள். பிந்தைய அடுக்குகளில், கவனக்குறைவுத் தலைவர்களுக்கிடையேயான தொடர்புகளின் பங்கு மிகவும் உச்சரிக்கப்படுகிறது, பெரும்பாலான பங்களிப்புகள் ஒரே அடுக்கில் உள்ள தலைவர்களிடையேயான தொடர்புகளிலிருந்து வருகிறது.
அடுத்து என்ன?
SPEX கட்டமைப்பானது, வியாக்கியானம் செய்வதற்கான ஒரு குறிப்பிடத்தக்க படியை பிரதிபலிக்கிறது, தொடர்பு கண்டுபிடிப்பை விரிவுபடுத்துகிறது டஜன் கணக்கான மற்றும் ஆயிரக்கணக்கான கூறுகள். முழு மாதிரி வாழ்க்கைச் சுழற்சி முழுவதும் கட்டமைப்பின் பல்துறைத்திறனை நாங்கள் நிரூபித்துள்ளோம்: நீண்ட-சூழல் உள்ளீடுகளில் அம்ச பண்புக்கூறுகளை ஆராய்தல், பயிற்சி தரவு புள்ளிகளில் சினெர்ஜிகள் மற்றும் பணிநீக்கங்களைக் கண்டறிதல் மற்றும் உள் மாதிரி கூறுகளுக்கு இடையிலான தொடர்புகளைக் கண்டறிதல். முன்னோக்கி நகரும், பல சுவாரஸ்யமான ஆராய்ச்சி கேள்விகள் சுற்றி உள்ளன ஒருங்கிணைக்கிறது இந்த வேறுபட்ட கண்ணோட்டங்கள், இயந்திர கற்றல் முறையைப் பற்றிய முழுமையான புரிதலை வழங்குகிறது. மரபியல் மற்றும் பொருள் அறிவியல் போன்ற துறைகளில் தற்போதுள்ள விஞ்ஞான அறிவுக்கு எதிரான தொடர்பு கண்டுபிடிப்பு முறைகளை முறையாக மதிப்பீடு செய்வதும், தரை மாதிரி கண்டுபிடிப்புகள் மற்றும் புதிய, சோதிக்கக்கூடிய கருதுகோள்களை உருவாக்குவதும் மிகவும் ஆர்வமாக உள்ளது.
இந்த முயற்சியில் எங்களுடன் சேர ஆராய்ச்சி சமூகத்தை நாங்கள் அழைக்கிறோம்: SPEX மற்றும் ProxySPEX ஆகிய இரண்டிற்கும் குறியீடு முழுமையாக ஒருங்கிணைக்கப்பட்டு பிரபலமான SHAP-IQ களஞ்சியத்தில் (இணைப்பு) கிடைக்கிறது.