word2vec சரியாக என்ன கற்றுக்கொள்கிறது? – பெர்க்லி செயற்கை நுண்ணறிவு ஆராய்ச்சி வலைப்பதிவு

சரியாக என்ன செய்கிறது word2vec கற்றுக்கொள், எப்படி? இந்தக் கேள்விக்கு பதிலளிப்பது, குறைந்தபட்ச மற்றும் சுவாரஸ்யமான மொழி மாடலிங் பணியில் பிரதிநிதித்துவக் கற்றலைப் புரிந்துகொள்வதற்கு சமம். என்ற போதிலும் word2vec நவீன மொழி மாதிரிகளுக்கு நன்கு அறியப்பட்ட முன்னோடியாகும், பல ஆண்டுகளாக, ஆராய்ச்சியாளர்கள் அதன் கற்றல் செயல்முறையை விவரிக்கும் அளவு மற்றும் முன்கணிப்புக் கோட்பாட்டைக் கொண்டிருக்கவில்லை. எங்கள் புதியதில் காகிதம்நாங்கள் இறுதியாக அத்தகைய கோட்பாட்டை வழங்குகிறோம். கற்றல் சிக்கலைக் குறைக்கும் யதார்த்தமான, நடைமுறை ஆட்சிகள் உள்ளன என்பதை நாங்கள் நிரூபிக்கிறோம் எடையற்ற குறைந்த-சதுர அணி காரணியாக்கம். மூடிய வடிவத்தில் சாய்வு ஓட்ட இயக்கவியலை நாங்கள் தீர்க்கிறோம்; இறுதியாக கற்றறிந்த பிரதிநிதித்துவங்கள் பிசிஏ மூலம் வழங்கப்படுகின்றன.

word2vec இன் இயக்கவியல் கற்றல். சிறிய துவக்கத்தில் இருந்து பயிற்றுவிக்கப்படும் போது, word2vec தனித்த, தொடர் படிகளில் கற்றுக்கொள்கிறது. இடது: எடை மேட்ரிக்ஸில் தரவரிசை-அதிகரிக்கும் கற்றல் படிகள், ஒவ்வொன்றும் இழப்பைக் குறைக்கிறது. வலது: உள்ளுறை உட்பொதிப்பு இடத்தின் மூன்று நேரத் துண்டுகள், ஒவ்வொரு கற்றல் படிநிலையிலும், உட்பொதித்தல் திசையன்கள் எவ்வாறு அதிகரிக்கும் பரிமாணத்தின் துணைவெளிகளாக விரிவடைகின்றன என்பதைக் காட்டும், மாதிரித் திறன் நிறைவுறும் வரை தொடர்கிறது.

இந்த முடிவை விவரிக்கும் முன், சிக்கலைத் தூண்டுவோம். word2vec வார்த்தைகளின் அடர்த்தியான திசையன் பிரதிநிதித்துவங்களைக் கற்றுக்கொள்வதற்கான நன்கு அறியப்பட்ட வழிமுறையாகும். இந்த உட்பொதித்தல் திசையன்கள் ஒரு மாறுபட்ட அல்காரிதம் பயன்படுத்தி பயிற்சியளிக்கப்படுகின்றன; பயிற்சியின் முடிவில், எந்த இரண்டு சொற்களுக்கும் இடையிலான சொற்பொருள் தொடர்பு தொடர்புடைய உட்பொதிப்புகளுக்கு இடையிலான கோணத்தால் பிடிக்கப்படுகிறது. உண்மையில், கற்றுக்கொண்ட உட்பொதிப்புகள் அவற்றின் வடிவவியலில் வேலைநிறுத்தம் செய்யும் நேரியல் கட்டமைப்பை அனுபவபூர்வமாக வெளிப்படுத்துகின்றன: மறைந்த இடத்தில் உள்ள நேரியல் துணைவெளிகள் பாலினம், வினைச்சொல் காலம் அல்லது பேச்சுவழக்கு போன்ற விளக்கக்கூடிய கருத்துகளை அடிக்கடி குறியாக்கம் செய்கின்றன. இந்த அழைக்கப்படும் நேரியல் பிரதிநிதித்துவ கருதுகோள் சமீப காலமாக கவனத்தை ஈர்த்துள்ளது எல்எல்எம்களும் இந்த நடத்தையை வெளிப்படுத்துகின்றனசெயல்படுத்துகிறது உள் பிரதிநிதித்துவங்களின் சொற்பொருள் ஆய்வு மற்றும் வழங்குதல் புதிய மாதிரி திசைமாற்றி நுட்பங்கள். இல் word2vecதுல்லியமாக இந்த நேர்கோட்டுத் திசைகள்தான் கற்றல் உட்பொதிப்புகளை உட்பொதித்தல் திசையன் கூட்டல் மூலம் ஒப்புமைகளை (எ.கா. “ஆண் : பெண் :: ராஜா : ராணி”) முடிக்க உதவுகிறது.

ஒருவேளை இது மிகவும் ஆச்சரியமாக இருக்கக்கூடாது: எல்லாவற்றிற்கும் மேலாக, தி word2vec அல்காரிதம் ஒரு டெக்ஸ்ட் கார்பஸ் மூலம் மீண்டும் மீண்டும் இயங்குகிறது மற்றும் சுய-கண்காணிக்கப்பட்ட சாய்வு வம்சாவளியைப் பயன்படுத்தி இயற்கை மொழியில் புள்ளிவிவர ஒழுங்குமுறைகளை மாதிரியாக மாற்ற இரண்டு அடுக்கு நேரியல் நெட்வொர்க்கைப் பயிற்றுவிக்கிறது. இந்த வடிவமைப்பில், அது தெளிவாக உள்ளது word2vec ஒரு குறைந்தபட்ச நரம்பியல் மொழி மாதிரி. புரிதல் word2vec மிகவும் நுட்பமான மொழி மாடலிங் பணிகளில் அம்சக் கற்றலைப் புரிந்துகொள்வதற்கு இது ஒரு முன்நிபந்தனையாகும்.

முடிவு

இந்த உந்துதலை மனதில் கொண்டு, முக்கிய முடிவை விவரிப்போம். திட்டவட்டமாக, அனைத்து உட்பொதிக்கும் திசையன்களையும் தோராயமாக மற்றும் தோற்றத்திற்கு மிக அருகில் துவக்குகிறோம், அதனால் அவை பூஜ்ஜிய பரிமாணமாக இருக்கும். பின்னர் (சில லேசான தோராயங்களின் கீழ்) உட்பொதிப்புகள் கூட்டாக ஒரு “கருத்தை” (அதாவது ஆர்த்தோகனல் லீனியர் சப்ஸ்பேஸ்) தனித்த கற்றல் படிகளின் வரிசையில் ஒரு நேரத்தில் கற்றுக்கொள்கின்றன.

கணிதத்தின் ஒரு புதிய கிளையைக் கற்றுக்கொள்வதில் தலையை முடுக்கிவிடுவது போன்றது இது. முதலில், அனைத்து வாசகங்களும் குழப்பமடைகின்றன – ஒரு செயல்பாட்டிற்கும் செயல்பாட்டுக்கும் என்ன வித்தியாசம்? ஒரு லீனியர் ஆபரேட்டர் மற்றும் மேட்ரிக்ஸ் பற்றி என்ன? மெதுவாக, ஆர்வத்தின் புதிய அமைப்புகளை வெளிப்படுத்துவதன் மூலம், வார்த்தைகள் மனதில் ஒருவருக்கொருவர் பிரிந்து, அவற்றின் உண்மையான அர்த்தங்கள் தெளிவாகின்றன.

இதன் விளைவாக, ஒவ்வொரு புதிய உணரப்பட்ட நேரியல் கருத்தும் உட்பொதித்தல் மேட்ரிக்ஸின் தரத்தை திறம்பட அதிகரிக்கிறது, ஒவ்வொரு வார்த்தையும் உட்பொதிந்து தன்னையும் அதன் பொருளையும் சிறப்பாக வெளிப்படுத்த அதிக இடத்தை அளிக்கிறது. இந்த நேரியல் துணைவெளிகள் கற்றுக்கொண்டவுடன் சுழலாமல் இருப்பதால், இவை மாதிரியின் கற்றறிந்த அம்சங்களாகும். இந்த ஒவ்வொரு அம்சங்களையும் முன்னோடியாகக் கணக்கிட எங்கள் கோட்பாடு அனுமதிக்கிறது மூடிய வடிவம் – அவை வெறுமனே ஒரு குறிப்பிட்ட இலக்கு மேட்ரிக்ஸின் ஈஜென்வெக்டர்கள் ஆகும், அவை அளவிடக்கூடிய கார்பஸ் புள்ளிவிவரங்கள் மற்றும் அல்காரிதம் ஹைபர்பாராமீட்டர்களின் அடிப்படையில் மட்டுமே வரையறுக்கப்படுகின்றன.

அம்சங்கள் என்ன?

பதில் குறிப்பிடத்தக்க வகையில் நேரடியானது: மறைந்திருக்கும் அம்சங்கள் பின்வரும் மேட்ரிக்ஸின் முதன்மை ஈஜென்வெக்டர்களாகும்:

\\[M^{\star}_{ij} = \frac{P(i,j) – P(i)P(j)}{\frac{1}{2}(P(i,j) + P(i)P(j))}\]

இதில் $i$ மற்றும் $j$ என்ற சொற்களஞ்சியத்தில் உள்ள சொற்கள், $P(i,j)$ என்பது $i$ மற்றும் $j$ ஆகிய சொற்களுக்கான இணை நிகழ்வு நிகழ்தகவு மற்றும் $P(i)$ என்பது $i$ (அதாவது $P(i,j)$ இன் விளிம்பு)க்கான யூனிகிராம் நிகழ்தகவு ஆகும்.

விக்கிபீடியா புள்ளிவிவரங்களிலிருந்து இந்த மேட்ரிக்ஸை உருவாக்கி மூலைவிட்டமாக்கினால், சிறந்த ஈஜென்வெக்டர் பிரபலங்களின் சுயசரிதைகளுடன் தொடர்புடைய சொற்களைத் தேர்ந்தெடுப்பதைக் காணலாம், இரண்டாவது ஈஜென்வெக்டர் அரசு மற்றும் நகராட்சி நிர்வாகத்துடன் தொடர்புடைய சொற்களைத் தேர்ந்தெடுக்கிறது, மூன்றாவது புவியியல் மற்றும் வரைபட விளக்கங்களுடன் தொடர்புடையது, மற்றும் பல.

எடுத்த எடுப்பு இதுதான்: பயிற்சியின் போது, word2vec $M^{\star}$ இன் உகந்த குறைந்த தர தோராயங்களின் வரிசையைக் கண்டறிகிறது. இது $M^{\star}$ இல் PCA ஐ இயக்குவதற்கு சமமானதாகும்.

பின்வரும் சதி இந்த நடத்தையை விளக்குகிறது.

கற்றல் இயக்கவியல் ஒப்பீடு தனித்த, தொடர் கற்றல் படிகளைக் காட்டுகிறது.

இடதுபுறத்தில், முக்கிய அனுபவ கவனிப்பு அது word2vec (எங்கள் மிதமான தோராயங்களும்) அடிப்படையில் தனித்துவமான படிகளின் வரிசையில் கற்றுக்கொள்கிறது. ஒவ்வொரு அடியும் உட்பொதிவுகளின் பயனுள்ள தரத்தை அதிகரிக்கிறது, இதன் விளைவாக இழப்பு படிப்படியாகக் குறைகிறது. வலதுபுறத்தில், ஒவ்வொரு கற்றல் படியிலும் ஒரு புதிய ஆர்த்தோகனல் திசையில் உட்பொதிப்புகள் எவ்வாறு விரிவடைகின்றன என்பதை நிரூபிக்கும், மறைந்த உட்பொதிப்பு இடத்தின் மூன்று நேர துண்டுகளைக் காட்டுகிறோம். மேலும், இந்த ஒற்றை திசைகளுடன் மிகவும் வலுவாக இணைந்திருக்கும் வார்த்தைகளை ஆய்வு செய்வதன் மூலம், ஒவ்வொரு தனித்தனியான “அறிவின் பகுதியும்” ஒரு விளக்கமான தலைப்பு-நிலை கருத்துடன் ஒத்திருப்பதை நாங்கள் கவனிக்கிறோம். இந்த கற்றல் இயக்கவியல் மூடிய வடிவத்தில் தீர்க்கக்கூடியது, மேலும் கோட்பாடு மற்றும் எண் பரிசோதனைக்கு இடையே ஒரு சிறந்த பொருத்தத்தை நாங்கள் காண்கிறோம்.

மிதமான தோராயங்கள் என்ன? அவை: 1) தோற்றத்தைச் சுற்றியுள்ள புறநிலை செயல்பாட்டின் காலாண்டு தோராயம்; 2) அல்காரிதமிக் ஹைபர்பாராமீட்டர்களில் ஒரு குறிப்பிட்ட கட்டுப்பாடு; 3) போதுமான சிறிய ஆரம்ப உட்பொதித்தல் எடைகள்; மற்றும் 4) மறைந்துவிடும் சிறிய சாய்வு இறங்கு படிகள். அதிர்ஷ்டவசமாக, இந்த நிலைமைகள் மிகவும் வலுவாக இல்லை, உண்மையில் அவை அசலில் விவரிக்கப்பட்டுள்ள அமைப்பைப் போலவே இருக்கின்றன word2vec காகிதம்.

முக்கியமாக, எந்த தோராயமும் தரவு விநியோகத்தை உள்ளடக்கியதாக இல்லை! உண்மையில், கோட்பாட்டின் மிகப்பெரிய பலம் என்னவென்றால், அது எந்த விநியோக அனுமானங்களையும் செய்யவில்லை. இதன் விளைவாக, கார்பஸ் புள்ளிவிவரங்கள் மற்றும் அல்காரிதமிக் ஹைபர்பாராமீட்டர்கள் ஆகியவற்றின் அடிப்படையில் என்ன அம்சங்கள் கற்றுக் கொள்ளப்படுகின்றன என்பதை கோட்பாடு சரியாகக் கணித்துள்ளது. விநியோக-அஞ்ஞான அமைப்பில் கற்றல் இயக்கவியல் பற்றிய நுணுக்கமான விளக்கங்கள் அரிதானவை மற்றும் பெற கடினமாக இருப்பதால் இது மிகவும் பயனுள்ளதாக இருக்கும்; எங்கள் அறிவைப் பொறுத்தவரை, இது ஒரு நடைமுறை இயற்கை மொழி பணிக்கான முதல் ஒன்றாகும்.

நாங்கள் செய்யும் தோராயங்களைப் பொறுத்தவரை, எங்கள் கோட்பாட்டு முடிவு இன்னும் அசல் பற்றிய உண்மையுள்ள விளக்கத்தை அளிக்கிறது என்பதை அனுபவபூர்வமாகக் காட்டுகிறோம். word2vec. எங்கள் தோராயமான அமைப்பிற்கும் உண்மைக்கும் இடையிலான ஒப்பந்தத்தின் கரடுமுரடான குறிகாட்டியாக word2vecநிலையான ஒப்புமை நிறைவு அளவுகோலில் அனுபவ மதிப்பெண்களை நாம் ஒப்பிடலாம்: word2vec 68% துல்லியத்தை அடைகிறது, நாங்கள் படிக்கும் தோராயமான மாதிரி 66% ஐ அடைகிறது, மேலும் நிலையான கிளாசிக்கல் மாற்று (PPMI என அறியப்படுகிறது) 51% மட்டுமே பெறுகிறது. விரிவான ஒப்பீடுகளுடன் அடுக்குகளைக் காண எங்கள் காகிதத்தைப் பார்க்கவும்.

முடிவின் பயனை நிரூபிக்க, சுருக்க நேரியல் பிரதிநிதித்துவங்களின் தோற்றத்தை ஆய்வு செய்ய எங்கள் கோட்பாட்டைப் பயன்படுத்துகிறோம் (ஆண்/பெண்பால் அல்லது கடந்த/எதிர்காலம் போன்ற பைனரி கருத்துகளுடன் தொடர்புடையது). கற்றலின் போது நாம் அதைக் காண்கிறோம், word2vec சத்தமில்லாத கற்றல் படிகளின் வரிசையில் இந்த நேரியல் பிரதிநிதித்துவங்களை உருவாக்குகிறது, மேலும் அவற்றின் வடிவியல் ஒரு ஸ்பைக் ரேண்டம் மேட்ரிக்ஸ் மாதிரியால் நன்கு விவரிக்கப்பட்டுள்ளது. பயிற்சியின் ஆரம்பத்தில், சொற்பொருள் சமிக்ஞை ஆதிக்கம் செலுத்துகிறது; இருப்பினும், பயிற்சியின் பின்னர், சத்தம் ஆதிக்கம் செலுத்தத் தொடங்கலாம், இது நேரியல் பிரதிநிதித்துவத்தைத் தீர்க்கும் மாதிரியின் திறனைக் குறைக்கும். மேலும் விவரங்களுக்கு எங்கள் தாளைப் பார்க்கவும்.

மொத்தத்தில், இந்த முடிவு, குறைந்தபட்ச மற்றும் பொருத்தமான இயல்பான மொழிப் பணியில் அம்சக் கற்றலின் முதல் முழுமையான மூடிய வடிவக் கோட்பாடுகளில் ஒன்றை வழங்குகிறது. இந்த அர்த்தத்தில், நடைமுறை இயந்திர கற்றல் அல்காரிதம்களின் செயல்திறனை விவரிக்கும் யதார்த்தமான பகுப்பாய்வு தீர்வுகளைப் பெறுவதற்கான பரந்த திட்டத்தில் எங்கள் பணி ஒரு முக்கியமான படியாகும் என்று நாங்கள் நம்புகிறோம்.

எங்கள் வேலையைப் பற்றி மேலும் அறிக: முழு காகிதத்திற்கான இணைப்பு

இந்த இடுகை முதலில் தோன்றியது துருவா கர்கடாவின் வலைப்பதிவு.

Discover more from Think Daily

Subscribe to get the latest posts sent to your email.

word2vec சரியாக என்ன கற்றுக்கொள்கிறது? – பெர்க்லி செயற்கை நுண்ணறிவு ஆராய்ச்சி வலைப்பதிவு | THINK DAILY

முடிவு

அம்சங்கள் என்ன?

Discover more from Think Daily

By ThinkDaily Editorial Team

Leave a Reply Cancel reply

You Missed

Microsoft Build 2026 இல் நீங்கள் தவறவிட்ட அனைத்தும் | Think Daily

AI PCs Need Better Labels Than AI PC | Think Daily

மக்கள் இப்போது ஏன் “ஓவர்ரேட்டட்” என்று விரைவாகச் சொல்கிறார்கள்? | Think Daily

முடிவு

அம்சங்கள் என்ன?

Discover more from Think Daily

By ThinkDaily Editorial Team

Related Post

Leave a Reply Cancel reply

You Missed

Discover more from Think Daily