சரியாக என்ன செய்கிறது word2vec கற்றுக்கொள், எப்படி? இந்தக் கேள்விக்கு பதிலளிப்பது, குறைந்தபட்ச மற்றும் சுவாரஸ்யமான மொழி மாடலிங் பணியில் பிரதிநிதித்துவக் கற்றலைப் புரிந்துகொள்வதற்கு சமம். என்ற போதிலும் word2vec நவீன மொழி மாதிரிகளுக்கு நன்கு அறியப்பட்ட முன்னோடியாகும், பல ஆண்டுகளாக, ஆராய்ச்சியாளர்கள் அதன் கற்றல் செயல்முறையை விவரிக்கும் அளவு மற்றும் முன்கணிப்புக் கோட்பாட்டைக் கொண்டிருக்கவில்லை. எங்கள் புதியதில் காகிதம்நாங்கள் இறுதியாக அத்தகைய கோட்பாட்டை வழங்குகிறோம். கற்றல் சிக்கலைக் குறைக்கும் யதார்த்தமான, நடைமுறை ஆட்சிகள் உள்ளன என்பதை நாங்கள் நிரூபிக்கிறோம் எடையற்ற குறைந்த-சதுர அணி காரணியாக்கம். மூடிய வடிவத்தில் சாய்வு ஓட்ட இயக்கவியலை நாங்கள் தீர்க்கிறோம்; இறுதியாக கற்றறிந்த பிரதிநிதித்துவங்கள் பிசிஏ மூலம் வழங்கப்படுகின்றன.

fig1.c8u1a3E7 Z23iPso

word2vec இன் இயக்கவியல் கற்றல். சிறிய துவக்கத்தில் இருந்து பயிற்றுவிக்கப்படும் போது, ​​word2vec தனித்த, தொடர் படிகளில் கற்றுக்கொள்கிறது. இடது: எடை மேட்ரிக்ஸில் தரவரிசை-அதிகரிக்கும் கற்றல் படிகள், ஒவ்வொன்றும் இழப்பைக் குறைக்கிறது. வலது: உள்ளுறை உட்பொதிப்பு இடத்தின் மூன்று நேரத் துண்டுகள், ஒவ்வொரு கற்றல் படிநிலையிலும், உட்பொதித்தல் திசையன்கள் எவ்வாறு அதிகரிக்கும் பரிமாணத்தின் துணைவெளிகளாக விரிவடைகின்றன என்பதைக் காட்டும், மாதிரித் திறன் நிறைவுறும் வரை தொடர்கிறது.

இந்த முடிவை விவரிக்கும் முன், சிக்கலைத் தூண்டுவோம். word2vec வார்த்தைகளின் அடர்த்தியான திசையன் பிரதிநிதித்துவங்களைக் கற்றுக்கொள்வதற்கான நன்கு அறியப்பட்ட வழிமுறையாகும். இந்த உட்பொதித்தல் திசையன்கள் ஒரு மாறுபட்ட அல்காரிதம் பயன்படுத்தி பயிற்சியளிக்கப்படுகின்றன; பயிற்சியின் முடிவில், எந்த இரண்டு சொற்களுக்கும் இடையிலான சொற்பொருள் தொடர்பு தொடர்புடைய உட்பொதிப்புகளுக்கு இடையிலான கோணத்தால் பிடிக்கப்படுகிறது. உண்மையில், கற்றுக்கொண்ட உட்பொதிப்புகள் அவற்றின் வடிவவியலில் வேலைநிறுத்தம் செய்யும் நேரியல் கட்டமைப்பை அனுபவபூர்வமாக வெளிப்படுத்துகின்றன: மறைந்த இடத்தில் உள்ள நேரியல் துணைவெளிகள் பாலினம், வினைச்சொல் காலம் அல்லது பேச்சுவழக்கு போன்ற விளக்கக்கூடிய கருத்துகளை அடிக்கடி குறியாக்கம் செய்கின்றன. இந்த அழைக்கப்படும் நேரியல் பிரதிநிதித்துவ கருதுகோள் சமீப காலமாக கவனத்தை ஈர்த்துள்ளது எல்எல்எம்களும் இந்த நடத்தையை வெளிப்படுத்துகின்றனசெயல்படுத்துகிறது உள் பிரதிநிதித்துவங்களின் சொற்பொருள் ஆய்வு மற்றும் வழங்குதல் புதிய மாதிரி திசைமாற்றி நுட்பங்கள். இல் word2vecதுல்லியமாக இந்த நேர்கோட்டுத் திசைகள்தான் கற்றல் உட்பொதிப்புகளை உட்பொதித்தல் திசையன் கூட்டல் மூலம் ஒப்புமைகளை (எ.கா. “ஆண் : பெண் :: ராஜா : ராணி”) முடிக்க உதவுகிறது.

ஒருவேளை இது மிகவும் ஆச்சரியமாக இருக்கக்கூடாது: எல்லாவற்றிற்கும் மேலாக, தி word2vec அல்காரிதம் ஒரு டெக்ஸ்ட் கார்பஸ் மூலம் மீண்டும் மீண்டும் இயங்குகிறது மற்றும் சுய-கண்காணிக்கப்பட்ட சாய்வு வம்சாவளியைப் பயன்படுத்தி இயற்கை மொழியில் புள்ளிவிவர ஒழுங்குமுறைகளை மாதிரியாக மாற்ற இரண்டு அடுக்கு நேரியல் நெட்வொர்க்கைப் பயிற்றுவிக்கிறது. இந்த வடிவமைப்பில், அது தெளிவாக உள்ளது word2vec ஒரு குறைந்தபட்ச நரம்பியல் மொழி மாதிரி. புரிதல் word2vec மிகவும் நுட்பமான மொழி மாடலிங் பணிகளில் அம்சக் கற்றலைப் புரிந்துகொள்வதற்கு இது ஒரு முன்நிபந்தனையாகும்.

முடிவு

இந்த உந்துதலை மனதில் கொண்டு, முக்கிய முடிவை விவரிப்போம். திட்டவட்டமாக, அனைத்து உட்பொதிக்கும் திசையன்களையும் தோராயமாக மற்றும் தோற்றத்திற்கு மிக அருகில் துவக்குகிறோம், அதனால் அவை பூஜ்ஜிய பரிமாணமாக இருக்கும். பின்னர் (சில லேசான தோராயங்களின் கீழ்) உட்பொதிப்புகள் கூட்டாக ஒரு “கருத்தை” (அதாவது ஆர்த்தோகனல் லீனியர் சப்ஸ்பேஸ்) தனித்த கற்றல் படிகளின் வரிசையில் ஒரு நேரத்தில் கற்றுக்கொள்கின்றன.

கணிதத்தின் ஒரு புதிய கிளையைக் கற்றுக்கொள்வதில் தலையை முடுக்கிவிடுவது போன்றது இது. முதலில், அனைத்து வாசகங்களும் குழப்பமடைகின்றன – ஒரு செயல்பாட்டிற்கும் செயல்பாட்டுக்கும் என்ன வித்தியாசம்? ஒரு லீனியர் ஆபரேட்டர் மற்றும் மேட்ரிக்ஸ் பற்றி என்ன? மெதுவாக, ஆர்வத்தின் புதிய அமைப்புகளை வெளிப்படுத்துவதன் மூலம், வார்த்தைகள் மனதில் ஒருவருக்கொருவர் பிரிந்து, அவற்றின் உண்மையான அர்த்தங்கள் தெளிவாகின்றன.

இதன் விளைவாக, ஒவ்வொரு புதிய உணரப்பட்ட நேரியல் கருத்தும் உட்பொதித்தல் மேட்ரிக்ஸின் தரத்தை திறம்பட அதிகரிக்கிறது, ஒவ்வொரு வார்த்தையும் உட்பொதிந்து தன்னையும் அதன் பொருளையும் சிறப்பாக வெளிப்படுத்த அதிக இடத்தை அளிக்கிறது. இந்த நேரியல் துணைவெளிகள் கற்றுக்கொண்டவுடன் சுழலாமல் இருப்பதால், இவை மாதிரியின் கற்றறிந்த அம்சங்களாகும். இந்த ஒவ்வொரு அம்சங்களையும் முன்னோடியாகக் கணக்கிட எங்கள் கோட்பாடு அனுமதிக்கிறது மூடிய வடிவம் – அவை வெறுமனே ஒரு குறிப்பிட்ட இலக்கு மேட்ரிக்ஸின் ஈஜென்வெக்டர்கள் ஆகும், அவை அளவிடக்கூடிய கார்பஸ் புள்ளிவிவரங்கள் மற்றும் அல்காரிதம் ஹைபர்பாராமீட்டர்களின் அடிப்படையில் மட்டுமே வரையறுக்கப்படுகின்றன.

அம்சங்கள் என்ன?

பதில் குறிப்பிடத்தக்க வகையில் நேரடியானது: மறைந்திருக்கும் அம்சங்கள் பின்வரும் மேட்ரிக்ஸின் முதன்மை ஈஜென்வெக்டர்களாகும்:

\\[M^{\star}_{ij} = \frac{P(i,j) – P(i)P(j)}{\frac{1}{2}(P(i,j) + P(i)P(j))}\]

இதில் $i$ மற்றும் $j$ என்ற சொற்களஞ்சியத்தில் உள்ள சொற்கள், $P(i,j)$ என்பது $i$ மற்றும் $j$ ஆகிய சொற்களுக்கான இணை நிகழ்வு நிகழ்தகவு மற்றும் $P(i)$ என்பது $i$ (அதாவது $P(i,j)$ இன் விளிம்பு)க்கான யூனிகிராம் நிகழ்தகவு ஆகும்.

விக்கிபீடியா புள்ளிவிவரங்களிலிருந்து இந்த மேட்ரிக்ஸை உருவாக்கி மூலைவிட்டமாக்கினால், சிறந்த ஈஜென்வெக்டர் பிரபலங்களின் சுயசரிதைகளுடன் தொடர்புடைய சொற்களைத் தேர்ந்தெடுப்பதைக் காணலாம், இரண்டாவது ஈஜென்வெக்டர் அரசு மற்றும் நகராட்சி நிர்வாகத்துடன் தொடர்புடைய சொற்களைத் தேர்ந்தெடுக்கிறது, மூன்றாவது புவியியல் மற்றும் வரைபட விளக்கங்களுடன் தொடர்புடையது, மற்றும் பல.

எடுத்த எடுப்பு இதுதான்: பயிற்சியின் போது, word2vec $M^{\star}$ இன் உகந்த குறைந்த தர தோராயங்களின் வரிசையைக் கண்டறிகிறது. இது $M^{\star}$ இல் PCA ஐ இயக்குவதற்கு சமமானதாகும்.

பின்வரும் சதி இந்த நடத்தையை விளக்குகிறது.

fig2.C4kWlUSu ZJTCeE

கற்றல் இயக்கவியல் ஒப்பீடு தனித்த, தொடர் கற்றல் படிகளைக் காட்டுகிறது.

இடதுபுறத்தில், முக்கிய அனுபவ கவனிப்பு அது word2vec (எங்கள் மிதமான தோராயங்களும்) அடிப்படையில் தனித்துவமான படிகளின் வரிசையில் கற்றுக்கொள்கிறது. ஒவ்வொரு அடியும் உட்பொதிவுகளின் பயனுள்ள தரத்தை அதிகரிக்கிறது, இதன் விளைவாக இழப்பு படிப்படியாகக் குறைகிறது. வலதுபுறத்தில், ஒவ்வொரு கற்றல் படியிலும் ஒரு புதிய ஆர்த்தோகனல் திசையில் உட்பொதிப்புகள் எவ்வாறு விரிவடைகின்றன என்பதை நிரூபிக்கும், மறைந்த உட்பொதிப்பு இடத்தின் மூன்று நேர துண்டுகளைக் காட்டுகிறோம். மேலும், இந்த ஒற்றை திசைகளுடன் மிகவும் வலுவாக இணைந்திருக்கும் வார்த்தைகளை ஆய்வு செய்வதன் மூலம், ஒவ்வொரு தனித்தனியான “அறிவின் பகுதியும்” ஒரு விளக்கமான தலைப்பு-நிலை கருத்துடன் ஒத்திருப்பதை நாங்கள் கவனிக்கிறோம். இந்த கற்றல் இயக்கவியல் மூடிய வடிவத்தில் தீர்க்கக்கூடியது, மேலும் கோட்பாடு மற்றும் எண் பரிசோதனைக்கு இடையே ஒரு சிறந்த பொருத்தத்தை நாங்கள் காண்கிறோம்.

மிதமான தோராயங்கள் என்ன? அவை: 1) தோற்றத்தைச் சுற்றியுள்ள புறநிலை செயல்பாட்டின் காலாண்டு தோராயம்; 2) அல்காரிதமிக் ஹைபர்பாராமீட்டர்களில் ஒரு குறிப்பிட்ட கட்டுப்பாடு; 3) போதுமான சிறிய ஆரம்ப உட்பொதித்தல் எடைகள்; மற்றும் 4) மறைந்துவிடும் சிறிய சாய்வு இறங்கு படிகள். அதிர்ஷ்டவசமாக, இந்த நிலைமைகள் மிகவும் வலுவாக இல்லை, உண்மையில் அவை அசலில் விவரிக்கப்பட்டுள்ள அமைப்பைப் போலவே இருக்கின்றன word2vec காகிதம்.

முக்கியமாக, எந்த தோராயமும் தரவு விநியோகத்தை உள்ளடக்கியதாக இல்லை! உண்மையில், கோட்பாட்டின் மிகப்பெரிய பலம் என்னவென்றால், அது எந்த விநியோக அனுமானங்களையும் செய்யவில்லை. இதன் விளைவாக, கார்பஸ் புள்ளிவிவரங்கள் மற்றும் அல்காரிதமிக் ஹைபர்பாராமீட்டர்கள் ஆகியவற்றின் அடிப்படையில் என்ன அம்சங்கள் கற்றுக் கொள்ளப்படுகின்றன என்பதை கோட்பாடு சரியாகக் கணித்துள்ளது. விநியோக-அஞ்ஞான அமைப்பில் கற்றல் இயக்கவியல் பற்றிய நுணுக்கமான விளக்கங்கள் அரிதானவை மற்றும் பெற கடினமாக இருப்பதால் இது மிகவும் பயனுள்ளதாக இருக்கும்; எங்கள் அறிவைப் பொறுத்தவரை, இது ஒரு நடைமுறை இயற்கை மொழி பணிக்கான முதல் ஒன்றாகும்.

நாங்கள் செய்யும் தோராயங்களைப் பொறுத்தவரை, எங்கள் கோட்பாட்டு முடிவு இன்னும் அசல் பற்றிய உண்மையுள்ள விளக்கத்தை அளிக்கிறது என்பதை அனுபவபூர்வமாகக் காட்டுகிறோம். word2vec. எங்கள் தோராயமான அமைப்பிற்கும் உண்மைக்கும் இடையிலான ஒப்பந்தத்தின் கரடுமுரடான குறிகாட்டியாக word2vecநிலையான ஒப்புமை நிறைவு அளவுகோலில் அனுபவ மதிப்பெண்களை நாம் ஒப்பிடலாம்: word2vec 68% துல்லியத்தை அடைகிறது, நாங்கள் படிக்கும் தோராயமான மாதிரி 66% ஐ அடைகிறது, மேலும் நிலையான கிளாசிக்கல் மாற்று (PPMI என அறியப்படுகிறது) 51% மட்டுமே பெறுகிறது. விரிவான ஒப்பீடுகளுடன் அடுக்குகளைக் காண எங்கள் காகிதத்தைப் பார்க்கவும்.

முடிவின் பயனை நிரூபிக்க, சுருக்க நேரியல் பிரதிநிதித்துவங்களின் தோற்றத்தை ஆய்வு செய்ய எங்கள் கோட்பாட்டைப் பயன்படுத்துகிறோம் (ஆண்/பெண்பால் அல்லது கடந்த/எதிர்காலம் போன்ற பைனரி கருத்துகளுடன் தொடர்புடையது). கற்றலின் போது நாம் அதைக் காண்கிறோம், word2vec சத்தமில்லாத கற்றல் படிகளின் வரிசையில் இந்த நேரியல் பிரதிநிதித்துவங்களை உருவாக்குகிறது, மேலும் அவற்றின் வடிவியல் ஒரு ஸ்பைக் ரேண்டம் மேட்ரிக்ஸ் மாதிரியால் நன்கு விவரிக்கப்பட்டுள்ளது. பயிற்சியின் ஆரம்பத்தில், சொற்பொருள் சமிக்ஞை ஆதிக்கம் செலுத்துகிறது; இருப்பினும், பயிற்சியின் பின்னர், சத்தம் ஆதிக்கம் செலுத்தத் தொடங்கலாம், இது நேரியல் பிரதிநிதித்துவத்தைத் தீர்க்கும் மாதிரியின் திறனைக் குறைக்கும். மேலும் விவரங்களுக்கு எங்கள் தாளைப் பார்க்கவும்.

மொத்தத்தில், இந்த முடிவு, குறைந்தபட்ச மற்றும் பொருத்தமான இயல்பான மொழிப் பணியில் அம்சக் கற்றலின் முதல் முழுமையான மூடிய வடிவக் கோட்பாடுகளில் ஒன்றை வழங்குகிறது. இந்த அர்த்தத்தில், நடைமுறை இயந்திர கற்றல் அல்காரிதம்களின் செயல்திறனை விவரிக்கும் யதார்த்தமான பகுப்பாய்வு தீர்வுகளைப் பெறுவதற்கான பரந்த திட்டத்தில் எங்கள் பணி ஒரு முக்கியமான படியாகும் என்று நாங்கள் நம்புகிறோம்.

எங்கள் வேலையைப் பற்றி மேலும் அறிக: முழு காகிதத்திற்கான இணைப்பு


இந்த இடுகை முதலில் தோன்றியது துருவா கர்கடாவின் வலைப்பதிவு.


Discover more from Think Daily

Subscribe to get the latest posts sent to your email.

Leave a Reply

Your email address will not be published. Required fields are marked *

InCred Money
InCred Money High Yield Bonds/FDs
Zerodha
Zerodha Stocks & F&O
Groww
Groww Mutual Funds & SIP

Discover more from Think Daily

Subscribe now to keep reading and get access to the full archive.

Continue reading