சரியாக என்ன செய்கிறது word2vec கற்றுக்கொள், எப்படி? இந்தக் கேள்விக்கு பதிலளிப்பது, குறைந்தபட்ச மற்றும் சுவாரஸ்யமான மொழி மாடலிங் பணியில் பிரதிநிதித்துவக் கற்றலைப் புரிந்துகொள்வதற்கு சமம். என்ற போதிலும் word2vec நவீன மொழி மாதிரிகளுக்கு நன்கு அறியப்பட்ட முன்னோடியாகும், பல ஆண்டுகளாக, ஆராய்ச்சியாளர்கள் அதன் கற்றல் செயல்முறையை விவரிக்கும் அளவு மற்றும் முன்கணிப்புக் கோட்பாட்டைக் கொண்டிருக்கவில்லை. எங்கள் புதியதில் காகிதம்நாங்கள் இறுதியாக அத்தகைய கோட்பாட்டை வழங்குகிறோம். கற்றல் சிக்கலைக் குறைக்கும் யதார்த்தமான, நடைமுறை ஆட்சிகள் உள்ளன என்பதை நாங்கள் நிரூபிக்கிறோம் எடையற்ற குறைந்த-சதுர அணி காரணியாக்கம். மூடிய வடிவத்தில் சாய்வு ஓட்ட இயக்கவியலை நாங்கள் தீர்க்கிறோம்; இறுதியாக கற்றறிந்த பிரதிநிதித்துவங்கள் பிசிஏ மூலம் வழங்கப்படுகின்றன.
word2vec இன் இயக்கவியல் கற்றல். சிறிய துவக்கத்தில் இருந்து பயிற்றுவிக்கப்படும் போது, word2vec தனித்த, தொடர் படிகளில் கற்றுக்கொள்கிறது. இடது: எடை மேட்ரிக்ஸில் தரவரிசை-அதிகரிக்கும் கற்றல் படிகள், ஒவ்வொன்றும் இழப்பைக் குறைக்கிறது. வலது: உள்ளுறை உட்பொதிப்பு இடத்தின் மூன்று நேரத் துண்டுகள், ஒவ்வொரு கற்றல் படிநிலையிலும், உட்பொதித்தல் திசையன்கள் எவ்வாறு அதிகரிக்கும் பரிமாணத்தின் துணைவெளிகளாக விரிவடைகின்றன என்பதைக் காட்டும், மாதிரித் திறன் நிறைவுறும் வரை தொடர்கிறது.
இந்த முடிவை விவரிக்கும் முன், சிக்கலைத் தூண்டுவோம். word2vec வார்த்தைகளின் அடர்த்தியான திசையன் பிரதிநிதித்துவங்களைக் கற்றுக்கொள்வதற்கான நன்கு அறியப்பட்ட வழிமுறையாகும். இந்த உட்பொதித்தல் திசையன்கள் ஒரு மாறுபட்ட அல்காரிதம் பயன்படுத்தி பயிற்சியளிக்கப்படுகின்றன; பயிற்சியின் முடிவில், எந்த இரண்டு சொற்களுக்கும் இடையிலான சொற்பொருள் தொடர்பு தொடர்புடைய உட்பொதிப்புகளுக்கு இடையிலான கோணத்தால் பிடிக்கப்படுகிறது. உண்மையில், கற்றுக்கொண்ட உட்பொதிப்புகள் அவற்றின் வடிவவியலில் வேலைநிறுத்தம் செய்யும் நேரியல் கட்டமைப்பை அனுபவபூர்வமாக வெளிப்படுத்துகின்றன: மறைந்த இடத்தில் உள்ள நேரியல் துணைவெளிகள் பாலினம், வினைச்சொல் காலம் அல்லது பேச்சுவழக்கு போன்ற விளக்கக்கூடிய கருத்துகளை அடிக்கடி குறியாக்கம் செய்கின்றன. இந்த அழைக்கப்படும் நேரியல் பிரதிநிதித்துவ கருதுகோள் சமீப காலமாக கவனத்தை ஈர்த்துள்ளது எல்எல்எம்களும் இந்த நடத்தையை வெளிப்படுத்துகின்றனசெயல்படுத்துகிறது உள் பிரதிநிதித்துவங்களின் சொற்பொருள் ஆய்வு மற்றும் வழங்குதல் புதிய மாதிரி திசைமாற்றி நுட்பங்கள். இல் word2vecதுல்லியமாக இந்த நேர்கோட்டுத் திசைகள்தான் கற்றல் உட்பொதிப்புகளை உட்பொதித்தல் திசையன் கூட்டல் மூலம் ஒப்புமைகளை (எ.கா. “ஆண் : பெண் :: ராஜா : ராணி”) முடிக்க உதவுகிறது.
ஒருவேளை இது மிகவும் ஆச்சரியமாக இருக்கக்கூடாது: எல்லாவற்றிற்கும் மேலாக, தி word2vec அல்காரிதம் ஒரு டெக்ஸ்ட் கார்பஸ் மூலம் மீண்டும் மீண்டும் இயங்குகிறது மற்றும் சுய-கண்காணிக்கப்பட்ட சாய்வு வம்சாவளியைப் பயன்படுத்தி இயற்கை மொழியில் புள்ளிவிவர ஒழுங்குமுறைகளை மாதிரியாக மாற்ற இரண்டு அடுக்கு நேரியல் நெட்வொர்க்கைப் பயிற்றுவிக்கிறது. இந்த வடிவமைப்பில், அது தெளிவாக உள்ளது word2vec ஒரு குறைந்தபட்ச நரம்பியல் மொழி மாதிரி. புரிதல் word2vec மிகவும் நுட்பமான மொழி மாடலிங் பணிகளில் அம்சக் கற்றலைப் புரிந்துகொள்வதற்கு இது ஒரு முன்நிபந்தனையாகும்.
முடிவு
இந்த உந்துதலை மனதில் கொண்டு, முக்கிய முடிவை விவரிப்போம். திட்டவட்டமாக, அனைத்து உட்பொதிக்கும் திசையன்களையும் தோராயமாக மற்றும் தோற்றத்திற்கு மிக அருகில் துவக்குகிறோம், அதனால் அவை பூஜ்ஜிய பரிமாணமாக இருக்கும். பின்னர் (சில லேசான தோராயங்களின் கீழ்) உட்பொதிப்புகள் கூட்டாக ஒரு “கருத்தை” (அதாவது ஆர்த்தோகனல் லீனியர் சப்ஸ்பேஸ்) தனித்த கற்றல் படிகளின் வரிசையில் ஒரு நேரத்தில் கற்றுக்கொள்கின்றன.
கணிதத்தின் ஒரு புதிய கிளையைக் கற்றுக்கொள்வதில் தலையை முடுக்கிவிடுவது போன்றது இது. முதலில், அனைத்து வாசகங்களும் குழப்பமடைகின்றன – ஒரு செயல்பாட்டிற்கும் செயல்பாட்டுக்கும் என்ன வித்தியாசம்? ஒரு லீனியர் ஆபரேட்டர் மற்றும் மேட்ரிக்ஸ் பற்றி என்ன? மெதுவாக, ஆர்வத்தின் புதிய அமைப்புகளை வெளிப்படுத்துவதன் மூலம், வார்த்தைகள் மனதில் ஒருவருக்கொருவர் பிரிந்து, அவற்றின் உண்மையான அர்த்தங்கள் தெளிவாகின்றன.
இதன் விளைவாக, ஒவ்வொரு புதிய உணரப்பட்ட நேரியல் கருத்தும் உட்பொதித்தல் மேட்ரிக்ஸின் தரத்தை திறம்பட அதிகரிக்கிறது, ஒவ்வொரு வார்த்தையும் உட்பொதிந்து தன்னையும் அதன் பொருளையும் சிறப்பாக வெளிப்படுத்த அதிக இடத்தை அளிக்கிறது. இந்த நேரியல் துணைவெளிகள் கற்றுக்கொண்டவுடன் சுழலாமல் இருப்பதால், இவை மாதிரியின் கற்றறிந்த அம்சங்களாகும். இந்த ஒவ்வொரு அம்சங்களையும் முன்னோடியாகக் கணக்கிட எங்கள் கோட்பாடு அனுமதிக்கிறது மூடிய வடிவம் – அவை வெறுமனே ஒரு குறிப்பிட்ட இலக்கு மேட்ரிக்ஸின் ஈஜென்வெக்டர்கள் ஆகும், அவை அளவிடக்கூடிய கார்பஸ் புள்ளிவிவரங்கள் மற்றும் அல்காரிதம் ஹைபர்பாராமீட்டர்களின் அடிப்படையில் மட்டுமே வரையறுக்கப்படுகின்றன.
அம்சங்கள் என்ன?
பதில் குறிப்பிடத்தக்க வகையில் நேரடியானது: மறைந்திருக்கும் அம்சங்கள் பின்வரும் மேட்ரிக்ஸின் முதன்மை ஈஜென்வெக்டர்களாகும்:
\\[M^{\star}_{ij} = \frac{P(i,j) – P(i)P(j)}{\frac{1}{2}(P(i,j) + P(i)P(j))}\]
இதில் $i$ மற்றும் $j$ என்ற சொற்களஞ்சியத்தில் உள்ள சொற்கள், $P(i,j)$ என்பது $i$ மற்றும் $j$ ஆகிய சொற்களுக்கான இணை நிகழ்வு நிகழ்தகவு மற்றும் $P(i)$ என்பது $i$ (அதாவது $P(i,j)$ இன் விளிம்பு)க்கான யூனிகிராம் நிகழ்தகவு ஆகும்.
விக்கிபீடியா புள்ளிவிவரங்களிலிருந்து இந்த மேட்ரிக்ஸை உருவாக்கி மூலைவிட்டமாக்கினால், சிறந்த ஈஜென்வெக்டர் பிரபலங்களின் சுயசரிதைகளுடன் தொடர்புடைய சொற்களைத் தேர்ந்தெடுப்பதைக் காணலாம், இரண்டாவது ஈஜென்வெக்டர் அரசு மற்றும் நகராட்சி நிர்வாகத்துடன் தொடர்புடைய சொற்களைத் தேர்ந்தெடுக்கிறது, மூன்றாவது புவியியல் மற்றும் வரைபட விளக்கங்களுடன் தொடர்புடையது, மற்றும் பல.
எடுத்த எடுப்பு இதுதான்: பயிற்சியின் போது, word2vec $M^{\star}$ இன் உகந்த குறைந்த தர தோராயங்களின் வரிசையைக் கண்டறிகிறது. இது $M^{\star}$ இல் PCA ஐ இயக்குவதற்கு சமமானதாகும்.
பின்வரும் சதி இந்த நடத்தையை விளக்குகிறது.
கற்றல் இயக்கவியல் ஒப்பீடு தனித்த, தொடர் கற்றல் படிகளைக் காட்டுகிறது.
இடதுபுறத்தில், முக்கிய அனுபவ கவனிப்பு அது word2vec (எங்கள் மிதமான தோராயங்களும்) அடிப்படையில் தனித்துவமான படிகளின் வரிசையில் கற்றுக்கொள்கிறது. ஒவ்வொரு அடியும் உட்பொதிவுகளின் பயனுள்ள தரத்தை அதிகரிக்கிறது, இதன் விளைவாக இழப்பு படிப்படியாகக் குறைகிறது. வலதுபுறத்தில், ஒவ்வொரு கற்றல் படியிலும் ஒரு புதிய ஆர்த்தோகனல் திசையில் உட்பொதிப்புகள் எவ்வாறு விரிவடைகின்றன என்பதை நிரூபிக்கும், மறைந்த உட்பொதிப்பு இடத்தின் மூன்று நேர துண்டுகளைக் காட்டுகிறோம். மேலும், இந்த ஒற்றை திசைகளுடன் மிகவும் வலுவாக இணைந்திருக்கும் வார்த்தைகளை ஆய்வு செய்வதன் மூலம், ஒவ்வொரு தனித்தனியான “அறிவின் பகுதியும்” ஒரு விளக்கமான தலைப்பு-நிலை கருத்துடன் ஒத்திருப்பதை நாங்கள் கவனிக்கிறோம். இந்த கற்றல் இயக்கவியல் மூடிய வடிவத்தில் தீர்க்கக்கூடியது, மேலும் கோட்பாடு மற்றும் எண் பரிசோதனைக்கு இடையே ஒரு சிறந்த பொருத்தத்தை நாங்கள் காண்கிறோம்.
மிதமான தோராயங்கள் என்ன? அவை: 1) தோற்றத்தைச் சுற்றியுள்ள புறநிலை செயல்பாட்டின் காலாண்டு தோராயம்; 2) அல்காரிதமிக் ஹைபர்பாராமீட்டர்களில் ஒரு குறிப்பிட்ட கட்டுப்பாடு; 3) போதுமான சிறிய ஆரம்ப உட்பொதித்தல் எடைகள்; மற்றும் 4) மறைந்துவிடும் சிறிய சாய்வு இறங்கு படிகள். அதிர்ஷ்டவசமாக, இந்த நிலைமைகள் மிகவும் வலுவாக இல்லை, உண்மையில் அவை அசலில் விவரிக்கப்பட்டுள்ள அமைப்பைப் போலவே இருக்கின்றன word2vec காகிதம்.
முக்கியமாக, எந்த தோராயமும் தரவு விநியோகத்தை உள்ளடக்கியதாக இல்லை! உண்மையில், கோட்பாட்டின் மிகப்பெரிய பலம் என்னவென்றால், அது எந்த விநியோக அனுமானங்களையும் செய்யவில்லை. இதன் விளைவாக, கார்பஸ் புள்ளிவிவரங்கள் மற்றும் அல்காரிதமிக் ஹைபர்பாராமீட்டர்கள் ஆகியவற்றின் அடிப்படையில் என்ன அம்சங்கள் கற்றுக் கொள்ளப்படுகின்றன என்பதை கோட்பாடு சரியாகக் கணித்துள்ளது. விநியோக-அஞ்ஞான அமைப்பில் கற்றல் இயக்கவியல் பற்றிய நுணுக்கமான விளக்கங்கள் அரிதானவை மற்றும் பெற கடினமாக இருப்பதால் இது மிகவும் பயனுள்ளதாக இருக்கும்; எங்கள் அறிவைப் பொறுத்தவரை, இது ஒரு நடைமுறை இயற்கை மொழி பணிக்கான முதல் ஒன்றாகும்.
நாங்கள் செய்யும் தோராயங்களைப் பொறுத்தவரை, எங்கள் கோட்பாட்டு முடிவு இன்னும் அசல் பற்றிய உண்மையுள்ள விளக்கத்தை அளிக்கிறது என்பதை அனுபவபூர்வமாகக் காட்டுகிறோம். word2vec. எங்கள் தோராயமான அமைப்பிற்கும் உண்மைக்கும் இடையிலான ஒப்பந்தத்தின் கரடுமுரடான குறிகாட்டியாக word2vecநிலையான ஒப்புமை நிறைவு அளவுகோலில் அனுபவ மதிப்பெண்களை நாம் ஒப்பிடலாம்: word2vec 68% துல்லியத்தை அடைகிறது, நாங்கள் படிக்கும் தோராயமான மாதிரி 66% ஐ அடைகிறது, மேலும் நிலையான கிளாசிக்கல் மாற்று (PPMI என அறியப்படுகிறது) 51% மட்டுமே பெறுகிறது. விரிவான ஒப்பீடுகளுடன் அடுக்குகளைக் காண எங்கள் காகிதத்தைப் பார்க்கவும்.
முடிவின் பயனை நிரூபிக்க, சுருக்க நேரியல் பிரதிநிதித்துவங்களின் தோற்றத்தை ஆய்வு செய்ய எங்கள் கோட்பாட்டைப் பயன்படுத்துகிறோம் (ஆண்/பெண்பால் அல்லது கடந்த/எதிர்காலம் போன்ற பைனரி கருத்துகளுடன் தொடர்புடையது). கற்றலின் போது நாம் அதைக் காண்கிறோம், word2vec சத்தமில்லாத கற்றல் படிகளின் வரிசையில் இந்த நேரியல் பிரதிநிதித்துவங்களை உருவாக்குகிறது, மேலும் அவற்றின் வடிவியல் ஒரு ஸ்பைக் ரேண்டம் மேட்ரிக்ஸ் மாதிரியால் நன்கு விவரிக்கப்பட்டுள்ளது. பயிற்சியின் ஆரம்பத்தில், சொற்பொருள் சமிக்ஞை ஆதிக்கம் செலுத்துகிறது; இருப்பினும், பயிற்சியின் பின்னர், சத்தம் ஆதிக்கம் செலுத்தத் தொடங்கலாம், இது நேரியல் பிரதிநிதித்துவத்தைத் தீர்க்கும் மாதிரியின் திறனைக் குறைக்கும். மேலும் விவரங்களுக்கு எங்கள் தாளைப் பார்க்கவும்.
மொத்தத்தில், இந்த முடிவு, குறைந்தபட்ச மற்றும் பொருத்தமான இயல்பான மொழிப் பணியில் அம்சக் கற்றலின் முதல் முழுமையான மூடிய வடிவக் கோட்பாடுகளில் ஒன்றை வழங்குகிறது. இந்த அர்த்தத்தில், நடைமுறை இயந்திர கற்றல் அல்காரிதம்களின் செயல்திறனை விவரிக்கும் யதார்த்தமான பகுப்பாய்வு தீர்வுகளைப் பெறுவதற்கான பரந்த திட்டத்தில் எங்கள் பணி ஒரு முக்கியமான படியாகும் என்று நாங்கள் நம்புகிறோம்.
எங்கள் வேலையைப் பற்றி மேலும் அறிக: முழு காகிதத்திற்கான இணைப்பு
இந்த இடுகை முதலில் தோன்றியது துருவா கர்கடாவின் வலைப்பதிவு.