Qwen3.5 குடும்பத்தை ஆராய்தல்: சிறியது முதல் பெரியது வரை

அலிபாபாவின் குழு Qwen3.5 ஐ வெளியிட்டது, சமீபத்திய தலைமுறை திறந்த எடை பெரிய மொழி மற்றும் மல்டிமாடல் மாடல்கள். இந்தத் தொடர் செயல்திறன் மற்றும் செயல்திறனின் எல்லைகளைத் தள்ளுகிறது, வியத்தகு முறையில் குறைக்கப்பட்ட கணக்கீட்டு வரவு செலவுத் திட்டங்களில் உயர்நிலை திறன்களை செயல்படுத்துகிறது. இந்த வெளியீடு திறமையான, வரிசைப்படுத்தக்கூடிய AI ஐ நோக்கிய தொழில்துறை அளவிலான மையத்துடன் சீரமைக்கிறது: நுகர்வோர் வன்பொருள், விளிம்பு சாதனங்கள், மிதமான ஆதாரங்களைக் கொண்ட சேவையகங்கள் அல்லது உள்ளூர்/தனியுரிமை-மையப்படுத்தப்பட்ட அமைப்புகளில் பொருத்தப்படும் போது மேம்பட்ட பகுத்தறிவு, குறியீட்டு முறை, முகவர் நடத்தை மற்றும் சொந்த மல்டிமாடலிட்டி ஆகியவற்றை வழங்கும் மாதிரிகள்.

Qwen3.5 ஆனது 1 பில்லியன் அளவுருக்களுக்குக் கீழ் உள்ள அதி-கச்சிதமான அடர்த்தியான மாடல்கள் முதல் 300 பில்லியன் மொத்த அளவுருக்களைத் தாண்டிய பாரிய ஸ்பேர்ஸ் MoE ஃபிளாக்ஷிப்கள் வரை பரந்த அளவிலான அளவுகள் மற்றும் கட்டமைப்புகளைக் கொண்டுள்ளது. இந்த வரிசைப்படுத்தப்பட்ட வரிசையானது, டெவலப்பர்களின் தாமதம், செயல்திறன், நினைவக தடம், செலவு மற்றும் திறன் ஆகியவற்றின் தேவைகளுக்கு மாடல்களை துல்லியமாக பொருத்த உதவுகிறது.

இலகுரக முடிவில், Qwen3.5 சிறிய தொடரில் நான்கு மாதிரிகள் உள்ளன: 0.8B, 2B, 4B மற்றும் 9B அளவுருக்கள். மார்ச் 2026 இன் தொடக்கத்தில் வெளியிடப்பட்டது (பிப்ரவரியின் நடுப்பகுதியில் தொடங்கிய குடும்ப வெளியீட்டை நிறைவுசெய்தது), இவை சாதனம் மற்றும் விளிம்பில் பயன்படுத்துவதற்கு உகந்ததாக உள்ளன: ஸ்மார்ட்போன்கள், IoT சாதனங்கள், உட்பொதிக்கப்பட்ட அமைப்புகள் மற்றும் தனியுரிமை-உணர்திறன் உள்ளூர் அனுமானம்.

ஹைப்ரிட் அட்டென்ஷன் (லீனியர்-டைம் ஸ்கேலிங்கிற்கான கேடட் டெல்டா நெட்வொர்க்குகள்) மற்றும் VRAM பயன்பாட்டைக் குறைக்கும் நுட்பங்கள் போன்ற கட்டடக்கலைத் தேர்வுகள் மூலம் அவை குறிப்பிடத்தக்க செயல்திறனை அடைகின்றன. 9B மாடல் கூட மிதமான நுகர்வோர் GPUகள் அல்லது உயர்நிலை மொபைல் வன்பொருளில் சீராக இயங்குகிறது. அனைத்து சிறிய மாடல்களும் நேட்டிவ் மல்டிமாடலிட்டி மற்றும் 262,144-டோக்கன் சூழல் சாளரத்தைப் பெறுகின்றன, இது நீண்ட ஆவண செயலாக்கம் மற்றும் நீட்டிக்கப்பட்ட உரையாடல்களை உள்நாட்டில் சாத்தியமாக்குகிறது.

9B மாறுபாடு வலிமையான சிறிய-மாடல் நடிகராகத் தனித்து நிற்கிறது, பகுத்தறிவு, தர்க்கரீதியான சிக்கலைத் தீர்ப்பது மற்றும் பின்வரும் வழிமுறைகளில் மிகப் பெரிய மாடல்களுடன் இடைவெளியை மூடுகிறது – விரிவான பயிற்சிக்குப் பின் வலுவூட்டல் கற்றலுக்கு நன்றி.

Qwen3.5 இல் ஒரு முக்கிய முன்னேற்றம் அதன் சொந்த மல்டிமாடல் கட்டிடக்கலை ஆகும். பார்வை குறியாக்கிகளை முன் பயிற்சி பெற்ற மொழி மாதிரிகளில் மாற்றியமைக்கும் பல முந்தைய அமைப்புகளைப் போலன்றி, Qwen3.5 பார்வை மற்றும் மொழியை பயிற்சிக்கு முந்தைய நிலையிலிருந்து (ஆரம்ப இணைவு) ஒருங்கிணைக்கிறது. இந்த ஒருங்கிணைந்த பயிற்சியானது, உரை, படங்கள், வரைபடங்கள், விளக்கப்படங்கள், திரைக்காட்சிகள் மற்றும் ஆவணங்களுக்கான ஒருங்கிணைந்த பிரதிநிதித்துவ இடத்தை உருவாக்குகிறது.

இதன் விளைவாக காட்சிப் புரிதல் பணிகளில் சிறந்த செயல்திறன் உள்ளது: ஆவண தளவமைப்பு பகுப்பாய்வு, விளக்கப்படம்/அட்டவணை விளக்கம், வரைபடப் பகுத்தறிவு, நுணுக்கமான OCR, காட்சி கேள்வி பதில், மற்றும் மல்டிமாடல் முகவர் நடத்தைகள் (எ.கா., திரை உள்ளடக்கத்தைப் புரிந்துகொள்வது மற்றும் செயல்படுவது).

முதன்மை மற்றும் நடுத்தர MoE மாதிரிகளில், ஒரு டோக்கனுக்கு ஒரு சிறிய துணை அளவுருக்கள் மட்டுமே செயல்படுத்தப்படும்:

Qwen3.5-397B-A17B (முதன்மை): 397 பில்லியன் மொத்த அளவுருக்கள், சுமார் 17 பில்லியன் செயல்படுத்தப்பட்டது.
Qwen3.5-122B-A10B: மொத்தம் 122 பில்லியன், சுமார் 10 பில்லியன் செயல்படுத்தப்பட்டது.
Qwen3.5-35B-A3B: மொத்தம் 35 பில்லியன், சுமார் 3 பில்லியன் செயல்படுத்தப்பட்டது.

இந்த ஸ்பார்சிட்டி உயர்-இறுதி மல்டிமாடல் பகுத்தறிவு மற்றும் முகவர் செயல்திறன் ஆகியவற்றை அனுமான செலவுகள் மற்றும் வேகம் மிகவும் சிறிய அடர்த்தியான மாடல்களுக்கு மிக நெருக்கமாக செயல்படுத்துகிறது – பெரும்பாலும் 60% மலிவானது மற்றும் முந்தைய தலைமுறையை விட பெரிய பணிச்சுமைகளில் 8 மடங்கு சிறந்த செயல்திறன் கொண்டது.

Qwen3.5 பெரிய அளவிலான பயிற்சிக்குப் பிந்தைய வலுவூட்டல் கற்றலைப் பயன்படுத்துகிறது, இதில் பல முகவர் உருவகப்படுத்துதல் சூழல்கள், படிப்படியாக கடினமான, நிஜ-உலகத்தால் ஈர்க்கப்பட்ட பணிகளுடன் அடங்கும். இது பின்வரும் வழிமுறைகளை கூர்மையாக்குகிறது, பல-படி திட்டமிடல், கருவி பயன்பாடு, குறைக்கப்பட்ட மாயத்தோற்றங்கள், கட்டமைக்கப்பட்ட வெளியீடு பின்பற்றுதல் மற்றும் முகவர் காட்சிகளில் (குறியீட்டு முகவர்கள், காட்சி முகவர்கள், நீண்ட-அடிவான பகுத்தறிவு) தழுவல்.

இந்தத் தொடர் வியத்தகு முறையில் மொழியியல் கவரேஜை 201 மொழிகள் மற்றும் பேச்சுவழக்குகளுக்கு விரிவுபடுத்துகிறது, குறைந்த வள மொழிகளுக்கு சிறப்பு முக்கியத்துவம் அளிக்கிறது – உண்மையிலேயே உள்ளடக்கிய, கலாச்சார விழிப்புணர்வு AI ஐ மேம்படுத்துகிறது.

அனைத்து மாடல்களும் சொந்த 262,144-டோக்கன் சூழல் சாளரத்தை (262K) கொண்டுள்ளது, இது முழு குறியீட்டுத் தளங்கள், நீண்ட ஆவணங்கள், பல முறை உரையாடல்கள் அல்லது சிக்கலான பல ஆவணப் பகுத்தறிவுக்குப் போதுமானது. ஹோஸ்ட் செய்யப்பட்ட/ஏபிஐ வகைகள் (எ.கா., அலிபாபா கிளவுட் மாடல் ஸ்டுடியோவில் Qwen3.5-Plus) இதை 1 மில்லியன் டோக்கன்களாக நீட்டிக்கிறது.

ஹக்கிங் ஃபேஸ், மாடல்ஸ்கோப் மற்றும் கிட்ஹப் ஆகியவற்றில் அனுமதிக்கப்பட்ட திறந்த உரிமங்களின் கீழ் (முதன்மையாக Apache 2.0) கிடைக்கிறது, Qwen3.5 ஆனது உலகெங்கிலும் உள்ள டெவலப்பர்கள் மற்றும் நிறுவனங்களுக்கு மிகவும் திறமையான, திறமையான மற்றும் அணுகக்கூடிய AI பயன்பாடுகளை உருவாக்க அதிகாரம் அளிக்கிறது: மொபைல் உதவியாளர்கள் மற்றும் எட்ஜ் அனலிட்டிக்ஸ் முதல் சக்திவாய்ந்த கிளவுட் ஏஜெண்டுகள் வரை.

Qwen3.5 குடும்பத்தை ஆராய்தல்: சிறியது முதல் பெரியது வரை | Think Daily

By admin

Leave a Reply Cancel reply

You Missed

நன்மைக்கான AI: ஒவ்வொரு சமூகத்திலும் வேலைகள், செல்வம் மற்றும் வாய்ப்புகளை உருவாக்குதல் | Think Daily

Qwen3.5 குடும்பத்தை ஆராய்தல்: சிறியது முதல் பெரியது வரை | Think Daily

ஏன் ஹைப்ரிட் SOC என்பது AI இன் அடுத்த பயன்பாடாகும் | Think Daily

By admin

Related Post

Leave a Reply Cancel reply

You Missed