डीपसीक: एआय लँडस्केपमध्ये क्रांती घडवणारा विघटनकारी

AIPU वॅटन ग्रुप

परिचय

स्पर्धात्मक मोठ्या मॉडेल्स, बाजारपेठेतील वाटा मिळवण्यासाठी स्पर्धा करणारे क्लाउड प्रोव्हायडर्स आणि मेहनती चिप उत्पादकांमध्ये सततची चिंता - डीपसीक इफेक्ट कायम आहे.

वसंत महोत्सव संपत येत असताना, डीपसीकभोवतीचा उत्साह कायम आहे. अलिकडच्या सुट्टीने तंत्रज्ञान उद्योगात स्पर्धेची एक महत्त्वपूर्ण भावना अधोरेखित केली, ज्यामध्ये अनेकांनी या "कॅटफिश" बद्दल चर्चा आणि विश्लेषण केले. सिलिकॉन व्हॅलीमध्ये अभूतपूर्व संकटाची भावना निर्माण झाली आहे: ओपन-सोर्सचे समर्थक पुन्हा एकदा त्यांचे मत व्यक्त करत आहेत आणि ओपनएआय देखील त्यांची क्लोज-सोर्स स्ट्रॅटेजी सर्वोत्तम पर्याय होती की नाही याचे पुनर्मूल्यांकन करत आहे. कमी संगणकीय खर्चाच्या नवीन पॅराडाइममुळे एनव्हीडियासारख्या चिप दिग्गजांमध्ये साखळी प्रतिक्रिया निर्माण झाली आहे, ज्यामुळे यूएस शेअर बाजाराच्या इतिहासात एक दिवसाच्या बाजार मूल्यात विक्रमी तोटा झाला आहे, तर सरकारी संस्था डीपसीकने वापरलेल्या चिप्सच्या अनुपालनाची चौकशी करत आहेत. परदेशात डीपसीकच्या मिश्र पुनरावलोकनांमध्ये, देशांतर्गत, त्यात असाधारण वाढ होत आहे. R1 मॉडेल लाँच झाल्यानंतर, संबंधित अॅपच्या रहदारीत वाढ दिसून आली आहे, जे सूचित करते की अनुप्रयोग क्षेत्रातील वाढ एकूण एआय इकोसिस्टमला पुढे नेईल. सकारात्मक पैलू असा आहे की डीपसीक अनुप्रयोग शक्यता विस्तृत करेल, असे सूचित करते की भविष्यात चॅटजीपीटीवर अवलंबून राहणे इतके महाग राहणार नाही. हे बदल ओपनएआयच्या अलिकडच्या उपक्रमांमध्ये दिसून आले आहेत, ज्यामध्ये डीपसीक आर१ ला प्रतिसाद म्हणून मोफत वापरकर्त्यांसाठी ओ३-मिनी नावाचे रिझनिंग मॉडेलची तरतूद तसेच त्यानंतरच्या अपग्रेड्सचा समावेश आहे ज्यामुळे ओ३-मिनीची विचारसाखळी सार्वजनिक झाली. अनेक परदेशी वापरकर्त्यांनी या घडामोडींसाठी डीपसीकचे आभार मानले, जरी ही विचारसाखळी सारांश म्हणून काम करते.

आशावादी दृष्टिकोनातून, हे स्पष्ट आहे की डीपसीक देशांतर्गत खेळाडूंना एकत्र करत आहे. प्रशिक्षण खर्च कमी करण्यावर लक्ष केंद्रित करून, विविध अपस्ट्रीम चिप उत्पादक, इंटरमीडिएट क्लाउड प्रोव्हायडर्स आणि असंख्य स्टार्टअप्स सक्रियपणे इकोसिस्टममध्ये सामील होत आहेत, ज्यामुळे डीपसीक मॉडेल वापरण्यासाठी खर्च कार्यक्षमता वाढते. डीपसीकच्या पेपर्सनुसार, V3 मॉडेलच्या पूर्ण प्रशिक्षणासाठी फक्त 2.788 दशलक्ष H800 GPU तास लागतात आणि प्रशिक्षण प्रक्रिया अत्यंत स्थिर आहे. 405 अब्ज पॅरामीटर्ससह लामा 3 च्या तुलनेत प्री-ट्रेनिंग खर्च दहाच्या घटकाने कमी करण्यासाठी MoE (मिक्स्चर ऑफ एक्सपर्ट्स) आर्किटेक्चर महत्त्वपूर्ण आहे. सध्या, V3 हे MoE मध्ये इतके उच्च स्पॅरसिटी दर्शविणारे पहिले सार्वजनिकरित्या मान्यताप्राप्त मॉडेल आहे. याव्यतिरिक्त, MLA (मल्टी लेयर अटेंशन) सहक्रियात्मकपणे कार्य करते, विशेषतः रिझनिंग पैलूंमध्ये. "MoE जितका विरळ असेल तितका संगणकीय शक्तीचा पूर्णपणे वापर करण्यासाठी रिझनिंग दरम्यान बॅच आकार आवश्यक असेल, KVCache चा आकार हा प्रमुख मर्यादित घटक असेल; MLA KVCache चा आकार लक्षणीयरीत्या कमी करतो," असे चुआनजिंग टेक्नॉलॉजीच्या एका संशोधकाने AI टेक्नॉलॉजी रिव्ह्यूच्या विश्लेषणात नमूद केले. एकंदरीत, डीपसीकचे यश हे एकाच तंत्रज्ञानाच्या संयोजनात नाही तर विविध तंत्रज्ञानाच्या संयोजनात आहे. उद्योग क्षेत्रातील जाणकार डीपसीक टीमच्या अभियांत्रिकी क्षमतांचे कौतुक करतात, समांतर प्रशिक्षण आणि ऑपरेटर ऑप्टिमायझेशनमध्ये त्यांची उत्कृष्टता लक्षात घेऊन, प्रत्येक तपशील परिष्कृत करून अभूतपूर्व परिणाम साध्य करतात. डीपसीकचा ओपन-सोर्स दृष्टिकोन मोठ्या मॉडेल्सच्या एकूण विकासाला आणखी चालना देतो आणि असा अंदाज आहे की जर समान मॉडेल्स प्रतिमा, व्हिडिओ आणि इतर गोष्टींमध्ये विस्तारित झाले तर यामुळे संपूर्ण उद्योगात मागणी लक्षणीयरीत्या वाढेल.

तृतीय-पक्ष तर्क सेवांसाठी संधी

डेटा दर्शवितो की, त्याच्या प्रकाशनानंतर, DeepSeek ने केवळ २१ दिवसांत २२.१५ दशलक्ष दैनिक सक्रिय वापरकर्ते (DAU) जमा केले आहेत, जे ChatGPT च्या वापरकर्ता बेसच्या ४१.६% पर्यंत पोहोचले आहेत आणि Doubao च्या १६.९५ दशलक्ष दैनिक सक्रिय वापरकर्त्यांना मागे टाकले आहे, अशा प्रकारे ते जागतिक स्तरावर सर्वात वेगाने वाढणारे अनुप्रयोग बनले आहे, जे १५७ देश/प्रदेशांमध्ये Apple App Store मध्ये अव्वल स्थानावर आहे. तथापि, वापरकर्ते मोठ्या संख्येने वाढत असताना, सायबर हॅकर्स DeepSeek अॅपवर अथक हल्ला करत आहेत, ज्यामुळे त्याच्या सर्व्हरवर लक्षणीय ताण येत आहे. उद्योग विश्लेषकांचा असा विश्वास आहे की हे अंशतः DeepSeek प्रशिक्षणासाठी कार्ड तैनात करत आहे परंतु तर्क करण्यासाठी पुरेशी संगणकीय शक्ती नाही. एका उद्योगातील अंतर्गत व्यक्तीने AI टेक्नॉलॉजी रिव्ह्यूला माहिती दिली, "वारंवार सर्व्हर समस्या शुल्क आकारून किंवा अधिक मशीन खरेदी करण्यासाठी वित्तपुरवठा करून सहजपणे सोडवता येतात; शेवटी, ते DeepSeek च्या निर्णयांवर अवलंबून असते." हे तंत्रज्ञान विरुद्ध उत्पादनीकरणावर लक्ष केंद्रित करण्यात एक व्यापारी संबंध सादर करते. DeepSeek ने मोठ्या प्रमाणात स्वयं-निर्वाहासाठी क्वांटम क्वांटायझेशनवर अवलंबून आहे, कमी बाह्य निधी मिळाला आहे, परिणामी तुलनेने कमी रोख प्रवाह दबाव आणि शुद्ध तांत्रिक वातावरण निर्माण झाले आहे. सध्या, वर उल्लेख केलेल्या समस्यांच्या पार्श्वभूमीवर, काही वापरकर्ते सोशल मीडियावर डीपसीकला वापर मर्यादा वाढवण्याचा किंवा वापरकर्त्यांच्या सोयीसाठी सशुल्क वैशिष्ट्ये सादर करण्याचा आग्रह करत आहेत. याव्यतिरिक्त, डेव्हलपर्सनी ऑप्टिमायझेशनसाठी अधिकृत एपीआय किंवा थर्ड-पार्टी एपीआय वापरण्यास सुरुवात केली आहे. तथापि, डीपसीकच्या ओपन प्लॅटफॉर्मने अलीकडेच घोषणा केली की, "सध्याचे सर्व्हर संसाधने दुर्मिळ आहेत आणि एपीआय सेवा रिचार्ज निलंबित करण्यात आले आहेत."

 

यामुळे एआय इन्फ्रास्ट्रक्चर क्षेत्रातील तृतीय-पक्ष विक्रेत्यांसाठी निःसंशयपणे अधिक संधी उपलब्ध होतात. अलीकडेच, अनेक देशांतर्गत आणि आंतरराष्ट्रीय क्लाउड दिग्गजांनी डीपसीकचे मॉडेल एपीआय लाँच केले आहेत - परदेशी दिग्गज मायक्रोसॉफ्ट आणि अमेझॉन जानेवारीच्या अखेरीस सामील झालेल्यांपैकी पहिले होते. देशांतर्गत आघाडीवर असलेल्या हुआवेई क्लाउडने पहिले पाऊल उचलले, १ फेब्रुवारी रोजी सिलिकॉन-आधारित फ्लोच्या सहकार्याने डीपसीक आर१ आणि व्ही३ रिझनिंग सेवा जारी केल्या. एआय टेक्नॉलॉजी रिव्ह्यूच्या अहवालांवरून असे दिसून येते की सिलिकॉन-आधारित फ्लोच्या सेवांमध्ये वापरकर्त्यांचा ओघ वाढला आहे, ज्यामुळे प्लॅटफॉर्म प्रभावीपणे "क्रॅश" झाला आहे. तीन मोठ्या टेक कंपन्या - बीएटी (बैदू, अलिबाबा, टेन्सेंट) आणि बाइटडान्स - यांनी देखील ३ फेब्रुवारीपासून कमी किमतीच्या, मर्यादित-वेळच्या ऑफर जारी केल्या आहेत, गेल्या वर्षी डीपसीकच्या व्ही२ मॉडेल लाँचमुळे पेटलेल्या क्लाउड विक्रेत्यांच्या किंमत युद्धांची आठवण करून देतात, जिथे डीपसीकला "किंमत कसाई" असे संबोधले जाऊ लागले. क्लाउड विक्रेत्यांच्या या उग्र कृती मायक्रोसॉफ्ट अझ्युर आणि ओपनएआय यांच्यातील पूर्वीच्या मजबूत संबंधांचे प्रतिबिंब आहेत, जिथे २०१९ मध्ये मायक्रोसॉफ्टने ओपनएआयमध्ये १ अब्ज डॉलर्सची मोठी गुंतवणूक केली होती आणि २०२३ मध्ये चॅटजीपीटी लाँच झाल्यानंतर त्यांना फायदा झाला होता. तथापि, मेटा ओपन-सोर्स लामा नंतर हे जवळचे नाते बिघडू लागले, ज्यामुळे मायक्रोसॉफ्ट अझ्युर इकोसिस्टमच्या बाहेरील इतर विक्रेत्यांना त्यांच्या मोठ्या मॉडेल्सशी स्पर्धा करण्याची परवानगी मिळाली. या प्रकरणात, डीपसीकने उत्पादनाच्या उष्णतेच्या बाबतीत केवळ चॅटजीपीटीला मागे टाकले नाही तर ओ१ रिलीजनंतर ओपन-सोर्स मॉडेल्स देखील सादर केले आहेत, जे लामाच्या जीपीटी-३ च्या पुनरुज्जीवनाच्या उत्साहासारखेच आहे.

 

प्रत्यक्षात, क्लाउड प्रदाते स्वतःला AI अनुप्रयोगांसाठी ट्रॅफिक गेटवे म्हणून देखील स्थान देत आहेत, याचा अर्थ असा की डेव्हलपर्सशी संबंध वाढवणे हे पूर्व-फायद्याचे ठरते. अहवाल दर्शवितात की मॉडेलच्या लाँचच्या दिवशी बाईडू स्मार्ट क्लाउडमध्ये 15,000 हून अधिक ग्राहकांनी Qianfan प्लॅटफॉर्मद्वारे DeepSeek मॉडेलचा वापर केला होता. याव्यतिरिक्त, अनेक लहान कंपन्या उपाय देत आहेत, ज्यात सिलिकॉन-आधारित फ्लो, लुचेन टेक्नॉलॉजी, चुआनजिंग टेक्नॉलॉजी आणि विविध AI इन्फ्रा प्रदाते समाविष्ट आहेत ज्यांनी DeepSeek मॉडेलसाठी समर्थन सुरू केले आहे. AI टेक्नॉलॉजी रिव्ह्यूने असे शिकले आहे की DeepSeek च्या स्थानिकीकृत तैनातींसाठी सध्याच्या ऑप्टिमायझेशन संधी प्रामुख्याने दोन क्षेत्रांमध्ये अस्तित्वात आहेत: एक म्हणजे 671 अब्ज पॅरामीटर MoE मॉडेल स्थानिक पातळीवर तैनात करण्यासाठी मिश्र तर्कसंगत दृष्टिकोन वापरून MoE मॉडेलच्या विरळ वैशिष्ट्यांसाठी ऑप्टिमायझेशन करणे आणि हायब्रिड GPU/CPU अनुमान वापरणे. याव्यतिरिक्त, MLA चे ऑप्टिमायझेशन महत्वाचे आहे. तथापि, DeepSeek च्या दोन्ही मॉडेलना तैनाती ऑप्टिमायझेशनमध्ये अजूनही काही आव्हानांचा सामना करावा लागतो. "मॉडेलच्या आकारामुळे आणि असंख्य पॅरामीटर्समुळे, ऑप्टिमायझेशन खरोखरच गुंतागुंतीचे आहे, विशेषतः स्थानिक तैनातींसाठी जिथे कामगिरी आणि खर्च यांच्यातील इष्टतम संतुलन साधणे आव्हानात्मक असेल," चुआनजिंग टेक्नॉलॉजीच्या एका संशोधकाने सांगितले. सर्वात महत्त्वाचा अडथळा मेमरी क्षमता मर्यादा ओलांडण्यात आहे. "आम्ही CPU आणि इतर संगणकीय संसाधनांचा पूर्णपणे वापर करण्यासाठी एक विषम सहयोग दृष्टिकोन स्वीकारतो, उच्च-कार्यक्षमता CPU ऑपरेटर वापरून प्रक्रिया करण्यासाठी CPU/DRAM वर स्पार्स MoE मॅट्रिक्सचे फक्त नॉन-शेअर केलेले भाग ठेवतो, तर दाट भाग GPU वरच राहतात," असे त्यांनी पुढे स्पष्ट केले. अहवाल दर्शवितात की चुआनजिंगचे ओपन-सोर्स फ्रेमवर्क KTransformers प्रामुख्याने टेम्पलेटद्वारे मूळ ट्रान्सफॉर्मर्स अंमलबजावणीमध्ये विविध धोरणे आणि ऑपरेटर इंजेक्ट करते, CUDAGraph सारख्या पद्धती वापरून अनुमान गती लक्षणीयरीत्या वाढवते. वाढीचे फायदे स्पष्ट होत असताना, DeepSeek ने या स्टार्टअप्ससाठी संधी निर्माण केल्या आहेत; DeepSeek API लाँच केल्यानंतर अनेक कंपन्यांनी ग्राहकांमध्ये लक्षणीय वाढ नोंदवली आहे, ऑप्टिमायझेशन शोधणाऱ्या मागील क्लायंटकडून चौकशी प्राप्त केली आहे. उद्योग क्षेत्रातील सूत्रांनी नमूद केले आहे की, "पूर्वी, काही प्रमाणात स्थापित क्लायंट गट बहुतेकदा मोठ्या कंपन्यांच्या प्रमाणित सेवांमध्ये बंदिस्त होते, त्यांच्या प्रमाणामुळे त्यांच्या किमतीच्या फायद्यांनी घट्ट बांधलेले होते. तथापि, वसंत महोत्सवापूर्वी DeepSeek-R1/V3 ची तैनाती पूर्ण केल्यानंतर, आम्हाला अचानक अनेक सुप्रसिद्ध क्लायंटकडून सहकार्य विनंत्या मिळाल्या आणि पूर्वी निष्क्रिय क्लायंटनी देखील आमच्या DeepSeek सेवा सादर करण्यासाठी संपर्क साधला." सध्या, असे दिसते की DeepSeek मॉडेल अनुमान कामगिरीला अधिकाधिक गंभीर बनवत आहे आणि मोठ्या मॉडेल्सचा व्यापक अवलंब केल्याने, हे AI इन्फ्रा उद्योगातील विकासावर लक्षणीय परिणाम करत राहील. जर DeepSeek-स्तरीय मॉडेल कमी खर्चात स्थानिक पातळीवर तैनात केले जाऊ शकते, तर ते सरकार आणि एंटरप्राइझ डिजिटल परिवर्तन प्रयत्नांना मोठ्या प्रमाणात मदत करेल. तथापि, आव्हाने कायम आहेत, कारण काही क्लायंट मोठ्या मॉडेल क्षमतांबद्दल उच्च अपेक्षा बाळगू शकतात, ज्यामुळे हे अधिक स्पष्ट होते की व्यावहारिक तैनातीमध्ये कामगिरी आणि खर्च संतुलित करणे महत्वाचे आहे. 

डीपसीक चॅटजीपीटीपेक्षा चांगले आहे की नाही याचे मूल्यांकन करण्यासाठी, त्यांचे प्रमुख फरक, ताकद आणि वापराचे प्रकार समजून घेणे आवश्यक आहे. येथे एक व्यापक तुलना आहे:

वैशिष्ट्य/पैलू डीपसीक चॅटजीपीटी
मालकी एका चिनी कंपनीने विकसित केलेले ओपनएआय द्वारे विकसित
स्रोत मॉडेल मुक्त स्रोत मालकीचे
खर्च वापरण्यास मोफत; स्वस्त API प्रवेश पर्याय सदस्यता किंवा वापरानुसार देय किंमत
सानुकूलन अत्यंत सानुकूल करण्यायोग्य, वापरकर्त्यांना त्यात बदल करण्याची आणि त्यावर बांधकाम करण्याची परवानगी देते. मर्यादित कस्टमायझेशन उपलब्ध
विशिष्ट कामांमध्ये कामगिरी डेटा विश्लेषण आणि माहिती पुनर्प्राप्ती यासारख्या काही क्षेत्रांमध्ये उत्कृष्टता. सर्जनशील लेखन आणि संभाषणात्मक कार्यांमध्ये उत्कृष्ट कामगिरीसह बहुमुखी प्रतिभा.
भाषा समर्थन चिनी भाषा आणि संस्कृतीवर जोरदार लक्ष केंद्रित करा व्यापक भाषा समर्थन पण अमेरिका-केंद्रित
प्रशिक्षण खर्च कमी प्रशिक्षण खर्च, कार्यक्षमतेसाठी अनुकूलित उच्च प्रशिक्षण खर्च, मोठ्या प्रमाणात संगणकीय संसाधनांची आवश्यकता
प्रतिसादातील तफावत भू-राजकीय संदर्भामुळे प्रभावित होऊन वेगवेगळे प्रतिसाद देऊ शकतात. प्रशिक्षण डेटावर आधारित सुसंगत उत्तरे
लक्ष्य प्रेक्षक लवचिकता हवी असलेल्या विकासक आणि संशोधकांसाठी उद्देशित संभाषण क्षमता शोधणाऱ्या सामान्य वापरकर्त्यांसाठी उद्देशित
वापर प्रकरणे कोड जनरेशन आणि जलद कामांसाठी अधिक कार्यक्षम मजकूर तयार करण्यासाठी, प्रश्नांची उत्तरे देण्यासाठी आणि संवादात सहभागी होण्यासाठी आदर्श.

"एनव्हीडियामध्ये व्यत्यय आणणारा" यावर एक गंभीर दृष्टीकोन

सध्या, Huawei व्यतिरिक्त, मूर थ्रेड्स, मुक्सी, बिरान टेक्नॉलॉजी आणि तियानक्सू झिक्सिन सारखे अनेक देशांतर्गत चिप उत्पादक देखील DeepSeek च्या दोन मॉडेल्सशी जुळवून घेत आहेत. एका चिप उत्पादकाने AI टेक्नॉलॉजी रिव्ह्यूला सांगितले की, "DeepSeek ची रचना नावीन्यपूर्णता दर्शवते, तरीही ती LLM राहते. DeepSeek शी आमचे जुळवून घेणे प्रामुख्याने तर्कसंगत अनुप्रयोगांवर केंद्रित आहे, ज्यामुळे तांत्रिक अंमलबजावणी अगदी सोपी आणि जलद होते." तथापि, MoE दृष्टिकोनासाठी स्टोरेज आणि वितरणाच्या बाबतीत उच्च मागण्या आवश्यक आहेत, तसेच घरगुती चिप्ससह तैनात करताना सुसंगतता सुनिश्चित करणे, अनुकूलन दरम्यान निराकरण आवश्यक असलेल्या असंख्य अभियांत्रिकी आव्हाने सादर करते. "सध्या, घरगुती संगणकीय शक्ती वापरण्यायोग्यता आणि स्थिरतेमध्ये Nvidia शी जुळत नाही, सॉफ्टवेअर वातावरण सेटअप, समस्यानिवारण आणि पायाभूत कामगिरी ऑप्टिमायझेशनसाठी मूळ कारखाना सहभाग आवश्यक आहे," व्यावहारिक अनुभवावर आधारित एका उद्योग व्यवसायीने सांगितले. त्याच वेळी, "DeepSeek R1 च्या मोठ्या पॅरामीटर स्केलमुळे, घरगुती संगणकीय शक्तीला समांतरीकरणासाठी अधिक नोड्सची आवश्यकता असते. याव्यतिरिक्त, घरगुती हार्डवेअर स्पेसिफिकेशन्स अजूनही काहीसे मागे आहेत; उदाहरणार्थ, Huawei 910B सध्या DeepSeek ने सादर केलेल्या FP8 अनुमानाला समर्थन देऊ शकत नाही." DeepSeek V3 मॉडेलच्या ठळक वैशिष्ट्यांपैकी एक म्हणजे FP8 मिश्रित अचूक प्रशिक्षण फ्रेमवर्कची ओळख, जी एका अत्यंत मोठ्या मॉडेलवर प्रभावीपणे प्रमाणित करण्यात आली आहे, जी एक महत्त्वपूर्ण कामगिरी आहे. यापूर्वी, मायक्रोसॉफ्ट आणि Nvidia सारख्या प्रमुख खेळाडूंनी संबंधित काम सुचवले होते, परंतु व्यवहार्यतेबद्दल उद्योगात शंका आहेत. हे समजले जाते की INT8 च्या तुलनेत, FP8 चा प्राथमिक फायदा असा आहे की प्रशिक्षणानंतरचे क्वांटायझेशन जवळजवळ दोषरहित अचूकता प्राप्त करू शकते आणि अनुमान गती लक्षणीयरीत्या वाढवू शकते. FP16 शी तुलना करताना, FP8 Nvidia च्या H20 वर दुप्पट प्रवेग आणि H100 वर 1.5 पट पेक्षा जास्त प्रवेग प्राप्त करू शकते. विशेष म्हणजे, घरगुती संगणकीय शक्ती आणि घरगुती मॉडेल्सच्या ट्रेंडभोवतीच्या चर्चांना वेग येत असताना, Nvidia मध्ये व्यत्यय येऊ शकतो का आणि CUDA खंदक बायपास करता येईल का याबद्दल अटकळ अधिकाधिक प्रचलित होत आहे. एक निर्विवाद सत्य म्हणजे DeepSeek ने Nvidia च्या बाजार मूल्यात खरोखरच लक्षणीय घट केली आहे, परंतु या बदलामुळे Nvidia च्या उच्च-स्तरीय संगणकीय शक्ती अखंडतेबद्दल प्रश्न उपस्थित होतात. भांडवल-चालित संगणकीय संचयनाबद्दल पूर्वी स्वीकारलेल्या कथांना आव्हान दिले जात आहे, तरीही प्रशिक्षण परिस्थितीत Nvidia पूर्णपणे बदलणे कठीण आहे. DeepSeek च्या CUDA च्या सखोल वापराचे विश्लेषण दर्शविते की लवचिकता - जसे की संप्रेषणासाठी SM वापरणे किंवा नेटवर्क कार्ड थेट हाताळणे - नियमित GPU साठी सामावून घेणे शक्य नाही. उद्योग दृष्टिकोन यावर भर देतात की Nvidia चा खंदक केवळ CUDA ऐवजी संपूर्ण CUDA इकोसिस्टम व्यापतो आणि DeepSeek वापरत असलेल्या PTX (पॅरलल थ्रेड एक्झिक्युशन) सूचना अजूनही CUDA इकोसिस्टमचा भाग आहेत. "अल्पावधीत, Nvidia ची संगणकीय शक्ती बायपास करता येत नाही - प्रशिक्षणात हे विशेषतः स्पष्ट आहे; तथापि, तर्कासाठी घरगुती कार्ड तैनात करणे तुलनेने सोपे होईल, म्हणून प्रगती जलद होण्याची शक्यता आहे. घरगुती कार्डांचे अनुकूलन प्रामुख्याने अनुमानावर केंद्रित आहे; कोणीही अद्याप घरगुती कार्डांवर मोठ्या प्रमाणात DeepSeek च्या कामगिरीचे मॉडेल प्रशिक्षित करण्यात यशस्वी झालेले नाही," असे एका उद्योग विश्लेषकाने AI तंत्रज्ञान पुनरावलोकनाला सांगितले. एकूणच, अनुमानाच्या दृष्टिकोनातून, घरगुती मोठ्या मॉडेल चिप्ससाठी परिस्थिती उत्साहवर्धक आहे. प्रशिक्षणाच्या अत्यधिक उच्च आवश्यकतांमुळे, जे प्रवेशास अडथळा आणतात, त्यामुळे अनुमानाच्या क्षेत्रात देशांतर्गत चिप उत्पादकांसाठी संधी अधिक स्पष्ट आहेत. विश्लेषकांचा असा युक्तिवाद आहे की केवळ देशांतर्गत अनुमान कार्ड वापरणे पुरेसे आहे; आवश्यक असल्यास, अतिरिक्त मशीन घेणे शक्य आहे, तर प्रशिक्षण मॉडेल्स अद्वितीय आव्हाने निर्माण करतात - वाढत्या संख्येने मशीन व्यवस्थापित करणे कठीण होऊ शकते आणि उच्च त्रुटी दर प्रशिक्षण परिणामांवर नकारात्मक परिणाम करू शकतात. प्रशिक्षणात विशिष्ट क्लस्टर स्केल आवश्यकता देखील आहेत, तर अनुमानासाठी क्लस्टर्सवरील मागण्या तितक्या कठोर नाहीत, त्यामुळे GPU आवश्यकता कमी होतात. सध्या, Nvidia च्या सिंगल H20 कार्डची कामगिरी Huawei किंवा Cambrian पेक्षा जास्त नाही; त्याची ताकद क्लस्टरिंगमध्ये आहे. संगणकीय उर्जा बाजारावरील एकूण परिणामावर आधारित, लुचेन टेक्नॉलॉजीचे संस्थापक, यू यांग यांनी AI टेक्नॉलॉजी रिव्ह्यूला दिलेल्या मुलाखतीत नमूद केले की, "DeepSeek अल्ट्रा-लार्ज प्रशिक्षण संगणकीय क्लस्टर्सची स्थापना आणि भाड्याने देण्यास तात्पुरते कमकुवत करू शकते. दीर्घकाळात, मोठ्या मॉडेल प्रशिक्षण, तर्क आणि अनुप्रयोगांशी संबंधित खर्च लक्षणीयरीत्या कमी करून, बाजारातील मागणी वाढण्याची शक्यता आहे. त्यामुळे यावर आधारित AI च्या त्यानंतरच्या पुनरावृत्ती संगणकीय उर्जा बाजारात सतत मागणी वाढवतील." याव्यतिरिक्त, "डीपसीकची रिझनिंग आणि फाइन-ट्यूनिंग सेवांसाठी वाढलेली मागणी देशांतर्गत संगणकीय परिदृश्याशी अधिक सुसंगत आहे, जिथे स्थानिक क्षमता तुलनेने कमकुवत आहेत, ज्यामुळे क्लस्टर स्थापनेनंतर निष्क्रिय संसाधनांचा कचरा कमी करण्यास मदत होते; यामुळे देशांतर्गत संगणकीय परिसंस्थेच्या विविध स्तरांमधील उत्पादकांसाठी व्यवहार्य संधी निर्माण होतात." लुचेन टेक्नॉलॉजीने हुआवेई क्लाउडशी सहयोग करून देशांतर्गत संगणकीय शक्तीवर आधारित डीपसीक आर१ मालिका रिझनिंग एपीआय आणि क्लाउड इमेजिंग सेवा लाँच केल्या आहेत. यू यांग यांनी भविष्याबद्दल आशावाद व्यक्त केला: "डीपसीक देशांतर्गत उत्पादित उपायांमध्ये विश्वास निर्माण करतो, पुढे जाण्यासाठी देशांतर्गत संगणकीय क्षमतांमध्ये अधिक उत्साह आणि गुंतवणूकीला प्रोत्साहन देतो."

微信图片_20240614024031.jpg1

निष्कर्ष

डीपसीक चॅटजीपीटीपेक्षा "चांगले" आहे की नाही हे वापरकर्त्याच्या विशिष्ट गरजा आणि उद्दिष्टांवर अवलंबून असते. लवचिकता, कमी खर्च आणि कस्टमायझेशन आवश्यक असलेल्या कामांसाठी, डीपसीक श्रेष्ठ असू शकते. सर्जनशील लेखन, सामान्य चौकशी आणि वापरकर्ता-अनुकूल संभाषणात्मक इंटरफेससाठी, चॅटजीपीटी पुढाकार घेऊ शकते. प्रत्येक साधन वेगवेगळ्या उद्देशांसाठी काम करते, म्हणून निवड ते कोणत्या संदर्भात वापरले जातात यावर अवलंबून असेल.

ELV केबल सोल्यूशन शोधा

नियंत्रण केबल्स

बीएमएस, बस, औद्योगिक, इन्स्ट्रुमेंटेशन केबलसाठी.

संरचित केबलिंग सिस्टम

नेटवर्क आणि डेटा, फायबर-ऑप्टिक केबल, पॅच कॉर्ड, मॉड्यूल्स, फेसप्लेट

२०२४ प्रदर्शने आणि कार्यक्रमांचा आढावा

१६-१८ एप्रिल २०२४ दुबईमध्ये मध्य-पूर्व-ऊर्जा

१६-१८ एप्रिल २०२४ मॉस्कोमध्ये सेक्युरिका

९ मे २०२४ रोजी शांघायमध्ये नवीन उत्पादने आणि तंत्रज्ञानाचा लाँच कार्यक्रम

२२-२५ ऑक्टोबर २०२४ बीजिंगमध्ये सुरक्षा चीन

१९-२० नोव्हेंबर २०२४ कनेक्टेड वर्ल्ड केएसए


पोस्ट वेळ: फेब्रुवारी-१०-२०२५