"जगातील सर्वात हुशार" ग्रोक3 ची चाचणी करत आहे

AIPU वॅटन ग्रुप (1)

परिचय

तुम्हाला वाटते का की ग्रोक३ हे पूर्व-प्रशिक्षित मॉडेल्सचे "अंतिम बिंदू" असेल?

एलोन मस्क आणि xAI टीमने अधिकृतपणे Grok ची नवीनतम आवृत्ती, Grok3, लाईव्हस्ट्रीम दरम्यान लाँच केली. या कार्यक्रमापूर्वी, मस्कच्या 24/7 प्रचारात्मक प्रचारासह, संबंधित माहितीच्या मोठ्या प्रमाणात, Grok3 बद्दल जागतिक अपेक्षा अभूतपूर्व पातळीवर वाढवल्या. फक्त एका आठवड्यापूर्वी, मस्कने DeepSeek R1 वर टिप्पणी करताना लाइव्हस्ट्रीम दरम्यान आत्मविश्वासाने सांगितले की, "xAI एक चांगले AI मॉडेल लाँच करणार आहे." लाईव्ह सादर केलेल्या डेटावरून, Grok3 ने गणित, विज्ञान आणि प्रोग्रामिंगसाठी बेंचमार्कमध्ये सर्व वर्तमान मुख्य प्रवाहातील मॉडेल्सना मागे टाकले आहे, मस्कने असा दावाही केला आहे की Grok3 चा वापर SpaceX च्या मंगळ मोहिमेशी संबंधित संगणकीय कार्यांसाठी केला जाईल, "तीन वर्षांत नोबेल पारितोषिक स्तरावरील प्रगती" असा अंदाज वर्तवला आहे. तथापि, हे सध्या फक्त मस्कचे दावे आहेत. लाँचनंतर, मी Grok3 च्या नवीनतम बीटा आवृत्तीची चाचणी केली आणि मोठ्या मॉडेल्ससाठी क्लासिक ट्रिक प्रश्न विचारला: "कोणते मोठे आहे, 9.11 किंवा 9.9?" दुर्दैवाने, कोणत्याही पात्रता किंवा गुणांशिवाय, तथाकथित सर्वात हुशार ग्रोक३ अजूनही या प्रश्नाचे अचूक उत्तर देऊ शकला नाही. ग्रोक३ प्रश्नाचा अर्थ अचूकपणे ओळखण्यात अयशस्वी झाला.

 

या चाचणीने लवकरच अनेक मित्रांचे लक्ष वेधून घेतले आणि योगायोगाने, परदेशात अशाच प्रकारच्या विविध चाचण्यांमध्ये ग्रोक३ ला "पिसाच्या झुकत्या मनोऱ्यावरून कोणता चेंडू प्रथम पडतो?" सारख्या मूलभूत भौतिकशास्त्र/गणिताच्या प्रश्नांशी झुंजताना दिसून आले आहे. अशाप्रकारे, त्याला विनोदी पद्धतीने "सोप्या प्रश्नांची उत्तरे देण्यास तयार नसलेला प्रतिभाशाली" असे लेबल लावण्यात आले आहे.

६४०

Grok3 चांगला आहे, पण तो R1 किंवा o1-Pro पेक्षा चांगला नाही.

Grok3 ला व्यवहारात अनेक सामान्य ज्ञान चाचण्यांमध्ये "अपयश" आले. xAI लाँच इव्हेंट दरम्यान, मस्कने पाथ ऑफ एक्झाइल 2 गेममधील कॅरेक्टर क्लासेस आणि इफेक्ट्सचे विश्लेषण करण्यासाठी Grok3 वापरून दाखवले, जो तो अनेकदा खेळण्याचा दावा करतो, परंतु Grok3 ने दिलेली बहुतेक उत्तरे चुकीची होती. लाईव्हस्ट्रीम दरम्यान मस्कला ही स्पष्ट समस्या लक्षात आली नाही.

 

या चुकीमुळे परदेशी नेटिझन्सना गेमिंगमध्ये "पर्याय शोधण्यासाठी" मस्कची थट्टा करण्यासाठी आणखी पुरावे मिळाले नाहीत तर व्यावहारिक अनुप्रयोगांमध्ये ग्रोक३ च्या विश्वासार्हतेबद्दल देखील महत्त्वपूर्ण चिंता निर्माण झाल्या. अशा "प्रतिभावान" व्यक्तीसाठी, त्याच्या वास्तविक क्षमता काहीही असो, मंगळ शोध कार्यांसारख्या अत्यंत जटिल अनुप्रयोग परिस्थितींमध्ये त्याची विश्वासार्हता संशयाच्या भोवऱ्यात आहे.

 

सध्या, अनेक परीक्षक ज्यांना आठवड्यांपूर्वी Grok3 चा प्रवेश मिळाला होता आणि ज्यांनी काल काही तासांसाठी मॉडेल क्षमतांची चाचणी घेतली होती, ते सर्व एकाच निष्कर्षाकडे निर्देश करतात: "Grok3 चांगले आहे, परंतु ते R1 किंवा o1-Pro पेक्षा चांगले नाही."

६४० (१)

"एनव्हीडियामध्ये व्यत्यय आणणारा" यावर एक गंभीर दृष्टीकोन

रिलीज दरम्यान अधिकृतपणे सादर केलेल्या पीपीटीमध्ये, चॅटबॉट अरेनामध्ये ग्रोक३ "खूप पुढे" असल्याचे दाखवण्यात आले होते, परंतु यामध्ये हुशारीने ग्राफिक तंत्रांचा वापर करण्यात आला: लीडरबोर्डवरील उभ्या अक्षाने फक्त १४००-१३०० स्कोअर श्रेणीतील निकाल सूचीबद्ध केले होते, ज्यामुळे या सादरीकरणात चाचणी निकालांमधील मूळ १% फरक अपवादात्मकपणे लक्षणीय दिसून येतो.

६४०

प्रत्यक्ष मॉडेल स्कोअरिंग निकालांमध्ये, Grok3 हे DeepSeek R1 आणि GPT-4.0 पेक्षा फक्त 1-2% पुढे आहे, जे अनेक वापरकर्त्यांच्या व्यावहारिक चाचण्यांमधील अनुभवांशी जुळते ज्यांना "कोणताही लक्षणीय फरक आढळला नाही". Grok3 त्याच्या उत्तराधिकाऱ्यांपेक्षा फक्त 1%-2% ने पुढे आहे.

६४०

जरी Grok3 ने सध्या सार्वजनिकरित्या चाचणी केलेल्या सर्व मॉडेल्सपेक्षा जास्त गुण मिळवले असले तरी, बरेच जण हे गांभीर्याने घेत नाहीत: शेवटी, Grok2 युगात xAI वर "स्कोअर मॅनिपुलेशन" साठी यापूर्वी टीका झाली आहे. लीडरबोर्डने उत्तर लांबीच्या शैलीला दंडित केल्यामुळे, गुणांची संख्या खूप कमी झाली, ज्यामुळे उद्योगातील अंतर्गत लोक "उच्च स्कोअरिंग परंतु कमी क्षमता" या घटनेवर टीका करतात.

 

लीडरबोर्ड "मॅनिप्युलेशन" द्वारे असो किंवा चित्रांमधील डिझाइन ट्रिक्सद्वारे असो, ते मॉडेल क्षमतांमध्ये "पॅकचे नेतृत्व" करण्याच्या कल्पनेबद्दल xAI आणि मस्कच्या वेडाचे प्रकटीकरण करतात. या मार्जिनसाठी मस्कला मोठी किंमत मोजावी लागली: लाँच दरम्यान, त्याने २००,००० H100 GPUs वापरल्याचा अभिमान बाळगला (लाइव्हस्ट्रीम दरम्यान "१००,००० पेक्षा जास्त" असा दावा केला) आणि एकूण २० कोटी तासांचा प्रशिक्षण वेळ साध्य केला. यामुळे काहींना असे वाटले की ते GPU उद्योगासाठी आणखी एक महत्त्वपूर्ण वरदान आहे आणि DeepSeek चा या क्षेत्रावरील प्रभाव "मूर्खपणा" मानला जातो. उल्लेखनीय म्हणजे, काहींना असे वाटते की निव्वळ संगणकीय शक्ती मॉडेल प्रशिक्षणाचे भविष्य असेल.

 

तथापि, काही नेटिझन्सनी दोन महिन्यांत २००० H800 GPU च्या वापराची तुलना DeepSeek V3 तयार करण्यासाठी केली, ज्यामुळे Grok3 चा प्रत्यक्ष प्रशिक्षण वीज वापर V3 च्या २६३ पट आहे असे दिसून आले. १४०२ गुण मिळवणाऱ्या DeepSeek V3 आणि Grok3 मधील अंतर १०० गुणांपेक्षा थोडे कमी आहे. या डेटाच्या प्रकाशनानंतर, अनेकांना लवकरच लक्षात आले की Grok3 च्या "जगातील सर्वात मजबूत" या शीर्षकामागे एक स्पष्ट सीमांत उपयुक्तता प्रभाव आहे - मोठ्या मॉडेल्सच्या मजबूत कामगिरीच्या तर्कामुळे कमी होत जाणारे परतावे दिसू लागले आहेत.

६४० (२)

"उच्च स्कोअरिंग पण कमी क्षमता" असूनही, Grok2 कडे X (Twitter) प्लॅटफॉर्मवरून वापरास समर्थन देण्यासाठी मोठ्या प्रमाणात उच्च-गुणवत्तेचा प्रथम-पक्ष डेटा होता. तथापि, Grok3 च्या प्रशिक्षणात, xAI ला स्वाभाविकच OpenAI सध्या ज्या "सीलिंग" ला तोंड देत आहे त्याचा सामना करावा लागला - प्रीमियम प्रशिक्षण डेटाचा अभाव मॉडेलच्या क्षमतांची किरकोळ उपयुक्तता वेगाने उघड करतो.

 

ग्रोक३ आणि मस्कचे डेव्हलपर्स कदाचित या तथ्यांना सर्वात आधी समजून घेतील आणि त्यांची सखोल ओळख पटवतील, म्हणूनच मस्कने सोशल मीडियावर सतत नमूद केले आहे की वापरकर्ते सध्या अनुभवत असलेले व्हर्जन "अजूनही फक्त बीटा" आहे आणि "येत्या काही महिन्यांत पूर्ण व्हर्जन रिलीज होईल." मस्कने ग्रोक३ च्या उत्पादन व्यवस्थापकाची भूमिका स्वीकारली आहे, वापरकर्त्यांना टिप्पण्या विभागात येणाऱ्या विविध समस्यांवर अभिप्राय देण्यास सुचवले आहे. तो कदाचित पृथ्वीवरील सर्वात जास्त फॉलो केलेला उत्पादन व्यवस्थापक असेल.

 

तरीही, एका दिवसात, Grok3 च्या कामगिरीने निःसंशयपणे मजबूत मोठ्या मॉडेल्सना प्रशिक्षित करण्यासाठी "मोठ्या संगणकीय स्नायू" वर अवलंबून राहण्याची आशा बाळगणाऱ्यांसाठी धोक्याची घंटा निर्माण केली: सार्वजनिकरित्या उपलब्ध असलेल्या मायक्रोसॉफ्ट माहितीवर आधारित, OpenAI च्या GPT-4 चा पॅरामीटर आकार 1.8 ट्रिलियन पॅरामीटर्स आहे, जो GPT-3 च्या दहा पट जास्त आहे. अफवा सूचित करतात की GPT-4.5 चा पॅरामीटर आकार आणखी मोठा असू शकतो.

 

मॉडेल पॅरामीटर आकार वाढत असताना, प्रशिक्षण खर्च देखील गगनाला भिडत आहे. Grok3 च्या उपस्थितीमुळे, GPT-4.5 सारख्या स्पर्धकांनी आणि पॅरामीटर आकाराद्वारे चांगले मॉडेल कामगिरी साध्य करण्यासाठी "पैसे जाळणे" सुरू ठेवू इच्छिणाऱ्या इतरांनी आता स्पष्टपणे दिसणारी कमाल मर्यादा विचारात घेतली पाहिजे आणि त्यावर मात कशी करावी याचा विचार केला पाहिजे. या क्षणी, OpenAI चे माजी मुख्य शास्त्रज्ञ इल्या सुत्स्केव्हर यांनी गेल्या डिसेंबरमध्ये पूर्वी म्हटले होते की, "आम्हाला परिचित असलेले पूर्व-प्रशिक्षण संपेल," जे चर्चेत पुन्हा समोर आले आहे, ज्यामुळे मोठ्या मॉडेल्सना प्रशिक्षण देण्यासाठी खरा मार्ग शोधण्याचे प्रयत्न सुरू झाले आहेत.

६४० (३)

इल्याच्या दृष्टिकोनामुळे उद्योगात धोक्याची घंटा वाजली आहे. त्यांनी अचूकपणे नवीन डेटा उपलब्ध होणार नाही याची पूर्वकल्पना दिली होती, ज्यामुळे डेटा संपादनाद्वारे कामगिरी वाढवता येणार नाही अशी परिस्थिती निर्माण होते, त्याची तुलना जीवाश्म इंधनाच्या संपण्याशी केली. त्यांनी सूचित केले की "तेलाप्रमाणे, इंटरनेटवरील मानवनिर्मित सामग्री मर्यादित संसाधन आहे." सुत्स्केव्हरच्या भाकितांमध्ये, पुढील पिढीतील मॉडेल्स, पूर्व-प्रशिक्षणानंतर, "मानवी मेंदूसारखीच" "खरी स्वायत्तता" आणि तर्क क्षमता असतील.

 

आजच्या पूर्व-प्रशिक्षित मॉडेल्सच्या विपरीत जे प्रामुख्याने सामग्री जुळणीवर अवलंबून असतात (पूर्वी शिकलेल्या मॉडेल सामग्रीवर आधारित), भविष्यातील एआय सिस्टम मानवी मेंदूच्या "विचार" प्रमाणेच समस्या सोडवण्यासाठी पद्धती शिकण्यास आणि स्थापित करण्यास सक्षम असतील. एक माणूस फक्त मूलभूत व्यावसायिक साहित्यासह एखाद्या विषयात मूलभूत प्रवीणता प्राप्त करू शकतो, तर एआय मोठ्या मॉडेलला फक्त सर्वात मूलभूत प्रवेश-स्तरीय कार्यक्षमता प्राप्त करण्यासाठी लाखो डेटा पॉइंट्सची आवश्यकता असते. शब्दरचना थोडीशी बदलली तरीही, हे मूलभूत प्रश्न योग्यरित्या समजू शकत नाहीत, जे दर्शविते की मॉडेल बुद्धिमत्तेत खरोखर सुधारलेले नाही: लेखाच्या सुरुवातीला नमूद केलेले मूलभूत परंतु न सोडवता येणारे प्रश्न या घटनेचे स्पष्ट उदाहरण आहेत.

微信图片_20240614024031.jpg1

निष्कर्ष

तथापि, क्रूर शक्तीच्या पलीकडे जाऊन, जर Grok3 खरोखरच उद्योगाला हे उघड करण्यात यशस्वी झाले की "पूर्व-प्रशिक्षित मॉडेल्स त्यांच्या अंताच्या जवळ येत आहेत," तर त्याचे या क्षेत्रासाठी महत्त्वपूर्ण परिणाम होतील.

कदाचित Grok3 भोवतीचा उन्माद हळूहळू कमी झाल्यानंतर, आपल्याला Fei-Fei Li च्या उदाहरणासारखे आणखी काही उदाहरणे दिसतील, जसे की "फक्त $50 मध्ये विशिष्ट डेटासेटवर उच्च-कार्यक्षमता मॉडेल्स ट्यून करणे", शेवटी AGI चा खरा मार्ग शोधणे.

ELV केबल सोल्यूशन शोधा

नियंत्रण केबल्स

बीएमएस, बस, औद्योगिक, इन्स्ट्रुमेंटेशन केबलसाठी.

संरचित केबलिंग सिस्टम

नेटवर्क आणि डेटा, फायबर-ऑप्टिक केबल, पॅच कॉर्ड, मॉड्यूल्स, फेसप्लेट

२०२४ प्रदर्शने आणि कार्यक्रमांचा आढावा

१६-१८ एप्रिल २०२४ दुबईमध्ये मध्य-पूर्व-ऊर्जा

१६-१८ एप्रिल २०२४ मॉस्कोमध्ये सेक्युरिका

९ मे २०२४ रोजी शांघायमध्ये नवीन उत्पादने आणि तंत्रज्ञानाचा लाँच कार्यक्रम

२२-२५ ऑक्टोबर २०२४ बीजिंगमध्ये सुरक्षा चीन

१९-२० नोव्हेंबर २०२४ कनेक्टेड वर्ल्ड केएसए


पोस्ट वेळ: फेब्रुवारी-१९-२०२५