एआई के साथ मुख्य समस्याओं में से एक कुख्यात उच्च शक्ति और कंप्यूटिंग मांग है, विशेष रूप से मीडिया उत्पादन जैसे कार्यों के लिए। मोबाइल फोन पर, जब यह मूल रूप से चलने की बात आती है, तो शक्तिशाली सिलिकॉन के साथ केवल मुट्ठी भर कीमत वाले उपकरण फ़ीचर सूट चला सकते हैं। यहां तक कि जब क्लाउड पर पैमाने पर लागू किया जाता है, तो यह एक महंगा मामला है।
NVIDIA ने चुपचाप मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी और तिंगहुआ विश्वविद्यालय में लोगों के साथ साझेदारी में उस चुनौती को संबोधित किया हो सकता है। टीम ने एक हाइब्रिड एआई इमेज जेनरेशन टूल बनाया, जिसे हार्ट (हाइब्रिड ऑटोरेसिव ट्रांसफार्मर) कहा जाता है जो अनिवार्य रूप से दो सबसे व्यापक रूप से उपयोग किए जाने वाले एआई छवि निर्माण तकनीकों को जोड़ती है। Th परिणाम नाटकीय रूप से कम गणना आवश्यकता के साथ एक धधकते तेजी से उपकरण है।
बस आपको यह अंदाजा लगाने के लिए कि यह कितनी तेजी से है, मैंने इसे बास गिटार बजाने वाले तोते की छवि बनाने के लिए कहा। यह निम्नलिखित तस्वीर के साथ सिर्फ एक सेकंड में लौटा। मैं मुश्किल से प्रगति बार का पालन कर सकता था। जब मैंने मिथुन में Google के इमेजेन 3 मॉडल से पहले उसी प्रॉम्प्ट को धक्का दिया, तो 200 एमबीपीएस इंटरनेट कनेक्शन पर लगभग 9-10 सेकंड लगे।

एक विशाल सफलता
जब एआई छवियों ने पहली बार लहरें बनाना शुरू किया, तो डिफ्यूजन तकनीक इसके पीछे थी, ओपनईई के डल-ई इमेज जेनरेटर, Google के इमेजेन और स्थिर प्रसार जैसे उत्पादों को पावर करना। यह विधि एक उच्च स्तर के विस्तार के साथ छवियों का उत्पादन कर सकती है। हालांकि, यह एआई छवियों को बनाने के लिए एक बहु-चरण दृष्टिकोण है, और परिणामस्वरूप, यह धीमा और कम्प्यूटेशनल रूप से महंगा है।
दूसरा दृष्टिकोण जिसने हाल ही में लोकप्रियता प्राप्त की है, वह ऑटो-रेजिस्टिव मॉडल है, जो अनिवार्य रूप से चैटबॉट के समान फैशन में काम करता है और पिक्सेल भविष्यवाणी तकनीक का उपयोग करके छवियां उत्पन्न करता है। यह तेज है, लेकिन एआई का उपयोग करके छवियों को बनाने की एक अधिक त्रुटि-प्रवण विधि भी है।
MIT की टीम ने दोनों तरीकों को हार्ट नामक एक एकल पैकेज में शामिल किया। यह एक असतत टोकन के रूप में संपीड़ित छवि परिसंपत्तियों की भविष्यवाणी करने के लिए एक ऑटोरेग्रेशन मॉडल पर निर्भर करता है, जबकि एक छोटा प्रसार मॉडल गुणवत्ता हानि की भरपाई के लिए बाकी को संभालता है। समग्र दृष्टिकोण दो दर्जन से अधिक चरणों की संख्या को कम करता है।
हार्ट के पीछे के विशेषज्ञों का दावा है कि यह “उन छवियों को उत्पन्न कर सकता है जो अत्याधुनिक प्रसार मॉडल की गुणवत्ता से मेल खाते हैं या अधिक से अधिक हैं, लेकिन लगभग नौ गुना तेजी से ऐसा करते हैं।” हार्ट 700 मिलियन पैरामीटर रेंज और एक छोटे से प्रसार मॉडल के साथ एक ऑटोरेग्रेसिव मॉडल को जोड़ती है जो 37 मिलियन मापदंडों को संभाल सकता है।

लागत-कंप्यूटिंग संकट को हल करना
दिलचस्प बात यह है कि यह हाइब्रिड टूल उन छवियों को बनाने में सक्षम था जो 2 बिलियन पैरामीटर क्षमता के साथ टॉप-शेल्फ मॉडल की गुणवत्ता से मेल खाती थीं। सबसे महत्वपूर्ण बात, हार्ट 3 गुना तेज छवि सृजन दर पर उस मील का पत्थर हासिल करने में सक्षम था, जबकि 31% कम गणना संसाधनों की आवश्यकता थी।
टीम के अनुसार, कम-कम्प्यूट दृष्टिकोण हार्ट को फोन और लैपटॉप पर स्थानीय रूप से चलाने की अनुमति देता है, जो एक बड़ी जीत है। अब तक, सबसे लोकप्रिय मास-मार्केट उत्पाद जैसे कि CHATGPT और GEMINI को छवि पीढ़ी के लिए एक इंटरनेट कनेक्शन की आवश्यकता होती है क्योंकि कंप्यूटिंग क्लाउड सर्वर में होता है।
टेस्ट वीडियो में, टीम ने इसे इंटेल के कोर सीरीज़ प्रोसेसर और एक एनवीडिया गेफोर्स आरटीएक्स ग्राफिक्स कार्ड के साथ एक एमएसआई लैपटॉप पर मूल रूप से चलाया। यह एक संयोजन है जिसे आप एक भाग्य के अधिकांश गेमिंग लैपटॉप पर पा सकते हैं, एक भाग्य खर्च किए बिना, जबकि उस पर।

हार्ट एक सम्मानजनक 1024 x 1024 पिक्सेल रिज़ॉल्यूशन पर 1: 1 पहलू अनुपात छवियों का उत्पादन करने में सक्षम है। इन छवियों में विस्तार का स्तर प्रभावशाली है, और इसलिए शैलीगत भिन्नता और दृश्यों की सटीकता है। अपने परीक्षणों के दौरान, टीम ने कहा कि हाइब्रिड एआई उपकरण तीन से छह गुना तेजी से कहीं भी था और सात गुना अधिक थ्रूपुट की पेशकश की।
भविष्य की क्षमता रोमांचक है, खासकर जब भाषा मॉडल के साथ हार्ट की छवि क्षमताओं को एकीकृत करना। एमआईटी में टीम का कहना है, “भविष्य में, कोई एक एकीकृत विज़न-लैंग्वेज जेनरेटिव मॉडल के साथ बातचीत कर सकता है, शायद यह फर्नीचर के एक टुकड़े को इकट्ठा करने के लिए आवश्यक मध्यवर्ती चरणों को दिखाने के लिए कह सकता है।”
वे पहले से ही उस विचार की खोज कर रहे हैं, और यहां तक कि ऑडियो और वीडियो पीढ़ी पर हार्ट दृष्टिकोण का परीक्षण करने की योजना बना रहे हैं। आप इसे MIT के वेब डैशबोर्ड पर आज़मा सकते हैं।
कुछ खुरदरे किनारों
इससे पहले कि हम गुणवत्ता की बहस में गोता लगाएँ, ध्यान रखें कि हार्ट बहुत अधिक शोध परियोजना है जो अभी भी अपने शुरुआती चरणों में है। तकनीकी पक्ष में, टीम द्वारा कुछ परेशानियों को उजागर किया जाता है, जैसे कि अनुमान और प्रशिक्षण प्रक्रिया के दौरान ओवरहेड्स।

चुनौतियों को तय किया जा सकता है या अनदेखा किया जा सकता है, क्योंकि वे यहां चीजों की बड़ी योजना में मामूली हैं। इसके अलावा, सरासर लाभ पर विचार करते हुए हार्ट कम्प्यूटिंग दक्षता, गति और विलंबता के मामले में वितरित करता है, वे किसी भी प्रमुख प्रदर्शन के मुद्दों के लिए नेतृत्व किए बिना बने रह सकते हैं।
अपने संक्षिप्त समय में शीघ्र-परीक्षण हार्ट में, मैं छवि पीढ़ी की गति से चकित था। मैं मुश्किल से एक परिदृश्य में भाग गया, जहां एक छवि बनाने के लिए मुफ्त वेब टूल को दो सेकंड से अधिक समय लगा। यहां तक कि उन संकेतों के साथ जो तीन पैराग्राफ (लंबाई में लगभग 200 से अधिक शब्द) का विस्तार करते हैं, हार्ट उन छवियों को बनाने में सक्षम थे जो विवरण का कसकर पालन करते हैं।

वर्णनात्मक सटीकता के अलावा, छवियों में बहुत विस्तार था। हालांकि, हार्ट एक एआई छवि जनरेटर उपकरण की विशिष्ट विफलताओं से ग्रस्त है। यह अंकों के साथ संघर्ष करता है, खाद्य पदार्थों को खाने जैसे बुनियादी चित्रण, चरित्र स्थिरता, और परिप्रेक्ष्य कैप्चर में विफल।
मानव संदर्भ में फोटोरिअलिज्म एक ऐसा क्षेत्र है जहां मैंने चमकती विफलताओं पर ध्यान दिया। कुछ अवसरों पर, यह बस बुनियादी वस्तुओं की अवधारणा को गलत लगा, जैसे कि एक रिंग को एक हार के साथ भ्रमित करना। लेकिन कुल मिलाकर, वे त्रुटियां दूर, कुछ और मौलिक रूप से अपेक्षित थीं। एआई टूल्स का एक स्वस्थ झुंड अभी भी उस अधिकार को नहीं प्राप्त कर सकता है, कुछ समय के लिए बाहर होने के बावजूद।
कुल मिलाकर, मैं विशेष रूप से हार्ट की अपार क्षमता से उत्साहित हूं। यह देखना दिलचस्प होगा कि क्या MIT और NVIDIA इसमें से एक उत्पाद बनाते हैं, या किसी मौजूदा उत्पाद में हाइब्रिड AI छवि पीढ़ी के दृष्टिकोण को अपनाते हैं। किसी भी तरह से, यह एक बहुत ही होनहार भविष्य में एक झलक है।

Hello Readers! I am RAHUL KUMAR MAHTO RKM With 3 Year of Experience in Writing Content About Scholarship. With Masters in IT, I love to to write digital content about Government Scholarship Schemes, Private Scholarship Schemes.