एनवीडिया ने चुपचाप एआई छवि पीढ़ी की सबसे बड़ी चुनौती को ठीक करने में मदद की

एआई के साथ मुख्य समस्याओं में से एक कुख्यात उच्च शक्ति और कंप्यूटिंग मांग है, विशेष रूप से मीडिया उत्पादन जैसे कार्यों के लिए। मोबाइल फोन पर, जब यह मूल रूप से चलने की बात आती है, तो शक्तिशाली सिलिकॉन के साथ केवल मुट्ठी भर कीमत वाले उपकरण फ़ीचर सूट चला सकते हैं। यहां तक ​​कि जब क्लाउड पर पैमाने पर लागू किया जाता है, तो यह एक महंगा मामला है।

NVIDIA ने चुपचाप मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी और तिंगहुआ विश्वविद्यालय में लोगों के साथ साझेदारी में उस चुनौती को संबोधित किया हो सकता है। टीम ने एक हाइब्रिड एआई इमेज जेनरेशन टूल बनाया, जिसे हार्ट (हाइब्रिड ऑटोरेसिव ट्रांसफार्मर) कहा जाता है जो अनिवार्य रूप से दो सबसे व्यापक रूप से उपयोग किए जाने वाले एआई छवि निर्माण तकनीकों को जोड़ती है। Th परिणाम नाटकीय रूप से कम गणना आवश्यकता के साथ एक धधकते तेजी से उपकरण है।

बस आपको यह अंदाजा लगाने के लिए कि यह कितनी तेजी से है, मैंने इसे बास गिटार बजाने वाले तोते की छवि बनाने के लिए कहा। यह निम्नलिखित तस्वीर के साथ सिर्फ एक सेकंड में लौटा। मैं मुश्किल से प्रगति बार का पालन कर सकता था। जब मैंने मिथुन में Google के इमेजेन 3 मॉडल से पहले उसी प्रॉम्प्ट को धक्का दिया, तो 200 एमबीपीएस इंटरनेट कनेक्शन पर लगभग 9-10 सेकंड लगे।

हार्ट द्वारा उत्पन्न तोते की छवि।
के साथ / कठिन

एक विशाल सफलता

जब एआई छवियों ने पहली बार लहरें बनाना शुरू किया, तो डिफ्यूजन तकनीक इसके पीछे थी, ओपनईई के डल-ई इमेज जेनरेटर, Google के इमेजेन और स्थिर प्रसार जैसे उत्पादों को पावर करना। यह विधि एक उच्च स्तर के विस्तार के साथ छवियों का उत्पादन कर सकती है। हालांकि, यह एआई छवियों को बनाने के लिए एक बहु-चरण दृष्टिकोण है, और परिणामस्वरूप, यह धीमा और कम्प्यूटेशनल रूप से महंगा है।

दूसरा दृष्टिकोण जिसने हाल ही में लोकप्रियता प्राप्त की है, वह ऑटो-रेजिस्टिव मॉडल है, जो अनिवार्य रूप से चैटबॉट के समान फैशन में काम करता है और पिक्सेल भविष्यवाणी तकनीक का उपयोग करके छवियां उत्पन्न करता है। यह तेज है, लेकिन एआई का उपयोग करके छवियों को बनाने की एक अधिक त्रुटि-प्रवण विधि भी है।

हार्ट के लिए ऑन-डिवाइस डेमो: हाइब्रिड ऑटोरेसिव ट्रांसफार्मर के साथ कुशल दृश्य पीढ़ी

MIT की टीम ने दोनों तरीकों को हार्ट नामक एक एकल पैकेज में शामिल किया। यह एक असतत टोकन के रूप में संपीड़ित छवि परिसंपत्तियों की भविष्यवाणी करने के लिए एक ऑटोरेग्रेशन मॉडल पर निर्भर करता है, जबकि एक छोटा प्रसार मॉडल गुणवत्ता हानि की भरपाई के लिए बाकी को संभालता है। समग्र दृष्टिकोण दो दर्जन से अधिक चरणों की संख्या को कम करता है।

हार्ट के पीछे के विशेषज्ञों का दावा है कि यह “उन छवियों को उत्पन्न कर सकता है जो अत्याधुनिक प्रसार मॉडल की गुणवत्ता से मेल खाते हैं या अधिक से अधिक हैं, लेकिन लगभग नौ गुना तेजी से ऐसा करते हैं।” हार्ट 700 मिलियन पैरामीटर रेंज और एक छोटे से प्रसार मॉडल के साथ एक ऑटोरेग्रेसिव मॉडल को जोड़ती है जो 37 मिलियन मापदंडों को संभाल सकता है।

हार्ट के लिए छवि प्रशिक्षण का विकास।
के साथ / कठिन

लागत-कंप्यूटिंग संकट को हल करना

दिलचस्प बात यह है कि यह हाइब्रिड टूल उन छवियों को बनाने में सक्षम था जो 2 बिलियन पैरामीटर क्षमता के साथ टॉप-शेल्फ मॉडल की गुणवत्ता से मेल खाती थीं। सबसे महत्वपूर्ण बात, हार्ट 3 गुना तेज छवि सृजन दर पर उस मील का पत्थर हासिल करने में सक्षम था, जबकि 31% कम गणना संसाधनों की आवश्यकता थी।

टीम के अनुसार, कम-कम्प्यूट दृष्टिकोण हार्ट को फोन और लैपटॉप पर स्थानीय रूप से चलाने की अनुमति देता है, जो एक बड़ी जीत है। अब तक, सबसे लोकप्रिय मास-मार्केट उत्पाद जैसे कि CHATGPT और GEMINI को छवि पीढ़ी के लिए एक इंटरनेट कनेक्शन की आवश्यकता होती है क्योंकि कंप्यूटिंग क्लाउड सर्वर में होता है।

टेस्ट वीडियो में, टीम ने इसे इंटेल के कोर सीरीज़ प्रोसेसर और एक एनवीडिया गेफोर्स आरटीएक्स ग्राफिक्स कार्ड के साथ एक एमएसआई लैपटॉप पर मूल रूप से चलाया। यह एक संयोजन है जिसे आप एक भाग्य के अधिकांश गेमिंग लैपटॉप पर पा सकते हैं, एक भाग्य खर्च किए बिना, जबकि उस पर।

एआई छवियों का तुलनात्मक विश्लेषण।
के साथ / कठिन

हार्ट एक सम्मानजनक 1024 x 1024 पिक्सेल रिज़ॉल्यूशन पर 1: 1 पहलू अनुपात छवियों का उत्पादन करने में सक्षम है। इन छवियों में विस्तार का स्तर प्रभावशाली है, और इसलिए शैलीगत भिन्नता और दृश्यों की सटीकता है। अपने परीक्षणों के दौरान, टीम ने कहा कि हाइब्रिड एआई उपकरण तीन से छह गुना तेजी से कहीं भी था और सात गुना अधिक थ्रूपुट की पेशकश की।

भविष्य की क्षमता रोमांचक है, खासकर जब भाषा मॉडल के साथ हार्ट की छवि क्षमताओं को एकीकृत करना। एमआईटी में टीम का कहना है, “भविष्य में, कोई एक एकीकृत विज़न-लैंग्वेज जेनरेटिव मॉडल के साथ बातचीत कर सकता है, शायद यह फर्नीचर के एक टुकड़े को इकट्ठा करने के लिए आवश्यक मध्यवर्ती चरणों को दिखाने के लिए कह सकता है।”

वे पहले से ही उस विचार की खोज कर रहे हैं, और यहां तक ​​कि ऑडियो और वीडियो पीढ़ी पर हार्ट दृष्टिकोण का परीक्षण करने की योजना बना रहे हैं। आप इसे MIT के वेब डैशबोर्ड पर आज़मा सकते हैं।

कुछ खुरदरे किनारों

इससे पहले कि हम गुणवत्ता की बहस में गोता लगाएँ, ध्यान रखें कि हार्ट बहुत अधिक शोध परियोजना है जो अभी भी अपने शुरुआती चरणों में है। तकनीकी पक्ष में, टीम द्वारा कुछ परेशानियों को उजागर किया जाता है, जैसे कि अनुमान और प्रशिक्षण प्रक्रिया के दौरान ओवरहेड्स।

हार्ट की विफलताएं।
हार्ट / नदीम सरवर

चुनौतियों को तय किया जा सकता है या अनदेखा किया जा सकता है, क्योंकि वे यहां चीजों की बड़ी योजना में मामूली हैं। इसके अलावा, सरासर लाभ पर विचार करते हुए हार्ट कम्प्यूटिंग दक्षता, गति और विलंबता के मामले में वितरित करता है, वे किसी भी प्रमुख प्रदर्शन के मुद्दों के लिए नेतृत्व किए बिना बने रह सकते हैं।

अपने संक्षिप्त समय में शीघ्र-परीक्षण हार्ट में, मैं छवि पीढ़ी की गति से चकित था। मैं मुश्किल से एक परिदृश्य में भाग गया, जहां एक छवि बनाने के लिए मुफ्त वेब टूल को दो सेकंड से अधिक समय लगा। यहां तक ​​कि उन संकेतों के साथ जो तीन पैराग्राफ (लंबाई में लगभग 200 से अधिक शब्द) का विस्तार करते हैं, हार्ट उन छवियों को बनाने में सक्षम थे जो विवरण का कसकर पालन करते हैं।

AI छवियों का नमूना HART के साथ उत्पन्न हुआ।
हार्ट / नदीम सरवर

वर्णनात्मक सटीकता के अलावा, छवियों में बहुत विस्तार था। हालांकि, हार्ट एक एआई छवि जनरेटर उपकरण की विशिष्ट विफलताओं से ग्रस्त है। यह अंकों के साथ संघर्ष करता है, खाद्य पदार्थों को खाने जैसे बुनियादी चित्रण, चरित्र स्थिरता, और परिप्रेक्ष्य कैप्चर में विफल।

मानव संदर्भ में फोटोरिअलिज्म एक ऐसा क्षेत्र है जहां मैंने चमकती विफलताओं पर ध्यान दिया। कुछ अवसरों पर, यह बस बुनियादी वस्तुओं की अवधारणा को गलत लगा, जैसे कि एक रिंग को एक हार के साथ भ्रमित करना। लेकिन कुल मिलाकर, वे त्रुटियां दूर, कुछ और मौलिक रूप से अपेक्षित थीं। एआई टूल्स का एक स्वस्थ झुंड अभी भी उस अधिकार को नहीं प्राप्त कर सकता है, कुछ समय के लिए बाहर होने के बावजूद।

कुल मिलाकर, मैं विशेष रूप से हार्ट की अपार क्षमता से उत्साहित हूं। यह देखना दिलचस्प होगा कि क्या MIT और NVIDIA इसमें से एक उत्पाद बनाते हैं, या किसी मौजूदा उत्पाद में हाइब्रिड AI छवि पीढ़ी के दृष्टिकोण को अपनाते हैं। किसी भी तरह से, यह एक बहुत ही होनहार भविष्य में एक झलक है।






Leave a Comment