टेक्नोलॉजी

Google Gemini करेगा खाना ऑर्डर, कैब बुक, बिना फोन छुए!

खेल

T20 वर्ल्ड कप IND vs USA: जीत के बावजूद वानखेड़े में भारतीय बैटिंग का शर्मनाक रिकॉर्ड

न्यूज़

PM Modi मलेशिया दौरे पर, भारत-मलेशिया रिश्तों को मिली नई रफ्तार

मनोरंजन

Bhooth Bangla Release Twist: अक्षय कुमार की हॉरर-कॉमेडी अब पहले मचाएगी धमाल!

टेक्नोलॉजी

boAt HIVE Dashcam Launch in India: GPS, ADAS के साथ 3 नए मॉडल, कीमत ₹2,499 से

एजुकेशन

NEET UG 2026 Registration शुरू! फीस, डॉक्यूमेंट्स और आवेदन का पूरा प्रोसेस यहां देखें

मनोरंजन

The Bluff OTT Release: 5 साल का इंतज़ार खत्म, Priyanka Chopra की एक्शन-थ्रिलर फरवरी में मचाएगी तहलका

बिहार न्यूज़

Pappu Yadav Controversy: रात 11 बजे से पटना में पुलिस रेड

टेक्नोलॉजी / DeepSeek R1: जानिए वो AI मॉडल जो OpenAI से भी बेहतर साबित हुआ!

DeepSeek R1: जानिए वो AI मॉडल जो OpenAI से भी बेहतर साबित हुआ!

Reported by: Ground Repoter | Written by: Saurabh Thakur | Agency: SN Media Network
Last Updated:

DeepSeek R1: सस्ता और शक्तिशाली AI मॉडल खबर का सार AI ने दिया. न्यूज़ टीम ने रिव्यु किया.

  • चीनी स्टार्टअप DeepSeek ने कम लागत में शक्तिशाली AI मॉडल R1 बनाया।
  • R1 को pure reinforcement learning से ट्रेन किया गया, जिससे यह और भी बेहतर हुआ।
  • यह मॉडल अब आम लोगों और छोटे व्यवसायों के लिए AI तक पहुँच को आसान बनाता है।

18 सितम्बर 2025 को टेक्नोलॉजी की दुनिया में बहुत बड़ा बदलाव आया है। चीनी AI स्टार्टअप DeepSeek ने अपने शक्तिशाली और सस्ते मॉडल R1 की ट्रेनिंग जानकारी शोधपत्र के ज़रिए सबके सामने रख दी है। साइंस जर्नल Nature में पब्लिश हुई स्टडी ने बताया कि DeepSeek R1 को केवल reinforcement learning से तैयार किया गया है और इसमें करोड़ों की जगह, कुछ लाख डॉलर ही लगे। अब DeepSeek R1 मॉडर्न AI प्रगति की मिसाल बन गया है, जिसने OpenAI जैसे दिग्गजों को भी पीछे छोड़ दिया है। इस breakthrough ने AI को आम आदमी और छोटे बिज़नेस के लिए भी accessible बना दिया है।

Pure Reinforcement Learning का जादू

DeepSeek R1 को बनाने में टीम ने pure reinforcement learning की strategy अपनाई। आज तक ज्यादातर मॉडल human का बनाया data copy करते थे, लेकिन इस बार मशीन खुद सही जवाब खोजने के लिए reward पाती है। इसकी वजह से DeepSeek R1 ने अपने हिसाब से reasoning और logic खुद develop किया, जिसमें वो अलग तरह की verification भी कर सकती है। Group Relative Policy Optimization (GRPO) technique का इस्तेमाल हुआ, जिससे मॉडल अपनी performance खुद आंक सकता है — एक्सपर्ट के हिसाब से ये तरीका 2025 की सारी AI research के लिए inspiration बन चुका है।

पाँच स्टेज की ट्रेंनिंग: डीपसीक R1 की Recipe

संबंधित आर्टिकल्स

अब छिप नहीं पाएंगे नेता! Perplexity AI दिखाएगा हर Politician की शेयर होल्डिंग

Google AI creative prompt ideas: जानिए ऐसे Creative Prompts जो बना देंगे आपको Viral

इन 6 Gemini AI Prompts से आपकी दिवाली फोटो बन जाएगी वायरल – दिखेगी एकदम बॉलीवुड स्टाइल!

Diwali 2025 पर छा गया Bollywood AI Look! जानिए Google Gemini Ai Prompt For Diwali के ज़रिए कैसे बनाएं अपना स्टार पोर्ट्रेट

OnePlus Pad 2 Launch: 27 अक्टूबर को होगा धमाकेदार लॉन्च, मिलेगा 3K डिस्प्ले और पावरफुल चिपसेट

Dhanteras 2025 Amazon Offers: सोना, चांदी और डायमंड ज्वेलरी पर शुरू हुए पागलपन भरे डिस्काउंट देखिए लिस्ट!

R1 का ट्रेनिंग प्रोसेस पाँच अलग-अलग stages में हुआ, जिसमें supervised fine-tuning और reinforcement learning बारी-बारी से शामिल थे। सबसे पहले DeepSeek V3-Base मॉडल को हजारों cold-start data points से fine-tune किया गया। उसके बाद pure reinforcement learning लागू हुई, जिससे reasoning efficiency और creativity बढ़ी। पूरा सिस्टम model-generated synthetic data का use करता है–मतलब कि खुद के successful example चुनकर उनके साथ supervised data मिलाया जाता है। इससे AI writing, question-answering और factual tasks में भी मास्टर हो गई।

Peer Review में पास होकर बनी मिसाल

R1 का ट्रेनिंग प्रोसेस पाँच अलग-अलग stages में हुआ, जिसमें supervised fine-tuning और reinforcement learning बारी-बारी से शामिल थे। सबसे पहले DeepSeek V3-Base मॉडल को हजारों cold-start data points से fine-tune किया गया। उसके बाद pure reinforcement learning लागू हुई, जिससे reasoning efficiency और creativity बढ़ी। पूरा सिस्टम model-generated synthetic data का use करता है–मतलब कि खुद के successful example चुनकर उनके साथ supervised data मिलाया जाता है। इससे AI writing, question-answering और factual tasks में भी मास्टर हो गई।

Performance और सबको खुला Access

जनवरी 2025 के बाद से DeepSeek R1 का Hugging Face पर 10.9 मिलियन से ज्यादा बार download हुआ है–यानि ये दुनिया की सबसे ज्यादा इस्तेमाल की जाने वाली reasoning मॉडल है। American Mathematics Competition में DeepSeek R1 ने pass@1 score में 79.8% हासिल किया, जो OpenAI o1 से थोड़ा बेहतर है। Coding, knowledge और creative writing में भी ये मॉडल expert मान रहा है। मज़े की बात यह है कि DeepSeek R1 को चलाने का खर्च OpenAI o1 की तुलना में 15-50% तक कम है–जिससे छोटे स्टार्टअप्स और researchers के लिए advanced AI अब हकीकत बन गया है।

भविष्य की नई दिशा

DeepSeek R1 ने यह साबित किया है कि AI बिना ज़्यादा पैसे, बड़े compute resources या H100 जैसे चिप्स के भी बनाया जा सकता है। अमेरिका की export policy के बाद DeepSeek ने आम H800 chips से ही ये चमत्कारी मॉडल बना दिया। इसकी सफलता से आने वाले समय में और affordable, sustainable और ethical AI सिस्टम बनने की उम्मीद है।

डिस्क्लेमर: यह जानकारी शोधपत्र और सार्वजनिक वेब स्रोतों पर आधारित है। विज्ञान और तकनीकी अपडेट समय के साथ बदल सकते हैं। किसी भी व्यावसायिक निर्णय या शोध के लिए official स्रोतों की पुष्टि जरूर करें।

इन्हे भी पढ़ें:-


ABOUT THE AUTHOR

Saurabh Thakur
Saurabh Thakur

Saurabh Thakur is the Founder and CEO of SamastipurNews.in, a prominent news website known for delivering reliable and comprehensive coverage of Samastipur and regional news. With over a decade of experience in the media industry, Saurabh has established himself as a seasoned journalist and dedicated news editor. ...और पढ़ें


Samastipur News को गूगल पर अपने पसंदीदा समाचार स्रोत के रूप में जोड़ने के लिए यहां क्लिक करें।


Tags :

First Published : सितम्बर 18, 2025, 06:21 पूर्वाह्न IST

टेक्नोलॉजी / DeepSeek R1: जानिए वो AI मॉडल जो OpenAI से भी बेहतर साबित हुआ!