ई-स्पोर्ट्स

Free Fire Redeem Code: 18 September 2025 अभी क्लेम करें लिमिटेड रिवार्ड्स

बिज़नेस

GST Rate Cut: 22 सितंबर से लागू होगा नया GST, जानिए क्या-क्या होगा सस्ता

न्यूज़

पुतिन ने पीएम मोदी की नेतृत्व क्षमता की सराहना की, जताई गहरी दोस्ती और सम्मान

टेक्नोलॉजी

DeepSeek R1: जानिए वो AI मॉडल जो OpenAI से भी बेहतर साबित हुआ!

न्यूज़

Modi 75th Birthday: ईयू-भारत नई रणनीतिक साझेदारी भविष्य के लिए बड़ी तैयारी

बिग बॉस

बिग बॉस 19 की कंटेस्टेंट Nagma Mirajkar Reveal Her wedding plan, फैंस हुए एक्साइटेड

बिग बॉस

बिग बॉस 19 के कंटेस्टेंट Amaal Mallik Trolled हुए, फैन्स ने कहा फट्टू कैप्टन,

बिग बॉस

Bigg Boss 19 week ranking के तीसरे हफ्ते का वोटिंग रिजल्ट आया, जानिए टॉप पर किसने मारी बाजी?

टेक्नोलॉजी / DeepSeek R1: जानिए वो AI मॉडल जो OpenAI से भी बेहतर साबित हुआ!

DeepSeek R1: जानिए वो AI मॉडल जो OpenAI से भी बेहतर साबित हुआ!

Reported by: Ground Repoter | Written by: Saurabh Thakur | Agency: SN Media Network
Last Updated:

DeepSeek R1: सस्ता और शक्तिशाली AI मॉडल खबर का सार AI ने दिया. न्यूज़ टीम ने रिव्यु किया.

  • चीनी स्टार्टअप DeepSeek ने कम लागत में शक्तिशाली AI मॉडल R1 बनाया।
  • R1 को pure reinforcement learning से ट्रेन किया गया, जिससे यह और भी बेहतर हुआ।
  • यह मॉडल अब आम लोगों और छोटे व्यवसायों के लिए AI तक पहुँच को आसान बनाता है।

18 सितम्बर 2025 को टेक्नोलॉजी की दुनिया में बहुत बड़ा बदलाव आया है। चीनी AI स्टार्टअप DeepSeek ने अपने शक्तिशाली और सस्ते मॉडल R1 की ट्रेनिंग जानकारी शोधपत्र के ज़रिए सबके सामने रख दी है। साइंस जर्नल Nature में पब्लिश हुई स्टडी ने बताया कि DeepSeek R1 को केवल reinforcement learning से तैयार किया गया है और इसमें करोड़ों की जगह, कुछ लाख डॉलर ही लगे। अब DeepSeek R1 मॉडर्न AI प्रगति की मिसाल बन गया है, जिसने OpenAI जैसे दिग्गजों को भी पीछे छोड़ दिया है। इस breakthrough ने AI को आम आदमी और छोटे बिज़नेस के लिए भी accessible बना दिया है।

Pure Reinforcement Learning का जादू

DeepSeek R1 को बनाने में टीम ने pure reinforcement learning की strategy अपनाई। आज तक ज्यादातर मॉडल human का बनाया data copy करते थे, लेकिन इस बार मशीन खुद सही जवाब खोजने के लिए reward पाती है। इसकी वजह से DeepSeek R1 ने अपने हिसाब से reasoning और logic खुद develop किया, जिसमें वो अलग तरह की verification भी कर सकती है। Group Relative Policy Optimization (GRPO) technique का इस्तेमाल हुआ, जिससे मॉडल अपनी performance खुद आंक सकता है — एक्सपर्ट के हिसाब से ये तरीका 2025 की सारी AI research के लिए inspiration बन चुका है।

पाँच स्टेज की ट्रेंनिंग: डीपसीक R1 की Recipe

संबंधित आर्टिकल्स

Google Gemini Nano Banana Alert: AI Security पर IPS Officer की बड़ी चेतावनी

Gen Z में ट्रेंडिंग: फ्री AI Apps और ChatGPT Alternatives की होड़

Oppo F31 Launch: फीचर Packed स्मार्टफोन ने सबका ध्यान खींचा

Nvidia AI Tools ने तोड़ा सब रिकॉर्ड — Tech World में तहलका!

Free Fire MAX Redeem Codes 27 August 2025: फ्री में पाएं डायमंड्स, आज के रिवार्ड्स और नया अपडेट

TikTok Come Back in India? अचानक वेबसाइट खुली, सरकार और कंपनी ने दिया बड़ा बयान!

R1 का ट्रेनिंग प्रोसेस पाँच अलग-अलग stages में हुआ, जिसमें supervised fine-tuning और reinforcement learning बारी-बारी से शामिल थे। सबसे पहले DeepSeek V3-Base मॉडल को हजारों cold-start data points से fine-tune किया गया। उसके बाद pure reinforcement learning लागू हुई, जिससे reasoning efficiency और creativity बढ़ी। पूरा सिस्टम model-generated synthetic data का use करता है–मतलब कि खुद के successful example चुनकर उनके साथ supervised data मिलाया जाता है। इससे AI writing, question-answering और factual tasks में भी मास्टर हो गई।

Peer Review में पास होकर बनी मिसाल

R1 का ट्रेनिंग प्रोसेस पाँच अलग-अलग stages में हुआ, जिसमें supervised fine-tuning और reinforcement learning बारी-बारी से शामिल थे। सबसे पहले DeepSeek V3-Base मॉडल को हजारों cold-start data points से fine-tune किया गया। उसके बाद pure reinforcement learning लागू हुई, जिससे reasoning efficiency और creativity बढ़ी। पूरा सिस्टम model-generated synthetic data का use करता है–मतलब कि खुद के successful example चुनकर उनके साथ supervised data मिलाया जाता है। इससे AI writing, question-answering और factual tasks में भी मास्टर हो गई।

Performance और सबको खुला Access

जनवरी 2025 के बाद से DeepSeek R1 का Hugging Face पर 10.9 मिलियन से ज्यादा बार download हुआ है–यानि ये दुनिया की सबसे ज्यादा इस्तेमाल की जाने वाली reasoning मॉडल है। American Mathematics Competition में DeepSeek R1 ने pass@1 score में 79.8% हासिल किया, जो OpenAI o1 से थोड़ा बेहतर है। Coding, knowledge और creative writing में भी ये मॉडल expert मान रहा है। मज़े की बात यह है कि DeepSeek R1 को चलाने का खर्च OpenAI o1 की तुलना में 15-50% तक कम है–जिससे छोटे स्टार्टअप्स और researchers के लिए advanced AI अब हकीकत बन गया है।

भविष्य की नई दिशा

DeepSeek R1 ने यह साबित किया है कि AI बिना ज़्यादा पैसे, बड़े compute resources या H100 जैसे चिप्स के भी बनाया जा सकता है। अमेरिका की export policy के बाद DeepSeek ने आम H800 chips से ही ये चमत्कारी मॉडल बना दिया। इसकी सफलता से आने वाले समय में और affordable, sustainable और ethical AI सिस्टम बनने की उम्मीद है।

डिस्क्लेमर: यह जानकारी शोधपत्र और सार्वजनिक वेब स्रोतों पर आधारित है। विज्ञान और तकनीकी अपडेट समय के साथ बदल सकते हैं। किसी भी व्यावसायिक निर्णय या शोध के लिए official स्रोतों की पुष्टि जरूर करें।

इन्हे भी पढ़ें:-

POLL ✦
0 VOTES

DeepSeek R1 के Pure Reinforcement Learning आधारित मॉडल के बारे में आपकी क्या राय है?


ABOUT THE AUTHOR

Saurabh Thakur
Saurabh Thakur

Saurabh Thakur is the Founder and CEO of SamastipurNews.in, a prominent news website known for delivering reliable and comprehensive coverage of Samastipur and regional news. With over a decade of experience in the media industry, Saurabh has established himself as a seasoned journalist and dedicated news editor. ...और पढ़ें


Samastipur News को गूगल पर अपने पसंदीदा समाचार स्रोत के रूप में जोड़ने के लिए यहां क्लिक करें।


Tags :

First Published : सितम्बर 18, 2025, 06:21 पूर्वाह्न IST

टेक्नोलॉजी / DeepSeek R1: जानिए वो AI मॉडल जो OpenAI से भी बेहतर साबित हुआ!