انویدیا منتشر کرد: نسخه‌ای از مدل لاما 3.1 که کوچک‌تر و قوی‌تر از DeepSeek R1 است

انویدیا منتشر کرد: نسخه‌ای از مدل لاما 3.1 که کوچک‌تر و قوی‌تر از DeepSeek R1 است علمی

بزرگنمايي:

پیام سپاهان - دیجیاتو / این مدل جدید باوجود اندازه کوچک‌تر عملکردی بهتر از DeepSeek R1 دارد.
متا همچنان درگیر پاسخ به پرسش‌ها و انتقادات درباره خانواده مدل‌های جدید Llama 4 است اما شرکت انویدیا با معرفی مدل زبان بزرگ (LLM) متن‌باز و قدرتمند، توجه‌ها را به خود جلب کرده است. این مدل که Llama-3.1 Nemotron Ultra نام دارد، بر پایه نسخه قبلی مدل‌های Llama-3.1-405B-Instruct متا توسعه یافته و به گفته انویدیا، عملکردی نزدیک به برترین مدل‌های موجود دارد.
مدل Llama-3.1-Nemotron-Ultra-253B-v1 با 253 میلیارد پارامتر برای وظایفی مانند استدلال پیشرفته، پیروی از دستورات و ایفای نقش دستیار هوش مصنوعی طراحی شده است.
این مدل نخستین‌ بار مارس در کنفرانس سالانه GTC انویدیا معرفی شده بود و اکنون کامل و متن‌باز در پلتفرم Hugging Face در دسترس قرار گرفته است. کد مدل، وزن‌ها و داده‌های پس از آموزش آن نیز عمومی منتشر شده‌اند.

پیام سپاهان

بازار

مدل جدید انویدیا با استفاده از فرایند جستجوی معماری عصبی (NAS) توسعه یافته که در آن نوآوری‌هایی مانند حذف لایه‌های توجه، شبکه‌های Fused feedforward و فشرده‌سازی متغیر در ساختار مدل اعمال شده‌اند. این معماری به گونه‌ای طراحی شده که مدل با کاهش مصرف حافظه و منابع محاسباتی، همچنان کیفیت خروجی بالایی ارائه دهد و بتوان آن را فقط با 8 کارت گرافیک H100 اجرا کرد.
علاوه‌بر H100، این مدل با معماری‌های پیشرفته‌تر انویدیا مانند B100 و Hopper نیز سازگار بوده و در حالت‌های دقت BF16 و FP8 عملکرد مطلوبی دارد.
انویدیا برای ارتقای توانایی‌های مدل از فرایند پس‌آموزش چندمرحله‌ای بهره برده که شامل آموزش نظارت‌شده در حوزه‌هایی مانند ریاضی، تولید کد، چت و استفاده از ابزارها بوده است. همچنین برای بهبود عملکرد در دنبال‌کردن دستورات و توانایی استدلال، از الگوریتم GRPO (بهینه‌سازی نسبی سیاست گروهی) استفاده شده است.
عملکرد مدل جدید انویدیا در برابر رقبا

مدل جدید انویدیا در آزمون‌های معتبر مختلف عملکرد خیره‌کننده‌ای داسته است. برای مثال، در آزمون MATH500، عملکرد مدل از 80.40 درصد در حالت عادی به 97 درصد در حالت استدلال افزایش یافته است. همچنین در آزمون AIME25، امتیاز آن از 16.67 درصد به 72.50 درصد و در LiveCodeBench از 29.03 درصد به 66.31 درصد رسیده است.
این مدل در پاسخ به پرسش‌های عمومی (GPQA) در حالت استدلال فعال به امتیاز 76.01 درصد دست یافته که از DeepSeek R1 (با امتیاز 71.5 درصد) پیشی گرفته است. همچنین در آزمون IFEval برای پیروی از دستورات، امتیاز 89.45 درصد در برابر 83.3 درصد رقیب ثبت شده و در LiveCodeBench نیز اندکی بهتر عمل کرده است.
البته باید توجه کرد که مدل DeepSeek R1 در برخی آزمون‌های ریاضی سنگین همچنان بهتر عمل می‌کند، ازجمله در AIME25 با امتیاز 79.8 درصد برابر 72.50 درصد مدل انویدیا.
این مدل از زبان‌های متعددی ازجمله انگلیسی، آلمانی، فرانسوی، ایتالیایی، پرتغالی، هندی، اسپانیایی و تایلندی پشتیبانی می‌کند و برای کاربردهایی مانند چت‌بات، ساخت عامل‌های هوش مصنوعی، تولید کد و تولید با روش بازیابی-افزوده (RAG) قابل‌استفاده است.

چهارشنبه ۲۰ فروردين ۱۴۰۴ - ۲۰:۳۷:۵۹
۷۴ بازديد
پیام سپاهان

https://www.payamesepahan.ir/Fa/News/954565/

عکس/ کشف عجیب مدافع پرسپولیس در اصفهان

برنامه‌ریزی جامع برای تقویت همدلی و مشارکت در استان اصفهان

اجرای 3 پروژه شاخص در میدان میوه‌تره‌بار اصفهان با 300 میلیاردتومان اعتبار

4پروژه توسعه‌ای در بخش مهردشت نجف آباد اجرایی می‌شود

آخرين مطالب

انویدیا منتشر کرد: نسخه‌ای از مدل لاما 3.1 که کوچک‌تر و قوی‌تر از DeepSeek R1 است علمی

نظرات شما

ساير مطالب

پدر شهیدان «ماشاالله و محسن عرب زاده مرقی» به فرزندان شهیدش پیوست

4 کشته و زخمی درپی تصادف زنجیره‌ای در کاشان

هوای اصفهان قابل قبول است

بخشی از کتاب/ جدا شدن از تلخی زندگی

مشخصات کامل، قیمت و تاریخ عرضه ردمی توربو 4 پرو لو رفت

چین سریع‌ترین حافظه جهان را معرفی کرد؛ انجام 25 میلیارد عملیات در ثانیه

کدام نهاد متولی مصوبه ایجاد دسترسی به سکوهای خارجی است؟

سرمقاله اعتماد/ برای دانشگاه

هشدار متفکر آمریکایی: ایران را به جنگ نکشانید!

دیپلماسی در سایه بی‌اعتمادی

سرمقاله ایران/ سفر شاهزاده خالد بن سلمان زمینه‌ساز نظم نوین منطقه‌ای

تأیید اصالت شهاب‌سنگ کشف شده توسط دانشگاه صنعتی اصفهان

فرونشست زمین در اصفهان؛ تهدیدی جدی برای 2.8 میلیون انسان

شناسایی 45 هزار پلاک تاریخی در اصفهان

وزیر راه و شهرسازی: عدالت در توزیع منابع اولویت ماست

آیا کمبود گازوئیل در کاشان واقعیت دارد؟

دومین جشنواره تدریس برتر در دبیرستان حکمت بهارستان‌2

تصادف زنجیره ای مرگبار در کاشان

نشست خبری روز ارتش جمهوری اسلامی ایران در اصفهان

سایه پرسپولیس از سر تراکتور کم شد؛ استقلال و چهار تیم دیگر گزینه سقوط!

برنامه سینماهای اصفهان، امروز شنبه 30 فروردین + ساعت‌ اکران دایناسور

دانش و اعتماد به نفس گروه فولاد مبارکه به نوآوری، تحول و یادگیری عمومی منجر می‌شود

تصادف پراید، تیبا و تریلر جان 2 نفر را گرفت

جدول و لینک برنامه قطعی برق شرستان‌ها

دیوار حفاظتی فرودگاه اصفهان احداث می‌شود

برگزاری ویژه‌برنامه‌های متفاوت در منطقه 14 اصفهان ویژه دهه کرامت

حکمرانی ایالتی؛ از مشهد تا اصفهان/ اجرای چراغ خاموش قانون حجاب و عفاف در اصفهان

درس‌های زندگی از منظر امام رضا(ع)

جمینای 2.5 فلش معرفی شد؛ اولین هوش مصنوعی هیبریدی گوگل

سرمقاله آرمان ملی/ انگیزه شرقی‌ها از مذاکرات

گروسی دنبال پُست است، اروپا دنبال «نقش»

شایعات سرمایه‌گذاری هزار میلیارد دلاری آمریکایی ها در ایران؛ حقیقت یا خیال؟

تاریخ جمهوری اسلامی ایران سرشار از رشادت‌های شهدای عالی‌قدر است

تصادف سواری با تریلر فاجعه آفرید+ تعداد کشته‌ها

حمایت ویژه شهرداری اصفهان از پروژه‌های آموزش و پرورش؛ اجرای کار مشترک در حوزه مناسب‌سازی مدارس

پروژه‌ های زیرساختی خور و بیابانک اولویت‌ بندی می‌ شود

دومین جلسه همیاران مشاور مدارس متوسطه اول دخترانه آموزش و پرورش ناحیه 3 اصفهان

اتصال 29 روستای استان اصفهان به شبکه ملی اطلاعات

تصادف زنجیره‌ای زیرگذر کاشان 2 فوتی و 2 مصدوم داشت

برگزاری اردو درون مدرسه‌ای در بهارستان 2

من خود بلای خویشم، از خود کجا گریزم؟

تغییر طراحی منو تنظیمات اندروید؛ رنگی‌تر و جذاب‌تر از قبل

سرمقاله جام جم/ ارتش در خدمت ملت و امنیت

سرمقاله هم میهن/ سیاستِ پویا

دیپلماسی چندجانبه، پیام معنادار ایران به واشنگتن

امام جمعه کیش: ارتش و سپاه در امنیت کشور نقشی بی‌بدیل دارند

معلم آران و بیدگلی که حیاط مدرسه را به دنیایی از رنگ و زندگی تبدیل کرد

نخستین گام تحول ساختاری ارتباط شهرداری اصفهان با شرکت‌های وابسته برداشته شد

اجرای پویش “معلم فداکار” در استان اصفهان

ترجمه «زیر گنبد» استیون کینگ منتشر شد

تبليغات