مدلهای جدید OpenAI با نام GPT-4.1/ تحول در برنامهنویسی هوش مصنوعی

OpenAI مدلهای جدید GPT-4.1 را معرفی کرد که به گفته این شرکت، در زمینه کدنویسی و پیروی از دستورالعملها برتری دارند.
OpenAI روز دوشنبه از خانواده جدیدی از مدلها با نام GPT-4.1 رونمایی کرد. این خانواده شامل GPT-4.1، GPT-4.1 mini و GPT-4.1 nano است که به گفته OpenAI، در کدنویسی و پیروی از دستورالعملها «برتر» عمل میکنند. این مدلها از طریق API OpenAI در دسترس هستند اما به صورت مستقیم در ChatGPT موجود نیستند. این مدلهای چندوجهی دارای یک پنجره متنی یک میلیون توکنی هستند، به این معنا که قادرند تقریباً 750,000 کلمه را در یک بار پردازش کنند.
رقابت با غولهای فناوری
مدل GPT-4.1 در شرایطی معرفی میشود که رقبای OpenAI مانند گوگل و Anthropic در تلاشند تا مدلهای برنامهنویسی پیچیدهتری بسازند. مدل Gemini 2.5 Pro که به تازگی توسط گوگل منتشر شده و آن نیز دارای یک پنجره متنی یک میلیون توکنی است، در بنچمارکهای کدنویسی محبوب به رتبههای بالایی دست یافته است. همچنین مدل Claude 3.7 Sonnet از Anthropic و مدل ارتقاء یافته V3 از استارتاپ چینی DeepSeek نیز در این زمینه موفق بودهاند.
هدفگذاریهای بلندپروازانه OpenAI
هدف بسیاری از غولهای فناوری، از جمله OpenAI، آموزش مدلهای هوش مصنوعی برای انجام وظایف پیچیده مهندسی نرمافزار است. آرزوی بزرگ OpenAI ایجاد یک «مهندس نرمافزار عامل» است، همانطور که سارا فریار، CFO این شرکت، در یک اجلاس فناوری در لندن ماه گذشته بیان کرد. این شرکت ادعا میکند که مدلهای آیندهاش قادر خواهند بود برنامههای کامل را از ابتدا تا انتها برنامهریزی کنند و جنبههایی مانند تضمین کیفیت، آزمایش اشکالات و نوشتن مستندات را مدیریت کنند.
بهینهسازی برای استفاده در دنیای واقعی
OpenAI اعلام کرد که GPT-4.1 را برای استفاده در دنیای واقعی بهینهسازی کرده است و بر اساس بازخوردهای مستقیم، در زمینههایی که توسعهدهندگان بیشتر به آن اهمیت میدهند، بهبودهایی را اعمال کرده است. به گفته یک سخنگوی OpenAI، این بهبودها به توسعهدهندگان کمک میکند تا عوامل بهتری برای انجام وظایف مهندسی نرمافزار در دنیای واقعی بسازند.
مقایسه با مدلهای قبلی
OpenAI ادعا میکند که مدل کامل GPT-4.1 از مدلهای GPT-4o و GPT-4o mini در بنچمارکهای کدنویسی، از جمله SWE-bench، بهتر عمل میکند. همچنین، GPT-4.1 mini و nano گفته میشود که کارآمدتر و سریعتر هستند، هرچند که در دقت کمی افت دارند. OpenAI بیان کرده است که GPT-4.1 nano سریعترین و ارزانترین مدل این شرکت تا به امروز است.
هزینه و کارایی
مدلهای GPT-4.1 هزینهای برابر با 2 دلار به ازای هر میلیون توکن ورودی و 8 دلار به ازای هر میلیون توکن خروجی دارند. قیمتهای GPT-4.1 mini برابر با 0.40 دلار برای هر میلیون توکن ورودی و 1.60 دلار برای هر میلیون توکن خروجی است، در حالی که GPT-4.1 nano به ترتیب 0.10 و 0.40 دلار هزینه دارد.
نتایج آزمونها
براساس آزمایشهای داخلی OpenAI، مدل GPT-4.1 که میتواند بیش از توکنهای GPT-4o تولید کند، در آزمون SWE-bench Verified، که زیرمجموعهای انسانی از SWE-bench است، امتیازی بین 52 تا 54.6 درصد کسب کرده است. این اعداد کمی پایینتر از امتیازهای گزارششده توسط گوگل و Anthropic برای مدلهای Gemini 2.5 Pro و Claude 3.7 Sonnet هستند.
چالشهای موجود
در ارزیابی جداگانهای، OpenAI مدل GPT-4.1 را با استفاده از Video-MME آزمایش کرده است که به منظور اندازهگیری توانایی مدل در «درک» محتوا در ویدیوها طراحی شده است. OpenAI ادعا میکند که GPT-4.1 در دسته ویدیوهای «طولانی، بدون زیرنویس» به دقت 72 درصد دست یافته است. با این حال، مهم است که به یاد داشته باشیم حتی برخی از بهترین مدلها امروز نیز در انجام وظایفی که کارشناسان را به چالش نمیکشد، با مشکل مواجه میشوند.
OpenAI همچنین به این نکته اذعان دارد که دقت GPT-4.1 با افزایش توکنهای ورودی کاهش مییابد. در یکی از آزمایشهای این شرکت، دقت مدل از حدود 84 درصد با 8,000 توکن به 50 درصد با یک میلیون توکن کاهش یافته است. این مدل همچنین تمایل دارد که بیشتر «تحتاللفظی» باشد، به طوری که گاهی اوقات نیاز به درخواستهای خاص و صریحتری دارد.
با این تحولات، به نظر میرسد که OpenAI گامهای بلندی در جهت بهبود قابلیتهای هوش مصنوعی و برنامهنویسی برداشته است.