27 اسفند 1403 مطالعه 10 دقیقه

ابزارهای جدید که ساخت Agent را بسیار آسان میکنند

دسته بندی ها:

آنچه خواهید خواند

ابزارهای جدید برای ساخت Agent
Responses API چیست؟
معرفی ابزارهای داخلی جدید در Responses API
ایجنت SDK
کلام آخر

ابزارهای جدید برای ساخت Agent

ساخت Agent که سیستم‌هایی هستند که به‌ طور مستقل وظایفی را انجام میدهند، در عصر هوش مصنوعی رایج شده است. طی سال گذشته، قابلیت‌های جدیدی مثل استدلال پیشرفته، تعاملات چندوجهی (مولتی‌مدال) و تکنیک‌های جدید ایمنی معرفی شدند که پایه‌ای برای مدل‌ها فراهم کرده تا بتوانند وظایف پیچیده و چندمرحله‌ای را انجام دهند.

اسپیکر هارمن کاردن مدل Go + Play 3

مشاهده و خرید

با این حال، مشتریان اعلام کرده‌اند که تبدیل این قابلیت‌ها به ایجنت‌های آماده برای تولید اغلب دشوار است و به تکرار گسترده پرامپت و منطق هماهنگ‌سازی سفارشی نیاز دارد، درحالی که ابزارهای کافی و پشتیبانی داخلی نیز موجود نیست. برای حل این چالش‌ها، مجموعه‌ای جدید از APIها و ابزارها را معرفی میکنیم که به‌ طور خاص برای ساده‌سازی توسعه برنامه‌های کاربردی مبتنی بر ایجنت طراحی شده‌اند.

Responses API چیست؟

Responses API یک رابط برنامه‌نویسی (API) جدید است که به توسعه‌دهندگان اجازه میدهد از ابزارهای داخلی OpenAI برای ساختن ایجنت‌ها بهره‌مند شوند. این API، سادگی API تکمیل گفتگو را با قابلیت استفاده از ابزارهای موجود در API دستیاران ترکیب میکند.

با تکامل قابلیت‌های مدل‌ها، Responses API یک زیربنای منعطف‌تر برای توسعه‌دهندگان فراهم میکند تا برنامه‌های مبتنی بر ایجنت بسازند. تنها با یک فراخوانی Responses API، توسعه‌دهندگان قادر خواهند بود وظایف پیچیده را با استفاده از چندین ابزار و چندین مرحله تعامل مدل، به راحتی حل کنند.

برای شروع، Responses API از ابزارهای داخلی جدیدی مانند جستجوی وب، جستجوی فایل و استفاده از کامپیوتر پشتیبانی خواهد کرد. این ابزارها طوری طراحی شده‌اند که با همکاری هم، مدل‌ها را به دنیای واقعی متصل کرده و آن‌ها را برای انجام وظایف کاربردی‌تر میکنند.

این API همچنین چندین بهبود در استفاده را به همراه دارد، از جمله طراحی یکپارچه و مبتنی بر آیتم‌ها، چندشکلی ساده‌تر، رویدادهای استریمینگ بصری، و ابزارهای کمکی SDK مانند response.outputtext برای دسترسی آسان به متن خروجی مدل.

Responses API برای توسعه‌دهندگانی طراحی شده که میخواهند به سادگی مدل‌های OpenAI و ابزارهای داخلی را در اپلیکیشن‌های خود ترکیب کنند، بدون اینکه نیازی به ادغام چندین API یا فروشندگان خارجی داشته باشند. این API همچنین ذخیره داده‌ها را در OpenAI آسان‌تر کرده تا توسعه‌دهندگان بتوانند عملکرد ایجنت‌ها را با ویژگی‌هایی مانند ردیابی و ارزیابی بهتر بررسی کنند.

معرفی ابزارهای داخلی جدید در Responses API

جستجوی وب

توسعه‌دهندگان اکنون میتوانند پاسخ‌های سریع و به‌روز با منابع واضح و مرتبط از وب دریافت کنند. در Responses API، جستجوی وب به عنوان یک ابزار هنگام استفاده از مدل‌های gpt-4o و gpt-4o-mini در دسترس است و میتواند همراه با ابزارهای دیگر یا فراخوانی توابع استفاده شود.

در تست‌های اولیه مشاهده شد که توسعه‌دهندگان از جستجوی وب برای کاربردهای مختلفی مانند دستیار خرید، ایجنت تحقیقاتی و ایجنت‌های رزرو سفر استفاده کرده‌اند، هر برنامه‌ای که نیازمند اطلاعات به‌روز از وب باشد.

به عنوان مثال، شرکت Hebbia از ابزار جستجوی وب برای کمک به مدیران دارایی، شرکت‌های سرمایه‌گذاری خصوصی و مؤسسات حقوقی استفاده میکند تا به سرعت اطلاعات قابل اجرا از مجموعه داده‌های بزرگ عمومی و خصوصی استخراج کنند. با ادغام قابلیت جستجوی لحظه‌ای در جریان کار تحقیقاتی خود، Hebbia اطلاعات دقیق‌تر و مرتبط‌تری ارائه میدهد و دقت و ارتباط تحلیل‌های خود را بهبود میبخشد و عملکرد بهتری نسبت به استانداردهای فعلی دارد.

ابزار جستجوی وب در API توسط همان مدلی پشتیبانی میشود که در جستجوی ChatGPT استفاده میگردد. در آزمون SimpleQA که دقت مدل‌های زبانی بزرگ (LLMs) را در پاسخ به سؤالات کوتاه و مبتنی بر واقعیت ارزیابی میکند، مدل‌های GPT‑4o search preview و GPT‑4o mini search preview به ترتیب امتیاز 90٪ و 88٪ را کسب کرده‌اند.

پاسخ‌هایی که با جستجوی وب در API تولید میشوند شامل لینک به منابع مانند مقالات خبری و پست‌های وبلاگی هستند و به افراد امکان مطالعه و بررسی بیشتر را میدهند. با استفاده از این منابع واضح و درون‌خطی، آنها میتوانند به شیوه جدیدی با اطلاعات تعامل کنند و صاحبان محتوا نیز فرصت‌های تازه‌ای برای دسترسی به مخاطبان گسترده‌تر پیدا میکنند. هر وبسایت یا ناشر میتواند انتخاب کند که در نتایج جستجوی وب API ظاهر شود.

ابزار جستجوی وب در حال حاضر در Responses API برای تمامی توسعه‌دهندگان به صورت پیش‌نمایش در دسترس است. همچنین دسترسی مستقیم به مدل‌های جستجوی دقیق‌ شده در API تکمیل گفتگو (Chat Completions API) از طریق gpt-4o-search-preview و gpt-4o-mini-search-preview نیز فراهم است. قیمت‌گذاری این سرویس از 30 دلار برای GPT‑4o و 25 دلار برای GPT‑4o-mini به ازای هر هزار درخواست آغاز میشود.

جستجوی فایل

توسعه‌دهندگان اکنون میتوانند به راحتی اطلاعات مرتبط را از حجم بالایی از اسناد با استفاده از ابزار بهبودیافته جستجوی فایل دریافت کنند. این ابزار از انواع فایل‌ها، بهینه‌سازی جستار، فیلتر کردن متادیتا و رتبه‌بندی سفارشی پشتیبانی میکند و قادر به ارائه نتایج سریع و دقیق است. علاوه بر این، ادغام این ابزار با Responses API فقط به چند خط کد نیاز دارد.

ابزار جستجوی فایل برای طیف وسیعی از کاربردهای واقعی قابل استفاده است، از جمله:

دسترسی آسان مأموران پشتیبانی مشتری به پرسش‌های متداول (FAQ)
کمک به دستیاران حقوقی برای ارجاع سریع به پرونده‌های پیشین
کمک به ایجنت‌های برنامه‌نویسی برای جستجو در مستندات فنی

برای مثال، شرکت Navan از جستجوی فایل در ایجنت سفر هوشمند خود برای ارائه سریع پاسخ‌های دقیق از مقالات پایگاه دانش (مانند سیاست سفر شرکت‌ها) استفاده میکند. با بهینه‌سازی و رتبه‌بندی داخلی جستجو، Navan قادر است بدون نیاز به تنظیمات اضافه یک خط لوله قوی RAG (تولید تقویت‌شده با بازیابی) ایجاد کند.

با ذخیره‌سازی برداری (vector store) مجزا برای هر گروه کاربری، این شرکت میتواند پاسخ‌های شخصی‌سازی شده و متناسب با تنظیمات حساب و نقش افراد ارائه کند، که موجب صرفه‌جویی در زمان مشتریان و کارکنان و ارائه پشتیبانی دقیق‌تر میشود.

این ابزار در Responses API برای تمام توسعه‌دهندگان در دسترس است. هزینه استفاده از آن 2.50 دلار برای هر هزار جستجو و هزینه ذخیره فایل نیز 0.10 دلار برای هر گیگابایت در روز محاسبه میشود، که اولین گیگابایت رایگان است.

این ابزار همچنان در Assistants API نیز قابل دسترسی است. همچنین یک نقطه پایانی جدید جستجو برای اشیاء API ذخیره‌سازی برداری (Vector Store API) اضافه شده است که به توسعه‌دهندگان اجازه میدهد مستقیماً داده‌های خود را برای استفاده در سایر برنامه‌ها و APIها جستجو کنند.

استفاده از کامپیوتر

توسعه‌دهندگان اکنون میتوانند برای ساخت Agent که قادر به انجام وظایف بر روی کامپیوتر هستند، از ابزار استفاده از کامپیوتر (Computer Use) در Responses API استفاده کنند. این ابزار از همان مدل ایجنت استفاده‌کننده از کامپیوتر (CUA) که در Operator به کار رفته، قدرت میگیرد. این مدل آزمایشی رکورد جدیدی در عملکرد ثبت کرده و به ترتیب موفقیت 38.1 درصد در OSWorld برای وظایف کامل کامپیوتری، 58.1 درصد در WebArena و 87 درصد در WebVoyager برای تعاملات مبتنی بر وب به دست آورده است.

ابزار داخلی استفاده از کامپیوتر، اقدامات ماوس و کیبورد تولیدشده توسط مدل را ضبط میکند و به توسعه‌دهندگان این امکان را میدهد تا وظایف کامپیوتری را با ترجمه مستقیم این اقدامات به دستورات قابل اجرا در محیط خود، به صورت خودکار انجام دهند.

توسعه‌دهندگان میتوانند از ابزار استفاده از کامپیوتر برای خودکارسازی جریان‌های کاری مبتنی بر مرورگر مانند انجام تست‌های کیفی روی اپلیکیشن‌های وب یا وظایف ورود داده در سیستم‌های قدیمی استفاده کنند.

به عنوان مثال، سیستم Unify از ایجنت‌ها برای تشخیص قصد مشتری، بررسی حساب‌ها و تعامل با خریداران استفاده میکند. با استفاده از ابزار کامپیوتری OpenAI، ایجنت‌های Unify میتوانند به اطلاعاتی دسترسی یابند که قبلاً از طریق API قابل دسترس نبود، مانند توانایی یک شرکت مدیریت املاک در بررسی آنلاین و تأیید این موضوع که آیا یک کسب‌وکار ملک خود را توسعه داده است یا خیر.

به عنوان مثالی دیگر، شرکت Luminai ابزار استفاده از کامپیوتر را برای خودکارسازی جریان‌های کاری عملیاتی پیچیده در سازمان‌های بزرگ با سیستم‌های قدیمی و بدون دسترسی به API و داده استاندارد ادغام کرده است. در یک پروژه آزمایشی اخیر با یک سازمان بزرگ خدمات اجتماعی، Luminai موفق شد تنها در چند روز فرآیند پردازش درخواست‌ها و ثبت‌نام کاربران را خودکارسازی کند، کاری که اتوماسیون سنتی رباتیک (RPA) پس از ماه‌ها تلاش قادر به انجام آن نبود.

ایجنت SDK

علاوه بر ساختن منطق اصلی ایجنت‌ها و دسترسی آن‌ها به ابزارهای کاربردی، توسعه‌دهندگان به یک ابزار برای هماهنگ کردن گردش کار ایجنت‌ها نیاز دارند. ایجنت SDK متن‌باز جدید برای ایجنت‌ها، هماهنگ‌سازی گردش کار چندایجنتی را ساده‌تر کرده و نسبت به نسخه آزمایشی قبلی (Swarm) که سال گذشته منتشر شد و در میان توسعه‌دهندگان محبوبیت بالایی پیدا کرد، پیشرفت چشمگیری داشته است.

از جمله بهبودهای جدید میتوان به موارد زیر اشاره کرد:

ایجنت‌ها: مدل‌های زبانی بزرگ با تنظیم آسان و دسترسی به ابزارهای داخلی
انتقال هوشمند وظایف: انتقال خودکار و هوشمند کنترل وظایف بین ایجنت‌ها
محدودیت‌ها: بررسی‌های قابل تنظیم ایمنی برای اعتبارسنجی ورودی و خروجی
ردیابی و نظارت: قابلیت مشاهده و بررسی مراحل اجرای ایجنت‌ها برای رفع خطاها و بهینه‌سازی عملکرد

کیت توسعه ایجنت‌ها برای کاربردهای متنوعی مانند اتوماسیون پشتیبانی مشتری، تحقیقات چندمرحله‌ای، تولید محتوا، بازبینی کد و بازاریابی و فروش کاربرد دارد. به‌ عنوان مثال، شرکت Coinbase از این کیت برای نمونه‌سازی سریع و توسعه «AgentKit» استفاده کرد که به ایجنت‌ها اجازه میدهد به‌ طور یکپارچه با کیف پول‌های رمزنگاری‌شده و فعالیت‌های بلاکچین تعامل داشته باشند.

در عرض چند ساعت، Coinbase توانست اقدامات سفارشی را از Developer Platform SDK خود به یک ایجنت کاملاً کاربردی تبدیل کند. ساختار ساده و قابل درک AgentKit به توسعه‌دهندگان اجازه داد تا بیشتر بر روی یکپارچه‌سازی‌های معنادار تمرکز کنند و زمان کمتری صرف راه‌اندازی پیچیده ایجنت‌ها کنند.

شرکت Bx نیز تنها در چند روز توانست ایجنت‌هایی ایجاد کند که با استفاده از جستجوی وب و کیت توسعه ایجنت‌ها، به شرکت‌ها کمک میکنند داده‌های ساختارنایافته ذخیره‌ شده در Box و منابع اینترنتی عمومی را جستجو و تحلیل کنند.

این رویکرد به مشتریان اجازه میدهد نه تنها به جدیدترین اطلاعات دسترسی داشته باشند، بلکه داده‌های داخلی و محرمانه خود را نیز به روشی امن و مطابق با سیاست‌ها و مجوزهای داخلی بررسی کنند. برای مثال، یک شرکت خدمات مالی میتواند ایجنت سفارشی ایجاد کند که اطلاعات تحلیل بازار ذخیره‌شده در Box را با اخبار و داده‌های اقتصادی لحظه‌ای ادغام کرده و دیدگاه جامعی را برای تصمیم‌گیری‌های سرمایه‌گذاری در اختیار تحلیلگران خود قرار دهد.

کیت توسعه ایجنت‌ هم با Responses API و هم با Chat Completions API سازگار است. همچنین این SDK با مدل‌های سایر ارائه‌دهندگان نیز که رابط API مشابه Chat Completions دارند، سازگاری دارد.

کلام آخر

با معرفی ابزارها و APIهای جدید مانند Responses API و SDK، مسیر ساخت Agent و استفاده از ایجنت‌های هوشمند به‌ طور قابل‌توجهی ساده‌تر و سریع‌تر شده است. اکنون توسعه‌دهندگان میتوانند بدون پیچیدگی زیاد و با استفاده از ابزارهای داخلی نظیر جستجوی وب، جستجوی فایل و استفاده از کامپیوتر، ایجنت‌هایی کارآمد و متناسب با نیازهای واقعی کسب‌وکارها ایجاد کنند و در زمان کوتاه‌تری به نتایج مطلوب برسند.

اسپیکر هارمن کاردن مدل SoundSticks 4

44,490,000 تومان مشاهده و خرید

این پیشرفت‌ها زمینه‌ساز تحولی اساسی در کاربردهای هوش مصنوعی در صنایع مختلف خواهد شد. استفاده از این ابزارهای پیشرفته و یکپارچه‌سازی آسان‌تر ساخت Agent، نه‌ تنها هزینه‌ها و پیچیدگی‌های توسعه را کاهش میدهد، بلکه فرصت‌های جدیدی را برای نوآوری در تعاملات دیجیتال و افزایش بهره‌وری فراهم میکند. انتظار میرود با ادامه توسعه این ابزارها، ایجنت‌ها به بخشی جدایی‌ناپذیر از دنیای کسب‌وکار و فناوری آینده تبدیل شوند.