آنچه خواهید خواند
ابزارهای جدید برای ساخت Agent
ساخت Agent که سیستمهایی هستند که به طور مستقل وظایفی را انجام میدهند، در عصر هوش مصنوعی رایج شده است. طی سال گذشته، قابلیتهای جدیدی مثل استدلال پیشرفته، تعاملات چندوجهی (مولتیمدال) و تکنیکهای جدید ایمنی معرفی شدند که پایهای برای مدلها فراهم کرده تا بتوانند وظایف پیچیده و چندمرحلهای را انجام دهند.
با این حال، مشتریان اعلام کردهاند که تبدیل این قابلیتها به ایجنتهای آماده برای تولید اغلب دشوار است و به تکرار گسترده پرامپت و منطق هماهنگسازی سفارشی نیاز دارد، درحالی که ابزارهای کافی و پشتیبانی داخلی نیز موجود نیست. برای حل این چالشها، مجموعهای جدید از APIها و ابزارها را معرفی میکنیم که به طور خاص برای سادهسازی توسعه برنامههای کاربردی مبتنی بر ایجنت طراحی شدهاند.
Responses API چیست؟
Responses API یک رابط برنامهنویسی (API) جدید است که به توسعهدهندگان اجازه میدهد از ابزارهای داخلی OpenAI برای ساختن ایجنتها بهرهمند شوند. این API، سادگی API تکمیل گفتگو را با قابلیت استفاده از ابزارهای موجود در API دستیاران ترکیب میکند.
با تکامل قابلیتهای مدلها، Responses API یک زیربنای منعطفتر برای توسعهدهندگان فراهم میکند تا برنامههای مبتنی بر ایجنت بسازند. تنها با یک فراخوانی Responses API، توسعهدهندگان قادر خواهند بود وظایف پیچیده را با استفاده از چندین ابزار و چندین مرحله تعامل مدل، به راحتی حل کنند.
برای شروع، Responses API از ابزارهای داخلی جدیدی مانند جستجوی وب، جستجوی فایل و استفاده از کامپیوتر پشتیبانی خواهد کرد. این ابزارها طوری طراحی شدهاند که با همکاری هم، مدلها را به دنیای واقعی متصل کرده و آنها را برای انجام وظایف کاربردیتر میکنند.
این API همچنین چندین بهبود در استفاده را به همراه دارد، از جمله طراحی یکپارچه و مبتنی بر آیتمها، چندشکلی سادهتر، رویدادهای استریمینگ بصری، و ابزارهای کمکی SDK مانند response.outputtext برای دسترسی آسان به متن خروجی مدل.
Responses API برای توسعهدهندگانی طراحی شده که میخواهند به سادگی مدلهای OpenAI و ابزارهای داخلی را در اپلیکیشنهای خود ترکیب کنند، بدون اینکه نیازی به ادغام چندین API یا فروشندگان خارجی داشته باشند. این API همچنین ذخیره دادهها را در OpenAI آسانتر کرده تا توسعهدهندگان بتوانند عملکرد ایجنتها را با ویژگیهایی مانند ردیابی و ارزیابی بهتر بررسی کنند.
معرفی ابزارهای داخلی جدید در Responses API
جستجوی وب
توسعهدهندگان اکنون میتوانند پاسخهای سریع و بهروز با منابع واضح و مرتبط از وب دریافت کنند. در Responses API، جستجوی وب به عنوان یک ابزار هنگام استفاده از مدلهای gpt-4o و gpt-4o-mini در دسترس است و میتواند همراه با ابزارهای دیگر یا فراخوانی توابع استفاده شود.
در تستهای اولیه مشاهده شد که توسعهدهندگان از جستجوی وب برای کاربردهای مختلفی مانند دستیار خرید، ایجنت تحقیقاتی و ایجنتهای رزرو سفر استفاده کردهاند، هر برنامهای که نیازمند اطلاعات بهروز از وب باشد.
به عنوان مثال، شرکت Hebbia از ابزار جستجوی وب برای کمک به مدیران دارایی، شرکتهای سرمایهگذاری خصوصی و مؤسسات حقوقی استفاده میکند تا به سرعت اطلاعات قابل اجرا از مجموعه دادههای بزرگ عمومی و خصوصی استخراج کنند. با ادغام قابلیت جستجوی لحظهای در جریان کار تحقیقاتی خود، Hebbia اطلاعات دقیقتر و مرتبطتری ارائه میدهد و دقت و ارتباط تحلیلهای خود را بهبود میبخشد و عملکرد بهتری نسبت به استانداردهای فعلی دارد.
ابزار جستجوی وب در API توسط همان مدلی پشتیبانی میشود که در جستجوی ChatGPT استفاده میگردد. در آزمون SimpleQA که دقت مدلهای زبانی بزرگ (LLMs) را در پاسخ به سؤالات کوتاه و مبتنی بر واقعیت ارزیابی میکند، مدلهای GPT‑4o search preview و GPT‑4o mini search preview به ترتیب امتیاز 90٪ و 88٪ را کسب کردهاند.
پاسخهایی که با جستجوی وب در API تولید میشوند شامل لینک به منابع مانند مقالات خبری و پستهای وبلاگی هستند و به افراد امکان مطالعه و بررسی بیشتر را میدهند. با استفاده از این منابع واضح و درونخطی، آنها میتوانند به شیوه جدیدی با اطلاعات تعامل کنند و صاحبان محتوا نیز فرصتهای تازهای برای دسترسی به مخاطبان گستردهتر پیدا میکنند. هر وبسایت یا ناشر میتواند انتخاب کند که در نتایج جستجوی وب API ظاهر شود.
ابزار جستجوی وب در حال حاضر در Responses API برای تمامی توسعهدهندگان به صورت پیشنمایش در دسترس است. همچنین دسترسی مستقیم به مدلهای جستجوی دقیق شده در API تکمیل گفتگو (Chat Completions API) از طریق gpt-4o-search-preview و gpt-4o-mini-search-preview نیز فراهم است. قیمتگذاری این سرویس از 30 دلار برای GPT‑4o و 25 دلار برای GPT‑4o-mini به ازای هر هزار درخواست آغاز میشود.
جستجوی فایل
توسعهدهندگان اکنون میتوانند به راحتی اطلاعات مرتبط را از حجم بالایی از اسناد با استفاده از ابزار بهبودیافته جستجوی فایل دریافت کنند. این ابزار از انواع فایلها، بهینهسازی جستار، فیلتر کردن متادیتا و رتبهبندی سفارشی پشتیبانی میکند و قادر به ارائه نتایج سریع و دقیق است. علاوه بر این، ادغام این ابزار با Responses API فقط به چند خط کد نیاز دارد.
ابزار جستجوی فایل برای طیف وسیعی از کاربردهای واقعی قابل استفاده است، از جمله:
- دسترسی آسان مأموران پشتیبانی مشتری به پرسشهای متداول (FAQ)
- کمک به دستیاران حقوقی برای ارجاع سریع به پروندههای پیشین
- کمک به ایجنتهای برنامهنویسی برای جستجو در مستندات فنی
برای مثال، شرکت Navan از جستجوی فایل در ایجنت سفر هوشمند خود برای ارائه سریع پاسخهای دقیق از مقالات پایگاه دانش (مانند سیاست سفر شرکتها) استفاده میکند. با بهینهسازی و رتبهبندی داخلی جستجو، Navan قادر است بدون نیاز به تنظیمات اضافه یک خط لوله قوی RAG (تولید تقویتشده با بازیابی) ایجاد کند.
با ذخیرهسازی برداری (vector store) مجزا برای هر گروه کاربری، این شرکت میتواند پاسخهای شخصیسازی شده و متناسب با تنظیمات حساب و نقش افراد ارائه کند، که موجب صرفهجویی در زمان مشتریان و کارکنان و ارائه پشتیبانی دقیقتر میشود.
این ابزار در Responses API برای تمام توسعهدهندگان در دسترس است. هزینه استفاده از آن 2.50 دلار برای هر هزار جستجو و هزینه ذخیره فایل نیز 0.10 دلار برای هر گیگابایت در روز محاسبه میشود، که اولین گیگابایت رایگان است.
این ابزار همچنان در Assistants API نیز قابل دسترسی است. همچنین یک نقطه پایانی جدید جستجو برای اشیاء API ذخیرهسازی برداری (Vector Store API) اضافه شده است که به توسعهدهندگان اجازه میدهد مستقیماً دادههای خود را برای استفاده در سایر برنامهها و APIها جستجو کنند.
استفاده از کامپیوتر
توسعهدهندگان اکنون میتوانند برای ساخت Agent که قادر به انجام وظایف بر روی کامپیوتر هستند، از ابزار استفاده از کامپیوتر (Computer Use) در Responses API استفاده کنند. این ابزار از همان مدل ایجنت استفادهکننده از کامپیوتر (CUA) که در Operator به کار رفته، قدرت میگیرد. این مدل آزمایشی رکورد جدیدی در عملکرد ثبت کرده و به ترتیب موفقیت 38.1 درصد در OSWorld برای وظایف کامل کامپیوتری، 58.1 درصد در WebArena و 87 درصد در WebVoyager برای تعاملات مبتنی بر وب به دست آورده است.
ابزار داخلی استفاده از کامپیوتر، اقدامات ماوس و کیبورد تولیدشده توسط مدل را ضبط میکند و به توسعهدهندگان این امکان را میدهد تا وظایف کامپیوتری را با ترجمه مستقیم این اقدامات به دستورات قابل اجرا در محیط خود، به صورت خودکار انجام دهند.
توسعهدهندگان میتوانند از ابزار استفاده از کامپیوتر برای خودکارسازی جریانهای کاری مبتنی بر مرورگر مانند انجام تستهای کیفی روی اپلیکیشنهای وب یا وظایف ورود داده در سیستمهای قدیمی استفاده کنند.
به عنوان مثال، سیستم Unify از ایجنتها برای تشخیص قصد مشتری، بررسی حسابها و تعامل با خریداران استفاده میکند. با استفاده از ابزار کامپیوتری OpenAI، ایجنتهای Unify میتوانند به اطلاعاتی دسترسی یابند که قبلاً از طریق API قابل دسترس نبود، مانند توانایی یک شرکت مدیریت املاک در بررسی آنلاین و تأیید این موضوع که آیا یک کسبوکار ملک خود را توسعه داده است یا خیر.
به عنوان مثالی دیگر، شرکت Luminai ابزار استفاده از کامپیوتر را برای خودکارسازی جریانهای کاری عملیاتی پیچیده در سازمانهای بزرگ با سیستمهای قدیمی و بدون دسترسی به API و داده استاندارد ادغام کرده است. در یک پروژه آزمایشی اخیر با یک سازمان بزرگ خدمات اجتماعی، Luminai موفق شد تنها در چند روز فرآیند پردازش درخواستها و ثبتنام کاربران را خودکارسازی کند، کاری که اتوماسیون سنتی رباتیک (RPA) پس از ماهها تلاش قادر به انجام آن نبود.
ایجنت SDK
علاوه بر ساختن منطق اصلی ایجنتها و دسترسی آنها به ابزارهای کاربردی، توسعهدهندگان به یک ابزار برای هماهنگ کردن گردش کار ایجنتها نیاز دارند. ایجنت SDK متنباز جدید برای ایجنتها، هماهنگسازی گردش کار چندایجنتی را سادهتر کرده و نسبت به نسخه آزمایشی قبلی (Swarm) که سال گذشته منتشر شد و در میان توسعهدهندگان محبوبیت بالایی پیدا کرد، پیشرفت چشمگیری داشته است.
از جمله بهبودهای جدید میتوان به موارد زیر اشاره کرد:
- ایجنتها: مدلهای زبانی بزرگ با تنظیم آسان و دسترسی به ابزارهای داخلی
- انتقال هوشمند وظایف: انتقال خودکار و هوشمند کنترل وظایف بین ایجنتها
- محدودیتها: بررسیهای قابل تنظیم ایمنی برای اعتبارسنجی ورودی و خروجی
- ردیابی و نظارت: قابلیت مشاهده و بررسی مراحل اجرای ایجنتها برای رفع خطاها و بهینهسازی عملکرد
کیت توسعه ایجنتها برای کاربردهای متنوعی مانند اتوماسیون پشتیبانی مشتری، تحقیقات چندمرحلهای، تولید محتوا، بازبینی کد و بازاریابی و فروش کاربرد دارد. به عنوان مثال، شرکت Coinbase از این کیت برای نمونهسازی سریع و توسعه «AgentKit» استفاده کرد که به ایجنتها اجازه میدهد به طور یکپارچه با کیف پولهای رمزنگاریشده و فعالیتهای بلاکچین تعامل داشته باشند.
در عرض چند ساعت، Coinbase توانست اقدامات سفارشی را از Developer Platform SDK خود به یک ایجنت کاملاً کاربردی تبدیل کند. ساختار ساده و قابل درک AgentKit به توسعهدهندگان اجازه داد تا بیشتر بر روی یکپارچهسازیهای معنادار تمرکز کنند و زمان کمتری صرف راهاندازی پیچیده ایجنتها کنند.
شرکت Bx نیز تنها در چند روز توانست ایجنتهایی ایجاد کند که با استفاده از جستجوی وب و کیت توسعه ایجنتها، به شرکتها کمک میکنند دادههای ساختارنایافته ذخیره شده در Box و منابع اینترنتی عمومی را جستجو و تحلیل کنند.
این رویکرد به مشتریان اجازه میدهد نه تنها به جدیدترین اطلاعات دسترسی داشته باشند، بلکه دادههای داخلی و محرمانه خود را نیز به روشی امن و مطابق با سیاستها و مجوزهای داخلی بررسی کنند. برای مثال، یک شرکت خدمات مالی میتواند ایجنت سفارشی ایجاد کند که اطلاعات تحلیل بازار ذخیرهشده در Box را با اخبار و دادههای اقتصادی لحظهای ادغام کرده و دیدگاه جامعی را برای تصمیمگیریهای سرمایهگذاری در اختیار تحلیلگران خود قرار دهد.
کیت توسعه ایجنت هم با Responses API و هم با Chat Completions API سازگار است. همچنین این SDK با مدلهای سایر ارائهدهندگان نیز که رابط API مشابه Chat Completions دارند، سازگاری دارد.
کلام آخر
با معرفی ابزارها و APIهای جدید مانند Responses API و SDK، مسیر ساخت Agent و استفاده از ایجنتهای هوشمند به طور قابلتوجهی سادهتر و سریعتر شده است. اکنون توسعهدهندگان میتوانند بدون پیچیدگی زیاد و با استفاده از ابزارهای داخلی نظیر جستجوی وب، جستجوی فایل و استفاده از کامپیوتر، ایجنتهایی کارآمد و متناسب با نیازهای واقعی کسبوکارها ایجاد کنند و در زمان کوتاهتری به نتایج مطلوب برسند.
این پیشرفتها زمینهساز تحولی اساسی در کاربردهای هوش مصنوعی در صنایع مختلف خواهد شد. استفاده از این ابزارهای پیشرفته و یکپارچهسازی آسانتر ساخت Agent، نه تنها هزینهها و پیچیدگیهای توسعه را کاهش میدهد، بلکه فرصتهای جدیدی را برای نوآوری در تعاملات دیجیتال و افزایش بهرهوری فراهم میکند. انتظار میرود با ادامه توسعه این ابزارها، ایجنتها به بخشی جداییناپذیر از دنیای کسبوکار و فناوری آینده تبدیل شوند.







پاسخگوی سوالات شما هستیم
دیدگاهی وجود ندارد!