ChatGPT中文网

Chatgpt居然在网页版出了代理模式?跟codex有什么区别?

YY2026-04-26 10:04:323
不知道大家有没有注意啊,网页版chatgpt出了一个代理模式?
我看到这个的第一反应是,这玩意跟codex有什么区别?
紧接着第二个问题是,明明有了codex,为什么还要有一个网页版的代理模式呢?
然后我就忍不住上手试了试。
它就在左下角加号的更多里面。
我问它,

然后它就开始出现一个搜索框,自动在网页上查询与“chatgpt网页版”的相关信息。
(它还可以直接在终端操作)

你可以随意滑动进度条,来看它的进度,然后当你点击“直播”的时候,它就会同步到最新页面。

我先让它自己写了一下区别,我直接贴到这里:





下面根据公开资料整理了在网页版使用 ChatGPT 的代理模式(Agent mode)和在 Codex 中使用代理的主要区别。核心差别在定位和能力:ChatGPT 代理侧重一般性的互联网操作与自动化任务,Codex 侧重软件工程任务和代码执行

功能定位

  • ChatGPT 网页代理(Agent mode)
    :这是 ChatGPT 内置的一种虚拟助理模式。启用后,系统会启动一个虚拟电脑,配备可视化浏览器、文本浏览器、终端、API 调用接口以及可选的 Gmail/GitHub 等连接器。用户只需描述目标,代理会自行选择合适的工具来浏览网页、点击按钮、运行 Python、编辑文件等。它适合做会议准备、竞争对手调研并生成幻灯片、清理/分析电子表格、自动草拟邮件或在购物网站放入商品并在最后一步确认结账。代理每一步操作都会在活动日志中显示,系统会在执行高影响动作前征求许可
  • Codex 代理
    :最初作为 ChatGPT 的编程代理推出,现已提供 CLI、IDE 扩展和桌面应用。Codex 专为软件工程任务优化,可以读取整个代码仓库、制定多步骤计划,在云端沙箱中运行代码并反复执行测试。当用户描述任务(例如修复竞态条件或添加测试),Codex 会启动隔离的虚拟机,克隆仓库,计划方案,修改/添加文件,运行测试并生成 pull request;整个过程是异步进行的,用户查看的是结果而不是过程。Codex 还能借助“skills”机制调用特定工具,比如读取 Figma 设计转为前端代码、编辑表格和文档、部署应用或按排程自动执行检查与汇报

关键差异概览

方面
ChatGPT 网页代理
Codex 代理
主要用途
浏览网站、自动化办公(制作报告、演示文稿、电子表格等),完成日常互联网任务
软件工程:读取/修改代码、运行测试、自动生成 Pull Request,甚至转 Figma 设计为代码
执行模式
用户在聊天中描述目标,代理在虚拟电脑中边执行边反馈,关键步骤会要求用户确认
用户下达任务后,Codex 在云端沙箱中自主运行并异步完成,通常不需要用户实时干预
可访问的资源
通过可视化/文本浏览器访问公共网站;可用终端运行 Python 脚本;可通过连接器读取 Gmail、GitHub 等数据
克隆并索引整个代码仓库,完全访问构建工具、测试套件和依赖项;不直接浏览外部网页(安全控制)
反馈方式
提供活动日志和视觉界面,可随时接管浏览器或停止任务;支持周期性调度
生成最终的 PR 或代码差异,由用户审查;支持并行任务和实时重定向
适用人群
希望自动完成研究、总结、报告、购物等一般事务的知识工作者;无需编程背景
有代码基础并维护真实项目的开发者或团队;适合处理需大量重复编码和测试的工程任务

小结

  • 网页代理模式中,ChatGPT 像一个“通用秘书”,通过浏览器、终端等工具完成互联网操作及办公文档制作,强调实时互动和安全确认
  • 在 Codex 中,代理更像一名“初级程序员”,在隔离的云端环境中自动阅读、编写和测试代码,任务可异步执行并产生可直接合并的 Pull Request
  • 因此,选择哪个模式取决于任务类型:日常非编程任务适合网页代理,复杂的软件工程任务则应交给 Codex。



这里我也让它写了一个使用说明,以word的形式发给我

说实话,它能直接修改终端内容还挺让我惊讶的......
可能是openai为了让更多小白享受到代理模式的爽感?

对了,我这里提供一个非常好用的组合拳:
众所周知(实则不然),gpt的pro模式是单独的模型,也是最好的模型。
我之前用它做过产品的mvp,比5.4强的多。

但只能在网页版里使用,所以以前只能结合codex来用,
但现在gpt直接实现了在网页版使用的功能。
这样就意味着,你可以享受到pro模型+代理的快感。
也就是codex 超级版哈哈。

非常的小白友好,
openai就是格局大哈哈。


最后我把chatgpt网页版说明(也就是给我的word文档也贴在了下面,大家可以做一个参考)
(值得一提的是,它给我出word文档的速度比codex起码快了3倍......)

ChatGPT 网页代理使用说明

1. 代理模式概述

ChatGPT 的网页代理模式(Agent mode)是一种集成在网页版 ChatGPT 中的虚拟助理。启用该模式后,系统会启动一台云端虚拟电脑,并按照用户描述的目标自动选择不同工具完成任务。它可以浏览网页、点击按钮、运行 Python 代码、编辑文件,还能接入企业中的 SharePointOneDrive  Notion 数据等。[1]

2. 如何启用代理模式

1) 打开 ChatGPT 对话界面,在对话框上方选择“Tools(工具)
2) 
在下拉菜单中点击“Agent mode(代理模式)
3) 
选择建议、报告、操作、电子表格、演示文稿等预设任务类型,或直接描述自己的任务需求。
4) 
提交后,代理会启动虚拟电脑并开始执行任务,用户可以通过活动窗口实时查看其操作。

3. 代理模式内的工具

网页代理拥有多个工具组件,帮助自动完成任务:

·可视化浏览器:提供类似普通浏览器的界面,可滚动、点击、登录并与任何网站交互。

·文本浏览器:用于快速抓取长网页的文本内容并进行分析或推理。

·终端:可以运行 Shell  Python 脚本,用于数据处理或脚本自动化。

·直接 API 调用:当使用 API 比浏览器更高效时,代理会直接调用接口。

·连接器:可读取 GmailGitHub 等应用的只读数据,为任务提供更多上下文。

用户只需描述目标,代理会根据需要自动组合这些工具完成任务。[1]

4. 常见用例

网页代理可用于以下场景:

·会议准备:拉取日历、查找客户近况并生成简报。

·竞争对手调研与幻灯片:比较供应商、收集规格与价格,并自动生成幻灯片。

·电子表格处理:上传杂乱的 CSV,自动清理数据、预测并绘制图表,生成整洁的模型。

·自动化电子邮件:起草邮件、总结邮件线程或根据 CRM/Gmail 数据准备个性化回复。

·购物助手:寻找商品、比较价格并放入购物车,最后询问用户确认再结账。

这些示例显示,代理不仅能搜索信息,还能生成文档、表格和演示文稿,执行多步骤任务。[2]

5. 安全与权限

为了保护用户数据和避免不必要的操作,网页代理内置了多重安全措施:

·在执行可能影响账户或产生费用的操作前,代理会主动要求用户明确授权。

·进入敏感链接或执行高风险操作时会提示用户,确保用户知情。

·所有任务都有详细的操作日志,便于用户查看代理的每一步。

·支持一键清空沙箱环境,可快速删除浏览记录和数据。

Agent mode 目前仅向 PlusPro  Team 用户开放,其他计划陆续推出。[3]

6. 使用技巧与限制

使用网页代理时,可参考以下建议:

·明确描述任务目标,提供必要的上下文,如网址、文件或具体需求。

·关注活动窗口,了解代理正在执行的步骤,并在必要时接管浏览器。

·注意代理模式的使用次数限制(例如每月有一定次数),合理规划任务。

·在需要定期重复任务时,可以使用任务推送功能设置周期性执行。

·对于涉及付款或个人隐私的信息,谨慎授权并核对代理操作的每一步。

7. 结语

ChatGPT 网页代理通过整合浏览器、终端等多种工具,为用户提供自动执行复杂任务的能力。从信息收集到文档生成,再到简单的购物和邮件处理,它可以极大提升工作效率。但在使用过程中请注意安全提示和任务限制,根据实际需求合理安排。

参考资料

[1] LinkedIn 中关于 ChatGPT Agent mode 的介绍,列举了代理自带的工具(可视化浏览器、文本浏览器、终端、API 调用和连接器)【968272705389017†L62-L77】。
[2] 
同一文中罗列的 Agent mode 的常见用例:会议准备、竞争调研与幻灯片、表格处理、邮件自动化、购物助手【968272705389017†L83-L94】。
[3] 
文中指出的安全措施:要求明确授权、敏感操作提示、操作日志和一键沙箱清除,并说明 Agent mode 目前对 Plus/Pro/Team 用户开放【968272705389017†L109-L117】。


本文链接:https://www.chatgpt123.cn/ai/34.html

阅读更多

相关文章

网友评论