Chatgpt居然在网页版出了代理模式？跟codex有什么区别？

YY2026-04-26 10:04:323

不知道大家有没有注意啊，网页版chatgpt出了一个代理模式？

我看到这个的第一反应是，这玩意跟codex有什么区别？

紧接着第二个问题是，明明有了codex，为什么还要有一个网页版的代理模式呢？

然后我就忍不住上手试了试。

它就在左下角加号的更多里面。

我问它，

然后它就开始出现一个搜索框，自动在网页上查询与“chatgpt网页版”的相关信息。

（它还可以直接在终端操作）

你可以随意滑动进度条，来看它的进度，然后当你点击“直播”的时候，它就会同步到最新页面。

我先让它自己写了一下区别，我直接贴到这里：

下面根据公开资料整理了在网页版使用 ChatGPT 的代理模式（Agent mode）和在 Codex 中使用代理的主要区别。核心差别在定位和能力：ChatGPT 代理侧重一般性的互联网操作与自动化任务，Codex 侧重软件工程任务和代码执行。

功能定位

ChatGPT 网页代理（Agent mode）
：这是 ChatGPT 内置的一种虚拟助理模式。启用后，系统会启动一个虚拟电脑，配备可视化浏览器、文本浏览器、终端、API 调用接口以及可选的 Gmail/GitHub 等连接器。用户只需描述目标，代理会自行选择合适的工具来浏览网页、点击按钮、运行 Python、编辑文件等。它适合做会议准备、竞争对手调研并生成幻灯片、清理/分析电子表格、自动草拟邮件或在购物网站放入商品并在最后一步确认结账。代理每一步操作都会在活动日志中显示，系统会在执行高影响动作前征求许可。
Codex 代理
：最初作为 ChatGPT 的编程代理推出，现已提供 CLI、IDE 扩展和桌面应用。Codex 专为软件工程任务优化，可以读取整个代码仓库、制定多步骤计划，在云端沙箱中运行代码并反复执行测试。当用户描述任务（例如修复竞态条件或添加测试），Codex 会启动隔离的虚拟机，克隆仓库，计划方案，修改/添加文件，运行测试并生成 pull request；整个过程是异步进行的，用户查看的是结果而不是过程。Codex 还能借助“skills”机制调用特定工具，比如读取 Figma 设计转为前端代码、编辑表格和文档、部署应用或按排程自动执行检查与汇报。

关键差异概览

方面	ChatGPT 网页代理	Codex 代理
主要用途	浏览网站、自动化办公（制作报告、演示文稿、电子表格等），完成日常互联网任务	软件工程：读取/修改代码、运行测试、自动生成 Pull Request，甚至转 Figma 设计为代码
执行模式	用户在聊天中描述目标，代理在虚拟电脑中边执行边反馈，关键步骤会要求用户确认	用户下达任务后，Codex 在云端沙箱中自主运行并异步完成，通常不需要用户实时干预
可访问的资源	通过可视化/文本浏览器访问公共网站；可用终端运行 Python 脚本；可通过连接器读取 Gmail、GitHub 等数据	克隆并索引整个代码仓库，完全访问构建工具、测试套件和依赖项；不直接浏览外部网页（安全控制）
反馈方式	提供活动日志和视觉界面，可随时接管浏览器或停止任务；支持周期性调度	生成最终的 PR 或代码差异，由用户审查；支持并行任务和实时重定向
适用人群	希望自动完成研究、总结、报告、购物等一般事务的知识工作者；无需编程背景	有代码基础并维护真实项目的开发者或团队；适合处理需大量重复编码和测试的工程任务

小结

在网页代理模式中，ChatGPT 像一个“通用秘书”，通过浏览器、终端等工具完成互联网操作及办公文档制作，强调实时互动和安全确认。
在 Codex 中，代理更像一名“初级程序员”，在隔离的云端环境中自动阅读、编写和测试代码，任务可异步执行并产生可直接合并的 Pull Request。
因此，选择哪个模式取决于任务类型：日常非编程任务适合网页代理，复杂的软件工程任务则应交给 Codex。

这里我也让它写了一个使用说明，以word的形式发给我

说实话，它能直接修改终端内容还挺让我惊讶的......

可能是openai为了让更多小白享受到代理模式的爽感？

对了，我这里提供一个非常好用的组合拳：

众所周知（实则不然），gpt的pro模式是单独的模型，也是最好的模型。

我之前用它做过产品的mvp，比5.4强的多。

但只能在网页版里使用，所以以前只能结合codex来用，

但现在gpt直接实现了在网页版使用的功能。

这样就意味着，你可以享受到pro模型＋代理的快感。

也就是codex 超级版哈哈。

非常的小白友好，

openai就是格局大哈哈。

最后我把chatgpt网页版说明（也就是给我的word文档也贴在了下面，大家可以做一个参考）

（值得一提的是，它给我出word文档的速度比codex起码快了3倍......）

ChatGPT 网页代理使用说明

1. 代理模式概述

ChatGPT 的网页代理模式（Agent mode）是一种集成在网页版 ChatGPT 中的虚拟助理。启用该模式后，系统会启动一台云端虚拟电脑，并按照用户描述的目标自动选择不同工具完成任务。它可以浏览网页、点击按钮、运行 Python 代码、编辑文件，还能接入企业中的 SharePoint、OneDrive 或 Notion 数据等。[1]

2. 如何启用代理模式

1) 打开 ChatGPT 对话界面，在对话框上方选择“Tools（工具）”。
2) 在下拉菜单中点击“Agent mode（代理模式）”。
3) 选择建议、报告、操作、电子表格、演示文稿等预设任务类型，或直接描述自己的任务需求。
4) 提交后，代理会启动虚拟电脑并开始执行任务，用户可以通过“活动”窗口实时查看其操作。

3. 代理模式内的工具

网页代理拥有多个工具组件，帮助自动完成任务：

·可视化浏览器：提供类似普通浏览器的界面，可滚动、点击、登录并与任何网站交互。

·文本浏览器：用于快速抓取长网页的文本内容并进行分析或推理。

·终端：可以运行 Shell 或 Python 脚本，用于数据处理或脚本自动化。

·直接 API 调用：当使用 API 比浏览器更高效时，代理会直接调用接口。

·连接器：可读取 Gmail、GitHub 等应用的只读数据，为任务提供更多上下文。

用户只需描述目标，代理会根据需要自动组合这些工具完成任务。[1]

4. 常见用例

网页代理可用于以下场景：

·会议准备：拉取日历、查找客户近况并生成简报。

·竞争对手调研与幻灯片：比较供应商、收集规格与价格，并自动生成幻灯片。

·电子表格处理：上传杂乱的 CSV，自动清理数据、预测并绘制图表，生成整洁的模型。

·自动化电子邮件：起草邮件、总结邮件线程或根据 CRM/Gmail 数据准备个性化回复。

·购物助手：寻找商品、比较价格并放入购物车，最后询问用户确认再结账。

这些示例显示，代理不仅能搜索信息，还能生成文档、表格和演示文稿，执行多步骤任务。[2]

5. 安全与权限

为了保护用户数据和避免不必要的操作，网页代理内置了多重安全措施：

·在执行可能影响账户或产生费用的操作前，代理会主动要求用户明确授权。

·进入敏感链接或执行高风险操作时会提示用户，确保用户知情。

·所有任务都有详细的操作日志，便于用户查看代理的每一步。

·支持一键清空沙箱环境，可快速删除浏览记录和数据。

Agent mode 目前仅向 Plus、Pro 和 Team 用户开放，其他计划陆续推出。[3]

6. 使用技巧与限制

使用网页代理时，可参考以下建议：

·明确描述任务目标，提供必要的上下文，如网址、文件或具体需求。

·关注“活动”窗口，了解代理正在执行的步骤，并在必要时接管浏览器。

·注意代理模式的使用次数限制（例如每月有一定次数），合理规划任务。

·在需要定期重复任务时，可以使用任务推送功能设置周期性执行。

·对于涉及付款或个人隐私的信息，谨慎授权并核对代理操作的每一步。

7. 结语

ChatGPT 网页代理通过整合浏览器、终端等多种工具，为用户提供自动执行复杂任务的能力。从信息收集到文档生成，再到简单的购物和邮件处理，它可以极大提升工作效率。但在使用过程中请注意安全提示和任务限制，根据实际需求合理安排。

参考资料

[1] LinkedIn 中关于 ChatGPT Agent mode 的介绍，列举了代理自带的工具（可视化浏览器、文本浏览器、终端、API 调用和连接器）【968272705389017†L62-L77】。
[2] 同一文中罗列的 Agent mode 的常见用例：会议准备、竞争调研与幻灯片、表格处理、邮件自动化、购物助手【968272705389017†L83-L94】。
[3] 文中指出的安全措施：要求明确授权、敏感操作提示、操作日志和一键沙箱清除，并说明 Agent mode 目前对 Plus/Pro/Team 用户开放【968272705389017†L109-L117】。