肖恩技术周刊(第 75 期):Slop
周刊内容: 对一周内阅读的资讯或技术内容精品(个人向)进行总结,分类大致包含“业界资讯”、“技术博客”、“开源项目”和“学习资源”等。
更新时间: 周一
历史收录: 技术周刊合集
订阅方式: 微信公众号“肖恩聊技术”,除周刊外还有更多原创技术博文,欢迎关注👏🏻~

韦氏词典将“slop”评为年度热词,反映AI生成低质量内容的泛滥。
| 券商名称 | 股票佣金 | ETF佣金 | LOF佣金 | 国债逆回购 |
|---|---|---|---|---|
| 国元证券 | 全佣万0.854,不免5 | 全佣万0.5,免5,最低0.2 | 万2.5,不免5 | 1折 |
| 长江证券 | 净佣金万0.459,免5 | 净佣金万0.1,免5 | 净佣金万0.1,免5 | 1折 |
目前网络上充斥着各种荒谬视频、奇怪的广告、虚假新闻和AI 写的劣质文章等,引发人们反感的同时也吸引部分人关注。
在技术层面,人工智能在内容创作领域仍存在局限性,未能有效替代人类创造力。
业界资讯
GPT-5.2-Codex 正式亮相

OpenAI 推出 GPT-5.2-Codex,专为软件工程与网络安全优化。该模型基于 GPT-5.2,通过上下文压缩提升长程任务执行能力,在大规模代码变更及 Windows 环境下表现优异,网络安全能力显著增强。它在专业夺旗赛中准确率持续提升,助力研究人员发现 React 漏洞。
在软件工程方面,GPT-5.2-Codex 融合了 GPT-5.1-Codex-Max 的能力,在 SWE-Bench Pro 和 Terminal-Bench 2.0 测试中表现卓越,能够处理大型代码库和复杂任务,支持从设计稿到可运行原型的快速转化。
GPT-5.2-Codex 已向付费 ChatGPT 用户推出,未来将逐步开放给 API 用户,并通过“可信访问”计划为专业人士和机构提供更开放的模型,以确保安全性与可用性的平衡。
Gemini 3 Flash:为速度而生的前沿智能

Google 发布 Gemini 3 Flash,专为速度和效率设计,保持 Gemini 3 Pro 级推理能力,显著降低成本和延迟。它在 GPQA Diamond 等复杂推理基准测试中表现优异,推理深度动态可调,平均使用 token 数量比 Gemini 2.5 Pro 少 30%。
Gemini 3 Flash 速度是 Gemini 2.5 Pro 的 3 倍,成本更低,在 SWE-bench Verified 编码任务中得分 78%,优于 Gemini 3 Pro。它支持多模态推理,可实时分析视频、图像和音频,为用户提供即时反馈。
Gemini 3 Flash 已全球上线,成为 Gemini 应用默认模型,取代 Gemini 2.5 Flash,并开始作为搜索中 AI 模式的默认模型推出。它可通过 Google AI Studio 等工具预览。
全新 ChatGPT 图像现已上线

OpenAI 发布全新 ChatGPT 图像功能,基于最新图像生成模型,支持精准编辑与创意变换。模型可精准理解修改需求,仅调整指定部分,保持光线、构图及人物外观等细节一致,适用于照片编辑、服装与发型试穿等场景,生成速度最高提升 4 倍。
新图像模型在 ChatGPT 中向所有用户开放,同时以 gpt-image-1.5 形式提供 API 接口。模型在文本渲染方面进化,能稳定处理更密集、更小号的文字,支持 Markdown 渲染、卡路里信息图及编码等任务。此外,模型在指令遵循上更稳定可靠,可进行精细编辑与复杂原创构图。
OpenAI 还推出专属图像创作空间,提供预设滤镜与提示,支持快速生成图像。新模型在图像保真与编辑能力上全面升级,适用于营销、设计、电商等场景,可加速从概念到成品的工作流程。
佳文共赏
从失败中重生:一个 AI Agent 前端落地的真实复盘

团队基于内部设计系统开发 AI Agent,目标是实现设计稿到前端代码的自动化转换。开发中面临搭建系统、模型理解私有组件、浏览器预览等挑战,通过采用 Claude Agent SDK、本地文件系统、高质量文档检索、自动化闭环验证等技术手段,成功上线系统。但上线后因用户习惯、80/20 瓶颈、环境割裂等问题,使用率低。
复盘后,团队以 AI 为中心重新设计流程,选择 AI 友好、轻量化技术栈,将设计系统能力封装为 Skill 嵌入通用 Agent 生态,而非独立 Agent 平台,使开发者在熟悉环境中高效利用设计系统。
该案例表明,技术成功不等于产品成功,AI 产品开发需以 AI 为中心设计工作流,封装能力为 Skill 是更务实的落地路径,实践中团队实现了从模仿人类工作流到为 AI 重塑工作流的思维转变。
Redis 之父2025年终AI反思

2025 年,AI 领域大语言模型(LLM)发展显著。链式思考(CoT)成提升输出质量关键,结合强化学习,模型可逐 token 输出逼近有效回复。强化学习突破 token 数量限制,助力模型在程序优化等任务上持续进步,未来或现重大突破。
程序员对 AI 辅助编程抵触降低,LLM 提供代码和提示能力提升,投资回报率获认可,编程领域出现协作伙伴与独立编码主体分化。部分科学家探索 Transformer 替代方案,但 LLM 作为可微分机器,或能独立于新范式实现通用人工智能(AGI)。CoT 未改变 LLM 本质,仍是基于相同架构生成。
ARC 测试难度降低,小模型在 ARC-AGI-1 表现尚可,大模型借助 CoT 在 ARC-AGI-2 取得佳绩,ARC 从反 LLM 测试转为 LLM 验证。未来 20 年,AI 核心挑战是避免技术停滞或被替代。
Karpathy 2025年LLM回顾

2025 年,LLM 领域迎来重大变革。强化学习从可验证奖励(RLVR)成为主流训练阶段,使 LLM 在特定领域表现出类似人类推理的策略,改变了能力提升与计算资源的关系。LLM 的智能形态被重新定义,其在可验证领域表现出色,但整体性能呈现“锯齿状”,导致传统基准测试的可靠性下降。
在应用层面,Cursor 的出现标志着 LLM 应用的新层次,为特定领域提供服务。Claude Code 作为首个本地运行的 LLM 代理,展示了新的交互模式。此外,“vibe coding” 的出现降低了编程门槛,提高了开发效率,推动了软件行业的变革。
总体来看,2025 年 LLM 技术在训练方法、智能形态和应用层面均取得显著进展,为未来的发展奠定了坚实基础。
技术博客
生成既有质感,又能随意修改文字的完美 PPT

本文介绍了一种通过分离“内容生成”与“视觉绘制”来创建可编辑且具有质感的 PPT 的工作流。核心思路是利用提示词模板生成 PPT 大纲和对应的画图指令,然后使用绘图工具(如 Nano Banana Pro)根据指令生成最终图片。用户可以在生成大纲阶段随意修改文字内容,确保每一页都符合需求。
该工作流包含四个主要步骤:
- 首先,准备“大脑”,即使用提示词模板生成大纲和风格指令;其次,投喂素材并定制大纲,通过上传材料和调整参数来优化结果;
- 接着,开始绘制,将风格指令和内容描述输入绘图工具生成幻灯片;
- 最后,进行调整,对生成的图片进行微调,直至满意。
这种方法虽然增加了操作步骤,但极大地提高了定制化的自由度,允许用户在保持统一风格的同时,对每一页幻灯片进行详细的修改和优化。
我们如何使用 Codex 在 28 天内构建 Android 版 Sora

OpenAI 的技术团队在 28 天内利用 Codex 构建了 Android 版 Sora 应用。
团队将 Codex 视作新任高级工程师,通过明确指导和审核,使其在代码生成、测试覆盖、反馈响应等方面发挥优势。团队在架构设计、模块化、依赖注入等关键领域亲自监督,为 Codex 提供代表性功能示例,确保其在既定模式内高效运作。
在开发过程中,团队先让 Codex 理解系统和代码逻辑,再制定详细实施计划,最后执行代码编写,有效提高了开发效率和代码质量。此外,团队还通过多个 Codex 会话并行处理不同任务,进一步提升了开发速度。
构建一个有主见且极简的编码智能体,我学到了什么

Mario Zechner 构建了极简编程代理工具 pi,其核心组件包括 pi-ai、pi-agent-core、pi-tui 和 pi-coding-agent。pi-ai 提供统一的 LLM API,支持多供应商和上下文切换,具备流式处理和工具调用功能。pi-agent-core 负责工具执行与事件流管理。pi-tui 是终端用户界面框架,采用保留模式 UI 和差分渲染技术,减少闪烁并提升性能。pi-coding-agent 整合这些组件,支持会话管理、自定义工具和主题。
pi 采用极简系统提示和工具集,避免内置待办事项和计划模式,不支持多代理协作和后台 bash。它强调上下文工程的重要性,通过精确控制模型上下文来提升代码生成质量。pi 还支持自定义模型和提供商配置、主题定制、文件操作和命令执行等功能,旨在为用户提供一个简单、高效且可控的编程辅助工具。
开源项目
refly:无代码 AI 自动化工作流平台

Refly.AI 是一款面向非技术创作者的无代码 AI 自动化工作流平台。它通过可视化画布和简单提示,让用户无需编码即可构建、共享和变现强大的 AI 自动化工作流。
agentskills:智能体技能

Agent Skills 是一种由 Anthropic 维护的简单开放格式,旨在为智能代理赋予新的能力与专业知识。它通过技能文件夹的形式存在,这些文件夹内包含指令、脚本以及资源,代理可发现并利用它们以更好地完成特定任务,实现一次编写、处处使用。
conductor:智能体指挥

Conductor 是 Gemini CLI 的扩展,用于软件开发的上下文驱动开发。它将 Gemini CLI 转变为一个主动的项目管理工具,遵循严格协议来规范、计划和实现软件功能及修复漏洞。其核心理念是控制代码,将上下文作为代码的管理工件,使仓库成为驱动每个代理交互的单一事实来源。
工具推荐
Tnkr:机器人开发协作平台

Tnkr 是一个面向机器人的开发协作平台,提供硬件、软件、数据和模型的全面工具集。它支持开发者发布开源硬件、软件和数据贡献指南,方便他人重建、混音和贡献操作数据以改进模型。Tnkr 的 Leonardo AI 工具通过第一人称视频、CAD 和代码分析构建过程,自动生成文档、提出改进建议并实时解决技术问题。此外,Tnkr 提供交互式 3D 可视化,使硬件组装过程更加直观易懂。
Polymarket:预测市场平台

Polymarket 是全球最大的预测市场平台,涵盖多个领域。用户可对政治、体育、金融等事件进行预测交易。平台通过交易量和预测概率展示市场对各类事件的预期,为用户提供决策参考。
资源推荐
2025年AI工程师阅读清单

一份面向AI工程师的2025年阅读清单,包含50篇论文/模型/博客,涵盖AI工程的10个领域。为从零开始的AI工程师提供实用的阅读资源,帮助他们快速了解各领域前沿知识。
AI 101:你必须了解的概念和方法

汇总了 2025 年下半年最重要的人工智能 / 机器学习概念和技术。
AI智能体路线图

聚焦于 AI 代理(Agent)构建的核心技术要点。

