肖恩技术周刊（第 57 期）：课题分离

2025/8/11大约 8 分钟约 2451 字

肖恩技术周刊（第 57 期）：课题分离

对周内阅读的技术内容精品（个人向）进行总结。觉得不错可点击右上角订阅，第一时间获取更新通知。

王勇（Andy Stewart，deepin前CTO，现懒猫微服CEO）在博客《过去二十年，工作上最后悔的事是什么？》中提到：

这个概念在心理学中叫“课题分离” ，由阿德勒 (Alfred Adler) 提出，意思是将人际关系中的问题区分为“我的课题”和“他人的课题”，然后各自负责解决自己课题，互不干涉。

用大白话讲就是世上只有两件事，一件是"关我屁事"，一件是"关你屁事"。通过分清哪些是自己能控制和改变的，哪些是他人或外界可以决定的，然后只专注于自己的部分，不去干涉或过度担忧他人的部分，这对减少个人情绪内耗非常有效。

OpenAI推出最新的GPT-5模型，它在智能、速度和实用性方面超越了以往的所有模型，在编码、数学、写作、健康、视觉感知等多个领域表现出色。GPT-5是一个统一系统，包含快速回答问题的智能高效模型、用于复杂问题的深度推理模型以及实时路由器，可根据对话类型、复杂性等因素快速决定使用哪个模型。GPT-5在减少幻觉、提高指令遵循能力、减少谄媚行为等方面取得了显著进展，尤其在写作、编码和健康这三个ChatGPT最常见的用途中表现突出。此外，GPT-5还推出了GPT-5 pro版本，为更复杂的任务提供更全面准确的答案。

OpenAI开源权重语言模型gpt-oss-120b和gpt-oss-20b

OpenAI发布的两款先进开源权重语言模型gpt-oss-120b和gpt-oss-20b，它们在推理任务上表现出色，具备强大的工具使用能力，且针对消费级硬件进行了优化。这些模型在Apache 2.0许可下提供，经过强化学习等先进训练技术训练而成。gpt-oss-120b在推理基准测试中接近OpenAI o4-mini的性能，可在单个80GB GPU上高效运行；gpt-oss-20b则适用于边缘设备，仅需16GB内存。两者在工具使用、少样本函数调用、因果链推理等方面表现强劲，且在安全性和定制化方面具有显著优势。

Claude Opus 4.1 发布

Anthropic于2025年8月6日发布了Claude Opus 4.1，这是对Claude Opus 4的升级版本，主要在代理任务、现实世界编程和推理方面进行了改进。Opus 4.1在SWE-bench Verified基准测试中编程性能达到74.5%，显著优于Opus 4，并在多文件代码重构、代码调试等方面表现出色。GitHub和Rakuten Group等机构对其性能提升给予了高度评价。用户可通过API使用该版本，Anthropic还计划在未来几周内推出更大改进的模型。

佳文共赏

Anthropic CEO Dario Amodei的经历

Amodei自幼对科学充满兴趣，父亲因罕见疾病去世后，他从理论物理转向生物学研究，希望找到治愈人类疾病的方法。此后，他意识到AI技术可能是解决复杂生物学问题的关键。

Amodei的职业生涯从普林斯顿大学的视网膜研究开始，后加入百度参与AI“规模定律”的研究，发现增加计算能力、数据和模型大小可以显著提升AI性能。2016年，他加入OpenAI，参与了GPT-2和GPT-3项目的开发，但因与管理层在技术发布和安全实践上的分歧而离开。2020年，他创立了Anthropic，专注于开发大型语言模型，并推动AI安全实践。

Anthropic选择将AI技术出售给企业，而非专注于消费者应用，吸引了辉瑞、联合航空等大客户。公司收入增长迅速，但也面临亏损和成本优化的挑战。Amodei坚信AI的快速发展需要谨慎对待其潜在风险，Anthropic正在研究如何确保AI与人类价值观和目标保持一致。尽管面临市场竞争和不确定性，Amodei仍致力于推动AI技术的快速进步，同时确保其安全性和可持续性。

突破：中国探索构建未来

Dan Wang的新书探讨了中美在工程与法律领域的差异。他认为中国是“工程国家”，以强大执行力推动基础设施建设，而美国是“律师社会”，法律体系常阻碍变革。书中通过作者从贵阳到重庆的自行车之旅，对比中国贫困省份与美国富裕州的基础设施差距，引出“工程国家”概念。同时，书中也讨论了中国在社会工程方面的失误，如计划生育政策的残酷执行，以及其在文化吸引力方面的不足。

在写作过程中，Dan Wang分享了从寻找代理到修订推广的全过程，强调写作需要自律与坚持。他还反思了自己的云南血统，对中国的国家成就持怀疑态度，并在书中讨论了中国在过去几十年的基础设施建设成就，认为美国可以从中学习。书中最后反思了父母移民美国的得失，以及美国作为“工程国家”的遗产。

技术博客

验证的不对称性与验证者定律

文章深入探讨了任务验证与解决难度之间的关系，及其对人工智能发展的影响。许多任务的验证过程远比解决过程简单，这种现象被称为“验证的不对称性”。例如，数独和填字游戏需要大量尝试才能解决，但验证答案是否正确却非常容易；开发一个复杂的网站需要多年时间，但验证其功能是否正常却可以迅速完成。这种不对称性在许多领域都普遍存在，但也有例外，比如某些数学问题（如加两个900位数）和数据处理程序，其验证难度与解决难度相近。

文章提出了“验证者定律”，认为AI解决任务的能力与任务的可验证性成正比，任务需要满足客观真理、快速验证、可扩展验证、低噪声和连续奖励等属性。文章以AlphaEvolve为例，展示了如何利用验证的不对称性进行优化。AlphaEvolve通过猜测和检查的方法解决了许多符合验证者定律属性的问题。

文章最后指出，验证的不对称性无处不在，未来可能会出现一个“智能锯齿边缘”，AI在可验证任务上会更聪明，因为这些任务更容易被解决。这种趋势令人兴奋，因为它预示着一个AI能够解决任何可测量任务的未来。