肖恩技术周刊(第 35 期):DeepSeek爆火
周刊内容: 对一周内阅读的资讯或技术内容精品(个人向)进行总结,分类大致包含“业界资讯”、“技术博客”、“开源项目”和“学习资源”等。
更新时间: 周一
历史收录: 技术周刊合集
订阅方式: 微信公众号“肖恩聊技术”,除周刊外还有更多原创技术博文,欢迎关注👏🏻~
开篇图
春节快乐!还在假期,就简单写写吧。这几天逛公园听到大妈们都在聊DeepSeek,还讨论中国AI潜力如何大,聊的有板有眼的。自媒体春节也不休了,都加班加点发文章,生怕错过这波热度。就连朋友圈也是肉眼可见的含AI量很高。
但大家的关注点并非都在技术本身,还混合了中美博弈、民族主义等更复杂的情绪。西方的反应也很有意思,有赞美、惊讶、反思,当然还少不了诋毁,这次看来真动到他们的蛋糕了。
问DeepSeek-R1为啥它自己会火,经过一系列深度思考后给出的答案只算是中规中矩吧。但它思考的过程挺有参考意义,是一套完整的问题求解思路,可以直接套用。
PS:本周重新整理了周刊信息源,并添加了一些英文源,后续内容质量应该会有些许提升(前提是有时间阅读英文文章,毕竟读起来有点慢😂)。
业界资讯
被DeepSeek逼急?OpenAI 推出 o3-mini AI 推理模型,免费用户可首次体验
OpenAI推出了o3-mini模型,这是其推理系列中最新且最具成本效益的模型,已在ChatGPT和API上线。o3-mini在科学、数学和编程等STEM领域表现出色,同时保持低成本和低延迟。它支持函数调用、结构化输出等功能,并提供三种推理力度选项以适应不同需求。不过,o3-mini不支持视觉功能,视觉推理任务需使用OpenAI o1。
目前,ChatGPT Plus、Team和Pro用户已可使用该模型,企业版将于二月开放。与o1-mini相比,o3-mini在速度、准确性和推理能力上均有显著提升,尤其在复杂问题解决上错误率大幅降低。它还与搜索功能结合,可查找最新答案并链接相关网络资源。在多个领域,如数学、博士级科学问题、研究级数学、竞技编程和软件工程等,o3-mini的表现均优于或持平于o1。
此外,o3-mini响应速度更快,平均首次响应时间比o1-mini快2500毫秒。安全性方面,它采用审慎对齐技术训练,能根据人类编写的规范进行推理,安全性能显著优于GPT-4o。OpenAI通过o3-mini推动了成本效益推理的发展,降低了智能成本,同时保持了顶级推理能力。
对 Deepseek 从赞叹到压制,硅谷为何一周内变脸
中国 AI 公司 DeepSeek 发布的 R1 推理模型性能与 OpenAI 模型相当,但成本极低,引发美国科技巨头和监管层态度转变。美国科技巨头指责 DeepSeek 使用 “蒸馏” 技术 “窃取” 数据,监管层则考虑加强出口管制。然而,“蒸馏” 技术在行业内较为常见,AI 实验室常使用领先公司的输出数据进行训练。DeepSeek 的开源模式获得全球开发者支持,而美国科技公司多坚持闭源。开源模型的快速发展可能会颠覆 AI 行业生态。面对技术封锁和网络攻击,DeepSeek 需找到长期应对策略,而开放与合作才是 AI 未来的发展方向。
人形机器人扭秧歌,宇树介绍 Unitree H1 一岁半“出道”上春晚背后的技术
2025年央视春晚中,张艺谋携手杭州宇树科技等团队打造了《秧BOT》节目,24台宇树Unitree H1人形机器人表演扭秧歌。Unitree H1于2023年8月首次公布,具备高性能参数,如关节单元极限扭矩、行走速度等,搭载英特尔酷睿i7 1265U等设备,配备3D激光雷达和深度相机。节目通过AI训练让机器人执行动作,采用激光SLAM定位实现全自动走位与队形变换,还配备舞蹈节奏对齐算法、手绢抛与回收结构与算法等。为凸显机械感,春晚舞台上的机器人去掉外皮壳体。
技术博客
MySQL在Uber的使用(英文)
Uber的MySQL基础设施是其数据平台的核心,包含超过2300个独立集群。为了管理如此大规模的MySQL集群并确保高可用性和零数据丢失,Uber重新设计了控制平面,将可用性从99.9%提升到99.99%。控制平面是基于状态的系统,由技术管理器协调,负责将集群的目标状态发布到Uber的内部管理平台Odin,并确保集群始终符合目标状态。
控制平面的关键功能包括集群管理、主故障转移、节点生命周期管理、平衡放置和数据库操作。重新设计的控制平面引入了控制器组件,作为集群的外部观察者,监控集群健康状况并自动触发故障转移。工作流是控制平面的主要交互机制,通过Cadence实现,支持异步、事件驱动的复杂任务编排。
在主故障转移方面,Uber采用单主多副本架构,通过平滑或紧急故障转移机制确保主节点的高可用性。平滑故障转移适用于计划性维护,而紧急故障转移则在主节点不可用时自动触发。节点替换功能允许在不影响用户的情况下,将MySQL节点从一个主机迁移到另一个主机,同时保持硬件配置和网络延迟的一致性。
数据库架构更改通过自动化工作流实现,支持即时更改和在线架构更改工具,确保更改的安全性和非阻塞性。此外,架构更改工作流还集成了Uber的CI/CD管道,实现自动化和审查流程。
数据平面由多个容器组成,包括数据库容器、工作容器、指标容器和健康探测器等,负责MySQL进程的运行和监控。发现平面通过反向代理和池化服务简化了客户端与MySQL集群的交互,使用etcd作为拓扑存储,实现动态路由和负载均衡。
可观测性方面,Uber通过探测器模拟数据流,收集集群健康指标,并配置警报以实时监控故障。数据变更捕获(CDC)通过Storagetapper实现,将binlog中的更改流式传输到Kafka和Hive数据存储中。备份和恢复流程完全自动化,使用Percona XtraBackup实现,确保数据的高可用性和快速恢复。
通过这些技术改进和自动化流程,Uber的MySQL控制平面为关键服务提供了可靠、可扩展且高性能的数据库平台,同时简化了大规模集群的运维管理。
为何最近谈论 SSE 和 WebSocket 的人越来越多了?
本文探讨了SSE(服务器推送事件)和WebSocket在大模型应用中的重要性。随着大模型应用的兴起,传统的HTTPS协议因单向通信、高延迟等局限性,无法满足实时对话、流式输出等需求,而SSE和WebSocket凭借各自特点成为更优选择。
SSE基于HTTP,支持服务器向客户端单向推送实时数据,具有高效、低延迟、轻量级等优势,适用于大模型的流式输出场景,如客户端请求后服务端持续返回结果。其工作流程包括客户端发起连接、服务器响应并推送数据流、客户端处理数据等。WebSocket则允许客户端与服务器建立全双工、持久连接,支持实时双向通信,适用于需要频繁交互的场景,如在线游戏、聊天室等。其工作流程包括握手建立连接、数据传输及关闭连接。
然而,在大规模应用中,SSE和WebSocket面临诸多挑战。例如,网关升级、服务扩缩容可能影响连接稳定性;大带宽需求导致资源成本增加;高延时使资源消耗加剧,且面临安全风险。为应对这些挑战,可采用无损上下线、客户端重连、协议切换、压缩算法、网关层安全防护等措施。
文章还指出,大模型应用推动了API First理念的发展,通过API将大模型能力对外输出,如Perplexity的AI搜索API服务,使更多企业和开发者能够集成AI能力,提升其应用范围和普及性。未来,随着大模型应用的不断拓展,SSE和WebSocket将在更多场景中发挥重要作用,同时也会推动相关技术的持续发展。
DeepSeek R1 论文详解(英文)
文章详细介绍了Deepseek R1模型的核心技术,包括链式思考推理、强化学习和组相对策略优化(GRPO),并探讨了模型的蒸馏过程。
链式思考推理是Deepseek R1的重要机制。通过在用户问题前添加特定提示,模型能够逐步思考问题的解决方法。例如,在解决“1到100之间所有偶数的和”时,模型会逐步分析问题,识别关键要素,列出相关信息,进行逐步推理,并最终得出答案2550。这种推理方式帮助模型更系统地解决问题,而不是简单地给出答案。
强化学习部分则引入了奖励和策略的概念。以方程 x3−9x+7=0 为例,模型的目标不仅是找到解,还要找到最佳的解题方法。策略是指解题的具体方法,而奖励则是对每种策略的评分。Deepseek R1通过在问题(如AIME)上运行模型,选择具有最高奖励分数的策略,从而接近最优结果。
组相对策略优化(GRPO)是Deepseek R1的核心创新点。GRPO通过优化策略来找到正确答案,即使模型对答案一无所知。GRPO的公式分为四部分:第一部分基于先前策略的结果计算期望值;第二部分通过优势函数衡量新策略与旧策略的差异;第三部分通过剪辑函数限制策略更新的幅度;第四部分通过KL散度确保新策略不偏离参考策略。GRPO平衡了探索新策略和利用已知有效策略之间的关系,确保策略逐步改进。
最后,文章提到蒸馏过程。经过蒸馏的Deepseek R1模型在参数更少的情况下,性能超越了许多最先进的模型。这表明Deepseek R1在高效性和性能之间取得了良好的平衡。
总体而言,Deepseek R1通过链式思考推理、强化学习和GRPO等技术,显著提升了模型的推理能力和解题效率。同时,蒸馏过程进一步优化了模型的性能,使其在资源受限的情况下仍能表现出色。
开源项目
DeepSeek-R1:深度推理模型
DeepSeek公司推出的DeepSeek-R1系列推理模型,包括DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero通过大规模强化学习(RL)训练,无需监督微调(SFT)即可展现强大推理能力,但也存在重复、可读性差等问题。DeepSeek-R1在此基础上引入冷启动数据,性能与OpenAI-o1相当,且开源了多个基于Llama和Qwen的密集模型,其中DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超越OpenAI-o1-mini,达到新的最佳水平。
Janus:多模态理解和生成模型
Janus是由 DeepSeek-AI 开发的统一多模态理解和生成模型系列,包括 Janus-Pro、Janus 和 JanusFlow 三个主要模型。这些模型旨在通过优化训练策略、扩展训练数据和扩大模型规模,提升多模态理解和文本到图像生成的能力。
picprose:封面制作工具
PicProse是一个开源的文章封面图像生成工具,支持Medium、Wordpress、微信等平台。它基于Next.js开发,使用Unsplash API获取图片,可通过配置.env.local文件中的Unsplash密钥来使用。
工具推荐
Open-R1:DeepSeek-R1 的完全开放复制品
Open-R1项目,旨在系统地重建DeepSeek-R1的数据和训练流程,验证其主张,并推动开源推理模型的发展。DeepSeek-R1是一个基于DeepSeek-V3的推理模型,通过强化学习训练,无需人类监督。尽管DeepSeek-R1的模型权重已公开,但训练数据和代码尚未公开。Open-R1计划分三步进行:复制R1-Distill模型,复制DeepSeek用于创建R1-Zero的纯强化学习流程,以及展示从基础模型到SFT再到RL的多阶段训练过程。该项目不仅旨在复制结果,还旨在与社区分享见解,节省时间和计算资源。
网易爆米花
网易爆米花(原网易Filmly)是一款由网易资深团队开发的智能媒体库和全能播放器。它聚合多种影片资源,智能识别影片信息并自动刮削封面海报,支持跨平台跨设备同步,无需下载视频即可流畅在线播放。该软件全程无广告,提供丰富的影片源导入方式,并支持多种音视频字幕编码,为用户提供极致的视觉盛宴。
DALV:免费追番看剧工具
免费的追番看剧网站。
学习资源
英伟达将免费开放 19 门 AI 技术课程:涵盖大模型、图形与仿真等领域
英伟达日前宣布将向公众免费开放 19 门自定进度的技术课程,每门课程原价最高可达 90 美元。这项举措是英伟达开发者计划的一部分,旨在帮助开发者和技术爱好者掌握 AI 与数据科学领域的前沿技术。课程内容涵盖五大领域,包括生成式 AI 与大语言模型(LLMs)、图形与仿真、加速计算、数据科学以及深度学习。
Go by Example 中文版
基于实践的 Go 语言学习资源,包含一系列带有注释的示例程序,涵盖从基础语法到高级特性,如协程、通道、并发控制等,适合不同阶段的学习者。
BTCStudy:比特币研究和讨论网站
专注于比特币研究和讨论的网站,主要提供关于比特币技术、经济和开发相关的文章和资源。
随便看看
给想要开始写博客的朋友的建议(英文)
作者为一位想要开始写博客的朋友提供了一些建议。作者认为,写博客的关键是找到自己的独特风格和声音,而不是试图模仿别人。作者建议朋友不要过多地考虑如何写作,而是尝试让自己感到愉快,并将自己的兴趣和个性融入到写作中。
作者还强调了写博客的目的是为了表达自己的想法和感受,而不是为了取悦他人。作者建议朋友写下自己的真实想法和感受,即使这些想法和感受不被所有人接受。作者认为,写博客是一种自我表达和交流的方式,可以帮助人们找到志同道合的朋友和读者。
在写作技巧方面,作者建议朋友从简单的格式开始,例如写一篇 500 字的文章,或者使用列表的形式。作者还强调了练习和耐心的重要性,建议朋友写 100 篇文章,每次都尝试改进一项技能。作者还提到了设定 deadline 和编辑的重要性,但也警告朋友不要过度编辑,以免失去写作的灵感和创造力。
最后,作者鼓励朋友们不要害怕表达自己的独特性和个性,写博客是为了找到自己的声音和风格,而不是为了取悦他人。作者认为,写博客是一种自我发现和成长的过程,可以帮助人们找到自己的兴趣和热情,并与他人建立联系。
原来,这些顶级大模型都是蒸馏的
中国科学院深圳先进技术研究院、北京大学和零一万物等机构的研究者在最新论文中探讨了大语言模型(LLM)的蒸馏现象。他们发现,除了Claude、豆包和Gemini之外,许多知名的闭源和开源LLM都存在较高的蒸馏程度。研究团队通过测试多个模型,发现如llama 3.1、Qwen-Max等模型的蒸馏程度较高。这种过度蒸馏可能导致模型同质化,降低模型的多样性和稳健性。
为量化LLM的蒸馏程度,研究者提出了两种方法:响应相似度评估(RSE)和身份一致性评估(ICE)。RSE通过比较原始LLM和学生LLM的输出,从响应风格、逻辑结构和内容细节三个方面评估相似度。ICE则利用GPTFuzz构造提示,绕过LLM的自我认知,揭示其训练数据中的信息,并定义了宽松分数和严格分数两个指标来衡量蒸馏程度。
实验结果表明,不同LLM的蒸馏程度存在显著差异。例如,GLM-4-Plus、Qwen-Max和Deepseek-V3等模型的蒸馏程度较高,而Claude-3.5-Sonnet和Doubao-Pro-32k等模型的蒸馏可能性较低。此外,基础LLM的蒸馏程度普遍高于监督微调的LLM,闭源的Qwen-Max-0919的蒸馏程度高于开源的Qwen 2.5系列。研究还发现,在团队、行业和技术方面的问题上,LLM的越狱成功率较高。
通过RSE实验,以GPT4o-0806为参考LLM,结果显示GPT系列LLM的响应相似度最高,而Llama3.1-70B-Instruct和Doubao-Pro-32k的相似度较低,DeepSeek-V3和Qwen-Max-0919的相似度较高。额外的实验进一步验证了所提框架的稳健性。这项研究为理解LLM的蒸馏现象提供了新的视角,并为未来模型开发和优化提供了重要参考。
什么是价值? 如何定义产品的价值?(英文)
本文深入探讨了价值的定义及其在产品设计中的重要性。价值是一个多维且主观的概念,其含义因视角而异。在个人层面,价值可能涉及情感满足和实用性;而在专业层面,它更侧重于战略契合度、市场吸引力和客户需求。价值的理解对于设计和产品团队至关重要,因为它涉及功能、财务、社会和心理四个维度,每个维度都对产品的整体价值有独特贡献。
在产品开发中,价值的定义往往模糊不清,设计师常被问及设计是否提供了所需的价值,但缺乏明确答案。价值并非单一指标或交付物,而是一种共享的理解,是不同视角、期望和欲望之间的协商。根据《牛津高阶英语词典》,价值可以从经济价值(价格)、实用性(有用性或重要性)、信念(道德和哲学基础)和可测量性(通过数据和指标)四个维度来理解。这四个维度共同构成了价值的复杂性。
在数字产品领域,价值的理解需要超越传统的经济视角,考虑无形体验、连接性和创新。这种扩展的价值观促使我们思考产品的长期影响和与用户的深度共鸣,而不仅仅是短期的利润。作者通过研究和实践,提出了一个基于客户价值观的产品设计方法。这种方法强调了理解客户价值观的重要性,并将其置于产品开发过程的中心。通过整合定量和定性数据,公司可以制定基于价值观的策略,创造与客户价值观相呼应的产品。
价值在不同商业模式中的应用也有所不同。在B2B、B2C等模式中,价值的交换和传递方式各不相同,但产品最终都会影响人类生活,体现和传递与人类需求、愿望和行为相呼应的价值。作者鼓励读者通过实验来探索价值的概念,选择任何数字产品,尝试识别其提供的四种价值类型。这种实验性的探索将增强对价值评估的理解,并帮助设计和产品团队更好地创造和传达价值。