肖恩技术周刊(第 38 期):陪伴
周刊内容: 对一周内阅读的资讯或技术内容精品(个人向)进行总结,分类大致包含“业界资讯”、“技术博客”、“开源项目”和“学习资源”等。
更新时间: 周一
历史收录: 技术周刊合集
订阅方式: 微信公众号“肖恩聊技术”,除周刊外还有更多原创技术博文,欢迎关注👏🏻~
开篇图
没有什么比看着孩子一天天长大更开心的事了。
业界资讯
20万张GPU!马斯克掏出「地表最强」大模型Grok-3,排行榜登顶,复仇OpenAI
2025年2月18日,马斯克的xAI团队发布了最新旗舰大模型Grok-3及其轻量版本Grok-3 mini。该模型系列性能大幅提升,比前代Grok-2好10倍,并采用扩展数据集训练。Grok-3在数学、科学和编程领域表现出色,超越Gemini-2 Pro、DeepSeek-V3等模型,在Chatbot Arena中得分高达1420分,位居第一。其推理能力尤为突出,解锁了测试时计算能力,在AIME 2025数学竞赛中占据前两名。
此外,Grok-3还具备强大的智能体能力,可通过DeepSearch进行深入研究、头脑风暴、数据分析、图像生成和代码编写等操作。xAI计划推出Grok驱动的语音应用,支持用户语音对话并保留部分对话记忆。在商业模式上,Grok-3将通过X Premium+订阅提供,SuperGrok版本收费每月30美元或每年300美元。xAI继续遵循开源原则,新一代模型发布后将开源上一代模型。
量子计算里程碑!微软单芯片可百万量子比特,Nature研究爆火
微软宣布开发出Majorana 1量子计算芯片,这是其17年研究的成果。该芯片基于“拓扑导体”这一全新物质状态,可在单芯片上集成数百万量子比特,有望推动量子计算机的大规模应用。拓扑导体利用马约拉纳粒子进行计算,通过其独特性质保护量子信息,使量子比特更可靠。微软展示了从单量子比特设备到多量子比特阵列的路线图,并计划通过4×2四元组阵列实现可扩展量子误差校正(QEC),将开销降低十倍。这一成果不仅为量子计算的工程化奠定了基础,还为未来在材料科学、农业和化学等领域的应用提供了可能。微软还与美国国防高级研究计划局(DARPA)合作,计划在未来几年内建造基于拓扑量子比特的容错原型量子计算机。
技术博客
百度网盘防雪崩架构实践
本文详细介绍了百度网盘的防雪崩架构实践。百度网盘用户超10亿,日PV过千亿,内部实例数达60万+,模块数过千。在高并发场景下,系统容易因短暂异常进入雪崩状态,表现为初始阶段的过载和循环阶段的无效请求死循环,严重影响用户体验。
传统方法从预防、阻止和止损三个方向入手。预防包括热点治理、长尾治理等,阻止包括重试率控制、队列控制和限流等,止损则依赖人工调整限流阈值或重启服务。然而,这些方法存在诸多问题,如静态限流阈值难以适应动态变化,重试率控制难以确定合理值,队列控制依赖假设条件,且在极端负载下可能失效。
百度网盘通过动态熔断和流量隔离减少过载流量。动态熔断借鉴网络拥塞控制思想,根据下游成功率动态调整请求转发比例,避免静态熔断的缺陷。流量隔离则通过分级流量和隔离机制,确保高优流量不受低优流量影响。此外,百度网盘通过请求有效性和Socket有效性减少无效请求。请求有效性通过传递截止时间并结合相对超时时间解决问题,但需应对网络故障等缺陷场景。Socket有效性则通过检测客户端是否断开连接,避免处理无效请求。
百度网盘的防雪崩架构通过流量限制和流量处理两部分实现,显著提升了系统的可用性。实践证明,该架构能有效规避雪崩故障,保障业务稳定运行。
Linux 文件硬链接和软链接的思维模型(英文)
本文深入探讨了Linux系统中文件、硬链接和软链接的机制及其行为特点。文章首先指出,Linux文件由数据块、inode和路径名组成。数据块存储文件内容,inode包含文件元数据(如权限、大小等),路径名则是用户访问文件的标识。这种结构使得文件在存储和访问上具有灵活性。
硬链接是将路径名与inode直接关联的一种方式。通过硬链接,多个路径名可以指向同一个inode,从而共享同一文件内容。硬链接的创建和删除不会影响文件的实际数据,只有当所有硬链接都被删除后,inode才会被释放,文件数据块也会随之被标记为可回收。硬链接的一个重要特性是它不能跨越文件系统,且不能链接到目录。
软链接(符号链接)则与硬链接不同。它是一个独立的文件,有自己的inode和数据块,其内容是目标文件的路径名。软链接可以跨越文件系统,也可以指向目录。在I/O操作中,如复制文件时,软链接默认会复制目标文件的内容,而不是链接本身。但如果使用特定参数(如cp -P),则会复制软链接文件本身。软链接在移动或删除目标文件后会变成悬挂链接,但其内容(即目标路径名)保持不变。
文章还讨论了硬链接和软链接在文件操作中的行为差异。例如,移动软链接文件时,其路径名会更新,但仍然指向原始目标文件。而硬链接的移动则不会改变inode的关联。此外,软链接在目标文件被删除后会失效,而硬链接则不会受到其他硬链接删除的影响。
总的来说,文章通过对比硬链接和软链接的特性,帮助读者深入理解Linux文件系统中这两种链接机制的工作原理及其在实际操作中的行为表现。这对于系统管理员和开发者在文件管理和系统维护中具有重要的指导意义。
Instagram 如何将其基础设施扩展到支持 10 亿用户(英文)
本文探讨了Instagram如何通过扩展基础设施来支持十亿用户。Instagram自2010年推出后迅速增长,早期运行在AWS上,面临服务器过载和数据库扩展问题。2012年被Facebook收购后,Instagram迁移到Facebook的数据中心,利用其工具和技术实现大规模扩展。
Instagram的扩展策略包括三个维度:向外扩展(增加服务器)、向上扩展(优化现有服务器性能)和团队扩展(优化开发流程)。向外扩展方面,Instagram采用分布式数据库(如PostgreSQL和Cassandra)和负载均衡系统,利用Facebook的TAO、Scuba和Tupperware等工具优化资源利用。向上扩展方面,Instagram通过优化数据库查询、使用缓存(如Memcached)和改进代码性能(如将Python代码替换为C++实现)来减少CPU负载。团队扩展方面,Instagram采用持续部署模型,每天多次推送代码更新,通过逐步部署和实时监控确保系统稳定性。
Instagram的后端架构包括Django(核心Web框架)、RabbitMQ(消息代理)和Celery(异步任务处理)。存储服务方面,Instagram使用PostgreSQL存储结构化数据,Cassandra存储分布式数据,Memcached缓存频繁访问的数据,Haystack优化媒体文件存储和检索。数据一致性方面,Instagram通过缓存失效机制和Memcache Lease机制解决“雷暴群”问题,避免数据库过载。
Instagram的持续部署模型包括代码审查、自动化测试、金丝雀测试和实时监控,确保新代码不会引入性能问题。通过Linux性能分析工具,Instagram优化CPU使用,确保系统高效运行。
总之,Instagram的成功扩展归功于其精心设计的基础设施和部署策略。通过技术优化和持续部署,Instagram能够高效处理数十亿次日常交互,同时保持高性能和稳定性。
开源项目
milvus:高性能、云原生的向量数据库
Milvus是一个高性能的向量数据库,用于处理大规模的非结构化数据,例如文本、图像和多模态信息。
vditor:开源的浏览器端 Markdown 编辑器
vditor是一款开源的浏览器端 Markdown 编辑器,支持多种编辑模式,包括所见即所得(WYSIWYG)、即时渲染(类似 Typora)和分屏预览模式。
tool:Mac生产力工具推荐
关于Mac生产力工具推荐,涵盖了Markdown编辑器、Mac重度依赖工具、终端工具、Chrome扩展插件、Alfred工作流以及一些其他实用工具的推荐。
学习资源
pdfs:技术文档集合
技术文档集合的索引,展示了大量与计算机科学和技术相关的资料,涵盖了从基础理论到高级应用的多个方面。
提问的智慧
《How To Ask Questions The Smart Way》是由知名黑客Eric S. Raymond和Rick Moen共同撰写的指南,旨在教导人们如何正确地提出技术问题以获得满意的答案。这份指南强调了在技术社区中提问的智慧和技巧,倡导提问者在寻求帮助时表现出尊重、努力和清晰的思考,以提高获得有效帮助的可能性。
命令行的艺术
一份关于如何在Linux环境下高效使用命令行的指南。
随便看看
成为中国最大连锁品牌:蜜雪冰城成长史
蜜雪冰城自1997年由张红超、张红甫兄弟创立以来,从最初的“寒流刨冰”逐步发展成为全球门店数量最多的消费品牌。其成功源于对供应链的持续投入和创新的加盟模式。早期,蜜雪冰城通过低价策略和产品创新站稳脚跟,并逐步建立冷链配送体系,从常温罐头转向新鲜水果,提升产品质量。2014年后,公司通过大规模采购和集中配送降低成本,同时建立工厂实现原材料自产自供。
2018年,蜜雪冰城推出“雪王”IP,通过洗脑式广告语和歌曲迅速提升品牌知名度。此后,公司加快门店扩张,从2014年的2万家增长到如今的4.5万家,并开放乡镇市场加盟,进一步扩大市场覆盖范围。在加盟商管理方面,蜜雪冰城通过严格筛选、优化利益分配机制和取消区域保护范围等策略,鼓励加盟商在好位置开店,以应对市场竞争。
蜜雪冰城的成功不仅在于供应链建设和品牌推广,还在于其对加盟商的精细化管理。公司通过提供低价优质原料、严格的品控体系和持续的培训支持,帮助加盟商实现盈利。同时,蜜雪冰城也在全球范围内布局,目前已在海外开设超过1000家门店,并计划在海南、广西、越南等地设厂,进一步优化供应链。
未来,蜜雪冰城将继续朝着“两美元让全球人民吃饱喝好”的愿景迈进,通过持续创新和优化供应链,保持低价优势,同时提升品牌竞争力。其全球扩张计划和对加盟商的支持策略,使其成为中国距离“百万家店”梦想最近的企业。
生成式 AI 骗局(英文)
生成式AI从一个新颖的概念变成了21世纪最大的泡沫之一。尽管像GPT-4o这样的模型有其用途,但这并不意味着生成式AI是一个可持续的、万亿美元规模的行业。
ChatGPT声称有3亿周用户,但这一数据的真实性存疑。媒体报道和行业炒作对用户数量的夸大作用明显,而用户数量并不能证明一个行业的可持续性或盈利能力。ChatGPT的用户增长数据与Similarweb提供的数据不符,这进一步引发了对OpenAI数据真实性的怀疑。
在财务和商业模式方面,作者质疑OpenAI和Anthropic等公司烧钱严重且缺乏盈利能力。这些公司通过制造泡沫吸引投资,但未能找到可持续的盈利模式。文章还批评了生成式AI产品如Deep Research的质量低下,引用的资料不可靠,且这些产品并没有真正改变人们的生活。
生成式AI对环境和社会存在潜在负面影响,是一个金融、生态和社会定时炸弹。它对科技行业和社会关系造成了根本性的损害。文章最后呼吁人们认识到这些技术的局限性,停止对这些公司的盲目追捧,因为生成式AI行业的泡沫最终会破裂,届时将对科技行业和社会造成严重的后果。
AI爬虫大战让互联网变得更封闭
本文探讨了AI爬虫对互联网开放性的影响。AI爬虫通过大量抓取网络数据以训练AI模型,但这一行为引发了网站的抵制。网站担心自身数据被AI利用后会损害其经济利益,因此采取了诉讼、立法和技术手段加以限制。例如,《纽约时报》对AI公司提起版权侵权诉讼,欧盟的《人工智能法案》也赋予版权所有者拒绝AI使用数据的权利。许多网站还设置了访问限制并采用反爬虫技术,以保护自身数据。
然而,这种限制措施虽然在一定程度上保护了网站的利益,但也导致互联网逐渐趋于封闭。这种趋势不仅阻碍了AI的发展,还影响了真实用户的体验,并破坏了有益爬虫的生态多样性。未来,互联网可能会被分割成一个个数据孤岛,权力集中在少数大公司手中。小型创作者可能因无法承担数据保护成本而选择付费专区或停止发布内容,普通用户获取网络内容的难度也会增加。
文章指出,这种“爬虫大战”对各方都是一种损失。大型网站、出版商和科技公司虽然有能力应对,但网络生态的多样性正在降低。为了实现可持续发展,未来需要构建一个合理的生态系统,平衡各方利益,避免互联网因数据封锁而陷入分裂。