肖恩技术周刊(第 32 期):克隆声音
周刊内容: 对一周内阅读的资讯或技术内容精品(个人向)进行总结,分类大致包含“业界资讯”、“技术博客”、“开源项目”和“学习资源”等。
更新时间: 周一
历史收录: 技术周刊合集
订阅方式: 微信公众号“肖恩聊技术”,除周刊外还有更多原创技术博文,欢迎关注👏🏻~
开篇图
公众号朗读音色可以自定义了,克隆了自己的声音,还是蛮像的,哈哈。
业界资讯
从黄仁勋CES演讲,看英伟达庞大AI棋局:物理AI、AI PC、通用机器人
在CES 2025上,英伟达创始人黄仁勋发表了重要讲话,全面展示了英伟达在AI领域的战略布局与创新成果。他回顾了英伟达的发展历程,从1993年NV1到如今,英伟达不断推动计算技术的变革,将AI发展划分为感知AI、生成式AI、Agenic AI和物理AI四个阶段。
黄仁勋发布了RTX Blackwell系列GPU新品,该系列GPU拥有920亿个晶体管,AI算力最高达4000 TOPS,美光G7内存,带宽可达每秒1.8 TB,包括RTX 5070、RTX 5070 Ti、RTX 5080、RTX 5090四种型号,搭载该系列GPU的笔记本电脑性能大幅提升,功耗降低。
他还介绍了由72块Blackwell GPU组成的NVLink72巨型“盾牌”模型,其AI浮点运算性能是1.4 ExaFLOPS,内存带宽达到1.2 PB/s。针对Agenic AI,英伟达推出NVIDIA NIMS、NVIDIA NEMO以及一整套AI Blueprints等产品,助力企业实现Agenic AI变革,未来企业的IT部门将转变成AI智能体的HR部门。
在个人电脑领域,黄仁勋提出将Windows PC转变为AI超级计算机,通过Windows WSL2解决方案,让所有AI工具都能在Windows PC上运行。此外,英伟达发布Cosmos,这是一个强大的、能理解物理世界的、全球基础模型,已学习2000万小时的视频,可生成训练数据、帮助开发更智能的机器人等,并将其开源与Omniverse结合。
自动驾驶方面,英伟达展示了广泛合作成果,并发布新一代车载处理器Thor,其处理能力是上一代Orin的20倍,DRIVE OS获得ASIL-D认证。通用机器人领域,黄仁勋提出ISAAC Groot平台,加速从专用机器人向通用机器人的过渡。最后,他还介绍了“Project DIGITS”项目,展现了将企业级AI计算能力带入个人桌面的雄心,该产品预计2025年5月上市。
智源研究院发布2025十大AI技术趋势,安全科技与AI发展同等重要
北京智源人工智能研究院发布了“2025十大AI技术趋势”,为行业指明了发展方向。主要包含:AI4S成为推动科学研究范式变革的关键力量,多模态大模型将融入科学研究,助力多领域研究开辟新方向。具身智能领域,2025年将从本体扩展到具身脑,行业格局或迎来洗牌,技术路线不断迭代,商业变现上将有更多工业场景应用出现。多模态大模型进化方面,原生多模态技术路线成重要方向,构建原生多模态大模型可实现多模态统一。Scaling Law扩展上,后训练与特定场景的Scaling Law不断被探索,强化学习将得到更多应用。世界模型发布,注重“因果”推理的世界模型将推动AI在前沿领域的深度应用。合成数据应用方面,其可降低数据治理成本、提升数据多样性、缓解数据垄断问题,促进大模型应用落地。推理优化迭代,算法加速和硬件优化技术持续迭代,助力AI Native应用落地。Agentic AI产品落地,更通用、自主的智能体将深入工作与生活场景,成大模型产品落地重要应用形态。AI应用热度攀升,生成式模型能力提升,技术持续发展,为AI超级应用落地积基树本。AI安全治理体系完善,需引入新技术监管方法,在人工监管上平衡行业发展和风险管控。
技术博客
软件开发中认知负荷很重要(英文)
本文着重强调了在软件开发中降低认知负荷的重要性。认知负荷分为内在和外在两种,其中外在认知负荷可通过优化代码结构和开发实践来减少。文章通过具体示例,如简化复杂条件语句、避免过度继承和过多小模块等,阐述了降低外在认知负荷的方法。同时指出,应关注模块对用户的单一职责,合理使用语言特性,避免过度抽象和滥用框架。文章还提到,项目熟悉度可能导致对代码复杂性的忽视,新成员的反馈有助于识别高负荷区域。保持低认知负荷可使新成员快速为代码库做出贡献,提高开发效率和代码可理解性。
从头到尾说一说Java时间日期体系的前世今生
文章全面回顾了Java时间日期体系的发展历程,从地球生命起源和宇宙大爆炸引出时间概念,进而聚焦于计算机领域的时间表示。文章指出1970年1月1日作为Unix时间纪元起点,与32位操作系统的时间表示能力密切相关。接着,文章介绍了GMT和UTC的概念,强调了UTC通过原子钟提高时间精度的重要性。
文章对JDK中时间日期类的发展进行了批评与分析。java.util.Date类因存在诸多问题,如无法单独表示日期或时间、API设计不合理、缺乏时区支持以及可变性等,而受到诟病。Calendar类虽作为补充,但仍存在线程安全和API笨重等问题。文章重点介绍了Java 8中引入的JSR310规范,该规范由Joda-Time作者主导,包括Instant、LocalDateTime、Duration和ZonedDateTime等类,这些类在不可变性、时区处理和API设计上具有显著优势,有效解决了Date类的问题。
此外,文章还探讨了夏令时和闰秒的概念,解释了它们的起源、实施情况以及对计算机系统的潜在影响。夏令时的调整可能导致时间计算错误,而闰秒的添加需要特别处理以保持时间准确性。文章最后强调了理解事物发展背景的重要性,并鼓励读者在设计新系统时考虑历史因素,避免重复过去的错误,体现了对历史设计意图的尊重和对未来设计的深思熟虑。
从原理出发 - 提示词如何影响大模型的输出
这篇文章探讨了提示词如何影响大型语言模型的输出。提示词是模型的输入,用于引导生成特定回答。它包含指令、上下文、输入数据和输出指示器四个要素,其中指令最关键。优质提示词能清晰传达用户意图,而不良提示词可能导致模型误解。
文章介绍了GPT模型的结构,包括掩码多头自注意力层和前置反馈网络层。自注意力层负责理解输入和捕捉上下文,前置反馈网络层提取高级特征。通过缩放点积注意力和多头注意力机制,模型从不同角度关注信息,生成上下文向量。
最终,模型基于上下文向量生成输出,通过解码策略选择合适的词汇。文章强调AI是学习相关知识的有力工具。
开源项目
WikiChat:纠正大模型幻觉工具
WikiChat 是一个由斯坦福大学开发的开源项目,旨在通过从语料库中检索数据来减少大型语言模型(LLM)的幻觉问题。
Roo-Cline:编程智能体
Cline的一个分支版本,带有一些额外的实验性功能。主要是在自我编写代码,偶尔会有一些人类的指导。
ai-rss:AI生成网页RSS订阅源
ai-rss是一个利用人工智能技术将网页内容转换为RSS订阅源的工具。它由两部分组成:一个浏览器插件和一个服务器端应用。浏览器插件允许用户选择网页中的列表项并生成结构化数据描述(SDD)文件,而服务器端则负责读取SDD文件,抓取并分析网页内容,最终生成RSS订阅源。
工具推荐
kenney:免费游戏素材
免费游戏素材,直接开始游戏创作之旅吧。
msty:本地大模型聊天软件
Msty是一款简化AI模型使用的应用程序,提供一键式设置和无需Docker或终端操作的便捷性。它支持离线和在线模式,可同时对比多个AI模型的响应,还具备实时数据检索、知识堆栈构建、多模型访问和提示库等特色功能,旨在提升用户的研究效率和隐私保护。
pensieve:自动截取屏幕并构建本地智能索引
Pensieve是一个注重隐私的被动记录项目,能够自动记录屏幕内容、构建智能索引,并提供便捷的Web界面以检索历史记录。
学习资源
bRAG-langchain:RAG基础知识到高级实现指南
项目全面探索了检索增强生成(RAG)技术在多种应用中的使用。
Embodied-AI-Guide:具身智能入门指南
Embodied AI(具身智能)入门的路径以及高质量信息的总结,按照路线走完后,新手可以快速建立关于这个领域的认知。
Google:智能体白皮书
探讨了生成式人工智能模型如何通过使用外部工具来扩展其能力,类似于人类在进行复杂任务时借助工具的做法。文章详细介绍了生成式AI模型如何利用数据库检索工具、API调用等手段获取实时信息或执行实际操作,从而实现自主规划和执行任务的能力。这种结合推理、逻辑和外部信息访问的能力,使生成式AI模型具备了类似代理程序的功能,能够超越其本身的能力范围。
随便看看
使用大模型编程经验(英文)
作者关于在编程中使用生成式语言模型(LLMs)的经验分享。作者对新技术充满好奇,主动探索LLMs在编程领域的应用,发现其对提升编程生产力有着显著作用,尤其在自动补全、搜索和聊天驱动编程这三个方面表现突出。
在日常编程实践中,作者主要通过上述三种方式借助LLMs来辅助编程,其中聊天驱动编程为作者带来了最多的价值,不过这也要求作者调整自身的编程方式。通过聊天驱动编程,LLMs能够为作者生成编程初稿,虽然初稿中会存在一些错误,但相较于从零开始编写代码,修复这些错误要容易得多。这种方法特别适用于那些需要快速生成代码初稿的场景,比如在作者精力不足的时候,能够借助LLMs描述需求,进而获得一份代码初稿,有效节省时间和精力。
LLMs在处理类似考试风格的问题时优势明显,当问题具有明确的目标且有充足的背景材料时,LLMs能够生成详尽的代码审查包,并且能够根据提问者的反馈进行相应的调整。此外,LLMs还使得编写更小且数量更多的代码包变得可行,因为这些小包可以独立编译和测试,而LLMs能够承担起额外的输入和管道工作,从而有助于提升代码的可读性。
作者还介绍了正在开发的Go编程工具sketch.dev。该工具旨在为Go语言编程提供一个深度整合LLMs的平台,类似于Go Playground,但增添了聊天界面、UNIX环境、goimports和gopls集成以及自动模型反馈等诸多功能,目的是为了提高LLMs在编程过程中的应用效率。sketch.dev专注于特定的编程环境,对传统的IDE概念发起挑战,为LLMs打造了一个独立的“IDE”,以便更好地收集反馈信息,进而提升编程效率。
盘点2024年的“AI 事故”:内容垃圾、幻觉与滥用
2024年AI领域面临诸多问题,其中AI内容垃圾泛滥,生成式AI让内容创作变得容易,大量质量不佳的AI内容充斥互联网,从电子邮件新闻简报到社交媒体图片等,这不仅令人厌恶,还可能使依赖互联网数据训练的AI模型输出质量下降,形成有害反馈循环。超现实AI图像也开始渗透现实生活,如“Willy's Chocolate Experience”活动宣传材料与实际场地不符,都柏林不存在的万圣节游行误导民众聚集,暴露了公众对AI生成内容盲目信任的问题。
xAI开发的Grok几乎无视生成内容的防护措施,可生成暴力、色情等有害图像,削弱了其他公司避免争议内容的努力,引发广泛争议,对行业规范造成挑战。歌手Taylor Swift的非自愿色情深伪图像在社交媒体平台传播,表明AI生成工具的防护措施可被技术性手段绕过,凸显了加强技术开发与法律保护的紧迫性,以防止类似事件再次发生。
企业引入的AI聊天机器人常编造信息,如加拿大航空公司的聊天机器人建议客户按不存在的政策申请退款,快递公司DPD的聊天机器人用粗口回复等,凸显了其潜在风险,需谨慎设计和监控。Humane公司的Ai Pin和Rabbit公司的Rabbit R1等AI硬件产品销量惨淡,揭示了AI在硬件领域的应用需找到真正符合市场需求的方向。谷歌AI摘要功能曾给出荒唐建议,苹果应用通知摘要功能生成虚假新闻头条等,表明AI生成摘要虽能提高信息整理效率,但在准确性和可靠性方面存在缺陷,需加强审核和提升信息筛选能力。