AI | 萌叔

AI涨价风暴：你的下一部手机，可能要为大模型买单

版权声明本站原创文章由萌叔发表转载请注明萌叔 | http://vearne.cc 从内存、显卡到家用电器，一场由AI算力需求引爆的全产业链涨价潮正在重塑全球科技产品的价格体系。 2025年底，当游戏玩家们攒够钱准备升级电脑时，发现原本预算中的内存条价格已经翻倍。深圳华强北的柜台前，16G DDR4内存条从180元涨到400元以上，而一根256G的DDR5服务器内存条售价突破4万元。同一时间，江苏一家制造业企业的采购总监收到通知：工业级芯片的交货周期从8周延长到26周，价格上调30%。美国弗吉尼亚州的数据中心运营商正在重新评估电力合同——当地电价在一年内上涨了13%，而他们的电力需求还在持续增长。这些看似孤立的事件，都指向同一个源头：AI引发的全球产业链价值重估。 1. 价格雪崩的反面：存储芯片的"超级周期" 存储芯片市场曾以剧烈的周期性波动著称，但这一轮上涨与以往截然不同。 DDR5内存的现货价格在2025年7月至2026年1月间飙升至原来的4.4倍，而三星DDR5内存条在韩国分销渠道的价格更是达到了2025年11月的4倍。TrendForce预测，2026年第一季度的存储合约价将继续大幅上涨：DRAM涨幅达55%-60%，NAND闪存涨幅达33%-38%，远超此前预期。芯片品类具体涨幅时间范围关键影响因素消费级DDR5内存飙升至4.4倍 2025年7月 vs 2026年1月 AI服务器需求挤占产能三星DDR5内存条价格是4倍 2025年11月 vs 2026年1月高端产能优先供应HBM 存储合约价（预测） DRAM涨55%-60% NAND涨33%-38% 2026年第一季度 TrendForce最新预测服务器CPU 调涨10%-15% 2026年第一季度英特尔、AMD产能紧张涨价的根本逻辑是结构性失衡。一台AI服务器对DRAM内存的需求是普通服务器的8倍，对NAND闪存的需求是3倍。当存储巨头将超过70%的先进制程产能分配给利润更高的HBM（高带宽内存）时，消费级产品的供应自然被挤压。 2025年12月，美光宣布逐步退出消费级DRAM市场，将资源集中于数据中心和AI领域。这个决定像一块投入平静湖面的巨石，在整个产业链激起连锁反应。 2. 涟漪效应：半导体全产业链的共振涨价浪潮从存储芯片开始，迅速蔓延至整个半导体产业链。在芯片设计环节，亚德诺（ADI）宣布自2026年2月1日起全线产品涨价10%-15%，工业级产品涨幅更高。在制造端，中芯国际、台积电等代工厂在2025年第四季度陆续发出涨价通知，涨幅在5%-10%之间。封装测试环节同样紧张，日月光、长电科技等厂商将封测价格调涨5%-20%，其中用于AI芯片的先进封装服务涨幅最大，部分订单排队时间超过一年。半导体材料市场同步响应。用于芯片制造的12英寸硅片在2025年内价格上涨接近90%，特种气体如六氟化钨的市场报价普遍上调70%至90%。这些基础材料的涨价，进一步抬高了整个芯片制造环节的成本。 3. 终端产品的"成本病"：从B端到C端的传导芯片和材料的涨价最终传导至消费者手中。小米最新款旗舰手机的起售价较上一代上调了500元，内存成本在手机总成本中的占比从10%-15%飙升至20%以上。个人电脑市场同样承压，戴尔、惠普、联想等厂商已通知渠道伙伴，PC和服务器产品价格将上调15%-30%。一位代理商透露：“有厂商直接建议，如果半年内有采购计划，最好现在就下单锁定价格。” 汽车行业虽然单车芯片成本占比较低，但影响同样显著。蔚来创始人李斌坦言，内存涨价是2026年最大的成本压力之一，可能影响部分车型的交付周期。更深远的影响在于，当AI芯片与汽车芯片争夺同一批晶圆产能时，整个汽车行业的供应链稳定性面临挑战。这场涨价潮的传导链条清晰而残酷：AI算力需求 → 存储芯片供应紧张 → 半导体全产业链涨价 → 终端电子产品成本上升 → 消费者支付更高价格。 4. 不只是芯片：电力、金属与连接的基础设施压力 AI的影响远不止半导体领域。训练大型AI模型的能耗惊人——GPT-4的单次训练耗电量相当于1.2万个美国家庭的年用电量。国际能源署预测，到2026年全球数据中心的电力需求将达到1000太瓦时，接近日本全国的年用电量。电力需求的激增推高了相关地区的电价。美国数据中心密集的弗吉尼亚州，2025年电价上涨13%。2026年1月的寒潮期间，美国天然气价格一度暴涨140%，电网运营压力巨大。金属市场同样受到影响。一台AI服务器的用铜量高达1.3吨，是传统服务器的400倍。伦敦金属交易所铜价在2025年上涨43%，创下2009年以来最大年度涨幅。这直接导致空调、家电等行业被迫采用"铝代铜"方案或直接提价。 ...

从AI智能体到多智能体协作

1. AI智能体什么是智能体？智能体（AI Agent）是指能够感知环境、自主决策并执行任务以实现特定目标的智能实体。它以大模型为智能底座，具备自主感知、理解、规划、决策、记忆和行动的能力，能够自动化执行复杂任务智能体 = LLM + Prompt + 知识库(Retrievers, optional) + Tools(optional) + Memory(optional) + chain(optional) 可以参考LangChain 实现 1.1 RAG(知识库) 1.2 MCP 1.2.1 组成部分 Tools Resources Prompts 1.2.2 协议 stdio SSE(已废弃) Streamable HTTP 重要说明 Streamable HTTP是有状态的(也支持无状态) 引入Mcp-Session-Id和Last-Event-ID，支持断点续传 1.2.3 调试工具 npx -y @modelcontextprotocol/inspector 1.2.4 体系中的位置 1.2.5 演示 1.3 记忆(Memory) Mem0: Building Production- Ready AI Agents with Scalable Long-Term Memory cursor也引入Memory 2. 多智能体协作 2.1 原因 2.1.1 解决认知过载和信息过载问题 ...

AI应用中的社会化分工现象

1. 引言最近萌叔拆解了几个AI应用，其中包含coze和dify创建的工作流，也包含TradingAgents。我发现它们中都包含 1）多个智能体的协作 2）一套预定义的工作流多个智能体的角色划分和工作流与人类团队的组织架构和工作流程高度相似。这种现象类似于人类社会的社会化分工。这种现象是偶然的，还是有其必然性？它对AI应用的未来发展又有着怎样的深远影响？ 2. TradingAgents中的组织架构和工作流程下面我们以TradingAgents为例，来看看在TradingAgents中，多个智能体是如何进行协作的。 2.1 组织架构上图展示了TradingAgents的组织架构，其中每个角色都有明确的职责，并通过协作完成复杂的交易任务。 2.2 工作流程可以明显想到组织架构和工作流程是必须配合使用的，单独存在并没有什么意义。我们来看看整个工作流程 1)分析师（市场分析师，社交媒体分析师，新闻分析师，基本面分析师）进行信息收集 2)收集的信息交给研究员团队(看涨研究员，看跌研究员) 进行研究 3)研究经理针对研究员的辩论结果进行总结，得出研究报告 4)交易员针对研究报告，制定交易计划 5)交易计划提交给风险管理团队(激进分析师，保守分析师、中性分析师)进行风险评估 6)风险裁判针对风险分析师的辩论结果做出最终决策。整个工作流中出现了13种不同的角色，角色使用langchain进行定义，工作流使用langgraph定义。注意：langgraph 是有向图，但是其中可能是有环的。通过上述对TradingAgents的分析，我们可以看到多智能体协作的复杂性和有效性。那么，这种现象背后的原因是什么呢？ 3. 推测的原因萌叔推测可能有2个原因，导致AI应用中不自觉的出现了社会化分工，以及多智能体的协作。 3.1 克服认知过载目前主流的大型语言模型都是基于深度神经网络构建的，类似于隐马尔科夫链，模型是依据输入token，从统计学的角度来“预测”输出。模型输出结果的准确性和输入token的数量大致符合下面的图这里输入token的数量其实反应的是某种限定性。 1) 第1阶段随着输入token数量的增加，准确率越来越高 2) 第2阶段准确率达到模型的最佳效果 3) 第3阶段随着输入token数量的增加，准确率反而开始下降举个示例想想一个场景，你打算让AI画一幅画。(图片由豆包生成) a) 少量限定词请帮我画一个动物。由于没有足够的限定，随机性太强，AI画出来的可能是狗、兔子、鹦鹉… b) 进一步，你修改提示词请帮画一只狗，狗是一只棕色的泰迪。它正在撕咬一个黄色的拖鞋。显然这一次，结果是明确的了。 c) 进一步，增加输入请帮画一只狗，狗是一只棕色的泰迪。它正在撕咬一个黄色的拖鞋。拖鞋上有米奇和米妮在跳舞。上面的图，图2和图4已经出现了逻辑错误。原因是AI错误的理解我的意图。上面的例子可能不算特别的恰当，但是过多的输入确实引入更多的不确定性，整体的准确率是下降的。另外更多的输入，还可能导致选择性的遗忘。就好比，你向家中幼小的孩子交代要去超市购买一系列的商品，那么当他兴致勃勃的回到家中时，你会发现总有那么几样商品会被遗漏。并且我的实践表明，越是智商高的模型，遗忘的概率越低，比如ChatGPT 4的表现就要优于ChatGPT 3.5。 ...

大语言模型中的ReAct框架

1.简介请注意，这里的ReAct并非指前端开发框架react，而是由reasoning（推理）和acting（行动）两个英文单词组合而成的术语。ReAct是一种创新的通用框架，它将语言模型中的推理与行动相结合，旨在高效解决各类复杂的语言推理及决策任务。 2. ReAct实际过程 while 未达成目标 { // 1. 调用LLM进行推理 reasoning(); // 2. 调用外部工具采取行动，并将行动结果，放入与LLM交互的上下文中，作为LLM推理的素材 acting(); } 其本质是执行多轮 reasoning + acting，把acting的结果放入与LLM交互的上下文中，作为LLM下一轮推理的素材 ReAct克服了链式思考推理中普遍存在的幻觉和错误传播问题，生成了更具可解释性的类似人类思考过程的任务解决轨迹，并能够提高大型语言模型在多种任务上的准确性。 3. 示例 3.1 迷宫说明为了说明ReAct框架，萌叔构建了一个迷宫 🧱🧱🧱🧱🧱🧱🧱 🧱😎🛣️🧱🧱🧱🧱 🧱🧱🛣️🛣️🛣️🧱🧱 🧱🧱🧱🧱🛣️🧱🧱 🧱🧱🛣️🛣️🛣🧱🧱 🧱🧱🧱🧱🛣️🏁🧱 🧱🧱🧱🧱🧱🧱🧱 player当前的位置是(1,1), 终点的位置为(5,5) 每次可以移动一步，只能是下面4种动作之一 (1, 0) (0, 1) (-1, 0) (0, -1) 限制 player的视野是有限的，仅能观察到其周围的局部区域。形如 🧱🧱🧱🏿🏿🏿🏿 🧱😎🛣️🏿🏿🏿🏿 🧱🧱🛣️🏿🏿🏿🏿 🏿🏿🏿🏿🏿🏿🏿 🏿🏿🏿🏿🏿🏿🏿 🏿🏿🏿🏿🏿🏿🏿 🏿🏿🏿🏿🏿🏿🏿 正因视野受限，player在迷宫中的行进过程只能是探索式的：每走一步，便观察一下周围环境，再据此尝试下一步的行动，如此反复，直至抵达终点。 3.2 代码片段完整代码 example # 初始化 Kimi 模型 llm = ChatOpenAI( model_name="gpt-3.5-turbo", # 或其他 Kimi 模型名 # openai_api_base=kimi_api_base, temperature=0.1 ) agent = initialize_agent( tools=[move_tool, observe_tool], # 工具列表 llm=llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, # 指定智能体类型 max_iterations = 200, verbose=True # verbose=True 可以打印出详细的推理过程 ) # 3. 运行智能体 - 使用新的invoke方法 question = """ 你作为player当前处于一个 7*7的二维矩阵中，'X'是你的位置，'#' 都是墙体，只有 '0' 是通道， '-' 表示未知初始坐标为(1，1)，你需要设法到达(5，5) 注意: 只能沿着通道移动你每次可以移动一步，只能是下面4种动作之一 (1, 0), (0, 1), (-1, 0), (0, -1) 请你给出一个完整的移动轨迹，如果可以尝试推测一下矩阵的情况 """ response = agent.invoke({"input": question}) print(response) 注意: 复杂的任务可能需要修改 max_iterations ...

小智机器人

1.引言最近有一个很火的开源项目小智机器人-xiaozhi-esp32。类似于小度音箱和小爱音箱，你可以和小智进行语音沟通，但是小智的服务端对接了大模型（千问、DeepSeek等）。所以它是一个智能体，可以和用户进行更丰富和有趣的对话。 2.特点 2.1 开源MIT协议，可以用于商用 2.2 支持语音唤醒需要特定硬件 2.3 基于流式 ASR + LLM + TTS 架构的语音交互 2.4 OLED / LCD 显示屏，支持表情显示 2.5 设备端为ESP32-C3、ESP32-S3、ESP32-P4 芯片平台价格低廉(最便宜大概50元左右，一般情况小于200元) 立创开发板立创的这块开发板还带有摄像头，也就是说可以进行图像识别。爱动手的可以买元器件自己装，懒人可以直接在淘宝和京东上买成品。 2.6 后端也有开源实现 xinnan-tech/xiaozhi-esp32-server Python 服务器 joey-zhou/xiaozhi-esp32-server-java Java 服务器 AnimeAIChat/xiaozhi-server-go Golang 服务器其实虾哥的版本，只开源了客户端和通讯协议，Server的实现都来自第三方 2.7 支持MCP扩展大模型能力可以实现智能家居控制、PC桌面操作、知识搜索、邮件收发等小智原生已经带有播放音乐、天气预报、新闻等功能为了将MCP服务接入小智，萌叔开发了 vearne/xiaozhi-mcp-pipe，欢迎使用。 2.8 有记忆功能参考 mem0 和 mem0-research 3. 原理&技术 3.1 原理 ESP32芯片的性能非常弱，几百MHz，<1MB的内存，因此几乎所有的功能都是在服务端实现的。 1）【Client】ESP32硬件通过麦克风采集原始音频数据，通过Websocket协议传到Server 2）【Server】对音频数据进行语音识别，转换为文字 3）【Server】使用文字与大模型进行交互，得到回答(文字)，回答可能包含指令(控制与之连接的其他外围设备或IoT设备,例如智能灯泡、传感器等) 4）【Server】文字通过TTS转成音频数据，通过Websocket协议再发到ESP32硬件 5）【Client】ESP32硬件通过扬声器播放给用户 3.2 技术以xinnan-tech/xiaozhi-esp32-server为例说明 LLM 语言模型使用方式支持平台免费平台 openai 接口调用阿里百炼、火山引擎豆包、深度求索、智谱ChatGLM、Gemini 智谱ChatGLM、Gemini ollama 接口调用 Ollama - dify 接口调用 Dify - fastgpt 接口调用 Fastgpt - coze 接口调用 Coze - 实际上，任何支持 openai 接口调用的 LLM 均可接入使用。 ...

玩转MCP(2)-原理篇

1. 引言这篇文章萌叔来谈谈MCP的协议的一些重要概念，以及它是如何和大模型进行交互的。 2. MCP架构 2.1 Host Host进程充当容器和协调器，它要负责启动MCP-Client，使用Client与对应的MCP-Server进行交互。通常而言Host with Client就是第一个AI Agent，在其中必然会涉及与大模型的交互。 2.2 Client Client由Host创建，每个Client与特定的Server具有一对一的关系 2.3 Server 通过 MCP 原语暴露resource、tool和prompt, Server可以运行在本地或者是远程服务 3. MCP协议的内容 MCP协议的核心诉求是对外说明Server具有什么能力，Client该如何使用这种能力，每种能力其实都被抽象成了某个tool，类似于函数。为了更好的使用tool,MCP引入了resource和prompt， 3.1 resource resource一般是可访问的静态或动态数据源，笔者的理解，resource是领域相关的知识库 3.2 prompt 用户或系统提供给模型的指令或上下文输入，用于引导模型行为。大部分情况下，只提供tool即可，注意: 一个server通过会提供多个tool。 Client和Server采用JSON-RPC 2.0协议。 3.3 Client要获取tool信息通常会发起 ListTools 指令 Request { "method": "tools/list", "params": { "_meta": { "progressToken": 3 } }, "jsonrpc": "2.0", "id": 3 } Response { "jsonrpc": "2.0", "id": 3, "result": { "tools": [{ "name": "remember", "description": "Retrieve historical chat records between users and LLM.", "inputSchema": { "properties": { "keyword": { "description": "key word", "title": "Keyword", "type": "string" }, "start_date": { "anyOf": [{ "type": "string" }, { "type": "null" }], "default": null, "description": "Start date in 'YYYYMMDD' format.When empty, automatically uses the date 3 months before today", "examples": ["20250620"], "title": "Start Date" }, "end_date": { "anyOf": [{ "type": "string" }, { "type": "null" }], "default": null, "description": "End date in 'YYYYMMDD' format.When empty, automatically uses today's date", "examples": ["20250710"], "title": "End Date" }, "max_message_count": { "default": 200, "description": "The maximum number of messages that can be returned", "minimum": 1, "title": "Max Message Count", "type": "integer" } }, "required": ["keyword"], "type": "object" }, "outputSchema": { "properties": { "result": { "title": "Result", "type": "string" } }, "required": ["result"], "title": "_WrappedResult", "type": "object", "x-fastmcp-wrap-result": true } }] } } 3.4 Client使用某个tool时，会使用 callTool 指令 Request { "jsonrpc": "2.0", "method": "tools/call", "id": "tool-call-1754015372815", "params": { "name": "get_datetime", "arguments": { "format": "date_jp" }, "_meta": { "progressToken": 0 } } } Response { "jsonrpc": "2.0", "id": "tool-call-1754015372815", "result": { "content": [{ "type": "text", "text": "2025年08月01日" }], "isError": false } } 4.与大模型的交互我们已经通过MCP协议获知了MCP Server所能提供的能力，现在需要把这些信息告诉大模型，让大模型依据上下文以及MCP Server提供的能力，做出决策，发出指令。 ...

玩转MCP(1)-使用篇

1. 引言 MCP可以说是function calling的升级版，它使得大语言模型可以方便的整合和具有工具能力。简单而言，LLM只是一个大脑，它只能思考。但是当我们给它提供了MCP之后，它可以轻易的获得各种能力，宛如给他安上了手和腿，它可以行走了，并对外部世界施加影响。 2. 一些MCP 聊天App 萌叔使用的是 daodao97/chatmcp chatmcp可以很方便的集成其它mcp工具，这里介绍几个MCP 2.1 mcp-searxng ihor-sokoliuk/mcp-searxng SearXNG 是一款免费的互联网元搜索引擎，它聚合了来自各种搜索引擎和服务的结果。用户既不会被追踪，也不会被画像。传送门使用mcp-searxng，使得大模型可以通过搜索引擎获取信息。配置方式 { "mcpServers": { "searxng": { "command": "npx", "args": [ "-y", "mcp-searxng" ], "env": { "SEARXNG_URL": "YOUR_SEARXNG_INSTANCE_URL" } } } } Tools searxng_web_search 利用搜索引擎进行检索 web_url_read 从某个URL读取内容 2.2 mcp-datetime ZeparHyfar/mcp-datetime 很多大模型没有时间概念，这会导致他在处理问题时，出现时间错误，mcp-datetime可以以各种格式获取当前日期和时间。配置方式 { "mcpServers": { "mcp-datetime": { "command": "uvx", "args": ["mcp-datetime"] } } } Tools get_datetime 2.3 mcp-server-chart antvis/mcp-server-chart antvis/mcp-server-chart是蚂蚁集团出品的图表工具。 mcp-server-chart生成的图片已经使用CDN加速，与大模型交互只传递URL，可以极大的减少token开销。配置方式 { "mcpServers": { "mcp-server-chart": { "command": "npx", "args": [ "-y", "@antv/mcp-server-chart" ] } } } Tools 可以画25种图表 ...

一文了解RAG（检索增强型生成）

在这篇文章中，萌叔将介绍RAG技术。将它与传统的搜索引擎进行对比，并介绍一个完整的RAG实现–lightRAG，详述其技术细节。 1. 传统搜索传统搜索通常基于倒排索引来进行搜索 1.1 倒排索引倒排索引（英语：Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。倒排索引是Term到DocID的映射。 1.2 搜索语句示例 Lucene针对某个字段进行搜索样例 title:hello world 就意味着，搜索title为hello，或者包含title关键字的文档伪代码形如 doc.title contains "hello" OR doc.title contains "world" 假定 “hello”-> [1, 5, 8] “world”-> [5, 8, 10, 12] 然后搜索引擎对2个doc ID集合的求并集，并对所有文档进行打分，选出分数最高的前N个文档。 2. RAG RAG (检索增强生成) 是一种人工智能技术，它结合了信息检索和生成式模型的功能，以提高生成文本的准确性和相关性。 RAG 先从外部知识库中检索相关信息，然后结合这些信息，使用生成式模型，生成更准确、更有上下文相关的文本。提到RAG，需要先聊一聊Embedding models 2.1 Embedding models 2.1.1 高维向量表征文本嵌入式模型，可以把一段文本转换为纯数值的高维向量通过嵌入模型(如bge-m3)将文本转换为1024维的数值向量，这个向量包含了文本的语义特征 curl --location 'http://192.168.100.2:21434/api/embed' \ --header 'Content-Type: application/json' \ --data '{ "model": "bge-m3:latest", "input": "这个故事的主题是什么?" }' 2.1.2 向量距离反映语义相似度当两个向量在向量空间中的距离越近（通常用余弦相似度或欧氏距离衡量）说明它们对应的文本在语义上越相似例如"猫"和"猫咪"的向量会比"猫"和"汽车"的向量更接近 ...

介绍OpenAI新发布的Operator

前言 2025年1月23日 OpenAI发布了新的Agent: Operator。这篇文章将分为2个部分第1部分，萌叔全文翻译OpenAI的官方介绍资料第2部分，会基于萌叔自己的理解，介绍一下Operator功能要点和可能的实现思路废话不多说，进入正题第1部分针对新的Agent预览版的研究概述，此Agent可以使用它自己的浏览器来执行用户提出的任务。今天，我们发布了Operator（在新窗口中打开），一个可以访问网页并为你执行任务的智能代理。它使用自己的浏览器查看网页，并通过输入、点击和滚动与页面交互。目前，它是一个研究预览版，这意味着它仍有限制，并将根据用户反馈不断改进。 Operator 是我们推出的首批代理之一，这类 AI 能够自主为你完成任务——你只需指定任务，它就会执行。 Operator 可以处理各种重复性的浏览器任务，例如填写表单、订购杂货，甚至创建梗图。它能够使用人们日常交互的界面和工具，这不仅拓宽了 AI 的应用范围，还能帮助用户节省日常任务的时间，同时为企业提供新的互动机会。为了确保安全并逐步推广，我们将从小范围开始。从今天起，Operator 向美国的 Pro 用户开放，用户可以在 [operator.chatgpt.com](opens in a new window) 访问。这个研究预览版让我们能够从用户和更广泛的生态系统中学习，不断优化和改进。我们计划未来将其扩展到 Plus、Team 和 Enterprise 用户，并将这些能力集成到 ChatGPT 中。 Operator 的工作原理 Operator 由一种名为 Computer-Using Agent (CUA) 的新模型驱动。CUA 结合了 GPT-4o 的视觉能力，并通过强化学习增强推理能力，使其能够与图形用户界面（GUI）交互——即用户在屏幕上看到的按钮、菜单和文本框。 Operator 可以“看见”（通过截图）并“交互”（使用鼠标和键盘能执行的所有操作）网页，因此无需定制 API 集成，就能在网页上执行任务。如果遇到挑战或出现错误，Operator 能利用其推理能力进行自我纠正。而当它陷入困境并需要帮助时，会将控制权交还给用户，确保流畅且协作的体验。尽管 CUA 仍处于早期阶段并存在一些限制，但它在 WebArena 和 WebVoyager 这两个关键的浏览器使用基准测试中创造了新的最先进基准成绩。你可以在我们的研究博客文章中了解更多关于评估方法及 Operator 背后的研究。 ...