每日 AI 简报

2026-06-22(内容获取于 06/22 12:12)

GLM-5.2开源模型受用户好评,性能匹敌商业模型

LinuxDo · 06/22 10:21

GLM-5.2作为一款开源模型,因其在性能上表现出色,被用户评价为「爆杀Deepseek」,并可与Claude等商业模型匹敌。有用户分享了其高效的部署脚本,展示了GLM-5.2在预填充和解码速度上的优势,为开发者提供了高性价比的本地部署选择。

推荐理由:GLM-5.2的优异表现及其部署便利性,为寻求高性能开源大模型的开发者提供了重要参考和实际操作指南。

三星电子大规模部署OpenAI企业级AI工具

OpenAI News · 06/22 07:00

韩国三星电子已在全球范围内部署OpenAI的ChatGPT Enterprise和Codex,此举是OpenAI迄今为止规模最大的企业级AI推广之一。这将极大提升三星员工利用AI进行内容生成和代码辅助的能力,加速企业内部数字化转型。

推荐理由:作为全球科技巨头的重大AI战略部署,此消息揭示了企业级AI应用的未来趋势和巨大潜力,对其他大型企业具有示范意义。

Claude Cowork平台任务委派与调度功能演示

Claude (YouTube) · 06/21 21:00

Claude官方发布视频,详细演示了如何在协作平台「Claude Cowork」中高效委派和安排任务。此功能旨在通过AI辅助,优化团队工作流程,提升协作效率和项目管理能力。

推荐理由:对于使用Claude或寻求提升团队协作效率的用户而言,这是一个直接的产品功能教程,可即学即用,提升生产力。

深入解析AI智能体「循环」:15种实战模式与指令

X 推文 (AttentionVC) · 06/21 04:09

作为热门文章「WTF Is a Loop?」的续篇,博主详细介绍了AI智能体领域中实际运行的「15种AI循环」及其获取指令的方法。内容提供了可借鉴的实战案例和代码,帮助用户理解并复制流行的AI循环工作流,提升AI应用开发效率。

推荐理由:针对AI智能体实践者,本文提供了丰富的实战经验和具体代码,是学习和应用AI循环模式的宝贵资源。

开源Agentic视频制作系统OpenMontage发布

GitHub Trending

OpenMontage是首个开源的、基于Agent的视频制作系统,集成了12条管线、52种工具和500多个Agent技能,旨在将AI编程助手转化为完整的视频制作工作室。它通过自动化视频内容生成流程,大幅降低创作门槛。

推荐理由:该项目展示了AI智能体在多媒体内容创作领域的强大潜力,为开发者和创作者提供了可直接上手的开源自动化视频生成解决方案。

Sakana AI推出新模型Fugu,引发业界关注

Hacker News · 06/22 10:08

由前谷歌AI研究员创立的日本公司Sakana AI,正式推出了其最新模型「Fugu」。尽管具体细节尚未完全披露,但作为一家备受瞩目的AI研究机构,此举预计将为大模型领域带来新的技术探索方向和性能突破。

推荐理由:关注新兴AI研究机构的新模型发布,有助于掌握前沿技术进展,对研究人员和行业观察者具有重要参考价值。

「让AI推荐你的产品」:GEO AI应用入门教程

X 创作者 (AttentionVC) · 06/21 16:35

该教程从「0到1」详细指导小白用户如何利用AI技术推荐产品。通过简单易懂的步骤,用户可以学习如何配置和使用AI工具,有效提升产品营销和推广效率,是初学者快速上手的实用指南。

推荐理由:这是一个非常实用的AI应用教程,对于希望将AI融入产品营销或个人推广的创业者和营销人员具有直接的指导价值。

macOS AI视频编辑器Palmier-pro亮相GitHub

GitHub Trending

palmier-pro是一款专为macOS设计的视频编辑器,深度集成AI能力,旨在简化并增强视频创作流程。它通过智能剪辑、内容生成等AI特性,帮助macOS用户高效制作视频,解决传统工具在AI应用上的不足。

推荐理由:对于macOS视频创作者和开发者来说,这是一个值得尝试的AI驱动视频编辑工具,能直接提升工作效率并探索AI创作的可能性。

初创公司声称解决LLM数学瓶颈,细节待观察

MIT Tech Review AI · 06/19 18:40

迈阿密AI初创公司Subquadratic上月宣布,已解决困扰大型语言模型(LLM)近十年的一个数学瓶颈。然而,由于技术细节披露不足,此说法引发业界质疑,其具体影响和可靠性尚待进一步验证。

推荐理由:尽管技术细节尚不明确,但此项声称若属实,可能对LLM领域带来深远影响,值得研究人员和行业分析师持续关注。

palmier-io/palmier-pro

Swift · ★ 5,571 · 🍴 414 · 📈 1,834 stars today

macOS video editor built for AI

中文介绍 palmier-pro 是一款专为 macOS 设计的视频编辑器,深度集成 AI 能力,旨在简化和增强视频创作流程。它解决了传统视频编辑工具在 AI 特性上不足的问题,使用户能在 Mac 环境下,高效利用人工智能进行视频处理、内容生成等高级操作。适用于内容创作者、视频制作人以及任何希望通过 AI 提升视频编辑效率的 macOS 用户。

calesthio/OpenMontage

Python · ★ 9,228 · 🍴 1,335 · 📈 987 stars today

World's first open-source, agentic video production system. 12 pipelines, 52 tools, 500+ agent skills. Turn your AI coding assistant into a full video production studio.

中文介绍 OpenMontage 是一个开源的、基于 Agent 的视频制作系统,通过 12 条处理管线、52 种工具和 500 多个 Agent 技能,将 AI 编程助手转化为完整的视频制作工作室。它旨在自动化视频内容生成流程,解决了传统视频制作中复杂且耗时的问题。用户可以利用其强大的 Agent 协作能力,实现从创意到成片的自动化,特别适用于希望通过 AI 大规模生成视频内容的开发者和创作者。

chopratejas/headroom

Python · ★ 44,884 · 🍴 3,130 · 📈 2,624 stars today

Compress tool outputs, logs, files, and RAG chunks before they reach the LLM. 60-95% fewer tokens, same answers. Library, proxy, MCP server.

中文介绍 headroom 是一个用于在数据到达大型语言模型(LLM)之前进行压缩的工具,可处理包括工具输出、日志、文件和 RAG 块在内的多种数据类型。其核心优势在于能减少 60-95% 的 token 消耗,同时确保 LLM 输出的答案质量不受影响,有效降低了 LLM 使用成本并拓宽了上下文窗口限制。它以库、代理或 MCP 服务器的形式提供,适用于开发者、数据科学家及任何处理大量文本并与 LLM 交互的场景。

tursodatabase/turso

Rust · ★ 20,895 · 🍴 1,069 · 📈 548 stars today

Turso is an in-process SQL database, compatible with SQLite.

中文介绍 Turso 是一个与 SQLite 兼容的进程内 SQL 数据库。它允许开发者将数据库直接嵌入到应用程序中运行,提供轻量级且高性能的数据存储解决方案,而无需独立部署数据库服务器。这解决了需要便捷、低开销本地数据管理,同时享受 SQL 强大查询能力的场景。特别适合构建边缘应用、桌面程序或需要将数据紧密集成到应用逻辑中的开发者。

penpot/penpot

Clojure · ★ 52,373 · 🍴 3,351 · 📈 1,135 stars today

Penpot: The open-source design tool for design and code collaboration

中文介绍 Penpot 是一款开源的设计工具,专注于促进设计与代码之间的协作。它提供了一个集成平台,让设计师和开发者能够无缝配合,有效解决了设计资产交付和前端实现之间的鸿沟。通过 Penpot,团队可以更高效地迭代产品,确保设计意图在代码中得到精准实现。适用于需要紧密协作的 UI/UX 设计师、前端开发者以及产品团队。

ZhuLinsen/daily_stock_analysis

Python · ★ 44,791 · 🍴 41,536 · 📈 568 stars today

LLM 驱动的多市场股票智能分析系统:多源行情、实时新闻、决策看板与自动推送,支持零成本定时运行。 LLM-powered multi-market stock analysis system with multi-source market data, real-time news, decision dashboard, automated notifications, and cost-free scheduled runs.

中文介绍 daily_stock_analysis 是一个由大型语言模型(LLM)驱动的多市场股票智能分析系统。它整合了多源行情数据和实时新闻,提供直观的决策看板,并支持自动推送预警,同时实现零成本定时运行。该项目旨在利用 AI 自动化繁琐的股票信息收集与分析,帮助投资者高效地获取市场洞察、识别潜在机会与风险。适用于个人投资者、量化交易者或任何关注股市动态并寻求智能辅助决策的用户。

koala73/worldmonitor

TypeScript · ★ 58,215 · 🍴 9,214 · 📈 163 stars today

Real-time global intelligence dashboard. AI-powered news aggregation, geopolitical monitoring, and infrastructure tracking in a unified situational awareness interface

中文介绍 worldmonitor 是一个实时的全球情报仪表板,旨在提供统一的态势感知界面。它利用 AI 技术聚合全球新闻、监控地缘政治事件并追踪关键基础设施,有效解决了信息分散和人工分析效率低下的问题。该平台为用户提供一个全面的视角,快速理解全球动态。适用于分析师、研究人员、政府机构或任何需要实时掌握全球情报以支持决策的专业人士。

bytedance/deer-flow

Python · ★ 72,702 · 🍴 9,843 · 📈 442 stars today

An open-source long-horizon SuperAgent harness that researches, codes, and creates. With the help of sandboxes, memories, tools, skill, subagents and message gateway, it handles different levels of tasks that could take minutes to hours.

中文介绍 deer-flow 是字节跳动开源的一个长周期 SuperAgent 框架,专注于研究、编码和创作等复杂任务。它通过沙盒、记忆、工具集、技能库、子代理和消息网关等模块协同工作,赋能 AI 代理处理不同复杂程度的任务,解决了单一 AI 模型难以应对多步骤、跨领域挑战的问题。该项目旨在为构建具备高级规划和执行能力的 AI 系统提供底层支持,适用于 AI 研究者和希望开发智能自动化解决方案的开发者。

DeusData/codebase-memory-mcp

C · ★ 10,527 · 🍴 799 · 📈 1,032 stars today

High-performance code intelligence MCP server. Indexes codebases into a persistent knowledge graph — average repo in milliseconds. 158 languages, sub-ms queries, 99% fewer tokens. Single static binary, zero dependencies.

中文介绍 codebase-memory-mcp 是一个高性能的代码智能 MCP 服务器,专为将代码库构建成持久化知识图谱而设计。它能在毫秒级内索引平均规模的代码仓库,支持 158 种编程语言,并实现亚毫秒级的查询速度,同时将处理所需的 token 数量减少 99%。该项目以单个静态二进制文件提供,有效解决了大型代码库的语义理解和高效检索问题,极大提升了 AI 辅助开发工具的效率,尤其适用于开发者工具、AI 代理或代码分析平台。

mukul975/Anthropic-Cybersecurity-Skills

Python · ★ 17,834 · 🍴 2,140 · 📈 361 stars today

754 structured cybersecurity skills for AI agents · Mapped to 5 frameworks: MITRE ATT&CK, NIST CSF 2.0, MITRE ATLAS, D3FEND & NIST AI RMF · agentskills.io standard · Works with Claude Code, GitHub Copilot, Codex CLI, Cursor, Gemini CLI & 20+ platforms · 26 security domains · Apache 2.0

中文介绍 Anthropic-Cybersecurity-Skills 项目提供了 754 个结构化的网络安全技能集,专为 AI 代理设计。这些技能遵循 agentskills.io 标准,并与 MITRE ATT&CK、NIST CSF 2.0 等五大主流网络安全框架对齐。它兼容 Claude Code、GitHub Copilot 等 AI 工具,旨在为 AI 代理赋能专业的网络安全知识和操作能力。该项目解决了 AI 在网络安全领域应用时缺乏标准化、领域专用技能的问题,适用于网络安全专家、AI 开发者及构建安全防护或分析工具的团队。

mikumifa/biliTickerBuy

Python · ★ 3,740 · 🍴 468 · 📈 67 stars today

b站会员购购票辅助工具

中文介绍 biliTickerBuy 是一款针对哔哩哔哩(B站)会员购平台开发的购票辅助工具。它旨在帮助用户更高效、便捷地抢购演唱会、漫展等热门活动的门票,解决了手动购票可能面临的抢票难、速度慢等问题。通过自动化部分购票流程,该工具提升了用户成功购买心仪门票的几率。适用于经常在 B 站会员购抢票的普通用户。

smicallef/spiderfoot

Python · ★ 18,827 · 🍴 3,110 · 📈 294 stars today

SpiderFoot automates OSINT for threat intelligence and mapping your attack surface.

中文介绍 SpiderFoot 是一款自动化开源情报(OSINT)工具,专注于威胁情报收集和攻击面测绘。它能够自动从公开来源抓取、分析和关联海量数据,帮助安全专业人员快速识别潜在风险、漏洞和暴露信息。该工具解决了手动 OSINT 耗时耗力且容易遗漏关键信息的问题,为企业和个人提供深入的安全态势感知。适用于网络安全分析师、渗透测试人员及任何需要进行威胁情报研究或攻击面管理的用户。

topoteretes/cognee

Python · ★ 18,720 · 🍴 1,974 · 📈 347 stars today

Cognee is the open-source AI memory platform for agents. Give your AI agents persistent long-term memory across sessions with a self-hosted knowledge graph engine.

中文介绍 Cognee 是一个开源的 AI 记忆平台,专为 AI 代理提供持久化的长期记忆能力。它通过一个自托管的知识图谱引擎,使 AI 代理能够在不同会话间保持上下文和信息连贯性,解决了传统 AI 代理缺乏长期记忆、无法累积经验的问题。该平台赋能 AI 代理构建更复杂的决策和行为模式,适用于 AI 开发者和研究人员构建具有高级智能和学习能力的代理系统。

byoungd/English-level-up-tips

★ 54,102 · 🍴 5,561 · 📈 125 stars today

An advanced guide to learn English which might benefit you a lot 🎉 . 离谱的英语学习指南/英语学习教程/英语学习/学英语

中文介绍 English-level-up-tips 是一个被描述为“离谱”且极具价值的英语学习进阶指南。它提供了一套不同寻常但可能非常有效的英语学习方法和教程,旨在帮助学习者突破传统瓶颈,显著提升英语水平。该项目解决了许多英语学习者在漫长学习过程中遇到的效率低下、进步缓慢等问题。适用于所有希望高效提升英语能力,并乐于尝试新颖学习策略的学习者。

asgeirtj/system_prompts_leaks

JavaScript · ★ 44,562 · 🍴 7,353 · 📈 282 stars today

Extracted system prompts from Anthropic - Claude Fable 5, Opus 4.8, Claude Code, Claude Design. OpenAI - ChatGPT 5.5 Thinking, GPT 5.5 Instant, Codex. Google - Gemini 3.5 Flash, 3.1 Pro, Antigravity. xAI - Grok, Cursor, Copilot, VS Code, Perplexity, and more. Updated regularly.

中文介绍 system_prompts_leaks 项目整理并公开了从多个主流大型语言模型(LLM)中提取的系统提示(system prompts),包括 Anthropic 的 Claude 系列、OpenAI 的 ChatGPT 和 Google 的 Gemini 系列。这些提示揭示了模型内部的预设指令和行为规范,为理解 LLM 的运作机制和潜在限制提供了宝贵资料。它解决了 AI 社区对顶级模型内部指令透明度的需求,适用于提示工程师、AI 研究员以及关注模型安全和伦理的开发者,以优化提示设计或研究模型漏洞。

mattpocock/skills

Shell · ★ 140,097 · 🍴 12,152 · 📈 1,443 stars today

Skills for Real Engineers. Straight from my .claude directory.

中文介绍 mattpocock/skills 项目是一个面向“真正工程师”的技能集合,直接来源于作者的 .claude 目录,暗示其中包含与 AI 助手(如 Claude)配合使用的实用技巧或提示。它旨在提供经过实践验证的工程实践和知识,帮助开发者提升工作效率和问题解决能力。该项目解决了工程师在日常工作中寻求高质量、实战经验的需求,适用于所有希望优化工作流程、提高编程效率的软件工程师。

LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

👍 6

Policy-adherent tool-calling agents in customer-service domains must maintain task states across turns while calling tools and obeying domain policies. Task states consist of relevant facts, identifiers, constraints, and conditions observed through user interaction and tool calls. In standard agents

中文介绍 本文介绍LedgerAgent,一种为客户服务领域工具调用智能体设计的方案。它通过维护结构化任务状态(包括事实、标识符、约束和条件),确保智能体在多轮交互中能遵循领域策略,从而提高政策依从性。

Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe

👍 6

FP4 training promises substantial reductions in memory and computation cost for LLM pretraining, yet current FP4 hardware paths and recipes, including NVIDIA Blackwell/Rubin-class systems and AMD MI350-series GPUs, remain centered on E2M1 data elements. In this study, we identify a fundamental limit

中文介绍 该研究重新审视了大型语言模型FP4预训练中的“收缩偏差”,探讨其几何起源和系统性影响。尽管FP4训练能显著降低内存和计算成本,但现有硬件(如NVIDIA Blackwell/Rubin、AMD MI350系列GPU)仍依赖E2M1数据元素。论文提出UFP4方案以优化FP4预训练。

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

👍 50

LiveCodeBench (LCB) has recently become a widely adopted benchmark for evaluating large language models (LLMs) on code-generation tasks. By curating competitive programming problems, constantly adding fresh problems to the set, and filtering them by release dates, LCB provides contamination-aware ev

中文介绍 LiveCodeBench (LCB) 已成为评估大语言模型代码生成任务的流行基准。本文介绍Multi-LCB,旨在将LCB扩展到多种编程语言。Multi-LCB通过不断更新编程竞赛问题并按发布日期筛选,为评估LLM代码能力提供了一个持续更新且具挑战性的基准。

HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

👍 7

Embodied foundation models are expected to benefit from data scaling like large language models, but face a much tighter data bottleneck. Teleoperated real-robot trajectories remain the dominant pretraining source due to their precise action supervision and embodiment alignment, yet their scalabilit

中文介绍 具身基础模型面临严重的数据瓶颈,传统上依赖遥控真实机器人轨迹进行预训练。本研究提出HumanScale,发现以自我为中心的人类视频数据在具身预训练中表现优于真实机器人数据,这表明人类视频可能为具身模型提供更高效的解决方案。

DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis

👍 30

Advances in radiance fields have enabled photorealistic novel view synthesis. In several domains, large-scale real-world datasets have been developed to support comprehensive benchmarking and to facilitate progress beyond scene-specific reconstruction. However, for distractor-free radiance fields, a

中文介绍 辐射场技术推动了真实感新视角合成的发展。为解决现有场景特定重建的局限性,本文推出了DF3DV-1K,这是一个大规模数据集和基准测试平台。该数据集专注于无干扰的新视角合成,旨在支持全面的基准评估,并促进该领域进一步发展。

S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

👍 36

Real-world spatial intelligence requires reasoning over a continuous and evolving 3D world, yet existing VLMs and tool-augmented agents largely remain tied to static, stateless inference from isolated visual observations. We introduce \textsc{S-Agent}, a spatial tool-use agentic paradigm for underst

中文介绍 现实世界的空间智能需要对连续、动态的3D环境进行推理,但现有VLM和工具增强型智能体仍受限于静态、无状态的独立视觉观测。本文引入了S-Agent,一种空间工具使用智能体,旨在通过与3D世界的交互和工具调用,提升智能体的空间推理能力。

ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

👍 10

Achieving dexterous robotic manipulation in the real world heavily relies on human supervision and algorithm engineering, which becomes a central bottleneck in the pursuit of general physical intelligence. Although emerging coding agents can generate code to automate algorithm search, their successe

中文介绍 在现实世界中实现灵巧的机器人操作,严重依赖人工监督和算法工程,这成为通用物理智能发展的主要瓶颈。本文提出ENPIRE,一个代理机器人策略自我改进系统,旨在通过自动生成代码来优化算法选择和改进策略,减少人工干预,推动机器人实现更通用的智能。

FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining

👍 26

Style-content dual-reference generation aims to synthesize an image that preserves the structure and semantics of a content reference while adopting the style of a separate style reference.Despite recent progress, this setting remains challenging because models must balance content fidelity, style a

中文介绍 风格-内容双参考生成旨在合成一张图像,使其保留内容参考的结构和语义,并采用独立风格参考的风格。本文提出FreeStyle,通过挖掘社区LoRA模型,实现了对风格和内容双参考生成的自由控制,有助于平衡内容与风格间的关系,提升图像合成的质量和灵活性。

JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines

👍 3

Current AI-driven game development has made substantial progress in asset generation, gameplay design, and web-based game coding, yet project-level code engineering on professional game engines remains largely unexplored due to the absence of large-scale datasets and deterministic evaluation methods

中文介绍 尽管AI驱动的游戏开发在资产生成和玩法设计方面取得进展,但专业游戏引擎上的项目级代码工程仍缺乏大规模数据集和确定性基准。本文推出JAMER,一个针对专业游戏引擎的项目级代码框架数据集和基准,旨在填补这一空白,推动AI在复杂游戏项目代码开发中的应用。

Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

👍 29

Agent benchmarks are growing fast, but no single benchmark touches more than four or five of the dimensions that deployment exposes. This paper aggregates the largest coordinated deep-dive of one MCP-based industrial-agent benchmark to date: fourteen parallel implementation studies covering new asse

中文介绍 智能体基准测试发展迅速,但单一基准难以涵盖部署所需的全部维度。本文超越静态排行榜,探讨大语言模型智能体评估的预测有效性。该研究对一个基于MCP的工业智能体基准进行了迄今为止最大规模的协调性深入分析,汇总了十四项并行实施研究,以更全面地评估智能体性能。

Think Again or Think Longer? Selective Verification for Budget-Aware Reasoning

👍 3

Test-time reasoning is increasingly used as a serving-time control knob, but extra reasoning is not uniformly valuable: it can repair failed attempts, waste compute on already-correct answers, or introduce harmful answer changes. We study this as a deployment allocation problem rather than a new-ver

中文介绍 实时推理作为服务端控制手段日益普及,但额外推理并非总有价值,可能修复失败、浪费计算或引入错误。本文将此视为部署分配问题,研究了预算感知的选择性验证方法,旨在优化推理资源的分配,以平衡推理成本与性能提升,确保在有限预算下实现最佳效果。

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

👍 2

To assist humans over extended periods in real homes, embodied agents must remember user routines, world states, and past interactions. Existing long-term memory benchmarks mainly evaluate language-centric retrieval and question answering, while embodied benchmarks often focus on short-horizon task

中文介绍 为在真实家庭中长期辅助人类,具身智能体需记忆用户习惯、世界状态和过往交互。现有长期记忆基准主要评估以语言为中心的检索和问答。本文引入WorldLines,旨在基准测试和建模长期有状态具身智能体,以应对在复杂真实环境中记忆和推理的挑战。

PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

👍 26

Multimodal large language models (MLLMs) have achieved remarkable progress in visual understanding tasks. However, most existing MLLMs rely on autoregressive generation, which limits their efficiency for perception tasks that require captioning multiple regions. In this work, we propose PerceptionDL

Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States

👍 6

Progress in legal AI increasingly depends on access to authoritative legal text at scale. Yet one of the most consequential layers of American law remains largely absent from existing machine-readable corpora: local ordinances. Local codes govern zoning, housing, business licensing, public health, n

Configurable Clinical Information Extraction with Agentic RAG: What Works, What Breaks, and Why

👍 5

Patient contexts span hundreds of heterogeneous documents and thousands of structured data points, yet the document-level metadata that AI systems need for retrieval and triage is absent or incomplete. Standard retrieval-augmented generation fails on this data, mishandling temporal reasoning, cross-

Playful Agentic Robot Learning

👍 44

Current agentic robot systems can write executable Code-as-Policy programs, observe feedback, and revise behavior across multiple attempts, but they remain largely task-driven: reusable skills are acquired only after explicit instructions. We study Playful Agentic Robot Learning, where an embodied c

FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines

👍 10

Multi-step LLM pipelines fail through interactions among retrieval, reasoning, and formatting steps, so prompt-only optimization can miss bottlenecks in the chain. We present FAPO (Fully Autonomous Prompt Optimization), a framework that lets Claude Code optimize an LLM pipeline inside a standardized

Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance

👍 114

While 10B-level industrial foundation models have pushed the boundaries of image inpainting, their prohibitive computational costs severely hinder practical deployment. Constructing a highly optimized task-specific specialist offers a promising solution; however, extreme structural compression inevi

LooseControlVideo: Directorial Video Control using Spatial Blocking

👍 5

Precise 3D spatial orchestration in text-to-video generation remains a significant challenge, particularly for multi-object scenes where semantic layout and temporal dynamics are often entangled. While existing depth-conditioned models achieve good structural fidelity, they necessitate dense, frame-

REVES: REvision and VErification--Augmented Training for Test-Time Scaling

👍 3

Test-time scaling via sequential revision has emerged as a powerful paradigm for enhancing Large Language Model (LLM) reasoning. However, standard post-training methods primarily optimize single-shot objectives, creating a fundamental misalignment with multi-step inference dynamics. While recent wor

When Does Trajectory-Level Supervision Permit Efficient Offline Reinforcement Learning?

👍 4

Offline reinforcement learning is typically analyzed under process-level reward supervision, yet many sequential decision datasets record only trajectory-level outcomes. We develop a statistical theory for offline policy optimization from such outcome-level supervision. We first study the canoni

Context-Aware RL for Agentic and Multimodal LLMs

👍 11

Large language models (LLMs) often fail when answering requires identifying a small but decisive piece of evidence within a long or complex context, such as a single line in a tool trace or a subtle detail in an image. We propose ContextRL, a context-aware reinforcement learning (RL) method that imp

Understanding the Behaviors of Environment-aware Information Retrieval

👍 6

Recent retrieval-augmented generation (RAG) approaches have demonstrated strong capability in handling complex queries, yet current research overlooks a critical challenge: different retrievers require fundamentally different query formulation strategies for optimal performance. In this work, we pre

Thinking with Visual Grounding

👍 10

Visual thinking should not only sound right; it should show its evidence. While recent vision-language models (VLMs) can produce natural-language reasoning traces, these traces often leave the supporting image regions implicit, making them hard to verify and difficult to supervise. We introduce visu

Selective Synergistic Learning for Video Object-Centric Learning

👍 3

Typical video object-centric learning (VOCL) approaches employ slot-based frameworks that rely on reconstruction-driven encoder-decoder architectures, where learning is mediated by two spatial maps: attention maps from the encoder and object maps from the decoder. As these two distinct maps exhibit

DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects

👍 69

Dexterous interaction with articulated objects is important for household, assistive, and humanoid manipulation, where multi-finger hands can provide compliant contact patterns beyond parallel-jaw grasping. However, articulated-object manipulation differs from static-object manipulation: the target

Re-Centering Humans in LLM Personalization

👍 0

Despite growing interest, most evaluations of large language models' (LLMs') personalization abilities have relied on synthetic data. It remains unclear how well current personalization systems work for real users. In this paper, we study the gap in LLM personalization performance when using synthet

Duration Aware Scheduling for ASR Serving Under Workload Drift

👍 3

Scheduling policies in large-scale Automatic Speech Recognition (ASR) serving pipelines play a key role in determining end-to-end (E2E) latency. Yet, widely used serving engines rely on first-come-first-served (FCFS) scheduling, which ignores variability in request duration and leads to head-of-line

Notchkin

A notes app that lives in your MacBook's notch.

中文介绍 Notchkin是一款新颖的笔记应用,巧妙地整合在MacBook屏幕的「刘海」区域,为用户提供便捷的笔记记录体验。

Cloudback MCP Server

Manage your backups from Claude, Cursor, and VS Code

中文介绍 Cloudback MCP Server是一款备份管理工具,用户可以通过Claude、Cursor和VS Code等流行的开发和AI平台,集中管理各项数据备份。

Agent 37 Cloud

Give every customer their own Hermes or OpenClaw agent

中文介绍 Agent 37 Cloud旨在为每位客户提供专属的AI代理服务,支持集成Hermes或OpenClaw等模型,以提升个性化的客户互动和支持体验。

oioi

a fast, glassy clipboard manager for macOS, Windows & Linux

中文介绍 oioi是一款专为macOS、Windows和Linux系统设计的高速、界面简洁的剪贴板管理器,提供跨平台的便捷复制粘贴体验。

Laguna by Poolside

Foundation models for agentic coding and long-horizon work

中文介绍 Poolside推出的Laguna模型是一系列基础模型,专门用于支持智能代理编程和处理需要长期规划的复杂任务,以提升AI在开发领域的应用。

Are you in the Weights?

Find out if you live forever in the brain of the LLMs

中文介绍 「Are you in the Weights?」是一款工具,旨在帮助用户探究他们的数字信息是否被大型语言模型(LLM)的训练数据永久记录和保留。

GitSync for macOS

Visual GitHub management directly from a graphical interface

中文介绍 GitSync for macOS是一款为macOS用户设计的GitHub管理工具,通过直观的图形用户界面,简化了GitHub项目的版本控制和同步操作。

Basedash Access Controls

Control exactly who can access your company data

中文介绍 Basedash Access Controls提供精细化的数据访问权限管理功能,帮助企业精确控制员工访问公司数据的权限,确保内部数据安全。

Pixlie

AI video studio: text & image to video, with real control

中文介绍 Pixlie是一个AI视频工作室,支持将文本和图片转换为视频,并提供精细的控制功能,让用户能够更自由地创作AI生成视频内容。

Plansera AI

E-2 visa business plans, drafted by an AI

中文介绍 Plansera AI利用人工智能技术,专门为E-2签证申请者提供商业计划书起草服务,简化了申请流程中繁琐的文档准备工作。

How Quants Use Loop Engineering to Build Alpha (Full Framework)

@horizon_trade_x · 4.4K 粉丝 · 1.3M 阅 · 507 赞 · 59 转

Your backtest looked flawless. You went live. Two weeks later, the strategy was bleeding. Every quant has lived this. The answer is a loop: generate a strategy, test it, score it, feed the result

中文介绍 博主介绍了量化交易中「循环工程」的完整框架。他指出,完美的历史回测常与实盘亏损脱节,而解决方案在于构建策略、测试、评分并将结果反馈回生成的闭环系统。该框架旨在通过持续优化和风险管理,克服回测陷阱,提升真实交易策略的稳定性和盈利能力。

Loops explained: Claude, GPT, Mira and what actually works

@AnatoliKopadze · 83.0K 粉丝 · 1.3M 阅 · 584 赞 · 70 转

AI has been in everyone's hands for years. Most people who use it every day still use it the slowest way there is: type a request, wait, fix it, ask again, all by hand. Not because the faster way is

中文介绍 博主阐释了AI工具中的「循环」概念,指出大多数人仍以低效的手动输入-等待-修改方式使用AI。他对比了Claude、GPT及Mira等模型中有效实现自动化循环的方法,旨在帮助用户摆脱传统低效交互模式,通过设计系统化循环,提升AI工具的使用效率和产出质量。

How to Build a Claude Code Agent Team That Runs in Loops (Exact Setup Inside)

@zodchiii · 22.7K 粉丝 · 1.2M 阅 · 500 赞 · 71 转

Most setups run agents once and hand you whatever comes out. A team that runs in loops keeps going until the work actually passes. Below is the setup in 3 files: the agents, the loop that drives

中文介绍 分享了如何构建一个能「循环运行」的Claude Code智能体团队的详细教程。与多数单次执行的智能体不同,该团队会持续运行直到任务通过验证。博主提供了具体的3文件设置,包括智能体定义和驱动循环的逻辑,旨在实现更可靠、更自主的代码生成和任务完成能力。

How To Build a Second Brain That Runs Itself With Obsidian (Full Course)

@eng_khairallah1 · 67.2K 粉丝 · 1.2M 阅 · 510 赞 · 73 转

You read maybe two hundred articles this year. A few dozen papers. Hundreds of threads. Save this Every second-brain method ever sold to you, Zettelkasten, PARA, the graph view, the daily note,

中文介绍 博主提供了一门关于如何利用Obsidian构建「自主运行的第二大脑」的完整课程。该课程旨在帮助用户有效管理和利用每年阅读的大量文章、论文和推文,整合Zettelkasten、PARA等多种笔记方法,通过图谱视图和每日笔记功能,实现信息的系统化存储、连接与检索,最终提升知识复用效率。

How to Build an AI Second Brain With Claude and Obsidian That Gets Smarter Every Day (Full Guide)

@undefinedKi · 3.9K 粉丝 · 1.0M 阅 · 601 赞 · 78 转

Your best ideas are scattered across a dozen places right now. Notes apps. Browser tabs. Old chats with Claude that you closed and will never find again. Every time you sit down to work, you rebuild

中文介绍 提供了如何结合Claude和Obsidian构建一个「每日精进的AI第二大脑」的完整指南。博主针对最佳创意分散在笔记、浏览器、旧AI聊天记录中的问题,提出通过该系统整合碎片信息。此方案旨在建立一个能持续学习和进化的知识库,帮助用户每次工作时都能高效利用并深化其积累的知识与想法。

Context Engineering for AI Agents: The Complete Playbook

@sairahul1 · 117.4K 粉丝 · 511.9K 阅 · 500 赞 · 84 转

Your AI agent works great for the first 10 steps. Then somewhere around step 15, it starts getting sloppy. Wrong tool calls. Forgetting your original instructions. Low-quality outputs. Most people

中文介绍 分享了一份关于「AI智能体上下文工程」的完整攻略。博主指出,AI智能体常在多步骤任务中表现不佳,例如在15步后出现错误的工具调用、遗忘指令及低质量输出。该攻略旨在提供系统方法,优化智能体的上下文管理,确保其在复杂或长时间任务中保持一致性和高质量的性能。

Owning vs. Renting Intelligence

@lqiao · 95.4K 粉丝 · 501.6K 阅 · 509 赞 · 86 转

Mythos got shut down this week. Whether you agreed with the decision or not is almost beside the point. A company built on top of intelligence it didn't control suddenly found itself exposed to

中文介绍 博主探讨了AI领域「拥有智能与租赁智能」的战略议题,以Mythos公司被关停为例。他强调,无论对该决策持何种立场,其核心在于一家公司若过度依赖不受自身控制的外部智能,将面临巨大风险。文章旨在引发对AI产品和公司应如何平衡利用外部API与自研核心智能的思考,警示对技术依赖性可能带来的潜在危机。

Using Claude to go Viral on X… (Mr. Beasts Framework)

@mattepstein · 35.6K 粉丝 · 393.3K 阅 · 504 赞 · 26 转

Have you seen any of the launches below on your timeline? (you probably have).. What if I told you they all followed a repeatable viral science that can be 95% automatable with claude. In this

中文介绍 博主展示了如何利用Claude及「Mr. Beast的框架」在X(Twitter)上制作爆款内容。他声称病毒式传播具有可重复的科学原理,其中95%的流程可通过Claude实现自动化。文章旨在提供一套系统化的方法,帮助用户利用AI工具分析和生成具有高传播潜力的社交媒体内容,提升影响力。

The Agent Loop Architecture

@djfarrelly · 3.8K 粉丝 · 344.7K 阅 · 501 赞 · 61 转

Everyone's asking "WTF is a loop?" Here's the question nobody's asking: what runs the loop? The AI discourse has converged on loops as a core primitive of agentic systems. Matt Van Horn (@mvanhorn)

中文介绍 博主深入探讨了「智能体循环架构」,超越了对“循环是什么”的普遍讨论,聚焦于「什么机制驱动循环运行」这一核心问题。文章指出,AI领域已将循环视为智能体系统的基本构成,但对如何协调和控制这些循环的关注不足。该内容旨在剖析智能体系统中循环的底层运行机制及其重要性。

How to Create Loops with Claude

@mikenevermiss · 10.8K 粉丝 · 261.4K 阅 · 568 赞 · 67 转

stop making prompts. start designing loops. a prompt gets you one response. a loop gets you a system that keeps working after you close the laptop. Boris Cherny, who runs Claude Code at Anthropic, put

中文介绍 博主倡导使用Claude时,应从单一「提示词」转向「设计循环」。他指出,提示词仅提供一次性响应,而循环能够创建即使关闭电脑也能持续运行的系统。文中引用Anthropic的Boris Cherny的观点,强调了这种系统性方法的价值,以实现更高效、更自主的AI工作流。

The Self-Improving Loop: a 300-agent swarm on Kimi K2.6, verified by Opus 4.8

@0xMovez · 26.7K 粉丝 · 208.0K 阅 · 504 赞 · 59 转

A free open-source model is running 300 parallel agents across 4,000 coordinated steps from a single prompt, and it scores higher on real research tasks than models you pay 5x more for. Most people

中文介绍 博主展示了一个「自改进循环」系统,该系统利用免费开源的Kimi K2.6模型驱动300个并行智能体,通过单一提示词执行4000个协调步骤。经Opus 4.8验证,其在实际研究任务上的得分高于价格高出五倍的模型。此案例突显了开源模型与大规模智能体协同在复杂任务中的高效率和成本优势。

Lazymaxxing TikTok Slideshows: 600/month for $2

@athcanft · 19.1K 粉丝 · 205.6K 阅 · 514 赞 · 23 转

I've been mass-producing TikTok slideshows with AI and scheduling them weeks in advance. Zero filming. Zero editing. Zero daily posting grind. This article breaks down the exact system, step-by-step,

中文介绍 博主分享了一套利用AI工具「批量生产TikTok幻灯片」的详细系统。他声称每月能以2美元成本制作600个幻灯片,实现零拍摄、零编辑、零日常发布压力,并能提前数周安排发布。该文章提供了实现这一自动化内容创作工作流的完整分步指南,旨在大幅提升内容产出效率。

Three Ways Codex Can Use a Computer

@jxnlco · 105.9K 粉丝 · 204.4K 阅 · 504 赞 · 47 转

Update: Computer Use is now Available in the EU/UK ;) Enjoy! There are three ways for Codex to use a computer: Computer Use, the Chrome extension, and the in-app browser. They overlap just enough to

中文介绍 博主阐述了Codex使用电脑的「三种主要方式」:包括直接的「Computer Use」功能、通过Chrome扩展程序,以及内置的应用程序内浏览器。文章指出了这些方法在功能上存在一定重叠,旨在帮助用户理解并选择最适合的途径,以便Codex更有效地与计算环境交互及执行任务。

Factory 2.0: From coding agents to software factories

@matanSF · 20.2K 粉丝 · 123.1K 阅 · 529 赞 · 60 转

In 2023, we launched Factory with the mission to bring autonomy to software engineering. While others were using models to speed up coding, we set out to deploy autonomous Droids across the

中文介绍 发布了「Factory 2.0」,标志着其从编码智能体向「软件工厂」的演进。博主介绍了公司在2023年推出Factory的初衷是实现软件工程的自主化,并强调与仅加速编码的其他方案不同,Factory 2.0旨在部署自主运行的Droids,实现更深层次的自动化,彻底改变软件开发模式。

Zen and the Art of AI Research

@jxmnop · 50.7K 粉丝 · 114.1K 阅 · 504 赞 · 57 转

So you want to do AI research? It's true that no one really teaches you how. Not directly, anyway. But it turns out that the way to get started is pretty simple: some combination of (i) reading and

中文介绍 博主针对AI研究领域缺乏直接指导的现状,分享了「如何开展AI研究」的实用建议。他指出,入门路径其实相对简单,主要在于结合(一)阅读相关文献与(二)进行实践探索。文章旨在为有志于AI研究的初学者提供清晰的起步方向和基本方法论,强调理论学习与动手实践的重要性。

how to get Fable-level intelligence back:

@EXM7777 · 118.9K 粉丝 · 107.7K 阅 · 509 赞 · 44 转

for a few days, we had something that felt like AGI... Fable 5 showed up, effectively unlimited inside the plans, and the ceiling on what you could build lifted overnight but then Anthropic killed it,

中文介绍 博主讨论了Anthropic的Fable 5模型被“削弱”后,如何「恢复Fable级别智能」的问题。他回忆Fable 5短暂出现时,曾提供近似AGI的无限能力,极大拓展了用户构建的可能性。文章旨在探讨在Anthropic调整模型后,用户如何通过其他方法或技术路径,努力重现或接近那种高水平的AI智能体验。

ORACLE: Official AI Agents Trade on Polymarket

@OracleMindAI · 21.0K 粉丝 · 105.0K 阅 · 2.8K 赞 · 582 转

In 2026, autonomous AI agents have become one of the most effective strategies on prediction markets. Over 30% of all activity on Polymarket now comes from algorithmic and AI-powered wallets. We

中文介绍 宣布「ORACLE」AI智能体已在Polymarket上线交易。该帖子展望2026年,预测自主AI智能体将成为预测市场最有效的策略之一,届时Polymarket上超过30%的活动将由算法及AI驱动的钱包贡献。这似乎是一项关于AI在金融预测市场应用的「产品发布」或概念验证。

WTF Is a Loop? Part 2: The 15 Loops People Are Actually Running (and the Commands to Steal Them)

@mvanhorn · 35.2K 粉丝 · 102.4K 阅 · 510 赞 · 56 转

Earlier this month I wrote WTF Is a Loop? Peter Steinberger vs. Boris Cherny, which did 3.6M views on what a loop even is. This is the sequel, and it answers the next question: which loops do people

中文介绍 作为360万次观看热门帖子「WTF Is a Loop?」的续篇,博主深入探讨了人们实际运行的「15种AI循环」及获取其指令的方法。该内容旨在解答关于AI智能体循环的具体应用疑问,提供了可借鉴的实战案例和代码,帮助用户理解并复制目前社区中流行的多种有效循环工作流,提升AI应用开发效率。

From Prompting Agents to Loop Engineering

@omarsar0 · 308.0K 粉丝 · 90.2K 阅 · 504 赞 · 69 转

A claim has been circulating in AI coding circles: stop prompting your coding agents and start designing loops that prompt them for you. As with everything new, this stuff gets repeated often and

中文介绍 博主探讨了AI编码领域正流行的趋势:从直接「提示智能体」转向「循环工程」。该观点主张,应停止手动向编码智能体提供提示,而是设计能自动生成提示的循环系统。这表明AI编码正朝着更自主、更高效的方向发展,旨在通过系统化循环设计,优化代码生成过程。

How GLM-5.2 Beat Fable 5 at Website Design

@Designarena · 13.9K 粉丝 · 80.4K 阅 · 518 赞 · 39 转

GLM 5.2 ranks 1st overall on Design Arena’s single-turn, HTML Web Design (Non-Agentic) evaluation, 5 places higher than its predecessor GLM-5.1. To do so, it beat Claude Fable 5, Opus 4.6, and Opus

中文介绍 Designarena宣布,GLM 5.2模型在其「单轮、非智能体HTML网页设计评估」中荣获第一,领先其前身GLM 5.1五位。更重要的是,GLM 5.2击败了包括Claude Fable 5、Opus 4.6和Opus在内的多个领先模型,展现了在AI驱动网页设计领域的显著性能突破,强调了其在生成高质量HTML代码方面的优势。

How modern browsers work

@addyosmani · 401.4K 粉丝 · 55.7K 阅 · 7d 曝光 55.7K

How modern browsers work

9 AI Agent Skills To Get Ahead of 99% of People

中文介绍 视频分享了9项关键的AI智能体技能,旨在帮助个人提升能力并领先于大多数人。内容可能涵盖如何有效利用AI智能体进行工作、学习和解决问题。

How to build high quality internal tools with Retool

中文介绍 视频简要介绍了如何利用Retool平台构建高质量的内部工具。内容可能涵盖Retool的功能特性,以及其在快速开发企业级应用方面的优势。

Delegate and schedule tasks in Claude Cowork

中文介绍 Claude官方视频演示了如何在协作平台「Claude Cowork」中委派和安排任务。该功能旨在帮助用户高效管理工作流程,提升团队协作效率。

Artifacts in Claude Code: share your work as it happens

中文介绍 Claude官方视频展示了「Claude Code」中的“Artifacts”功能。该功能允许用户实时分享他们的工作成果,从而促进代码开发过程中的即时协作与反馈。

Enterprise-managed auth for MCP connectors

中文介绍 Claude官方视频介绍了针对MCP连接器的企业级认证管理功能。该功能旨在为企业用户提供更安全、更便捷的身份验证与授权管理,以支持多云平台环境下的集成需求。

The Briefing: Financial Services

中文介绍 Claude官方发布了一期关于金融服务行业的简报视频。内容可能探讨了AI技术在金融领域的应用、面临的挑战以及Claude如何赋能金融机构进行数字化转型。

Delegate and schedule tasks in Claude Cowork

中文介绍 Claude官方视频演示了如何在协作平台「Claude Cowork」中委派和安排任务。该功能旨在帮助用户高效管理工作流程,提升团队协作效率。

Artifacts in Claude Code: share your work as it happens

中文介绍 Claude官方视频展示了「Claude Code」中的“Artifacts”功能。该功能允许用户实时分享他们的工作成果,从而促进代码开发过程中的即时协作与反馈。

Enterprise-managed auth for MCP connectors

中文介绍 Claude官方视频介绍了针对MCP连接器的企业级认证管理功能。该功能旨在为企业用户提供更安全、更便捷的身份验证与授权管理,以支持多云平台环境下的集成需求。

Scientists Found A Better Language For AI Agents

中文介绍 视频介绍了一项科学研究发现,科学家们为AI智能体找到了一种更优的编程或交互语言。这项进展有望显著提升AI智能体的性能和表达能力。

Samsung Electronics brings ChatGPT and Codex to employees

Samsung Electronics deploys ChatGPT Enterprise and Codex to employees worldwide, marking one of OpenAI’s largest enterprise AI rollouts.

中文介绍 韩国三星电子已在全球范围内向员工部署OpenAI的ChatGPT Enterprise和Codex,此举标志着OpenAI迄今为止规模最大的企业级AI推广之一。

[Exclusive] $250 off AI Engineer tix til Monday

special offer for subscribers - $250 off AI Engineer tix til Monday

中文介绍 Latent Space为订阅者提供独家优惠,在周一前购买AI Engineer大会门票可享受250美元折扣。此优惠旨在吸引更多行业人士参与AI技术交流。

[AINews] not much happened today

a quiet day lets us promo AIE one last time

中文介绍 今日AI新闻较为平静,Latent Space借此机会再次推广AI Engineer大会,呼吁业界关注并参与此次重要的技术交流盛会。

A startup claims it broke through a bottleneck that’s holding back LLMs

Miami-based AI startup Subquadratic came out of stealth mode last month with a huge claim. It announced that it had solved a mathematical bottleneck that had been holding back large language models for almost a decade. The details were thin, and many people were unconvinced. But Subquadratic has sta

中文介绍 迈阿密AI初创公司Subquadratic上月宣布,已解决困扰大型语言模型(LLM)近十年的一个数学瓶颈。然而,由于技术细节披露不足,许多人对此说法表示怀疑,其具体影响尚待观察。

[AINews] GLM > GPT? GLM-5.2 passes vibe check; Z.ai forecasts Open Fable by December

With GLM-5.2 passing everyone's vibe check, the open models story finally becomes a real frontier story.

中文介绍 GLM-5.2模型受到广泛好评,使得开放模型领域成为新的前沿。同时,Z.ai预测Open Fable项目将于12月推出,可能进一步推动开放模型的生态发展。

not much happened today

**GLM-5.2** emerges as a leading open-weight coding model rivaling **Opus 4.8** and **GPT-5.5** in software engineering tasks, emphasizing the strategic importance of open models for provider competition, on-prem deployment, and fine-tuning rights. Experts like **Patrick Toulme** and **Thomas Wolf**

中文介绍 GLM-5.2作为领先的开源编码模型,在软件工程任务中能与Opus 4.8和GPT-5.5匹敌,凸显了开源模型在供应商竞争、本地部署及微调权利方面的战略重要性。

MosaicLeaks: Can your research agent keep a secret?

中文介绍 Hugging Face博客发布名为「MosaicLeaks」的文章,探讨研究代理能否保守秘密这一隐私安全问题。内容可能涉及AI模型的数据泄露风险与伦理挑战。

The Professor of Outputmaxxing — Anjney Midha, AMP

We talk about how this legendary investor went from humble beginnings in Singapore to leading rounds in Anthropic, Mistral, Black Forest Labs, and Periodic Labs... and the AMP secret master plan!

中文介绍 本文介绍了著名投资者Anjney Midha(AMP)的传奇经历,他从新加坡发迹,主导了Anthropic、Mistral、Black Forest Labs和Periodic Labs等公司的融资轮,并探讨了AMP的秘密宏伟计划。

New usage analytics and updated spend controls for enterprises

OpenAI introduces new spend controls and usage analytics for ChatGPT Enterprise, helping organizations manage costs and scale AI with confidence.

中文介绍 OpenAI为ChatGPT Enterprise推出了新的支出控制和使用分析功能,旨在帮助企业用户更好地管理成本,并更自信地扩展AI应用规模。

Improving health intelligence in ChatGPT

Learn how GPT-5.5 Instant improves ChatGPT’s health and wellness responses with stronger reasoning, better context, clearer communication, and physician-informed evaluations.

中文介绍 OpenAI通过GPT-5.5 Instant提升了ChatGPT在健康和福祉方面的智能响应能力。新版本在推理能力、语境理解、沟通清晰度以及结合医生评估方面都有所增强。

Using AI to help physicians diagnose rare genetic diseases affecting children

Researchers used an OpenAI reasoning model to help diagnose rare diseases, identifying 18 new diagnoses in previously unsolved cases.

中文介绍 研究人员利用OpenAI的推理模型协助诊断儿童罕见遗传疾病,成功在以往未能确诊的病例中识别出18个新诊断结果,展现了AI在医疗诊断领域的潜力。

not much happened today

**GLM-5.2** from **Zhipu** emerged as a leading open-weight model with innovative **IndexShare** sparse-attention enabling efficient **1M-token inference**, praised as comparable to **GPT-5.5** and **Opus 4.8** but lacking vision support. Other notable open models include **Laguna M.1** by **Poolsid

中文介绍 智谱的GLM-5.2模型成为领先的开源模型,其创新的IndexShare稀疏注意力机制实现了高效的1M token推理,被认为可与GPT-5.5和Opus 4.8媲美,但尚不支持视觉功能。

[AINews] Midjourney Medical: scan your organs like you step on a scale

The only bootstrapped frontier lab announces its second product and second

中文介绍 唯一的自筹资金前沿实验室宣布推出其第二款产品「Midjourney Medical」,旨在提供如同称体重般便捷的器官扫描服务,预示着AI医疗影像领域的创新。

Centrally manage authorization for MCP connectors

Centrally manage authorization for MCP connectors

中文介绍 Claude博客发布文章,介绍如何集中管理MCP连接器的授权,旨在简化企业级应用中的权限配置和安全管理,提升操作效率和数据安全。

GLM5.2 真的挺好用的

爆杀Deepseek,Claude用不起,Codex不稳定,只能部署个GLM了。开源万岁 ! 性能指标大概是prefill 10000+tokens/s, decode 100+ tokens/s 部署脚本 vllm serve zai-org/GLM-5.2-FP8 \ --served-model-name claude-opus-4-8 claude-opus-4-7 claude-opus-4-6 GLM-5.2\ --tensor-parallel-size 8 \ --max-num-batched-tokens 16384 \ --max-num-seqs 64 \ --max-

【开源 Skills】清华博士自用Skill 生态 更新,内附测试截图

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI 生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 接着【开源 Skills】清华博士自用的科研&编程 & 日常 Agent 生态:COMPASS 司南 repo地址: github.com GitHub - dongshuyan/compass-skills: 司南:个性化 AI 任务总控 Skills 系统 /COMPASS

尼尼孩孩major冠军~牛逼~

终于~~~~尼尼拿到了major冠军了,这次他不同意!~~~ 在我心里史上最硬的冠军~牛逼 32 个帖子 - 30 位参与者 阅读完整话题

美团把GPT-5.5、Claude Opus 4.8免费使用

tabbit是美团近期上线的AI应用,分国际版和国内版双轨。 国际版:免费接入GPT-5.5、Claude Opus 4.8、Gemini 3.5 Flash,外加Kimi-2.6、GLM-5.1、MiniMax-M3。 国内版:仅提供国内模型(Kimi、GLM、MiniMax等),无海外旗舰。 国际版链接:https://www.tabbit.ai/ 57 个帖子 - 52 位参与者 阅读完整话题

我们真的需要 Fable 5 吗?

说实话,大模型达不达到 Fable 5 级别其实对大部分工作者的意义不大,并不会导致大家眩晕瘫坐仿佛看到原子弹爆炸。因为用不用得上 Fable 5 的能力实际上取决于你的 Coding 方式。 Agentic Coding 还是有很多程度上的区分的: 首先是原教旨 Vibe 。这类人坚定不移地走 Andrej Karpathy 的路线,坚持全程使用 AI 编程不动摇。这种人已经相当于机械飞升了,写出来的代码可以类比成 40K 世界里的人类之于现实人类——简单来说就已经不是人了。通常来说,这类人的能力上限极高,下限也极低。 上限极高的前提是成为掌管提示词工程的神、同时用 Harness Prom

虽然是女生 我也整点??

都说女生不能女装(我说的) 那就不看衣服了 简单翻找了一下我的历史评论,大概我只在boost里说过这话,没有发过帖(依旧较真) (点击了解更多详细信息) 依然最爱自己的腿了ww 但是本人非常不喜欢拍照,觉得是个很麻烦的事情。更硬性的原因是从来没有过拍照好看的手机(连清晰度都跟不上 现在的iQOO Z10也是个近视眼w) 这也算是第一次拍自己了 好看就放0级 [!quote]好耶 开放0级 不知道大家误解了什么,总之本话题以及下方留言没有删除任何关键信息 139 个帖子 - 95 位参与者 阅读完整话题

【CHY公益站】站长即将失踪通知

马上就要期末考试了,大概是7月6号考,在这段时间我如果不是啥都干完了没事干是不会动电脑了 、带-free后缀的模型 、前面有 开发公司/ 的模型 7 个帖子 - 7 位参与者 阅读完整话题

【九幺】继续放送公益站余额

本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的项目是免费使用的,无收费(变相收费、赞助)部分: 是 我的帖子已经打上 公益推广 标签: 是 我的项目属于个人项目,与公司或商业机构无关: 是 我的项目不存在QQ、TG等群组引流: 是 我的项目不存在非运营必要的网站引流: 是 我的项目不存在为他人推广、AFF: 是 我的项目无关联的商业项目: 是 我的站点存在登录,并已接入 LINUX DO Connect: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已

今日主题

今日的AI前沿聚焦于智能体(Agent)领域的深入发展与实用落地,以及开源模型不断提升的竞争力。我们见证了字节跳动开源长周期Agent框架、Claude Code推出实时协作功能,以及大量关于如何构建高效AI循环工作流的技巧分享,这标志着AI应用正从单一提示向系统化、自主化方向演进。同时,智谱GLM-5.2等开源模型在性能上直追甚至超越顶尖商业模型,预示着AI技术民主化进程加速。在行业层面,三星电子大规模部署OpenAI企业级AI,展现了巨头对AI的拥抱;而对AI代理隐私安全、以及“拥有”与“租赁”AI智能的战略探讨,则凸显了行业在快速发展中对安全与自主性的深层思考。这些发展共同描绘了一个更加智能、开放、且充满机遇与挑战的AI生态。

01

模型发布/更新

Model Releases 44 篇

GLM-5.2开源模型在编码任务中匹敌顶级商业模型

综合资讯Smol AI News

智谱的GLM-5.2模型被誉为领先的开源编码模型,在软件工程任务中展现出与Anthropic Opus 4.8及OpenAI GPT-5.5相媲美的能力。其创新的IndexShare稀疏注意力机制实现了高效的1M token推理,凸显了开源模型在竞争格局中的战略重要性,尤其是在本地部署和微调方面为用户提供了更多自主权。虽然目前尚不支持视觉功能,但其在代码处理上的卓越表现已使其成为业界关注的焦点。

开源模型GLM-5.2编码AI

GLM-5.2在网页设计基准测试中击败Claude Fable 5

X·KOLX 推文 (AttentionVC)

Designarena宣布,智谱GLM 5.2模型在「单轮、非智能体HTML网页设计评估」中荣获第一,其性能超越了包括Claude Fable 5、Opus 4.6和Opus在内的多个领先模型,甚至比其前身GLM 5.1提升了五位。此结果突出展现了GLM 5.2在AI驱动网页设计领域的显著性能突破,尤其在生成高质量HTML代码方面具备明显优势,进一步巩固了其作为开源模型领导者的地位。

模型对比网页设计GLM

Poolside发布Laguna系列基础模型赋能智能代理

产品榜单Product Hunt

Poolside推出了Laguna系列基础模型,专门设计用于支持智能代理编程和处理需要长期规划的复杂任务。这些模型旨在提升人工智能在开发领域的应用,通过提供强大的底层能力,帮助开发者构建更智能、更自主的AI代理系统。Laguna的发布,有望进一步推动AI代理技术的发展,使其在应对多步骤、复杂场景时表现出更优异的性能和适应性。

基础模型AI编程人工智能

研究揭示LLM FP4预训练“收缩偏差”并提出UFP4优化方案

官方HuggingFace Trending Papers

一项最新研究重新审视了大型语言模型(LLM)FP4预训练中的「收缩偏差」,深入探讨其几何起源和系统性影响。尽管FP4训练能显著降低内存和计算成本,但现有硬件(如NVIDIA Blackwell/Rubin、AMD MI350系列GPU)仍依赖E2M1数据元素。为解决这一问题,论文提出UFP4方案以优化FP4预训练,有望在保持模型性能的同时,进一步提升大模型的训练效率和硬件兼容性。

大模型预训练硬件
02

产品发布/更新

Product 33 篇

ChatGPT Enterprise新增支出控制与使用分析功能

官方OpenAI News

OpenAI近日为ChatGPT Enterprise推出了新的支出控制和使用分析功能。这些新功能旨在帮助企业用户更好地管理和优化AI使用成本,通过提供详细的使用数据和更灵活的预算配置选项,使企业能够更自信地扩展其AI应用规模,确保在享受AI带来效率提升的同时,有效控制运营开支并洞察AI工具在组织内部的实际价值。

企业服务成本管理ChatGPT

Claude Code推出Artifacts功能强化实时代码协作

官方Claude (YouTube)

Claude官方视频展示了「Claude Code」中的“Artifacts”功能,该功能允许用户实时分享其工作成果。这一创新旨在促进代码开发过程中的即时协作与反馈,打破传统协作模式中信息滞后的问题。通过Artifacts,开发者可以更便捷地共享代码片段、输出结果或任何生成内容,从而加速团队迭代,提升编程效率和项目质量。

Claude代码协作产品功能

字节跳动开源长周期SuperAgent框架Deer-Flow

开源项目GitHub Trending

字节跳动近期开源了「deer-flow」,这是一个专注于研究、编码和创作等复杂任务的长周期SuperAgent框架。该框架通过沙盒、记忆、工具集、技能库、子代理和消息网关等模块协同工作,旨在赋能AI代理处理不同复杂程度的任务。它解决了单一AI模型难以应对多步骤、跨领域挑战的问题,为AI研究者和开发者构建具备高级规划和执行能力的AI系统提供了强大的底层支持。

Agent大模型应用AI框架
03

行业动态

Industry 44 篇

三星电子全球范围内部署OpenAI企业级AI解决方案

官方OpenAI News

韩国科技巨头三星电子已在全球范围内向其员工部署OpenAI的ChatGPT Enterprise和Codex。此举标志着OpenAI迄今为止规模最大的企业级AI推广之一,彰显了大型企业对AI技术在提升生产力和创新能力方面的高度认可和采纳。三星通过集成这些先进的AI工具,旨在赋能员工,优化内部工作流程,并在全球范围内加速其数字化转型进程。

企业AI三星OpenAI

传闻SpaceX斥资600亿美元收购AI代码编辑器Cursor

大咖博客Riley Brown (YouTube)

近日有视频讨论称,SpaceX可能以600亿美元的天价收购AI代码编辑器Cursor。若此传闻属实,这将成为AI技术领域的一项重磅交易,不仅将对AI代码开发工具市场产生深远影响,也预示着SpaceX在AI技术集成和自主化软件开发方面的巨大野心。此次潜在的收购事件,引发了业界对AI技术在航天和高科技领域应用前景的广泛关注和讨论。

AI代码SpaceX收购传闻

Hugging Face探讨AI研究代理的隐私与安全风险

官方Hugging Face Blog

Hugging Face博客发布文章「MosaicLeaks」,深入探讨了AI研究代理能否保守秘密这一关键的隐私安全问题。文章指出,随着AI模型能力的增强,数据泄露风险和伦理挑战日益突出。内容可能涉及AI代理在处理敏感信息时,如何确保数据安全、防止意外泄露,并强调了在AI发展过程中,隐私保护和伦理规范的重要性,为AI安全研究提供了新的视角。

AI安全隐私研究代理

AI战略之争:深入探讨“拥有”与“租赁”智能模式

X·KOLX 推文 (AttentionVC)

博主深入探讨了AI领域中「拥有智能与租赁智能」的战略议题,并以Mythos公司被关停为例,强调了企业过度依赖不受自身控制的外部智能所面临的巨大风险。文章引发了对AI产品和公司应如何平衡利用外部API与自研核心智能的思考,警示了技术依赖性可能带来的潜在危机。这一讨论对于正在规划AI战略的企业具有重要的参考价值。

AI战略商业模式观点
04

技巧与观点

Tips & Takes 44 篇

AI智能体“循环”工作流深度解析:告别低效交互

X·KOLX 推文 (AttentionVC)

博主阐释了AI工具中的「循环」概念,指出多数用户仍以低效的手动输入-等待-修改方式使用AI。他对比了Claude、GPT及Mira等模型中有效实现自动化循环的方法,强调通过设计系统化循环,能帮助用户摆脱传统低效交互模式,显著提升AI工具的使用效率和产出质量。文章旨在引导用户从单一提示转向建立持续、自主运行的AI工作流程。

AI工作流循环机制效率提升

手把手构建Claude Code智能体循环团队实战教程

X·KOLX 推文 (AttentionVC)

博主分享了如何构建一个能「循环运行」的Claude Code智能体团队的详细教程。与多数单次执行的智能体不同,该团队会持续运行直到任务通过验证,确保了更高的可靠性和自主性。教程提供了具体的3文件设置,包括智能体定义和驱动循环的逻辑,旨在帮助开发者实现更高效、更稳定的代码生成和任务完成能力,为复杂项目提供了新的解决方案。

Claude智能体循环工作流

AI智能体上下文工程完整指南:提升复杂任务性能

X·KOLX 推文 (AttentionVC)

一份关于「AI智能体上下文工程」的完整攻略被分享。博主指出,AI智能体常在多步骤任务中表现不佳,例如在15步后出现错误的工具调用、遗忘指令及低质量输出。该攻略旨在提供系统方法,优化智能体的上下文管理,确保其在复杂或长时间任务中保持一致性和高质量的性能。通过精细化上下文工程,可显著提升AI智能体在实际应用中的鲁棒性和效率。

提示词工程AI智能体上下文管理

AI模型协助诊断儿童罕见遗传疾病获突破性进展

官方OpenAI News

一项研究利用OpenAI的推理模型,在协助诊断儿童罕见遗传疾病方面取得了显著进展。通过AI的赋能,研究人员成功在以往未能确诊的病例中识别出18个新的诊断结果,这不仅展现了AI在医疗诊断领域,特别是针对复杂疑难病症的巨大潜力,也为面临罕见病困扰的儿童及其家庭带来了新的希望和解决方案。

医疗诊断罕见病OpenAI