每日 AI 简报

2026-06-22(内容获取于 06/22 05:08)

GLM 5.2被誉为最佳开源AI模型,预示AI Agent领域变革

Riley Brown (YouTube) · 06/21 21:30

视频探讨GLM 5.2模型,认为它可能是最佳开源AI模型,在软件工程任务中与Opus 4.8及GPT-5.5竞争,预示AI Agent领域根本性变革。专家强调开源模型对竞争、部署和微调权的重要性。(多家报道)

推荐理由:GLM 5.2的崛起对开源AI生态和AI Agent发展具有重要意义,视频提供了深入分析,是了解最新开源大模型进展的必看内容。

全球首个开源Agent视频制作系统OpenMontage发布,赋能AI视频创作

GitHub Trending

OpenMontage是全球首个开源、基于Agent的视频制作系统,旨在将AI编码助手升级为全功能视频生产工作室。它集成了多条处理流水线、工具和Agent技能,实现从脚本到成片的自动化制作。

推荐理由:这是一项突破性的开源项目,将AI Agent能力拓展至视频制作,对内容创作者和开发者提供了强大的自动化工具,可直接上手尝试。

Claude Cowork发布新功能:支持任务委派与排程,提升团队协作效率

Claude (YouTube) · 06/21 21:00

Claude Cowork平台推出新功能,允许用户在协作空间内委派和安排任务。此举利用AI能力帮助团队更有效地管理和协调日常工作流程,进一步提升团队生产力。(多家报道)

推荐理由:对使用Claude或寻求AI赋能团队协作的企业而言,这一更新提供了更强大的任务管理能力,有助于优化工作流。

CleverCrow发布:创新平台助力AI辅助开源项目高质量贡献

Hacker News · 06/22 03:06

CleverCrow旨在解决「误导性AI拉取请求」问题。它通过允许用户向开源项目贡献代币,建立激励机制,提升AI辅助代码贡献的质量和方向性,优化开源软件开发流程。

推荐理由:对开源项目维护者和利用AI进行代码贡献的开发者而言,CleverCrow提供了一个潜在的解决方案,以改善AI驱动的协作体验。

Claude Code发布重要更新:CLI改进与网络沙盒安全增强

Claude Code Changelog

Claude Code发布v2.1.113/v2.1.114更新,改进CLI为生成原生二进制,新增`sandbox.network.deniedDomains`阻止特定域,并修复Agent团队权限崩溃问题。(多家报道)

推荐理由:对Claude Code的开发者来说,这些更新带来了更稳定的CLI工具和增强的网络安全控制,是重要的技术改进。

深度解析AI循环与Agent模式:提升AI应用效率的实践指南

X 推文 (AttentionVC) · 06/21 04:09

该指南解释了15种真实场景下的AI循环,并分享了可直接「窃取」的命令代码,强调通过设计自动化流程让AI系统持续工作并自我优化,是构建更强大AI应用的核心。(多家报道)

推荐理由:这是一份高度实用的AI Agent与自动化工作流教程,提供了具体代码和模式,对希望提升AI使用效率的开发者和研究者极具价值。

GPT-5.6有望发布,Claude Code新功能及Perplexity AI记忆增强

TLDR AI · 06/19 08:00

TLDR AI简报指出,GPT-5.6模型可能于本周二发布,Anthropic的Claude推出了代码工件功能,而Perplexity的AI助手「大脑」具备记忆能力。这些进展显示主要AI平台持续演进。

推荐理由:一览式了解头部AI公司的最新动态,涵盖大模型发布预期、AI开发工具及AI助手能力提升,是把握行业脉搏的关键信息。

macOS AI视频编辑器Palmier Pro发布,简化剪辑工作流

GitHub Trending

Palmier Pro是一款专为macOS设计的AI视频编辑器,深度整合人工智能技术以简化视频剪辑工作流,可能提供智能剪辑、内容分析等功能,显著提高视频内容创作者的生产效率。

推荐理由:该工具将AI能力带入视频剪辑领域,为macOS用户提供了提升生产力的新选择,值得内容创作者关注。

科学家为AI Agent发现新语言,有望提升效率与协作性能

Two Minute Papers · 06/19 22:06

科学家们宣称已为AI Agent找到了一种更优的语言。这一发现可能在AI Agent的沟通效率、理解能力或内部运作机制上带来技术突破,有望推动AI Agent技术进入一个新阶段。

推荐理由:该研究预示着AI Agent领域的基础性进步,对AI Agent的未来发展方向具有指导意义,值得研究者关注。

AI初创公司声称解决LLM十年数学瓶颈,但细节引质疑

MIT Tech Review AI · 06/19 18:40

迈阿密AI初创公司Subquadratic宣称已解决困扰大型语言模型(LLMs)近十年的数学瓶颈。尽管该公司已走出隐秘模式,但具体技术细节仍未充分披露,引发业界质疑。

推荐理由:关注AI核心技术瓶颈突破的潜在进展,但需警惕缺乏细节验证的「宏大叙事」,对LLM研究者具有启发。

palmier-io/palmier-pro

Swift · ★ 4,876 · 🍴 372 · 📈 1,829 stars today

macOS video editor built for AI

中文介绍 Palmier Pro是一款专为macOS设计的AI视频编辑器。它深度整合人工智能技术,旨在简化视频剪辑工作流,可能提供智能剪辑、内容分析或自动特效生成等功能,显著提高视频内容创作者的生产效率。该工具特别适合需要利用AI技术快速、高效制作高质量视频的macOS用户。

calesthio/OpenMontage

Python · ★ 8,422 · 🍴 1,280 · 📈 993 stars today

World's first open-source, agentic video production system. 12 pipelines, 52 tools, 500+ agent skills. Turn your AI coding assistant into a full video production studio.

中文介绍 OpenMontage是全球首个开源、基于Agent的视频制作系统,旨在将AI编码助手升级为全功能视频生产工作室。它集成了12条处理流水线、52种工具和超过500项Agent技能,能实现从脚本到成片的自动化制作。适用于内容创作者、营销团队及开发者,利用AI高效生成各类视频内容。

chopratejas/headroom

Python · ★ 44,014 · 🍴 3,066 · 📈 2,617 stars today

Compress tool outputs, logs, files, and RAG chunks before they reach the LLM. 60-95% fewer tokens, same answers. Library, proxy, MCP server.

中文介绍 Headroom是一个创新的LLM输入压缩工具,旨在显著减少大型语言模型处理的token数量。它能高效压缩工具输出、日志、文件及RAG(检索增强生成)块,在不影响回答质量的前提下,将token使用量降低60-95%。该工具提供库、代理和MCP服务器等形式,帮助开发者优化LLM成本和性能。

tursodatabase/turso

Rust · ★ 20,736 · 🍴 1,059 · 📈 543 stars today

Turso is an in-process SQL database, compatible with SQLite.

中文介绍 Turso是一个高性能的进程内SQL数据库,完全兼容SQLite。它旨在提供轻量级、快速且易于部署的数据存储解决方案,可以直接嵌入到应用程序中运行。这种架构使其非常适合边缘计算、无服务器(Serverless)环境或需要本地持久化数据的应用,为开发者提供了灵活可靠的数据库选择。

penpot/penpot

Clojure · ★ 52,141 · 🍴 3,334 · 📈 1,131 stars today

Penpot: The open-source design tool for design and code collaboration

中文介绍 Penpot是一款开源的设计工具,专注于提升设计与代码的协同效率。它为UI/UX设计师和前端开发者提供统一平台,支持矢量图形设计、原型制作,并强调与Web标准的兼容性,便于将设计无缝转换为代码。其开源特性鼓励社区参与和定制,特别适合注重设计系统和开发流程集成的团队。

ZhuLinsen/daily_stock_analysis

Python · ★ 44,331 · 🍴 41,411 · 📈 519 stars today

LLM 驱动的多市场股票智能分析系统:多源行情、实时新闻、决策看板与自动推送,支持零成本定时运行。 LLM-powered multi-market stock analysis system with multi-source market data, real-time news, decision dashboard, automated notifications, and cost-free scheduled runs.

中文介绍 这是一个LLM驱动的多市场股票智能分析系统。它整合多源行情数据和实时新闻,利用AI技术生成深度分析和决策看板。系统支持自动推送关键信息,并能实现零成本定时运行,为投资者提供高效、全面的市场洞察和辅助决策。适用于个人投资者、量化交易者或金融分析师。

koala73/worldmonitor

TypeScript · ★ 57,995 · 🍴 9,202 · 📈 253 stars today

Real-time global intelligence dashboard. AI-powered news aggregation, geopolitical monitoring, and infrastructure tracking in a unified situational awareness interface

中文介绍 WorldMonitor是一个实时全球情报仪表盘。它利用AI技术进行新闻聚合、地缘政治监测及关键基础设施追踪,在一个统一的态势感知界面中呈现。该系统旨在为用户提供实时的全球事件洞察和风险预警,帮助决策者理解复杂的国际动态。适用于政府机构、企业风险管理部门或国际关系分析师。

bytedance/deer-flow

Python · ★ 72,487 · 🍴 9,827 · 📈 415 stars today

An open-source long-horizon SuperAgent harness that researches, codes, and creates. With the help of sandboxes, memories, tools, skill, subagents and message gateway, it handles different levels of tasks that could take minutes to hours.

中文介绍 Deer Flow是字节跳动开源的长周期SuperAgent框架,旨在实现自主研究、编码和创作。它通过沙箱环境、记忆模块、工具集、技能库、子Agent及消息网关等组件,处理复杂的多层次任务。该框架赋予AI Agent更强的规划和执行能力,适用于自动化开发、内容生成或复杂问题解决。

DeusData/codebase-memory-mcp

C · ★ 10,156 · 🍴 768 · 📈 1,029 stars today

High-performance code intelligence MCP server. Indexes codebases into a persistent knowledge graph — average repo in milliseconds. 158 languages, sub-ms queries, 99% fewer tokens. Single static binary, zero dependencies.

中文介绍 Codebase-memory-mcp是一个高性能的代码智能MCP服务器。它能将代码库快速索引为持久化知识图谱,平均每个仓库仅需毫秒级处理。该工具支持158种编程语言,提供亚毫秒级查询速度,并能减少99%的token使用量,以单一静态二进制文件形式运行。旨在提升AI辅助编码和代码分析效率。

mukul975/Anthropic-Cybersecurity-Skills

Python · ★ 17,564 · 🍴 2,120 · 📈 445 stars today

754 structured cybersecurity skills for AI agents · Mapped to 5 frameworks: MITRE ATT&CK, NIST CSF 2.0, MITRE ATLAS, D3FEND & NIST AI RMF · agentskills.io standard · Works with Claude Code, GitHub Copilot, Codex CLI, Cursor, Gemini CLI & 20+ platforms · 26 security domains · Apache 2.0

中文介绍 该项目提供了754项结构化的网络安全技能集,专为AI Agent设计。这些技能已映射到MITRE ATT&CK、NIST CSF 2.0等五大主流安全框架,遵循agentskills.io标准。它能增强如Claude Code、GitHub Copilot等AI工具在网络安全领域的分析、防御和响应能力,助力构建更智能的安全解决方案。

tw93/Pake

Rust · ★ 56,029 · 🍴 11,076 · 📈 1,850 stars today

🤱🏻 Turn any webpage into a desktop app with one command.

中文介绍 Pake是一个极简工具,允许用户通过一条命令将任意网页快速封装成轻量级的桌面应用程序。它利用现代化技术,提供跨平台兼容性,生成的应用占用资源少,启动速度快。Pake旨在简化Web应用的桌面化过程,为用户提供更原生的体验,适合开发者或希望快速创建桌面工具的用户。

mikumifa/biliTickerBuy

Python · ★ 3,700 · 🍴 464 · 📈 56 stars today

b站会员购购票辅助工具

中文介绍 biliTickerBuy是一款专为B站会员购设计的购票辅助工具。它旨在帮助用户更便捷、高效地购买B站平台上的各类演出、活动门票。工具可能包含自动刷新、预填信息、快速提交等功能,提升用户抢购热门票品的成功率。适用于经常在B站会员购购买门票的B站用户。

smicallef/spiderfoot

Python · ★ 18,703 · 🍴 3,104 · 📈 288 stars today

SpiderFoot automates OSINT for threat intelligence and mapping your attack surface.

中文介绍 SpiderFoot是一个开源的OSINT(开源情报)自动化工具。它通过收集并分析公开可用的数据,帮助用户进行威胁情报侦察和绘制攻击面。该工具能发现组织或个人的数字足迹,识别潜在漏洞和风险。适用于安全研究员、渗透测试人员及企业安全团队,用于主动防御和风险评估。

topoteretes/cognee

Python · ★ 18,587 · 🍴 1,966 · 📈 361 stars today

Cognee is the open-source AI memory platform for agents. Give your AI agents persistent long-term memory across sessions with a self-hosted knowledge graph engine.

中文介绍 Cognee是一个开源的AI记忆平台,专为Agent设计。它通过自托管的知识图谱引擎,为AI Agent提供跨会话的持久化长期记忆能力。该平台解决了AI Agent缺乏上下文连贯性和长期知识积累的问题,使其能够学习和回忆历史交互。适用于开发更智能、更具上下文感知能力的AI Agent。

byoungd/English-level-up-tips

★ 53,982 · 🍴 5,552 · 📈 121 stars today

An advanced guide to learn English which might benefit you a lot 🎉 . 离谱的英语学习指南/英语学习教程/英语学习/学英语

中文介绍 这是一个先进且可能突破常规的英语学习指南。它提供了系统性的英语学习方法和技巧,旨在帮助学习者高效提升英语水平。内容可能涵盖听、说、读、写各方面,以及文化背景和学习策略,为追求卓越的英语学习者提供深刻洞察。适用于所有希望大幅提高英语能力的学习者。

asgeirtj/system_prompts_leaks

JavaScript · ★ 44,294 · 🍴 7,323 · 📈 366 stars today

Extracted system prompts from Anthropic - Claude Fable 5, Opus 4.8, Claude Code, Claude Design. OpenAI - ChatGPT 5.5 Thinking, GPT 5.5 Instant, Codex. Google - Gemini 3.5 Flash, 3.1 Pro, Antigravity. xAI - Grok, Cursor, Copilot, VS Code, Perplexity, and more. Updated regularly.

中文介绍 该项目收集并公开了来自Anthropic(Claude系列)、OpenAI(ChatGPT, GPT, Codex)和Google(Gemini系列)等主流AI模型的重要系统提示词(System Prompts)。这些提示词揭示了各模型设计时的内部指令和行为模式,对于理解和优化AI模型行为、进行提示工程研究具有重要价值。适用于AI研究员和开发者。

mattpocock/skills

Shell · ★ 139,558 · 🍴 12,108 · 📈 1,441 stars today

Skills for Real Engineers. Straight from my .claude directory.

中文介绍 该项目汇集了“真正工程师”所需的各项技能,这些技能直接来源于作者的`.claude`目录,暗示它们可能与AI辅助开发、AI Agent的能力或特定的开发实践紧密相关。它可能包含各种实用的代码片段、工具配置或最佳实践,旨在帮助开发者提升在现代AI驱动环境下的工程能力。

LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

👍 6

Policy-adherent tool-calling agents in customer-service domains must maintain task states across turns while calling tools and obeying domain policies. Task states consist of relevant facts, identifiers, constraints, and conditions observed through user interaction and tool calls. In standard agents

中文介绍 论文提出了LedgerAgent,旨在解决客户服务领域中遵循政策的工具调用代理(tool-calling agents)需在多轮交互中维护任务状态的问题。LedgerAgent通过结构化状态来管理相关事实、标识符、约束和条件,这些信息通过用户互动和工具调用获得,从而确保代理能够遵守领域政策。该研究有助于提升智能体在复杂、多轮交互场景中的稳定性和可靠性。

Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe

👍 6

FP4 training promises substantial reductions in memory and computation cost for LLM pretraining, yet current FP4 hardware paths and recipes, including NVIDIA Blackwell/Rubin-class systems and AMD MI350-series GPUs, remain centered on E2M1 data elements. In this study, we identify a fundamental limit

中文介绍 该研究重新审视了大型语言模型(LLM)FP4预训练中的「收缩偏差」(shrinkage bias)问题。尽管FP4训练能显著降低内存和计算成本,但当前包括英伟达Blackwell/Rubin级系统及AMD MI350系列GPU在内的FP4硬件路径仍主要围绕E2M1数据元素。研究揭示了这种偏差的几何起源和系统性影响,并提出了UFP4配方以解决该问题,有望优化FP4预训练的效率和准确性。

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

👍 48

LiveCodeBench (LCB) has recently become a widely adopted benchmark for evaluating large language models (LLMs) on code-generation tasks. By curating competitive programming problems, constantly adding fresh problems to the set, and filtering them by release dates, LCB provides contamination-aware ev

中文介绍 论文提出了Multi-LCB,旨在将现有的大型语言模型(LLM)代码生成任务评估基准LiveCodeBench (LCB) 扩展到支持多种编程语言。LCB因其不断更新的、来自竞争性编程问题的数据集和按发布日期筛选的特点,已成为LLM代码生成评估的广泛基准。Multi-LCB的推出将进一步提升LLM在多语言代码生成能力方面的评估广度和深度,促进该领域的技术发展。

HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

👍 6

Embodied foundation models are expected to benefit from data scaling like large language models, but face a much tighter data bottleneck. Teleoperated real-robot trajectories remain the dominant pretraining source due to their precise action supervision and embodiment alignment, yet their scalabilit

中文介绍 具身基础模型(Embodied foundation models)的数据扩展面临严峻瓶颈,目前仍主要依赖远程操控的真实机器人轨迹数据进行预训练。本研究提出了「HumanScale」方法,并指出以自我为中心的人类视频数据在具身预训练方面,其性能表现可能优于传统的真实机器人数据。这为解决具身智能领域的数据稀缺问题提供了新的思路和潜力,有助于推动模型训练的效率。

DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis

👍 28

Advances in radiance fields have enabled photorealistic novel view synthesis. In several domains, large-scale real-world datasets have been developed to support comprehensive benchmarking and to facilitate progress beyond scene-specific reconstruction. However, for distractor-free radiance fields, a

中文介绍 随着辐射场技术的发展,逼真的新颖视图合成已成为可能。为促进超越特定场景重建的进展和提供全面基准测试,各领域已开发出大规模真实世界数据集。然而,对于无干扰(distractor-free)的新颖视图合成,这类数据集仍有所欠缺。本论文提出了「DF3DV-1K」,一个为此目的设计的大规模数据集和基准,旨在推动该领域的研究与发展,填补数据空白。

S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

👍 35

Real-world spatial intelligence requires reasoning over a continuous and evolving 3D world, yet existing VLMs and tool-augmented agents largely remain tied to static, stateless inference from isolated visual observations. We introduce \textsc{S-Agent}, a spatial tool-use agentic paradigm for underst

中文介绍 现实世界的空间智能需要对连续且动态演进的3D世界进行推理,然而现有的视觉-语言模型(VLMs)和工具增强型代理大多仍局限于基于孤立视觉观测的静态、无状态推理。为此,本研究引入了「S-Agent」,这是一种利用空间工具的智能体系统,旨在激发并实现更高级的空间智能推理能力,以更好地适应复杂多变的三维环境,提升其智能水平。

ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

👍 10

Achieving dexterous robotic manipulation in the real world heavily relies on human supervision and algorithm engineering, which becomes a central bottleneck in the pursuit of general physical intelligence. Although emerging coding agents can generate code to automate algorithm search, their successe

中文介绍 现实世界中灵巧的机器人操作严重依赖人工监督和算法工程,这成为通用物理智能发展的主要瓶颈。虽然新兴的编码智能体可以生成代码以实现算法自动化,但本研究更进一步,提出了「ENPIRE」系统,旨在使机器人能够在真实世界中实现策略的自主改进。ENPIRE有望减少对人类干预的依赖,加速机器人掌握复杂操作的能力,推动具身智能发展。

FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining

👍 25

Style-content dual-reference generation aims to synthesize an image that preserves the structure and semantics of a content reference while adopting the style of a separate style reference.Despite recent progress, this setting remains challenging because models must balance content fidelity, style a

中文介绍 风格-内容双参考生成(style-content dual-reference generation)旨在合成既保留内容参考图结构和语义,又采纳独立风格参考图风格的图像。尽管近期有所进展,该任务仍具挑战性,因模型需平衡内容和风格。本研究提出了「FreeStyle」方法,通过挖掘社区LoRA模型,实现了对风格-内容双参考生成的自由控制。这有助于更好地平衡内容与风格的融合,提升图像生成效果。

JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines

👍 3

Current AI-driven game development has made substantial progress in asset generation, gameplay design, and web-based game coding, yet project-level code engineering on professional game engines remains largely unexplored due to the absence of large-scale datasets and deterministic evaluation methods

中文介绍 当前AI驱动的游戏开发在资产生成、玩法设计和网页游戏编码方面取得了显著进展,但由于缺乏大规模数据集和确定性基准,专业游戏引擎上的项目级代码工程仍 largely 未被探索。本研究提出了「JAMER」,这是一个针对专业游戏引擎的项目级代码框架数据集和基准测试,旨在弥补这一空白,推动AI在复杂游戏项目代码工程领域的应用与发展。

Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

👍 29

Agent benchmarks are growing fast, but no single benchmark touches more than four or five of the dimensions that deployment exposes. This paper aggregates the largest coordinated deep-dive of one MCP-based industrial-agent benchmark to date: fourteen parallel implementation studies covering new asse

中文介绍 智能体基准测试正迅速增长,但现有基准难以全面覆盖实际部署所需的所有维度。本研究提出超越静态排行榜,通过「预测有效性」(predictive validity)来评估大型语言模型(LLM)智能体。论文总结了迄今为止规模最大的、针对一个基于MCP的工业智能体基准进行的协调性深入研究,其中包括十四项并行实施研究,旨在更准确地衡量智能体的实际表现。

Think Again or Think Longer? Selective Verification for Budget-Aware Reasoning

👍 3

Test-time reasoning is increasingly used as a serving-time control knob, but extra reasoning is not uniformly valuable: it can repair failed attempts, waste compute on already-correct answers, or introduce harmful answer changes. We study this as a deployment allocation problem rather than a new-ver

中文介绍 测试时推理(test-time reasoning)日益被用作服务时控制机制,但额外的推理并非总有价值,它可能修复失败尝试,也可能在正确答案上浪费计算资源,甚至引入错误。本研究将此视为部署分配问题,探讨了在预算限制下如何通过「选择性验证」(selective verification)进行推理。这有助于智能体更高效地分配计算资源,在不增加成本的前提下提升决策质量。

Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States

👍 6

Progress in legal AI increasingly depends on access to authoritative legal text at scale. Yet one of the most consequential layers of American law remains largely absent from existing machine-readable corpora: local ordinances. Local codes govern zoning, housing, business licensing, public health, n

中文介绍 法律人工智能的发展越来越依赖大规模权威法律文本。然而,美国法律体系中一个重要的层面——地方法规(local ordinances),在现有的机器可读语料库中却严重缺失。这些地方法规涵盖了分区、住房和商业许可等关键领域。为弥补这一空白,本研究发布了「LOCUS」(美国地方法规语料库),旨在为法律AI研究提供急需的、结构化的地方法规数据。

Configurable Clinical Information Extraction with Agentic RAG: What Works, What Breaks, and Why

👍 5

Patient contexts span hundreds of heterogeneous documents and thousands of structured data points, yet the document-level metadata that AI systems need for retrieval and triage is absent or incomplete. Standard retrieval-augmented generation fails on this data, mishandling temporal reasoning, cross-

Playful Agentic Robot Learning

👍 43

Current agentic robot systems can write executable Code-as-Policy programs, observe feedback, and revise behavior across multiple attempts, but they remain largely task-driven: reusable skills are acquired only after explicit instructions. We study Playful Agentic Robot Learning, where an embodied c

FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines

👍 10

Multi-step LLM pipelines fail through interactions among retrieval, reasoning, and formatting steps, so prompt-only optimization can miss bottlenecks in the chain. We present FAPO (Fully Autonomous Prompt Optimization), a framework that lets Claude Code optimize an LLM pipeline inside a standardized

Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance

👍 112

While 10B-level industrial foundation models have pushed the boundaries of image inpainting, their prohibitive computational costs severely hinder practical deployment. Constructing a highly optimized task-specific specialist offers a promising solution; however, extreme structural compression inevi

LooseControlVideo: Directorial Video Control using Spatial Blocking

👍 5

Precise 3D spatial orchestration in text-to-video generation remains a significant challenge, particularly for multi-object scenes where semantic layout and temporal dynamics are often entangled. While existing depth-conditioned models achieve good structural fidelity, they necessitate dense, frame-

REVES: REvision and VErification--Augmented Training for Test-Time Scaling

👍 3

Test-time scaling via sequential revision has emerged as a powerful paradigm for enhancing Large Language Model (LLM) reasoning. However, standard post-training methods primarily optimize single-shot objectives, creating a fundamental misalignment with multi-step inference dynamics. While recent wor

When Does Trajectory-Level Supervision Permit Efficient Offline Reinforcement Learning?

👍 4

Offline reinforcement learning is typically analyzed under process-level reward supervision, yet many sequential decision datasets record only trajectory-level outcomes. We develop a statistical theory for offline policy optimization from such outcome-level supervision. We first study the canoni

MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model

👍 11

As an increasing majority of global video content is consumed on social platforms for interactive social purposes, video generation models built for social worlds are important but largely overlooked by previous studies. In this work, we define the position of social world models and build a prototy

Context-Aware RL for Agentic and Multimodal LLMs

👍 10

Large language models (LLMs) often fail when answering requires identifying a small but decisive piece of evidence within a long or complex context, such as a single line in a tool trace or a subtle detail in an image. We propose ContextRL, a context-aware reinforcement learning (RL) method that imp

Understanding the Behaviors of Environment-aware Information Retrieval

👍 6

Recent retrieval-augmented generation (RAG) approaches have demonstrated strong capability in handling complex queries, yet current research overlooks a critical challenge: different retrievers require fundamentally different query formulation strategies for optimal performance. In this work, we pre

Thinking with Visual Grounding

👍 10

Visual thinking should not only sound right; it should show its evidence. While recent vision-language models (VLMs) can produce natural-language reasoning traces, these traces often leave the supporting image regions implicit, making them hard to verify and difficult to supervise. We introduce visu

Selective Synergistic Learning for Video Object-Centric Learning

👍 3

Typical video object-centric learning (VOCL) approaches employ slot-based frameworks that rely on reconstruction-driven encoder-decoder architectures, where learning is mediated by two spatial maps: attention maps from the encoder and object maps from the decoder. As these two distinct maps exhibit

DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects

👍 68

Dexterous interaction with articulated objects is important for household, assistive, and humanoid manipulation, where multi-finger hands can provide compliant contact patterns beyond parallel-jaw grasping. However, articulated-object manipulation differs from static-object manipulation: the target

HiLo-Token: Input-Adaptive High-Low Frequency Token Compression for Efficient Image Editing

👍 4

Creative image editing tools, such as Photoshop's Remove or Generative Fill buttons, are central to everyday customer use and account for a major share of traffic in Photoshop and Lightroom. However, current generative AI models face significant latency challenges, which become even more pronounced

Re-Centering Humans in LLM Personalization

👍 0

Despite growing interest, most evaluations of large language models' (LLMs') personalization abilities have relied on synthetic data. It remains unclear how well current personalization systems work for real users. In this paper, we study the gap in LLM personalization performance when using synthet

Duration Aware Scheduling for ASR Serving Under Workload Drift

👍 3

Scheduling policies in large-scale Automatic Speech Recognition (ASR) serving pipelines play a key role in determining end-to-end (E2E) latency. Yet, widely used serving engines rely on first-come-first-served (FCFS) scheduling, which ignores variability in request duration and leads to head-of-line

Notchkin

A notes app that lives in your MacBook's notch.

中文介绍 Notchkin是一款专为MacBook设计的创新笔记应用,它巧妙地利用了MacBook屏幕的刘海区域来显示和管理笔记,为用户提供独特的视觉和交互体验。

Cloudback MCP Server

Manage your backups from Claude, Cursor, and VS Code

中文介绍 Cloudback MCP Server是一款多功能备份管理服务器,用户可以通过Claude、Cursor和VS Code等主流开发和协作环境,便捷地管理和调度其数据备份。

Agent 37 Cloud

Give every customer their own Hermes or OpenClaw agent

中文介绍 Agent 37 Cloud提供云端服务,旨在为每位客户分配专属的AI代理,如Hermes或OpenClaw,实现高度个性化的自动化服务和支持,提升客户体验。

oioi

a fast, glassy clipboard manager for macOS, Windows & Linux

中文介绍 oioi是一款快速、界面现代的剪贴板管理工具,它支持macOS、Windows和Linux三大操作系统,旨在帮助用户高效地管理和访问复制的内容。

Laguna by Poolside

Foundation models for agentic coding and long-horizon work

中文介绍 由Poolside公司推出的Laguna是一系列基础模型,专门为代理式编程和需要长期规划的复杂任务设计,旨在提高代码生成效率和项目执行能力。

Are you in the Weights?

Find out if you live forever in the brain of the LLMs

中文介绍 「Are you in the Weights?」是一款独特的工具,它能帮助用户探查自己的数据或个人信息是否已被大型语言模型(LLMs)学习并作为权重参数永久存储,关注数据隐私与AI伦理。

GitSync for macOS

Visual GitHub management directly from a graphical interface

中文介绍 GitSync for macOS是一款专为macOS用户设计的GitHub管理工具。它提供直观的图形用户界面,让用户能够直接通过可视化操作来管理GitHub仓库,简化版本控制流程。

Basedash Access Controls

Control exactly who can access your company data

中文介绍 Basedash Access Controls提供精细化的权限管理功能,使企业能够精确控制员工或其他用户对公司数据的访问权限,从而确保敏感信息的安全性和合规性。

Pixlie

AI video studio: text & image to video, with real control

中文介绍 Pixlie是一个AI视频工作室,支持将文本和图像转化为视频内容。它提供了高度的创作控制,使用户能够精确调整AI生成的视频细节,实现更个性化的创作。

Plansera AI

E-2 visa business plans, drafted by an AI

中文介绍 Plansera AI是一款利用人工智能技术,专门为E-2签证申请者起草商业计划书的工具。它能自动化生成符合要求的专业文档,简化签证申请过程中的准备工作。

How Quants Use Loop Engineering to Build Alpha (Full Framework)

@horizon_trade_x · 4.4K 粉丝 · 1.3M 阅 · 507 赞 · 59 转

Your backtest looked flawless. You went live. Two weeks later, the strategy was bleeding. Every quant has lived this. The answer is a loop: generate a strategy, test it, score it, feed the result

中文介绍 针对量化交易策略上线后表现不佳的问题,博主分享了「循环工程」框架,通过生成、测试、评分并将结果反馈回策略生成的闭环流程,旨在帮助量化研究员构建更稳健的交易策略,解决回测与实盘表现差异。

Loops explained: Claude, GPT, Mira and what actually works

@AnatoliKopadze · 83.0K 粉丝 · 1.3M 阅 · 584 赞 · 70 转

AI has been in everyone's hands for years. Most people who use it every day still use it the slowest way there is: type a request, wait, fix it, ask again, all by hand. Not because the faster way is

中文介绍 博主指出多数人使用 AI(如 Claude, GPT)仍停留在手动请求-修正的低效模式。他提出「循环」是提升 AI 使用效率的关键,强调通过设计自动化流程,而非重复手动操作,能让 AI 系统持续工作并自我优化,是构建更强大 AI 应用的核心。

How to Build a Claude Code Agent Team That Runs in Loops (Exact Setup Inside)

@zodchiii · 22.7K 粉丝 · 1.2M 阅 · 500 赞 · 71 转

Most setups run agents once and hand you whatever comes out. A team that runs in loops keeps going until the work actually passes. Below is the setup in 3 files: the agents, the loop that drives

中文介绍 博主分享如何构建一个基于 Claude Code 的 AI 代理团队,使其能以「循环」模式持续运行,直至任务真正完成。他详细介绍了包括代理文件和驱动循环的配置,共涉及 3 个文件的具体设置,旨在解决传统代理一次性运行、结果不可控的问题。

How To Build a Second Brain That Runs Itself With Obsidian (Full Course)

@eng_khairallah1 · 67.2K 粉丝 · 1.2M 阅 · 510 赞 · 73 转

You read maybe two hundred articles this year. A few dozen papers. Hundreds of threads. Save this Every second-brain method ever sold to you, Zettelkasten, PARA, the graph view, the daily note,

中文介绍 博主提供了一个利用 Obsidian 构建「自我运行的第二大脑」的完整课程。该系统整合了 Zettelkasten、PARA 等多种知识管理方法,旨在帮助用户高效地整理和利用每年阅读的大量文章、论文和帖子,实现知识自动化管理。

Context Engineering for AI Agents: The Complete Playbook

@sairahul1 · 117.4K 粉丝 · 511.9K 阅 · 500 赞 · 84 转

Your AI agent works great for the first 10 steps. Then somewhere around step 15, it starts getting sloppy. Wrong tool calls. Forgetting your original instructions. Low-quality outputs. Most people

中文介绍 博主分享 AI 代理的「上下文工程」完整攻略。针对 AI 代理在多步骤任务中可能出现的工具调用错误、指令遗忘或输出质量下降等问题,该指南提供了详细的解决方案,旨在通过优化上下文管理,提升 AI 代理在复杂任务中的可靠性和表现。

Owning vs. Renting Intelligence

@lqiao · 95.4K 粉丝 · 501.6K 阅 · 509 赞 · 86 转

Mythos got shut down this week. Whether you agreed with the decision or not is almost beside the point. A company built on top of intelligence it didn't control suddenly found itself exposed to

中文介绍 博主通过 Mythos 被关闭的案例,探讨了「拥有智能」与「租赁智能」的区别。他指出,过度依赖不受自身控制的 AI 智能可能导致公司面临巨大风险,强调了自主掌握核心智能技术的重要性,引发对 AI 时代商业模式的深思。

Using Claude to go Viral on X… (Mr. Beasts Framework)

@mattepstein · 35.6K 粉丝 · 393.3K 阅 · 504 赞 · 26 转

Have you seen any of the launches below on your timeline? (you probably have).. What if I told you they all followed a repeatable viral science that can be 95% automatable with claude. In this

中文介绍 博主揭示了 X 上爆款内容背后的可重复病毒式传播科学,并指出其中 95% 的流程可通过 Claude 实现自动化。他分享了模仿 Mr. Beast 成功模式的框架,帮助用户利用 Claude 自动生成引人注目的内容,从而在社交媒体上快速传播。

The Agent Loop Architecture

@djfarrelly · 3.8K 粉丝 · 344.7K 阅 · 501 赞 · 61 转

Everyone's asking "WTF is a loop?" Here's the question nobody's asking: what runs the loop? The AI discourse has converged on loops as a core primitive of agentic systems. Matt Van Horn (@mvanhorn)

中文介绍 博主探讨了 AI 代理系统中备受关注的「循环」概念,并提出一个更深层次的问题:「谁」来驱动这些循环?他认为循环已成为代理系统的核心基元,深入分析其运行机制及幕后驱动力,旨在阐明代理循环架构的根本原理。

How to Create Loops with Claude

@mikenevermiss · 10.8K 粉丝 · 261.4K 阅 · 568 赞 · 67 转

stop making prompts. start designing loops. a prompt gets you one response. a loop gets you a system that keeps working after you close the laptop. Boris Cherny, who runs Claude Code at Anthropic, put

中文介绍 博主呼吁停止单纯的提示词工程,转而设计「循环」系统来利用 Claude。他指出,单个提示词只能得到一次响应,而循环系统则能在用户关闭电脑后持续运行,带来一个自给自足的工作流程,该理念受到 Anthropic Claude Code 负责人 Boris Cherny 的启发。

The Self-Improving Loop: a 300-agent swarm on Kimi K2.6, verified by Opus 4.8

@0xMovez · 26.7K 粉丝 · 208.0K 阅 · 504 赞 · 59 转

A free open-source model is running 300 parallel agents across 4,000 coordinated steps from a single prompt, and it scores higher on real research tasks than models you pay 5x more for. Most people

中文介绍 博主展示了一个基于 Kimi K2.6 的「自我改进循环」系统,该系统能从单个提示词启动 300 个并行代理,协调完成 4000 个步骤。经 Opus 4.8 验证,其在真实研究任务上的表现优于昂贵 5 倍的闭源模型,突显了开源 AI 在复杂任务中的强大潜力。

Lazymaxxing TikTok Slideshows: 600/month for $2

@athcanft · 19.1K 粉丝 · 205.6K 阅 · 514 赞 · 23 转

I've been mass-producing TikTok slideshows with AI and scheduling them weeks in advance. Zero filming. Zero editing. Zero daily posting grind. This article breaks down the exact system, step-by-step,

中文介绍 博主分享了如何利用 AI 大规模制作 TikTok 幻灯片,实现每月 600 条内容仅需 2 美元的极低成本。该系统无需拍摄、编辑和每日发布,能提前数周安排内容,提供了一套详细的自动化工作流程,旨在帮助用户轻松实现内容营销。

Three Ways Codex Can Use a Computer

@jxnlco · 105.9K 粉丝 · 204.4K 阅 · 504 赞 · 47 转

Update: Computer Use is now Available in the EU/UK ;) Enjoy! There are three ways for Codex to use a computer: Computer Use, the Chrome extension, and the in-app browser. They overlap just enough to

中文介绍 博主介绍了 Codex 在欧盟/英国地区可用的三种计算机使用方式:Computer Use 功能、Chrome 扩展程序和应用内浏览器。他详细阐述了这三种方式如何让 Codex 与计算机进行交互,并指出了它们之间的异同,帮助用户更好地理解和利用 Codex 的能力。

Factory 2.0: From coding agents to software factories

@matanSF · 20.2K 粉丝 · 123.1K 阅 · 529 赞 · 60 转

In 2023, we launched Factory with the mission to bring autonomy to software engineering. While others were using models to speed up coding, we set out to deploy autonomous Droids across the

中文介绍 博主发布了 Factory 2.0,旨在将自主性引入软件工程领域。与专注于加速编码的模型不同,Factory 2.0 致力于部署自主 Droid,实现从编写代码到构建完整软件工厂的转变,代表了软件开发自动化领域的新愿景。

Zen and the Art of AI Research

@jxmnop · 50.7K 粉丝 · 114.1K 阅 · 504 赞 · 57 转

So you want to do AI research? It's true that no one really teaches you how. Not directly, anyway. But it turns out that the way to get started is pretty simple: some combination of (i) reading and

中文介绍 博主探讨了 AI 研究的入门方法。他指出,虽然没有直接的教学路径,但开始 AI 研究的简单方法是结合阅读大量论文和「做」研究。这篇帖子为有志于 AI 研究的个人提供了实用的建议和清晰的起步方向,强调实践与理论结合的重要性。

how to get Fable-level intelligence back:

@EXM7777 · 118.9K 粉丝 · 107.7K 阅 · 509 赞 · 44 转

for a few days, we had something that felt like AGI... Fable 5 showed up, effectively unlimited inside the plans, and the ceiling on what you could build lifted overnight but then Anthropic killed it,

中文介绍 博主讨论了 Anthropic 意外取消 Fable 5 模型的问题。他回忆 Fable 5 曾短暂带来「通用人工智能」般的体验,极大地提升了构建能力,但随后被 Anthropic 撤销。博主旨在探讨如何恢复或替代这种高水平的智能体验。

ORACLE: Official AI Agents Trade on Polymarket

@OracleMindAI · 21.0K 粉丝 · 105.0K 阅 · 2.8K 赞 · 582 转

In 2026, autonomous AI agents have become one of the most effective strategies on prediction markets. Over 30% of all activity on Polymarket now comes from algorithmic and AI-powered wallets. We

中文介绍 博主宣布 ORACLE AI 代理已正式在 Polymarket 预测市场进行交易。他指出,到 2026 年,自主 AI 代理将成为预测市场中最有效的策略之一,目前 Polymarket 上超过 30% 的活动来自算法和 AI 驱动的钱包,预示着 AI 在金融领域的应用趋势。

WTF Is a Loop? Part 2: The 15 Loops People Are Actually Running (and the Commands to Steal Them)

@mvanhorn · 35.2K 粉丝 · 102.4K 阅 · 510 赞 · 56 转

Earlier this month I wrote WTF Is a Loop? Peter Steinberger vs. Boris Cherny, which did 3.6M views on what a loop even is. This is the sequel, and it answers the next question: which loops do people

中文介绍 这是关于「什么是循环?」的续篇,博主在前期帖子获得 360 万浏览量后,进一步探讨了实际运行的 15 种 AI 循环模式。他不仅解释了这些循环的运作方式,还分享了可供「窃取」的命令代码,帮助用户理解和应用真实的 AI 循环系统。

From Prompting Agents to Loop Engineering

@omarsar0 · 308.0K 粉丝 · 90.2K 阅 · 504 赞 · 69 转

A claim has been circulating in AI coding circles: stop prompting your coding agents and start designing loops that prompt them for you. As with everything new, this stuff gets repeated often and

中文介绍 博主探讨了 AI 编程圈中「从提示代理转向循环工程」的新趋势。他指出,与其手动提示编码代理,不如设计能自动提示代理的循环系统,强调这种转变能大幅提升效率。帖子深入分析了这一流行理念的实际价值和应用场景。

How GLM-5.2 Beat Fable 5 at Website Design

@Designarena · 13.9K 粉丝 · 80.4K 阅 · 518 赞 · 39 转

GLM 5.2 ranks 1st overall on Design Arena’s single-turn, HTML Web Design (Non-Agentic) evaluation, 5 places higher than its predecessor GLM-5.1. To do so, it beat Claude Fable 5, Opus 4.6, and Opus

中文介绍 博主宣布 GLM 5.2 在 Design Arena 的单轮 HTML 网页设计评估中超越 Fable 5、Opus 4.6 等模型,获得总分第一。GLM 5.2 比其前身 GLM-5.1 提升 5 位,证明了其在非代理式网页设计任务上的卓越能力,展示了国产模型的新进展。

The Art of Loop Engineering

@sydneyrunkle · 7.9K 粉丝 · 74.7K 阅 · 565 赞 · 87 转

Agents are useful because they help us automate work by taking actions in the real world. But getting agents to do valuable work reliably takes more than just a good model: it requires a carefully

中文介绍 博主探讨了「循环工程」的艺术,强调 AI 代理虽能自动化工作,但要可靠地完成有价值的任务,仅仅依靠优秀的模型是不够的。这需要精心设计的循环机制来驱动代理,确保其在真实世界中能稳定、高效地执行复杂动作。

How modern browsers work

@addyosmani · 401.4K 粉丝 · 55.7K 阅 · 7d 曝光 55.7K

How modern browsers work

AI Agents Just Changed Forever: GLM 5.2 The Best Open-Source Model Ever?

中文介绍 该视频探讨了GLM 5.2模型,认为它可能是有史以来最佳的开源AI模型,并预示着AI Agent领域将发生根本性变革。内容可能涉及GLM 5.2的技术特性及其对AI Agent发展的影响和潜力,引发了对未来AI应用前景的广泛讨论。

9 AI Agent Skills To Get Ahead of 99% of People

中文介绍 该视频探讨了9项AI Agent技能,旨在帮助个人在99%的人群中脱颖而出。内容可能涉及如何利用AI Agent提升个人效率、解决问题或在职业发展中获得竞争优势的具体策略和方法。

How to build high quality internal tools with Retool

中文介绍 该视频演示了如何利用Retool平台构建高质量的内部工具。Retool是一个低代码开发平台,此内容旨在指导用户高效地创建满足企业需求的定制化内部应用,以优化工作流程和提高运营效率。

SpaceX Just Bought Cursor for $60B. It’s About to Take OVER.

中文介绍 该视频宣称SpaceX以600亿美元的价格收购了Cursor,并预测Cursor将因此占据主导地位。这一消息如属实,将是科技界一笔重磅交易,可能对AI编程工具和航天技术领域带来深远影响。

Delegate and schedule tasks in Claude Cowork

中文介绍 该视频介绍了Claude Cowork平台的一项功能,允许用户在其中委派和安排任务。这表明Claude Cowork旨在提供协作工作空间,通过其AI能力帮助团队更有效地管理和协调日常工作流程,提升生产力。

Artifacts in Claude Code: share your work as it happens

中文介绍 该视频介绍了Claude Code中名为「Artifacts」的新功能,用户可以通过此功能实时分享其工作进展。这有助于提升团队在编码项目中的协作效率,确保成员间能即时同步工作状态和成果。

Enterprise-managed auth for MCP connectors

中文介绍 该视频介绍了针对MCP连接器的企业级管理认证功能。这表明Claude致力于为企业客户提供更安全、可控的服务集成解决方案,通过集中管理认证方式,简化了企业对各类系统连接器的部署与维护。

The Briefing: Financial Services

中文介绍 该视频以「简报:金融服务」为题,提供了金融服务行业的概况。内容可能涵盖金融领域的最新趋势、挑战、技术应用(例如AI在金融中的作用)或市场分析,旨在为观众提供全面的行业洞察。

Delegate and schedule tasks in Claude Cowork

中文介绍 该视频介绍了Claude Cowork平台的一项功能,允许用户在其中委派和安排任务。这表明Claude Cowork旨在提供协作工作空间,通过其AI能力帮助团队更有效地管理和协调日常工作流程,提升生产力。

Artifacts in Claude Code: share your work as it happens

中文介绍 该视频介绍了Claude Code中名为「Artifacts」的新功能,用户可以通过此功能实时分享其工作进展。这有助于提升团队在编码项目中的协作效率,确保成员间能即时同步工作状态和成果。

Enterprise-managed auth for MCP connectors

中文介绍 该视频介绍了针对MCP连接器的企业级管理认证功能。这表明Claude致力于为企业客户提供更安全、可控的服务集成解决方案,通过集中管理认证方式,简化了企业对各类系统连接器的部署与维护。

Scientists Found A Better Language For AI Agents

中文介绍 该视频指出科学家们为AI Agent发现了一种更优的语言。这意味着在AI Agent的沟通或内部运作机制上取得了技术突破,可能改进其效率、理解能力或协作性能,推动AI Agent技术迈向新阶段。

[Exclusive] $250 off AI Engineer tix til Monday

special offer for subscribers - $250 off AI Engineer tix til Monday

中文介绍 Latent Space为订阅者提供独家优惠,购买AI工程师大会门票可享250美元折扣,此优惠截止至周一。

[AINews] not much happened today

a quiet day lets us promo AIE one last time

中文介绍 当日AI新闻报道较少,Latent Space借此机会最后一次推广其AI工程师大会(AIE)。

A startup claims it broke through a bottleneck that’s holding back LLMs

Miami-based AI startup Subquadratic came out of stealth mode last month with a huge claim. It announced that it had solved a mathematical bottleneck that had been holding back large language models for almost a decade. The details were thin, and many people were unconvinced. But Subquadratic has sta

中文介绍 迈阿密AI初创公司Subquadratic声称已解决困扰大型语言模型(LLMs)近十年的数学瓶颈。该公司上月走出隐秘模式,但具体细节不足,引来诸多质疑。

not much happened today

**GLM-5.2** emerges as a leading open-weight coding model rivaling **Opus 4.8** and **GPT-5.5** in software engineering tasks, emphasizing the strategic importance of open models for provider competition, on-prem deployment, and fine-tuning rights. Experts like **Patrick Toulme** and **Thomas Wolf**

中文介绍 GLM-5.2作为领先的开源编码模型,在软件工程任务中与Opus 4.8及GPT-5.5竞争。专家Patrick Toulme强调了开源模型对于供应商竞争、本地部署和微调权的重要性。

MosaicLeaks: Can your research agent keep a secret?

中文介绍 Hugging Face发布了关于MosaicLeaks的博客,探讨研究代理能否保守秘密的问题。文章具体内容未提供。

The Professor of Outputmaxxing — Anjney Midha, AMP

We talk about how this legendary investor went from humble beginnings in Singapore to leading rounds in Anthropic, Mistral, Black Forest Labs, and Periodic Labs... and the AMP secret master plan!

中文介绍 本文介绍了传奇投资人Anjney Midha(AMP)的投资之路,他从新加坡发迹,领投了Anthropic、Mistral等公司,并揭示了AMP的秘密总体规划。

New usage analytics and updated spend controls for enterprises

OpenAI introduces new spend controls and usage analytics for ChatGPT Enterprise, helping organizations manage costs and scale AI with confidence.

中文介绍 OpenAI为ChatGPT企业版推出了新的支出控制功能和使用分析工具,旨在帮助企业用户更好地管理成本,并信心十足地扩展AI应用。

Improving health intelligence in ChatGPT

Learn how GPT-5.5 Instant improves ChatGPT’s health and wellness responses with stronger reasoning, better context, clearer communication, and physician-informed evaluations.

中文介绍 OpenAI通过GPT-5.5 Instant提升了ChatGPT的健康智能,通过更强的推理、更好的语境、更清晰的沟通以及医生参与评估,优化了健康和福祉方面的回应。

Using AI to help physicians diagnose rare genetic diseases affecting children

Researchers used an OpenAI reasoning model to help diagnose rare diseases, identifying 18 new diagnoses in previously unsolved cases.

中文介绍 研究人员利用OpenAI的推理模型协助诊断罕见儿童遗传病,已在先前未解病例中识别出18个新诊断结果。

not much happened today

**GLM-5.2** from **Zhipu** emerged as a leading open-weight model with innovative **IndexShare** sparse-attention enabling efficient **1M-token inference**, praised as comparable to **GPT-5.5** and **Opus 4.8** but lacking vision support. Other notable open models include **Laguna M.1** by **Poolsid

中文介绍 智谱AI的GLM-5.2作为领先的开源模型亮相,其创新的IndexShare稀疏注意力技术实现高效的1M token推理,被认为可与GPT-5.5和Opus 4.8媲美,但尚不支持视觉。

[AINews] Midjourney Medical: scan your organs like you step on a scale

The only bootstrapped frontier lab announces its second product and second

中文介绍 Midjourney Medical宣布推出第二款产品,目标是像体重秤一样扫描人体器官。该公司是唯一一家自力更生的前沿实验室。

Centrally manage authorization for MCP connectors

Centrally manage authorization for MCP connectors

中文介绍 Claude推出新功能,允许用户集中管理MCP连接器的授权,简化企业级应用中的权限配置。

又有人向openai举报team、优惠码、K12

OpenAI Developer Community – 21 Jun 26 Report on Multiple Abuse Methods Involving ChatGPT Business / Team, Codex,... ChatGPT Bugs chatgpt Hello OpenAI Team, I would like to report several abuse methods that appear to be occurring. These issues involve ChatGPT Business / Team, Business Codex, enterpr

【CHY公益站】站长即将失踪通知

马上就要期末考试了,大概是7月6号考,在这段时间我如果不是啥都干完了没事干是不会动电脑了 、带-free后缀的模型 、前面有 开发公司/ 的模型 7 个帖子 - 7 位参与者 阅读完整话题

【九幺】继续放送公益站余额

本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的项目是免费使用的,无收费(变相收费、赞助)部分: 是 我的帖子已经打上 公益推广 标签: 是 我的项目属于个人项目,与公司或商业机构无关: 是 我的项目不存在QQ、TG等群组引流: 是 我的项目不存在非运营必要的网站引流: 是 我的项目不存在为他人推广、AFF: 是 我的项目无关联的商业项目: 是 我的站点存在登录,并已接入 LINUX DO Connect: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已

打算再开一个公益站

最近开了个九幺公益站(api.7r.fit),还算成功。之后我放开酒馆看起来有一些反响,玩酒馆的佬竟然这么多,所以我准备开个别的公益站。名字也没想好,但是想好了特性: 高RPM(其实九幺也是) 通货紧缩(不能走九幺老路了) 允许分享(九幺试过VIP分组,这回默认允许分享给自己的好友) 没有Claude这类高端模型(或者设置很贵) 准备这周或者下周上线,佬们有什么好的名字吗?或者是什么好的建议? 16 个帖子 - 14 位参与者 阅读完整话题

一起拼一个自部署glm 5.2

想自部署一个glm5.2 拼车 按小时计费 一个小时成本大概12块 有人一起拼吗 FP8量化版本 29 个帖子 - 22 位参与者 阅读完整话题

知道越多,越害怕发言

即使有些知识我认为已经深耕过了我还是不敢发表见解,老是认为自己学的还不够,怕有人跳出来打我脸 但是有些人,其他平台等一些人明明一知半解还敢大大大的发声,搞得我一直很郁郁… 为什么我敢在linuxdo发?那当然是因为linuxdo环境很好啊 ( 28 个帖子 - 24 位参与者 阅读完整话题

各位佬,最近我打算写一本小说<<我以残剑守蓝星>>,核心设定已经完成,前三卷人物设定和故事线也有。

我不会多说,避免破坏大家的阅读体验,下面放一张ai生成的核心设定图谱: 实在没人一起讨论,自己一个人实在太那啥了;一个人的思想太单一了,大家一起集思广益。 下面放一些,设定的文档,只有文件名,没有内容,可以大概看看: 这本书,我设定并没有只打算,只作为自己去写的书籍,这是一本可扩展,多个世界宇宙的小说;后面,这本我完本后,会开源出来,为什么现在没有开源,一是我怕被盗取(这些设定花了我不少脑细胞,真的很头疼),而是,设定需要以当前小说去验证。再加一个核心目录的截图。 后面,完本后,我也会出一份,扩展续作的文档。 对了,现在本人,没女朋友,工作也不稳定,上班也不能手机,各位佬不要催更,如果消息没有

【九幺】88LDC一百万刀——上线订阅计划

本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的项目是免费使用的,无收费(变相收费、赞助)部分: 是 我的帖子已经打上 公益推广 标签: 是 我的项目属于个人项目,与公司或商业机构无关: 是 我的项目不存在QQ、TG等群组引流: 是 我的项目不存在非运营必要的网站引流: 是 我的项目不存在为他人推广、AFF: 是 我的项目无关联的商业项目: 是 我的站点存在登录,并已接入 LINUX DO Connect: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已

Show HN: CleverCrow: give tokens to your favorite projects

Howdy all. I&#x27;m Zack :wave:. I&#x27;ve been thinking about the problem of misguided AI pull requests and figured I&#x27;d throw a possible solution out there for feedback. Basically, CleverCrow lets supporters give tokens to a GitHub repo (or set of issues in that repo) for the maintainers to us

今日主题

今日AI领域热点聚焦于模型迭代、Agent技术突破及企业级应用扩展。智谱AI的GLM-5.2作为开源编码模型的新星,在性能上对标GPT系列,并在特定任务中展现出超越闭源模型的实力。同时,以「循环工程」为核心的Agent架构设计理念日益成熟,推动AI从单次响应向自动化、自我改进的工作流演进。此外,OpenAI和Claude在企业服务与垂直应用(如医疗)方面持续发力,而初创公司则大胆宣称攻克LLM核心瓶颈,预示着AI技术的边界正不断被拓宽,智能体的应用深度和广度也迈向新阶段。

01

模型发布/更新

Model Releases 66 篇

智谱AI GLM-5.2模型发布:开源编码新标杆,网页设计超越Fable 5

综合资讯Smol AI News

智谱AI正式推出GLM-5.2,一款旨在重新定义开源编码模型的旗舰产品。该模型凭借创新的IndexShare稀疏注意力技术,实现了高效的1M token推理,在软件工程任务中展现出卓越性能。评估显示,GLM-5.2在Design Arena的单轮HTML网页设计评估中超越了Fable 5和Opus 4.6等竞争者,获得总分第一,被誉为有史以来最佳的开源AI模型之一,预示着AI Agent领域即将迎来变革。

大模型开源编码

LedgerAgent:为策略合规的工具调用代理引入结构化状态

官方HuggingFace Trending Papers

针对客户服务领域工具调用代理在多轮交互中难以维护任务状态的挑战,研究提出了LedgerAgent。该系统通过结构化状态管理与用户互动和工具调用获得的事实、标识符、约束及条件信息,确保代理在复杂对话中始终遵循既定政策。LedgerAgent有助于提升智能体在多轮交互场景中的稳定性和可靠性,特别适用于需要严格合规的业务流程。

大模型智能体客户服务

S-Agent:利用空间工具激发AI智能体的3D空间推理能力

官方HuggingFace Trending Papers

鉴于现有视觉-语言模型(VLMs)和工具增强型代理在处理连续动态的3D世界时,大多仍局限于基于孤立视觉观测的静态、无状态推理,本研究引入了S-Agent。该智能体系统通过利用空间工具,旨在激发并实现更高级别的空间智能推理能力,使其能更好地适应复杂多变的三维环境,从而显著提升AI在真实世界中的智能水平。

空间智能智能体3D世界

ENPIRE系统助力机器人实现真实世界策略自主改进

官方HuggingFace Trending Papers

针对现实世界中机器人灵巧操作高度依赖人工监督和算法工程的瓶颈,本研究提出了ENPIRE系统。该系统旨在使机器人能够在真实世界环境中实现策略的自主改进,从而显著减少对人类干预的依赖。ENPIRE的推出有望加速机器人掌握复杂操作的能力,推动具身智能领域的发展,为通用物理智能的实现奠定基础。

机器人智能体策略学习

FreeStyle:通过LoRA挖掘实现风格-内容双参考图像自由生成

官方HuggingFace Trending Papers

风格-内容双参考图像生成技术面临平衡内容结构和独立风格采纳的挑战。FreeStyle方法通过深入挖掘社区LoRA(低秩适应)模型,成功实现了对这一双参考生成过程的自由控制。该技术使得模型能够更灵活地融合内容参考图的结构和语义,同时采纳独立风格参考图的风格,显著提升了图像生成的效果和个性化程度。

图像生成LoRA风格迁移

Poolside发布Laguna系列基础模型:专为Agent式编程设计

产品榜单Product Hunt

由Poolside公司推出的Laguna是一系列创新的基础模型,专为代理式编程和需要长期规划的复杂任务设计。这些模型旨在提高代码生成效率和项目执行能力,为开发者提供更强大、更智能的AI辅助。Laguna的发布,标志着AI在软件开发自动化领域迈出了重要一步,有望简化复杂的编程任务并加速创新。

基础模型AI编程开发工具
02

产品发布/更新

Product 66 篇

OpenAI为ChatGPT企业版新增使用分析与支出控制功能

官方OpenAI News

OpenAI宣布为ChatGPT企业版推出一系列新功能,包括增强的使用分析工具和细化的支出控制选项。这些更新旨在帮助企业用户更有效地监控和管理其AI资源消耗,确保成本透明并控制在预算范围内。通过提供更强的财务管理能力,OpenAI赋能企业更加自信地扩展其AI应用规模,优化运营效率。

ChatGPT企业服务OpenAI

OpenAI通过GPT-5.5 Instant提升ChatGPT健康智能,医生参与评估

官方OpenAI News

OpenAI正通过GPT-5.5 Instant显著增强ChatGPT在健康领域的智能水平。此次提升主要体现在更强的推理能力、更好的语境理解和更清晰的沟通,以优化健康和福祉方面的回应。值得注意的是,该改进过程获得了医生团队的深度参与和评估,确保了信息输出的准确性和可靠性,旨在为用户提供更优质的健康咨询支持。

ChatGPT健康AIGPT-5.5

Claude推出MCP连接器集中授权管理功能,强化企业安全

官方Claude Blog

Claude近日发布了一项重要更新,允许企业用户对其MCP(Multi-Cloud Platform)连接器进行集中授权管理。此功能旨在简化企业级应用中的权限配置流程,通过统一的入口点,强化对敏感数据和系统访问的控制。通过提供更安全、更易于管理的集成解决方案,Claude致力于提升企业客户在多云环境下的安全性和合规性。

Claude企业服务权限管理

Claude Code增强控制力,支持CLAUDE.md、Artifacts及子代理

官方Claude Blog

Claude Code推出了多项新功能,旨在为开发者提供更精细的代码生成与管理控制。新特性包括通过CLAUDE.md文件、自定义技能、钩子、规则及子代理,允许用户根据具体项目需求指导AI行为。此外,「Artifacts」功能支持实时分享工作进展和代码输出,显著提升团队在编码项目中的协作效率和透明度。

Claude代码AI协作工具

OpenMontage:首个开源Agent视频制作系统,实现脚本到成片自动化

开源项目GitHub Trending

OpenMontage被誉为全球首个开源、基于Agent的视频制作系统,旨在将AI编码助手升级为全功能视频生产工作室。它集成了12条处理流水线、52种工具和超过500项Agent技能,能够实现从脚本创作到最终成片的全面自动化制作。该系统为内容创作者、营销团队及开发者提供了高效、智能的视频生成解决方案。

视频生成AI Agent开源

字节跳动开源长周期SuperAgent框架Deer Flow,赋能复杂任务自动化

开源项目GitHub Trending

字节跳动正式开源了其长周期SuperAgent框架——Deer Flow,旨在实现AI Agent的自主研究、编码和创作能力。该框架通过沙箱环境、记忆模块、丰富工具集、技能库、子Agent及消息网关等组件,有效处理复杂的多层次任务。Deer Flow的开源将赋能开发者构建更具规划和执行能力的AI Agent,推动自动化开发和内容生成领域的发展。

AI Agent开源自动化
03

行业动态

Industry 66 篇

初创公司Subquadratic声称突破LLM数学瓶颈,引发行业关注

综合资讯MIT Tech Review AI

迈阿密AI初创公司Subquadratic近日高调宣布,已成功解决困扰大型语言模型(LLMs)长达十年的一个核心数学瓶颈。该公司上月走出隐秘模式,但具体技术细节尚未完全公开,这一声明在AI界引发了广泛讨论与部分质疑。如果属实,这项突破可能对LLM的效率和扩展性产生深远影响。

LLM初创公司技术突破

传奇投资人Anjney Midha领投Anthropic、Mistral,揭示AMP AI战略

大咖博客Latent Space

传奇投资人Anjney Midha(AMP)的投资策略备受关注。他从新加坡起步,成功领投了Anthropic、Mistral等一众领先AI公司,展示了其在AI领域独到的眼光。本文深入探讨了AMP的秘密总体规划,揭示其如何通过战略性投资,在全球AI发展格局中扮演关键角色,并影响未来技术走向。

AI投资风险投资行业战略

观点:AI时代企业应「拥有智能」而非「租赁智能」规避风险

X·KOLX 推文 (AttentionVC)

Mythos被关闭的案例引发了关于AI时代商业模式的深刻反思。博主强调企业应「拥有智能」而非过度「租赁智能」,即自主掌握核心AI技术,避免过度依赖不受自身控制的外部AI服务。此观点警示公司,若核心智能技术掌握在他人手中,将面临巨大风险,呼吁企业在AI战略上实现技术自主。

AI战略商业模式行业趋势

ORACLE AI代理进军Polymarket预测市场,算法交易渐成主流

X·KOLX 推文 (AttentionVC)

ORACLE AI代理已正式在Polymarket预测市场进行交易,标志着AI在金融预测领域的进一步深化应用。博主预测,到2026年,自主AI代理将成为预测市场中最有效的策略之一。当前Polymarket上超过30%的活动已由算法和AI驱动的钱包完成,预示着AI在金融决策和交易领域的主导地位日益增强。

AI交易预测市场金融科技

OpenAI模型协助诊断罕见儿童遗传病,已识别18个新病例

官方OpenAI News

研究人员正利用OpenAI的推理模型,在医疗领域取得突破性进展,成功协助诊断罕见儿童遗传病。这项应用已在先前未解的病例中识别出18个新的诊断结果,显著缩短了诊断时间,为受影响的儿童及其家庭带来了希望。此案例凸显了AI在精准医疗和加速医学发现方面的巨大潜力及社会价值。

AI医疗罕见病应用研究

HuggingFace发布LOCUS数据集:弥补美国地方法规AI语料库空白

官方HuggingFace Trending Papers

为推动法律人工智能(Legal AI)发展,Hugging Face发布了「LOCUS」(美国地方法规语料库)。该数据集旨在弥补现有机器可读语料库中,美国地方法规(如分区、住房、商业许可)严重缺失的空白。LOCUS的推出将为法律AI研究提供急需的、结构化的地方法规数据,有力支持模型理解和应用复杂的地方性法律。

法律AI数据集司法科技
04

技巧与观点

Tips & Takes 66 篇

趋势:AI编程从提示代理转向「循环工程」提升效率

X·KOLX 推文 (AttentionVC)

AI编程领域正经历一场从单纯的提示代理到「循环工程」的范式转变。博主指出,传统的手动提示编码代理效率低下,而设计能自动提示代理的循环系统,能使AI在用户关闭电脑后持续运行,实现自给自足的工作流程。这种理念强调通过精心设计的循环机制来驱动代理,确保其稳定高效地执行复杂任务,代表了AI编程自动化更先进的思路。

循环工程编程代理自动化

Claude Code代理团队实战:构建循环系统实现任务自动化

X·KOLX 推文 (AttentionVC)

博主详细分享了如何构建一个基于Claude Code的AI代理团队,使其能以「循环」模式持续运行,直至任务真正完成。该方案旨在解决传统代理一次性运行、结果不可控的问题,通过三个具体文件的配置,实现了代理的自我驱动和持续优化。这为利用Claude Code进行自动化开发和复杂问题解决提供了实用的指导。

Claude代理团队循环系统

Kimi K2.6驱动300代理群实现「自我改进循环」,性能超越闭源模型

X·KOLX 推文 (AttentionVC)

一项引人注目的实验展示了一个基于Kimi K2.6的「自我改进循环」系统。该系统能从单个提示词启动300个并行代理,协调完成4000个步骤的复杂研究任务。经Opus 4.8验证,其在真实任务上的表现优于昂贵5倍的闭源模型,突显了开源AI在处理复杂、多步骤任务方面的强大潜力,为自我改进型代理系统提供了新的范例。

开源模型代理群自我改进

AI代理「上下文工程」完整攻略:优化复杂任务可靠性

X·KOLX 推文 (AttentionVC)

针对AI代理在多步骤任务中可能出现的工具调用错误、指令遗忘或输出质量下降等问题,一篇完整的「上下文工程」攻略被分享。该指南提供了详细的解决方案,旨在通过优化上下文管理,提升AI代理在复杂任务中的可靠性和表现。它强调了有效管理和更新代理记忆与环境信息的重要性,是构建稳健AI代理的关键。

代理优化上下文管理提示词

开源项目汇集主流AI模型系统提示词,助力LLM行为研究

开源项目GitHub Trending

一个开源项目收集并公开了来自Anthropic(Claude)、OpenAI(ChatGPT, GPT)和Google(Gemini)等主流AI模型的关键系统提示词(System Prompts)。这些提示词揭示了各模型设计时的内部指令和行为模式,对于理解和优化AI模型行为、进行提示工程研究具有重要价值。该资源为AI研究员和开发者深入探索LLM核心机制提供了宝贵资料。

LLM提示工程AI研究

掌握9项AI Agent核心技能,助力个人职业发展脱颖而出

大咖博客Riley Brown (YouTube)

一段视频深入探讨了9项关键的AI Agent技能,旨在帮助个人在日益竞争的职场环境中脱颖而出。内容可能涵盖如何有效利用AI Agent提升个人效率、解决复杂问题,以及在职业发展中获取竞争优势的具体策略和方法。这些技能对于希望驾驭AI浪潮、实现职业跃升的学习者具有重要的指导意义。

AI技能职业发展AI Agent