每日 AI 简报

2026-06-23(内容获取于 06/23 05:40)

OpenAI推出Daybreak安全工具套件,赋能全球组织网络安全

OpenAI News · 06/22 18:00

OpenAI正式推出名为「Daybreak」的新工具套件,旨在通过Codex Security和GPT-5.5-Cyber等工具,帮助全球组织大规模发现、验证并修复系统漏洞,从而全面强化其网络安全防御能力。

推荐理由:这是OpenAI在企业级AI安全领域的重要布局,对于关注网络安全和AI应用的企业具有直接的参考价值,可探索其提升防御能力。

OpenMontage:首个AI Agent驱动的开源视频制作系统

GitHub Trending

OpenMontage是全球首个开源的AI Agent视频制作系统,集成了12个处理管道、52种工具和500多种Agent技能,能将AI编码助手转化为功能全面的视频制作工作室,实现视频内容的自动化生成。该项目解决了传统视频制作流程复杂、耗时的问题,为大规模、快速生产视频内容提供了解决方案。

推荐理由:这是一个具有革新意义的开源AI Agent项目,开发者可直接使用其强大的视频自动化能力,大幅提升内容创作效率。

Palmier-pro:专为AI优化的macOS视频编辑器

GitHub Trending

Palmier-pro是一款专为macOS设计的视频编辑器,其核心在于对AI应用场景进行了深度优化。它旨在解决传统视频编辑在处理AI生成内容或利用AI辅助功能时的效率瓶颈,为AI驱动的视频制作提供更流畅、高效的体验。

推荐理由:这款工具为macOS上的AI视频内容创作者提供了定制化解决方案,可显著提高利用AI技术进行视频剪辑和后期处理的效率。

Claude Code v2.1.113更新:CLI支持原生二进制,增强网络控制

Claude Code Changelog

Claude Code在v2.1.113版本中进行了重要更新,CLI现在支持生成原生的Claude Code二进制文件,并新增了`sandbox.network.deniedDomains`设置,允许开发者阻止特定域名的网络访问,增强了安全性和灵活性。

推荐理由:本次更新为Claude Code的开发者带来了更强的性能和精细化网络控制,是提升开发效率和应用安全的关键一步。

DeepSeek被指解决AI「十亿美元难题」,有望带来重大突破

Two Minute Papers · 06/22 23:53

深度思考(DeepSeek)据称在人工智能领域取得一项里程碑式突破,解决了业内一项价值「十亿美元」的重大难题。此项进展若属实,可能在效率或成本上大幅优化AI技术,对整个AI产业产生深远影响。

推荐理由:若此消息属实,DeepSeek的突破将对AI行业产生革命性影响,值得所有AI从业者高度关注其后续发展及技术细节。

百度飞桨PP-OCRv6模型发布Hugging Face,支持50种语言识别

Hugging Face Blog · 06/22 21:18

百度飞桨(PaddlePaddle)的PP-OCRv6模型已正式在Hugging Face平台发布。该模型在原有基础上扩展,支持50种语言的光学字符识别(OCR),参数量从1.5M增至34.5M,旨在显著提升多语言文本识别的准确性和覆盖范围。

推荐理由:PP-OCRv6的多语言支持和模型升级,为需要处理多语种文本的开发者提供了更强大的开源OCR解决方案,可直接集成使用。

MD+HTML Reader:AI生成内容审查辅助工具发布

Product Hunt · 06/22 14:24

MD+HTML Reader是一款专注于提升AI生成Markdown和HTML内容审查效率的工具。它提供了一个集中的工作空间,帮助用户快速审阅和管理由AI生成的文本,简化了内容验证和编辑的流程。

推荐理由:对于需要处理大量AI生成文本的开发者和内容编辑而言,这款工具能有效提高工作效率,简化审查流程,值得尝试。

OpenAI董事会成员解读AI安全:超越传统网络安全范畴

Latent Space · 06/23 05:06

OpenAI董事会成员Zico Kolter和Gray Swan首席执行官Matt Fredrikson在访谈中强调,AI安全并非传统网络安全的简单延伸,需要更深层次的理解和方法论。他们认为AI安全对未来至关重要,超出以往的防护框架。

推荐理由:这份深度观点对理解AI安全的核心挑战和未来发展方向具有重要启发,建议AI研究者和决策者深入思考。

Claude Code使用非Claude模型后自动压缩功能异常

LinuxDo · 06/22 23:27

有用户反映,自Claude Code v2.1.150+版本后,当接入非Claude模型时,其自动压缩功能停止工作。这一问题已在GitHub上被记录为issue,对依赖该功能进行代码优化的开发者造成了困扰。

推荐理由:正在使用或计划使用Claude Code集成非Claude模型的开发者应关注此问题,以便调整工作流程或等待官方修复。

calesthio/OpenMontage

Python · ★ 11,724 · 🍴 1,525 · 📈 2,935 stars today

World's first open-source, agentic video production system. 12 pipelines, 52 tools, 500+ agent skills. Turn your AI coding assistant into a full video production studio.

中文介绍 OpenMontage 是一个开源的 AI Agent 驱动的视频制作系统,旨在将 AI 编码助手转化为功能全面的视频制作工作室。它通过集成 12 个处理管道、52 种工具和 500 多种 Agent 技能,实现了视频内容的自动化生成。该项目解决了传统视频制作流程复杂、耗时的问题,让开发者和内容创作者能利用 AI Agent 快速创建高质量视频。适用于需要大规模、快速生产视频内容的场景,如营销视频、教程或社交媒体内容。

palmier-io/palmier-pro

Swift · ★ 7,193 · 🍴 497 · 📈 2,462 stars today

macOS video editor built for AI

中文介绍 Palmier-pro 是一款专为 macOS 设计的视频编辑器,其独特之处在于针对 AI 应用场景进行了优化。它旨在解决传统视频编辑软件在处理 AI 生成内容或利用 AI 辅助功能时的效率问题,为用户提供更流畅的体验。对于需要利用 AI 技术进行视频素材分析、智能剪辑、内容生成或后期处理的 macOS 用户而言,Palmier-pro 是一个理想的选择,能有效提升 AI 驱动的视频制作效率。

jamiepine/voicebox

TypeScript · ★ 32,134 · 🍴 3,928 · 📈 508 stars today

The open-source AI voice studio. Clone, dictate, create.

中文介绍 Voicebox 是一个开源的 AI 语音工作室,提供语音克隆、口述文本生成语音以及创作新语音内容的功能。它利用先进的 AI 语音技术,使用户能够轻松复制特定人声、将文字转换为自然语音,或进行创新性的语音设计。该项目为播客、有声读物制作、游戏开发、辅助技术以及任何需要定制化和高质量语音合成的场景提供了灵活的解决方案,降低了专业级语音制作的门槛。

mukul975/Anthropic-Cybersecurity-Skills

Python · ★ 18,586 · 🍴 2,202 · 📈 957 stars today

817 structured cybersecurity skills for AI agents · Mapped to 6 frameworks: MITRE ATT&CK, NIST CSF 2.0, MITRE ATLAS, D3FEND, NIST AI RMF & MITRE F3 (Fight Fraud) · agentskills.io standard · Works with Claude Code, GitHub Copilot, Codex CLI, Cursor, Gemini CLI & 20+ platforms · 29 security domains ·

中文介绍 Anthropic-Cybersecurity-Skills 提供一个包含 817 项结构化网络安全技能的库,专为 AI Agent 设计。该项目将这些技能映射到 MITRE ATT&CK、NIST CSF 2.0 等六个主流安全框架,并遵循 agentskills.io 标准。它解决了 AI Agent 在网络安全领域缺乏标准化、系统化知识体系的问题,使其能更有效地理解和执行安全任务。适用于开发新一代AI安全助手、自动化威胁检测、响应系统或进行安全态势分析的AI Agent开发者和研究人员。

penpot/penpot

Clojure · ★ 52,811 · 🍴 3,380 · 📈 730 stars today

Penpot: The open-source design tool for design and code collaboration

中文介绍 Penpot 是一款开源的设计工具,专注于提升设计与代码之间的协作效率。它旨在解决设计师与开发者在工作流程中常见的沟通障碍和转换成本问题,通过提供统一的平台,使得设计稿能够更顺畅地转化为实际代码。适用于产品团队中需要紧密协作的设计师、前端开发者以及其他相关人员,帮助他们实现从概念到实现的高效迭代,是构建现代化数字产品的理想选择。

Stirling-Tools/Stirling-PDF

TypeScript · ★ 82,800 · 🍴 7,231 · 📈 691 stars today

#1 PDF Application on GitHub that lets you edit PDFs on any device anywhere

中文介绍 Stirling-PDF 是一款广受欢迎的 PDF 应用,它使用户能够在任何设备上随时随地编辑 PDF 文档。该项目旨在解决传统 PDF 编辑软件的平台限制和访问不便问题,提供了一个灵活、高效的解决方案。无论是在桌面、平板还是手机上,用户都可以方便地进行 PDF 合并、分割、压缩、转换、添加水印等操作。它适用于学生、办公人员以及所有需要频繁处理 PDF 文件,并追求便捷、跨平台体验的用户。

garrytan/gstack

TypeScript · ★ 113,056 · 🍴 16,788 · 📈 649 stars today

Use Garry Tan's exact Claude Code setup: 23 opinionated tools that serve as CEO, Designer, Eng Manager, Release Manager, Doc Engineer, and QA

中文介绍 gstack 项目提供了 Garry Tan 个人使用的 Claude Code 配置,这是一套包含 23 个高度定制化工具的集合。这些工具被设计成能够模拟 CEO、设计师、工程经理、发布经理、文档工程师和 QA 等多种角色,旨在解决个人或小型团队在项目开发和管理中面临的人力资源与效率瓶颈。它利用 Claude AI 的能力,为用户提供一个“虚拟团队”,极大地提升工作效率,尤其适合创业者、开发者及需要多角色辅助的个人工作者。

heygen-com/hyperframes

TypeScript · ★ 29,909 · 🍴 2,817 · 📈 369 stars today

Write HTML. Render video. Built for agents.

中文介绍 hyperframes 允许用户通过编写 HTML 代码来渲染生成视频内容,尤其为 AI Agent 设计。它解决了传统视频制作流程复杂且难以程序化控制的问题,使得开发者能够以更熟悉的前端技术栈(HTML)进行视频的自动化创建和编辑。该项目为 AI Agent 提供了一个强大的工具,使其能够根据指令自动生成视频,适用于需要批量生产短视频、营销宣传片或动态演示文稿的场景,极大地提高了视频内容生成的效率和灵活性。

tursodatabase/turso

Rust · ★ 21,393 · 🍴 1,084 · 📈 538 stars today

Turso is an in-process SQL database, compatible with SQLite.

中文介绍 Turso 是一个进程内(in-process)的 SQL 数据库,它与 SQLite 完全兼容。该项目旨在提供一个轻量级、高性能且易于集成的数据存储解决方案,解决了传统客户端-服务器架构数据库在部署和维护上的复杂性。由于其进程内特性,Turso 可以直接嵌入到应用程序中运行,极大地简化了开发和部署流程。它特别适用于需要嵌入式数据库的桌面应用、移动应用、边缘计算环境以及追求极简架构的开发者。

bytedance/deer-flow

Python · ★ 73,172 · 🍴 9,889 · 📈 736 stars today

An open-source long-horizon SuperAgent harness that researches, codes, and creates. With the help of sandboxes, memories, tools, skill, subagents and message gateway, it handles different levels of tasks that could take minutes to hours.

中文介绍 Deer-flow 是字节跳动开源的一个长周期 SuperAgent 框架,旨在赋予 AI Agent 独立进行研究、编码和创作的能力。该项目通过整合沙盒环境、记忆模块、多样化工具、技能库、子 Agent 和消息网关等组件,解决了传统 AI Agent 在处理复杂、跨领域或长期任务时面临的规划与执行难题。它适用于 AI Agent 开发者和研究人员,帮助他们构建能够自主完成从概念到实现全过程的智能系统,极大提升 AI Agent 的综合任务处理能力。

DeusData/codebase-memory-mcp

C · ★ 11,411 · 🍴 844 · 📈 1,186 stars today

High-performance code intelligence MCP server. Indexes codebases into a persistent knowledge graph — average repo in milliseconds. 158 languages, sub-ms queries, 99% fewer tokens. Single static binary, zero dependencies.

中文介绍 codebase-memory-mcp 是一个高性能代码智能 MCP 服务器,旨在解决大型代码库的快速理解和检索问题。它能将代码库索引成持久化的知识图谱,平均只需毫秒级时间,并支持 158 种编程语言。该项目通过亚毫秒级的查询速度和减少 99% 的 LLM tokens 消耗,极大地提升了代码智能工具的效率。适用于构建 AI 编程助手、智能代码搜索、代码审计或任何需要高效理解和利用代码库信息场景的开发者和AI工程师。

ZhuLinsen/daily_stock_analysis

Python · ★ 45,727 · 🍴 41,889 · 📈 1,560 stars today

LLM 驱动的多市场股票智能分析系统:多源行情、实时新闻、决策看板与自动推送,支持零成本定时运行。 LLM-powered multi-market stock analysis system with multi-source market data, real-time news, decision dashboard, automated notifications, and cost-free scheduled runs.

中文介绍 daily_stock_analysis 是一个由 LLM 驱动的多市场股票智能分析系统。它旨在解决投资者在海量信息中获取有效决策支持的难题,通过整合多源实时行情数据、最新新闻资讯,并提供直观的决策看板和自动化推送服务。该系统支持零成本定时运行,使得个人投资者也能享受到专业级的市场分析。它适用于所有对股票市场感兴趣、希望利用 AI 技术提高投资决策效率的用户,尤其是在需要快速响应市场动态和获取个性化分析的场景。

firecrawl/firecrawl

TypeScript · ★ 137,140 · 🍴 7,957 · 📈 736 stars today

The API to search, scrape, and interact with the web at scale. 🔥

中文介绍 Firecrawl 提供一个强大的 API 接口,专注于大规模的网页搜索、抓取和交互。它旨在解决传统网页数据获取过程中面临的效率低、维护成本高、反爬机制复杂等问题,为开发者提供一个便捷且稳定的解决方案。通过 Firecrawl,用户可以轻松实现对网页内容的自动化提取、数据搜索以及模拟用户交互行为。该项目特别适用于需要构建数据驱动应用、训练 AI 模型、进行市场研究或任何需要大规模Web数据采集的开发者和企业。

JCodesMore/ai-website-cloner-template

TypeScript · ★ 17,649 · 🍴 2,741 · 📈 63 stars today

Clone any website with one command using AI coding agents

中文介绍 ai-website-cloner-template 提供一个利用 AI 编码 Agent 一键克隆任何网站的解决方案。该项目旨在极大简化网站开发和原型制作流程,通过自动化复杂编码任务,解决了传统网站复制或重构耗时耗力的问题。用户只需一条命令,即可让 AI Agent 智能分析目标网站结构和内容,并生成相应的代码。它特别适用于前端开发者、创业公司快速搭建产品原型、教学示范或任何需要高效复刻网站功能的场景。

lyogavin/airllm

Jupyter Notebook · ★ 21,003 · 🍴 2,423 · 📈 187 stars today

AirLLM 70B inference with single 4GB GPU

中文介绍 AirLLM 致力于解决大型语言模型(LLM)推理对硬件资源特别是 GPU 显存的严苛要求,实现了 70B 参数的 LLM 在单张 4GB GPU 上进行高效推理。该项目通过创新的优化技术,显著降低了运行高性能 LLM 的硬件门槛和成本。它使得个人开发者和资源有限的团队也能部署和利用大型 LLM 模型,适用于边缘设备部署、本地推理、快速原型验证以及任何需要轻量级、高效率 LLM 推理的场景。

mattpocock/skills

Shell · ★ 141,505 · 🍴 12,243 · 📈 2,051 stars today

Skills for Real Engineers. Straight from my .claude directory.

中文介绍 skills 项目汇集了 Matt Pocock 在其个人 `.claude` 目录中积累的、针对“真实工程师”的实用技能。这些技能很可能是一系列针对 Claude AI 定制的工具、脚本或提示词,旨在解决日常开发工作中的具体问题,提升开发效率和质量。它为希望优化其 AI 辅助工作流的开发者提供了宝贵的资源,可以借鉴、集成这些经过实践验证的技能,以更好地利用 Claude 等 AI 模型进行代码编写、问题解决或任务自动化。

StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs

👍 2

Multimodal large language models (MLLMs) are increasingly deployed in personally and societally consequential settings, yet the visual cues that shape how these models judge people remain poorly understood. Prior work often compares different (groups of) individuals, making it difficult to separate

中文介绍 MLLM中的社会偏见主要由少量人类视觉线索驱动。这项研究深入探讨了塑造多模态大语言模型(MLLMs)判断人物方式的视觉线索,旨在更好地理解这些偏见的来源,以便在实际应用中进行有效识别与缓解。

LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

👍 6

Policy-adherent tool-calling agents in customer-service domains must maintain task states across turns while calling tools and obeying domain policies. Task states consist of relevant facts, identifiers, constraints, and conditions observed through user interaction and tool calls. In standard agents

中文介绍 LedgerAgent提出一种结构化状态表示,使遵守策略的工具调用型智能体能维护跨回合任务状态。尤其在客服领域,它能管理用户交互和工具调用中产生的相关事实、标识符、约束及条件,确保智能体行为符合预设策略。

Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe

👍 7

FP4 training promises substantial reductions in memory and computation cost for LLM pretraining, yet current FP4 hardware paths and recipes, including NVIDIA Blackwell/Rubin-class systems and AMD MI350-series GPUs, remain centered on E2M1 data elements. In this study, we identify a fundamental limit

中文介绍 研究重新审视LLM FP4预训练中的“收缩偏差”,探讨其几何起源、系统性影响,并提出UFP4方案。指出现有FP4硬件路径(如NVIDIA Blackwell/Rubin、AMD MI350系列GPU)主要围绕E2M1数据元素,需优化以提高效率。

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

👍 56

LiveCodeBench (LCB) has recently become a widely adopted benchmark for evaluating large language models (LLMs) on code-generation tasks. By curating competitive programming problems, constantly adding fresh problems to the set, and filtering them by release dates, LCB provides contamination-aware ev

中文介绍 Multi-LCB将LiveCodeBench (LCB)扩展至多种编程语言,作为评估大语言模型(LLMs)代码生成任务的基准。LCB通过持续添加新竞赛编程问题并按发布日期筛选,提供一个动态且具有挑战性的评测环境。

HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

👍 8

Embodied foundation models are expected to benefit from data scaling like large language models, but face a much tighter data bottleneck. Teleoperated real-robot trajectories remain the dominant pretraining source due to their precise action supervision and embodiment alignment, yet their scalabilit

中文介绍 HumanScale研究显示,以自我为中心的人类视频数据在具身预训练中表现可优于真实机器人数据。具身基础模型面临数据瓶颈,该研究指出人类视频有望成为更高效的预训练数据来源,超越传统遥操作机器人轨迹数据。

DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis

👍 31

Advances in radiance fields have enabled photorealistic novel view synthesis. In several domains, large-scale real-world datasets have been developed to support comprehensive benchmarking and to facilitate progress beyond scene-specific reconstruction. However, for distractor-free radiance fields, a

中文介绍 DF3DV-1K是一个大型数据集和基准测试,专为“无干扰”新视角合成而设计。尽管辐射场技术已实现真实感新视角合成,但现有大规模真实世界数据集缺乏无干扰设置,阻碍了该领域更全面的基准测试和进一步发展。

S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

👍 38

Real-world spatial intelligence requires reasoning over a continuous and evolving 3D world, yet existing VLMs and tool-augmented agents largely remain tied to static, stateless inference from isolated visual observations. We introduce \textsc{S-Agent}, a spatial tool-use agentic paradigm for underst

中文介绍 S-Agent是一个空间工具使用型智能体,旨在激发空间智能推理能力。针对现有视觉语言模型和工具增强型智能体依赖静态视觉观察的局限,S-Agent通过在连续变化的3D世界中运用空间工具,以提升真实世界的空间智能表现。

ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

👍 11

Achieving dexterous robotic manipulation in the real world heavily relies on human supervision and algorithm engineering, which becomes a central bottleneck in the pursuit of general physical intelligence. Although emerging coding agents can generate code to automate algorithm search, their successe

中文介绍 ENPIRE项目提出智能体化的机器人策略自我改进方法,旨在实现真实世界中的灵巧机器人操作。为解决传统机器人操作对人工监督和算法工程的重度依赖,ENPIRE利用编码智能体自动化策略选择与优化,推动通用物理智能发展。

FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining

👍 26

Style-content dual-reference generation aims to synthesize an image that preserves the structure and semantics of a content reference while adopting the style of a separate style reference.Despite recent progress, this setting remains challenging because models must balance content fidelity, style a

中文介绍 FreeStyle通过挖掘社区LoRA模型,实现风格与内容双参考生成的自由控制。这种方法旨在合成图像时,既能保留内容参考的结构和语义,又能采纳独立风格参考的样式,克服了现有模型在平衡两者方面的挑战。

Characterizing Narrative Content in Web-scale LLM Pretraining Data

👍 2

The narrative composition of web-scale LLM pretraining corpora remains largely unexplored even though narrative is a fundamental mode of human communication. We present the first fine-grained study of narrative features in Dolma, a 3-trillion-token open pretraining corpus. Drawing on narrative theor

中文介绍 研究首次对网络规模LLM预训练数据中的叙事内容进行细致分析,揭示其特征。叙事作为人类交流基础模式,其在Dolma(一个3万亿token开放预训练语料库)等语料库中的构成此前未被充分探索。

GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents

👍 13

Memory benchmarks for LLM agents largely assume single-user settings, leaving shared assistants for hospitals, workplaces, campuses, and households understudied. In these deployments, multiple principals write to a common memory pool and query it under different roles, scopes, and relationships, so

中文介绍 GateMem是一个新的基准,用于评估多主体共享内存智能体中的内存治理能力。现有LLM智能体内存基准多假设单用户环境,忽略了医院、工作场所等多主体共享助理场景中,不同角色写入和查询共享内存池的需求。

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

👍 3

To assist humans over extended periods in real homes, embodied agents must remember user routines, world states, and past interactions. Existing long-term memory benchmarks mainly evaluate language-centric retrieval and question answering, while embodied benchmarks often focus on short-horizon task

中文介绍 WorldLines是一个新基准,用于评估和建模长时间、有状态的具身智能体。为使具身智能体在真实家居环境中长期辅助人类,其需记忆用户习惯、世界状态和过往互动,而现有长期记忆基准多侧重语言检索或问答。

PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

👍 50

Multimodal large language models (MLLMs) have achieved remarkable progress in visual understanding tasks. However, most existing MLLMs rely on autoregressive generation, which limits their efficiency for perception tasks that require captioning multiple regions. In this work, we propose PerceptionDL

Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States

👍 6

Progress in legal AI increasingly depends on access to authoritative legal text at scale. Yet one of the most consequential layers of American law remains largely absent from existing machine-readable corpora: local ordinances. Local codes govern zoning, housing, business licensing, public health, n

Configurable Clinical Information Extraction with Agentic RAG: What Works, What Breaks, and Why

👍 5

Patient contexts span hundreds of heterogeneous documents and thousands of structured data points, yet the document-level metadata that AI systems need for retrieval and triage is absent or incomplete. Standard retrieval-augmented generation fails on this data, mishandling temporal reasoning, cross-

Playful Agentic Robot Learning

👍 44

Current agentic robot systems can write executable Code-as-Policy programs, observe feedback, and revise behavior across multiple attempts, but they remain largely task-driven: reusable skills are acquired only after explicit instructions. We study Playful Agentic Robot Learning, where an embodied c

FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines

👍 10

Multi-step LLM pipelines fail through interactions among retrieval, reasoning, and formatting steps, so prompt-only optimization can miss bottlenecks in the chain. We present FAPO (Fully Autonomous Prompt Optimization), a framework that lets Claude Code optimize an LLM pipeline inside a standardized

SproutRAG: Attention-Guided Tree Search with Progressive Embeddings for Long-Document RAG

👍 6

Retrieval-augmented generation (RAG) systems must balance retrieval granularity with contextual coherence, a challenge that existing methods address through LLM-guided chunking, single-level context expansion, or hierarchical summarization. These approaches variously depend on costly LLM calls durin

MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval

👍 6

Retrieval-augmented generation (RAG) systems depend critically on how documents are chunked and searched. Fine-grained chunks can improve retrieval precision but expand the search space, increasing latency and cost; larger chunks reduce the number of candidates but make dense similarity less reliabl

GeneralVLA-2: Geometry-Aware Reconstruction and Governed Memory for Robot Planning

👍 3

Generalist vision-language-action systems need object-centric 3D evidence and reusable manipulation experience to plan reliable robot trajectories. GeneralVLA provides a hierarchical interface for converting language and RGB-D observations into 3D end-effector paths, but two bottlenecks remain. Firs

MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation with Multi-turn Local Revision

👍 14

Personalized presentation generation requires more than conditioning on a current prompt or template: agents must preserve stable user preferences across tasks, retain newly introduced preferences and constraints during multi-turn revision, and carry out local edits reliably. We propose MemSlides, a

Multi-Turn Reflective Masking Elicits Reasoning in Mask Diffusion Models

👍 9

While reasoning on autoregressive (AR) models is often performed by chain-of-thought reasoning and reflection, their refinement of previous outputs still relies on fully sequential generation, even when only local edits are needed. In contrast, the masking mechanism in Mask Diffusion Models (MDMs) n

Context-Aware RL for Agentic and Multimodal LLMs

👍 11

Large language models (LLMs) often fail when answering requires identifying a small but decisive piece of evidence within a long or complex context, such as a single line in a tool trace or a subtle detail in an image. We propose ContextRL, a context-aware reinforcement learning (RL) method that imp

Understanding the Behaviors of Environment-aware Information Retrieval

👍 6

Recent retrieval-augmented generation (RAG) approaches have demonstrated strong capability in handling complex queries, yet current research overlooks a critical challenge: different retrievers require fundamentally different query formulation strategies for optimal performance. In this work, we pre

Selective Synergistic Learning for Video Object-Centric Learning

👍 3

Typical video object-centric learning (VOCL) approaches employ slot-based frameworks that rely on reconstruction-driven encoder-decoder architectures, where learning is mediated by two spatial maps: attention maps from the encoder and object maps from the decoder. As these two distinct maps exhibit

DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects

👍 69

Dexterous interaction with articulated objects is important for household, assistive, and humanoid manipulation, where multi-finger hands can provide compliant contact patterns beyond parallel-jaw grasping. However, articulated-object manipulation differs from static-object manipulation: the target

Duration Aware Scheduling for ASR Serving Under Workload Drift

👍 3

Scheduling policies in large-scale Automatic Speech Recognition (ASR) serving pipelines play a key role in determining end-to-end (E2E) latency. Yet, widely used serving engines rely on first-come-first-served (FCFS) scheduling, which ignores variability in request duration and leads to head-of-line

MD+HTML Reader

Review AI-generated Markdown and HTML in a focused workspace

中文介绍 MD+HTML Reader是一款专注于帮助用户在特定工作区内审阅AI生成的Markdown和HTML内容的工具,旨在提升用户对AI生成文本的审查效率。

Cloudflare Temporary Accounts

Let agents deploy before signup

中文介绍 Cloudflare推出了临时账户功能,允许代理用户在完成正式注册之前即可部署服务,旨在简化初期部署流程并提升用户体验。

MediaSeg

Split large media files into upload-ready chunks on macOS

中文介绍 MediaSeg是一款专为macOS平台设计的工具,能够将大型媒体文件分割成适合上传的多个片段,方便用户管理和分享大文件。

AlgoFly AI

The all-in-one place to build and deploy vision AI

中文介绍 AlgoFly AI是一个综合性平台,为用户提供构建和部署视觉AI解决方案的一站式服务,旨在简化AI开发流程。

Selector Forge

Browser extension for AI-generated resilient selectors

中文介绍 Selector Forge是一款浏览器扩展,能够生成由AI驱动的弹性选择器,旨在提高Web元素选择的可靠性和自动化效率。

AgentX

Evaluate AI agent, pinpoint issues, and fix with one click.

中文介绍 AgentX是一款用于评估AI代理的工具,能帮助用户精确识别问题并实现一键修复,从而优化AI代理的性能和可靠性。

Cloudback MCP Server

Manage your backups from Claude, Cursor, and VS Code

中文介绍 Cloudback MCP Server是一款备份管理工具,用户可以通过该工具集中管理来自Claude、Cursor和VS Code等平台的备份数据,简化数据保护。

Agent 37 Cloud

Give every customer their own Hermes or OpenClaw agent

中文介绍 Agent 37 Cloud致力于为每位客户提供定制的Hermes或OpenClaw AI代理,以实现个性化的AI服务体验。

Alai 2.0

AI design partner for presentations, social posts, and more

中文介绍 Alai 2.0是一款AI设计伙伴工具,能帮助用户创建演示文稿、社交媒体帖子等各类内容,提高设计效率和质量。

Photoroom API

Transform product images at scale with one image editing API

中文介绍 Photoroom API提供强大的图片编辑功能,能通过一个API接口大规模地处理和转换产品图片,适用于电商等场景。

How Quants Use Loop Engineering to Build Alpha (Full Framework)

@horizon_trade_x · 4.4K 粉丝 · 1.3M 阅 · 507 赞 · 59 转

Your backtest looked flawless. You went live. Two weeks later, the strategy was bleeding. Every quant has lived this. The answer is a loop: generate a strategy, test it, score it, feed the result

中文介绍 解释量化交易中策略回测成功但实盘失败的常见问题,提出「循环工程」解决方案。该框架通过策略生成、测试、评分及结果反馈的循环,持续优化交易表现,旨在构建更稳健的盈利能力。

Loops explained: Claude, GPT, Mira and what actually works

@AnatoliKopadze · 83.0K 粉丝 · 1.3M 阅 · 584 赞 · 70 转

AI has been in everyone's hands for years. Most people who use it every day still use it the slowest way there is: type a request, wait, fix it, ask again, all by hand. Not because the faster way is

中文介绍 探讨AI使用中的「循环」概念,指出大多数用户仍采用手动请求、修正的低效方式。博主旨在解释更高效的AI应用范式,并提及 Claude、GPT、Mira 等工具在构建有效循环中的作用。

How to Build a Claude Code Agent Team That Runs in Loops (Exact Setup Inside)

@zodchiii · 22.7K 粉丝 · 1.2M 阅 · 500 赞 · 71 转

Most setups run agents once and hand you whatever comes out. A team that runs in loops keeps going until the work actually passes. Below is the setup in 3 files: the agents, the loop that drives

中文介绍 分享如何构建一个基于 Claude 的代码代理团队,使其能以「循环」方式运行,持续迭代直至任务完成。博主提供了详细设置,包括代理配置和驱动循环的逻辑,旨在解决传统代理一次性输出的局限。

How to Build an AI Second Brain With Claude and Obsidian That Gets Smarter Every Day (Full Guide)

@undefinedKi · 3.9K 粉丝 · 1.0M 阅 · 601 赞 · 78 转

Your best ideas are scattered across a dozen places right now. Notes apps. Browser tabs. Old chats with Claude that you closed and will never find again. Every time you sit down to work, you rebuild

中文介绍 提供一份完整指南,教你如何利用 Claude 和 Obsidian 搭建一个「AI 第二大脑」。该系统旨在整合分散的笔记和想法,通过持续学习,使其每天变得更智能,避免重复劳动,提升知识管理效率。

40 Claude Opus 4.8 Workflows That Make Money While You Sleep

@eng_khairallah1 · 69.3K 粉丝 · 678.7K 阅 · 506 赞 · 81 转

Most people are using Claude Opus 4.8 to answer questions. Save this :) A small group of people have it running businesses while they sleep. The difference is not the model. You both have access to

中文介绍 分享 40 种基于 Claude Opus 4.8 的工作流,旨在帮助用户实现「睡后收入」。博主强调,区别不在于模型本身,而是少数人利用其构建自动化业务的能力,而非仅限于问答。

How To Learn Anything 10x Faster Using Claude

@sairahul1 · 118.7K 粉丝 · 581.3K 阅 · 516 赞 · 110 转

Learning anything today is easy and confusing at the same time. Easy because AI can explain almost anything in seconds. Confusing because most people just ask random questions, get random answers, and

中文介绍 探讨如何利用 Claude 将学习效率提升十倍。博主指出,虽然AI能快速解释任何事物,但多数人因缺乏结构化提问而效果不佳。帖子旨在提供优化与 Claude 交互的方法,加速知识获取与理解。

Context Engineering for AI Agents: The Complete Playbook

@sairahul1 · 118.7K 粉丝 · 511.9K 阅 · 500 赞 · 84 转

Your AI agent works great for the first 10 steps. Then somewhere around step 15, it starts getting sloppy. Wrong tool calls. Forgetting your original instructions. Low-quality outputs. Most people

中文介绍 提供一份关于「AI 代理上下文工程」的完整攻略,旨在解决 AI 代理在执行多步骤任务时,常出现的忘却指令、错误工具调用及输出质量下降问题。博主分享了提升代理稳定性和性能的方法。

Using Claude to go Viral on X… (Mr. Beasts Framework)

@mattepstein · 35.6K 粉丝 · 393.3K 阅 · 504 赞 · 26 转

Have you seen any of the launches below on your timeline? (you probably have).. What if I told you they all followed a repeatable viral science that can be 95% automatable with claude. In this

中文介绍 揭示利用 Claude 自动化 95% 社交媒体内容病毒式传播的「可重复科学」,灵感源于 Mr. Beast 的成功框架。博主旨在分享一套方法,帮助用户在 X 平台上实现内容快速扩散。

The Agent Loop Architecture

@djfarrelly · 3.8K 粉丝 · 344.7K 阅 · 501 赞 · 61 转

Everyone's asking "WTF is a loop?" Here's the question nobody's asking: what runs the loop? The AI discourse has converged on loops as a core primitive of agentic systems. Matt Van Horn (@mvanhorn)

中文介绍 深入探讨「代理循环架构」,在众人关注「什么是循环」之际,博主转而聚焦「由何驱动循环」这一核心问题。帖子分析了循环作为代理系统基本要素的地位,并可能借鉴 Matt Van Horn 的观点。

The Self-Improving Loop: a 300-agent swarm on Kimi K2.6, verified by Opus 4.8

@0xMovez · 26.7K 粉丝 · 208.0K 阅 · 504 赞 · 59 转

A free open-source model is running 300 parallel agents across 4,000 coordinated steps from a single prompt, and it scores higher on real research tasks than models you pay 5x more for. Most people

中文介绍 展示一个基于 Kimi K2.6 的「自改进循环」系统,该系统调度 300 个并行代理,通过 4,000 个协调步骤,仅由一个提示词驱动。经 Opus 4.8 验证,其在真实研究任务上的表现优于昂贵五倍的模型。

Three Ways Codex Can Use a Computer

@jxnlco · 105.9K 粉丝 · 204.4K 阅 · 504 赞 · 47 转

Update: Computer Use is now Available in the EU/UK ;) Enjoy! There are three ways for Codex to use a computer: Computer Use, the Chrome extension, and the in-app browser. They overlap just enough to

中文介绍 介绍了 Codex 使用电脑的三种方式:直接的「Computer Use」功能、Chrome 浏览器扩展程序以及应用内置浏览器。博主旨在阐明这些工具的用法及它们之间可能存在的重叠。

ORACLE: Official AI Agents Trade on Polymarket

@OracAItrading · 31.8K 粉丝 · 141.6K 阅 · 2.8K 赞 · 576 转

In 2026, autonomous AI agents have become one of the most effective strategies on prediction markets. Over 30% of all activity on Polymarket now comes from algorithmic and AI-powered wallets. We

中文介绍 OracAItrading 宣布其官方 AI 代理「ORACLE」已在 Polymarket 预测市场上线。博主指出,至 2026 年,自治 AI 代理将占据预测市场逾 30% 的交易活动,凸显了其在量化策略中的有效性。

Zen and the Art of AI Research

@jxmnop · 50.7K 粉丝 · 114.1K 阅 · 504 赞 · 57 转

So you want to do AI research? It's true that no one really teaches you how. Not directly, anyway. But it turns out that the way to get started is pretty simple: some combination of (i) reading and

中文介绍 分享关于如何开启 AI 研究的实践指导,指出虽然鲜有直接教学,但入门方法相对简单,主要在于阅读与动手实践的结合。博主旨在为有志于 AI 研究的个人提供启发性建议。

ORACLE: Official AI Agents Trade on Polymarket

@Oractrading · 33.9K 粉丝 · 109.2K 阅 · 2.8K 赞 · 585 转

In 2026, autonomous AI agents have become one of the most effective strategies on prediction markets. Over 30% of all activity on Polymarket now comes from algorithmic and AI-powered wallets. We

中文介绍 OracAItrading 宣布其官方 AI 代理「ORACLE」已在 Polymarket 预测市场上线。博主指出,至 2026 年,自治 AI 代理将占据预测市场逾 30% 的交易活动,凸显了其在量化策略中的有效性。

how to get Fable-level intelligence back:

@EXM7777 · 118.9K 粉丝 · 107.7K 阅 · 509 赞 · 44 转

for a few days, we had something that felt like AGI... Fable 5 showed up, effectively unlimited inside the plans, and the ceiling on what you could build lifted overnight but then Anthropic killed it,

中文介绍 博主表达了对 Fable 5 短暂展现出类似 AGI 智能的怀念,其一度极大地拓宽了构建 AI 应用的上限,但随后被 Anthropic 撤回。帖子探讨如何「找回」或重现这种高水平 AI 智能。

ORACLE: Official AI Agents Trade on Polymarket

@OracleMindAI · 21.0K 粉丝 · 105.0K 阅 · 2.8K 赞 · 582 转

In 2026, autonomous AI agents have become one of the most effective strategies on prediction markets. Over 30% of all activity on Polymarket now comes from algorithmic and AI-powered wallets. We

中文介绍 OracAItrading 宣布其官方 AI 代理「ORACLE」已在 Polymarket 预测市场上线。博主指出,至 2026 年,自治 AI 代理将占据预测市场逾 30% 的交易活动,凸显了其在量化策略中的有效性。

WTF Is a Loop? Part 2: The 15 Loops People Are Actually Running (and the Commands to Steal Them)

@mvanhorn · 35.2K 粉丝 · 102.4K 阅 · 510 赞 · 56 转

Earlier this month I wrote WTF Is a Loop? Peter Steinberger vs. Boris Cherny, which did 3.6M views on what a loop even is. This is the sequel, and it answers the next question: which loops do people

中文介绍 承接前作「WTF 是循环?」的续篇,博主深入揭示了 15 种当前流行的实际运行中的「循环」工作流,并提供了具体指令供读者借鉴。旨在为 AI 代理系统中的循环应用提供实用案例与实现方法。

From Prompting Agents to Loop Engineering

@omarsar0 · 308.0K 粉丝 · 90.2K 阅 · 504 赞 · 69 转

A claim has been circulating in AI coding circles: stop prompting your coding agents and start designing loops that prompt them for you. As with everything new, this stuff gets repeated often and

中文介绍 探讨 AI 编码领域正兴起的范式转变:从直接提示代码代理,转向设计能自动提示代理的「循环」。博主旨在解析「循环工程」这一新趋势,以及它如何优化编码代理的工作流程。

How GLM-5.2 Beat Fable 5 at Website Design

@Designarena · 13.9K 粉丝 · 80.4K 阅 · 518 赞 · 39 转

GLM 5.2 ranks 1st overall on Design Arena’s single-turn, HTML Web Design (Non-Agentic) evaluation, 5 places higher than its predecessor GLM-5.1. To do so, it beat Claude Fable 5, Opus 4.6, and Opus

中文介绍 公布 GLM 5.2 在 Design Arena 的 HTML 网页设计(非代理)单轮评估中荣获第一。该模型超越了其前身 GLM-5.1,并击败了 Claude Fable 5、Opus 4.6 及 Opus,展示了卓越的设计能力。

The Art of Loop Engineering

@sydneyrunkle · 7.9K 粉丝 · 74.7K 阅 · 565 赞 · 87 转

Agents are useful because they help us automate work by taking actions in the real world. But getting agents to do valuable work reliably takes more than just a good model: it requires a carefully

中文介绍 探讨「循环工程的艺术」,指出AI代理虽然能自动化工作,但要实现可靠且有价值的产出,仅凭优秀模型不足。博主强调,精心设计的循环工程对确保代理性能至关重要。

How modern browsers work

@addyosmani · 401.4K 粉丝 · 55.7K 阅 · 7d 曝光 55.7K

How modern browsers work

9 AI Agent Skills To Get Ahead of 99% of People

中文介绍 该视频探讨了9项关键的AI智能体技能,这些技能能帮助使用者在多数人中脱颖而出。内容涵盖了如何有效利用AI智能体提高个人效率和竞争力。

How to build high quality internal tools with Retool

中文介绍 该短视频演示了如何使用Retool平台构建高质量的内部工具。通过Retool,企业能够快速开发定制化应用,提升内部运营效率和数据管理能力。

SpaceX Just Bought Cursor for $60B. It’s About to Take OVER.

中文介绍 视频声称SpaceX以600亿美元收购了AI编程助手Cursor,预示着该工具将在行业内占据主导地位。若属实,此举将对AI编程和太空科技领域产生重大影响。

Delegate and schedule tasks in Claude Cowork

中文介绍 该视频演示了Anthropic的协作平台Claude Cowork如何帮助用户委派和安排任务。此功能旨在优化团队协作效率,使任务管理更为便捷,提高生产力。

Artifacts in Claude Code: share your work as it happens

中文介绍 Claude Code推出了「Artifacts」功能,允许用户实时分享他们的工作成果。此功能旨在促进开发者之间的协作与反馈,加速代码开发和迭代过程。

Enterprise-managed auth for MCP connectors

中文介绍 该视频介绍了为MCP连接器提供企业级管理认证的功能。此举旨在提升企业用户的数据安全性和访问控制效率,简化复杂的IT管理。

Delegate and schedule tasks in Claude Cowork

中文介绍 该视频演示了Anthropic的协作平台Claude Cowork如何帮助用户委派和安排任务。此功能旨在优化团队协作效率,使任务管理更为便捷,提高生产力。

Artifacts in Claude Code: share your work as it happens

中文介绍 Claude Code推出了「Artifacts」功能,允许用户实时分享他们的工作成果。此功能旨在促进开发者之间的协作与反馈,加速代码开发和迭代过程。

Enterprise-managed auth for MCP connectors

中文介绍 该视频介绍了为MCP连接器提供企业级管理认证的功能。此举旨在提升企业用户的数据安全性和访问控制效率,简化复杂的IT管理。

DeepSeek Just Solved AI's Billion Dollar Problem

中文介绍 深度思考(DeepSeek)据称在人工智能领域取得突破,解决了业内一项价值「十亿美元」的重大难题。此进展可能大幅提升AI技术效率或降低成本,对AI产业具有深远影响。

Scientists Found A Better Language For AI Agents

中文介绍 科学家们研究发现了一种更适用于AI智能体的新型语言。这种语言有望优化AI智能体之间的沟通效率与任务执行能力,进一步提升其智能水平。

Red-Teaming after Mythos — Zico Kolter & Matt Fredrikson, Gray Swan

OpenAI boardmember Zico Kolter and Gray Swan CEO Matt Fredrikson join swyx to explain why AI security is not just “cybersecurity with AI”

中文介绍 OpenAI董事会成员Zico Kolter和Gray Swan首席执行官Matt Fredrikson在Latent Space节目中解释了AI安全的重要性,强调它并非仅仅是「带有AI的网络安全」的延伸。两人认为,AI安全需要更深层次的理解和方法论,超出传统网络安全的范畴。

Three things to watch amid Anthropic’s latest feud with the government

This story originally appeared in The Algorithm, our weekly newsletter on AI. To get stories like this in your inbox first, sign up here. For those of you enjoying your summer unaware of Anthropic’s latest feud with the US government, here’s a recap: In April the company said it had built an AI mode

中文介绍 麻省理工科技评论报道了AI公司Anthropic与美国政府之间最新的争端,并指出有三个关键点值得关注。文章回顾称,此次争端始于四月Anthropic公司发表的一项声明,但具体细节未在摘要中透露。

PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters

中文介绍 百度飞桨(PaddlePaddle)的PP-OCRv6模型已在Hugging Face平台发布。该模型支持50种语言的光学字符识别(OCR),其参数量从1.5M扩展到34.5M。这一进展旨在提升多语言文本识别的准确性和覆盖范围。

Daybreak: Tools for securing every organization in the world

OpenAI introduces new Daybreak tools, including Codex Security and GPT-5.5-Cyber, to help organizations find, validate, and patch vulnerabilities at scale.

中文介绍 OpenAI推出了名为「Daybreak」的新工具套件,旨在帮助全球组织提升安全防护能力。该套件包含Codex Security和GPT-5.5-Cyber等工具,能够协助企业大规模地发现、验证并修复系统漏洞,从而强化网络安全。

Patch the Planet: a Daybreak initiative to support open source maintainers

OpenAI introduces Patch the Planet, a Daybreak initiative helping open-source maintainers find, validate, and fix vulnerabilities with AI and expert review.

中文介绍 OpenAI发布了「Patch the Planet」项目,作为「Daybreak」计划的一部分,旨在支持全球开源项目维护者。该项目利用人工智能(AI)结合专家审查,协助维护者发现、验证并修复开源代码中的漏洞,以提升开源软件的安全性。

Codex-maxxing for long-running work

Learn how Jason Liu uses Codex to preserve context, manage complex projects, and help work continue beyond a single prompt.

中文介绍 OpenAI介绍用户Jason Liu如何利用Codex模型处理长期复杂工作。Jason Liu通过Codex实现上下文的有效保存,从而更好地管理复杂的项目,并使得工作能够持续进行,超越了单个提示的限制,提升了工作效率和连贯性。

Orchestration models 🤖, DeepMind exodus 👋, loop engineering 🔄

中文介绍 TLDR AI简报总结了近期人工智能领域的三大焦点:编排模型的最新发展、DeepMind出现的人才流失现象,以及循环工程(loop engineering)在AI应用中的重要性。这些是当前AI生态系统中的关键趋势和挑战。

Samsung Electronics brings ChatGPT and Codex to employees

Samsung Electronics deploys ChatGPT Enterprise and Codex to employees worldwide, marking one of OpenAI’s largest enterprise AI rollouts.

中文介绍 三星电子宣布在全球范围内向其员工部署ChatGPT Enterprise和Codex人工智能工具。此次部署标志着OpenAI在企业级AI解决方案方面最大规模的推广之一,旨在通过集成先进的AI技术,提升三星员工的工作效率和创新能力。

[Exclusive] $250 off AI Engineer tix til Monday

special offer for subscribers - $250 off AI Engineer tix til Monday

中文介绍 Latent Space为订阅者提供独家优惠,购买AI Engineer大会门票可享受250美元折扣。此优惠有效期至周一,旨在鼓励更多AI工程师参与行业盛会,交流最新技术和发展趋势。

[AINews] not much happened today

a quiet day lets us promo AIE one last time

中文介绍 Latent Space的AI新闻简报指出当天AI领域未发生重大事件。作者借此机会,最后一次推广即将举行的AI Engineer大会,提醒读者关注并参与这一行业盛会。

A startup claims it broke through a bottleneck that’s holding back LLMs

The Miami-based AI startup Subquadratic came out of stealth mode last month with a huge claim. It announced that it had solved a mathematical bottleneck that had been holding back large language models for almost a decade. The details were thin, and many people were unconvinced. But Subquadratic has

中文介绍 迈阿密AI初创公司Subquadratic上月解除了隐身模式,并声称已解决困扰大型语言模型(LLMs)近十年的一个数学瓶颈。然而,相关细节披露不足,导致许多业内人士对此持怀疑态度。

[AINews] GLM > GPT? GLM-5.2 passes vibe check; Z.ai forecasts Open Fable by December

With GLM-5.2 passing everyone's vibe check, the open models story finally becomes a real frontier story.

中文介绍 Latent Space的AI新闻指出,GLM-5.2模型成功通过了「vibe check」,使其在开放模型领域成为真正的“前沿故事”,引发了与GPT模型的对比讨论。此外,Z.ai预测「Open Fable」项目有望在12月前发布。

not much happened today

**GLM-5.2** emerges as a leading open-weight coding model rivaling **Opus 4.8** and **GPT-5.5** in software engineering tasks, emphasizing the strategic importance of open models for provider competition, on-prem deployment, and fine-tuning rights. Experts like **Patrick Toulme** and **Thomas Wolf**

中文介绍 Smol AI新闻报道,GLM-5.2作为领先的开源代码模型,在软件工程任务中展现出强大实力,可与Opus 4.8及GPT-5.5相媲美。这凸显了开源模型在推动供应商竞争、支持本地部署和提供微调权利方面的战略重要性。专家Patrick Toulme也认可了这一趋势。

MosaicLeaks: Can your research agent keep a secret?

中文介绍 Hugging Face博客发布了一篇名为「MosaicLeaks: 你的研究代理能保守秘密吗?」的文章,探讨了人工智能研究代理在处理敏感信息时的保密性问题。文章可能分析了AI代理在执行任务时,如何防止数据泄露或信息滥用,强调了AI伦理和数据安全的挑战。

所谓关于 2.1.150+ 之后的CC版本使用非Claude名模型无法自动压缩的问题

从CC接入gpt模型现在不自动压缩了继续讨论: 有人问我说 这么个问题 说不压缩了 还给了个issue 故意恶心你的 github.com/anthropics/claude-code Auto-compact stopped working for third-party API providers since v2.1.161 06:48AM - 05 Jun 26 UTC ### Preflight Checklist - [x] I have searched [existing issues](https://github.…com/anthropics/claude-code/is

今天生日,老登又老一岁了

一天在忙, 又老一岁了,时间过得真快 老登了, 希望家人身体健康, 佬友们天天开心 41 个帖子 - 41 位参与者 阅读完整话题

感谢始皇解禁之恩

很早之前因为看到一个抽奖手贱,然后评论了一下被举报了,接着惨遭禁言,一直不知道怎么解除,然后就只能看帖子却不能回复,不能参与到各位佬的讨论当中难受极了,今天突然想到可以找管理员问问,然后写了百字小作文,诉说了我不能交流的难受之情,没几分钟就解禁了,感谢管理员大大。还有告诫自己以后没事少碰抽奖这个东西 58 个帖子 - 50 位参与者 阅读完整话题

送给兄弟们三道AI笔试的开放题

这两天看了太多同学们的简历,50份有没有…看得出大家还是很有要性的,我当初选择Linuxdo就没选错。但是还是很多同学们的简历中就是有一些demo项目,也不知道怎么突破,怎么办 所以我拿出我压箱底的东西,给大家看看。校招的同学们如果没有Agent项目,尽量往这三点上靠,简历的质量能有一个较大的提升 逆向一个没有公开文档的 API 找一个没有公开 API 的网站,逆向分析它真实的工作方式:认证机制、请求结构、限流策略、分页方式、反爬机制等等。然后基于你解锁出来的能力,做一个真正的产品。 这里有两个难点:一是破解系统,二是判断解锁这些能力之后,应该做什么产品。抓一份 CSV 不算产品。你能拿到的数

「君の公益」重新限制为三级使用

修好了,睡觉 由于资源紧张,重新限制为三级用户使用 清了6784个邮箱用户 本月已免费提供 967,008,431,220 tokens 所谓有求而不得,人心欲壑,可填沧海 513 个帖子 - 456 位参与者 阅读完整话题

新人对公益站(绝大部分)应该有正确认识,,公益站真能帮你省成本吗???

我是一个刚入站不久的小伙伴。应该大部分兄弟都和我有一样的感觉,这里热度最高且最吸引人的就是各种各样的公益站了。最近虽然在期末考试,但主播不到考前两天没有学的欲望哈哈,于是测试了站里的不少公益站。基本感受可以从稳定性和模型能力两方面来看。 1:某地方的GPT 5.5 100分 出题人 (疑似看不惯Claude的做题风格给2扣了两分) 2:某地方的Claude opus 4.8 98分 (我给100,裁判扣分理由可以理解为解题过程不够详细,就像高中数学老师总是叫你把做题步骤写详细,但我就喜欢不写那些每个这种类型题都要写的简单且字多的步骤。。。也许这套题目根本没让Claude大人尽兴??) 3:网页

最新Typora激活脚本GUI版,双击可用,直观不用改文件

灵感来自: 关于 Typora 最新激活脚本-优化版【2026-05-23有效】 资源荟萃 Windows 用户看这里 参考这篇文章,昨天在 Windows 上对最新版 Typora(v1.13.6.0)进行了激活。 但是我遇到了几个问题: 1、首次(后台没有 Typora 进程)打开 Typora 或使用 Typora 打开 md 文件,会自动弹出开发者工具。 2、我把前台窗口关闭后,再次点击打开其他 md 文件,无法打开(无法弹窗),任务管理器查看有 Typora 后台进… 起因是我在两台电脑上都需要激活,然后我把脚本给我的两台电脑上的agent让它们操作,但是操作的时候会有各种各样的问题

智谱 GLM5.2 编程能力真实水平

根据 DeepSWE 数据,GLM5.2 比 opus4.8 low 强,弱于 opus4.8 medium 另外有几个冷知识 fable 5 low 比 opus4.8 max 更强,而且费用也要便宜很多 gpt 5.5 medium 比 5.4 xhigh 更强,费用更便宜 gpt 5.5 high 费用大概是 5.5 medium 的 1.85 倍 性价比最高的方案是 gpt 5.5 medium 比 opus4.8 high/medium 和 glm5.2 max 更强,更便宜 结论: 37 个帖子 - 31 位参与者 阅读完整话题

散光一定不要用深色模式

先说一下我的情况,两个眼500度近视以内,两眼有100度+的度数差。散光50度左右。 之前的眼镜多数是增加近视度数补偿散光了,导致每天下午3点之后,就会觉得眼压高,眼珠子胀疼流泪。 后来我发现,把系统颜色改为深色模式,眼压高的症状会缓解很多,然后就把系统、各种应用都改了深色模式,手机同时考虑到省电,也都改了深色模式。 我去年配了一个眼镜之后,镜片把散光加上了,就出现了一个新的问题,不看电脑的时候,看别的东西变得模糊了,感觉眼睛对焦很慢,而且模糊。我以为是散光更严重了,而且不知道是什么引起的。 然后就一直看不清,用了滴眼液吃了叶黄素,也没啥太大作用。 直到上周,我才知道,深色模式会让眼睛可能因瞳

多eSIM卡的佬有福了,终于可以远程切eSIM接码了

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 基于大佬的项目修改 github.com GitHub - chenxuuu/sms_forwarding: 超低成本硬件短信转发器,支持移动联通电信,ML307R+ESP32C3 超低成本硬件短信转发器,支持移动联通

Steam Machine launches today

https://store.steampowered.com/sale/steammachinehttps://www.lttlabs.com/articles/2026/06/22/the-newell-nucle...https://www.youtube.com/watch?v=66QzlDewigE

Show HN: Oak – Git alternative designed for agents

Oak is a version control system I've been working on designed for agents (https://oak.space). It improves the speed and context your agents need when working on serious projects. With virtual mounts, agents locally and in the cloud no longer need a full copy of a repo to get working.

今日主题

今日 AI 领域聚焦于智能体(Agent)技术与大模型应用的深度融合及落地。从字节跳动开源长周期 SuperAgent 框架,到 OpenMontage 等 AI Agent 驱动的视频制作系统涌现,再到围绕「循环工程」优化代理团队的实践方法,Agent 成为提升效率和自动化的关键。同时,大模型在企业级应用(如三星部署 OpenAI 工具)和硬件效率(如 AirLLM 实现 4GB GPU 运行 70B LLM)方面也取得显著进展。此外,Anthropic 与政府间的政策摩擦,则提醒我们技术飞速发展背后,伦理与监管的重要性不容忽视。

01

模型发布/更新

Model Releases 33 篇

PP-OCRv6 发布:多语言 OCR 模型参数扩展至 34.5M

官方Hugging Face Blog

百度飞桨的 PP-OCRv6 模型已在 Hugging Face 平台发布,将光学字符识别(OCR)能力拓展至 50 种语言,参数量从 1.5M 增至 34.5M。此更新旨在显著提升模型在多语言文本识别方面的准确性与覆盖范围,为全球开发者提供更强大的 OCR 解决方案。

OCR多语言PaddlePaddle

AirLLM 实现 70B 参数大模型在 4GB GPU 上高效推理

开源项目GitHub Trending

AirLLM 项目通过创新优化技术,成功使 70 亿参数的大型语言模型(LLM)能够在单张 4GB GPU 上进行高效推理。这一突破性进展极大地降低了运行高性能 LLM 的硬件门槛和成本,使得个人开发者及资源有限的团队也能部署大型模型,适用于边缘设备和本地推理等轻量级场景。

LLM推理优化硬件效率

GLM-5.2 在网页设计评估中超越 Fable 5 和 Opus

X·KOLX 推文 (AttentionVC)

GLM-5.2 模型在 Design Arena 的 HTML 网页设计单轮评估中荣获第一,其卓越的设计能力使其超越了前代 GLM-5.1,并击败了包括 Claude Fable 5、Opus 4.6 及 Opus 在内的多个竞品。此结果突显了 GLM-5.2 在 AI 驱动的网页设计任务上的领先表现。

GLM模型对比网页设计
02

产品发布/更新

Product 33 篇

OpenAI 推出「Daybreak」安全工具套件,强化企业网络安全

官方OpenAI News

OpenAI 发布名为「Daybreak」的新工具套件,旨在帮助全球组织提升安全防护能力。该套件包含 Codex Security 和 GPT-5.5-Cyber 等工具,能够协助企业大规模发现、验证并修复系统漏洞,从而全面强化网络安全防御。

OpenAI网络安全企业应用

Claude Code 新增「Artifacts」功能,支持实时工作分享

官方Claude (YouTube)

Claude Code 推出「Artifacts」功能,允许开发者实时分享其工作成果。此更新旨在促进团队成员间的即时协作与反馈,有效加速代码开发和迭代过程,提高整体开发效率和透明度。

Claude代码协作新功能

OpenMontage:AI Agent 驱动的视频制作系统开源

开源项目GitHub Trending

OpenMontage 是一个开源的 AI Agent 驱动的视频制作系统,通过整合 12 个处理管道、52 种工具和 500 多种 Agent 技能,实现视频内容的自动化生成。该项目旨在简化复杂的视频制作流程,帮助开发者和内容创作者利用 AI Agent 快速创建高质量视频,适用于大规模、快速视频内容生产场景。

AI Agent视频制作开源
03

行业动态

Industry 33 篇

三星电子在全球范围内部署 ChatGPT Enterprise 与 Codex

官方OpenAI News

三星电子宣布在全球范围内向其员工部署 ChatGPT Enterprise 和 Codex 人工智能工具。此举标志着 OpenAI 在企业级 AI 解决方案方面最大规模的推广之一,旨在通过集成先进的 AI 技术,显著提升三星员工的工作效率和创新能力。

OpenAI企业应用AI普及

字节跳动开源长周期 SuperAgent 框架 Deer-flow

开源项目GitHub Trending

字节跳动开源了长周期 SuperAgent 框架 Deer-flow,旨在赋予 AI Agent 独立进行研究、编码和创作的能力。该框架通过整合沙盒环境、记忆模块、多样化工具等组件,解决了传统 AI Agent 在处理复杂、长期任务时的规划与执行挑战,提升了其综合任务处理能力。

AI Agent字节跳动开源框架

Anthropic 与政府 AI 政策争端引发关注

综合资讯MIT Tech Review AI

AI 公司 Anthropic 与美国政府之间最新的争端引发了行业关注,麻省理工科技评论指出有三个关键点值得密切观察。此次争端始于 Anthropic 四月发布的一项声明,凸显了 AI 伦理、政策制定和政府监管在 AI 发展中的复杂性和重要性。

AnthropicAI政策政府监管
04

技巧与观点

Tips & Takes 33 篇

详解:如何构建可循环运行的 Claude 代码代理团队

X·KOLX 推文 (AttentionVC)

该文章分享了如何构建一个基于 Claude 的代码代理团队,使其能以「循环」方式持续迭代直至任务完成。博主提供了详细设置,包括代理配置和驱动循环的逻辑,旨在解决传统代理一次性输出的局限性,极大提升代码开发和项目管理的效率。

Claude代理工程循环工作流

完整指南:搭建 Claude 与 Obsidian 驱动的 AI 第二大脑

X·KOLX 推文 (AttentionVC)

这份完整指南详细阐述了如何利用 Claude 和 Obsidian 搭建一个「AI 第二大脑」系统。该系统旨在整合用户的分散笔记和想法,通过持续学习使其日常变得更智能,从而避免重复劳动,显著提升知识管理和个人生产力。

AI工具知识管理生产力

AI 代理上下文工程:提升多步骤任务稳定性的完整攻略

X·KOLX 推文 (AttentionVC)

这份攻略深入探讨了「AI 代理上下文工程」的核心实践,旨在解决 AI 代理在执行多步骤任务时常出现的遗忘指令、错误工具调用及输出质量下降等问题。文章分享了通过优化上下文管理来提升 AI 代理稳定性和性能的有效方法。

代理工程上下文管理提示词