每日 AI 简报

2026-06-13(内容获取于 06/13 12:08)

AI 编程代理技能集发布

GitHub Trending

项目提供了为 AI 编程代理设计的生产级工程技能库,旨在增强 AI 在软件开发任务中的能力。

推荐理由:该项目提供了可用于构建更强大 AI 编程代理的技能集,对开发者和 AI 研究者具有直接参考价值。

OpenAI 推出面向未来工作场景的 AI 技能课程

OpenAI News

OpenAI 推出了三门新的学院课程,旨在帮助用户掌握实际 AI 技能,创建可重复的工作流程,并将 AI 代理应用于日常工作中。

推荐理由:课程内容直接面向职场人士,提供了提升 AI 应用能力的实用指导。

Claude 代理式应用界面构建指南

Claude Blog

文章探讨了代理式应用界面的演变,并提供了使用 Claude Managed Agents 进行构建的实践指导。

推荐理由:为开发者提供了关于如何构建更先进 AI 交互界面的具体思路和方法。

Olmo-Eval:模型开发循环的评估工作台

Hugging Face Blog

Allen AI 推出的 Olmo-Eval 是一个用于模型开发循环的评估工作台,为模型开发者提供了一个统一的评估框架。

推荐理由:为 AI 模型开发者提供了一个实用的评估工具和框架,有助于改进模型开发流程。

DiffusionGemma 实现文本生成提速 4 倍

DeepMind Blog

Google DeepMind 发布 DiffusionGemma 模型,该模型在文本生成任务上实现了四倍的速度提升,标志着生成模型效率的新进展。

推荐理由:显著的技术突破,展示了在效率方面的重要进展,对生成模型研究有参考价值。

Anthropic 发布 Claude Fable 5 模型

Smol AI News

Anthropic 推出了 Claude Fable 5 模型用于通用访问,并为敏感查询提供 Claude Opus 4.8 的回退机制。

推荐理由:重大模型更新,标志着 Anthropic 在其模型能力上的又一进展,对关注大模型进展的用户有信息价值。

Music Assistant:开源音乐库管理器

GitHub Trending

Music Assistant 是一个免费的开源媒体库管理器,可连接流媒体服务和各类智能音箱,其服务器是核心部分。

推荐理由:对于音乐爱好者和技术开发者来说,这是一个实用的开源项目,可以更好地管理和播放音乐。

AI 异构代理间的密集潜在通信研究

HuggingFace Trending Papers

该论文提出了一种在不同 AI 代理间进行密集潜在通信的方法,旨在克服传统文本通信的损耗和成本问题。

推荐理由:深入探讨了多代理系统通信的前沿技术,对相关领域研究者具有较高参考价值。

Google DeepMind 关注数百万 AI 代理交互的潜在风险

MIT Tech Review AI

Google DeepMind 正在资助研究,以应对未来数百万 AI 代理在线交互可能带来的潜在危险。

推荐理由:引发对 AI 安全和未来 AI 发展方向的思考,具有重要的前瞻性。

开源 AI 必须胜利论调引发讨论

Hacker News

一篇关于“开源 AI 必须胜利”的文章在 Hacker News 上引起广泛关注和讨论,强调了开源模式在 AI 发展中的重要性。

推荐理由:提供了关于 AI 发展模式的重要观点,鼓励大家思考和参与到开源 AI 的建设中。

addyosmani/agent-skills

Shell · ★ 57,001 · 🍴 6,146 · 📈 2,656 stars today

Production-grade engineering skills for AI coding agents.

中文介绍 提供用于 AI 编码代理的生产级工程技能集,旨在提升 AI 代理在软件开发生命周期中的生产力和智能化水平,助力开发者构建更强大的 AI 助手。

music-assistant/server

Python · ★ 1,813 · 🍴 424 · 📈 20 stars today

Music Assistant is a free, opensource Media library manager that connects to your streaming services and a wide range of connected speakers. The server is the beating heart, the core of Music Assistant and must run on an always-on device like a Raspberry Pi, a NAS or an Intel NUC or alike.

中文介绍 Music Assistant 的核心服务器组件,用于管理个人媒体库,聚合来自不同流媒体服务的内容,并支持与多种智能音箱和播放设备连接,提供统一的音乐播放和管理体验。

mattermost/mattermost

TypeScript · ★ 37,661 · 🍴 8,716 · 📈 388 stars today

Mattermost is an open source platform for secure collaboration across the entire software development lifecycle..

中文介绍 一款开源的协作平台,为软件开发团队提供安全、私有的通信和协作环境,覆盖从代码开发到部署的整个生命周期,旨在替代 Slack 等商业工具。

apple/container

Swift · ★ 35,271 · 🍴 986 · 📈 3,504 stars today

A tool for creating and running Linux containers using lightweight virtual machines on a Mac. It is written in Swift, and optimized for Apple silicon.

中文介绍 一款使用 Swift 编写的 macOS 工具,通过轻量级虚拟机创建和运行 Linux 容器,特别针对 Apple Silicon 优化,方便开发者在 Mac 上进行容器化开发和测试。

iptv-org/iptv

TypeScript · ★ 118,092 · 🍴 6,306 · 📈 179 stars today

Collection of publicly available IPTV channels from all over the world

中文介绍 收集全球范围内公开可用的 IPTV 频道列表,方便用户查找和订阅各类直播电视频道,构建个人化的直播媒体中心。

obra/superpowers

Shell · ★ 226,138 · 🍴 20,098 · 📈 1,275 stars today

An agentic skills framework & software development methodology that works.

中文介绍 一个 Agentic Skills Framework & Software Development Methodology,旨在通过定义和组织 AI Agent 的能力,来改进软件开发流程,提升开发效率和项目管理水平。

refactoringhq/tolaria

TypeScript · ★ 15,852 · 🍴 1,082 · 📈 369 stars today

Desktop app to manage markdown knowledge bases

中文介绍 一款桌面应用程序,用于管理 Markdown 格式的知识库,帮助用户组织、搜索和维护个人笔记、文档或项目信息,提高知识管理的效率。

maziyarpanahi/openmed

Python · ★ 3,229 · 🍴 308 · 📈 515 stars today

open-source healthcare ai

中文介绍 一个开源的医疗健康 AI 项目,致力于利用人工智能技术解决医疗领域的挑战,可能包括疾病诊断、药物研发、个性化治疗方案等,旨在推动医疗技术的进步。

LMCache/LMCache

Python · ★ 8,660 · 🍴 1,289 · 📈 28 stars today

LMCache: Supercharge Your LLM with the Fastest KV Cache Layer

中文介绍 LMCache 是一个高性能的 KV Cache 层,旨在加速 LLM(大语言模型)的推理速度。通过优化缓存机制,显著提升 LLM 在处理大量请求时的效率。

phuryn/pm-skills

★ 17,085 · 🍴 1,751 · 📈 827 stars today

PM Skills Marketplace: 100+ agentic skills, commands, and plugins — from discovery to strategy, execution, launch, and growth.

中文介绍 一个项目管理(PM)技能市场,提供超过100种 Agentic 技能、命令和插件,涵盖从产品发现、策略制定到执行上线和增长等全流程,赋能 AI Agent 完成复杂的项目管理任务。

masterking32/MasterDnsVPN

Go · ★ 6,046 · 🍴 543 · 📈 400 stars today

Advanced DNS tunneling VPN for censorship bypass, optimized beyond DNSTT and SlipStream with low-overhead ARQ, resolver load balancing, high packet-loss stability and speed.

中文介绍 一个先进的 DNS 隧道 VPN 工具,用于绕过网络审查。它通过低开销 ARQ、解析器负载均衡和高丢包稳定性优化,提供比现有方案(如 DNSTT, SlipStream)更快的速度和更稳定的连接。

msitarzewski/agency-agents

Shell · ★ 112,500 · 🍴 18,342 · 📈 1,026 stars today

A complete AI agency at your fingertips - From frontend wizards to Reddit community ninjas, from whimsy injectors to reality checkers. Each agent is a specialized expert with personality, processes, and proven deliverables.

中文介绍 一套完整的 AI Agent 代理系统,提供从前端到社区运营的各种专业 AI Agent,每个 Agent 都具备独特的个性和流程,可用于构建自动化服务或内容生成。

microsoft/PowerToys

C · ★ 134,379 · 🍴 8,063 · 📈 103 stars today

Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows

中文介绍 微软出品的一系列 Windows 实用工具集,旨在增强用户的生产力和自定义能力,提供包括窗口管理、文件预览、键盘映射等多种便捷功能。

See What I See, Know What I Think: Dense Latent Communication Across Heterogeneous Agents

👍 2

Multi-agent systems communicate mostly through text, paying a lossy and expensive decode and re-encode cost. KV-cache communication is a promising alternative, yet most prior work is homogeneous, using duplicate copies of the same model, and avoids the central challenge of cross-model latent alignme

中文介绍 研究提出了一种名为“KV-cache通信”的跨异构智能体通信新方法,旨在解决当前多智能体系统主要依赖文本通信带来的高昂成本和信息损失问题。与现有同质化模型不同,该方法能够处理不同模型间的通信,解决了跨模型通信的挑战。

Getting Better at Working With You: Compiling User Corrections into Runtime Enforcement for Coding Agents

👍 2

Interactive LLM agents are becoming part of daily work, but they do not reliably become easier to work with over time: a correction remembered in one session may still be violated in the next. We study this gap between preference access and preference compliance. In tasks derived from anonymized rea

中文介绍 本文研究如何让交互式LLM智能体在会话中学习并遵守用户偏好。当前智能体在一次会话中的修正可能在下次失效。研究旨在弥合用户偏好访问和偏好遵循之间的差距,以提升智能体与用户协作的长期效率。

ArogyaSutra: A Multi-Agent Framework for Multimodal Medical Reasoning in Indic Languages

👍 2

Multimodal Large Language Models (MLLMs) have shown promising reasoning capabilities in general domains, yet their performance remains limited in specialized settings such as healthcare, especially in multilingual and low-resource scenarios. This gap is critical in regions like rural India, where pa

中文介绍 ArogyaSutra是一个多智能体框架,旨在提升多模态大语言模型(MLLMs)在印度语言医疗领域的推理能力。当前MLLMs在专科领域,尤其是在多语言低资源环境下表现有限,该框架旨在克服这些挑战,特别关注医疗场景。

HYDRA-X: Native Unified Multimodal Models with Holistic Visual Tokenizers

👍 24

Holistic visual tokenizers are fundamental to unified multimodal models (UMMs) as they map diverse visual inputs into a unified representation space. In this paper, we present HYDRA-X, the first UMM that unifies image and video tokenization within a single Vision Transformer (ViT). Our design is dri

中文介绍 HYDRA-X是首个统一图像和视频的Vision Transformer (ViT)模型,通过一种整体视觉分词器实现。该框架为统一多模态模型(UMMs)提供了一个核心组件,能够将多样化的视觉输入映射到统一的表示空间。

MiniMax Sparse Attention

👍 84

Ultra-long-context capability is becoming indispensable for frontier LLMs: agentic workflows, repository-scale code reasoning, and persistent memory all require the model to jointly attend over hundreds of thousands to millions of tokens, yet the quadratic cost of softmax attention makes this untena

中文介绍 MiniMax稀疏注意力机制旨在解决现有LLM在处理超长上下文时面临的二次方计算成本问题。该方法支持智能体工作流、大规模代码推理和持久记忆等应用,能够同时关注百万级tokens,有效降低计算复杂度。

EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge

👍 4

Search Agents -- large language models augmented with search tools -- have intensified the need for future-proof evaluation benchmarks. Existing benchmarks such as BrowseComp rely on static knowledge, making them vulnerable to test-set contamination and parametric memorization. Consequently, models

中文介绍 EvoBrowseComp是一个新的基准测试集,用于评估搜索智能体在不断变化的知识环境中的表现。该测试集解决了现有静态知识基准易受污染和记忆影响的问题,旨在提供一个更具前瞻性的评估方案。

EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments

👍 105

Large language model (LLM) agents have achieved strong performance on a wide range of benchmarks, yet most evaluations assume static environments. In contrast, real-world deployment is inherently dynamic, requiring agents to continually align their knowledge, skills, and behavior with changing envir

中文介绍 EvoArena是一个用于跟踪LLM智能体记忆演化的平台,旨在评估其在动态环境下的鲁棒性。与大多数假设静态环境的评估不同,该平台专注于在真实世界的动态变化中,使智能体能持续对其知识、技能和行为进行调整。

Demystifying Hidden-State Recurrence: Switchable Latent Reasoning with On-Policy Reinforcement Learning

👍 16

Latent chain-of-thought compresses reasoning by replacing visible reasoning traces with continuous hidden-state recurrence, but existing formulations are difficult to optimize with standard on-policy reinforcement learning (RL) and hard to interpret causally. Our key insight is that a single pair of

中文介绍 本研究提出了一种基于开关潜在推理和单策略强化学习的方法,用于优化和解释潜在思维链。该方法通过压缩推理过程,用连续隐藏状态代替显式推理痕迹,并解决了现有模型在优化和因果解释方面的困难。

WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation

👍 2

The potential impacts of world models (WMs, i.e., learned simulators) on robotics are far-reaching -- policy evaluation, policy improvement, and test-time planning -- all with limited real-world interaction. To unlock these downstream capabilities, a WM needs to jointly satisfy three desiderata: (i)

中文介绍 WEAVER是一个高效的世界模型(WM),用于机器人操纵任务。它能够同时满足策略评估、改进和测试时规划等下游能力的需求,通过学习模拟器来限制真实世界交互,显著提升机器人在复杂任务中的表现。

EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery

👍 19

LLM-based agents have shown increasing potential in automating scientific discovery. Given an optimizable metric and an execution environment, they can propose, validate, and iterate scientific solutions, and have produced results that outperform human-designed approaches. As model capabilities cont

中文介绍 EurekAgent提出了一种基于环境工程的方法,可实现自主科学发现。通过提供可优化指标和执行环境,LLM智能体能够提出、验证和迭代科学解决方案,其结果已超越人类设计的方法,显示了在自动化科学研究中的巨大潜力。

InterleaveThinker: Reinforcing Agentic Interleaved Generation

👍 73

Recent image generators have demonstrated impressive photorealism and instruction-following capabilities in single-image generation and editing. However, constrained by their architectures, they cannot achieve interleaved generation (text-image sequence), which has crucial applications in visual nar

中文介绍 InterleaveThinker强化了智能体的交错式生成能力,解决了现有图像生成器在处理文本-图像序列(交错生成)方面的局限。该方法对于需要连续视觉叙事和交互的应用至关重要,提升了生成模型的表现。

Rethinking Psychometric Evaluation of LLMs: When and Why Self-Reports Predict Behavior

👍 4

Anticipating LLM behavioral tendencies from low-cost psychometric probes is critical for safe deployment, but only if self-reports (SR) reliably predict behavior. Recent work documented substantial SR-behavior dissociation in LLMs, but relied on broad personality traits (Big 5) that predict specific

中文介绍 本研究探讨了LLM心理学评估中的自我报告(SR)预测行为的有效性。研究发现,相较于过去使用广泛人格特质(如大五人格)的评估,使用更具体、低成本的心理测量方法能更可靠地预测LLM的行为倾向,这对于安全部署至关重要。

From 2D Grids to 1D Tokens: Reforming Shared Representations for Multimodal Image Fusion

👍 12

Multimodal image fusion aims to integrate complementary information from different modalities into a fused image that preserves rich local details while maintaining globally consistent appearance. Existing approaches build shared representations on 2D feature grids, which excel at modeling local str

VIA-SD: Verification via Intra-Model Routing for Speculative Decoding

👍 14

Speculative decoding (SD) addresses the high inference costs of LLMs by having lightweight drafters generate candidates for large verifiers to validate in parallel. Existing draft-verify methods use binary decisions: accept or fully recompute. Yet we find that many rejected tokens can be verified co

TreeSeeker: Tree-Structured Trial, Error, and Return in Deep Search

👍 10

Deep search requires agents to answer complex questions through multi-step web search, browsing, evidence comparison, and synthesis. A central challenge is deciding how to search when several directions look plausible but only some will later lead to reliable evidence. If an agent greedily follows t

Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents

👍 3

Compact language models (LMs) reduce cost, latency, and deployment risk for tool agents. Yet MCP-style tool use requires more than isolated function calling: an agent must discover tools from live catalogs, satisfy schemas, preserve dependencies across intermediate outputs, and ground final response

WebChallenger: A Reliable and Efficient Generalist Web Agent

👍 1

Autonomous web navigation remains challenging for LLM agents, and the strongest generalist systems rely on proprietary reasoning models whose inference cost is prohibitive for the repetitive tasks where such agents would be most useful. We argue this gap stems not from insufficient model capability

Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models

👍 8

Adversarial robustness evaluations of large language models (LLMs) typically report attack success rate (ASR) under fixed query budgets, implicitly treating all attacks as equally costly. In practice, the computational expense of different attack strategies can vary by orders of magnitude. Consequen

Flash-GMM: A Memory-Efficient Kernel for Scalable Soft Clustering

👍 1

We present Flash-GMM, a fused Triton kernel for efficient computation of Gaussian Mixture Models (GMMs) over large-scale data in a single GPU pass. By eliminating the need to materialize the full responsibility matrix in GPU memory, Flash-GMM achieves a 20times speedup over existing implementations

IDEAL: In-DEpth ALignment Makes A Discrete Representation AutoEncoder

👍 2

Built on pretrained vision foundation models (VFMs), representation autoencoders (RAEs) have recently emerged as a promising approach for constructing semantically rich latent spaces for image generation. However, their reconstruction quality often remains suboptimal, largely because deep VFM repres

Leveraging Morphology for Historical Script Metrological Analysis

👍 1

Advances in handwritten text recognition have enabled large-scale transcription of historical documents, but still provide limited access to interpretable visual measurements for paleography, the study of historical scripts. In this paper, our main insight is that morphological script analysis, in p

Visual Para-Thinker++: A Single-Policy Multi-Agent Framework for Visual Reasoning

👍 7

Visual reasoning requires integrating evidence distributed across regions, attributes, and relations, making single-chain reasoning prone to early perceptual commitment and hallucination. We propose Visual Para-Thinker++, a single-policy multi-agent framework in which one shared MLLM policy is insta

WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces

👍 60

Computer-use agents (CUAs) increasingly operate in runtimes that combine visual desktop control, command-line execution, code editing, browsers, and external tools. Existing benchmarks, however, often evaluate these interfaces as separable capabilities, leaving long-horizon cross-interface orchestra

MaskAlign: Token-Subset Representation Alignment for Efficient Diffusion Training

👍 4

Representation alignment with pretrained vision models has recently shown strong potential for accelerating diffusion transformer training. By aligning intermediate diffusion features with clean-image representations from self-supervised vision encoders, existing methods improve convergence and gene

Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

👍 71

Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet their performance degrades significantly under real-world visual corruptions. While existing robustness enhancement approaches exist, they are limited: black-box feature alignment lacks interpr

MuJoCo-Drones-Gym: A GPU-Accelerated Multi-Drone Simulator for Control and Reinforcement Learning

👍 3

Robotic simulators are a cornerstone of modern research in aerial robotics, serving both as a vehicle for the development of new control algorithms and as the data source for training reinforcement learning (RL) policies. Yet, existing quadcopter learning environments often face a trade-off between

The Cold-Start Safety Gap in LLM Agents

👍 2

Are tool-calling LLM agents equally safe throughout a conversation? We discover they are not: agents are most vulnerable at the very start of a session and become substantially safer after a few regular agentic tasks -- a phenomenon we term the cold-start safety gap. To study this systematically, we

ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs

👍 2

Large language models deployed as agents over large tool catalogs face a critical tool-retrieval bottleneck. As embedding-based retrieval approaches rely on compact encoders that may under-capture specialized tool semantics, parametric tool retrieval addresses this by encoding each tool as a virtual

Medicyn

Your complete medical history privately on your device

中文介绍 Medicyn 是一款能在用户设备上私密管理完整医疗病史的工具,旨在提供更安全、更便捷的个人健康信息管理方案。

Keep

Full-screen 3D clock scenes for your iPhone or Mac

中文介绍 Keep 是一款为 iPhone 或 Mac 设计的应用程序,提供全屏 3D 时钟场景,为用户界面增添视觉上的动态和美感。

Qursor

Point at any UI to send exact context to your AI

中文介绍 Qursor 允许用户将鼠标指针指向任何用户界面元素,以便将精确的上下文信息发送给 AI 进行处理,简化人机交互。

Slack Data Agent

Ask about your data without leaving Slack

中文介绍 Slack Data Agent (Basedash) 允许用户直接在 Slack 中查询公司数据,无需离开应用程序,提高了数据访问的便捷性。

Bob's CLI

A local-first AI coding CLI that adapts to you

中文介绍 Bob's CLI 是一款本地优先的 AI 编码命令行工具,能够根据用户习惯进行自适应调整,提升开发效率。

CueBuddy

Record talking videos without manual scrolling

中文介绍 CueBuddy 是一款帮助用户录制演讲视频的工具,无需手动滚动屏幕,简化了视频录制流程。

LocIn AI

Localize your app with tone-aware AI, automated workflows

中文介绍 LocIn AI 利用具有语气感知能力的 AI 技术,通过自动化工作流为应用程序提供本地化服务,并能调整语调。

ShellMate

Manage SSH servers, credentials, and teams in one place

中文介绍 ShellMate 是一款集中管理 SSH 服务器、凭证和团队的工具,旨在简化服务器管理和团队协作。

Clutch Alarm

Sleep through the night. Wake up for the goals.

中文介绍 Clutch Alarm 是一款旨在帮助用户整夜安睡,并在进球时唤醒用户的闹钟应用。

Tide

Layered voice notes that paint themselves

中文介绍 Tide 是一款提供分层录音功能的语音笔记应用,能够创造出富有层次感的听觉体验。

Loops: What Every AI Engineer Needs to Know in 2026

@sairahul1 · 113.0K 粉丝 · 852.6K 阅 · 600 赞 · 79 转

Peter Steinberger, creator of OpenClaw, who now works with OpenAI. Yesterday he posted this: "You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents."

中文介绍 OpenAI 的 Peter Steinberger 提出,未来 AI 工程师不应再手动提示编码代理,而应设计“循环”(loops)来驱动这些代理。这种思路从根本上改变了与 AI 协作的方式,强调了自动化和系统化。

Fable 5 (Mythos) Prompting Masterclass by Anthropic

@aiedge_ · 69.5K 粉丝 · 700.1K 阅 · 506 赞 · 68 转

TLDR: Anthropic just published the official playbook for prompting the most powerful AI model on earth - I translated it. Most people won't read this guide (it's buried in the API docs), which is

中文介绍 Anthropic 发布了其最强模型 Fable 5 (Mythos) 的官方提示词使用指南。该指南隐藏在 API 文档中,作者将其翻译并分享,强调了多数用户可能忽视了这份提升模型性能的关键文档。

Harness Engineering: What Every AI Engineer Needs to Know in 2026

@sairahul1 · 113.0K 粉丝 · 546.4K 阅 · 536 赞 · 94 转

In February 2026, a small OpenAI team shipped 1 million lines of production code. They didn't write a single line by hand. The AI agents wrote it. The humans designed the system that made the agents

中文介绍 2026 年 2 月,OpenAI 团队实现了百万行生产代码的生成,而人工仅负责设计驱动 AI 代理的系统。这展示了 AI 在软件开发中的巨大潜力,人类的角色转向系统设计者。

Everything Is Recorded Now

@dhaber · 50.0K 粉丝 · 497.3K 阅 · 500 赞 · 57 转

One of the biggest ways that AI is transforming work (and also one of the most taboo subjects inside companies at the moment) is that most work discussions are being recorded now by default. This

中文介绍 AI 正在重塑工作方式,其中一个备受关注但又敏感的话题是:大量工作讨论正被默认录制。这种变化可能对公司内部沟通和协作带来深远影响。

First Steps Toward Automated AI Research

@Recursive_SI · 6.3K 粉丝 · 465.1K 阅 · 516 赞 · 71 转

Early results from Recursive’s automated AI research system on model training and GPU kernel benchmarks Today we are releasing early results from Recursive’s automated AI research system. Across three

中文介绍 Recursive AI 发布了其自动化 AI 研究系统的早期成果,聚焦模型训练和 GPU 内核基准测试。该系统旨在加速 AI 研究进程,实现更高效的模型开发和优化。

Build self-improving agent system with Fable 5 in 14 steps : loops, dynamic workflows, routines

@0xCodez · 6.4K 粉丝 · 371.8K 阅 · 515 赞 · 56 转

Most people are using Claude Fable 5 like Sonnet 4.6 with a bigger context window. They prompt it. It works for 5 minutes. They close the tab. 9 out of 10 users have never run an agent system that

中文介绍 该帖分享了如何用 14 步构建基于 Claude Fable 5 的自改进代理系统,涉及循环、动态工作流和例程。作者指出,多数用户仅将其作为大型上下文窗口模型使用,忽视了其作为代理系统的潜力。

The Untrainable

@saranormous · 143.5K 粉丝 · 194.8K 阅 · 614 赞 · 40 转

The mid-2026 investor's version of AI psychosis is a despair that nothing is investable, that we should put all our money into Anthropic and Nvidia and go home. I have never felt it. I have been sure

中文介绍 作者探讨了 2026 年中投资者可能面临的 AI 投资困境,即对市场上的可投资项目感到绝望,认为应全部押注 Anthropic 和 Nvidia。但他本人对此并不认同,认为仍有投资机会。

How to Build a Self-Improving Loop in Claude Code (Exact Setup Inside)

@0x_rody · 1.7K 粉丝 · 193.2K 阅 · 513 赞 · 72 转

Claude writes your code, hands it over, and 3 tests are failing. You paste the errors back, it fixes one thing, breaks another, and you spend the evening as a messenger between Claude and your

中文介绍 作者分享了在 Claude Code 中构建自改进循环的精确设置方法。他描述了手动调试代码代理的低效,以及如何通过循环设计,让 Claude 自身进行测试和修复,减少人工干预。

Building a Good Vertical Agent

@BrainsAndTennis · 10.5K 粉丝 · 187.4K 阅 · 539 赞 · 45 转

How do you build an agent that actually performs in a domain — one customers pick because it's better? The basics have been standardized over the past year: an agent is a while-loop around a model

中文介绍 文章阐述了构建高性能垂直领域 AI 代理(Agent)的方法。其核心是将模型置于一个 `while` 循环中,通过不断迭代优化,确保代理在特定领域内表现出色,赢得客户青睐。

My Week with Fable

@MatthewBerman · 121.3K 粉丝 · 108.0K 阅 · 661 赞 · 26 转

tl;dr I've been testing Fable (Mythos) for the past week and it feels unlike any other model I've used. It feels, and is priced, like a next-generation model. It also has some real quirks. The Good

中文介绍 作者体验一周 Claude Fable (Mythos) 模型后,认为其是下一代模型,在价格和体验上均有突出表现,但也存在一些“怪癖”。他详细分享了使用过程中的优缺点。

Kimi to Predict All 104 World Cup Matches: Germany May Be Underestimated

@Kimi_Moonshot · 172.7K 粉丝 · 106.6K 阅 · 500 赞 · 61 转

Our predictions will probably be wrong. But the World Cup offers a rare, public, verifiable, and constantly evolving real-world setting. Through this initiative, we hope to place analysis,

中文介绍 Kimi 宣布将预测本届世界杯全部 104 场比赛,并指出德国队可能被低估。此举旨在利用世界杯这一公开、实时且不断变化的平台,进行 AI 分析和预测的实践。

Loop engineering: the 14-step roadmap from prompter to loop designer.

@0xCodez · 6.4K 粉丝 · 97.8K 阅 · 510 赞 · 80 转

Most developers still prompt their coding agents by hand. They type, they wait, they read the diff, they type again. 9out of 10 builders have never written a single loop that prompts the agent for

中文介绍 该帖提供了一个“循环工程”的 14 步路线图,帮助提示工程师向循环设计师转型。作者强调,多数开发者仍手动提示编码代理,而设计能驱动代理持续工作的循环才是关键。

Designing loops with Fable 5

@RLanceMartin · 30.4K 粉丝 · 84.7K 阅 · 660 赞 · 50 转

Mythos-class models like Claude Fable 5 have changed the way many of us work at Anthropic. I want to share two tips for getting the most out of this class of models. Self-correction loops There’s been

中文介绍 作者分享了两个利用 Claude Fable 5 模型提升工作效率的技巧,特别是“自纠错循环”(Self-correction loops)。这种方法能够让模型在出现错误时自我修正,而非依赖人工干预。

Anthropic's War on Opensource AI

@TheAhmadOsman · 61.0K 粉丝 · 74.9K 阅 · 507 赞 · 98 转

Anthropic wants the public to see one thing: the careful lab, the safety lab, the grown-up in the room trying to keep frontier AI from running off a cliff. However, the pattern around Anthropic does

中文介绍 该帖批评 Anthropic 在推动开源 AI 方面存在矛盾。一方面,Anthropic 试图塑造负责任 AI 的形象;另一方面,其行为模式被认为可能阻碍了开源 AI 的发展。

Coinbase for Agents: Your AI Agent Can Now Trade and Pay with Coinbase

@coinbase · 7.0M 粉丝 · 72.8K 阅 · 500 赞 · 62 转

TL;DR: Coinbase for Agents connects your AI agent directly to your Coinbase account so it can trade, pay, and execute workflows on your behalf, all within limits you control. Available today as an MCP

中文介绍 Coinbase 推出“Coinbase for Agents”服务,允许 AI 代理直接连接到用户 Coinbase 账户,执行交易、支付和工作流,并受用户设定的限额约束。该功能即日可用。

Principled Thinking and AI Need to Go Together

@RayDalio · 2.2M 粉丝 · 72.6K 阅 · 515 赞 · 93 转

What is the best approach to being effectively intelligent now that human intelligence and artificial intelligence are merging? Because I have been building computerized investment decision-making

中文介绍 Ray Dalio 探讨了人类智能与人工智能融合的时代,应如何保持“原则性思考”(Principled Thinking)。他结合自己构建计算机化投资决策系统的经验,阐述了在这种新环境下高效智能的关键。

Build self-improving agent system with Fable 5 in 14 steps : loops, dynamic workflows, routines

@0xCodez · 6.4K 粉丝 · 371.8K 阅 · 7d 曝光 371.8K

Build self-improving agent system with Fable 5 in 14 steps : loops, dynamic workflows, routines

中文介绍 该帖分享了如何用 14 步构建基于 Claude Fable 5 的自改进代理系统,涉及循环、动态工作流和例程。作者指出,多数用户仅将其作为大型上下文窗口模型使用,忽视了其作为代理系统的潜力。

Fable 5 (Mythos) Prompting Masterclass by Anthropic

@aiedge_ · 69.5K 粉丝 · 700.1K 阅 · 7d 曝光 700.1K

Fable 5 (Mythos) Prompting Masterclass by Anthropic

中文介绍 Anthropic 发布了其最强模型 Fable 5 (Mythos) 的官方提示词使用指南。该指南隐藏在 API 文档中,作者将其翻译并分享,强调了多数用户可能忽视了这份提升模型性能的关键文档。

First Steps Toward Automated AI Research

@Recursive_SI · 6.3K 粉丝 · 465.1K 阅 · 7d 曝光 465.1K

First Steps Toward Automated AI Research

中文介绍 Recursive AI 发布了其自动化 AI 研究系统的早期成果,聚焦模型训练和 GPU 内核基准测试。该系统旨在加速 AI 研究进程,实现更高效的模型开发和优化。

Everything Is Recorded Now

@dhaber · 50.0K 粉丝 · 497.3K 阅 · 7d 曝光 497.3K

Everything Is Recorded Now

中文介绍 AI 正在重塑工作方式,其中一个备受关注但又敏感的话题是:大量工作讨论正被默认录制。这种变化可能对公司内部沟通和协作带来深远影响。

Claude Fable Will Change EVERYTHING (Here's Why)

中文介绍 该视频标题暗示Anthropic的Claude模型即将迎来重大更新,可能“改变一切”。尽管excerpt为空,但标题风格推测将重点介绍Claude Fable模型的潜在突破性影响和新功能,引发对AI未来发展的期待。

Claude FM 🎵 music for thinking and building

中文介绍 Claude发布了一个名为“Claude FM”的音乐流媒体频道,旨在为用户提供“思考和构建”时的背景音乐。该频道可能包含多样的音乐类型,以适应不同用户的创造和工作场景需求。

Claude FM 🎵 music for thinking and building

中文介绍 Claude发布了一个名为“Claude FM”的音乐流媒体频道,旨在为用户提供“思考和构建”时的背景音乐。该频道可能包含多样的音乐类型,以适应不同用户的创造和工作场景需求。

Code with Claude Tokyo 2026: Opening Keynote

中文介绍 此视频是 Claude 在东京 2026 的开幕主题演讲。内容应聚焦于 Claude 相关的最新动态、技术发展或未来展望。

The Problem Solvers | Michael Truell at Cursor

中文介绍 此视频聚焦于 Michael Truell 在 Cursor 的工作,探讨其如何解决实际问题。视频名称“The Problem Solvers”暗示内容将围绕实际应用和解决方案展开。

Claude Fable 5 beats Pokémon FireRed only using vision

中文介绍 Claude Fable 5 版本仅通过视觉能力成功击败了经典游戏《宝可梦:火红》。这展示了 AI 在游戏领域,尤其是视觉理解和策略执行方面的进步。

Claude Fable 5 plays Factorio

中文介绍 此视频展示了 Claude Fable 5 在玩《异星工厂》(Factorio) 游戏的过程。这可能意味着 Claude 在策略规划、资源管理或自动化控制方面的能力。

Claude FM 🎵 music for thinking and building

中文介绍 Claude发布了一个名为“Claude FM”的音乐流媒体频道,旨在为用户提供“思考和构建”时的背景音乐。该频道可能包含多样的音乐类型,以适应不同用户的创造和工作场景需求。

Claude FM 🎵 music for thinking and building

中文介绍 Claude发布了一个名为“Claude FM”的音乐流媒体频道,旨在为用户提供“思考和构建”时的背景音乐。该频道可能包含多样的音乐类型,以适应不同用户的创造和工作场景需求。

Code with Claude Tokyo 2026: Opening Keynote

中文介绍 此视频是 Claude 在东京 2026 的开幕主题演讲。内容应聚焦于 Claude 相关的最新动态、技术发展或未来展望。

The Problem Solvers | Michael Truell at Cursor

中文介绍 此视频聚焦于 Michael Truell 在 Cursor 的工作,探讨其如何解决实际问题。视频名称“The Problem Solvers”暗示内容将围绕实际应用和解决方案展开。

Claude Fable 5 beats Pokémon FireRed only using vision

中文介绍 Claude Fable 5 版本仅通过视觉能力成功击败了经典游戏《宝可梦:火红》。这展示了 AI 在游戏领域,尤其是视觉理解和策略执行方面的进步。

olmo-eval: An evaluation workbench for the model development loop

中文介绍 Allen Institute for AI (AI2) 发布了 olmo-eval,一个用于模型开发循环的评估工作台。该工具旨在简化评估流程,并支持模型开发者进行更高效的迭代和改进。

New OpenAI Academy courses for the next era of work

OpenAI introduces three Academy courses that help people build practical AI skills, create repeatable workflows, and apply agents in everyday work.

中文介绍 OpenAI 推出了三门新的 Academy 课程,旨在帮助用户掌握实用的 AI 技能,构建可重复的工作流程,并在日常工作中应用 AI Agent,以适应新的工作时代。

[AINews] Loopcraft: The Art of Stacking Loops

a quiet day lets us highlight a great concept from Peter Steinberger, Boris Cherny, and Andrej Karpathy

中文介绍 文章介绍了 Peter Steinberger、Boris Cherny 和 Andrej Karpathy 提出的“Loopcraft”概念,探讨了“堆叠循环”的艺术,这是一种在 AI 模型开发中的高级技巧。

How Preply combines AI and human tutors to personalize learning

Preply uses OpenAI to launch AI-generated lesson summaries, providing personalised feedback and language learning exercises.

中文介绍 教育平台 Preply 利用 OpenAI 技术,推出了 AI 生成的课程摘要,并提供个性化的反馈和语言学习练习,以实现个性化学习体验。

Google DeepMind is worried about what happens when millions of agents start to interact

Google DeepMind is funding research into the potential dangers of situations where millions of different AI agents interact with each other online. According to Rohin Shah, who directs the company’s AGI safety and alignment research, the mass-market arrival of agents that can carry out tasks without

中文介绍 Google DeepMind 正在资助研究,关注数百万个 AI Agent 在线互动时可能带来的潜在危险。公司 AGI 安全与对齐研究主管 Rohin Shah 指出,大规模 Agent 的出现令人担忧。

Supporting Europe’s work in ensuring a trustworthy AI ecosystem

OpenAI supports the EU Code of Practice on AI content transparency, advancing provenance standards and tools to help people understand AI-generated content.

中文介绍 OpenAI 支持欧盟《人工智能内容透明度行为准则》,旨在推进 AI 生成内容的溯源标准和工具,帮助用户理解AI生成内容。

BBVA puts AI at the core of banking with OpenAI

Learn how BBVA scaled ChatGPT Enterprise to 100,000 employees and partnered with OpenAI to accelerate AI-powered banking transformation worldwide.

中文介绍 BBVA 将 AI 置于银行业务核心,已将 ChatGPT Enterprise 扩展至 100,000 名员工,并与 OpenAI 合作加速全球 AI 驱动的银行业务转型。

OpenAI to acquire Ona

OpenAI plans to acquire Ona to expand Codex with secure, persistent cloud environments, enabling long-running AI agents across enterprise workflows.

中文介绍 OpenAI 计划收购 Ona,以扩展其 Codex 功能,提供安全的持久云环境,支持企业工作流中的长时运行 AI Agent。

How an astrophysicist uses Codex to help simulate black holes

Discover how astrophysicist Chi-kwan Chan uses Codex to build black hole simulations, helping scientists study extreme physics and test Einstein’s theory of general relativity.

中文介绍 天体物理学家 Chi-kwan Chan 利用 OpenAI 的 Codex 构建黑洞模拟,帮助科学家研究极端物理学并检验爱因斯坦的广义相对论。

Profiling in PyTorch (Part 2): From nn.Linear to a Fused MLP

中文介绍 本文是 PyTorch 性能优化的第二部分,详细介绍了如何从 nn.Linear 层优化到一个融合的多层感知机 (MLP),以提升模型运行效率。

Access OpenAI models and Codex through your Oracle cloud commitment

Access OpenAI models and Codex through Oracle Cloud, using existing commitments to build and deploy AI with enterprise security and governance.

中文介绍 用户可以通过 Oracle Cloud 访问 OpenAI 模型和 Codex,利用现有承诺,在企业级安全和治理下构建和部署 AI。

DiffusionGemma: 4x faster text generation

中文介绍 DeepMind 发布了 DiffusionGemma 模型,能够实现 4 倍的文本生成速度提升,显著提高了效率。

梦里笙箫奏旧乐

昨晚拍的,古筝真好听,她弹的是琵琶行,很棒 我当时在一个茶室里面,弄公益站,隔着屏风拍的,这不是栅栏,是木质屏风 32 个帖子 - 25 位参与者 阅读完整话题

有哪位佬周末还在上班?

哪位佬周末还在上班,让我心里难过一下,毕竟牛马的生活别人不懂 94 个帖子 - 91 位参与者 阅读完整话题

「君の公益」 上架 claude-fable-5(暂时薅不到试用了,先用别的吧)

「君の公益」 上架 claude-fable-5 地址 muyuan.do 不要再给我发私信或者艾特我,把我惹急了我就开三级登录了 公益站的本质是让没钱的佬友也能体验一下大模型,不得滥用! 分发我一直有安排佬友去查,不要拿我的公益站去搞黄色,搞政治敏感,不要挑战我的底线 224 个帖子 - 202 位参与者 阅读完整话题

记一次对 Kimi K2.7 Code、Composer 2.5、Grok 4.3、Grok Build 0.1 的真实项目需求的横向评测(3 分钟直取 T1!)

由于测试的模型越积越多了,表格会删除一些同厂商的旧模型,你可以在之前的评测帖子里找到它们的成绩。 项目 这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。 本轮与上两轮评测的项目和环境都完全一致: 第一轮 … 上一轮 模型来源 Kimi K2.7 Code: 官方 API Grok 4.3: Grok Build Grok Build 0.1: Grok Build Composer 2.5: Grok Build 速度 排名 模型 时间(分钟) 备注 1 Composer 2.5 3 2 Grok 4.20 0309 Reasonin

计划开源企业级大模型网关【预告】

目前从事这方面工作,因为架构设计需求分析都差不多了,顺手就实现了一套,功能日渐完善,计划开源。到时候欢迎大家试用呀。 29 个帖子 - 27 位参与者 阅读完整话题

感谢any,fable5是真NB

项目我一直是拿5.5xhigh开发的,系统里的tts一直有问题,因为是本地部署的所以一直在喊5.5改框架改参数修bug,但是一直有几个问题解决不了,但也能正常使用也就算了 但今天生成的音频又出问题,我真是艹了 又一次喊5.5定位问题的时候,看着没几个能用的公益站 ,突然想起来any大善人有fable5能用,于是赶快更新cc,接入ccs使用。retry几次后,从线程调用入手直接给我列了4个点,那是字字珠玑,一看5.5感觉纯在说废话(也有可能是对自己写的东西太信任了) 那还说啥了,赶紧给fable去写。才修了两步,完美解决了问题的同时,tts的生成速度还快了不少,给我高兴坏了 。而且在我指出之后,

关于any+ccswitch+claude desktop code的另一种配置方法

这个方法适用于可以使用 至于具体切换是否需要在Claude重新调整(我想大概是要的 但是不麻烦) 首先就正常填写各项内容 无需模型映射 手动指定其实也无需 直接使用就行 路由也无需打开 打开Claude code(不好截图就不截图了) 选择 输入模型名称 可以参考我下面的 注意选 Offer 1M-context variant 然后Apply 最后记得选1M上下文的哦 38 个帖子 - 19 位参与者 阅读完整话题

Launch HN: BitBoard (YC P25) – Analytics Workspace for Agents

We’re Connor and Ambar from BitBoard (https://bitboard.work). BitBoard is an agentic analytics workspace. We give you the infrastructure and visualization layer to analyze data with AI.Today, we’re launching dashboards that you and your agents can work on together. You can connect your cod

Maxproof

131 points · 13 comments

今日主题

今日,AI 领域的焦点再次聚焦于“智能体”的进化与应用,从 OpenAI 计划收购 Ona 以增强其 Agent 能力,到 Google DeepMind 对大规模 Agent 互动潜在风险的担忧,都显示出 Agent 技术正加速走向成熟和规模化。同时,以 Anthropic 的 Fable 5 为代表的新一代模型,在“循环工程”和自动化研究方面展现出惊人潜力,预示着 AI 工程师的角色将从“提示者”转向“设计者”。此外,多模态能力、特定领域 AI(如医疗、金融)以及高效模型训练与评估工具的发布,共同描绘了 AI 技术正在深度融合与广泛拓展的今日图景。

01

模型发布/更新

Model Releases 66 篇

DeepMind 发布 DiffusionGemma 文本生成提速4倍

官方DeepMind Blog

Google DeepMind 发布了 DiffusionGemma 模型,该模型在文本生成方面实现了 4 倍的速度提升,显著提高了生成效率,为快速文本内容创作提供了新的技术支持。

模型发布DeepMind文本生成

Allen AI推出olmo-eval评估工作台

官方Hugging Face Blog

Allen Institute for AI (AI2) 发布了 olmo-eval 评估工作台,旨在简化模型开发过程中的评估流程。该工具支持开发者进行更高效的模型迭代和改进,有助于提升模型开发的整体效率。

评估工具模型开发

HYDRA-X统一多模态模型引入新视觉分词器

官方HuggingFace Trending Papers

HYDRA-X 是首个统一图像和视频的 Vision Transformer (ViT) 模型,通过一种整体视觉分词器实现。该框架为统一多模态模型 (UMMs) 提供了一个核心组件,能将多样化的视觉输入映射到统一的表示空间。

多模态模型架构图像

MiniMax稀疏注意力应对超长上下文

官方HuggingFace Trending Papers

MiniMax稀疏注意力机制旨在解决现有LLM处理超长上下文时面临的二次方计算成本问题。该方法支持智能体工作流、代码推理等应用,能关注百万级tokens,有效降低计算复杂度。

LLM注意力机制长文本

WEAVER世界模型加速机器人操纵

官方HuggingFace Trending Papers

WEAVER是一个高效的世界模型(WM),用于机器人操纵任务。它通过学习模拟器来限制真实世界交互,同时满足策略评估、改进和测试时规划等需求,显著提升了机器人在复杂任务中的表现。

机器人世界模型规划

Claude Fable 5仅凭视觉能力胜过宝可梦

官方Claude (YouTube)

Anthropic 的 Claude Fable 5 模型仅通过视觉能力,成功击败了经典游戏《宝可梦:火红》。这一成就展示了 AI 在游戏领域的视觉理解和策略执行方面的显著进步。

ClaudeAI 游戏计算机视觉
02

产品发布/更新

Product 1212 篇

OpenAI推出新课程助力AI工作转型

官方OpenAI News

OpenAI 推出了三门新的 Academy 课程,旨在帮助用户掌握实用的 AI 技能,构建可重复的工作流程,并在日常工作中应用 AI Agent,以适应新的工作时代,提升职场竞争力。

AI 培训OpenAIAgent

Preply利用AI实现个性化语言学习

官方OpenAI News

教育平台 Preply 利用 OpenAI 技术,推出了 AI 生成的课程摘要,并提供个性化的反馈和语言学习练习,旨在为用户提供更高效、更具针对性的个性化语言学习体验。

AI 教育OpenAI个性化

OpenAI拟收购Ona以扩展Codex能力

官方OpenAI News

OpenAI 计划收购 Ona,以扩展其 Codex 功能,提供安全的持久云环境,支持企业工作流中的长时运行 AI Agent,进一步增强在企业级 AI 服务领域的竞争力。

收购OpenAIAgent

用户可通过Oracle Cloud访问OpenAI模型

官方OpenAI News

用户现在可以通过 Oracle Cloud 访问 OpenAI 模型和 Codex,利用现有云承诺,在企业级安全和治理框架下构建和部署 AI 应用,降低了使用门槛。

云服务OpenAI企业 AI

CueBuddy简化演讲视频录制流程

产品榜单Product Hunt

CueBuddy 是一款帮助用户录制演讲视频的工具,无需手动滚动屏幕,通过简化操作流程,显著提高了视频录制的便捷性。

视频工具

Qursor实现AI上下文信息精准传递

产品榜单Product Hunt

Qursor 允许用户将鼠标指针指向任何界面元素,以便将精确的上下文信息发送给 AI 进行处理,极大简化了人机交互和信息传递的流程。

AI效率工具

Bob's CLI提供本地化AI编码辅助

产品榜单Product Hunt

Bob's CLI 是一款本地优先的 AI 编码命令行工具,能够根据用户的使用习惯进行自适应调整,旨在为开发者提供更高效、更个性化的编程辅助。

AI编程效率

Meet Warren 3.0提供语音AI财务规划

产品榜单Product Hunt

Meet Warren 3.0 是一款由语音驱动的 AI 财务规划伙伴,为用户提供个性化的财务建议和规划,旨在帮助用户更好地管理个人财务。

AI金融理财

Medicyn提供设备端医疗病史管理

产品榜单Product Hunt

Medicyn 是一款能在用户设备上私密管理完整医疗病史的工具,旨在提供更安全、更便捷的个人健康信息管理方案,保护用户隐私。

健康管理隐私

LocIn AI提供语气感知本地化服务

产品榜单Product Hunt

LocIn AI 利用具有语气感知能力的 AI 技术,通过自动化工作流为应用程序提供本地化服务,并能根据需求调整语调,提升用户体验。

AI本地化开发

Slack Data Agent简化Slack内数据查询

产品榜单Product Hunt

Slack Data Agent (Basedash) 允许用户直接在 Slack 中查询公司数据,无需离开应用程序,极大地提高了数据访问的便捷性和工作效率。

数据Slack效率

Claude FM上线提供思考与构建背景音乐

官方Claude (YouTube)

Anthropic 推出了名为“Claude FM”的音乐流媒体频道,旨在为用户提供“思考和构建”时的背景音乐,可能包含多样的音乐类型以适应不同用户的创造和工作场景。

Claude产品发布音乐
03

行业动态

Industry 77 篇

OpenAI支持欧盟AI内容透明度准则

官方OpenAI News

OpenAI支持欧盟《人工智能内容透明度行为准则》,旨在推进 AI 生成内容的溯源标准和工具,帮助用户更好地识别和理解 AI 生成的内容,促进 AI 生态的健康发展。

AI 治理OpenAI欧盟

BBVA将AI置于银行业务核心

官方OpenAI News

BBVA 将 AI 置于银行业务核心,已将 ChatGPT Enterprise 扩展至 100,000 名员工,并与 OpenAI 合作加速全球 AI 驱动的银行业务转型,提升服务效率和客户体验。

AI 应用OpenAI金融科技

天体物理学家利用Codex模拟黑洞

官方OpenAI News

天体物理学家 Chi-kwan Chan 利用 OpenAI 的 Codex 构建黑洞模拟,帮助科学家研究极端物理学并检验爱因斯坦的广义相对论,展示了 AI 在前沿科学研究中的重要作用。

AI 应用OpenAI科学研究

OpenAI拟收购Ona,Anthropic政策引关注

综合资讯TLDR AI

OpenAI 计划收购 Ona 以扩展 Codex 能力;Anthropic CEO Dario Amodei 谈及 AI 政策;小米推出了 MiMo 代码助手,显示出 AI 领域在技术整合、政策制定和工具创新方面的动态。

收购政策代码助手

DiffusionGemma提速,WhatsApp将解禁机器人

综合资讯TLDR AI

DiffusionGemma 模型实现 4 倍文本生成速度提升;WhatsApp 将解除对机器人账号的限制;Anthropic CEO Dario Amodei 谈及 AI 政策。这些动态反映了模型性能提升、平台政策调整及行业合规的进展。

政策模型发布即时通讯

Google DeepMind关注大规模Agent互动风险

综合资讯MIT Tech Review AI

Google DeepMind 资助研究,关注数百万个 AI Agent 在线互动时可能带来的潜在危险。公司 AGI 安全与对齐研究主管 Rohin Shah 指出,大规模 Agent 的出现是令人担忧的,需要提前研究和防范。

AI 安全AgentGoogle DeepMind

批评Anthropic在开源AI方面存在矛盾

X·KOLX 推文 (AttentionVC)

该帖批评 Anthropic 在推动开源 AI 方面存在矛盾,认为其试图塑造负责任 AI 的形象,但其行为模式被认为可能阻碍了开源 AI 的发展,引发对 AI 公司策略的讨论。

AI 伦理开源行业批评
04

技巧与观点

Tips & Takes 4040 篇

addyosmani/agent-skills:AI编码代理技能集

开源项目GitHub Trending

提供用于 AI 编码代理的生产级工程技能集,旨在提升 AI 代理在软件开发生命周期中的生产力和智能化水平,助力开发者构建更强大的 AI 助手。

AI开发工具Agent

obra/superpowers:AI Agent开发方法论

开源项目GitHub Trending

一个 Agentic Skills Framework & Software Development Methodology,旨在通过定义和组织 AI Agent 的能力,来改进软件开发流程,提升开发效率和项目管理水平。

AIAgent开发方法

LMCache:加速LLM推理的KV Cache层

开源项目GitHub Trending

LMCache 是一个高性能的 KV Cache 层,旨在加速 LLM(大语言模型)的推理速度。通过优化缓存机制,显著提升 LLM 在处理大量请求时的效率。

LLMKV Cache推理

pm-skills:AI Agent项目管理技能市场

开源项目GitHub Trending

一个项目管理(PM)技能市场,提供超过100种 Agentic 技能、命令和插件,涵盖产品发现、策略制定到执行上线和增长的全流程,赋能 AI Agent 完成复杂的项目管理任务。

AIAgent项目管理

PyTorch MLP融合优化提升效率

官方Hugging Face Blog

本文是 PyTorch 性能优化的第二部分,详细介绍了如何从 nn.Linear 层优化到一个融合的多层感知机 (MLP),以提升模型运行效率,为开发者提供了实用的性能调优指南。

PyTorch性能优化深度学习

LLM心理评估:自我报告预测行为有效性

官方HuggingFace Trending Papers

研究发现,相较于使用广泛人格特质,使用更具体、低成本的心理测量方法能更可靠地预测LLM的行为倾向,这对于安全部署LLM至关重要。

LLM评估行为预测

跨异构智能体通信新方法:KV-cache通信

官方HuggingFace Trending Papers

研究提出一种名为“KV-cache通信”的跨异构智能体通信新方法,解决当前多智能体系统主要依赖文本通信的高昂成本和信息损失问题,实现了不同模型间的有效通信。

多智能体通信

LLM智能体如何学习用户偏好

官方HuggingFace Trending Papers

本文研究如何让交互式LLM智能体在会话中学习并遵守用户偏好,弥合用户偏好访问和遵循之间的差距,以提升智能体与用户协作的长期效率。

LLM用户交互智能体

ArogyaSutra:印度语言医疗多模态推理框架

官方HuggingFace Trending Papers

ArogyaSutra是一个多智能体框架,旨在提升多模态大语言模型(MLLMs)在印度语言医疗领域的推理能力,克服了低资源环境下MLLMs在专科领域表现有限的挑战。

多模态医疗多语言

EvoBrowseComp:动态知识环境搜索Agent基准

官方HuggingFace Trending Papers

EvoBrowseComp是一个新的基准测试集,用于评估搜索智能体在不断变化的知识环境中的表现。该测试集解决了现有静态知识基准易受污染的问题,提供了更具前瞻性的评估方案。

评估智能体搜索

EvoArena:跟踪LLM记忆演化平台

官方HuggingFace Trending Papers

EvoArena是一个用于跟踪LLM智能体记忆演化的平台,旨在评估其在动态环境下的鲁棒性。该平台专注于在真实世界的动态变化中,使智能体能持续调整其知识、技能和行为。

LLM智能体动态环境

开关潜在推理优化与解释思维链

官方HuggingFace Trending Papers

本研究提出一种基于开关潜在推理和单策略强化学习的方法,用于优化和解释潜在思维链。该方法通过压缩推理过程,并解决了现有模型在优化和因果解释方面的困难。

强化学习推理模型优化

EurekAgent:自主科学发现的环境工程法

官方HuggingFace Trending Papers

EurekAgent提出了一种基于环境工程的方法,可实现自主科学发现。通过提供可优化指标和执行环境,LLM智能体能够提出、验证和迭代科学解决方案,结果已超越人类设计的方法。

AI科学发现自动化

InterleaveThinker强化交错式生成

官方HuggingFace Trending Papers

InterleaveThinker强化了智能体的交错式生成能力,解决了现有图像生成器在处理文本-图像序列(交错生成)方面的局限。该方法对于需要连续视觉叙事和交互的应用至关重要。

生成模型图像生成多模态

Loopcraft:AI模型开发的“堆叠循环”艺术

大咖博客Latent Space

文章介绍了“Loopcraft”概念,探讨了“堆叠循环”的艺术,这是一种在 AI 模型开发中的高级技巧,由 Peter Steinberger、Boris Cherny 和 Andrej Karpathy 提出。

AI 概念模型开发

Sarah Guo:开源模型与Agent实验室

大咖博客Latent Space

Sarah Guo 在文章中探讨了开源模型、模型实验室与 Agent 实验室的对比,并讨论了哪些内容是“无法训练”的,为理解当前 AI 发展格局提供了深度见解。

开源模型AgentAI 论文

AI工程师未来:从提示到设计“循环”

X·KOLX 推文 (AttentionVC)

OpenAI 的 Peter Steinberger 提出,未来 AI 工程师不应再手动提示编码代理,而应设计“循环”(loops)来驱动这些代理。这种思路从根本上改变了与 AI 协作的方式,强调了自动化和系统化。

提示工程AI 工作流

Anthropic Fable 5模型提示词指南

X·KOLX 推文 (AttentionVC)

Anthropic 发布了其最强模型 Fable 5 (Mythos) 的官方提示词使用指南。该指南隐藏在 API 文档中,强调了多数用户可能忽视了这份提升模型性能的关键文档。

模型使用提示词官方文档

百万行代码生成:AI驱动软件开发

X·KOLX 推文 (AttentionVC)

2026 年,OpenAI 团队实现了百万行生产代码的生成,而人工仅负责设计驱动 AI 代理的系统。这展示了 AI 在软件开发中的巨大潜力,人类的角色转向系统设计者。

AI 生产力软件开发AI 代理

工作讨论默认录制:AI影响沟通

X·KOLX 推文 (AttentionVC)

AI 正在重塑工作方式,一个备受关注但又敏感的话题是:大量工作讨论正被默认录制。这种变化可能对公司内部沟通和协作带来深远影响。

AI 影响工作方式数据隐私

Recursive AI推进自动化研究

X·KOLX 推文 (AttentionVC)

Recursive AI 发布了其自动化 AI 研究系统的早期成果,聚焦模型训练和 GPU 内核基准测试。该系统旨在加速 AI 研究进程,实现更高效的模型开发和优化。

AI 研究自动化基准测试

14步构建Claude Fable 5自改进Agent

X·KOLX 推文 (AttentionVC)

该帖分享了如何用 14 步构建基于 Claude Fable 5 的自改进代理系统,涉及循环、动态工作流和例程。作者指出,多数用户仅将其作为大型上下文窗口模型使用,忽视了其作为代理系统的潜力。

AI 代理Fable 5工作流

AI投资观:警惕“无法投资”论

X·KOLX 推文 (AttentionVC)

作者探讨了2026年中投资者可能面临的AI投资困境,认为应警惕“全部押注”的论调,尽管市场存在挑战,但仍有潜在的投资机会。

AI 投资行业趋势观点

Claude Code自改进循环设置方法

X·KOLX 推文 (AttentionVC)

作者分享了在Claude Code中构建自改进循环的精确设置方法。他描述了手动调试代码代理的低效,以及如何通过循环设计,让 Claude 自身进行测试和修复,减少人工干预。

AI 编程Claude CodeAI 代理

构建高性能垂直领域AI代理

X·KOLX 推文 (AttentionVC)

文章阐述了构建高性能垂直领域AI代理(Agent)的方法。其核心是将模型置于一个 `while` 循环中,通过不断迭代优化,确保代理在特定领域内表现出色。

AI 代理垂直领域模型优化

作者体验一周 Claude Fable 模型

X·KOLX 推文 (AttentionVC)

作者体验一周 Claude Fable (Mythos) 模型后,认为其是下一代模型,在价格和体验上均有突出表现,但也存在一些“怪癖”,他详细分享了使用过程中的优缺点。

模型评测Fable 5用户体验

Kimi预测世界杯比赛,德国队被低估

X·KOLX 推文 (AttentionVC)

Kimi 宣布将预测本届世界杯全部 104 场比赛,并指出德国队可能被低估。此举旨在利用世界杯这一公开、实时且不断变化的平台,进行 AI 分析和预测的实践。

AI 应用体育预测世界杯

循环工程:从提示到设计14步路线图

X·KOLX 推文 (AttentionVC)

该帖提供了一个“循环工程”的 14 步路线图,帮助提示工程师向循环设计师转型。作者强调,设计能驱动代理持续工作的循环才是关键。

提示工程AI 工作流循环设计

Claude Fable 5提升工作效率技巧

X·KOLX 推文 (AttentionVC)

作者分享了两个利用 Claude Fable 5 模型提升工作效率的技巧,特别是“自纠错循环”(Self-correction loops)。这种方法能够让模型在出现错误时自我修正,而非依赖人工干预。

AI 工作流Fable 5自纠错

Coinbase for Agents:AI代理可交易支付

X·KOLX 推文 (AttentionVC)

Coinbase 推出“Coinbase for Agents”服务,允许 AI 代理直接连接到用户 Coinbase 账户,执行交易、支付和工作流,并受用户设定的限额约束。该功能即日可用。

AI 应用金融科技AI 代理

Ray Dalio:AI时代需保持原则性思考

X·KOLX 推文 (AttentionVC)

Ray Dalio 探讨了人类智能与人工智能融合的时代,应如何保持“原则性思考”(Principled Thinking)。他结合自己构建计算机化投资决策系统的经验,阐述了在这种新环境下高效智能的关键。

AI 伦理未来趋势决策

LocIn AI利用AI进行语气感知本地化

产品榜单Product Hunt

LocIn AI 利用具有语气感知能力的 AI 技术,通过自动化工作流为应用程序提供本地化服务,并能调整语调,提升用户体验。

AI本地化开发

Tide提供分层录音功能语音笔记

产品榜单Product Hunt

Tide 是一款提供分层录音功能的语音笔记应用,能够创造出富有层次感的听觉体验,为用户提供新颖的笔记记录方式。

笔记工具音频

ShellMate集中管理SSH服务器与凭证

产品榜单Product Hunt

ShellMate 是一款集中管理 SSH 服务器、凭证和团队的工具,旨在简化服务器管理和团队协作,提高安全性。

开发工具安全

Keep: iPhone/Mac全屏3D时钟应用

产品榜单Product Hunt

Keep 是一款为 iPhone 或 Mac 设计的应用程序,提供全屏 3D 时钟场景,为用户界面增添视觉上的动态和美感。

效率工具个性化

pleNx:Nintendo Switch的首个Plex客户端

产品榜单Product Hunt

pleNx 是首个为 Nintendo Switch 开发的原生 Plex 客户端,让用户可以在 Switch 上观看 Plex 媒体库内容,拓展了使用场景。

影音Nintendo SwitchPlex

Claude FM提供思考与构建背景音乐

官方Claude (YouTube)

Claude发布了一个名为“Claude FM”的音乐流媒体频道,旨在为用户提供“思考和构建”时的背景音乐。该频道可能包含多样的音乐类型,以适应不同用户的创造和工作场景需求。

Claude产品发布音乐

Claude Tokyo 2026开幕主题演讲

官方Claude (YouTube)

此视频是 Claude 在东京 2026 的开幕主题演讲,应聚焦于 Claude 相关的最新动态、技术发展或未来展望,为观众提供行业前沿信息。

Claude活动

Cursor的Michael Truell谈问题解决

官方Claude (YouTube)

此视频聚焦于 Michael Truell 在 Cursor 的工作,探讨其如何解决实际问题。视频名称“The Problem Solvers”暗示内容将围绕实际应用和解决方案展开。

CursorAI 应用

Claude Fable 5玩转《异星工厂》

官方Claude (YouTube)

此视频展示了 Claude Fable 5 在玩《异星工厂》(Factorio) 游戏的过程。这可能意味着 Claude 在策略规划、资源管理或自动化控制方面的能力得到了进一步的展示。

ClaudeAI 游戏Factorio