每日 AI 简报

2026-06-16(内容获取于 06/16 06:12)

AI Agent 获准访问全网信息工具 Agent-Reach

GitHub Trending

`Agent-Reach` 项目提供一个命令行工具,赋予 AI Agent 浏览和搜索 Twitter、Reddit、YouTube 等平台的网络信息能力,且无需 API 费用。

推荐理由:这是一个强大的开源工具,极大增强了 AI Agent 的信息获取能力,适合开发者尝试。

AgentBrush:AI 编码代理的图像生成工具

Product Hunt · 06/15 13:21

AgentBrush 是一款专为 AI 编码代理设计的图像生成工具,旨在扩展它们的功能,使其能够生成图像。

推荐理由:为 AI Agent 提供了新的能力维度,开发者可探索其应用场景。

GPT-4o/Claude 3 Opus 竞争格局与开发者洞察

TLDR AI · 06/15 08:00

今日 AI 资讯包括:Anthropic Fable 模型被指危险而关闭;GLM 发布 5.2 版本;OpenRouter 推出 Fusion 功能;以及 Claude Code SDK 的计费更新。

推荐理由:快速概览当前 AI 领域的重要动态和技术更新,信息密度高。

Anthropic Fable 与 Mythos 模型因安全风险未发布

Latent Space · 06/13 12:30

Anthropic 的 Fable 和 Mythos 模型因被认为“过于危险”而未能正式发布,这反映了当前 AI 模型在安全性和可控性方面面临的挑战。

推荐理由:关注 AI 模型安全风险和监管动向的重点信息。

OpenAI 推出合作伙伴网络并注资 1.5 亿美元

OpenAI News · 06/15 01:00

OpenAI 正式启动合作伙伴网络,承诺投入 1.5 亿美元,旨在帮助全球合作伙伴加速企业级 AI 的采用、部署和转型。

推荐理由:了解 OpenAI 如何通过生态合作推动企业 AI 落地,对相关企业和开发者有参考价值。

Claude Code SDK 引入计费分拆更新

X 创作者 (AttentionVC) · 06/15 17:06

Claude 的 Agent SDK 在 6 月 15 日进行了计费模式的拆分,此更新对 Agent 构建者可能产生影响。

推荐理由:开发者需关注 Claude SDK 的最新计费变化,以便调整其应用成本。

韩国民众为何热衷 AI?

MIT Tech Review AI · 06/16 02:46

文章探讨了韩国社会为何广泛接受并喜爱 AI,分析了技术普及、政府支持及 AI 提升效率等因素。

推荐理由:提供了一个独特的视角,了解不同文化背景下 AI 的接受度和融合度。

Reignat:面向创作者的隐私友好型网站分析平台

Product Hunt · 06/15 07:37

Reignat 是一个注重用户隐私的网页分析平台,专为创作者设计,提供易于使用的分析工具。

推荐理由:对于关注用户隐私的网站所有者和创作者来说,这是一个值得考虑的分析工具。

全球公开 IPTV 频道合集 iptv-org/iptv

GitHub Trending

`iptv-org/iptv` 整理了全球范围内公开可用的 IPTV 频道列表,为用户提供访问免费电视流媒体的便捷途径。

推荐理由:为需要查找和整理 IPTV 频道的用户提供了一个集中且易于访问的资源。

印度 IT 行业在 AI 时代的角色探讨

X 推文 (AttentionVC) · 06/15 00:41

博主认为,印度传统 IT 服务公司(如 TCS、Infosys)在生成式 AI 竞赛中并非“失败”,而是其业务模式与目标不同,不应与构建 ChatGPT 的初创公司直接比较。

推荐理由:提供对印度 IT 行业在 AI 转型中不同定位的解读。

iptv-org/iptv

TypeScript · ★ 122,773 · 🍴 6,586 · 📈 2,650 stars today

Collection of publicly available IPTV channels from all over the world

中文介绍 `iptv-org/iptv` 是一个汇集了全球公开免费 IPTV 频道的项目。它将各种可用的网络电视流媒体地址进行整理与归类,方便用户查找和访问。对于希望通过互联网免费观看电视节目或构建个人媒体中心的用户来说,这是一个便捷的资源库,省去了自行搜寻和验证的麻烦。

teslamate-org/teslamate

Elixir · ★ 8,213 · 🍴 946 · 📈 35 stars today

A self-hosted data logger for your Tesla 🚘 [main maintainer=@JakobLichterfeld]

中文介绍 `Teslamate` 是一个为 Tesla 车主设计的自托管数据记录器。它通过连接车辆 API,收集并存储用户的 Tesla 行车、充电及其他遥测数据,解决了官方应用可能无法提供详细洞察或数据隐私顾虑的问题。用户可自行部署,实现对个人车辆数据的完全掌控和深度分析,是 Tesla 爱好者深入了解爱车状态的理想工具。

Panniantong/Agent-Reach

Python · ★ 30,009 · 🍴 2,440 · 📈 1,045 stars today

Give your AI agent eyes to see the entire internet. Read & search Twitter, Reddit, YouTube, GitHub, Bilibili, XiaoHongShu — one CLI, zero API fees.

中文介绍 `Agent-Reach` 赋予 AI Agent 浏览和搜索整个互联网的能力。它提供一个命令行界面,让 AI Agent 能够轻松访问 Twitter、Reddit、YouTube、GitHub、Bilibili、小红书等平台的内容,且无需支付 API 费用。该项目解决了 AI Agent 获取实时、多样化网络信息的障碍,适用于开发者构建需要实时信息收集、舆情分析或内容监控能力的智能代理。

meshery/meshery

TypeScript · ★ 10,603 · 🍴 3,433 · 📈 227 stars today

Meshery, the cloud native manager

中文介绍 `Meshery` 是一个云原生管理平台,专注于简化服务网格(Service Mesh)的部署、操作和性能管理。它为用户提供统一界面,用于管理 Istio、Linkerd 等多种服务网格,并能进行配置验证、性能分析和故障排除。该项目旨在降低云原生复杂性,赋能 DevOps 团队、SRE 和架构师高效地管理大规模分布式应用。

chatwoot/chatwoot

Ruby · ★ 31,630 · 🍴 7,627 · 📈 431 stars today

Open-source live-chat, email support, omni-channel desk. An alternative to Intercom, Zendesk, Salesforce Service Cloud etc. 🔥💬

中文介绍 `Chatwoot` 是一个开源的、一体化客户支持平台。它提供实时聊天、电子邮件支持及多渠道服务台功能,旨在成为 Intercom、Zendesk 等商业解决方案的免费替代品。该项目帮助企业在一个统一界面管理所有客户沟通,提升服务效率,同时避免高昂成本和厂商锁定。适用于寻求可定制、自托管客户服务系统的中小型企业和开发者。

krahets/hello-algo

Java · ★ 126,861 · 🍴 15,134 · 📈 95 stars today

《Hello 算法》:动画图解、一键运行的数据结构与算法教程。支持简中、繁中、English、日本語,提供 Python, Java, C++, C, C#, JS, Go, Swift, Rust, Ruby, Kotlin, TS, Dart 等代码实现

中文介绍 《Hello 算法》是一本以动画图解和可一键运行代码为特色的数据结构与算法教程。它旨在通过直观的可视化方式,帮助学习者更好地理解抽象的算法概念,并提供 Python、Java、C++ 等十多种语言的实现。该项目解决了传统教材理解难、实践门槛高的问题,是计算机科学学生、程序员以及面试准备者的理想学习资源。

freeCodeCamp/freeCodeCamp

TypeScript · ★ 447,834 · 🍴 44,984 · 📈 738 stars today

freeCodeCamp.org's open-source codebase and curriculum. Learn math, programming, and computer science for free.

中文介绍 `freeCodeCamp` 是一个开源的学习平台,提供免费的数学、编程和计算机科学课程。该项目包含其完整的课程体系和代码库,致力于为全球用户提供高质量的科技教育资源。它通过实践项目和交互式学习体验,帮助初学者和有经验的开发者提升技能,最终实现进入科技行业的目标,解决了教育资源不均和高门槛的问题。

trycua/cua

HTML · ★ 18,119 · 🍴 1,171 · 📈 57 stars today

Open-source infrastructure for Computer-Use Agents. Sandboxes, SDKs, and benchmarks to train and evaluate AI agents that can control full desktops (macOS, Linux, Windows).

中文介绍 `cua` 是一个为计算机使用型 AI Agent (Computer-Use Agents)设计的开源基础设施。它提供沙盒环境、SDK 和基准测试工具,用于训练和评估能全面控制 macOS、Linux、Windows 桌面的 AI Agent。该项目解决了 AI Agent 与复杂操作系统级 GUI 交互的开发与测试难题,适用于研究员和开发者构建高级自动化工具、通用 AI 助手或进行人机交互领域的研究。

jwasham/coding-interview-university

★ 352,260 · 🍴 83,560 · 📈 352 stars today

A complete computer science study plan to become a software engineer.

中文介绍 `coding-interview-university` 提供了一份完整的计算机科学学习计划,旨在帮助学习者系统性地掌握成为一名软件工程师所需的核心知识,尤其侧重于应对技术面试。它详细规划了数据结构、算法、操作系统、网络等关键领域的学习路径与资源,解决了求职者准备面试时的盲区和效率问题。该项目是希望进入顶尖科技公司或提升计算机基础的工程师的宝贵指南。

rohitg00/ai-engineering-from-scratch

Python · ★ 33,019 · 🍴 5,406 · 📈 538 stars today

Learn it. Build it. Ship it for others.

中文介绍 `ai-engineering-from-scratch` 旨在提供一套从零开始构建和部署 AI 系统的学习与实践路径。它可能涵盖了 AI 模型开发、数据管理、MLOps、部署策略及生产环境中的 AI 应用运维等实际工程问题。该项目解决了理论学习与实际交付之间的鸿沟,适用于希望全面掌握 AI 工程技能、将 AI 模型产品化的机器学习工程师、数据科学家及开发者。

music-assistant/server

Python · ★ 2,372 · 🍴 444 · 📈 226 stars today

Music Assistant is a free, opensource Media library manager that connects to your streaming services and a wide range of connected speakers. The server is the beating heart, the core of Music Assistant and must run on an always-on device like a Raspberry Pi, a NAS or an Intel NUC or alike.

中文介绍 `Music Assistant Server` 是一个免费开源的媒体库管理器核心组件,旨在统一管理用户的各类音乐流媒体服务和本地音乐文件。它能够连接如 Spotify 等多种服务及广泛的音响设备,提供集中式音乐播放与管理体验。该项目解决了用户在不同平台间切换、难以统一管理音乐资源的问题,特别适合音乐爱好者和家庭影音系统搭建者,实现便捷的跨平台音乐串流。

Free-TV/IPTV

Python · ★ 17,247 · 🍴 2,561 · 📈 361 stars today

M3U Playlist for free TV channels

中文介绍 `Free-TV/IPTV` 提供了一个汇集全球免费电视频道的 M3U 播放列表。该项目旨在为用户便捷地提供可用的在线直播电视流,解决寻找免费电视频道资源的痛点。用户只需将此 M3U 文件导入支持 IPTV 的播放器或媒体中心,即可观看海量免费内容,是获取免费电视资源的一个实用选择。

Introduction-to-Autonomous-Robots/Introduction-to-Autonomous-Robots

TeX · ★ 3,049 · 🍴 654 · 📈 488 stars today

Introduction to Autonomous Robots

中文介绍 `Introduction to Autonomous Robots` 是一个旨在介绍自主机器人基础知识的项目。它可能包含课程讲义、代码示例、模拟环境或参考资料,涵盖机器人感知、导航、路径规划、控制和机器学习等核心概念。该项目为初学者系统学习自主机器人的原理与实践提供了宝贵的资源,适用于学生、研究人员以及对机器人技术感兴趣的工程师。

Raphire/Win11Debloat

PowerShell · ★ 47,982 · 🍴 1,936 · 📈 114 stars today

A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and customize your Windows experience. Win11Debloat works for both Windows 10 and Windows 11.

中文介绍 `Win11Debloat` 是一个轻量级的 PowerShell 脚本,旨在帮助 Windows 11 用户优化系统体验。它能移除预装应用(bloatware)、禁用遥测功能,并进行其他定制化设置,以提升系统性能、保护隐私和简化操作。该项目解决了 Windows 系统自带软件冗余和用户数据收集的问题,适用于希望深度定制、精简并增强隐私保护的 Windows 11 用户。

mikeroyal/Self-Hosting-Guide

Dockerfile · ★ 20,944 · 🍴 1,061 · 📈 256 stars today

Self-Hosting Guide. Learn all about locally hosting (on premises & private web servers) and managing software applications by yourself or your organization. Including Cloud, LLMs, WireGuard, Automation, Home Assistant, and Networking.

中文介绍 `Self-Hosting-Guide` 是一份全面的自托管指南,旨在帮助个人或组织在本地或私有服务器上部署和管理各类软件应用。它涵盖了云服务、LLMs、WireGuard、自动化等多种场景的搭建与运维,解决了用户对数据隐私、服务掌控权和成本效益的需求。该项目为希望脱离第三方服务、建立自有基础设施的用户提供了详尽的实践知识与资源。

itsfatduck/optimizerDuck

C# · ★ 3,652 · 🍴 158 · 📈 321 stars today

Free, open-source Windows optimization tool for performance, privacy, and simplicity.

中文介绍 `optimizerDuck` 是一个免费开源的 Windows 优化工具,专注于提升系统性能、增强隐私保护并简化操作体验。它可能通过移除不必要组件、调整系统设置和优化服务配置等方式,帮助用户打造更快速、更安全的 Windows 环境。该项目解决了 Windows 系统臃肿、隐私泄露的痛点,适用于寻求便捷、高效方式优化个人电脑的用户。

NVIDIA/SkillSpector

Python · ★ 6,260 · 🍴 458 · 📈 1,079 stars today

Security scanner for AI agent skills. Detect vulnerabilities, malicious patterns, and security risks.

中文介绍 `NVIDIA SkillSpector` 是一款专为 AI Agent 技能设计的安全扫描工具。它能够检测 AI Agent 潜在的漏洞、恶意模式及安全风险,解决了在日益复杂的 AI 应用环境中确保 Agent 可信与安全的关键挑战。该项目适用于 AI 开发者、安全研究人员和企业,帮助他们在部署智能代理前识别并缓解安全威胁,保障 AI 系统运行的稳健性。

shiyu-coder/Kronos

Python · ★ 30,239 · 🍴 5,185 · 📈 395 stars today

Kronos: A Foundation Model for the Language of Financial Markets

中文介绍 `Kronos` 是一个为金融市场语言设计的“基础模型”(Foundation Model)。它旨在通过对海量金融文本数据进行预训练,深入理解金融行业的专业术语、概念和市场动态。该模型解决了通用 LLM 在金融领域适应性不足的问题,能为金融分析师、量化研究员或开发者提供强大的自然语言处理能力,应用于市场分析、研报生成或风险评估等场景。

AFFORDANCE20Q: Evaluating Affordance Reasoning from Physical Properties

👍 2

Affordance reasoning, the inference of an object's action possibilities from its physical properties (e.g., shape and material), is fundamental to human physical understanding and increasingly critical for Large Language Models (LLMs). However, existing affordance benchmarks largely expose explicit

中文介绍 研究名为AFFORDANCE20Q的基准,用于评估大型语言模型(LLMs)从物理属性(如形状和材质)推断物体动作可能性的“可供性推理”能力。该能力对人类理解物理世界至关重要,对LLMs也日益关键,但现有基准存在不足。

LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations

👍 3

Online group chats are social spaces with local conversational norms that are rarely stated explicitly. The ability and willingness of LLM-based agents to recognize and adapt to these norms remains mostly unexplored. We introduce LoSoNA, a benchmark for local social norm adaptation in multi-party ch

中文介绍 提出LoSoNA基准,用于评估LLM在群组对话中适应本地社交规范的能力。在线群聊存在未明确陈述的社交规范,LLM代理能否识别并适应这些规范仍是未探索领域。LoSoNA旨在解决这一问题。

AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

👍 0

Large reasoning models typically follow a read-then-think paradigm: they observe the complete input, reason over a static context, and then produce the answer. Yet many real-world scenarios are inherently dynamic, such as audio and video stream, where information arrives as a continuous stream and m

中文介绍 介绍AdaSR,一种自适应流式推理方法,采用分层相对策略优化。大型推理模型通常采用“读-然后-思考”模式,处理静态上下文。AdaSR旨在解决音频、视频流等动态场景中信息连续到达的问题。

RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space

👍 10

Large language models (LLMs) are widely used in text-to-image (T2I) systems, but they are typically limited to text encoding, while denoising is handled by newly trained generative backbones. The emergence of representation autoencoders (RAEs) shifts the generation target toward semantically structu

中文介绍 RepFusion利用多模态先验来改善表示空间中的去噪效果。大型语言模型(LLMs)常用于文图生成(T2I)系统,但通常仅限于文本编码,去噪则由新训练的生成模型处理。表示自编码器(RAEs)的出现改变了生成目标。

LLM Agents Can See Code Repositories

👍 11

Coding agents powered by large language models have demonstrated strong performance on software engineering tasks. Yet most agents consume repositories almost entirely as text, which differs from how human developers use visual structure such as folder hierarchies and dependency relationships to ori

中文介绍 研究表明,LLM驱动的编码代理在软件工程任务中表现出色,但多数代理仅将代码库视为文本,忽略了人类开发者依赖的视觉结构(如文件夹层级和依赖关系)。本文探索了LLM代理如何“看见”代码仓库。

HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

👍 33

AI agent performance depends critically on the runtime harness, comprising the prompts, tools, memory, and control flow that mediate how a model observes, reasons, and acts. Yet today's harnesses remain largely hand-crafted and static: each new model or task still demands bespoke scaffolding, and th

中文介绍 HarnessX是一个可组合、自适应且可演化的代理“马具”(harness)构建框架。AI代理的性能高度依赖于运行时马具,包括提示、工具、记忆和控制流。现有马具大多是手工制作且静态的,每个新模型或任务都需要定制。

ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning

👍 4

Building trustworthy medical multimodal large language models (MLLMs) is critical for reliable clinical decision support. Existing medical hallucination benchmarks mainly focus on data collection, but often ignore where hallucinations originate within the reasoning process. We find that hallucinatio

中文介绍 ClinHallu是一个用于诊断医学多模态大型语言模型(MLLMs)在推理过程中阶段性幻觉的基准。虽然构建可信的医学MLLMs对临床决策支持至关重要,但现有基准常忽略幻觉产生的具体环节。

From Chatbot to Digital Colleague: The Paradigm Shift Toward Persistent Autonomous AI

👍 42

Large Language Models (LLMs) are undergoing a fundamental transformation from conversational generators into integrated AI systems capable of reasoning, action, memory, and self-improvement. We conceptualize this transition as a shift from Chatbot to Digital Colleague: from conversational answers to

中文介绍 大型语言模型(LLMs)正从单纯的对话生成器转变为集推理、行动、记忆和自我改进于一体的集成AI系统。文章将此转变概念化为从“聊天机器人”到“数字同事”的范式转变,强调了持久自主AI的兴起。

Rethinking RAG in Long Videos: What to Retrieve and How to Use It?

👍 32

Retrieval-augmented generation is moving beyond text into long, egocentric video, where systems must select query-relevant chunks across multiple modalities and temporal granularities. Yet progress in VideoRAG is limited by two gaps: existing benchmarks allow queries to be answered without the video

中文介绍 研究如何优化长视频检索增强生成(VideoRAG)。检索增强生成正从文本扩展到长视频,系统需跨模态和时间粒度选择查询相关片段。现有VideoRAG进展受限,因基准允许查询答案,且未区分检索内容。

OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

👍 91

Cloning camera motion from reference videos is an important task in video generation, as videos provide intuitive and precise control. Existing methods either directly use parametric representations that fail to handle multi-shot generation or synthesize cross-paired data, which suffer from data sca

中文介绍 OmniDirector实现了通用、多镜头、无需跨配对数据的相机克隆。从参考视频克隆相机运动是视频生成中的重要任务,视频提供了直观精确的控制。现有方法要么使用无法处理多镜头生成的参数化表示,要么合成跨配对数据。

The Hidden Power of Scaling Factor in LoRA Optimization

👍 5

In Low-Rank Adaptation (LoRA), the scaling factor α is often treated as a mere complement to the learning rate, yet its role in optimization remains poorly understood. In this paper, we reveal that the scaling factor α and the learning rate function differently, with α emerging as the dominant drive

中文介绍 本文揭示了LoRA(Low-Rank Adaptation)优化中的缩放因子α的隐藏威力。α常被视为学习率的补充,但其在优化中的作用不明确。研究表明,α与学习率功能不同,α在优化中扮演更重要的角色。

APPO: Agentic Procedural Policy Optimization

👍 62

Recent advances in agentic Reinforcement Learning (RL) have substantially improved the multi-turn tool-use capabilities of large language model agents. However, most existing methods assign credit over coarse heuristic units, such as tool-call boundaries or fixed workflows, making it difficult to id

中文介绍 APPO(Agentic Procedural Policy Optimization)是一种用于代理强化学习(RL)的新方法。现有方法在工具使用方面取得了显著进展,但通常在粗粒度单元(如工具调用边界)上进行信用分配,这限制了其在复杂任务中的效率。

Quickest Detection of Hallucination Onset: Delay Bounds and Learned CUSUM Statistics

👍 0

Token-level hallucination detectors are evaluated as classifiers, by AUC over all tokens, yet a streaming monitor is judged by its reaction time: the number of tokens that pass between the onset of a hallucination and the alarm. We formulate hallucination onset detection as a quickest change detecti

Pythagoras-Prover: Advancing Efficient Formal Proving via Augmented Lean Formalisation

👍 7

Modern Lean theorem provers achieve strong performance only with substantial training and inference compute, driven in part by scarce verified proof data and the long reasoning traces of formal proof search, making both supervised fine-tuning (SFT) and sampling expensive. We introduce Pythagoras-Pro

Measuring Epistemic Resilience of LLMs Under Misleading Medical Context

👍 15

Large language models (LLMs) now reach expert-level scores on medical licensing exams, encouraging the assumption that high scores imply safe medical judgment while patients increasingly use them for health advice. We show this assumption is fragile: when misleading context is injected into question

Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

👍 2

AI agents are increasingly being developed to accelerate scientific discovery, yet their practical capabilities in real research settings remain poorly understood. Existing benchmarks for AI agents rarely capture the complexity, heterogeneity, and extended reasoning required by scientific work, wher

RedAct: Redacting Agent Capability Traces for Procedural Skill Protection

👍 15

Users rely on execution traces to observe agent behavior, diagnose failures, and ensure accountability. These traces contain rich procedural detail, including tool invocations, intermediate decisions, and error-recovery logic. Yet this detail can expose private procedural skills, allowing downstream

Orchestra-o1: Omnimodal Agent Orchestration

👍 37

The recent success of agent swarms has shifted the paradigm of large language model (LLM)-based agents from single-agent workflows to multi-agent systems, highlighting the importance of agent orchestration for task decomposition and collaboration. However, existing orchestration frameworks are limit

From AGI to ASI

👍 23

Over the last decade, building human-level artificial general intelligence has moved from far-fetched speculation to being a concrete next-decade target for many of the largest AI organisations. Achieving this goal would have profound and far-reaching impacts on human society, which raises many comp

P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning

👍 2

Multimodal large language models can write code to produce complex programs as well as use programs to do 3D modeling, which opens up a new avenue for 3D generation powered by their priors, world knowledge and reasoning. Yet existing benchmarks rarely evaluate 3D modeling through code. Such modeling

iMaC: Translating Actions into Motion and Contact Images for Embodied World Models

👍 9

Embodied world models have emerged as a pivotal paradigm for visual robotic decision-making and interactive environment simulation. However, conventional embodied frameworks rely on low-dimensional structured action vectors (e.g., joint angles and end-effector poses), which suffer from limited expre

AlloSpatial: Agentic Harness Framework for Spatial Reasoning in Foundation Models

👍 1

Multimodal Foundation Models (MFMs) have made substantial progress, yet remain fragile in spatial reasoning over the physical world. A key bottleneck lies in their inability to transform local egocentric observations into a global allocentric spatial representation. To address this, we propose AlloS

Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents

👍 55

Despite recent progress, LLM agents still struggle with reasoning over long interaction histories. While current memory-augmented agents rely on a static retrieve-then-reason paradigm, this rigid pipeline design prevents them from dynamically adapting memory access to intermediate evidence discovere

Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

👍 15

Large language models (LLMs) perform inference by following a fixed depth and order, non-recurrent execution of all layers. We reveal the wide existence of training-free, flexible, dynamic program-of-layers (PoLar), where pretrained layers can be packed as modules and then skipped or looped to form

Statistically Reliable LLM-Based Ranking Evaluation via Prediction-Powered Inference

👍 0

With PRECISE, we extended Prediction-Powered Inference to produce bias-corrected estimates of ranking evaluation metrics by combining a small human-labeled set with a large LLM-judged set. PPI is provably unbiased regardless of the LLM judge's error profile. We make it applicable to hierarchical met

Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO

👍 19

We identify a new dimension for enhancing rollout diversity in Group Relative Policy Optimization (GRPO) for LLMs. While GRPO relies on diverse rollouts, prevailing strategies primarily increase diversity by injecting more token-level randomness, which may introduce step-wise noise and lead to incoh

FVSpec: Real-World Property-Based Tests as Lean Challenges

👍 0

We present a benchmark for evaluating AI models and agents on real-world formal software verification tasks. We first scrape 11,039 property-based tests (PBTs) from real-world Python repositories, then automatically translate 2,772 of them (25%) into 9,415 Lean 4 specifications with sorry placeholde

CARVE: Certified Affordable Repair of Vetoed Maneuvers via Envelopes for Interactive Driving

👍 0

Interactive driving exposes a failure mode that is easy to miss in rule-aware autonomous-driving stacks: a hard-rule margin can be negative for an ego candidate even though a small lawful accommodation by a non-priority agent would restore feasibility. Existing rulebooks, shields, and reachability f

AgentBrush

Your coding agent's missing tool: image generation

中文介绍 AgentBrush 是一款为编码代理设计的图像生成工具,旨在增强其功能,让 AI 代理能够生成图像。

Reignat

Privacy-friendly web analytics platform built for makers

中文介绍 Reignat 是一个注重隐私的网页分析平台,专为创作者设计,提供私密且易于使用的分析解决方案。

Notchcode

Claude Code + Codex agents in your notch

中文介绍 Notchcode 将 Claude Code 和 Codex 代理集成到用户的设备“notch”中,提供便捷的 AI 编码助手。

Fonda

Your AI co-founder that remembers decisions + plans for you

中文介绍 Fonda 是一款 AI 联合创始人工具,能够记住决策和计划,帮助用户更高效地推进项目。

Dropmatico

Drop. Pick. Done.

中文介绍 Dropmatico 提供了一种“Drop. Pick. Done.”的简便操作流程,具体功能未详述。

EmailFlow.AI

Like Claude Design for Email Newsletters

中文介绍 EmailFlow.AI 是一款 AI 工具,其设计理念类似于 Claude Design,用于生成和优化电子邮件通讯。

Momentra

A cozy camera app for beautifully framed memories

中文介绍 Momentra 是一款风格化的相机应用,专注于提供精美构图的拍照体验,帮助用户捕捉美好瞬间。

stackd.cc

The answer to "what's your AI stack?"

中文介绍 stackd.cc 旨在帮助用户回答“你的 AI 技术栈是什么?”这一问题,提供 AI 技术栈的解决方案。

Tinfoil Pigeons

See the aircraft flying over you on a retro radar scope

中文介绍 Tinfoil Pigeons 是一款应用,能够在复古雷达屏幕上显示您上方的飞行器,提供独特的视觉体验。

Novu Connect

Ship agents where your users already work

中文介绍 Novu Connect 允许用户将代理分发到用户已有的工作平台,方便用户在其熟悉的环境中使用。

A frontier without an ecosystem is not stable

@satyanadella · 5.9M 粉丝 · 1.9M 阅 · 3.5K 赞 · 541 转

I’ve been thinking a lot about the future of the firm in an AI-driven economy. This transition is different than any previous platform shift. In the past, we used digital systems to enhance human

中文介绍 微软CEO萨蒂亚·纳德拉分享对AI驱动经济下企业未来的思考。他指出,AI转型与以往的平台变革不同,过去数字系统主要增强人类,而AI则带来更深层次的转变,强调建立稳定生态系统的重要性。

Loops: What Every AI Engineer Needs to Know in 2026

@sairahul1 · 113.0K 粉丝 · 852.6K 阅 · 600 赞 · 79 转

Peter Steinberger, creator of OpenClaw, who now works with OpenAI. Yesterday he posted this: "You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents."

中文介绍 OpenClaw创始人、OpenAI员工Peter Steinberger指出,AI工程师应从直接给编程Agent写Prompt转向设计驱动Agent运行的「循环」(loops)。这代表了未来AI工程中代理系统交互方式的重要转变。

Codex-maxxing: treating Codex like an operating loop

@BradGroux · 5.9K 粉丝 · 714.6K 阅 · 1.0K 赞 · 638 转

Most people still use coding agents like fancy autocomplete or a one-shot chat box. That leaves a lot of value on the table. The better pattern is to treat Codex like a durable operating loop:

中文介绍 博主指出,多数人将Codex等编程Agent用作高级自动补全,未能充分利用其潜力。他提出,更有效的模式是将其视为一个持久的「操作循环」,以挖掘其更深层价值。

Fable 5 (Mythos) Prompting Masterclass by Anthropic

@aiedge_ · 69.5K 粉丝 · 700.1K 阅 · 506 赞 · 68 转

TLDR: Anthropic just published the official playbook for prompting the most powerful AI model on earth - I translated it. Most people won't read this guide (it's buried in the API docs), which is

中文介绍 博主翻译并分享了Anthropic针对其强大AI模型Fable 5 (Mythos)发布的官方提示词指南。他指出,这份指南内容深度且权威,但因藏于API文档中,多数人可能错过。

Everything Is Recorded Now

@dhaber · 50.0K 粉丝 · 497.3K 阅 · 500 赞 · 57 转

One of the biggest ways that AI is transforming work (and also one of the most taboo subjects inside companies at the moment) is that most work discussions are being recorded now by default. This

中文介绍 博主探讨了AI对工作方式的重大变革:多数工作讨论正默认被记录下来。他指出这在企业内部是敏感话题,AI技术将对工作效率、透明度及员工隐私带来深远影响。

First Steps Toward Automated AI Research

@Recursive_SI · 6.3K 粉丝 · 465.1K 阅 · 516 赞 · 71 转

Early results from Recursive’s automated AI research system on model training and GPU kernel benchmarks Today we are releasing early results from Recursive’s automated AI research system. Across three

中文介绍 Recursive公司发布其自动化AI研究系统的早期成果,重点关注模型训练与GPU内核基准测试。这标志着通过AI系统实现自主AI研究的初步进展。

Indian IT is Not Failing in AI - It Was Never Meant to Build ChatGPT

@Fintech03 · 34.9K 粉丝 · 438.8K 阅 · 501 赞 · 137 转

The critique that Indian IT services (the classic TCS, Infosys, Wipro, HCL cohort) are failing India in the current generative AI race is an incredibly popular talking point. It is easy to look at the

中文介绍 博主反驳了印度IT服务业在生成式AI竞赛中「失败」的流行观点。他认为,TCS、Infosys等公司从未以构建ChatGPT为目标,其核心业务模式与价值定位不同,不应以此标准衡量。

Build self-improving agent system with Fable 5 in 14 steps : loops, dynamic workflows, routines

@0xCodez · 6.4K 粉丝 · 371.8K 阅 · 515 赞 · 56 转

Most people are using Claude Fable 5 like Sonnet 4.6 with a bigger context window. They prompt it. It works for 5 minutes. They close the tab. 9 out of 10 users have never run an agent system that

中文介绍 博主指出,多数人未充分利用Claude Fable 5构建自改进代理系统。他将分享一个14步教程,指导用户如何运用Fable 5设计包含循环、动态工作流及例程的系统,以实现更高效的AI应用。

Anthropic is losing the mandate of heaven

@haridigresses · 12.5K 粉丝 · 281.7K 阅 · 513 赞 · 36 转

Four months ago, in early February, Anthropic was the darling. OpenAI was the dominant behemoth to root against. Over the last 1-2 years, we'd seen the Sam ouster / return drama, Ilya and Mira had

中文介绍 博主评论AI界近期动态,指出四个月前Anthropic是「宠儿」,OpenAI是「反派」。但随着Sam Altman事件、Ilya和Mira离开等一系列变化,Anthropic正失去其影响力与「天命」。

An extremely subtle brainwashing

@AnthonyNAguirre · 4.2K 粉丝 · 232.1K 阅 · 527 赞 · 38 转

I've been getting really bothered lately by something subtle but quite dangerous that I believe is currently going on and promises to get worse: Large numbers of very smart, capable, and important

中文介绍 博主对当前AI时代正在发生的一种「微妙但危险的洗脑」现象表达担忧。他认为许多聪明能干的重要人士正受到某种影响,并预警这种趋势可能恶化,暗示对信息操纵和认知偏差的警惕。

The Untrainable

@saranormous · 143.5K 粉丝 · 194.8K 阅 · 614 赞 · 40 转

The mid-2026 investor's version of AI psychosis is a despair that nothing is investable, that we should put all our money into Anthropic and Nvidia and go home. I have never felt it. I have been sure

中文介绍 博主探讨2026年中期投资者可能陷入的「AI精神病」:认为除Anthropic和Nvidia外,AI领域皆无投资价值。他个人对此持不同意见,坚信AI市场仍有广泛且值得投资的机遇。

How to Build a Self-Improving Loop in Claude Code (Exact Setup Inside)

@0x_rody · 1.7K 粉丝 · 193.2K 阅 · 513 赞 · 72 转

Claude writes your code, hands it over, and 3 tests are failing. You paste the errors back, it fixes one thing, breaks another, and you spend the evening as a messenger between Claude and your

中文介绍 博主分享Claude Code的自改进循环构建教程。他指出,传统工作流中用户常充当Claude与测试间的「信使」,效率低下。教程将提供精确设置,帮助用户摆脱手动调试困境。

Building a Good Vertical Agent

@BrainsAndTennis · 10.5K 粉丝 · 187.4K 阅 · 539 赞 · 45 转

How do you build an agent that actually performs in a domain — one customers pick because it's better? The basics have been standardized over the past year: an agent is a while-loop around a model

中文介绍 博主探讨如何构建在特定领域表现卓越、受客户青睐的AI代理。他指出,过去一年Agent构建的基础已标准化为「围绕模型运行的while循环」,强调了工作流设计的重要性。

My Week with Fable

@MatthewBerman · 121.3K 粉丝 · 108.0K 阅 · 661 赞 · 26 转

tl;dr I've been testing Fable (Mythos) for the past week and it feels unlike any other model I've used. It feels, and is priced, like a next-generation model. It also has some real quirks. The Good

中文介绍 博主分享一周使用Anthropic Fable (Mythos)模型的体验。他指出Fable是一款「下一代模型」,性能卓越且定价匹配,但也存在一些独特「怪癖」。帖子将深入分析其优缺点。

Kimi to Predict All 104 World Cup Matches: Germany May Be Underestimated

@Kimi_Moonshot · 172.7K 粉丝 · 106.6K 阅 · 500 赞 · 61 转

Our predictions will probably be wrong. But the World Cup offers a rare, public, verifiable, and constantly evolving real-world setting. Through this initiative, we hope to place analysis,

中文介绍 Kimi Moonshot宣布将预测全部104场世界杯比赛,并指出德国队可能被低估。他们认为,世界杯是验证AI分析能力、且不断演进的真实世界场景,旨在通过此举提升分析准确性。

Loop engineering: the 14-step roadmap from prompter to loop designer.

@0xCodez · 6.4K 粉丝 · 97.8K 阅 · 510 赞 · 80 转

Most developers still prompt their coding agents by hand. They type, they wait, they read the diff, they type again. 9out of 10 builders have never written a single loop that prompts the agent for

中文介绍 博主指出,多数开发者仍手动给编程Agent写Prompt,效率不高。他分享14步路线图,指导开发者从「提示词工程师」转型为「循环设计者」,即通过编写循环自动化Agent的Prompt过程。

Designing loops with Fable 5

@RLanceMartin · 30.4K 粉丝 · 84.7K 阅 · 660 赞 · 50 转

Mythos-class models like Claude Fable 5 have changed the way many of us work at Anthropic. I want to share two tips for getting the most out of this class of models. Self-correction loops There’s been

中文介绍 Anthropic员工分享利用Claude Fable 5等Mythos级别模型进行「循环设计」的经验。他将提供2个关键技巧,尤其强调「自纠正循环」的运用,帮助用户充分发挥这类模型的强大潜力。

Autonomous Long-Running Coding Agents

@omarsar0 · 307.3K 粉丝 · 81.2K 阅 · 518 赞 · 66 转

Autonomous coding is moving from better prompting to better control systems. The important shift is that engineers are learning how to wrap agents in goals, evaluators, loops, and artifacts that let

中文介绍 博主指出,自主编程正从优化Prompt转向更优的「控制系统」。关键在于工程师们正学习如何运用「目标、评估器、循环和工件」封装Agent,使其实现长期自主运行。

Anthropic's War on Opensource AI

@TheAhmadOsman · 61.0K 粉丝 · 74.9K 阅 · 507 赞 · 98 转

Anthropic wants the public to see one thing: the careful lab, the safety lab, the grown-up in the room trying to keep frontier AI from running off a cliff. However, the pattern around Anthropic does

中文介绍 博主评论Anthropic在开源AI领域的策略。他指出Anthropic虽力图塑造负责任的AI安全实验室形象,但其行为模式可能与其宣称的立场有所出入,暗示该公司或对开源AI有所限制。

Coinbase for Agents: Your AI Agent Can Now Trade and Pay with Coinbase

@coinbase · 7.0M 粉丝 · 72.8K 阅 · 500 赞 · 62 转

TL;DR: Coinbase for Agents connects your AI agent directly to your Coinbase account so it can trade, pay, and execute workflows on your behalf, all within limits you control. Available today as an MCP

中文介绍 Coinbase推出「Coinbase for Agents」服务,允许用户AI代理直接连接Coinbase账户,在设定的限额内进行交易、支付及执行工作流。该功能现已作为MCP版本上线。

The Window Has Closed

@AndrewCurran_ · 53.9K 粉丝 · 62.8K 阅 · 7d 曝光 62.8K

The Window Has Closed

Why the Government Just Killed Claude Fable 5

中文介绍 视频讨论了政府为何限制或禁止了 Claude Fable 5 模型的使用,暗示该模型可能存在某些风险或争议。

This is Why They Banned Claude Fable 5

中文介绍 本视频解释了 Claude Fable 5 模型被禁止的具体原因,可能涉及其性能、安全限制或伦理问题。

Claude FM 🎵 music for thinking and building

中文介绍 Claude 推出了名为 Claude FM 的音乐服务,旨在为思考和创作提供背景音乐,辅助用户提升效率。

Code with Claude Tokyo 2026: Opening Keynote

中文介绍 这是「Code with Claude Tokyo 2026」活动的开幕主题演讲,可能聚焦于 Claude AI 在编程领域的应用和未来发展。

The Problem Solvers | Michael Truell at Cursor

中文介绍 Michael Truell 在 Cursor 公司就「问题解决者」这一主题发表演讲,可能涉及 AI 在解决复杂问题中的作用。

Claude Fable 5 beats Pokémon FireRed only using vision

中文介绍 Claude Fable 5 模型在仅使用视觉信息的情况下,成功打败了《宝可梦:火红》游戏,展示了其强大的视觉理解和决策能力。

Claude FM 🎵 music for thinking and building

中文介绍 Claude 推出了名为 Claude FM 的音乐服务,旨在为思考和创作提供背景音乐,辅助用户提升效率。

Code with Claude Tokyo 2026: Opening Keynote

中文介绍 这是「Code with Claude Tokyo 2026」活动的开幕主题演讲,可能聚焦于 Claude AI 在编程领域的应用和未来发展。

The Problem Solvers | Michael Truell at Cursor

中文介绍 Michael Truell 在 Cursor 公司就「问题解决者」这一主题发表演讲,可能涉及 AI 在解决复杂问题中的作用。

Why do South Koreans love AI so much?

This story originally appeared in The Algorithm, our weekly newsletter on AI. To get stories like this in your inbox first, sign up here. When I landed in Seoul after a grueling 12-hour flight from San Francisco, I walked through an unmanned immigration checkpoint, where a machine scanned my face an

中文介绍 韩国民众对人工智能(AI)表现出高度热情,这体现在从无人值守的移民检查站到日常工作和生活的方方面面。这种广泛接受度和喜爱度可能源于技术普及、政府支持以及AI在提升便利性和效率方面的潜力。

Meet the winners of Built with Opus 4.7 Claude Code hackathon

Meet the winners of Built with Opus 4.7 Claude Code hackathon

中文介绍 Claude 举办了 "Built with Opus 4.7" 编码马拉松,旨在表彰和展示利用其最新技术进行创新的开发者。活动汇聚了众多才华横溢的参赛者,他们构建了各种令人印象深刻的应用。

Introducing the OpenAI Partner Network

OpenAI launches the Partner Network, investing $150M to help global partners accelerate enterprise AI adoption, deployment, and transformation.

中文介绍 OpenAI 正式推出其合作伙伴网络(Partner Network),并承诺投资 1.5 亿美元,旨在支持全球合作伙伴加速企业级AI的采用、部署和转型。

[AINews] Fable and Mythos officially too dangerous to release

We are in the strangest timeline.

中文介绍 文章指出,Anthropic 的 Fable 和 Mythos 模型因被认为“过于危险”而未能正式发布,反映了当前AI模型安全性和可控性方面面临的挑战。

New OpenAI Academy courses for the next era of work

OpenAI introduces three Academy courses that help people build practical AI skills, create repeatable workflows, and apply agents in everyday work.

中文介绍 OpenAI 推出了三门新的 Academy 课程,专注于帮助用户掌握实用的AI技能,创建可重复的工作流程,并在日常工作中应用AI代理。

[AINews] Loopcraft: The Art of Stacking Loops

a quiet day lets us highlight a great concept from Peter Steinberger, Boris Cherny, and Andrej Karpathy

中文介绍 文章介绍了 Loopcraft 概念,由 Peter Steinberger、Boris Cherny 和 Andrej Karpathy 提出,探讨了在AI领域中“堆叠循环”的艺术。

How Preply combines AI and human tutors to personalize learning

Preply uses OpenAI to launch AI-generated lesson summaries, providing personalised feedback and language learning exercises.

中文介绍 在线语言学习平台 Preply 利用 OpenAI 技术,推出了 AI 生成的课程摘要和个性化练习,以增强学习者的语言学习体验。

Google DeepMind is worried about what happens when millions of agents start to interact

Google DeepMind is funding research into the potential dangers of situations where millions of different AI agents interact with each other online. According to Rohin Shah, who directs the company’s AGI safety and alignment research, the mass-market arrival of agents that can carry out tasks without

中文介绍 Google DeepMind 对数百万个AI代理在线互动可能带来的潜在危险表示担忧,并为此类AGI安全和对齐研究提供资金支持。

BBVA puts AI at the core of banking with OpenAI

Learn how BBVA scaled ChatGPT Enterprise to 100,000 employees and partnered with OpenAI to accelerate AI-powered banking transformation worldwide.

中文介绍 BBVA 银行将 AI 置于其核心业务中,通过与 OpenAI 合作,已将 ChatGPT Enterprise 推广至 10 万名员工,加速全球银行业务的AI转型。

How an astrophysicist uses Codex to help simulate black holes

Discover how astrophysicist Chi-kwan Chan uses Codex to build black hole simulations, helping scientists study extreme physics and test Einstein’s theory of general relativity.

中文介绍 天体物理学家 Chi-kwan Chan 利用 OpenAI 的 Codex 工具构建黑洞模拟,以帮助科学家研究极端物理现象和验证爱因斯坦的广义相对论。

OpenAI to acquire Ona

OpenAI plans to acquire Ona to expand Codex with secure, persistent cloud environments, enabling long-running AI agents across enterprise workflows.

中文介绍 OpenAI 宣布计划收购 Ona,以增强其 Codex 能力,提供安全、持久的云环境,并支持企业工作流中长期运行的AI代理。

夸GLM5.2被踢

戾气还是太重了 10 个帖子 - 8 位参与者 阅读完整话题

any蹬上了,但它说它是肥波5?

好几天了这是第一次蹬上any 佬们,这是何意味? *看到佬们几分钟这么多回复,声明一下不是质疑,就是遇到了图一乐昂。按楼下说的很可能是第一次say hi的时候选了肥波5的原因,导致第二次问你是什么模型的时候,它可能附带了什么提示词了 咱也不懂,应该就素酱紫。 50 个帖子 - 44 位参与者 阅读完整话题

【开源 Skills】清华博士自用的科研&编程&日常 Agent 生态:COMPASS 司南

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI 生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 佬友们,接着https://linux.do/t/topic/2394586 讨论 为了高效的科研,尽量发论文毕业,我从 openai 刚出来就在使用各种 AI 模型,并且从今天年初使用 openclaw 的时候就在研究迭代各种 skill。本着开源的态度,我把自己的这套 “自

投稿的论文终于中了

今年1月份投稿的Elsevier论文,今天终于中了,特作纪念。 说来惭愧,这篇论文还是24年7月份开始构思和做实验的。因为实验结果一直不理想,一直拖到25年才终于定下初稿。一开始投的1区,后来不出所料被拒了。继续修改投了现在这个2区(具体的名字就不说了)经过二审后终于录用。直到现在打开doi号看到自己的网页版和可以下载的pdf版,依然还有一种不真实的感觉。这是我的第一篇论文,我还是很用心的,像是自己的孩子一样。至于论文是什么,就不给佬们献丑了。 最后祝L站的佬友们,也能论文顺利,一投就中 28 个帖子 - 14 位参与者 阅读完整话题

求顶,让管理们看到(

事先声明:我并非有意带节奏,但是接连问了两个管理都没有人理我(可能是比较忙),这事对我真的很重要,迫于无奈,我只好发帖求助 事情是这样的,我从去年开始追求连续365天上线,可是Discourse论坛系统出了问题,我在阅读时间为0的这一天很明确的上线了,而且不是上线了事,是浏览了不少帖子 我已经连着上了10个月了,这是最后两个月,我不想因为这种bug断掉,只好发帖求助 49 个帖子 - 30 位参与者 阅读完整话题

【富可敌国】ccmax20 没错 我们的域名就是ccmax20 一家专做ccmax的中转站

常说 因为专注 所以专业 我们成立这家ccmax20.cc中转站的目的就是想给各位佬友提供优质的服务 我们经过多月自研号池 现已稳定 不混池 是纯血cc就是纯血 号池可查 正规渠道 非速刷 倍率1 充值1RMB到账1U 倍率真实可查 拉账单 部分地区无法进入 开关魔法 飞行模式后尝试 给各位佬友安排了10刀测试余额 留下你的用户名 给你专属留言兑换码 企业对接 可开票 拉专属对接服务群 服务不中断 售后有保障 量大高并发拿直连 网站:ccmax20.cc 轻松 好记 支持LinuxDo登录 企业对接享专属倍率 对接微信:baby89ii QQ群:868616225 备注来自(linuxdo)

我用codex现在给公司做了一个系统,现在集团也知道了,想让我往上搞,做成项目。佬们我的结局是什么?

我现在是公司的部门副职领导其实就没有几个人要我领导的都是干活的,负责经营管理也兼任一些it运维工作的,属于传统能源行业,专业是计算机相关的。整个集团都没几个计算机专业的,所以ai这方面我相当于走的比较快。 79 个帖子 - 64 位参与者 阅读完整话题

Show HN: Vet turned founder, AI lawn diagnosis

I know, it's kind of weird. What is a veterinarian doing creating an analysis tool for lawn problems?Frankly, the idea was born of my own lawn care struggles. Endless lawn care company fees without any actual improvement. Googling problems and finding generic solutions without regional consider

Launch HN: Drafted (YC P26) – Models for residential architecture

I’m Nick, founder of Drafted (https://www.drafted.ai). We’re training models that generate residential architecture from structured design constraints.Product demo: https://www.youtube.com/watch?v=8QkJ7jNU9y4Residential architecture is still one of the most expensive, slow,

Show HN: machine0 – Persistent NixOS VMs You Control from the CLI

Hi HN! Excited to launch machine0, a CLI that makes it easy to create, provision and snapshot persistent NixOS (& Ubuntu) VMs.You can think of machine0 as a modern VPS provider. VMs stay on unless switched-off (with 99.99% uptime), they have static IPs and HTTPS endpoints, 1-60 vCPU, up to 240GB

Iroh 1.0

815 points · 259 comments

CrankGPT

528 points · 209 comments

Hetzner Price Adjustment

https://www.hetzner.com/pressroom/standardization-and-price-...

Show HN: Fata – Spaced repetition to fight skill rot from AI coding

Hi HN, I'm Djoumé. I've been a developer for over 20 years, and like a lot of you I've been coding almost exclusively through an agent in the past few months.It's been amazing to vibe code prototypes in any stack, but when it comes to building something reliable/scalable, I

今日主题

今日AI日报聚焦两大核心趋势:一是AI代理(Agent)技术的加速进化与应用落地,从代码库感知到与金融市场交互,再到自主研究和多代理协同,AI Agent正显现出更强大的自主性和多模态能力。二是围绕大型语言模型(LLMs)的安全、评估与优化,包括模型的“危险性”评估、长视频理解、社交规范适应性,以及LoRA等微调技术的深入研究。同时,OpenAI、Anthropic等巨头动作频频,通过收购、生态建设和课程推广,持续推动AI技术的边界。

01

模型发布/更新

Model Releases 66 篇

金融领域基础模型Kronos发布

开源项目GitHub Trending

Shiyu-coder 推出了Kronos,一个专为金融市场语言设计的“基础模型”。该模型通过海量金融文本数据预训练,能深入理解金融专业术语和市场动态,解决了通用LLM在金融领域适应性不足的问题,可为金融分析师、量化研究员提供强大的自然语言处理能力,应用于市场分析、研报生成等场景。

金融AI基础模型自然语言处理

OpenAI推出合作伙伴网络

官方OpenAI News

OpenAI 正式发布合作伙伴网络,并承诺投资 1.5 亿美元,旨在支持全球合作伙伴加速企业级AI的采用、部署和转型。此举标志着OpenAI在构建AI生态系统方面迈出了重要一步,意图通过赋能更多企业来推广AI技术。

OpenAI生态合作

OpenAI宣布收购Ona

官方OpenAI News

OpenAI 宣布计划收购 Ona,此举旨在增强其Codex能力,并提供安全、持久的云环境,以支持企业工作流中长期运行的AI代理。此次收购预示着OpenAI在AI代理和企业级解决方案领域的进一步投入。

OpenAI收购AI代理

Anthropic Fable关闭,GLM-5.2发布

综合资讯TLDR AI

本期AI资讯涵盖了模型动态:Anthropic 的 Fable 模型因被认为“过于危险”而关闭;GLM 发布了 5.2 版本;OpenRouter 推出了 Fusion 功能。这反映了AI模型在安全性与性能之间权衡的挑战。

模型发布AI动态

Anthropic Fable/Mythos模型因危险性被关闭

大咖博客Latent Space

文章指出,Anthropic 的 Fable 和 Mythos 模型因被认为“过于危险”而未能正式发布。这凸显了当前AI模型在安全性和可控性方面面临的严峻挑战,以及如何在推动技术发展与防范潜在风险之间取得平衡。

AI安全模型关闭

Claude Fable 5仅凭视觉打败宝可梦

官方Claude (YouTube)

Claude Fable 5模型在仅使用视觉信息的情况下,成功击败了《宝可梦:火红》游戏。这一成就展示了该模型强大的视觉理解、策略规划和决策执行能力,预示着其在复杂交互场景下的巨大潜力。

ClaudeAI游戏视觉能力
02

产品发布/更新

Product 66 篇

OpenAI推出三门新AI工作技能课程

官方OpenAI News

OpenAI 推出了三门新的 Academy 课程,专注于帮助用户掌握实用的AI技能,创建可重复的工作流程,并在日常工作中应用AI代理。这些课程旨在赋能用户更好地适应AI驱动的工作新时代。

AI教育OpenAI

Preply利用OpenAI技术个性化语言学习

官方OpenAI News

在线语言学习平台 Preply 引入 OpenAI 技术,推出 AI 生成的课程摘要和个性化练习,以增强学习者的语言学习体验。该应用展示了AI如何为教育科技领域带来更高效、更具针对性的解决方案。

AI应用教育科技

BBVA银行将ChatGPT Enterprise推广至10万员工

官方OpenAI News

BBVA 银行将 AI 置于其核心业务中,通过与 OpenAI 合作,已将 ChatGPT Enterprise 推广至 10 万名员工,以加速全球银行业务的AI转型。此举表明金融行业对AI赋能效率和创新的重视。

AI应用金融科技

Notchcode集成Claude Code与Codex代理

产品榜单Product Hunt

Notchcode 将 Claude Code 和 Codex 代理集成到用户的设备“notch”中,提供便捷的 AI 编码助手。该产品旨在为开发者提供更无缝、更高效的编程辅助体验。

AI助手编程

Fonda AI联合创始人工具发布

产品榜单Product Hunt

Fonda 是一款 AI 联合创始人工具,能够记忆决策和计划,帮助用户更高效地推进项目。该工具旨在成为项目管理中的智能助手,提升团队协作和执行效率。

AI助手项目管理

Relay AI接待员服务上线

产品榜单Product Hunt

Relay 是一款 AI 接待员服务,用户只需粘贴网站链接,AI 即可学会并处理来电。该产品旨在自动化客户服务流程,提升响应效率和用户体验。

AI客服自动化
03

行业动态

Industry 66 篇

NVIDIA SkillSpector保障AI Agent安全

开源项目GitHub Trending

NVIDIA SkillSpector 是一款专为 AI Agent 技能设计的安全扫描工具,能够检测潜在漏洞、恶意模式及安全风险。该项目解决了 AI 应用安全的关键挑战,适用于开发者和安全研究人员,帮助在部署智能代理前识别和缓解威胁。

AI安全安全扫描AI Agent

Claude举办“Built with Opus 4.7”编程马拉松

官方Claude Blog

Claude 举办了 "Built with Opus 4.7" 编码马拉松,旨在表彰和展示利用其最新技术进行创新的开发者。活动汇聚了众多才华横溢的参赛者,他们构建了各种令人印象深刻的应用,促进了AI技术的社区发展。

AI竞赛Claude

Google DeepMind担忧多代理互动风险

综合资讯MIT Tech Review AI

Google DeepMind 对数百万个AI代理在线互动可能带来的潜在危险表示担忧,并为此类AGI安全和对齐研究提供资金支持。这表明业界对AI代理大规模协作的潜在影响日益重视。

AI安全AI代理

微软CEO:AI转型需稳定生态系统

X·KOLX 推文 (AttentionVC)

微软CEO萨蒂亚·纳德拉分享对AI驱动经济下企业未来的思考,强调AI转型与以往平台变革的不同。他指出AI带来更深层次的转变,并强调建立稳定生态系统的重要性,这影响着企业对AI战略的布局。

观点宏观趋势经济

印度IT业在AI竞赛中的定位

X·KOLX 推文 (AttentionVC)

博主反驳了印度IT服务业在生成式AI竞赛中“失败”的观点,认为TCS、Infosys等公司从未以构建ChatGPT为目标,其核心业务模式和价值定位不同。文章旨在重新审视印度IT业在AI浪潮中的真实地位。

观点印度IT行业分析

Anthropic对开源AI策略的讨论

X·KOLX 推文 (AttentionVC)

博主评论Anthropic在开源AI领域的策略,指出该公司虽强调负责任AI安全,但其行为模式可能与其宣称的立场存在差异,暗示可能对开源AI有所限制。此观点引发对AI企业实践与承诺一致性的讨论。

Anthropic开源AI行业评论
04

技巧与观点

Tips & Takes 88 篇

Agent-Reach赋予AI Agent互联网浏览能力

开源项目GitHub Trending

Panniantong 推出的 `Agent-Reach` 赋予 AI Agent 浏览和搜索互联网的能力,可访问 Twitter、Reddit 等平台且无需API费用。该项目解决了 AI Agent 获取实时、多样化网络信息的障碍,适用于构建需要实时信息收集或舆情分析能力的智能代理。

AI Agent网络爬虫数据获取

cua: 计算机使用型AI Agent基础设施

开源项目GitHub Trending

trycua 推出的 `cua` 是一个为计算机使用型 AI Agent 设计的开源基础设施。它提供沙盒环境、SDK 和基准测试工具,用于训练和评估能全面控制桌面的 AI Agent。该项目解决了 AI Agent 与复杂操作系统级 GUI 交互的开发与测试难题。

AI Agent自动化沙盒环境

AI工程从零开始实践指南

开源项目GitHub Trending

rohitg00 的 `ai-engineering-from-scratch` 提供一套从零开始构建和部署 AI 系统的学习与实践路径。它涵盖 AI 模型开发、MLOps、部署策略等实际工程问题,解决了理论学习与实际交付之间的鸿沟,适用于希望掌握 AI 工程技能的用户。

AI工程MLOps部署

LLM代理可“看见”代码仓库

官方HuggingFace Trending Papers

研究表明,LLM驱动的编码代理在软件工程任务中表现出色,但常将代码库视为纯文本。本文探索了LLM代理如何“看见”代码仓库的视觉结构(如文件夹层级和依赖关系),以提升其理解和编码能力。

LLM代码代理

HarnessX: AI代理框架构建

官方HuggingFace Trending Papers

HarnessX 是一个可组合、自适应且可演化的 AI 代理“马具”(harness)构建框架。它解决了现有手工制作且静态的马具限制,为每个新模型或任务提供定制化解决方案,适用于构建高性能AI代理。

LLM代理框架

AI工程师转向“循环”设计

X·KOLX 推文 (AttentionVC)

OpenClaw创始人Peter Steinberger指出,AI工程师应从直接给编程Agent写Prompt转向设计驱动Agent运行的「循环」(loops)。这代表了未来AI工程中代理系统交互方式的重要转变。

代理系统编程范式提示词工程

14步构建Claude Fable 5自改进代理系统

X·KOLX 推文 (AttentionVC)

博主将分享一个14步教程,指导用户如何运用Claude Fable 5设计包含循环、动态工作流及例程的系统,以实现更高效的AI应用。教程侧重于从“提示词工程师”转型为“循环设计者”。

Fable 5代理系统教程

Coinbase为AI代理推出交易功能

X·KOLX 推文 (AttentionVC)

Coinbase推出「Coinbase for Agents」服务,允许用户AI代理直接连接Coinbase账户,在设定的限额内进行交易、支付及执行工作流。该功能现已作为MCP版本上线,标志着AI代理在金融领域的应用拓展。

CoinbaseAI应用加密货币