GitHub Trending
项目提供了为 AI 编程代理设计的生产级工程技能库,旨在增强 AI 在软件开发任务中的能力。
推荐理由:该项目提供了可用于构建更强大 AI 编程代理的技能集,对开发者和 AI 研究者具有直接参考价值。
GitHub Trending
项目提供了为 AI 编程代理设计的生产级工程技能库,旨在增强 AI 在软件开发任务中的能力。
推荐理由:该项目提供了可用于构建更强大 AI 编程代理的技能集,对开发者和 AI 研究者具有直接参考价值。
OpenAI News
OpenAI 推出了三门新的学院课程,旨在帮助用户掌握实际 AI 技能,创建可重复的工作流程,并将 AI 代理应用于日常工作中。
推荐理由:课程内容直接面向职场人士,提供了提升 AI 应用能力的实用指导。
Claude Blog
文章探讨了代理式应用界面的演变,并提供了使用 Claude Managed Agents 进行构建的实践指导。
推荐理由:为开发者提供了关于如何构建更先进 AI 交互界面的具体思路和方法。
Hugging Face Blog
Allen AI 推出的 Olmo-Eval 是一个用于模型开发循环的评估工作台,为模型开发者提供了一个统一的评估框架。
推荐理由:为 AI 模型开发者提供了一个实用的评估工具和框架,有助于改进模型开发流程。
DeepMind Blog
Google DeepMind 发布 DiffusionGemma 模型,该模型在文本生成任务上实现了四倍的速度提升,标志着生成模型效率的新进展。
推荐理由:显著的技术突破,展示了在效率方面的重要进展,对生成模型研究有参考价值。
Smol AI News
Anthropic 推出了 Claude Fable 5 模型用于通用访问,并为敏感查询提供 Claude Opus 4.8 的回退机制。
推荐理由:重大模型更新,标志着 Anthropic 在其模型能力上的又一进展,对关注大模型进展的用户有信息价值。
GitHub Trending
Music Assistant 是一个免费的开源媒体库管理器,可连接流媒体服务和各类智能音箱,其服务器是核心部分。
推荐理由:对于音乐爱好者和技术开发者来说,这是一个实用的开源项目,可以更好地管理和播放音乐。
HuggingFace Trending Papers
该论文提出了一种在不同 AI 代理间进行密集潜在通信的方法,旨在克服传统文本通信的损耗和成本问题。
推荐理由:深入探讨了多代理系统通信的前沿技术,对相关领域研究者具有较高参考价值。
MIT Tech Review AI
Google DeepMind 正在资助研究,以应对未来数百万 AI 代理在线交互可能带来的潜在危险。
推荐理由:引发对 AI 安全和未来 AI 发展方向的思考,具有重要的前瞻性。
Hacker News
一篇关于“开源 AI 必须胜利”的文章在 Hacker News 上引起广泛关注和讨论,强调了开源模式在 AI 发展中的重要性。
推荐理由:提供了关于 AI 发展模式的重要观点,鼓励大家思考和参与到开源 AI 的建设中。
Shell · ★ 57,001 · 🍴 6,146 · 📈 2,656 stars today
Production-grade engineering skills for AI coding agents.
中文介绍 提供用于 AI 编码代理的生产级工程技能集,旨在提升 AI 代理在软件开发生命周期中的生产力和智能化水平,助力开发者构建更强大的 AI 助手。
Python · ★ 1,813 · 🍴 424 · 📈 20 stars today
Music Assistant is a free, opensource Media library manager that connects to your streaming services and a wide range of connected speakers. The server is the beating heart, the core of Music Assistant and must run on an always-on device like a Raspberry Pi, a NAS or an Intel NUC or alike.
中文介绍 Music Assistant 的核心服务器组件,用于管理个人媒体库,聚合来自不同流媒体服务的内容,并支持与多种智能音箱和播放设备连接,提供统一的音乐播放和管理体验。
TypeScript · ★ 37,661 · 🍴 8,716 · 📈 388 stars today
Mattermost is an open source platform for secure collaboration across the entire software development lifecycle..
中文介绍 一款开源的协作平台,为软件开发团队提供安全、私有的通信和协作环境,覆盖从代码开发到部署的整个生命周期,旨在替代 Slack 等商业工具。
Swift · ★ 35,271 · 🍴 986 · 📈 3,504 stars today
A tool for creating and running Linux containers using lightweight virtual machines on a Mac. It is written in Swift, and optimized for Apple silicon.
中文介绍 一款使用 Swift 编写的 macOS 工具,通过轻量级虚拟机创建和运行 Linux 容器,特别针对 Apple Silicon 优化,方便开发者在 Mac 上进行容器化开发和测试。
TypeScript · ★ 118,092 · 🍴 6,306 · 📈 179 stars today
Collection of publicly available IPTV channels from all over the world
中文介绍 收集全球范围内公开可用的 IPTV 频道列表,方便用户查找和订阅各类直播电视频道,构建个人化的直播媒体中心。
Shell · ★ 226,138 · 🍴 20,098 · 📈 1,275 stars today
An agentic skills framework & software development methodology that works.
中文介绍 一个 Agentic Skills Framework & Software Development Methodology,旨在通过定义和组织 AI Agent 的能力,来改进软件开发流程,提升开发效率和项目管理水平。
TypeScript · ★ 15,852 · 🍴 1,082 · 📈 369 stars today
Desktop app to manage markdown knowledge bases
中文介绍 一款桌面应用程序,用于管理 Markdown 格式的知识库,帮助用户组织、搜索和维护个人笔记、文档或项目信息,提高知识管理的效率。
Python · ★ 3,229 · 🍴 308 · 📈 515 stars today
open-source healthcare ai
中文介绍 一个开源的医疗健康 AI 项目,致力于利用人工智能技术解决医疗领域的挑战,可能包括疾病诊断、药物研发、个性化治疗方案等,旨在推动医疗技术的进步。
Python · ★ 8,660 · 🍴 1,289 · 📈 28 stars today
LMCache: Supercharge Your LLM with the Fastest KV Cache Layer
中文介绍 LMCache 是一个高性能的 KV Cache 层,旨在加速 LLM(大语言模型)的推理速度。通过优化缓存机制,显著提升 LLM 在处理大量请求时的效率。
★ 17,085 · 🍴 1,751 · 📈 827 stars today
PM Skills Marketplace: 100+ agentic skills, commands, and plugins — from discovery to strategy, execution, launch, and growth.
中文介绍 一个项目管理(PM)技能市场,提供超过100种 Agentic 技能、命令和插件,涵盖从产品发现、策略制定到执行上线和增长等全流程,赋能 AI Agent 完成复杂的项目管理任务。
Go · ★ 6,046 · 🍴 543 · 📈 400 stars today
Advanced DNS tunneling VPN for censorship bypass, optimized beyond DNSTT and SlipStream with low-overhead ARQ, resolver load balancing, high packet-loss stability and speed.
中文介绍 一个先进的 DNS 隧道 VPN 工具,用于绕过网络审查。它通过低开销 ARQ、解析器负载均衡和高丢包稳定性优化,提供比现有方案(如 DNSTT, SlipStream)更快的速度和更稳定的连接。
Shell · ★ 112,500 · 🍴 18,342 · 📈 1,026 stars today
A complete AI agency at your fingertips - From frontend wizards to Reddit community ninjas, from whimsy injectors to reality checkers. Each agent is a specialized expert with personality, processes, and proven deliverables.
中文介绍 一套完整的 AI Agent 代理系统,提供从前端到社区运营的各种专业 AI Agent,每个 Agent 都具备独特的个性和流程,可用于构建自动化服务或内容生成。
C · ★ 134,379 · 🍴 8,063 · 📈 103 stars today
Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows
中文介绍 微软出品的一系列 Windows 实用工具集,旨在增强用户的生产力和自定义能力,提供包括窗口管理、文件预览、键盘映射等多种便捷功能。
👍 2
Multi-agent systems communicate mostly through text, paying a lossy and expensive decode and re-encode cost. KV-cache communication is a promising alternative, yet most prior work is homogeneous, using duplicate copies of the same model, and avoids the central challenge of cross-model latent alignme
中文介绍 研究提出了一种名为“KV-cache通信”的跨异构智能体通信新方法,旨在解决当前多智能体系统主要依赖文本通信带来的高昂成本和信息损失问题。与现有同质化模型不同,该方法能够处理不同模型间的通信,解决了跨模型通信的挑战。
👍 2
Interactive LLM agents are becoming part of daily work, but they do not reliably become easier to work with over time: a correction remembered in one session may still be violated in the next. We study this gap between preference access and preference compliance. In tasks derived from anonymized rea
中文介绍 本文研究如何让交互式LLM智能体在会话中学习并遵守用户偏好。当前智能体在一次会话中的修正可能在下次失效。研究旨在弥合用户偏好访问和偏好遵循之间的差距,以提升智能体与用户协作的长期效率。
👍 2
Multimodal Large Language Models (MLLMs) have shown promising reasoning capabilities in general domains, yet their performance remains limited in specialized settings such as healthcare, especially in multilingual and low-resource scenarios. This gap is critical in regions like rural India, where pa
中文介绍 ArogyaSutra是一个多智能体框架,旨在提升多模态大语言模型(MLLMs)在印度语言医疗领域的推理能力。当前MLLMs在专科领域,尤其是在多语言低资源环境下表现有限,该框架旨在克服这些挑战,特别关注医疗场景。
👍 24
Holistic visual tokenizers are fundamental to unified multimodal models (UMMs) as they map diverse visual inputs into a unified representation space. In this paper, we present HYDRA-X, the first UMM that unifies image and video tokenization within a single Vision Transformer (ViT). Our design is dri
中文介绍 HYDRA-X是首个统一图像和视频的Vision Transformer (ViT)模型,通过一种整体视觉分词器实现。该框架为统一多模态模型(UMMs)提供了一个核心组件,能够将多样化的视觉输入映射到统一的表示空间。
👍 84
Ultra-long-context capability is becoming indispensable for frontier LLMs: agentic workflows, repository-scale code reasoning, and persistent memory all require the model to jointly attend over hundreds of thousands to millions of tokens, yet the quadratic cost of softmax attention makes this untena
中文介绍 MiniMax稀疏注意力机制旨在解决现有LLM在处理超长上下文时面临的二次方计算成本问题。该方法支持智能体工作流、大规模代码推理和持久记忆等应用,能够同时关注百万级tokens,有效降低计算复杂度。
👍 4
Search Agents -- large language models augmented with search tools -- have intensified the need for future-proof evaluation benchmarks. Existing benchmarks such as BrowseComp rely on static knowledge, making them vulnerable to test-set contamination and parametric memorization. Consequently, models
中文介绍 EvoBrowseComp是一个新的基准测试集,用于评估搜索智能体在不断变化的知识环境中的表现。该测试集解决了现有静态知识基准易受污染和记忆影响的问题,旨在提供一个更具前瞻性的评估方案。
👍 105
Large language model (LLM) agents have achieved strong performance on a wide range of benchmarks, yet most evaluations assume static environments. In contrast, real-world deployment is inherently dynamic, requiring agents to continually align their knowledge, skills, and behavior with changing envir
中文介绍 EvoArena是一个用于跟踪LLM智能体记忆演化的平台,旨在评估其在动态环境下的鲁棒性。与大多数假设静态环境的评估不同,该平台专注于在真实世界的动态变化中,使智能体能持续对其知识、技能和行为进行调整。
👍 16
Latent chain-of-thought compresses reasoning by replacing visible reasoning traces with continuous hidden-state recurrence, but existing formulations are difficult to optimize with standard on-policy reinforcement learning (RL) and hard to interpret causally. Our key insight is that a single pair of
中文介绍 本研究提出了一种基于开关潜在推理和单策略强化学习的方法,用于优化和解释潜在思维链。该方法通过压缩推理过程,用连续隐藏状态代替显式推理痕迹,并解决了现有模型在优化和因果解释方面的困难。
👍 2
The potential impacts of world models (WMs, i.e., learned simulators) on robotics are far-reaching -- policy evaluation, policy improvement, and test-time planning -- all with limited real-world interaction. To unlock these downstream capabilities, a WM needs to jointly satisfy three desiderata: (i)
中文介绍 WEAVER是一个高效的世界模型(WM),用于机器人操纵任务。它能够同时满足策略评估、改进和测试时规划等下游能力的需求,通过学习模拟器来限制真实世界交互,显著提升机器人在复杂任务中的表现。
👍 19
LLM-based agents have shown increasing potential in automating scientific discovery. Given an optimizable metric and an execution environment, they can propose, validate, and iterate scientific solutions, and have produced results that outperform human-designed approaches. As model capabilities cont
中文介绍 EurekAgent提出了一种基于环境工程的方法,可实现自主科学发现。通过提供可优化指标和执行环境,LLM智能体能够提出、验证和迭代科学解决方案,其结果已超越人类设计的方法,显示了在自动化科学研究中的巨大潜力。
👍 73
Recent image generators have demonstrated impressive photorealism and instruction-following capabilities in single-image generation and editing. However, constrained by their architectures, they cannot achieve interleaved generation (text-image sequence), which has crucial applications in visual nar
中文介绍 InterleaveThinker强化了智能体的交错式生成能力,解决了现有图像生成器在处理文本-图像序列(交错生成)方面的局限。该方法对于需要连续视觉叙事和交互的应用至关重要,提升了生成模型的表现。
👍 4
Anticipating LLM behavioral tendencies from low-cost psychometric probes is critical for safe deployment, but only if self-reports (SR) reliably predict behavior. Recent work documented substantial SR-behavior dissociation in LLMs, but relied on broad personality traits (Big 5) that predict specific
中文介绍 本研究探讨了LLM心理学评估中的自我报告(SR)预测行为的有效性。研究发现,相较于过去使用广泛人格特质(如大五人格)的评估,使用更具体、低成本的心理测量方法能更可靠地预测LLM的行为倾向,这对于安全部署至关重要。
👍 12
Multimodal image fusion aims to integrate complementary information from different modalities into a fused image that preserves rich local details while maintaining globally consistent appearance. Existing approaches build shared representations on 2D feature grids, which excel at modeling local str
👍 14
Speculative decoding (SD) addresses the high inference costs of LLMs by having lightweight drafters generate candidates for large verifiers to validate in parallel. Existing draft-verify methods use binary decisions: accept or fully recompute. Yet we find that many rejected tokens can be verified co
👍 10
Deep search requires agents to answer complex questions through multi-step web search, browsing, evidence comparison, and synthesis. A central challenge is deciding how to search when several directions look plausible but only some will later lead to reliable evidence. If an agent greedily follows t
👍 3
Compact language models (LMs) reduce cost, latency, and deployment risk for tool agents. Yet MCP-style tool use requires more than isolated function calling: an agent must discover tools from live catalogs, satisfy schemas, preserve dependencies across intermediate outputs, and ground final response
👍 1
Autonomous web navigation remains challenging for LLM agents, and the strongest generalist systems rely on proprietary reasoning models whose inference cost is prohibitive for the repetitive tasks where such agents would be most useful. We argue this gap stems not from insufficient model capability
👍 8
Adversarial robustness evaluations of large language models (LLMs) typically report attack success rate (ASR) under fixed query budgets, implicitly treating all attacks as equally costly. In practice, the computational expense of different attack strategies can vary by orders of magnitude. Consequen
👍 1
We present Flash-GMM, a fused Triton kernel for efficient computation of Gaussian Mixture Models (GMMs) over large-scale data in a single GPU pass. By eliminating the need to materialize the full responsibility matrix in GPU memory, Flash-GMM achieves a 20times speedup over existing implementations
👍 2
Built on pretrained vision foundation models (VFMs), representation autoencoders (RAEs) have recently emerged as a promising approach for constructing semantically rich latent spaces for image generation. However, their reconstruction quality often remains suboptimal, largely because deep VFM repres
👍 1
Advances in handwritten text recognition have enabled large-scale transcription of historical documents, but still provide limited access to interpretable visual measurements for paleography, the study of historical scripts. In this paper, our main insight is that morphological script analysis, in p
👍 7
Visual reasoning requires integrating evidence distributed across regions, attributes, and relations, making single-chain reasoning prone to early perceptual commitment and hallucination. We propose Visual Para-Thinker++, a single-policy multi-agent framework in which one shared MLLM policy is insta
👍 6
On-policy distillation (OPD) trains a student on its own trajectories with dense per-token supervision from a stronger teacher, and often outperforms off-policy distillation and standard reinforcement learning. However, we find that its effectiveness implicitly relies on two assumptions that frequen
👍 60
Computer-use agents (CUAs) increasingly operate in runtimes that combine visual desktop control, command-line execution, code editing, browsers, and external tools. Existing benchmarks, however, often evaluate these interfaces as separable capabilities, leaving long-horizon cross-interface orchestra
👍 4
Representation alignment with pretrained vision models has recently shown strong potential for accelerating diffusion transformer training. By aligning intermediate diffusion features with clean-image representations from self-supervised vision encoders, existing methods improve convergence and gene
👍 71
Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet their performance degrades significantly under real-world visual corruptions. While existing robustness enhancement approaches exist, they are limited: black-box feature alignment lacks interpr
👍 3
Robotic simulators are a cornerstone of modern research in aerial robotics, serving both as a vehicle for the development of new control algorithms and as the data source for training reinforcement learning (RL) policies. Yet, existing quadcopter learning environments often face a trade-off between
👍 2
Are tool-calling LLM agents equally safe throughout a conversation? We discover they are not: agents are most vulnerable at the very start of a session and become substantially safer after a few regular agentic tasks -- a phenomenon we term the cold-start safety gap. To study this systematically, we
👍 2
Large language models deployed as agents over large tool catalogs face a critical tool-retrieval bottleneck. As embedding-based retrieval approaches rely on compact encoders that may under-capture specialized tool semantics, parametric tool retrieval addresses this by encoding each tool as a virtual
👍 0
Large Language Models (LLMs) are increasingly used for zero-shot annotation and LLM-as-a-judge tasks, yet their reliability hinges on how model-internalized priors interact with user-provided instructions. We investigate three dimensions of this interaction: (1) how an LLM's familiarity with data an
Your complete medical history privately on your device
中文介绍 Medicyn 是一款能在用户设备上私密管理完整医疗病史的工具,旨在提供更安全、更便捷的个人健康信息管理方案。
Full-screen 3D clock scenes for your iPhone or Mac
中文介绍 Keep 是一款为 iPhone 或 Mac 设计的应用程序,提供全屏 3D 时钟场景,为用户界面增添视觉上的动态和美感。
Point at any UI to send exact context to your AI
中文介绍 Qursor 允许用户将鼠标指针指向任何用户界面元素,以便将精确的上下文信息发送给 AI 进行处理,简化人机交互。
Ask about your data without leaving Slack
中文介绍 Slack Data Agent (Basedash) 允许用户直接在 Slack 中查询公司数据,无需离开应用程序,提高了数据访问的便捷性。
A local-first AI coding CLI that adapts to you
中文介绍 Bob's CLI 是一款本地优先的 AI 编码命令行工具,能够根据用户习惯进行自适应调整,提升开发效率。
Record talking videos without manual scrolling
中文介绍 CueBuddy 是一款帮助用户录制演讲视频的工具,无需手动滚动屏幕,简化了视频录制流程。
Localize your app with tone-aware AI, automated workflows
中文介绍 LocIn AI 利用具有语气感知能力的 AI 技术,通过自动化工作流为应用程序提供本地化服务,并能调整语调。
Manage SSH servers, credentials, and teams in one place
中文介绍 ShellMate 是一款集中管理 SSH 服务器、凭证和团队的工具,旨在简化服务器管理和团队协作。
Sleep through the night. Wake up for the goals.
中文介绍 Clutch Alarm 是一款旨在帮助用户整夜安睡,并在进球时唤醒用户的闹钟应用。
Layered voice notes that paint themselves
中文介绍 Tide 是一款提供分层录音功能的语音笔记应用,能够创造出富有层次感的听觉体验。
@sairahul1 · 113.0K 粉丝 · 852.6K 阅 · 600 赞 · 79 转
Peter Steinberger, creator of OpenClaw, who now works with OpenAI. Yesterday he posted this: "You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents."
中文介绍 OpenAI 的 Peter Steinberger 提出,未来 AI 工程师不应再手动提示编码代理,而应设计“循环”(loops)来驱动这些代理。这种思路从根本上改变了与 AI 协作的方式,强调了自动化和系统化。
@aiedge_ · 69.5K 粉丝 · 700.1K 阅 · 506 赞 · 68 转
TLDR: Anthropic just published the official playbook for prompting the most powerful AI model on earth - I translated it. Most people won't read this guide (it's buried in the API docs), which is
中文介绍 Anthropic 发布了其最强模型 Fable 5 (Mythos) 的官方提示词使用指南。该指南隐藏在 API 文档中,作者将其翻译并分享,强调了多数用户可能忽视了这份提升模型性能的关键文档。
@sairahul1 · 113.0K 粉丝 · 546.4K 阅 · 536 赞 · 94 转
In February 2026, a small OpenAI team shipped 1 million lines of production code. They didn't write a single line by hand. The AI agents wrote it. The humans designed the system that made the agents
中文介绍 2026 年 2 月,OpenAI 团队实现了百万行生产代码的生成,而人工仅负责设计驱动 AI 代理的系统。这展示了 AI 在软件开发中的巨大潜力,人类的角色转向系统设计者。
@dhaber · 50.0K 粉丝 · 497.3K 阅 · 500 赞 · 57 转
One of the biggest ways that AI is transforming work (and also one of the most taboo subjects inside companies at the moment) is that most work discussions are being recorded now by default. This
中文介绍 AI 正在重塑工作方式,其中一个备受关注但又敏感的话题是:大量工作讨论正被默认录制。这种变化可能对公司内部沟通和协作带来深远影响。
@Recursive_SI · 6.3K 粉丝 · 465.1K 阅 · 516 赞 · 71 转
Early results from Recursive’s automated AI research system on model training and GPU kernel benchmarks Today we are releasing early results from Recursive’s automated AI research system. Across three
中文介绍 Recursive AI 发布了其自动化 AI 研究系统的早期成果,聚焦模型训练和 GPU 内核基准测试。该系统旨在加速 AI 研究进程,实现更高效的模型开发和优化。
@0xCodez · 6.4K 粉丝 · 371.8K 阅 · 515 赞 · 56 转
Most people are using Claude Fable 5 like Sonnet 4.6 with a bigger context window. They prompt it. It works for 5 minutes. They close the tab. 9 out of 10 users have never run an agent system that
中文介绍 该帖分享了如何用 14 步构建基于 Claude Fable 5 的自改进代理系统,涉及循环、动态工作流和例程。作者指出,多数用户仅将其作为大型上下文窗口模型使用,忽视了其作为代理系统的潜力。
@saranormous · 143.5K 粉丝 · 194.8K 阅 · 614 赞 · 40 转
The mid-2026 investor's version of AI psychosis is a despair that nothing is investable, that we should put all our money into Anthropic and Nvidia and go home. I have never felt it. I have been sure
中文介绍 作者探讨了 2026 年中投资者可能面临的 AI 投资困境,即对市场上的可投资项目感到绝望,认为应全部押注 Anthropic 和 Nvidia。但他本人对此并不认同,认为仍有投资机会。
@0x_rody · 1.7K 粉丝 · 193.2K 阅 · 513 赞 · 72 转
Claude writes your code, hands it over, and 3 tests are failing. You paste the errors back, it fixes one thing, breaks another, and you spend the evening as a messenger between Claude and your
中文介绍 作者分享了在 Claude Code 中构建自改进循环的精确设置方法。他描述了手动调试代码代理的低效,以及如何通过循环设计,让 Claude 自身进行测试和修复,减少人工干预。
@BrainsAndTennis · 10.5K 粉丝 · 187.4K 阅 · 539 赞 · 45 转
How do you build an agent that actually performs in a domain — one customers pick because it's better? The basics have been standardized over the past year: an agent is a while-loop around a model
中文介绍 文章阐述了构建高性能垂直领域 AI 代理(Agent)的方法。其核心是将模型置于一个 `while` 循环中,通过不断迭代优化,确保代理在特定领域内表现出色,赢得客户青睐。
@MatthewBerman · 121.3K 粉丝 · 108.0K 阅 · 661 赞 · 26 转
tl;dr I've been testing Fable (Mythos) for the past week and it feels unlike any other model I've used. It feels, and is priced, like a next-generation model. It also has some real quirks. The Good
中文介绍 作者体验一周 Claude Fable (Mythos) 模型后,认为其是下一代模型,在价格和体验上均有突出表现,但也存在一些“怪癖”。他详细分享了使用过程中的优缺点。
@Kimi_Moonshot · 172.7K 粉丝 · 106.6K 阅 · 500 赞 · 61 转
Our predictions will probably be wrong. But the World Cup offers a rare, public, verifiable, and constantly evolving real-world setting. Through this initiative, we hope to place analysis,
中文介绍 Kimi 宣布将预测本届世界杯全部 104 场比赛,并指出德国队可能被低估。此举旨在利用世界杯这一公开、实时且不断变化的平台,进行 AI 分析和预测的实践。
@0xCodez · 6.4K 粉丝 · 97.8K 阅 · 510 赞 · 80 转
Most developers still prompt their coding agents by hand. They type, they wait, they read the diff, they type again. 9out of 10 builders have never written a single loop that prompts the agent for
中文介绍 该帖提供了一个“循环工程”的 14 步路线图,帮助提示工程师向循环设计师转型。作者强调,多数开发者仍手动提示编码代理,而设计能驱动代理持续工作的循环才是关键。
@RLanceMartin · 30.4K 粉丝 · 84.7K 阅 · 660 赞 · 50 转
Mythos-class models like Claude Fable 5 have changed the way many of us work at Anthropic. I want to share two tips for getting the most out of this class of models. Self-correction loops There’s been
中文介绍 作者分享了两个利用 Claude Fable 5 模型提升工作效率的技巧,特别是“自纠错循环”(Self-correction loops)。这种方法能够让模型在出现错误时自我修正,而非依赖人工干预。
@TheAhmadOsman · 61.0K 粉丝 · 74.9K 阅 · 507 赞 · 98 转
Anthropic wants the public to see one thing: the careful lab, the safety lab, the grown-up in the room trying to keep frontier AI from running off a cliff. However, the pattern around Anthropic does
中文介绍 该帖批评 Anthropic 在推动开源 AI 方面存在矛盾。一方面,Anthropic 试图塑造负责任 AI 的形象;另一方面,其行为模式被认为可能阻碍了开源 AI 的发展。
@coinbase · 7.0M 粉丝 · 72.8K 阅 · 500 赞 · 62 转
TL;DR: Coinbase for Agents connects your AI agent directly to your Coinbase account so it can trade, pay, and execute workflows on your behalf, all within limits you control. Available today as an MCP
中文介绍 Coinbase 推出“Coinbase for Agents”服务,允许 AI 代理直接连接到用户 Coinbase 账户,执行交易、支付和工作流,并受用户设定的限额约束。该功能即日可用。
@RayDalio · 2.2M 粉丝 · 72.6K 阅 · 515 赞 · 93 转
What is the best approach to being effectively intelligent now that human intelligence and artificial intelligence are merging? Because I have been building computerized investment decision-making
中文介绍 Ray Dalio 探讨了人类智能与人工智能融合的时代,应如何保持“原则性思考”(Principled Thinking)。他结合自己构建计算机化投资决策系统的经验,阐述了在这种新环境下高效智能的关键。
@leerob · 258.6K 粉丝 · 36.8K 阅 · 7d 曝光 36.8K
Building recursive agent systems
@TheAhmadOsman · 61.0K 粉丝 · 74.9K 阅 · 7d 曝光 74.9K
Anthropic's War on Opensource AI
@op7418 · 154.5K 粉丝 · 63.6K 阅 · 7d 曝光 63.6K
万字长文:做了些爆款 Skills 以后,我对 Skills 的看法
@BrainsAndTennis · 10.5K 粉丝 · 187.4K 阅 · 7d 曝光 187.4K
Building a Good Vertical Agent
@coinbase · 7.0M 粉丝 · 72.8K 阅 · 7d 曝光 72.8K
Coinbase for Agents: Your AI Agent Can Now Trade and Pay with Coinbase
@OracleMarkett · 45.0K 粉丝 · 60.1K 阅 · 7d 曝光 60.1K
ORACLE: Official AI Agents Trade on Polymarket
@ORACLEAIFND · 31.9K 粉丝 · 63.6K 阅 · 7d 曝光 63.6K
ORACLE: Official AI Agents Trade on Polymarket
@OracleTrdading · 39.7K 粉丝 · 61.5K 阅 · 7d 曝光 61.5K
ORACLE: Official AI Agents Trade on Polymarket
@OracleTrdade · 41.7K 粉丝 · 60.6K 阅 · 7d 曝光 60.6K
ORACLE: Official AI Agents Trade on Polymarket
@0xCodez · 6.4K 粉丝 · 371.8K 阅 · 7d 曝光 371.8K
Build self-improving agent system with Fable 5 in 14 steps : loops, dynamic workflows, routines
中文介绍 该帖分享了如何用 14 步构建基于 Claude Fable 5 的自改进代理系统,涉及循环、动态工作流和例程。作者指出,多数用户仅将其作为大型上下文窗口模型使用,忽视了其作为代理系统的潜力。
@aiedge_ · 69.5K 粉丝 · 700.1K 阅 · 7d 曝光 700.1K
Fable 5 (Mythos) Prompting Masterclass by Anthropic
中文介绍 Anthropic 发布了其最强模型 Fable 5 (Mythos) 的官方提示词使用指南。该指南隐藏在 API 文档中,作者将其翻译并分享,强调了多数用户可能忽视了这份提升模型性能的关键文档。
@elvissun · 45.0K 粉丝 · 42.0K 阅 · 7d 曝光 42.0K
/goal + Loss Functions: How to Distill a Product in 30 Hours with One Prompt [Full Playbook]
@Recursive_SI · 6.3K 粉丝 · 465.1K 阅 · 7d 曝光 465.1K
First Steps Toward Automated AI Research
中文介绍 Recursive AI 发布了其自动化 AI 研究系统的早期成果,聚焦模型训练和 GPU 内核基准测试。该系统旨在加速 AI 研究进程,实现更高效的模型开发和优化。
@FakeMaidenMaker · 4.9K 粉丝 · 123.1K 阅 · 7d 曝光 123.1K
AI 内容创作变现零基础入门指南(短文、长文、图片、短视频、长视频)
@RayDalio · 2.2M 粉丝 · 72.6K 阅 · 7d 曝光 72.6K
Principled Thinking and AI Need to Go Together
@0x_rody · 1.7K 粉丝 · 193.2K 阅 · 7d 曝光 193.2K
How to Build a Self-Improving Loop in Claude Code (Exact Setup Inside)
@dhaber · 50.0K 粉丝 · 497.3K 阅 · 7d 曝光 497.3K
Everything Is Recorded Now
中文介绍 AI 正在重塑工作方式,其中一个备受关注但又敏感的话题是:大量工作讨论正被默认录制。这种变化可能对公司内部沟通和协作带来深远影响。
@MANISH1027512 · 37.1K 粉丝 · 84.5K 阅 · 7d 曝光 84.5K
【教程】自动化风格探索器,请躺好,自动收图就完事了!
中文介绍 该视频标题暗示Anthropic的Claude模型即将迎来重大更新,可能“改变一切”。尽管excerpt为空,但标题风格推测将重点介绍Claude Fable模型的潜在突破性影响和新功能,引发对AI未来发展的期待。
中文介绍 Claude发布了一个名为“Claude FM”的音乐流媒体频道,旨在为用户提供“思考和构建”时的背景音乐。该频道可能包含多样的音乐类型,以适应不同用户的创造和工作场景需求。
中文介绍 Claude发布了一个名为“Claude FM”的音乐流媒体频道,旨在为用户提供“思考和构建”时的背景音乐。该频道可能包含多样的音乐类型,以适应不同用户的创造和工作场景需求。
中文介绍 此视频是 Claude 在东京 2026 的开幕主题演讲。内容应聚焦于 Claude 相关的最新动态、技术发展或未来展望。
中文介绍 此视频聚焦于 Michael Truell 在 Cursor 的工作,探讨其如何解决实际问题。视频名称“The Problem Solvers”暗示内容将围绕实际应用和解决方案展开。
中文介绍 Claude Fable 5 版本仅通过视觉能力成功击败了经典游戏《宝可梦:火红》。这展示了 AI 在游戏领域,尤其是视觉理解和策略执行方面的进步。
中文介绍 此视频展示了 Claude Fable 5 在玩《异星工厂》(Factorio) 游戏的过程。这可能意味着 Claude 在策略规划、资源管理或自动化控制方面的能力。
中文介绍 Claude发布了一个名为“Claude FM”的音乐流媒体频道,旨在为用户提供“思考和构建”时的背景音乐。该频道可能包含多样的音乐类型,以适应不同用户的创造和工作场景需求。
中文介绍 Claude发布了一个名为“Claude FM”的音乐流媒体频道,旨在为用户提供“思考和构建”时的背景音乐。该频道可能包含多样的音乐类型,以适应不同用户的创造和工作场景需求。
中文介绍 此视频是 Claude 在东京 2026 的开幕主题演讲。内容应聚焦于 Claude 相关的最新动态、技术发展或未来展望。
中文介绍 此视频聚焦于 Michael Truell 在 Cursor 的工作,探讨其如何解决实际问题。视频名称“The Problem Solvers”暗示内容将围绕实际应用和解决方案展开。
中文介绍 Claude Fable 5 版本仅通过视觉能力成功击败了经典游戏《宝可梦:火红》。这展示了 AI 在游戏领域,尤其是视觉理解和策略执行方面的进步。
中文介绍 Allen Institute for AI (AI2) 发布了 olmo-eval,一个用于模型开发循环的评估工作台。该工具旨在简化评估流程,并支持模型开发者进行更高效的迭代和改进。
OpenAI introduces three Academy courses that help people build practical AI skills, create repeatable workflows, and apply agents in everyday work.
中文介绍 OpenAI 推出了三门新的 Academy 课程,旨在帮助用户掌握实用的 AI 技能,构建可重复的工作流程,并在日常工作中应用 AI Agent,以适应新的工作时代。
a quiet day lets us highlight a great concept from Peter Steinberger, Boris Cherny, and Andrej Karpathy
中文介绍 文章介绍了 Peter Steinberger、Boris Cherny 和 Andrej Karpathy 提出的“Loopcraft”概念,探讨了“堆叠循环”的艺术,这是一种在 AI 模型开发中的高级技巧。
Preply uses OpenAI to launch AI-generated lesson summaries, providing personalised feedback and language learning exercises.
中文介绍 教育平台 Preply 利用 OpenAI 技术,推出了 AI 生成的课程摘要,并提供个性化的反馈和语言学习练习,以实现个性化学习体验。
中文介绍 OpenAI 计划收购 Ona;Anthropic 在 AI 政策上有所回溯;小米推出了 MiMo 代码助手。
Google DeepMind is funding research into the potential dangers of situations where millions of different AI agents interact with each other online. According to Rohin Shah, who directs the company’s AGI safety and alignment research, the mass-market arrival of agents that can carry out tasks without
中文介绍 Google DeepMind 正在资助研究,关注数百万个 AI Agent 在线互动时可能带来的潜在危险。公司 AGI 安全与对齐研究主管 Rohin Shah 指出,大规模 Agent 的出现令人担忧。
a quiet day lets us reflect on a great essay
中文介绍 Sarah Guo 在文章中探讨了开源模型、模型实验室与 Agent 实验室的对比,并讨论了哪些内容是“无法训练”的。
OpenAI supports the EU Code of Practice on AI content transparency, advancing provenance standards and tools to help people understand AI-generated content.
中文介绍 OpenAI 支持欧盟《人工智能内容透明度行为准则》,旨在推进 AI 生成内容的溯源标准和工具,帮助用户理解AI生成内容。
Learn how BBVA scaled ChatGPT Enterprise to 100,000 employees and partnered with OpenAI to accelerate AI-powered banking transformation worldwide.
中文介绍 BBVA 将 AI 置于银行业务核心,已将 ChatGPT Enterprise 扩展至 100,000 名员工,并与 OpenAI 合作加速全球 AI 驱动的银行业务转型。
OpenAI plans to acquire Ona to expand Codex with secure, persistent cloud environments, enabling long-running AI agents across enterprise workflows.
中文介绍 OpenAI 计划收购 Ona,以扩展其 Codex 功能,提供安全的持久云环境,支持企业工作流中的长时运行 AI Agent。
Discover how astrophysicist Chi-kwan Chan uses Codex to build black hole simulations, helping scientists study extreme physics and test Einstein’s theory of general relativity.
中文介绍 天体物理学家 Chi-kwan Chan 利用 OpenAI 的 Codex 构建黑洞模拟,帮助科学家研究极端物理学并检验爱因斯坦的广义相对论。
中文介绍 本文是 PyTorch 性能优化的第二部分,详细介绍了如何从 nn.Linear 层优化到一个融合的多层感知机 (MLP),以提升模型运行效率。
中文介绍 Anthropic CEO Dario Amodei 谈及 AI 政策;DiffusionGemma 模型实现 4 倍加速;WhatsApp 将解除对机器人账号的限制。
Access OpenAI models and Codex through Oracle Cloud, using existing commitments to build and deploy AI with enterprise security and governance.
中文介绍 用户可以通过 Oracle Cloud 访问 OpenAI 模型和 Codex,利用现有承诺,在企业级安全和治理下构建和部署 AI。
中文介绍 DeepMind 发布了 DiffusionGemma 模型,能够实现 4 倍的文本生成速度提升,显著提高了效率。
4 回复 · 程序员 节点
5 回复 · 程序员 节点
5 回复 · 程序员 节点
23 回复 · Apple 节点
27 回复 · 程序员 节点
6 回复 · Apple 节点
23 回复 · Apple 节点
8 回复 · Apple 节点
8 回复 · Linux 节点
7 回复 · Linux 节点
昨晚拍的,古筝真好听,她弹的是琵琶行,很棒 我当时在一个茶室里面,弄公益站,隔着屏风拍的,这不是栅栏,是木质屏风 32 个帖子 - 25 位参与者 阅读完整话题
我很不明白,你有这个token量的需求 目前渠道已经全面拉闸,我这补号速度完全赶不上你这蹬Token的速度 118 个帖子 - 77 位参与者 阅读完整话题
哪位佬周末还在上班,让我心里难过一下,毕竟牛马的生活别人不懂 94 个帖子 - 91 位参与者 阅读完整话题
「君の公益」 上架 claude-fable-5 地址 muyuan.do 不要再给我发私信或者艾特我,把我惹急了我就开三级登录了 公益站的本质是让没钱的佬友也能体验一下大模型,不得滥用! 分发我一直有安排佬友去查,不要拿我的公益站去搞黄色,搞政治敏感,不要挑战我的底线 224 个帖子 - 202 位参与者 阅读完整话题
由于测试的模型越积越多了,表格会删除一些同厂商的旧模型,你可以在之前的评测帖子里找到它们的成绩。 项目 这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。 本轮与上两轮评测的项目和环境都完全一致: 第一轮 … 上一轮 模型来源 Kimi K2.7 Code: 官方 API Grok 4.3: Grok Build Grok Build 0.1: Grok Build Composer 2.5: Grok Build 速度 排名 模型 时间(分钟) 备注 1 Composer 2.5 3 2 Grok 4.20 0309 Reasonin
目前从事这方面工作,因为架构设计需求分析都差不多了,顺手就实现了一套,功能日渐完善,计划开源。到时候欢迎大家试用呀。 29 个帖子 - 27 位参与者 阅读完整话题
周五的夜,马上是周末了, 87 个帖子 - 83 位参与者 阅读完整话题
项目我一直是拿5.5xhigh开发的,系统里的tts一直有问题,因为是本地部署的所以一直在喊5.5改框架改参数修bug,但是一直有几个问题解决不了,但也能正常使用也就算了 但今天生成的音频又出问题,我真是艹了 又一次喊5.5定位问题的时候,看着没几个能用的公益站 ,突然想起来any大善人有fable5能用,于是赶快更新cc,接入ccs使用。retry几次后,从线程调用入手直接给我列了4个点,那是字字珠玑,一看5.5感觉纯在说废话(也有可能是对自己写的东西太信任了) 那还说啥了,赶紧给fable去写。才修了两步,完美解决了问题的同时,tts的生成速度还快了不少,给我高兴坏了 。而且在我指出之后,
这个方法适用于可以使用 至于具体切换是否需要在Claude重新调整(我想大概是要的 但是不麻烦) 首先就正常填写各项内容 无需模型映射 手动指定其实也无需 直接使用就行 路由也无需打开 打开Claude code(不好截图就不截图了) 选择 输入模型名称 可以参考我下面的 注意选 Offer 1M-context variant 然后Apply 最后记得选1M上下文的哦 38 个帖子 - 19 位参与者 阅读完整话题
之前理解错了规则,已经按照规则编辑了,我与ai讨论产生的总结,拿来一起讨论。 24 个帖子 - 22 位参与者 阅读完整话题
351 points · 90 comments
69 points · 16 comments
169 points · 61 comments
1330 points · 879 comments
80 points · 7 comments
99 points · 58 comments
137 points · 67 comments
286 points · 71 comments
23 points · 4 comments
232 points · 50 comments
72 points · 30 comments
164 points · 67 comments
56 points · 13 comments
351 points · 282 comments
303 points · 77 comments
217 points · 73 comments
We’re Connor and Ambar from BitBoard (https://bitboard.work). BitBoard is an agentic analytics workspace. We give you the infrastructure and visualization layer to analyze data with AI.Today, we’re launching dashboards that you and your agents can work on together. You can connect your cod
131 points · 66 comments
117 points · 61 comments
739 points · 184 comments
84 points · 28 comments
170 points · 112 comments
131 points · 13 comments
1526 points · 466 comments
https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...
163 points · 54 comments
18 points · 10 comments
Hi HN! I made this after collecting hundreds of "name → tree" submissions at ITP.Live: https://landscape.bairui.dev/ Source: https://github.com/pearmini/infinite-landscape Plant a tree: https://tree.bairui.dev/Pan and zoom an infinite proce
18 points · 7 comments
20 points · 2 comments
今日,AI 领域的焦点再次聚焦于“智能体”的进化与应用,从 OpenAI 计划收购 Ona 以增强其 Agent 能力,到 Google DeepMind 对大规模 Agent 互动潜在风险的担忧,都显示出 Agent 技术正加速走向成熟和规模化。同时,以 Anthropic 的 Fable 5 为代表的新一代模型,在“循环工程”和自动化研究方面展现出惊人潜力,预示着 AI 工程师的角色将从“提示者”转向“设计者”。此外,多模态能力、特定领域 AI(如医疗、金融)以及高效模型训练与评估工具的发布,共同描绘了 AI 技术正在深度融合与广泛拓展的今日图景。
Google DeepMind 发布了 DiffusionGemma 模型,该模型在文本生成方面实现了 4 倍的速度提升,显著提高了生成效率,为快速文本内容创作提供了新的技术支持。
Allen Institute for AI (AI2) 发布了 olmo-eval 评估工作台,旨在简化模型开发过程中的评估流程。该工具支持开发者进行更高效的模型迭代和改进,有助于提升模型开发的整体效率。
HYDRA-X 是首个统一图像和视频的 Vision Transformer (ViT) 模型,通过一种整体视觉分词器实现。该框架为统一多模态模型 (UMMs) 提供了一个核心组件,能将多样化的视觉输入映射到统一的表示空间。
MiniMax稀疏注意力机制旨在解决现有LLM处理超长上下文时面临的二次方计算成本问题。该方法支持智能体工作流、代码推理等应用,能关注百万级tokens,有效降低计算复杂度。
WEAVER是一个高效的世界模型(WM),用于机器人操纵任务。它通过学习模拟器来限制真实世界交互,同时满足策略评估、改进和测试时规划等需求,显著提升了机器人在复杂任务中的表现。
Anthropic 的 Claude Fable 5 模型仅通过视觉能力,成功击败了经典游戏《宝可梦:火红》。这一成就展示了 AI 在游戏领域的视觉理解和策略执行方面的显著进步。
OpenAI 推出了三门新的 Academy 课程,旨在帮助用户掌握实用的 AI 技能,构建可重复的工作流程,并在日常工作中应用 AI Agent,以适应新的工作时代,提升职场竞争力。
教育平台 Preply 利用 OpenAI 技术,推出了 AI 生成的课程摘要,并提供个性化的反馈和语言学习练习,旨在为用户提供更高效、更具针对性的个性化语言学习体验。
OpenAI 计划收购 Ona,以扩展其 Codex 功能,提供安全的持久云环境,支持企业工作流中的长时运行 AI Agent,进一步增强在企业级 AI 服务领域的竞争力。
用户现在可以通过 Oracle Cloud 访问 OpenAI 模型和 Codex,利用现有云承诺,在企业级安全和治理框架下构建和部署 AI 应用,降低了使用门槛。
CueBuddy 是一款帮助用户录制演讲视频的工具,无需手动滚动屏幕,通过简化操作流程,显著提高了视频录制的便捷性。
Qursor 允许用户将鼠标指针指向任何界面元素,以便将精确的上下文信息发送给 AI 进行处理,极大简化了人机交互和信息传递的流程。
Bob's CLI 是一款本地优先的 AI 编码命令行工具,能够根据用户的使用习惯进行自适应调整,旨在为开发者提供更高效、更个性化的编程辅助。
Meet Warren 3.0 是一款由语音驱动的 AI 财务规划伙伴,为用户提供个性化的财务建议和规划,旨在帮助用户更好地管理个人财务。
Medicyn 是一款能在用户设备上私密管理完整医疗病史的工具,旨在提供更安全、更便捷的个人健康信息管理方案,保护用户隐私。
LocIn AI 利用具有语气感知能力的 AI 技术,通过自动化工作流为应用程序提供本地化服务,并能根据需求调整语调,提升用户体验。
Slack Data Agent (Basedash) 允许用户直接在 Slack 中查询公司数据,无需离开应用程序,极大地提高了数据访问的便捷性和工作效率。
Anthropic 推出了名为“Claude FM”的音乐流媒体频道,旨在为用户提供“思考和构建”时的背景音乐,可能包含多样的音乐类型以适应不同用户的创造和工作场景。
OpenAI支持欧盟《人工智能内容透明度行为准则》,旨在推进 AI 生成内容的溯源标准和工具,帮助用户更好地识别和理解 AI 生成的内容,促进 AI 生态的健康发展。
BBVA 将 AI 置于银行业务核心,已将 ChatGPT Enterprise 扩展至 100,000 名员工,并与 OpenAI 合作加速全球 AI 驱动的银行业务转型,提升服务效率和客户体验。
天体物理学家 Chi-kwan Chan 利用 OpenAI 的 Codex 构建黑洞模拟,帮助科学家研究极端物理学并检验爱因斯坦的广义相对论,展示了 AI 在前沿科学研究中的重要作用。
OpenAI 计划收购 Ona 以扩展 Codex 能力;Anthropic CEO Dario Amodei 谈及 AI 政策;小米推出了 MiMo 代码助手,显示出 AI 领域在技术整合、政策制定和工具创新方面的动态。
DiffusionGemma 模型实现 4 倍文本生成速度提升;WhatsApp 将解除对机器人账号的限制;Anthropic CEO Dario Amodei 谈及 AI 政策。这些动态反映了模型性能提升、平台政策调整及行业合规的进展。
Google DeepMind 资助研究,关注数百万个 AI Agent 在线互动时可能带来的潜在危险。公司 AGI 安全与对齐研究主管 Rohin Shah 指出,大规模 Agent 的出现是令人担忧的,需要提前研究和防范。
该帖批评 Anthropic 在推动开源 AI 方面存在矛盾,认为其试图塑造负责任 AI 的形象,但其行为模式被认为可能阻碍了开源 AI 的发展,引发对 AI 公司策略的讨论。
提供用于 AI 编码代理的生产级工程技能集,旨在提升 AI 代理在软件开发生命周期中的生产力和智能化水平,助力开发者构建更强大的 AI 助手。
一个 Agentic Skills Framework & Software Development Methodology,旨在通过定义和组织 AI Agent 的能力,来改进软件开发流程,提升开发效率和项目管理水平。
LMCache 是一个高性能的 KV Cache 层,旨在加速 LLM(大语言模型)的推理速度。通过优化缓存机制,显著提升 LLM 在处理大量请求时的效率。
一个项目管理(PM)技能市场,提供超过100种 Agentic 技能、命令和插件,涵盖产品发现、策略制定到执行上线和增长的全流程,赋能 AI Agent 完成复杂的项目管理任务。
本文是 PyTorch 性能优化的第二部分,详细介绍了如何从 nn.Linear 层优化到一个融合的多层感知机 (MLP),以提升模型运行效率,为开发者提供了实用的性能调优指南。
研究发现,相较于使用广泛人格特质,使用更具体、低成本的心理测量方法能更可靠地预测LLM的行为倾向,这对于安全部署LLM至关重要。
研究提出一种名为“KV-cache通信”的跨异构智能体通信新方法,解决当前多智能体系统主要依赖文本通信的高昂成本和信息损失问题,实现了不同模型间的有效通信。
本文研究如何让交互式LLM智能体在会话中学习并遵守用户偏好,弥合用户偏好访问和遵循之间的差距,以提升智能体与用户协作的长期效率。
ArogyaSutra是一个多智能体框架,旨在提升多模态大语言模型(MLLMs)在印度语言医疗领域的推理能力,克服了低资源环境下MLLMs在专科领域表现有限的挑战。
EvoBrowseComp是一个新的基准测试集,用于评估搜索智能体在不断变化的知识环境中的表现。该测试集解决了现有静态知识基准易受污染的问题,提供了更具前瞻性的评估方案。
EvoArena是一个用于跟踪LLM智能体记忆演化的平台,旨在评估其在动态环境下的鲁棒性。该平台专注于在真实世界的动态变化中,使智能体能持续调整其知识、技能和行为。
本研究提出一种基于开关潜在推理和单策略强化学习的方法,用于优化和解释潜在思维链。该方法通过压缩推理过程,并解决了现有模型在优化和因果解释方面的困难。
EurekAgent提出了一种基于环境工程的方法,可实现自主科学发现。通过提供可优化指标和执行环境,LLM智能体能够提出、验证和迭代科学解决方案,结果已超越人类设计的方法。
InterleaveThinker强化了智能体的交错式生成能力,解决了现有图像生成器在处理文本-图像序列(交错生成)方面的局限。该方法对于需要连续视觉叙事和交互的应用至关重要。
文章介绍了“Loopcraft”概念,探讨了“堆叠循环”的艺术,这是一种在 AI 模型开发中的高级技巧,由 Peter Steinberger、Boris Cherny 和 Andrej Karpathy 提出。
Sarah Guo 在文章中探讨了开源模型、模型实验室与 Agent 实验室的对比,并讨论了哪些内容是“无法训练”的,为理解当前 AI 发展格局提供了深度见解。
OpenAI 的 Peter Steinberger 提出,未来 AI 工程师不应再手动提示编码代理,而应设计“循环”(loops)来驱动这些代理。这种思路从根本上改变了与 AI 协作的方式,强调了自动化和系统化。
Anthropic 发布了其最强模型 Fable 5 (Mythos) 的官方提示词使用指南。该指南隐藏在 API 文档中,强调了多数用户可能忽视了这份提升模型性能的关键文档。
2026 年,OpenAI 团队实现了百万行生产代码的生成,而人工仅负责设计驱动 AI 代理的系统。这展示了 AI 在软件开发中的巨大潜力,人类的角色转向系统设计者。
AI 正在重塑工作方式,一个备受关注但又敏感的话题是:大量工作讨论正被默认录制。这种变化可能对公司内部沟通和协作带来深远影响。
Recursive AI 发布了其自动化 AI 研究系统的早期成果,聚焦模型训练和 GPU 内核基准测试。该系统旨在加速 AI 研究进程,实现更高效的模型开发和优化。
该帖分享了如何用 14 步构建基于 Claude Fable 5 的自改进代理系统,涉及循环、动态工作流和例程。作者指出,多数用户仅将其作为大型上下文窗口模型使用,忽视了其作为代理系统的潜力。
作者探讨了2026年中投资者可能面临的AI投资困境,认为应警惕“全部押注”的论调,尽管市场存在挑战,但仍有潜在的投资机会。
作者分享了在Claude Code中构建自改进循环的精确设置方法。他描述了手动调试代码代理的低效,以及如何通过循环设计,让 Claude 自身进行测试和修复,减少人工干预。
文章阐述了构建高性能垂直领域AI代理(Agent)的方法。其核心是将模型置于一个 `while` 循环中,通过不断迭代优化,确保代理在特定领域内表现出色。
作者体验一周 Claude Fable (Mythos) 模型后,认为其是下一代模型,在价格和体验上均有突出表现,但也存在一些“怪癖”,他详细分享了使用过程中的优缺点。
Kimi 宣布将预测本届世界杯全部 104 场比赛,并指出德国队可能被低估。此举旨在利用世界杯这一公开、实时且不断变化的平台,进行 AI 分析和预测的实践。
该帖提供了一个“循环工程”的 14 步路线图,帮助提示工程师向循环设计师转型。作者强调,设计能驱动代理持续工作的循环才是关键。
作者分享了两个利用 Claude Fable 5 模型提升工作效率的技巧,特别是“自纠错循环”(Self-correction loops)。这种方法能够让模型在出现错误时自我修正,而非依赖人工干预。
Coinbase 推出“Coinbase for Agents”服务,允许 AI 代理直接连接到用户 Coinbase 账户,执行交易、支付和工作流,并受用户设定的限额约束。该功能即日可用。
Ray Dalio 探讨了人类智能与人工智能融合的时代,应如何保持“原则性思考”(Principled Thinking)。他结合自己构建计算机化投资决策系统的经验,阐述了在这种新环境下高效智能的关键。
LocIn AI 利用具有语气感知能力的 AI 技术,通过自动化工作流为应用程序提供本地化服务,并能调整语调,提升用户体验。
Tide 是一款提供分层录音功能的语音笔记应用,能够创造出富有层次感的听觉体验,为用户提供新颖的笔记记录方式。
ShellMate 是一款集中管理 SSH 服务器、凭证和团队的工具,旨在简化服务器管理和团队协作,提高安全性。
Keep 是一款为 iPhone 或 Mac 设计的应用程序,提供全屏 3D 时钟场景,为用户界面增添视觉上的动态和美感。
pleNx 是首个为 Nintendo Switch 开发的原生 Plex 客户端,让用户可以在 Switch 上观看 Plex 媒体库内容,拓展了使用场景。
Claude发布了一个名为“Claude FM”的音乐流媒体频道,旨在为用户提供“思考和构建”时的背景音乐。该频道可能包含多样的音乐类型,以适应不同用户的创造和工作场景需求。
此视频是 Claude 在东京 2026 的开幕主题演讲,应聚焦于 Claude 相关的最新动态、技术发展或未来展望,为观众提供行业前沿信息。
此视频聚焦于 Michael Truell 在 Cursor 的工作,探讨其如何解决实际问题。视频名称“The Problem Solvers”暗示内容将围绕实际应用和解决方案展开。
此视频展示了 Claude Fable 5 在玩《异星工厂》(Factorio) 游戏的过程。这可能意味着 Claude 在策略规划、资源管理或自动化控制方面的能力得到了进一步的展示。