每日 AI 简报

2026-06-14(内容获取于 06/14 17:36)

GitHub Trending:IPTV 频道列表聚合项目

GitHub Trending

iptv-org/iptv 是一个收集全球公开可用 IPTV 频道列表的项目,为用户提供了一个聚合全球直播频道的资源库。

推荐理由:该项目是 GitHub Trending 榜单的热门,提供了实用性的内容聚合,对有特定需求的用户有一定价值。

AI 驱动的电子邮件助手 Slashy 上线 Product Hunt

Product Hunt · 06/14 12:38

Slashy 是一款 AI 驱动的电子邮件助手,旨在自动化处理用户邮件,提高工作效率。

推荐理由:作为一款新上线的 AI 工具,Slashy 解决了实际的邮件处理痛点,适合希望提升效率的职场人士关注。

AI 编码代理的生产级工程技能库

GitHub Trending

agent-skills 是一个旨在为 AI 编码代理提供生产级工程技能的库,有助于提升 AI 在软件开发中的应用能力。

推荐理由:该项目为 AI 编码代理提供了关键的技能支持,对于关注 AI 在软件工程领域应用的开发者具有较高价值。

OpenAI 发布新课程,助力未来工作技能

OpenAI News · 06/12 18:00

OpenAI 推出三门新的 Academy 课程,帮助人们掌握实用的 AI 技能,创建可重复的工作流程,并在日常工作中应用 AI 代理。

推荐理由:OpenAI 推出的职业技能课程,旨在提升个人和团队的 AI 应用能力,适合职场人士学习和了解。

Preply 展示 AI 与真人教师如何个性化学习

OpenAI News · 06/12 08:00

Preply 利用 OpenAI 技术推出 AI 生成的课程摘要,提供个性化反馈和语言学习练习,结合 AI 与真人教师提升学习体验。

推荐理由:该案例展示了 AI 在教育领域的应用,特别是与真人教师结合以实现个性化学习,为教育科技发展提供了参考。

“Codex-maxxing”:将 Codex 作为持续运行的循环

X 创作者 (AttentionVC) · 06/14 07:24

文章探讨了如何将 AI 编码工具 Codex 作为一种持续运行的循环来使用,而非简单的自动补全或单次对话,以挖掘其更多价值。

推荐理由:“Codex-maxxing”提供了一种新颖高效的 AI 编码协作模式,适合开发者探索和实践。

Hugging Face 发布 olmo-eval,优化模型开发流程

Hugging Face Blog · 06/12 23:56

olmo-eval 是一个用于模型开发循环的评估工作台,旨在简化和改进 AI 模型开发过程中的评估环节。

推荐理由:olmo-eval 为 AI 模型开发者提供了一个重要的评估工具,有助于提升模型性能和开发效率。

Google DeepMind 关注大规模 AI 代理交互的潜在风险

MIT Tech Review AI · 06/11 19:00

Google DeepMind 资助研究,关注数百万 AI 代理在线交互时可能产生的潜在危险,探讨其安全性和控制问题。

推荐理由:该报道指出了 AI 发展中一个重要且值得关注的长期风险,引发对未来 AI 安全的思考。

探讨 AI 付费模式的合理性与用户观点

V2EX · 06/14 15:47

社区用户就 AI 服务付费模式展开讨论,分享了各自的看法和经历,反映了当前 AI 服务商业化过程中用户端的普遍关切。

推荐理由:此次讨论反映了 AI 服务付费的现状与用户心态,对理解 AI 商业化趋势及用户需求有一定参考价值。

大型上下文窗口模型的可信度问题

Hacker News · 06/14 14:07

文章对具备超大上下文窗口的 AI 模型的可信度提出了质疑,认为大窗口不一定意味着更好的理解和表现。

推荐理由:该观点对评估和使用大上下文窗口 AI 模型提供了重要的警示,有助于更理性地看待其能力。

iptv-org/iptv

TypeScript · ★ 119,614 · 🍴 6,400 · 📈 530 stars today

Collection of publicly available IPTV channels from all over the world

中文介绍 `iptv-org/iptv` 是一个汇集全球公开可用IPTV频道的项目,旨在为用户提供便捷的免费网络电视观看资源。它通常以M3U播放列表等形式组织,用户可以轻松集成到兼容的播放器或媒体中心,实现跨地域的电视内容访问。适用于希望拓展观看选择的普通用户及需要数据源的开发者。

addyosmani/agent-skills

Shell · ★ 58,886 · 🍴 6,372 · 📈 1,514 stars today

Production-grade engineering skills for AI coding agents.

中文介绍 `addyosmani/agent-skills` 项目专注于为AI编码代理提供生产级别的工程技能,旨在提升其在实际软件开发任务中的表现和可靠性。它可能包含一系列经过优化的模块、最佳实践或工具,帮助AI agent更高效、准确地完成代码生成、重构、调试等复杂工作。适用于AI Agent开发者、研究人员及希望将AI集成到开发流程的团队。

chatwoot/chatwoot

Ruby · ★ 30,996 · 🍴 7,564 · 📈 83 stars today

Open-source live-chat, email support, omni-channel desk. An alternative to Intercom, Zendesk, Salesforce Service Cloud etc. 🔥💬

中文介绍 `chatwoot/chatwoot` 是一个开源的实时聊天、电子邮件支持及全渠道客户服务平台,旨在提供Intercom、Zendesk等商业软件的免费替代方案。它帮助企业整合客户沟通渠道,提升服务效率,支持自托管,确保数据主权。适用于各类希望构建或改进客户支持系统,并寻求灵活、经济解决方案的中小企业和开发者。

obra/superpowers

Shell · ★ 227,312 · 🍴 20,215 · 📈 924 stars today

An agentic skills framework & software development methodology that works.

中文介绍 `obra/superpowers` 提供了一个代理式技能框架和一套实用的软件开发方法论,旨在优化AI Agent在复杂应用中的开发与集成。它帮助开发者结构化地设计、实现和管理AI Agent的各项能力,从而提高开发效率、降低系统复杂性,并确保Agent在生产环境中的可靠性与扩展性。适用于希望探索或构建基于AI Agent解决方案的工程师和团队。

apple/container

Swift · ★ 36,612 · 🍴 1,044 · 📈 1,487 stars today

A tool for creating and running Linux containers using lightweight virtual machines on a Mac. It is written in Swift, and optimized for Apple silicon.

中文介绍 `apple/container` 是Apple官方为macOS平台开发的一款工具,旨在利用轻量级虚拟机高效创建和运行Linux容器。项目采用Swift编写,并针对Apple silicon进行了深度优化,提供接近原生的性能体验。它解决了Mac用户运行Linux容器的性能和兼容性挑战,特别适合需要开发、测试或部署基于Linux环境应用的Mac开发者。

music-assistant/server

Python · ★ 2,077 · 🍴 432 · 📈 270 stars today

Music Assistant is a free, opensource Media library manager that connects to your streaming services and a wide range of connected speakers. The server is the beating heart, the core of Music Assistant and must run on an always-on device like a Raspberry Pi, a NAS or an Intel NUC or alike.

中文介绍 `music-assistant/server` 是开源媒体库管理器 Music Assistant 的核心组件。它能够连接用户的各种流媒体服务与智能音箱,实现音乐内容的统一管理和无缝播放。该项目旨在解决多平台、多设备下的音乐碎片化问题,为用户打造一个集中式的智能家庭音乐生态,提供便捷、个性化的音乐聆听体验。

kenn-io/agentsview

Go · ★ 2,502 · 🍴 223 · 📈 190 stars today

Local-first session intelligence and analytics for coding agents, supporting Claude Code, Codex, and more than 20 other agents. Also: 100x faster replacement for ccusage!

中文介绍 `kenn-io/agentsview` 提供本地优先的会话智能和分析功能,专为Claude Code、Codex等20多种AI编码代理设计。它旨在帮助用户深入了解和优化Agent的工作流程,提供详细的会话数据与洞察,并声称是`ccusage`的百倍速替代品。适用于追求高效率、希望精细化管理和分析AI编码辅助工具表现的开发者及团队。

LMCache/LMCache

Python · ★ 8,998 · 🍴 1,312 · 📈 238 stars today

LMCache: Supercharge Your LLM with the Fastest KV Cache Layer

中文介绍 `LMCache/LMCache` 旨在通过提供一个极致快速的KV Cache层,显著提升大型语言模型(LLM)的性能。该项目通过优化注意力机制中的键值缓存,有效减少了LLM在序列生成过程中的重复计算,从而加快推理速度并降低计算资源消耗。它主要面向LLM的开发者、研究人员以及需要优化LLM部署效率的团队。

microsoft/PowerToys

C · ★ 134,793 · 🍴 8,088 · 📈 370 stars today

Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows

中文介绍 `microsoft/PowerToys` 是微软推出的一系列实用工具集合,旨在显著提升Windows操作系统的生产力和个性化能力。它包含窗口布局管理、批量文件重命名、颜色选择器、快捷键指南等多种增强功能,弥补了Windows原生系统功能上的不足。适用于所有希望提高Windows使用效率、深度定制系统的高级用户、开发者和效率爱好者。

andrewyng/aisuite

Python · ★ 14,231 · 🍴 1,490 · 📈 127 stars today

Simple, unified interface to multiple Generative AI providers

中文介绍 `andrewyng/aisuite` 提供了一个简洁、统一的接口,用于访问和管理多个生成式AI服务提供商。它旨在简化与不同AI模型(如OpenAI、Anthropic等)的交互复杂性,为开发者提供一个统一的API或UI,以便轻松切换、比较不同模型的性能及成本。适用于需要同时利用或测试多个生成式AI模型的开发者、研究人员及AI应用构建者。

NVIDIA/SkillSpector

Python · ★ 4,732 · 🍴 364 · 📈 804 stars today

Security scanner for AI agent skills. Detect vulnerabilities, malicious patterns, and security risks.

中文介绍 `NVIDIA/SkillSpector` 是NVIDIA开发的一款AI Agent技能安全扫描工具。它专注于检测AI Agent所具备的技能中潜在的漏洞、恶意模式和安全风险。通过自动化分析,该工具旨在帮助开发者和安全团队确保AI Agent的运行安全和行为可靠性,防范潜在的滥用和数据泄露等问题。适用于AI Agent开发者、安全审计人员及部署AI系统的企业。

bannedbook/fanqiang

Kotlin · ★ 47,640 · 🍴 8,094 · 📈 93 stars today

翻墙-科学上网

中文介绍 `bannedbook/fanqiang` 是一个专注于提供翻墙和科学上网方法及资源的开源项目。它汇集了多种绕过网络审查的工具、配置和教程,旨在帮助用户突破地理或政策限制,自由访问互联网上的信息。项目内容可能涵盖VPN、代理服务器、SS/V2Ray等多种技术方案,适用于有国际信息获取需求的用户。

swc-project/swc

Rust · ★ 33,690 · 🍴 1,399 · 📈 20 stars today

Rust-based platform for the Web

中文介绍 `swc-project/swc` 是一个基于Rust语言构建的Web平台,致力于为现代Web开发提供极致性能的工具链。它集成了代码转译(transpiling)、打包(bundling)、压缩(minification)等功能,旨在作为Babel、Webpack等工具的快速替代品。该项目显著提升了前端项目的构建速度,适用于追求开发效率和构建性能的JavaScript/TypeScript开发者和大型项目。

x1xhlol/system-prompts-and-models-of-ai-tools

★ 140,408 · 🍴 34,672 · 📈 109 stars today

FULL Augment Code, Claude Code, Cluely, CodeBuddy, Comet, Cursor, Devin AI, Junie, Kiro, Leap.new, Lovable, Manus, NotionAI, Orchids.app, Perplexity, Poke, Qoder, Replit, Same.dev, Trae, Traycer AI, VSCode Agent, Warp.dev, Windsurf, Xcode, Z.ai Code, Dia & v0. (And other Open Sourced) System Prompts

中文介绍 `x1xhlol/system-prompts-and-models-of-ai-tools` 项目收集并整理了众多流行AI工具(如Claude Code, Cursor, Devin AI, Perplexity等)的系统提示(system prompts)和底层模型信息。它旨在揭示这些AI产品如何通过精心设计的提示词和模型配置来实现特定功能,为AI开发者、prompt工程师和研究者提供了宝贵的参考资料,以理解和优化AI交互设计。

See What I See, Know What I Think: Dense Latent Communication Across Heterogeneous Agents

👍 3

Multi-agent systems communicate mostly through text, paying a lossy and expensive decode and re-encode cost. KV-cache communication is a promising alternative, yet most prior work is homogeneous, using duplicate copies of the same model, and avoids the central challenge of cross-model latent alignme

中文介绍 该研究提出了一种新的多智能体通信方法,旨在克服当前基于文本通信的低效问题。利用 KV 缓存(Key-Value cache)作为通信机制,以解决异构智能体间的通信瓶颈,并应对跨模型通信的挑战。

Getting Better at Working With You: Compiling User Corrections into Runtime Enforcement for Coding Agents

👍 2

Interactive LLM agents are becoming part of daily work, but they do not reliably become easier to work with over time: a correction remembered in one session may still be violated in the next. We study this gap between preference access and preference compliance. In tasks derived from anonymized rea

中文介绍 研究关注交互式 LLM 智能体如何能随时间推移更好地协同工作。文章探讨了将用户修正信息转化为运行时执行策略的机制,以解决智能体在不同会话间仍会违反用户偏好的问题。

ArogyaSutra: A Multi-Agent Framework for Multimodal Medical Reasoning in Indic Languages

👍 2

Multimodal Large Language Models (MLLMs) have shown promising reasoning capabilities in general domains, yet their performance remains limited in specialized settings such as healthcare, especially in multilingual and low-resource scenarios. This gap is critical in regions like rural India, where pa

中文介绍 ArogyaSutra 是一个多智能体框架,旨在处理印度语系的医学多模态推理。该框架致力于解决当前多模态大语言模型(MLLMs)在医疗领域,特别是在多语言和低资源场景下存在的局限性。

HYDRA-X: Native Unified Multimodal Models with Holistic Visual Tokenizers

👍 25

Holistic visual tokenizers are fundamental to unified multimodal models (UMMs) as they map diverse visual inputs into a unified representation space. In this paper, we present HYDRA-X, the first UMM that unifies image and video tokenization within a single Vision Transformer (ViT). Our design is dri

中文介绍 HYDRA-X 提出了一种新的统一多模态模型(UMM),它首次实现了在单一 Vision Transformer (ViT) 中整合图像和视频的“整体视觉分词器”,以统一处理不同视觉输入。

MiniMax Sparse Attention

👍 109

Ultra-long-context capability is becoming indispensable for frontier LLMs: agentic workflows, repository-scale code reasoning, and persistent memory all require the model to jointly attend over hundreds of thousands to millions of tokens, yet the quadratic cost of softmax attention makes this untena

中文介绍 为了满足 LLM 在超长上下文处理中的需求,例如智能体工作流、大规模代码推理等,该研究提出了 MiniMax Sparse Attention 机制,以应对传统 softmax attention 机制的二次方计算成本问题。

EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge

👍 4

Search Agents -- large language models augmented with search tools -- have intensified the need for future-proof evaluation benchmarks. Existing benchmarks such as BrowseComp rely on static knowledge, making them vulnerable to test-set contamination and parametric memorization. Consequently, models

中文介绍 EvoBrowseComp 提出了一个用于评估搜索智能体的新基准,旨在解决现有基准(如 BrowseComp)依赖静态知识易被污染的问题。新基准专注于在不断演化的知识环境下评估智能体的鲁棒性。

EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments

👍 121

Large language model (LLM) agents have achieved strong performance on a wide range of benchmarks, yet most evaluations assume static environments. In contrast, real-world deployment is inherently dynamic, requiring agents to continually align their knowledge, skills, and behavior with changing envir

中文介绍 EvoArena 提出了一种跟踪 LLM 智能体记忆演化的方法,用于评估其在动态环境中的鲁棒性。与多数假设静态环境的评估不同,该方法旨在模拟真实世界中智能体需要持续适应和更新知识的场景。

Demystifying Hidden-State Recurrence: Switchable Latent Reasoning with On-Policy Reinforcement Learning

👍 18

Latent chain-of-thought compresses reasoning by replacing visible reasoning traces with continuous hidden-state recurrence, but existing formulations are difficult to optimize with standard on-policy reinforcement learning (RL) and hard to interpret causally. Our key insight is that a single pair of

中文介绍 该研究对隐藏状态递归进行了深入分析,提出了可切换的潜在推理方法,并结合了在线强化学习。核心思想在于优化和解释压缩推理过程中的潜在链式思考。

WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation

👍 2

The potential impacts of world models (WMs, i.e., learned simulators) on robotics are far-reaching -- policy evaluation, policy improvement, and test-time planning -- all with limited real-world interaction. To unlock these downstream capabilities, a WM needs to jointly satisfy three desiderata: (i)

中文介绍 WEAVER 是一个高效的世界模型(WM),专为机器人操作任务设计,旨在提升策略评估、改进和测试时间规划能力。该模型致力于满足在有限真实世界交互下,能够联合满足多种下游任务的需求。

EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery

👍 22

LLM-based agents have shown increasing potential in automating scientific discovery. Given an optimizable metric and an execution environment, they can propose, validate, and iterate scientific solutions, and have produced results that outperform human-designed approaches. As model capabilities cont

中文介绍 EurekAgent 提出一种通过“智能体环境工程”实现自主科学发现的方法。该框架利用 LLM 智能体在给定可优化指标和执行环境中,能够提出、验证并迭代科学解决方案,其效果已超越人类设计的方法。

InterleaveThinker: Reinforcing Agentic Interleaved Generation

👍 75

Recent image generators have demonstrated impressive photorealism and instruction-following capabilities in single-image generation and editing. However, constrained by their architectures, they cannot achieve interleaved generation (text-image sequence), which has crucial applications in visual nar

中文介绍 InterleaveThinker 旨在通过强化学习提升智能体在交错式生成(文本-图像序列)方面的能力。与现有主要限于单图生成的模型不同,该方法致力于解决其在多模态序列生成中的应用局限。

Rethinking Psychometric Evaluation of LLMs: When and Why Self-Reports Predict Behavior

👍 5

Anticipating LLM behavioral tendencies from low-cost psychometric probes is critical for safe deployment, but only if self-reports (SR) reliably predict behavior. Recent work documented substantial SR-behavior dissociation in LLMs, but relied on broad personality traits (Big 5) that predict specific

中文介绍 该研究重新审视了 LLM 的心理测量评估,探讨了在何种情况下以及为何自我报告(SR)能有效预测 LLM 行为。文章指出,以往关于 SR-行为分离的研究常依赖于广泛的“大五”人格特质。

From 2D Grids to 1D Tokens: Reforming Shared Representations for Multimodal Image Fusion

👍 24

Multimodal image fusion aims to integrate complementary information from different modalities into a fused image that preserves rich local details while maintaining globally consistent appearance. Existing approaches build shared representations on 2D feature grids, which excel at modeling local str

VIA-SD: Verification via Intra-Model Routing for Speculative Decoding

👍 25

Speculative decoding (SD) addresses the high inference costs of LLMs by having lightweight drafters generate candidates for large verifiers to validate in parallel. Existing draft-verify methods use binary decisions: accept or fully recompute. Yet we find that many rejected tokens can be verified co

TreeSeeker: Tree-Structured Trial, Error, and Return in Deep Search

👍 10

Deep search requires agents to answer complex questions through multi-step web search, browsing, evidence comparison, and synthesis. A central challenge is deciding how to search when several directions look plausible but only some will later lead to reliable evidence. If an agent greedily follows t

Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents

👍 3

Compact language models (LMs) reduce cost, latency, and deployment risk for tool agents. Yet MCP-style tool use requires more than isolated function calling: an agent must discover tools from live catalogs, satisfy schemas, preserve dependencies across intermediate outputs, and ground final response

WebChallenger: A Reliable and Efficient Generalist Web Agent

👍 2

Autonomous web navigation remains challenging for LLM agents, and the strongest generalist systems rely on proprietary reasoning models whose inference cost is prohibitive for the repetitive tasks where such agents would be most useful. We argue this gap stems not from insufficient model capability

Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models

👍 8

Adversarial robustness evaluations of large language models (LLMs) typically report attack success rate (ASR) under fixed query budgets, implicitly treating all attacks as equally costly. In practice, the computational expense of different attack strategies can vary by orders of magnitude. Consequen

Flash-GMM: A Memory-Efficient Kernel for Scalable Soft Clustering

👍 2

We present Flash-GMM, a fused Triton kernel for efficient computation of Gaussian Mixture Models (GMMs) over large-scale data in a single GPU pass. By eliminating the need to materialize the full responsibility matrix in GPU memory, Flash-GMM achieves a 20times speedup over existing implementations

IDEAL: In-DEpth ALignment Makes A Discrete Representation AutoEncoder

👍 2

Built on pretrained vision foundation models (VFMs), representation autoencoders (RAEs) have recently emerged as a promising approach for constructing semantically rich latent spaces for image generation. However, their reconstruction quality often remains suboptimal, largely because deep VFM repres

Leveraging Morphology for Historical Script Metrological Analysis

👍 1

Advances in handwritten text recognition have enabled large-scale transcription of historical documents, but still provide limited access to interpretable visual measurements for paleography, the study of historical scripts. In this paper, our main insight is that morphological script analysis, in p

Visual Para-Thinker++: A Single-Policy Multi-Agent Framework for Visual Reasoning

👍 7

Visual reasoning requires integrating evidence distributed across regions, attributes, and relations, making single-chain reasoning prone to early perceptual commitment and hallucination. We propose Visual Para-Thinker++, a single-policy multi-agent framework in which one shared MLLM policy is insta

WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces

👍 95

Computer-use agents (CUAs) increasingly operate in runtimes that combine visual desktop control, command-line execution, code editing, browsers, and external tools. Existing benchmarks, however, often evaluate these interfaces as separable capabilities, leaving long-horizon cross-interface orchestra

MaskAlign: Token-Subset Representation Alignment for Efficient Diffusion Training

👍 4

Representation alignment with pretrained vision models has recently shown strong potential for accelerating diffusion transformer training. By aligning intermediate diffusion features with clean-image representations from self-supervised vision encoders, existing methods improve convergence and gene

Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

👍 74

Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet their performance degrades significantly under real-world visual corruptions. While existing robustness enhancement approaches exist, they are limited: black-box feature alignment lacks interpr

MuJoCo-Drones-Gym: A GPU-Accelerated Multi-Drone Simulator for Control and Reinforcement Learning

👍 4

Robotic simulators are a cornerstone of modern research in aerial robotics, serving both as a vehicle for the development of new control algorithms and as the data source for training reinforcement learning (RL) policies. Yet, existing quadcopter learning environments often face a trade-off between

The Cold-Start Safety Gap in LLM Agents

👍 2

Are tool-calling LLM agents equally safe throughout a conversation? We discover they are not: agents are most vulnerable at the very start of a session and become substantially safer after a few regular agentic tasks -- a phenomenon we term the cold-start safety gap. To study this systematically, we

ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs

👍 2

Large language models deployed as agents over large tool catalogs face a critical tool-retrieval bottleneck. As embedding-based retrieval approaches rely on compact encoders that may under-capture specialized tool semantics, parametric tool retrieval addresses this by encoding each tool as a virtual

Slashy

The AI assistant that does email for you

中文介绍 Slashy 是一款人工智能助手,能够自动处理电子邮件,帮助用户管理收件箱。

Cloudback for Linear

Automated backup and restore for Linear workspaces

中文介绍 Cloudback for Linear 是一款自动化备份和恢复工具,专为 Linear 工作区设计,确保数据安全。

Taste Lab

Extract any website's design DNA

中文介绍 Taste Lab 是一款旨在提取任何网站设计DNA的工具,帮助用户分析和复制网站设计元素。

Memoriq

Your private AI memory for ChatGPT, Claude, Gemini and Grok

中文介绍 Memoriq 是一款私人的AI记忆工具,支持 ChatGPT, Claude, Gemini 和 Grok 等模型,帮助用户管理和回顾AI对话。

Reverie.fm

A fully private & offline location based music journal app

中文介绍 Reverie.fm 是一款完全私密且离线的基于位置的音乐日志应用程序,让用户记录和管理音乐体验。

Prometheus by Firecrawl

A Forward Deployed Agent for web data.

中文介绍 Prometheus by Firecrawl 是一款前置部署的代理,专注于网络数据提取,旨在提高数据获取效率。

Vercel Drop

Drop it. It's live.

中文介绍 Vercel Drop 允许用户快速将文件上传并部署为在线链接,实现“上传即上线”的便捷体验。

CakewordAI

Point at anything to learn its name in any language

中文介绍 CakewordAI 允许用户通过指向物体来学习其名称,并支持多种语言,是一个创新的学习工具。

NomNak

Find restaurants through people you trust

中文介绍 NomNak 是一款通过信任的人脉来寻找餐厅的应用程序,强调基于推荐的用餐体验。

Kimi K2.7 Code

Kimi’s most capable coding model yet

中文介绍 Kimi K2.7 Code 是 Kimi 推出的最新、能力最强的编程模型,旨在提升代码开发效率和质量。

Loops: What Every AI Engineer Needs to Know in 2026

@sairahul1 · 113.0K 粉丝 · 852.6K 阅 · 600 赞 · 79 转

Peter Steinberger, creator of OpenClaw, who now works with OpenAI. Yesterday he posted this: "You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents."

中文介绍 OpenAI 的 Peter Steinberger 提出,未来不应再手动提示编码 AI,而应设计「循环」(loops)来驱动 AI 代理。这种范式转变意味着从单次交互转向更复杂的、自动化的工作流设计,以更有效地利用 AI 能力。

Codex-maxxing: treating Codex like an operating loop

@BradGroux · 5.9K 粉丝 · 714.6K 阅 · 1.0K 赞 · 638 转

Most people still use coding agents like fancy autocomplete or a one-shot chat box. That leaves a lot of value on the table. The better pattern is to treat Codex like a durable operating loop:

中文介绍 文章指出,大多数用户仍将 Codex 等编码 AI 视为简单的工具。作者提倡“Codex-maxxing”,即将其视为一个持续运行的「操作系统循环」,而非一次性问答,以更深入地挖掘其潜力。

Fable 5 (Mythos) Prompting Masterclass by Anthropic

@aiedge_ · 69.5K 粉丝 · 700.1K 阅 · 506 赞 · 68 转

TLDR: Anthropic just published the official playbook for prompting the most powerful AI model on earth - I translated it. Most people won't read this guide (it's buried in the API docs), which is

中文介绍 Anthropic 发布了 Fable 5 (Mythos) 的官方提示词使用指南,该模型被认为当前最强大。帖子指出,许多用户因指南隐藏在 API 文档中而忽略,错失了优化模型表现的关键技巧。

Everything Is Recorded Now

@dhaber · 50.0K 粉丝 · 497.3K 阅 · 500 赞 · 57 转

One of the biggest ways that AI is transforming work (and also one of the most taboo subjects inside companies at the moment) is that most work discussions are being recorded now by default. This

中文介绍 AI 正在改变工作方式,一个关键且敏感的转变是:大多数工作相关的讨论现在默认被录音。这可能带来透明度和可追溯性的提升,但也可能引发隐私和数据安全方面的担忧。

First Steps Toward Automated AI Research

@Recursive_SI · 6.3K 粉丝 · 465.1K 阅 · 516 赞 · 71 转

Early results from Recursive’s automated AI research system on model training and GPU kernel benchmarks Today we are releasing early results from Recursive’s automated AI research system. Across three

中文介绍 Recursive 发布了其自动化 AI 研究系统的早期成果,该系统专注于模型训练和 GPU 内核基准测试。该系统旨在加速 AI 研究进程,通过自动化实验来获得更快的洞察和发现。

Build self-improving agent system with Fable 5 in 14 steps : loops, dynamic workflows, routines

@0xCodez · 6.4K 粉丝 · 371.8K 阅 · 515 赞 · 56 转

Most people are using Claude Fable 5 like Sonnet 4.6 with a bigger context window. They prompt it. It works for 5 minutes. They close the tab. 9 out of 10 users have never run an agent system that

中文介绍 教程演示了如何分 14 步使用 Claude Fable 5 构建自改进的 AI 代理系统,涵盖循环、动态工作流和例程。强调了超越简单提示词,设计能自我驱动和优化的复杂代理的重要性。

Anthropic is losing the mandate of heaven

@haridigresses · 12.5K 粉丝 · 281.7K 阅 · 513 赞 · 36 转

Four months ago, in early February, Anthropic was the darling. OpenAI was the dominant behemoth to root against. Over the last 1-2 years, we'd seen the Sam ouster / return drama, Ilya and Mira had

中文介绍 文章分析了 Anthropic 近期似乎失去市场青睐的原因,对比了其在二月时曾是“宠儿”的状况。作者暗示,与 OpenAI 的动荡相比,Anthropic 的某些方面可能未能维持其早期势头或市场信心。

The Untrainable

@saranormous · 143.5K 粉丝 · 194.8K 阅 · 614 赞 · 40 转

The mid-2026 investor's version of AI psychosis is a despair that nothing is investable, that we should put all our money into Anthropic and Nvidia and go home. I have never felt it. I have been sure

中文介绍 作者认为 2026 年中期的 AI 投资悲观论是不可持续的。尽管面临市场疑虑,作者对 AI 投资前景仍持乐观态度,并明确表示不认同将所有资金押注于少数几家公司(如 Anthropic 和 Nvidia)的做法。

How to Build a Self-Improving Loop in Claude Code (Exact Setup Inside)

@0x_rody · 1.7K 粉丝 · 193.2K 阅 · 513 赞 · 72 转

Claude writes your code, hands it over, and 3 tests are failing. You paste the errors back, it fixes one thing, breaks another, and you spend the evening as a messenger between Claude and your

中文介绍 该教程提供了在 Claude Code 中构建自改进循环的确切设置步骤。它指出,传统的手动调试模式效率低下,应转为设计 AI 代理间的协作循环,让 AI 自身处理代码生成、测试和修复。

Building a Good Vertical Agent

@BrainsAndTennis · 10.5K 粉丝 · 187.4K 阅 · 539 赞 · 45 转

How do you build an agent that actually performs in a domain — one customers pick because it's better? The basics have been standardized over the past year: an agent is a while-loop around a model

中文介绍 构建成功的垂直领域 AI 代理,关键在于其卓越性能。文章指出,标准化的代理模式通常是一个围绕模型运行的 `while` 循环,需要精心设计以确保其在特定领域内表现优异,满足客户需求。

My Week with Fable

@MatthewBerman · 121.3K 粉丝 · 108.0K 阅 · 661 赞 · 26 转

tl;dr I've been testing Fable (Mythos) for the past week and it feels unlike any other model I've used. It feels, and is priced, like a next-generation model. It also has some real quirks. The Good

中文介绍 作者分享了为期一周使用 Fable (Mythos) 的体验。该模型被评价为具有下一代模型的特质和定价,但也存在一些“怪癖”。文章详细探讨了 Fable 的优点和不足之处。

Kimi to Predict All 104 World Cup Matches: Germany May Be Underestimated

@Kimi_Moonshot · 172.7K 粉丝 · 106.6K 阅 · 500 赞 · 61 转

Our predictions will probably be wrong. But the World Cup offers a rare, public, verifiable, and constantly evolving real-world setting. Through this initiative, we hope to place analysis,

中文介绍 Kimi 团队将利用 AI 预测全部 104 场世界杯比赛,并认为德国队可能被低估。此举旨在利用世界杯这一公开、可验证的真实世界场景,进行 AI 分析和预测,以检验模型能力。

Loop engineering: the 14-step roadmap from prompter to loop designer.

@0xCodez · 6.4K 粉丝 · 97.8K 阅 · 510 赞 · 80 转

Most developers still prompt their coding agents by hand. They type, they wait, they read the diff, they type again. 9out of 10 builders have never written a single loop that prompts the agent for

中文介绍 文章提出了「循环工程」(Loop Engineering)的 14 步路线图,旨在帮助开发者从手动提示转向设计驱动 AI 代理的「循环」。核心观点是,大多数开发者仍停留在低效的手动交互模式。

Designing loops with Fable 5

@RLanceMartin · 30.4K 粉丝 · 84.7K 阅 · 660 赞 · 50 转

Mythos-class models like Claude Fable 5 have changed the way many of us work at Anthropic. I want to share two tips for getting the most out of this class of models. Self-correction loops There’s been

中文介绍 作者分享了使用 Claude Fable 5 的两个技巧,重点在于构建「自我纠正循环」。这种循环能让模型在发现错误后自动进行调整和修正,极大地提升了工作效率和模型输出质量。

Anthropic's War on Opensource AI

@TheAhmadOsman · 61.0K 粉丝 · 74.9K 阅 · 507 赞 · 98 转

Anthropic wants the public to see one thing: the careful lab, the safety lab, the grown-up in the room trying to keep frontier AI from running off a cliff. However, the pattern around Anthropic does

中文介绍 该帖批评 Anthropic 在公开场合塑造的“安全、负责任”形象与其实际行为模式不符。作者认为,Anthropic 可能在暗中采取某些与开源 AI 发展相悖的策略,这与其宣称的价值观存在矛盾。

Coinbase for Agents: Your AI Agent Can Now Trade and Pay with Coinbase

@coinbase · 7.0M 粉丝 · 72.8K 阅 · 500 赞 · 62 转

TL;DR: Coinbase for Agents connects your AI agent directly to your Coinbase account so it can trade, pay, and execute workflows on your behalf, all within limits you control. Available today as an MCP

中文介绍 Coinbase 推出“Coinbase for Agents”服务,允许 AI 代理直接连接到用户账户,执行交易、支付等操作,且在用户设定的额度内自主运行。这项新功能为 AI 代理的应用拓展了金融场景。

Principled Thinking and AI Need to Go Together

@RayDalio · 2.2M 粉丝 · 72.6K 阅 · 515 赞 · 93 转

What is the best approach to being effectively intelligent now that human intelligence and artificial intelligence are merging? Because I have been building computerized investment decision-making

中文介绍 Ray Dalio 探讨了在人类智能与人工智能融合的时代,如何实现有效的智能。他强调了「原则性思考」(Principled Thinking)与 AI 协同工作的重要性,这借鉴了他构建计算机化投资决策系统的经验。

ORACLE: Official AI Agents Trade on Polymarket

@ORACLEAIFND · 31.9K 粉丝 · 63.6K 阅 · 1.5K 赞 · 563 转

In 2026, autonomous AI agents have become one of the most effective strategies on prediction markets. Over 30% of all activity on Polymarket now comes from algorithmic and AI-powered wallets. We

中文介绍 Oracle AI 宣布,其官方 AI 代理已在 Polymarket 预测市场上取得显著成效,占据了超过 30% 的交易活动。这表明 AI 代理在金融和预测市场领域已成为一种高效的策略。

Codex-maxxing: treating Codex like an operating loop

@BradGroux · 5.9K 粉丝 · 714.6K 阅 · 7d 曝光 714.6K

Codex-maxxing: treating Codex like an operating loop

中文介绍 文章指出,大多数用户仍将 Codex 等编码 AI 视为简单的工具。作者提倡“Codex-maxxing”,即将其视为一个持续运行的「操作系统循环」,而非一次性问答,以更深入地挖掘其潜力。

Fable 5 (Mythos) Prompting Masterclass by Anthropic

@aiedge_ · 69.5K 粉丝 · 700.1K 阅 · 7d 曝光 700.1K

Fable 5 (Mythos) Prompting Masterclass by Anthropic

中文介绍 Anthropic 发布了 Fable 5 (Mythos) 的官方提示词使用指南,该模型被认为当前最强大。帖子指出,许多用户因指南隐藏在 API 文档中而忽略,错失了优化模型表现的关键技巧。

Why the Government Just Killed Claude Fable 5

中文介绍 此视频讨论了名为 Claude Fable 5 的人工智能模型,并探讨了政府为何决定“杀死”或停止该项目。具体原因和影响尚未在摘要中明确,但暗示该项目可能因某些原因被终止。

This is Why They Banned Claude Fable 5

中文介绍 该视频解释了政府禁止 Claude Fable 5 的原因。虽然具体细节未在摘要中提供,但可以推断 Claude Fable 5 的发展或应用触及了某些政策红线或引起了监管机构的担忧,从而导致了禁令。

Claude FM 🎵 music for thinking and building

中文介绍 Claude FM 是一个为思考和创造设计的音乐项目。该项目旨在通过音乐提供一个专注、富有灵感的背景环境,帮助用户在工作或学习时保持高效和创造力。

Claude FM 🎵 music for thinking and building

中文介绍 Claude FM 是一个为思考和创造设计的音乐项目。该项目旨在通过音乐提供一个专注、富有灵感的背景环境,帮助用户在工作或学习时保持高效和创造力。

Code with Claude Tokyo 2026: Opening Keynote

中文介绍 此视频记录了 Code with Claude Tokyo 2026 活动的开幕主题演讲。活动聚焦于使用 Claude 技术进行编码和开发,并可能探讨了未来在东京举行的相关技术发展方向和趋势。

The Problem Solvers | Michael Truell at Cursor

中文介绍 Michael Truell 在 Cursor 的演讲“The Problem Solvers”可能探讨了如何利用 AI 工具(如 Claude)来解决编程和开发中的实际问题。重点在于 AI 在提升效率和创新方面的作用。

Claude Fable 5 beats Pokémon FireRed only using vision

中文介绍 Claude Fable 5 这个 AI 模型仅凭视觉能力,就成功通关了经典的《宝可梦:火红版》游戏。这展示了该模型在视觉理解、策略规划和游戏交互方面的强大能力。

Claude FM 🎵 music for thinking and building

中文介绍 Claude FM 是一个为思考和创造设计的音乐项目。该项目旨在通过音乐提供一个专注、富有灵感的背景环境,帮助用户在工作或学习时保持高效和创造力。

Claude FM 🎵 music for thinking and building

中文介绍 Claude FM 是一个为思考和创造设计的音乐项目。该项目旨在通过音乐提供一个专注、富有灵感的背景环境,帮助用户在工作或学习时保持高效和创造力。

Code with Claude Tokyo 2026: Opening Keynote

中文介绍 此视频记录了 Code with Claude Tokyo 2026 活动的开幕主题演讲。活动聚焦于使用 Claude 技术进行编码和开发,并可能探讨了未来在东京举行的相关技术发展方向和趋势。

The Problem Solvers | Michael Truell at Cursor

中文介绍 Michael Truell 在 Cursor 的演讲“The Problem Solvers”可能探讨了如何利用 AI 工具(如 Claude)来解决编程和开发中的实际问题。重点在于 AI 在提升效率和创新方面的作用。

Claude Fable 5 beats Pokémon FireRed only using vision

中文介绍 Claude Fable 5 这个 AI 模型仅凭视觉能力,就成功通关了经典的《宝可梦:火红版》游戏。这展示了该模型在视觉理解、策略规划和游戏交互方面的强大能力。

[AINews] Fable and Mythos officially too dangerous to release

We are in the strangest timeline.

中文介绍 据报道,Fable和Mythos项目被认定为「过于危险」,因此官方决定不予发布。该消息引发了业界对AI安全和伦理的广泛关注。

New OpenAI Academy courses for the next era of work

OpenAI introduces three Academy courses that help people build practical AI skills, create repeatable workflows, and apply agents in everyday work.

中文介绍 OpenAI新推出三门学院课程,旨在帮助人们掌握实用的AI技能,学习创建可重复的工作流程,并将AI智能体有效应用于日常工作,以适应未来工作的新时代。

[AINews] Loopcraft: The Art of Stacking Loops

a quiet day lets us highlight a great concept from Peter Steinberger, Boris Cherny, and Andrej Karpathy

中文介绍 该报道重点介绍了Peter Steinberger、Boris Cherny和Andrej Karpathy提出的「Loopcraft:循环堆叠的艺术」这一概念,探讨了在特定领域中的创新技术思路。

How Preply combines AI and human tutors to personalize learning

Preply uses OpenAI to launch AI-generated lesson summaries, providing personalised feedback and language learning exercises.

中文介绍 语言学习平台Preply利用OpenAI技术,推出AI生成的课程摘要、个性化反馈及语言学习练习,旨在通过结合AI与人类导师,为用户提供更高效的个性化学习体验。

Google DeepMind is worried about what happens when millions of agents start to interact

Google DeepMind is funding research into the potential dangers of situations where millions of different AI agents interact with each other online. According to Rohin Shah, who directs the company’s AGI safety and alignment research, the mass-market arrival of agents that can carry out tasks without

中文介绍 Google DeepMind正资助研究数百万AI智能体在线交互可能带来的潜在危险。该公司AGI安全与对齐研究负责人Rohin Shah指出,大量智能体进入市场可能引发意想不到的问题。

Supporting Europe’s work in ensuring a trustworthy AI ecosystem

OpenAI supports the EU Code of Practice on AI content transparency, advancing provenance standards and tools to help people understand AI-generated content.

中文介绍 OpenAI宣布支持欧盟的AI内容透明度行为准则,旨在推动溯源标准和工具的进步,以帮助人们更好地理解AI生成的内容,从而支持欧洲构建可信赖的AI生态系统。

BBVA puts AI at the core of banking with OpenAI

Learn how BBVA scaled ChatGPT Enterprise to 100,000 employees and partnered with OpenAI to accelerate AI-powered banking transformation worldwide.

中文介绍 BBVA银行与OpenAI合作,将ChatGPT企业版推广至全球10万名员工,加速其全球AI驱动的银行业务转型,致力于将AI技术深度融入银行业务核心,提升运营效率和客户体验。

OpenAI to acquire Ona

OpenAI plans to acquire Ona to expand Codex with secure, persistent cloud environments, enabling long-running AI agents across enterprise workflows.

中文介绍 OpenAI计划收购Ona公司,旨在通过安全、持久的云环境扩展Codex功能。此次收购将增强OpenAI在支持AI智能体跨企业工作流程长时间运行方面的能力。

How an astrophysicist uses Codex to help simulate black holes

Discover how astrophysicist Chi-kwan Chan uses Codex to build black hole simulations, helping scientists study extreme physics and test Einstein’s theory of general relativity.

中文介绍 天体物理学家Chi-kwan Chan利用OpenAI的Codex工具构建黑洞模拟。这有助于科学家深入研究极端物理现象,并对爱因斯坦的广义相对论进行关键测试。

Profiling in PyTorch (Part 2): From nn.Linear to a Fused MLP

中文介绍 该文章是PyTorch性能分析系列的第二部分,深入介绍了如何将深度学习框架中的`nn.Linear`模块优化并融合为高效的「Fused MLP」,以提升模型运行效率。

Access OpenAI models and Codex through your Oracle cloud commitment

Access OpenAI models and Codex through Oracle Cloud, using existing commitments to build and deploy AI with enterprise security and governance.

中文介绍 OpenAI宣布,用户现在可以通过Oracle云基础设施访问其模型和Codex。这使得企业能够利用现有Oracle承诺,在满足安全和治理要求的前提下,便捷地构建和部署AI应用。

GPT渠道彻底拉闸,小鸡毛公益API服务调整

今天凌晨最后一个白嫖GPT PLUS的渠道拉闸了 (点击了解更多详细信息) 为了优先保障自己不断粮 为了保障已订阅用户和已充值用户的权益 余额补齐 (点击了解更多详细信息) 普通分组的倍率调整为3倍(毕竟之前送太多余额了,消耗一下 ) 17 个帖子 - 16 位参与者 阅读完整话题

【公益站】最后一弹

本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的项目是免费使用的,无收费(变相收费、赞助)部分: 是 / 否 我的帖子已经打上 公益推广 标签: 是 / 否 我的项目属于个人项目,与公司或商业机构无关: 是 / 否 我的项目不存在QQ、TG等群组引流: 是 / 否 我的项目不存在非运营必要的网站引流: 是 / 否 我的项目不存在为他人推广、AFF: 是 / 否 我的项目无关联的商业项目: 是 / 否 我的站点存在登录,并已接入 LINUX DO Connect: 是 / 否 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 / 否 以上选择我承诺是永久有效的

【公益站】新的公益站——九幺公益站

本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的项目是免费使用的,无收费(变相收费、赞助)部分: 是 我的帖子已经打上 公益推广 标签: 是 我的项目属于个人项目,与公司或商业机构无关: 是 我的项目不存在QQ、TG等群组引流: 是 我的项目不存在非运营必要的网站引流: 是 我的项目不存在为他人推广、AFF: 是 我的项目无关联的商业项目: 是 我的站点存在登录,并已接入 LINUX DO Connect: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已

每天打八段锦,身边人都说我变了。

最近每天打八段锦,媳妇说我每天看起来春光满面,朋友说我走路都带风,感觉身体很轻盈,就连我自己都觉得身体充满了力量,之前的我每天通宵熬夜,要么是工作一整夜,要么是打王者一整夜,结果白天睡一整天,睡醒起来无精打采的,每天浑浑噩噩,我烟瘾还大,每天3包烟,这样的日子不知道持续了多久,某一天我的腰痛的不能弯,我去一查才知道,腰肌劳损,可能是长期久坐导致的。持续一周都没好,最后找一个老郎中给我扎了针,才减轻不少,后来我意识到自己的健康问题,主动扔掉烟灰缸和打火机,至今一根没抽,每天早上4点半起床,开始骑行锻炼身体,10公里。然后就是做八段锦,三十多分钟。第一天我锻炼完以后,手拿手机手抖的厉害,腿一打弯立

大家警惕 vibe coding 的投毒问题

Any也偷.ssh文件吗? 搞七捻三 [image] 这个对话完全是用的any的配置,中间没切过对话 [image] 从这里继续讨论: 很多佬友遇到这个问题不清楚具体是什么原因,我们可以看一下,当我们使用 Claude Code 或者 Codex 之类的工具 vibe coding 的时候,整个流程是怎样的: 你发送了一条消息 插件 Hook 可以修改你发送的消息 中转站把消息发给模型 模型开始推理 模型调用了一些工具,此时消息从中转站发回 Claude Code 插件 Hook 可以修改模型调用工具的输入 Claude Code 进行实际的工具调用 插件 Hook 可以修改工具调用的输出 C

自建了中转站,发现公益站真的很不容易

感谢始皇佬开放了注册,9年github老号有机会进来了,也感谢any和君の的公益… 体会到免费蹬的快乐 然后最近codex可能是真的火,朋友也知道了这个,就问我又没有什么方法用。 我就想着搓个中转站吧,弄好之后我的想法就是,做公益的大佬们太不容易了,真的很伟大 最早想的挺美,买几十个免费号丟进去… 后面发现免费号不好使,就放了两个日抛的plus,结果一晚上过去就挂了一个(真·日抛) 目前还在研究号池,要是真的稳定下来再考虑开放给大家 37 个帖子 - 26 位参与者 阅读完整话题

今天生日,抽5个佬友嚯咖啡

早上起来收到第一个生日祝福是联通短信 不善言辞,最后 祝各位安好,身体健康~ 105 个帖子 - 104 位参与者 阅读完整话题

giffgaff的日常使用&问题解决汇总贴

[个人收集自用,佬友们有需要可自取] [如有佬友有其他已解决的问题,可以回帖,我周期整理到此贴中] [---------------------其他佬友的经验汇总分享---------------------] [-----------也是整理类的,我就不复制了。大家可以点进去看-------------] 1、giffgaff 使用方法 2、**英国giffgaff卡使用指南:**https://giffgaff.comtesla.com/ 3、 4、 [--------------------------------具体问题列表-----------------------------]

github Release界面,十八个文件令人眼花缭乱→我做了一个智能高亮脚本,再也不需要一个一个看后缀啦

该下载哪个一目了然 // ==UserScript== // @name 抓住你了hh // @namespace http://tampermonkey.net/ // @version 3.5.0 // @description 自动检测系统并高亮最适合当前设备的安装包😇 // @author 哈基米3.5 // @match *://github.com/* // @run-at document-start // @grant none // ==/UserScript== (function() { 'use strict'; function detectOS() { if (n

Honda Civics and the Evil Valet

Previously: Show HN: Honda Civic Infotainment Reverse-Engineering - https://news.ycombinator.com/item?id=36052753 - May 2023 (43 comments)

GLM 5.2 Is Out

https://digg.com/tech/ii9xibgn

今日主题

今日AI领域聚焦于AI Agent的开发、应用与安全,以及多模态模型的最新进展。开源社区活跃,涌现出多个提升AI Agent工程实践和开发效率的项目,如`agent-skills`和`superpowers`。同时,模型评估工具`olmo-eval`和性能优化技术如`PyTorch性能分析`也备受关注。OpenAI持续扩张其在教育、金融和科学研究领域的AI应用,并宣布收购Ona以增强其AI智能体服务能力。HuggingFace发布的系列论文则深入探讨了多模态通信、LLM评估、智能体鲁棒性及新颖的稀疏注意力机制,预示着AI模型在处理复杂信息和动态环境方面迈出新步伐。业界对AI Agent交互的安全性和潜在风险的讨论也日益增加。

01

模型发布/更新

Model Releases 1919 篇

AI Agent开发框架addyosmani/agent-skills

开源项目GitHub Trending

开源项目`addyosmani/agent-skills`旨在为AI编码代理提供生产级别的工程技能,以提升其在软件开发任务中的表现。它可能包含优化模块和最佳实践,帮助AI agent更高效地完成代码生成、重构等复杂工作,适用于AI Agent开发者和研究人员。

AI Agent编程助手工程实践

AI Agent技能框架obra/superpowers

开源项目GitHub Trending

`obra/superpowers`提供代理式技能框架及软件开发方法论,用于优化AI Agent的开发与集成。它帮助开发者结构化设计、实现和管理Agent能力,提高开发效率,确保Agent在生产环境中的可靠性与扩展性,适用于构建AI Agent解决方案的工程师。

AI Agent开发框架方法论

AI编码代理分析工具kenn-io/agentsview

开源项目GitHub Trending

开源项目`kenn-io/agentsview`提供本地优先的会话智能和分析,专为多种AI编码代理设计,旨在帮助用户深入了解和优化Agent工作流程,提供详细的会话数据与洞察。该工具声称比`ccusage`快百倍,适用于追求高效率、精细化管理AI编码辅助工具表现的开发者。

AI Agent开发者工具性能分析

LLM推理优化KV Cache层LMCache/LMCache

开源项目GitHub Trending

`LMCache/LMCache`通过提供极致快速的KV Cache层,显著提升LLM性能。该项目优化了注意力机制中的键值缓存,有效减少了LLM序列生成过程中的重复计算,加快推理速度并降低计算资源消耗,适用于LLM开发者和需要优化部署效率的团队。

LLM推理优化缓存

NVIDIA AI Agent技能安全扫描工具SkillSpector

开源项目GitHub Trending

NVIDIA开源的`SkillSpector`工具专注于检测AI Agent技能中的潜在漏洞、恶意模式和安全风险,通过自动化分析帮助开发者和安全团队确保AI Agent的运行安全和行为可靠性,防范滥用和数据泄露,适用于AI Agent开发者和安全审计人员。

AI安全AI Agent漏洞扫描

AI工具系统提示与模型信息库x1xhlol/system-prompts-and-models-of-ai-tools

开源项目GitHub Trending

开源项目`x1xhlol/system-prompts-and-models-of-ai-tools`收集了众多流行AI工具(如Claude Code, Cursor)的系统提示和底层模型信息,旨在揭示AI产品功能实现机制,为AI开发者、prompt工程师和研究者提供了理解和优化AI交互设计的参考资料。

AIPrompt工程LLM

Allen AI发布模型评估工作台olmo-eval

官方Hugging Face Blog

Allen AI推出的`olmo-eval`是一个专为AI模型开发循环设计的评估工作台,旨在帮助研究人员和开发者更高效地测试和优化模型性能,以支持模型迭代和改进。

模型评估开发工具AllenAI

LLM心理测量评估研究

官方HuggingFace Trending Papers

该研究重新审视了LLM的心理测量评估,探讨了自我报告(SR)在多大程度上能有效预测LLM行为,并指出以往研究常依赖于广泛的“大五”人格特质,提出了更细致的分析视角。

LLM评估自我报告行为预测

多智能体通信新方法基于KV缓存

官方HuggingFace Trending Papers

该研究提出一种新的多智能体通信方法,利用KV缓存作为通信机制,克服了当前基于文本通信的低效问题,并旨在解决异构智能体间的通信瓶颈,应对跨模型通信挑战。

多智能体通信KV缓存

印度语言医疗多模态推理框架ArogyaSutra

官方HuggingFace Trending Papers

ArogyaSutra是一个多智能体框架,专为处理印度语系的医学多模态推理设计,旨在解决当前多模态大语言模型(MLLMs)在医疗领域,特别是在多语言和低资源场景下的局限性。

多模态医疗多语言

统一多模态模型HYDRA-X

官方HuggingFace Trending Papers

HYDRA-X提出了一种新的统一多模态模型(UMM),首次在单一Vision Transformer (ViT)中整合了图像和视频的“整体视觉分词器”,实现了对不同视觉输入的统一处理。

多模态视觉模型Transformer

LLM长文本处理新机制MiniMax Sparse Attention

官方HuggingFace Trending Papers

为满足LLM超长上下文处理需求,该研究提出了MiniMax Sparse Attention机制,旨在应对传统softmax attention机制的二次方计算成本问题,适用于智能体工作流、大规模代码推理等场景。

LLM长文本注意力机制

搜索智能体基准EvoBrowseComp

官方HuggingFace Trending Papers

EvoBrowseComp提出了一个评估搜索智能体的新基准,解决了现有基准依赖静态知识易被污染的问题,专注于在不断演化的知识环境下评估智能体的鲁棒性,适用于智能体评估。

智能体评估知识演化

LLM智能体记忆演化评估EvoArena

官方HuggingFace Trending Papers

EvoArena提出了一种跟踪LLM智能体记忆演化的方法,用于评估其在动态环境中的鲁棒性。该方法模拟智能体需要持续适应和更新知识的真实世界场景,适用于LLM智能体在动态环境下的评估。

LLM智能体动态环境记忆

机器人操作模型WEAVER

官方HuggingFace Trending Papers

WEAVER是一个高效的世界模型(WM),专为机器人操作任务设计,旨在提升策略评估、改进和测试时间规划能力。该模型致力于在有限真实世界交互下,能够联合满足多种下游任务的需求。

机器人世界模型策略规划

自主科学发现框架EurekAgent

官方HuggingFace Trending Papers

EurekAgent提出一种通过“智能体环境工程”实现自主科学发现的方法。该框架利用LLM智能体在给定可优化指标和执行环境中,能够提出、验证并迭代科学解决方案,其效果已超越人类设计的方法。

LLM智能体科学发现自动化

多模态交错生成强化学习InterleaveThinker

官方HuggingFace Trending Papers

InterleaveThinker旨在通过强化学习提升智能体在交错式生成(文本-图像序列)方面的能力。与现有主要限于单图生成的模型不同,该方法致力于解决其在多模态序列生成中的应用局限。

生成模型多模态强化学习

Kimi K2.7 Code编程模型

产品榜单Product Hunt

Kimi K2.7 Code是Kimi推出的最新、能力最强的编程模型,旨在提升代码开发效率和质量。

AI编程Kimi

Claude Fable 5仅凭视觉通关宝可梦

官方Claude (YouTube)

Claude Fable 5 AI模型仅凭视觉能力,成功通关了经典的《宝可梦:火红版》游戏。这展示了该模型在视觉理解、策略规划和游戏交互方面的强大能力。

AI 模型游戏视觉能力
02

产品发布/更新

Product 3535 篇

开源全渠道客服平台Chatwoot

开源项目GitHub Trending

开源项目`chatwoot/chatwoot`是一个实时聊天、电子邮件支持及全渠道客户服务平台,提供商业软件的免费替代方案。它帮助企业整合客户沟通渠道,提升服务效率,并支持自托管,适用于希望改进客户支持系统的中小企业。

客服系统开源SaaS替代

Apple Silicon优化Linux容器工具apple/container

开源项目GitHub Trending

Apple官方开源的`apple/container`工具利用轻量级虚拟机高效创建和运行Linux容器,特别为macOS和Apple silicon优化,提供接近原生性能。它解决了Mac用户运行Linux容器的性能和兼容性挑战,适用于Mac开发者。

容器macOSApple Silicon

开源媒体库管理器Music Assistant

开源项目GitHub Trending

`music-assistant/server`是开源媒体库管理器Music Assistant的核心组件,能连接用户流媒体服务与智能音箱,实现音乐内容的统一管理和播放。项目旨在解决音乐碎片化问题,为用户打造集中式智能家庭音乐生态。

音乐管理智能家居流媒体

微软Windows效率工具集PowerToys

开源项目GitHub Trending

微软开源的`microsoft/PowerToys`是一系列实用工具集,旨在提升Windows操作系统的生产力和个性化能力,包含窗口布局管理、批量文件重命名、颜色选择器等功能,弥补了Windows原生系统功能不足,适用于希望提高Windows使用效率的用户。

Windows效率工具实用程序

多生成式AI服务接口aisuite

开源项目GitHub Trending

开源项目`andrewyng/aisuite`提供简洁统一的接口,用于访问和管理多个生成式AI服务提供商,简化与不同AI模型(如OpenAI, Anthropic)的交互复杂性,为开发者提供统一API或UI,适用于需要同时利用或测试多个生成式AI模型的开发者。

AI平台生成式AI多模型

Rust语言Web开发工具链SWC

开源项目GitHub Trending

开源项目`swc-project/swc`是基于Rust语言构建的Web平台,提供极致性能的代码转译、打包、压缩等功能,作为Babel、Webpack的快速替代品,显著提升前端项目构建速度,适用于追求开发效率和构建性能的JavaScript/TypeScript开发者。

前端Rust构建工具

OpenAI发布新学院课程

官方OpenAI News

OpenAI新推出三门学院课程,旨在帮助人们掌握实用的AI技能,学习创建可重复的工作流程,并将AI智能体有效应用于日常工作,以适应未来工作的新时代。

OpenAIAI教育课程

Preply结合AI个性化语言学习

官方OpenAI News

语言学习平台Preply利用OpenAI技术,推出AI生成的课程摘要、个性化反馈及练习,通过结合AI与人类导师,为用户提供更高效的个性化学习体验。

OpenAI教育科技个性化学习

BBVA银行引入ChatGPT企业版

官方OpenAI News

BBVA银行与OpenAI合作,将ChatGPT企业版推广至全球10万名员工,加速其全球AI驱动的银行业务转型,致力于将AI技术深度融入银行业务核心,提升运营效率和客户体验。

OpenAI金融科技企业应用

OpenAI计划收购Ona

官方OpenAI News

OpenAI计划收购Ona公司,旨在通过安全、持久的云环境扩展Codex功能,增强其在支持AI智能体跨企业工作流程长时间运行方面的能力。

OpenAI并购企业服务

通过Oracle云访问OpenAI模型

官方OpenAI News

OpenAI宣布,用户现在可以通过Oracle云基础设施访问其模型和Codex,使得企业能够利用现有Oracle承诺,在满足安全和治理要求的前提下,便捷地构建和部署AI应用。

OpenAIOracle云计算

PyTorch性能分析:Fused MLP优化

官方Hugging Face Blog

该文章是PyTorch性能分析系列的第二部分,深入介绍了如何将深度学习框架中的`nn.Linear`模块优化并融合为高效的「Fused MLP」,以提升模型运行效率。

PyTorch深度学习性能优化

OpenAI提出“循环”驱动AI代理

X·KOLX 推文 (AttentionVC)

OpenAI的Peter Steinberger提出,未来不应手动提示编码AI,而应设计“循环”(loops)来驱动AI代理。这种范式转变意味着从单次交互转向更复杂的自动化工作流设计,以更有效地利用AI能力。

提示词工程工作流AI 代理

将Codex视为操作系统循环

X·KOLX 推文 (AttentionVC)

文章提倡“Codex-maxxing”,即将其视为一个持续运行的「操作系统循环」,而非一次性问答,以更深入地挖掘Codex等编码AI的潜力,适用于希望深度利用AI辅助编程的用户。

提示词工程工作流Codex

14步构建Claude Fable 5自改进代理

X·KOLX 推文 (AttentionVC)

教程演示了如何分14步使用Claude Fable 5构建自改进的AI代理系统,涵盖循环、动态工作流和例程,强调设计能自我驱动和优化的复杂代理的重要性。

AI 代理工作流Claude Fable 5

Claude Code自改进循环设置

X·KOLX 推文 (AttentionVC)

该教程提供了在Claude Code中构建自改进循环的确切设置步骤,指出应设计AI代理间的协作循环,让AI自身处理代码生成、测试和修复,而非手动调试。

教程AI 代理Claude Code

构建卓越垂直领域AI代理

X·KOLX 推文 (AttentionVC)

文章指出,构建成功的垂直领域AI代理关键在于其卓越性能。标准化的代理模式通常是围绕模型运行的`while`循环,需要精心设计以确保其在特定领域内表现优异。

AI 代理工作流垂直领域

AI代理循环工程14步路线图

X·KOLX 推文 (AttentionVC)

文章提出了“循环工程”(Loop Engineering)的14步路线图,旨在帮助开发者从手动提示转向设计驱动AI代理的“循环”,核心观点是大多数开发者仍停留在低效的手动交互模式。

提示词工程工作流AI 代理

Claude Fable 5构建自我纠正循环

X·KOLX 推文 (AttentionVC)

作者分享了使用Claude Fable 5的两个技巧,重点在于构建“自我纠正循环”,能让模型在发现错误后自动调整和修正,极大地提升了工作效率和模型输出质量。

AI 代理工作流Claude Fable 5

Coinbase允许AI代理交易支付

X·KOLX 推文 (AttentionVC)

Coinbase推出“Coinbase for Agents”服务,允许AI代理直接连接用户账户,执行交易、支付等操作,并在用户设定额度内自主运行,为AI代理的应用拓展了金融场景。

产品发布AI 代理金融

Reverie.fm:私密离线音乐日志

产品榜单Product Hunt

Reverie.fm是一款完全私密且离线的基于位置的音乐日志应用程序,让用户记录和管理音乐体验。

音乐日志隐私

Cloudback for Linear:自动化备份

产品榜单Product Hunt

Cloudback for Linear是一款自动化备份和恢复工具,专为Linear工作区设计,确保数据安全。

备份Linear数据安全

Memoriq:私人的AI记忆工具

产品榜单Product Hunt

Memoriq是一款私人的AI记忆工具,支持ChatGPT, Claude, Gemini和Grok等模型,帮助用户管理和回顾AI对话。

AI记忆工具ChatGPT

Taste Lab:网站设计DNA提取

产品榜单Product Hunt

Taste Lab是一款旨在提取任何网站设计DNA的工具,帮助用户分析和复制网站设计元素。

设计工具网站分析

Slashy:AI邮件助手

产品榜单Product Hunt

Slashy是一款人工智能助手,能够自动处理电子邮件,帮助用户管理收件箱。

AI助手效率工具

Avatars in ElevenCreative

产品榜单Product Hunt

Avatars in ElevenCreative提供了一个专门的入口,用于创建和使用谈话式视频(talking-head video)的虚拟形象。

视频虚拟形象ElevenCreative

NomNak:人脉推荐餐厅

产品榜单Product Hunt

NomNak是一款通过信任的人脉来寻找餐厅的应用程序,强调基于推荐的用餐体验。

推荐餐厅社交

CakewordAI:物体名称学习

产品榜单Product Hunt

CakewordAI允许用户通过指向物体来学习其名称,并支持多种语言,是一个创新的学习工具。

学习工具AI语言学习

Vercel Drop:快速文件部署

产品榜单Product Hunt

Vercel Drop允许用户快速将文件上传并部署为在线链接,实现“上传即上线”的便捷体验。

部署VercelWeb开发

Prometheus by Firecrawl:网络数据提取

产品榜单Product Hunt

Prometheus by Firecrawl是一款前置部署的代理,专注于网络数据提取,旨在提高数据获取效率。

数据提取网络爬虫Firecrawl

Medicyn:健康记录隐私应用

产品榜单Product Hunt

Medicyn是一款确保用户完整医疗历史记录安全存储在设备上的应用程序,注重隐私保护。

健康隐私医疗记录

Claude FM:音乐项目

官方Claude (YouTube)

Claude FM是一个为思考和创造设计的音乐项目,旨在通过音乐提供一个专注、富有灵感的背景环境,帮助用户在工作或学习时保持高效和创造力。

AI 应用音乐创造力

Claude FM:音乐项目

官方Claude (YouTube)

Claude FM是一个为思考和创造设计的音乐项目,旨在通过音乐提供一个专注、富有灵感的背景环境,帮助用户在工作或学习时保持高效和创造力。

AI 应用音乐创造力

Code with Claude Tokyo 2026:开幕演讲

官方Claude (YouTube)

此视频记录了Code with Claude Tokyo 2026活动开幕主题演讲,聚焦于使用Claude技术进行编码和开发,并探讨未来相关技术发展方向和趋势。

AI 技术编程活动

Michael Truell在Cursor的演讲

官方Claude (YouTube)

Michael Truell在Cursor的演讲“The Problem Solvers”探讨了如何利用AI工具(如Claude)来解决编程和开发中的实际问题,重点在于AI在提升效率和创新方面的作用。

AI 工具编程效率
03

行业动态

Industry 1919 篇

IPTV频道聚合项目iptv-org/iptv

开源项目GitHub Trending

开源项目`iptv-org/iptv`汇集全球公开可用IPTV频道,以M3U播放列表等形式组织,提供便捷的免费网络电视观看资源,适用于希望拓展观看选择的用户及需要数据源的开发者。

IPTV媒体资源聚合

翻墙与科学上网资源项目bannedbook/fanqiang

开源项目GitHub Trending

开源项目`bannedbook/fanqiang`专注于提供翻墙和科学上网方法及资源,汇集多种绕过网络审查的工具、配置和教程,旨在帮助用户突破限制,自由访问互联网信息,适用于有国际信息获取需求的用户。

翻墙网络工具代理

OpenAI支持欧盟AI透明度准则

官方OpenAI News

OpenAI宣布支持欧盟的AI内容透明度行为准则,旨在推动溯源标准和工具的进步,帮助人们更好地理解AI生成的内容,从而支持欧洲构建可信赖的AI生态系统。

OpenAIAI监管欧盟

天体物理学家用Codex模拟黑洞

官方OpenAI News

天体物理学家Chi-kwan Chan利用OpenAI的Codex工具构建黑洞模拟,有助于科学家深入研究极端物理现象,并对爱因斯坦的广义相对论进行关键测试。

OpenAI科学研究AI应用

AI新闻速览:OpenAI收购Ona,小米发布MiMo代码

综合资讯TLDR AI

当日AI新闻速览:OpenAI宣布收购数据公司Ona;Anthropic在某政策或立场上出现反转;小米公布了其MiMo代码,显示了该公司在AI领域的最新进展。

AI新闻OpenAI小米

Fable和Mythos项目被指“过于危险”

大咖博客Latent Space

据报道,Fable和Mythos项目被认定为「过于危险」,因此官方决定不予发布。该消息引发了业界对AI安全和伦理的广泛关注。

AI安全项目动态AI伦理

Sarah Guo谈开放模型与AI实验室

大咖博客Latent Space

该文章讨论了Sarah Guo关于「开放模型」、「模型实验室与智能体实验室的对比」以及「不可训练的事物」等前沿AI概念的深刻见解,引发了行业对未来AI发展的思考。

AI趋势技术探讨AI伦理

Google DeepMind担忧百万AI智能体交互

综合资讯MIT Tech Review AI

Google DeepMind资助研究数百万AI智能体在线交互可能带来的潜在危险。该公司AGI安全与对齐研究负责人Rohin Shah指出,大量智能体进入市场可能引发意想不到的问题。

GoogleAI安全AI智能体

大多数工作讨论默认被录音

X·KOLX 推文 (AttentionVC)

AI正在改变工作方式,一个关键且敏感的转变是:大多数工作相关的讨论现在默认被录音。这可能带来透明度和可追溯性的提升,但也可能引发隐私和数据安全方面的担忧。

AI 影响工作模式数据

Recursive发布自动化AI研究系统

X·KOLX 推文 (AttentionVC)

Recursive发布了其自动化AI研究系统的早期成果,该系统专注于模型训练和GPU内核基准测试,旨在加速AI研究进程,通过自动化实验来获得更快的洞察和发现。

AI 研究自动化基准测试

Anthropic似失市场青睐

X·KOLX 推文 (AttentionVC)

文章分析了Anthropic近期似乎失去市场青睐的原因,对比了其在二月时曾是“宠儿”的状况。作者暗示,与OpenAI的动荡相比,Anthropic的某些方面可能未能维持其早期势头或市场信心。

行业观察Anthropic市场

AI投资悲观论不可持续

X·KOLX 推文 (AttentionVC)

作者认为2026年中期的AI投资悲观论是不可持续的。尽管面临市场疑虑,作者对AI投资前景仍持乐观态度,并明确表示不认同将所有资金押注于少数几家公司(如Anthropic和Nvidia)的做法。

投资AI 行业观点

Kimi AI预测全部世界杯比赛

X·KOLX 推文 (AttentionVC)

Kimi团队将利用AI预测全部104场世界杯比赛,并认为德国队可能被低估。此举旨在利用世界杯这一公开、可验证的真实世界场景,进行AI分析和预测,以检验模型能力。

AI 应用预测世界杯

Anthropic批评其与开源AI发展相悖

X·KOLX 推文 (AttentionVC)

该帖批评Anthropic在公开场合塑造的“安全、负责任”形象与其实际行为模式不符。作者认为,Anthropic可能在暗中采取某些与开源AI发展相悖的策略,这与其宣称的价值观存在矛盾。

行业观察Anthropic开源

Ray Dalio谈原则性思考与AI融合

X·KOLX 推文 (AttentionVC)

Ray Dalio探讨了在人类智能与人工智能融合的时代,如何实现有效的智能。他强调了「原则性思考」(Principled Thinking)与AI协同工作的重要性,这借鉴了他构建计算机化投资决策系统的经验。

AI 伦理决策融合

Oracle AI代理在Polymarket交易

X·KOLX 推文 (AttentionVC)

Oracle AI宣布,其官方AI代理已在Polymarket预测市场上取得显著成效,占据了超过30%的交易活动。这表明AI代理在金融和预测市场领域已成为一种高效的策略。

AI 应用金融预测市场

视频:政府为何终止Claude Fable 5

大咖博客Riley Brown (YouTube)

此视频讨论了名为Claude Fable 5的人工智能模型,并探讨了政府为何决定“杀死”或停止该项目。暗示该项目可能因某些原因被终止。

AI 模型项目终止

视频:政府禁止Claude Fable 5原因

大咖博客Riley Brown (YouTube)

该视频解释了政府禁止Claude Fable 5的原因。可以推断Claude Fable 5的发展或应用触及了某些政策红线或引起了监管机构的担忧,从而导致了禁令。

AI 模型政策禁令
04

技巧与观点

Tips & Takes 33 篇

Anthropic Fable 5提示词指南

X·KOLX 推文 (AttentionVC)

Anthropic发布了Fable 5 (Mythos)的官方提示词使用指南,该模型被认为当前最强大。帖子指出,许多用户因指南隐藏在API文档中而忽略,错失了优化模型表现的关键技巧。

教程提示词Claude Fable 5

一周使用Fable (Mythos)体验

X·KOLX 推文 (AttentionVC)

作者分享了为期一周使用Fable (Mythos)的体验。该模型被评价为具有下一代模型的特质和定价,但也存在一些“怪癖”。文章详细探讨了Fable的优点和不足之处。

模型评测Claude Fable 5使用体验

Michael Truell在Cursor的演讲

官方Claude (YouTube)

Michael Truell在Cursor的演讲“The Problem Solvers”探讨了如何利用AI工具(如Claude)来解决编程和开发中的实际问题,重点在于AI在提升效率和创新方面的作用。

AI 工具编程效率