每日 AI 简报

2026-06-16(内容获取于 06/16 05:24)

OpenAI 启动合作伙伴网络,投资1.5亿美元

OpenAI News · 06/15 01:00

OpenAI 宣布成立合作伙伴网络,并承诺投资 1.5 亿美元,以支持全球合作伙伴加速企业级 AI 的应用、部署和转型。

推荐理由:OpenAI 的企业合作策略调整,对相关企业及开发者有重要参考价值。

Agent-Reach:赋予 AI 代理互联网“视觉”

GitHub Trending

Agent-Reach 项目允许 AI 代理读取和搜索 Twitter、Reddit、YouTube 等互联网平台内容,通过 CLI 提供统一访问且无 API 费用,解决了 AI 代理信息获取的局限性。

推荐理由:这是一个强大的开源工具,为 AI 代理提供了强大的信息获取能力,开发者可以学习和集成。

AgentBrush:为编码 AI 代理添加图像生成能力

Product Hunt · 06/15 13:21

AgentBrush 是一款新产品,为 AI 编码助手集成了图像生成功能,将视觉创作无缝融入 AI 编程工作流程。

推荐理由:为 AI 代理增加了视觉能力,是 AI 辅助编程领域的一个有趣创新。

Claude 合作伙伴 SDK 计费调整对开发者影响

X 创作者 (AttentionVC) · 06/15 17:06

关于 Claude Agent SDK 在 6 月 15 日的计费调整,此推文分析了这一变化对 AI Agent 构建者可能产生的影响。

推荐理由:对使用 Claude SDK 的开发者和企业来说,是重要的信息更新,可能影响其成本和开发策略。

Kickbacks.ai:让等待 AI 计算任务获得报酬

Product Hunt · 06/15 14:04

Kickbacks.ai 是一款旨在利用用户等待 Claude Code 完成任务的时间来产生报酬的创新工具,将等待时间转化为价值。

推荐理由:一个新颖的商业模式探索,结合了 AI 算力等待时间与用户激励。

Anthropic 叫停 Fable/Mythos 项目

Latent Space · 06/13 12:30

Anthropic 公司已正式停止发布 Fable 和 Mythos 这两个 AI 项目,原因被认为是项目过于危险。这一决定引发了关于 AI 安全和风险评估的讨论,尤其是在当前 AI 技术快速发展的背景下。

推荐理由:了解 AI 公司对潜在风险的担忧和决策,对行业发展趋势有参考价值。

GLM 发布 5.2 版本,OpenRouter 引入 Fusion 功能

TLDR AI · 06/15 08:00

本期 AI 资讯聚焦 GLM 发布 5.2 版本,以及 OpenRouter 推出的 Fusion 功能,显示了大模型及 AI 服务生态的快速迭代和功能创新。

推荐理由:快速了解最新大模型版本和 AI 服务新功能,为技术选型和应用提供参考。

韩国人对 AI 的热爱及其社会普及

MIT Tech Review AI · 06/16 02:46

文章探讨了韩国社会对人工智能(AI)的高度热情,分析了 AI 在日常生活中的广泛应用,并试图解释这种文化现象背后的原因。

推荐理由:提供了一个独特的视角来理解 AI 在不同文化中的接受度和发展模式。

印度 IT 行业在生成式 AI 竞赛中的角色

X 推文 (AttentionVC) · 06/15 00:41

该推文反驳了印度 IT 服务公司在生成式 AI 领域“落后”的论调,强调其核心在于提供可扩展的 IT 服务,而非直接开发尖端 AI 模型。

推荐理由:对印度 IT 行业在 AI 时代的角色定位提供了不同于主流的解读。

Teslamate:为 Tesla 车主打造的开源数据记录器

GitHub Trending

Teslamate 是一个用于 Tesla 车辆的自托管数据记录器,能详细记录行驶、充电、电池健康等信息,允许用户完全掌控并分析自己的车辆数据。

推荐理由:对于 Tesla 车主来说,这是一个非常有价值的开源项目,可以深入了解车辆数据并进行本地化管理。

iptv-org/iptv

TypeScript · ★ 122,750 · 🍴 6,585 · 📈 2,650 stars today

Collection of publicly available IPTV channels from all over the world

中文介绍 iptv-org/iptv 汇集了全球公开可用的 IPTV 频道,提供一个集中化的资源库,方便用户访问和观看各类免费的国际电视内容。项目通常以 M3U 播放列表的形式提供频道链接,解决了用户寻找和管理直播源的痛点。无论是个人用户想观看海外节目,还是开发者需要集成直播流,都可以利用此项目快速获取和部署,享受便捷的全球电视体验。

teslamate-org/teslamate

Elixir · ★ 8,207 · 🍴 946 · 📈 35 stars today

A self-hosted data logger for your Tesla 🚘 [main maintainer=@JakobLichterfeld]

中文介绍 Teslamate 是一个开源的自托管数据记录器,专为 Tesla 车主设计,用于收集并可视化其电动车的各项数据。它能记录包括行驶里程、充电历史、电池健康状态及驾驶效率等详细信息。通过在本地部署,用户可以完全掌控自己的车辆数据,并通过图形界面深入分析驾驶习惯和车辆性能。适用于希望监测 Tesla 运行状况、进行数据分析或出于隐私考虑不想使用云服务的车主。

Panniantong/Agent-Reach

Python · ★ 29,979 · 🍴 2,437 · 📈 1,045 stars today

Give your AI agent eyes to see the entire internet. Read & search Twitter, Reddit, YouTube, GitHub, Bilibili, XiaoHongShu — one CLI, zero API fees.

中文介绍 Agent-Reach 旨在赋予 AI 代理“观察”整个互联网的能力,使其能够阅读和搜索 Twitter、Reddit、YouTube、GitHub、Bilibili、小红书等主流社交及内容平台。项目通过命令行接口(CLI)提供统一的访问方式,并且强调零 API 费用,意味着它可能通过模拟用户行为或无 API 限制的方式获取数据。这解决了现有 AI 代理在互联网信息获取方面的局限性,适用于需要广泛网络信息作为输入进行任务执行或内容分析的 AI 代理开发者。

meshery/meshery

TypeScript · ★ 10,598 · 🍴 3,433 · 📈 227 stars today

Meshery, the cloud native manager

中文介绍 Meshery 是一个云原生管理平台,专注于简化服务网格(Service Mesh)的部署、配置、运行和性能管理。它为开发者和运维团队提供统一的接口,以可视化的方式管理 Kubernetes 环境中的服务网格及其应用程序。通过 Meshery,用户可以评估不同服务网格的性能、诊断配置问题,并优化云原生应用的弹性与可观察性。它解决了云原生生态系统中复杂的服务网格操作难题,提升了开发运维效率。

chatwoot/chatwoot

Ruby · ★ 31,620 · 🍴 7,627 · 📈 431 stars today

Open-source live-chat, email support, omni-channel desk. An alternative to Intercom, Zendesk, Salesforce Service Cloud etc. 🔥💬

中文介绍 Chatwoot 是一个开源的客户支持平台,提供包括实时聊天、电子邮件支持和全渠道服务台等功能。它旨在作为 Intercom、Zendesk 等商业解决方案的开源替代品,帮助企业集中管理来自不同渠道的客户沟通。通过 Chatwoot,团队能够高效地响应客户咨询,提升客户服务体验和运营效率,尤其适合预算有限或追求数据自主可控的中小型企业和开发者。

krahets/hello-algo

Java · ★ 126,856 · 🍴 15,134 · 📈 95 stars today

《Hello 算法》:动画图解、一键运行的数据结构与算法教程。支持简中、繁中、English、日本語,提供 Python, Java, C++, C, C#, JS, Go, Swift, Rust, Ruby, Kotlin, TS, Dart 等代码实现

中文介绍 《Hello 算法》是一本开源的数据结构与算法教程,其特色在于通过动画图解和一键运行的代码示例,帮助学习者直观理解抽象的算法概念。教程支持简体中文、繁体中文、英文、日文等多种语言,并提供 Python、Java、C++ 等十多种主流编程语言的代码实现。它解决了传统教材难以可视化算法过程的痛点,非常适合计算机科学学生、编程初学者以及准备面试的开发者,通过实践和可视化深入学习数据结构与算法。

freeCodeCamp/freeCodeCamp

TypeScript · ★ 447,824 · 🍴 44,984 · 📈 738 stars today

freeCodeCamp.org's open-source codebase and curriculum. Learn math, programming, and computer science for free.

中文介绍 freeCodeCamp 是一个大型开源项目,包含了 freeCodeCamp.org 提供的免费数学、编程和计算机科学学习课程及代码库。它旨在为全球学习者提供高质量的在线教育资源,帮助他们掌握编程技能,并通过实际项目建立作品集。无论是编程新手寻求入门路径,还是有经验的开发者希望学习新技能,都可以利用其全面的课程体系进行系统性学习,免费获取行业所需的知识和实践经验。

trycua/cua

HTML · ★ 18,111 · 🍴 1,170 · 📈 57 stars today

Open-source infrastructure for Computer-Use Agents. Sandboxes, SDKs, and benchmarks to train and evaluate AI agents that can control full desktops (macOS, Linux, Windows).

中文介绍 CUA (Computer-Use Agents) 是一个开源基础设施项目,专为训练和评估能够完全控制桌面环境(macOS, Linux, Windows)的 AI 代理而设计。它提供了沙盒、SDK 和基准测试工具,旨在模拟人类与电脑交互的方式,让 AI 代理可以执行复杂的桌面操作任务。该项目解决了开发能够理解和操作通用 GUI 应用程序的 AI 代理的挑战,适用于研究人员和开发者构建更智能、更通用的自动化 AI 解决方案。

jwasham/coding-interview-university

★ 352,251 · 🍴 83,559 · 📈 352 stars today

A complete computer science study plan to become a software engineer.

中文介绍 Coding Interview University 提供了一套完整的计算机科学学习计划,旨在帮助有志成为软件工程师的学习者系统地准备技术面试。该项目涵盖了数据结构、算法、操作系统、网络、数据库等核心计算机科学知识,以及系统设计和行为面试技巧。它为学习者提供了一条清晰的学习路径和丰富的资源,解决了面试准备中知识点繁杂、缺乏系统性的痛点,非常适合计算机专业学生或转行者高效备战软件工程师职位。

rohitg00/ai-engineering-from-scratch

Python · ★ 33,004 · 🍴 5,407 · 📈 538 stars today

Learn it. Build it. Ship it for others.

中文介绍 ai-engineering-from-scratch 项目旨在提供一个从零开始学习 AI 工程的全面指南,强调理论知识与实践应用的结合,覆盖从构建模型到部署上线的完整流程。它通过结构化的学习内容和实际案例,帮助学习者掌握机器学习、深度学习模型开发、MLOps 实践、系统架构等关键 AI 工程技能。适用于希望系统学习 AI 工程知识,并能独立构建、部署 AI 产品的开发者、数据科学家和学生。

music-assistant/server

Python · ★ 2,368 · 🍴 443 · 📈 226 stars today

Music Assistant is a free, opensource Media library manager that connects to your streaming services and a wide range of connected speakers. The server is the beating heart, the core of Music Assistant and must run on an always-on device like a Raspberry Pi, a NAS or an Intel NUC or alike.

中文介绍 Music Assistant 是一个免费开源的媒体库管理系统,此 `server` 项目是其核心组件。它旨在整合用户分散的音乐资源,包括本地音乐文件和来自各种流媒体服务的内容,并能连接到广泛的智能音箱设备进行播放。通过 Music Assistant,用户可以构建一个统一的音乐中心,轻松管理和串流来自不同平台的音乐到家中任何兼容的音箱,解决了多源音乐和多设备播放的碎片化问题,提供无缝的音乐体验。

Free-TV/IPTV

Python · ★ 17,236 · 🍴 2,559 · 📈 361 stars today

M3U Playlist for free TV channels

中文介绍 Free-TV/IPTV 项目是一个精选的免费电视频道 M3U 播放列表合集,为用户提供便捷访问全球免费直播电视内容的途径。它汇聚了互联网上公开可用的 IPTV 资源,用户只需导入这些 M3U 列表到兼容的播放器中,即可观看各类免费节目。该项目解决了寻找和组织免费电视流媒体源的挑战,非常适合希望观看各国免费频道、了解全球电视内容的普通用户及 IPTV 爱好者。

Introduction-to-Autonomous-Robots/Introduction-to-Autonomous-Robots

TeX · ★ 3,045 · 🍴 652 · 📈 488 stars today

Introduction to Autonomous Robots

中文介绍 Introduction to Autonomous Robots 项目是一份关于自主机器人技术的入门级学习资源。它旨在系统介绍自主机器人的基本概念、核心理论与关键技术,涵盖机器人感知、定位、导航、路径规划及控制等方面。该项目为学习者提供了理解和探索自主机器人领域所需的知识框架,适用于计算机科学、机器人工程专业的学生、研究人员以及对机器人技术感兴趣的初学者,为他们进入这一前沿领域奠定基础。

Raphire/Win11Debloat

PowerShell · ★ 47,964 · 🍴 1,935 · 📈 114 stars today

A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and customize your Windows experience. Win11Debloat works for both Windows 10 and Windows 11.

中文介绍 Win11Debloat 是一个简洁轻量级的 PowerShell 脚本,专为 Windows 11 用户设计,旨在优化系统性能、增强隐私保护并提升用户体验。它允许用户轻松移除预装应用程序(Bloatware)、禁用遥测数据收集,并进行多项系统调整以精简和自定义操作系统。该脚本解决了 Windows 系统自带软件冗余和隐私设置复杂的问题,适合追求纯净、高效、个性化 Windows 环境的用户使用。

mikeroyal/Self-Hosting-Guide

Dockerfile · ★ 20,918 · 🍴 1,058 · 📈 256 stars today

Self-Hosting Guide. Learn all about locally hosting (on premises & private web servers) and managing software applications by yourself or your organization. Including Cloud, LLMs, WireGuard, Automation, Home Assistant, and Networking.

中文介绍 Self-Hosting Guide 是一个全面的自托管指南,旨在帮助个人或组织学习如何在本地(私有服务器或本地网络)部署和管理各类软件应用。内容涵盖从基础设置到复杂服务,包括云服务集成、大型语言模型(LLM)部署、WireGuard VPN 配置及自动化解决方案等。它解决了用户希望掌控数据、减少对第三方服务依赖的需求,适合对数据隐私、成本控制或技术探索感兴趣的开发者和技术爱好者。

itsfatduck/optimizerDuck

C# · ★ 3,643 · 🍴 158 · 📈 321 stars today

Free, open-source Windows optimization tool for performance, privacy, and simplicity.

中文介绍 OptimizerDuck 是一款免费开源的 Windows 系统优化工具,专注于提升系统性能、增强用户隐私并简化操作体验。它集成了多种优化功能,可以帮助用户清除冗余文件、调整系统设置、禁用不必要的服务和功能,从而减少系统资源占用并提高运行效率。该工具解决了 Windows 系统常见卡顿、隐私泄露的痛点,适合追求高效、简洁、安全 Windows 使用环境的普通用户和技术爱好者。

NVIDIA/SkillSpector

Python · ★ 6,246 · 🍴 457 · 📈 1,079 stars today

Security scanner for AI agent skills. Detect vulnerabilities, malicious patterns, and security risks.

中文介绍 NVIDIA SkillSpector 是一个专为 AI 代理技能设计的安全扫描工具。它旨在检测 AI 代理中存在的漏洞、恶意模式和潜在安全风险,确保 AI 代理在执行任务时的安全性和可靠性。随着 AI 代理的应用日益广泛,其安全性成为关键挑战,SkillSpector 通过提供自动化检测能力,帮助开发者和组织识别并缓解安全威胁,特别适用于需要部署高安全性 AI 代理的场景。

shiyu-coder/Kronos

Python · ★ 30,227 · 🍴 5,185 · 📈 395 stars today

Kronos: A Foundation Model for the Language of Financial Markets

中文介绍 Kronos 是一个专注于金融市场语言的基础模型(Foundation Model)。它经过专门训练,旨在理解、分析和处理与金融市场相关的海量文本数据,包括新闻、报告、财报、社交媒体讨论等。Kronos 解决了通用大型语言模型在金融领域专业知识和精确理解能力不足的问题,能够为金融分析师、投资者和研究人员提供更深层次的市场洞察、情绪分析和预测辅助,从而辅助智能投资决策和风险管理。

AFFORDANCE20Q: Evaluating Affordance Reasoning from Physical Properties

👍 2

Affordance reasoning, the inference of an object's action possibilities from its physical properties (e.g., shape and material), is fundamental to human physical understanding and increasingly critical for Large Language Models (LLMs). However, existing affordance benchmarks largely expose explicit

中文介绍 研究提出 AFFORDANCE20Q 数据集,旨在评估大型语言模型(LLMs)从物理属性(如形状、材质)推断物体可操作性的能力。该能力对人类理解物理世界至关重要,对 LLMs 而言也日益关键。现有基准测试在 affordance 推断方面存在不足。

LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations

👍 3

Online group chats are social spaces with local conversational norms that are rarely stated explicitly. The ability and willingness of LLM-based agents to recognize and adapt to these norms remains mostly unexplored. We introduce LoSoNA, a benchmark for local social norm adaptation in multi-party ch

中文介绍 LoSoNA 是一个用于评估 LLM 在群聊中适应局部社交规范能力的新基准。在线群聊存在未明确说明的社交规范,LLM 代理识别和适应这些规范的能力尚待探索。LoSoNA 旨在填补这一空白。

AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

👍 0

Large reasoning models typically follow a read-then-think paradigm: they observe the complete input, reason over a static context, and then produce the answer. Yet many real-world scenarios are inherently dynamic, such as audio and video stream, where information arrives as a continuous stream and m

中文介绍 AdaSR 提出了一种自适应流式推理方法,通过分层相对策略优化,解决大型推理模型在处理动态数据流(如音视频)时的局限性。现有模型通常采用“读取-思考”范式,处理静态上下文,而 AdaSR 旨在实现对连续输入信息的动态推理。

RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space

👍 10

Large language models (LLMs) are widely used in text-to-image (T2I) systems, but they are typically limited to text encoding, while denoising is handled by newly trained generative backbones. The emergence of representation autoencoders (RAEs) shifts the generation target toward semantically structu

中文介绍 RepFusion 利用多模态先验知识在表示空间进行去噪,用于文本到图像(T2I)系统。该方法旨在改进 LLM 在 T2I 中的应用,通过表示自编码器(RAEs)将生成目标转向表示空间,而非直接生成图像。

LLM Agents Can See Code Repositories

👍 11

Coding agents powered by large language models have demonstrated strong performance on software engineering tasks. Yet most agents consume repositories almost entirely as text, which differs from how human developers use visual structure such as folder hierarchies and dependency relationships to ori

中文介绍 研究指出,现有基于 LLM 的编程代理在处理代码仓库时,主要将其视为纯文本,而忽略了人类开发者常用的视觉结构(如文件夹层级和依赖关系)。这限制了其在软件工程任务中的表现。

HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

👍 33

AI agent performance depends critically on the runtime harness, comprising the prompts, tools, memory, and control flow that mediate how a model observes, reasons, and acts. Yet today's harnesses remain largely hand-crafted and static: each new model or task still demands bespoke scaffolding, and th

中文介绍 HarnessX 是一个可组合、自适应且可演进的 AI 代理“执行器”构建平台。现有的执行器(包含提示、工具、记忆和控制流)多为手工静态构建,每个新模型或任务都需要定制。HarnessX 旨在提高其灵活性和效率。

ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning

👍 4

Building trustworthy medical multimodal large language models (MLLMs) is critical for reliable clinical decision support. Existing medical hallucination benchmarks mainly focus on data collection, but often ignore where hallucinations originate within the reasoning process. We find that hallucinatio

中文介绍 ClinHallu 是一个用于诊断医疗多模态大语言模型(MLLMs)推理过程中阶段性幻觉问题的基准。为构建可信赖的医疗 MLLMs 至关重要,但现有基准忽视了幻觉在推理过程中的具体来源。

From Chatbot to Digital Colleague: The Paradigm Shift Toward Persistent Autonomous AI

👍 42

Large Language Models (LLMs) are undergoing a fundamental transformation from conversational generators into integrated AI systems capable of reasoning, action, memory, and self-improvement. We conceptualize this transition as a shift from Chatbot to Digital Colleague: from conversational answers to

中文介绍 大型语言模型(LLMs)正经历从生成式对话模型向集成式 AI 系统的转变,具备推理、行动、记忆和自我改进能力。这一转变被概念化为从“聊天机器人”到“数字同事”的范式转变,强调其持续自主性。

Rethinking RAG in Long Videos: What to Retrieve and How to Use It?

👍 32

Retrieval-augmented generation is moving beyond text into long, egocentric video, where systems must select query-relevant chunks across multiple modalities and temporal granularities. Yet progress in VideoRAG is limited by two gaps: existing benchmarks allow queries to be answered without the video

中文介绍 研究探讨了长视频检索增强生成(VideoRAG)的挑战,包括如何选择跨模态、多时间粒度的相关信息。现有基准测试在查询和检索方面存在不足,限制了 VideoRAG 的发展。

OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

👍 91

Cloning camera motion from reference videos is an important task in video generation, as videos provide intuitive and precise control. Existing methods either directly use parametric representations that fail to handle multi-shot generation or synthesize cross-paired data, which suffer from data sca

中文介绍 OmniDirector 提出了一种通用的、多镜头摄像机克隆方法,无需交叉配对数据。该方法解决了现有技术在处理多镜头生成和避免数据依赖方面的不足,能够从参考视频中精确克隆摄像机运动。

The Hidden Power of Scaling Factor in LoRA Optimization

👍 5

In Low-Rank Adaptation (LoRA), the scaling factor α is often treated as a mere complement to the learning rate, yet its role in optimization remains poorly understood. In this paper, we reveal that the scaling factor α and the learning rate function differently, with α emerging as the dominant drive

中文介绍 研究揭示了 LoRA(低秩适配)优化中缩放因子 α 的重要作用。与常被视为学习率辅助的观点不同,α 在优化过程中扮演着独特角色,并且与学习率函数方式不同,其重要性被低估。

APPO: Agentic Procedural Policy Optimization

👍 62

Recent advances in agentic Reinforcement Learning (RL) have substantially improved the multi-turn tool-use capabilities of large language model agents. However, most existing methods assign credit over coarse heuristic units, such as tool-call boundaries or fixed workflows, making it difficult to id

中文介绍 APPO(Agentic Procedural Policy Optimization)是一种用于改进大型语言模型代理多轮工具使用能力的方法。现有方法在分配信用时粒度过粗(如基于工具调用边界),导致效率低下,APPO 旨在解决此问题。

Quickest Detection of Hallucination Onset: Delay Bounds and Learned CUSUM Statistics

👍 0

Token-level hallucination detectors are evaluated as classifiers, by AUC over all tokens, yet a streaming monitor is judged by its reaction time: the number of tokens that pass between the onset of a hallucination and the alarm. We formulate hallucination onset detection as a quickest change detecti

Pythagoras-Prover: Advancing Efficient Formal Proving via Augmented Lean Formalisation

👍 7

Modern Lean theorem provers achieve strong performance only with substantial training and inference compute, driven in part by scarce verified proof data and the long reasoning traces of formal proof search, making both supervised fine-tuning (SFT) and sampling expensive. We introduce Pythagoras-Pro

Measuring Epistemic Resilience of LLMs Under Misleading Medical Context

👍 15

Large language models (LLMs) now reach expert-level scores on medical licensing exams, encouraging the assumption that high scores imply safe medical judgment while patients increasingly use them for health advice. We show this assumption is fragile: when misleading context is injected into question

Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

👍 2

AI agents are increasingly being developed to accelerate scientific discovery, yet their practical capabilities in real research settings remain poorly understood. Existing benchmarks for AI agents rarely capture the complexity, heterogeneity, and extended reasoning required by scientific work, wher

RedAct: Redacting Agent Capability Traces for Procedural Skill Protection

👍 15

Users rely on execution traces to observe agent behavior, diagnose failures, and ensure accountability. These traces contain rich procedural detail, including tool invocations, intermediate decisions, and error-recovery logic. Yet this detail can expose private procedural skills, allowing downstream

Orchestra-o1: Omnimodal Agent Orchestration

👍 37

The recent success of agent swarms has shifted the paradigm of large language model (LLM)-based agents from single-agent workflows to multi-agent systems, highlighting the importance of agent orchestration for task decomposition and collaboration. However, existing orchestration frameworks are limit

From AGI to ASI

👍 23

Over the last decade, building human-level artificial general intelligence has moved from far-fetched speculation to being a concrete next-decade target for many of the largest AI organisations. Achieving this goal would have profound and far-reaching impacts on human society, which raises many comp

P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning

👍 2

Multimodal large language models can write code to produce complex programs as well as use programs to do 3D modeling, which opens up a new avenue for 3D generation powered by their priors, world knowledge and reasoning. Yet existing benchmarks rarely evaluate 3D modeling through code. Such modeling

iMaC: Translating Actions into Motion and Contact Images for Embodied World Models

👍 9

Embodied world models have emerged as a pivotal paradigm for visual robotic decision-making and interactive environment simulation. However, conventional embodied frameworks rely on low-dimensional structured action vectors (e.g., joint angles and end-effector poses), which suffer from limited expre

AlloSpatial: Agentic Harness Framework for Spatial Reasoning in Foundation Models

👍 1

Multimodal Foundation Models (MFMs) have made substantial progress, yet remain fragile in spatial reasoning over the physical world. A key bottleneck lies in their inability to transform local egocentric observations into a global allocentric spatial representation. To address this, we propose AlloS

Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents

👍 55

Despite recent progress, LLM agents still struggle with reasoning over long interaction histories. While current memory-augmented agents rely on a static retrieve-then-reason paradigm, this rigid pipeline design prevents them from dynamically adapting memory access to intermediate evidence discovere

Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

👍 15

Large language models (LLMs) perform inference by following a fixed depth and order, non-recurrent execution of all layers. We reveal the wide existence of training-free, flexible, dynamic program-of-layers (PoLar), where pretrained layers can be packed as modules and then skipped or looped to form

Statistically Reliable LLM-Based Ranking Evaluation via Prediction-Powered Inference

👍 0

With PRECISE, we extended Prediction-Powered Inference to produce bias-corrected estimates of ranking evaluation metrics by combining a small human-labeled set with a large LLM-judged set. PPI is provably unbiased regardless of the LLM judge's error profile. We make it applicable to hierarchical met

Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO

👍 19

We identify a new dimension for enhancing rollout diversity in Group Relative Policy Optimization (GRPO) for LLMs. While GRPO relies on diverse rollouts, prevailing strategies primarily increase diversity by injecting more token-level randomness, which may introduce step-wise noise and lead to incoh

FVSpec: Real-World Property-Based Tests as Lean Challenges

👍 0

We present a benchmark for evaluating AI models and agents on real-world formal software verification tasks. We first scrape 11,039 property-based tests (PBTs) from real-world Python repositories, then automatically translate 2,772 of them (25%) into 9,415 Lean 4 specifications with sorry placeholde

CARVE: Certified Affordable Repair of Vetoed Maneuvers via Envelopes for Interactive Driving

👍 0

Interactive driving exposes a failure mode that is easy to miss in rule-aware autonomous-driving stacks: a hard-rule margin can be negative for an ego candidate even though a small lawful accommodation by a non-priority agent would restore feasibility. Existing rulebooks, shields, and reachability f

Kickbacks.ai

Get paid to wait for Claude Code to finish

中文介绍 Kickbacks.ai 是一款旨在让用户在等待 Claude Code 完成任务时获得报酬的工具,通过时间来产生价值。

AgentBrush

Your coding agent's missing tool: image generation

中文介绍 AgentBrush 为编码助手提供了图像生成能力,将视觉创作整合到 AI 编程流程中。

MiMo Code

A coding agent with explicit long-term memory architecture

中文介绍 MiMo Code 是一款具备显式长期记忆架构的编码助手,能够更好地管理和利用历史信息。

Reignat

Privacy-friendly web analytics platform built for makers

中文介绍 Reignat 是一个为开发者(makers)设计的隐私友好的网站分析平台,注重用户数据的安全。

Notchcode

Claude Code + Codex agents in your notch

中文介绍 Notchcode 将 Claude Code 和 Codex 智能体集成到用户界面中,方便直接调用。

Fonda

Your AI co-founder that remembers decisions + plans for you

中文介绍 Fonda 是一款 AI 联合创始人工具,能够记住决策并为您规划,辅助创业过程。

Dropmatico

Drop. Pick. Done.

中文介绍 Dropmatico 提供“放置、拾取、完成”的简单流程,旨在简化某个操作过程。

EmailFlow.AI

Like Claude Design for Email Newsletters

中文介绍 EmailFlow.AI 是一款类似于 Claude Design 的电子邮件通讯工具,专注于 B2B 潜在客户生成。

Momentra

A cozy camera app for beautifully framed memories

中文介绍 Momentra 是一款美学相机应用,提供舒适的拍摄体验,帮助用户捕捉构图精美的回忆。

IdleDev

Get paid while your AI agent thinks

中文介绍 IdleDev 允许用户在 AI 代理思考时获得报酬,将等待时间转化为收益。

A frontier without an ecosystem is not stable

@satyanadella · 5.9M 粉丝 · 1.9M 阅 · 3.5K 赞 · 541 转

I’ve been thinking a lot about the future of the firm in an AI-driven economy. This transition is different than any previous platform shift. In the past, we used digital systems to enhance human

中文介绍 微软 CEO 萨提亚·纳德拉探讨 AI 驱动经济下的企业未来,认为此次转型不同于以往任何平台迁移。他强调,一个缺乏生态系统的技术前沿是不稳定的,暗示了构建完整AI生态系统的重要性,而非仅仅是单一技术突破。

Loops: What Every AI Engineer Needs to Know in 2026

@sairahul1 · 113.0K 粉丝 · 852.6K 阅 · 600 赞 · 79 转

Peter Steinberger, creator of OpenClaw, who now works with OpenAI. Yesterday he posted this: "You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents."

中文介绍 OpenAI 员工 Peter Steinberger 提出,未来不应再直接向代码生成 AI 提问,而应设计“循环(loops)”来引导和驱动这些 AI。这标志着从直接提示转向更复杂的 agent 工作流设计。

Codex-maxxing: treating Codex like an operating loop

@BradGroux · 5.9K 粉丝 · 714.6K 阅 · 1.0K 赞 · 638 转

Most people still use coding agents like fancy autocomplete or a one-shot chat box. That leaves a lot of value on the table. The better pattern is to treat Codex like a durable operating loop:

中文介绍 作者认为,目前大多数人将 Codex 等代码生成 AI 视为简单的自动补全或一次性聊天工具,未能发挥其最大价值。更优的使用模式是将其视为一个“持久的运行循环(durable operating loop)”,实现更持续的交互和任务完成。

Fable 5 (Mythos) Prompting Masterclass by Anthropic

@aiedge_ · 69.5K 粉丝 · 700.1K 阅 · 506 赞 · 68 转

TLDR: Anthropic just published the official playbook for prompting the most powerful AI model on earth - I translated it. Most people won't read this guide (it's buried in the API docs), which is

中文介绍 Anthropic 发布了其最强大模型 Fable 5 (Mythos) 的官方提示词(prompting)指南。该指南被隐藏在 API 文档中,许多用户可能不会注意到。作者将其翻译并分享,旨在帮助用户更好地利用该模型。

Everything Is Recorded Now

@dhaber · 50.0K 粉丝 · 497.3K 阅 · 500 赞 · 57 转

One of the biggest ways that AI is transforming work (and also one of the most taboo subjects inside companies at the moment) is that most work discussions are being recorded now by default. This

中文介绍 AI 正在深刻改变工作模式,其中一个敏感但普遍的现象是:大部分工作讨论正被默认录制。这为 AI 分析和理解工作流程提供了大量数据,但也引发了关于隐私和数据使用的担忧。

First Steps Toward Automated AI Research

@Recursive_SI · 6.3K 粉丝 · 465.1K 阅 · 516 赞 · 71 转

Early results from Recursive’s automated AI research system on model training and GPU kernel benchmarks Today we are releasing early results from Recursive’s automated AI research system. Across three

中文介绍 Recursive 公司发布了其自动化 AI 研究系统的早期成果,该系统专注于模型训练和 GPU 内核基准测试。报告展示了系统在加速 AI 研究进程方面的初步进展。

Indian IT is Not Failing in AI - It Was Never Meant to Build ChatGPT

@Fintech03 · 34.9K 粉丝 · 438.8K 阅 · 501 赞 · 137 转

The critique that Indian IT services (the classic TCS, Infosys, Wipro, HCL cohort) are failing India in the current generative AI race is an incredibly popular talking point. It is easy to look at the

中文介绍 文章反驳了印度 IT 服务行业在生成式 AI 竞赛中“落后”的观点。作者指出,这些公司从未旨在构建类似 ChatGPT 的前沿模型,其核心竞争力在于提供可扩展的 IT 服务,而非直接的 AI 模型研发。

Build self-improving agent system with Fable 5 in 14 steps : loops, dynamic workflows, routines

@0xCodez · 6.4K 粉丝 · 371.8K 阅 · 515 赞 · 56 转

Most people are using Claude Fable 5 like Sonnet 4.6 with a bigger context window. They prompt it. It works for 5 minutes. They close the tab. 9 out of 10 users have never run an agent system that

中文介绍 作者介绍如何用 Claude Fable 5 构建一个可自我改进的 Agent 系统,详细步骤包括设计“循环(loops)”、动态工作流和例程。与直接提示不同,这种方法能让 Agent 更有效地执行复杂任务。

Anthropic is losing the mandate of heaven

@haridigresses · 12.5K 粉丝 · 281.7K 阅 · 513 赞 · 36 转

Four months ago, in early February, Anthropic was the darling. OpenAI was the dominant behemoth to root against. Over the last 1-2 years, we'd seen the Sam ouster / return drama, Ilya and Mira had

中文介绍 作者认为 Anthropic 正逐渐失去其在 AI 领域的“道统”(mandate of heaven)。曾几何时,Anthropic 是明星公司,而 OpenAI 则面临质疑。但近期的发展似乎让 Anthropic 的地位有所动摇。

An extremely subtle brainwashing

@AnthonyNAguirre · 4.2K 粉丝 · 232.1K 阅 · 527 赞 · 38 转

I've been getting really bothered lately by something subtle but quite dangerous that I believe is currently going on and promises to get worse: Large numbers of very smart, capable, and important

中文介绍 作者担忧一种“极其微妙的洗脑”正在发生:大量聪明、有能力且重要的人,可能正在被 AI 潜移默化地改变认知和行为方式。他认为这种情况会愈演愈烈。

The Untrainable

@saranormous · 143.5K 粉丝 · 194.8K 阅 · 614 赞 · 40 转

The mid-2026 investor's version of AI psychosis is a despair that nothing is investable, that we should put all our money into Anthropic and Nvidia and go home. I have never felt it. I have been sure

中文介绍 作者表示,他并不认同 2026 年中期投资者那种“万物皆不可投资,只需押注 Anthropic 和 Nvidia”的绝望心态。他相信 AI 领域仍有许多值得投资的机会,自己从未感到过这种沮丧。

How to Build a Self-Improving Loop in Claude Code (Exact Setup Inside)

@0x_rody · 1.7K 粉丝 · 193.2K 阅 · 513 赞 · 72 转

Claude writes your code, hands it over, and 3 tests are failing. You paste the errors back, it fixes one thing, breaks another, and you spend the evening as a messenger between Claude and your

中文介绍 该推文提供了一个在 Claude Code 中构建“自我改进循环”的确切设置方法。作者描述了传统的 AI 编程方式(AI 写代码、人工测试、反复修改)效率低下,并展示了如何通过循环来自动化这一过程。

Building a Good Vertical Agent

@BrainsAndTennis · 10.5K 粉丝 · 187.4K 阅 · 539 赞 · 45 转

How do you build an agent that actually performs in a domain — one customers pick because it's better? The basics have been standardized over the past year: an agent is a while-loop around a model

中文介绍 作者探讨如何构建一个能在特定领域(domain)表现出色、获得客户青睐的“垂直 Agent”。他指出,Agent 的基础架构通常是一个围绕模型的“while-loop”,关键在于如何设计使其更好地服务于特定目标。

My Week with Fable

@MatthewBerman · 121.3K 粉丝 · 108.0K 阅 · 661 赞 · 26 转

tl;dr I've been testing Fable (Mythos) for the past week and it feels unlike any other model I've used. It feels, and is priced, like a next-generation model. It also has some real quirks. The Good

中文介绍 作者分享了一周使用 Anthropic Fable (Mythos) 模型的体验。他认为 Fable 是一款具有下一代模型特性的产品,价格也相应较高,但同时也存在一些“怪癖”(quirks)。

Kimi to Predict All 104 World Cup Matches: Germany May Be Underestimated

@Kimi_Moonshot · 172.7K 粉丝 · 106.6K 阅 · 500 赞 · 61 转

Our predictions will probably be wrong. But the World Cup offers a rare, public, verifiable, and constantly evolving real-world setting. Through this initiative, we hope to place analysis,

中文介绍 Kimi AI 团队预测了全部 104 场世界杯比赛,并特别提到德国队可能被低估。他们承认预测可能不准,但希望通过世界杯这一真实、公开且不断变化的场景来展示和检验其分析能力。

Loop engineering: the 14-step roadmap from prompter to loop designer.

@0xCodez · 6.4K 粉丝 · 97.8K 阅 · 510 赞 · 80 转

Most developers still prompt their coding agents by hand. They type, they wait, they read the diff, they type again. 9out of 10 builders have never written a single loop that prompts the agent for

中文介绍 作者提出了“循环工程(loop engineering)”的概念,并给出了从提示词工程师到循环设计者的 14 步路线图。他指出,多数开发者仍手动与代码 AI 交互,效率低下,而设计 Prompt Agent 的循环是提升效率的关键。

Designing loops with Fable 5

@RLanceMartin · 30.4K 粉丝 · 84.7K 阅 · 660 赞 · 50 转

Mythos-class models like Claude Fable 5 have changed the way many of us work at Anthropic. I want to share two tips for getting the most out of this class of models. Self-correction loops There’s been

中文介绍 作者分享了利用 Anthropic Fable 5 模型设计“自我纠错循环(self-correction loops)”的技巧。他认为这类模型(如 Mythos 级)已改变了许多人的工作方式,通过循环能更好地发挥其能力。

Autonomous Long-Running Coding Agents

@omarsar0 · 307.3K 粉丝 · 81.2K 阅 · 518 赞 · 66 转

Autonomous coding is moving from better prompting to better control systems. The important shift is that engineers are learning how to wrap agents in goals, evaluators, loops, and artifacts that let

中文介绍 作者认为,自主编码正从“更好的提示词”转向“更好的控制系统”。关键转变在于,工程师们学会将 Agent 封装在目标、评估器、循环和工件中,使其能够自主地执行长期任务。

Anthropic's War on Opensource AI

@TheAhmadOsman · 61.0K 粉丝 · 74.9K 阅 · 507 赞 · 98 转

Anthropic wants the public to see one thing: the careful lab, the safety lab, the grown-up in the room trying to keep frontier AI from running off a cliff. However, the pattern around Anthropic does

中文介绍 作者批评 Anthropic 试图将自己塑造成负责任的 AI 安全倡导者,但其行为模式却似乎在“对抗开源 AI”。他认为 Anthropic 的公开形象与其实际行动之间存在不一致。

Coinbase for Agents: Your AI Agent Can Now Trade and Pay with Coinbase

@coinbase · 7.0M 粉丝 · 72.8K 阅 · 500 赞 · 62 转

TL;DR: Coinbase for Agents connects your AI agent directly to your Coinbase account so it can trade, pay, and execute workflows on your behalf, all within limits you control. Available today as an MCP

中文介绍 Coinbase 推出“Coinbase for Agents”服务,允许 AI Agent 直接连接到用户的 Coinbase 账户,在其设定的限额内进行交易、支付和执行工作流。该功能现已可用。

The Window Has Closed

@AndrewCurran_ · 53.9K 粉丝 · 62.8K 阅 · 7d 曝光 62.8K

The Window Has Closed

Why the Government Just Killed Claude Fable 5

中文介绍 视频探讨了政府“扼杀”Claude Fable 5的原因,可能涉及AI的潜在风险或监管问题。

This is Why They Banned Claude Fable 5

中文介绍 该视频解释了Claude Fable 5被禁止的原因,可能与AI能力、安全性或伦理考量有关。

Code with Claude Tokyo 2026: Opening Keynote

中文介绍 这是“Code with Claude Tokyo 2026”活动的主旨开幕演讲,可能围绕Claude AI在编程领域的应用和发展。

The Problem Solvers | Michael Truell at Cursor

中文介绍 Michael Truell在Cursor的演讲“The Problem Solvers”可能讨论了AI如何解决实际问题,并可能涉及Claude。

Code with Claude Tokyo 2026: Opening Keynote

中文介绍 这是“Code with Claude Tokyo 2026”活动的主旨开幕演讲,可能围绕Claude AI在编程领域的应用和发展。

The Problem Solvers | Michael Truell at Cursor

中文介绍 Michael Truell在Cursor的演讲“The Problem Solvers”可能讨论了AI如何解决实际问题,并可能涉及Claude。

Why do South Koreans love AI so much?

This story originally appeared in The Algorithm, our weekly newsletter on AI. To get stories like this in your inbox first, sign up here. When I landed in Seoul after a grueling 12-hour flight from San Francisco, I walked through an unmanned immigration checkpoint, where a machine scanned my face an

中文介绍 文章探讨了韩国人对人工智能(AI)的热情。作者在抵达首尔时,经历了无人值守的移民检查站,这一经历暗示了AI在韩国社会中的普及和应用。文章将深入分析这种喜爱AI的文化现象。

Introducing the OpenAI Partner Network

OpenAI launches the Partner Network, investing $150M to help global partners accelerate enterprise AI adoption, deployment, and transformation.

中文介绍 OpenAI 正式推出其合作伙伴网络,并承诺投资 1.5 亿美元,旨在助力全球合作伙伴加速企业级AI的采用、部署和转型。

[AINews] Fable and Mythos officially too dangerous to release

We are in the strangest timeline.

中文介绍 AI项目Fable和Mythos因被认为过于危险,已正式停止发布。作者评论称,我们正处于一个“最奇怪的时间线”。

New OpenAI Academy courses for the next era of work

OpenAI introduces three Academy courses that help people build practical AI skills, create repeatable workflows, and apply agents in everyday work.

中文介绍 OpenAI 推出了三门新的学院课程,专注于帮助人们在工作中构建实用的AI技能、创建可重复的工作流程,并应用AI代理。

[AINews] Loopcraft: The Art of Stacking Loops

a quiet day lets us highlight a great concept from Peter Steinberger, Boris Cherny, and Andrej Karpathy

中文介绍 Loopcraft 概念被提及,探讨了“堆叠循环”的艺术。该概念由 Peter Steinberger、Boris Cherny 和 Andrej Karpathy 提出,可能与AI工作流或开发相关。

How Preply combines AI and human tutors to personalize learning

Preply uses OpenAI to launch AI-generated lesson summaries, providing personalised feedback and language learning exercises.

中文介绍 在线语言学习平台 Preply 利用 OpenAI 技术,发布了AI生成的课程摘要,并提供个性化的反馈和练习,以增强学习体验。

Google DeepMind is worried about what happens when millions of agents start to interact

Google DeepMind is funding research into the potential dangers of situations where millions of different AI agents interact with each other online. According to Rohin Shah, who directs the company’s AGI safety and alignment research, the mass-market arrival of agents that can carry out tasks without

中文介绍 Google DeepMind 对数百万AI代理在线互动可能带来的潜在危险表示担忧,并正资助相关研究。AGI安全与对齐研究主管Rohin Shah指出,大规模AI代理的出现值得关注。

BBVA puts AI at the core of banking with OpenAI

Learn how BBVA scaled ChatGPT Enterprise to 100,000 employees and partnered with OpenAI to accelerate AI-powered banking transformation worldwide.

中文介绍 西班牙对外银行BBVA已将AI核心置于银行业务中,并与OpenAI合作,实现了ChatGPT Enterprise在10万名员工中的规模化应用,加速了全球AI驱动的银行业转型。

How an astrophysicist uses Codex to help simulate black holes

Discover how astrophysicist Chi-kwan Chan uses Codex to build black hole simulations, helping scientists study extreme physics and test Einstein’s theory of general relativity.

中文介绍 天体物理学家Chi-kwan Chan利用OpenAI的Codex来构建黑洞模拟,以帮助科学家研究极端物理现象并检验爱因斯坦的广义相对论。

OpenAI to acquire Ona

OpenAI plans to acquire Ona to expand Codex with secure, persistent cloud environments, enabling long-running AI agents across enterprise workflows.

中文介绍 OpenAI 计划收购 Ona,旨在扩展其Codex能力,集成安全的、持久的云环境,从而支持企业工作流程中长期的AI代理运行。

Supporting Europe’s work in ensuring a trustworthy AI ecosystem

OpenAI supports the EU Code of Practice on AI content transparency, advancing provenance standards and tools to help people understand AI-generated content.

中文介绍 OpenAI 支持欧盟在建立可信赖AI生态系统方面的工作,特别是在AI内容透明度实践准则方面,并致力于推进可溯源标准和工具,以帮助用户理解AI生成内容。

夸GLM5.2被踢

戾气还是太重了 10 个帖子 - 8 位参与者 阅读完整话题

any蹬上了,但它说它是肥波5?

好几天了这是第一次蹬上any 佬们,这是何意味? *看到佬们几分钟这么多回复,声明一下不是质疑,就是遇到了图一乐昂。按楼下说的很可能是第一次say hi的时候选了肥波5的原因,导致第二次问你是什么模型的时候,它可能附带了什么提示词了 咱也不懂,应该就素酱紫。 50 个帖子 - 44 位参与者 阅读完整话题

【开源 Skills】清华博士自用的科研&编程&日常 Agent 生态:COMPASS 司南

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI 生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 佬友们,接着https://linux.do/t/topic/2394586 讨论 为了高效的科研,尽量发论文毕业,我从 openai 刚出来就在使用各种 AI 模型,并且从今天年初使用 openclaw 的时候就在研究迭代各种 skill。本着开源的态度,我把自己的这套 “自

投稿的论文终于中了

今年1月份投稿的Elsevier论文,今天终于中了,特作纪念。 说来惭愧,这篇论文还是24年7月份开始构思和做实验的。因为实验结果一直不理想,一直拖到25年才终于定下初稿。一开始投的1区,后来不出所料被拒了。继续修改投了现在这个2区(具体的名字就不说了)经过二审后终于录用。直到现在打开doi号看到自己的网页版和可以下载的pdf版,依然还有一种不真实的感觉。这是我的第一篇论文,我还是很用心的,像是自己的孩子一样。至于论文是什么,就不给佬们献丑了。 最后祝L站的佬友们,也能论文顺利,一投就中 28 个帖子 - 14 位参与者 阅读完整话题

求顶,让管理们看到(

事先声明:我并非有意带节奏,但是接连问了两个管理都没有人理我(可能是比较忙),这事对我真的很重要,迫于无奈,我只好发帖求助 事情是这样的,我从去年开始追求连续365天上线,可是Discourse论坛系统出了问题,我在阅读时间为0的这一天很明确的上线了,而且不是上线了事,是浏览了不少帖子 我已经连着上了10个月了,这是最后两个月,我不想因为这种bug断掉,只好发帖求助 49 个帖子 - 30 位参与者 阅读完整话题

【富可敌国】ccmax20 没错 我们的域名就是ccmax20 一家专做ccmax的中转站

常说 因为专注 所以专业 我们成立这家ccmax20.cc中转站的目的就是想给各位佬友提供优质的服务 我们经过多月自研号池 现已稳定 不混池 是纯血cc就是纯血 号池可查 正规渠道 非速刷 倍率1 充值1RMB到账1U 倍率真实可查 拉账单 部分地区无法进入 开关魔法 飞行模式后尝试 给各位佬友安排了10刀测试余额 留下你的用户名 给你专属留言兑换码 企业对接 可开票 拉专属对接服务群 服务不中断 售后有保障 量大高并发拿直连 网站:ccmax20.cc 轻松 好记 支持LinuxDo登录 企业对接享专属倍率 对接微信:baby89ii QQ群:868616225 备注来自(linuxdo)

我用codex现在给公司做了一个系统,现在集团也知道了,想让我往上搞,做成项目。佬们我的结局是什么?

我现在是公司的部门副职领导其实就没有几个人要我领导的都是干活的,负责经营管理也兼任一些it运维工作的,属于传统能源行业,专业是计算机相关的。整个集团都没几个计算机专业的,所以ai这方面我相当于走的比较快。 79 个帖子 - 64 位参与者 阅读完整话题

Launch HN: Drafted (YC P26) – Models for residential architecture

I’m Nick, founder of Drafted (https://www.drafted.ai). We’re training models that generate residential architecture from structured design constraints.Product demo: https://www.youtube.com/watch?v=8QkJ7jNU9y4Residential architecture is still one of the most expensive, slow,

Show HN: machine0 – Persistent NixOS VMs You Control from the CLI

Hi HN! Excited to launch machine0, a CLI that makes it easy to create, provision and snapshot persistent NixOS (& Ubuntu) VMs.You can think of machine0 as a modern VPS provider. VMs stay on unless switched-off (with 99.99% uptime), they have static IPs and HTTPS endpoints, 1-60 vCPU, up to 240GB

Iroh 1.0

784 points · 256 comments

CrankGPT

516 points · 209 comments

Hetzner Price Adjustment

https://www.hetzner.com/pressroom/standardization-and-price-...

Show HN: Fata – Spaced repetition to fight skill rot from AI coding

Hi HN, I'm Djoumé. I've been a developer for over 20 years, and like a lot of you I've been coding almost exclusively through an agent in the past few months.It's been amazing to vibe code prototypes in any stack, but when it comes to building something reliable/scalable, I

今日主题

今日,AI 领域在模型能力、安全考量与实际应用等多个维度展现出蓬勃的活力与深刻的思考。Anthropic 的 Fable/Mythos 模型因潜在风险而引发了广泛讨论,甚至有说法称其已被“政府扼杀”,这无疑给AI的安全边界敲响了警钟。与此同时,OpenAI 持续扩张其生态,通过推出合作伙伴网络和收购 Ona,进一步强化其在企业级AI服务领域的地位。在技术层面,Hugging Face 上涌现了多篇关于 LLM 评估、视频处理、代码理解及代理能力提升的研究论文,显示了学术界对 AI 核心技术的不懈探索。此外,“循环(loops)”和“数字同事”等概念的兴起,预示着AI正从简单的工具向更自主、更智能的助手转变,深刻影响着软件开发、工作流设计乃至整个社会。

01

模型发布/更新

Model Releases 44 篇

金融AI模型Kronos发布,处理金融文本数据

开源项目GitHub Trending

Shiyu-coder 推出的 Kronos 是一个专注于金融市场语言的基础模型(Foundation Model)。它经过专门训练,旨在理解、分析和处理海量金融文本数据,解决通用大模型在金融领域专业知识不足的痛点。Kronos 能为金融分析师、投资者提供市场洞察、情绪分析和预测辅助,助力智能投资决策与风险管理。

金融AI基础模型LLM

Anthropic Fable项目因危险停止,GLM-5.2发布

综合资讯TLDR AI

Anthropic 宣布停止发布其 Fable 项目,认为其过于危险。同时,GLM 发布了 5.2 版本模型。OpenRouter 也推出了 Fusion 功能。这标志着AI领域在能力探索与风险控制之间的权衡,同时也反映了模型迭代的持续推进。

公司动态模型更新模型安全

OpenAI收购Ona,小米发布MiMo代码

综合资讯TLDR AI

AI领域近期动态包括:OpenAI 计划收购 Ona,以扩展其 Codex 能力并支持企业级 AI 代理运行;小米发布了 MiMo 代码;Anthropic 撤回了部分此前决定。这些事件反映了行业在技术整合、开源进展及策略调整上的活跃。

公司动态收购模型发布

Claude Fable 5仅凭视觉击败宝可梦

官方Claude (YouTube)

Anthropic 的 Claude Fable 5 在著名电子游戏《Pokémon FireRed》中,仅通过视觉能力就实现了胜利。这一成就展示了该模型在理解环境、制定策略和执行任务方面的强大AI能力,预示着AI在复杂游戏场景中可能取得的突破。

Claude Fable 5AI游戏
02

产品发布/更新

Product 66 篇

Agent-Reach:AI代理获观察互联网能力

开源项目GitHub Trending

Agent-Reach 项目旨在赋予 AI 代理“观察”整个互联网的能力,使其能够阅读和搜索 Twitter、Reddit、YouTube、GitHub 等主流平台。项目强调零 API 费用,解决了现有 AI 代理信息获取的局限性,适用于需要广泛网络信息输入的 AI 开发者。

AI Agent网络爬虫信息获取

NVIDIA SkillSpector:AI代理安全扫描工具

开源项目GitHub Trending

NVIDIA SkillSpector 是一个专为 AI 代理设计的安全扫描工具,旨在检测代理中的漏洞、恶意模式和安全风险,确保其可靠性。随着 AI 代理的广泛应用,其安全性日益关键,SkillSpector 提供自动化检测能力,帮助识别和缓解安全威胁。

AI安全安全扫描AI Agent

OpenAI推出合作伙伴网络,投资1.5亿美元

官方OpenAI News

OpenAI 正式推出其合作伙伴网络,并承诺投资 1.5 亿美元,旨在助力全球合作伙伴加速企业级AI的采用、部署和转型。此举表明 OpenAI 在构建和扩展企业 AI 生态系统方面正采取积极战略。

OpenAI企业AI投资

OpenAI学院新增三门AI工作技能课程

官方OpenAI News

OpenAI 推出了三门新的学院课程,专注于帮助人们在工作中构建实用的AI技能、创建可重复的工作流程,并应用AI代理。这些课程旨在提升个体在AI驱动工作环境中的适应性和效率。

OpenAIAI教育工作效率

BBVA银行将AI置于核心,与OpenAI合作

官方OpenAI News

西班牙对外银行 BBVA 已将 AI 核心置于银行业务中,并与 OpenAI 合作,实现了 ChatGPT Enterprise 在 10 万名员工中的规模化应用。此举加速了全球 AI 驱动的银行业转型。

AI应用金融科技OpenAI

Coinbase推出“Coinbase for Agents”,支持AI交易

X·KOLX 推文 (AttentionVC)

Coinbase 推出“Coinbase for Agents”服务,允许 AI Agent 直接连接用户的 Coinbase 账户,在其设定的限额内进行交易、支付和执行工作流。此功能现已可用,标志着 AI 在金融交易领域集成的新一步。

产品发布AI Agent金融科技
03

行业动态

Industry 66 篇

iptv-org/iptv:汇集全球公开IPTV频道

开源项目GitHub Trending

iptv-org/iptv 项目汇集了全球公开可用的 IPTV 频道,提供集中化的资源库,方便用户访问和观看免费的国际电视内容。项目以 M3U 播放列表形式提供链接,解决了用户寻找和管理直播源的痛点,适合个人用户及开发者。

IPTV媒体直播

Chatwoot:开源客户支持平台

开源项目GitHub Trending

Chatwoot 是一个开源客户支持平台,提供实时聊天、电子邮件支持和全渠道服务台等功能,是 Intercom、Zendesk 等商业解决方案的开源替代品。它帮助企业集中管理客户沟通,提升服务效率,适合预算有限或追求数据自主的中小型企业。

客户支持SaaS替代开源软件

Free-TV/IPTV:免费电视频道合集

开源项目GitHub Trending

Free-TV/IPTV 项目是一个精选的免费电视频道 M3U 播放列表合集,提供便捷访问全球免费直播电视内容的途径。用户导入 M3U 列表即可观看各类免费节目,解决了寻找和组织免费电视流媒体源的挑战。

IPTV媒体直播

OpenAI支持欧盟建立可信赖AI生态系统

官方OpenAI News

OpenAI 支持欧盟在建立可信赖 AI 生态系统方面的工作,特别是在 AI 内容透明度实践准则方面。公司致力于推进可溯源标准和工具,以帮助用户理解 AI 生成内容,体现了对 AI 治理和伦理的关注。

AI监管欧盟OpenAI

韩国人对AI热情高涨的文化现象

综合资讯MIT Tech Review AI

文章深入探讨了韩国人对人工智能(AI)的热情。作者通过在首尔的经历,暗示了AI在韩国社会中的普及和应用,并旨在分析这种喜爱AI的文化现象背后的原因。

AI应用社会文化

Google DeepMind担忧大规模AI代理互动风险

综合资讯MIT Tech Review AI

Google DeepMind 对数百万 AI 代理在线互动可能带来的潜在危险表示担忧,并正资助相关研究。AGI安全与对齐研究主管Rohin Shah指出,大规模 AI 代理的出现值得密切关注,预示着对 AI 安全性的进一步研究需求。

AI安全AGIGoogle DeepMind
04

技巧与观点

Tips & Takes 66 篇

《Hello 算法》:开源可视化算法教程

开源项目GitHub Trending

《Hello 算法》是一本开源数据结构与算法教程,通过动画图解和代码示例帮助学习者直观理解算法。教程支持多语言和多种编程语言实现,解决了传统教材可视化不足的痛点,适合学生和开发者。

算法数据结构编程教学

CUA:AI代理桌面控制基础设施

开源项目GitHub Trending

CUA (Computer-Use Agents) 是一个开源基础设施项目,专为训练和评估能完全控制桌面环境的 AI 代理而设计。它提供沙盒、SDK 和基准测试工具,解决了开发能够理解和操作通用 GUI 应用程序的 AI 代理的挑战。

AI Agent自动化桌面控制

AI工程从零开始指南

开源项目GitHub Trending

ai-engineering-from-scratch 项目提供从零开始学习 AI 工程的全面指南,强调理论与实践结合。内容覆盖模型构建到部署上线,帮助学习者掌握 MLOps 实践和系统架构等 AI 工程技能,适合系统学习 AI 工程的开发者和学生。

AI工程机器学习MLOps

APPO:改进LLM代理多轮工具使用能力

官方HuggingFace Trending Papers

APPO(Agentic Procedural Policy Optimization)是一种改进大型语言模型代理多轮工具使用能力的方法。它解决了现有方法在分配信用时粒度过粗导致的效率低下问题,旨在提高 LLM 代理在复杂任务中的表现。

LLMAI 代理强化学习

Loop engineering:AI工作流新范式

X·KOLX 推文 (AttentionVC)

OpenAI 员工 Peter Steinberger 提出,未来AI工程师应设计“循环(loops)”来引导和驱动代码生成 AI,而非直接提问。这标志着从直接提示转向更复杂的 Agent 工作流设计,是AI工程师需要掌握的新能力。

Prompt 工程工作流Agent

Claude Code中构建自我改进循环教程

X·KOLX 推文 (AttentionVC)

该推文提供在 Claude Code 中构建“自我改进循环”的确切设置方法。作者描述了如何通过循环自动化AI编程的传统低效模式,实现 Agent 更高效的任务执行。

教程Agent工作流