10秒详论!自述吃了春晚药后有多疯狂微软推出深度视频探索智能体，登顶多个长视频理解基准

尽管大型语言模型（LLMs）和大型视觉 - 语言模型（VLMs）在视频分析和长语境处理方面取得了显著进展，但它们在处理信息密集的数小时长视频时仍显示出局限性。本文提出了一种新颖的智能体 Deep Video Discovery (DVD)，通过将长视频分割为更短的片段并将其视作环境，利用 LLM 先进的推理能力来思考问题并自主规划，选择具有适当参数的工具来从环境中逐步获取信息，最终回答问题。在最新的推理模型OpenAI o3的帮助下， DVD以这一简洁有效的 agentic 框架在非常具有挑战性的LVBench上以74.2%的准确率大幅超越了之前的工作。这一工作将以MCP Server的形式开源。不同于之前的视频智能体框架依赖于手动设计的固定工作流程，DVD 强调其作为智能体的自主性，即通过自主规划，决策和行动来解决问题。为了充分利用这一自主性，我们将原始的长视频转换为多粒度视频数据库，并提供了一套以搜索为中心的工具使得智能体在不同阶段搜集不同粒度的信息。具体来说该系统主要由三个核心组件构成：多粒度视频数据库、以搜索为中心的工具集以及作为智能体协调器的 LLM。在 “多粒度视频数据库构建” 阶段，系统将超长视频转换为一个结构化数据库，通过统一将视频分割成短片段（例如 5 秒），并提取全局、片段和帧级别的多粒度信息，包括主题中心化摘要、片段字幕及其嵌入向量，以及原始解码帧...。 (2)片段搜索（Clip Search）工具，实现通过片段描述 Embedding 对视频内容进行高效语义检索，并返回排名靠前的相关视频片段及其字幕和时间范围。 LLM 作为核心认知驱动器，在迭代的 “观察 - 推理 - 行动” 循环中，根据累积的知识和推理证据采取行动，从而赋予智能体自主、证据引导和灵活的行动机制，有效地将原始查询分解为逐步细化的子查询来解答问题。该系统在多个长视频基准测试上进行了全面评估，展现了其卓越的效率和强大的性能。在极具挑战性的 LVBench 数据集上，DVD 智能体取得了 74.2% 的最新准确率，大幅超越了所有现有工作，包括先前的最先进模型 MR. Video（13.4% 的提升）和 VCA（32.9% 的提升）。在辅助转录的帮助下，准确率进一步提高到 76.0%。在 LongVideoBench、Video MME Long 子集和 EgoSchema 等其他长视频基准测试中，DVD 也持续超越了先前的最先进性能。图 3：不同基础模型在智能体中的行为分析。图中可以明显看出不同基础模型表现出显著的行为模式差异，不具有推理能力 GPT-4o 表现出非常单一的行为模型。消融研究证实了工具设计的有效性，并强调了推理模型在整个智能体系统中的关键作用：更换推理模型（如使用 OpenAI o4-mini 或 GPT-4o）会导致性能下降，这表明 LLM 推理能力的缺失会导致智能体行为崩溃。对智能体推理行为的分析也揭示了不同模型在工具调用模式、推理深度和准确性之间的关联，例如 GPT-4o 表现出过度自信和行为崩溃，倾向于过早结束推理。这些行为模式的分析进一步为未来的智能体设计以及基础语言模型的发展提供了实践参考。

                                自述吃了春晚药后有多疯狂张阔：因为商家经营有很多效率问题，这里面很多事情我们本来就认为“不应该是靠人力去做的事情”，比如把一个商品以多语言的模式去发布，这里面需要人去拟定关键词。传统的模式下，我们需要去猜用户会问什么问题、会搜什么关键词，我们需要在商品的标题和描述里多放这些关键词。我觉得这个事情本身并不是贸易的本质，但传统模式下，大家花很多精力于这个环节。综合考虑协议的履行情况，法院认为，虽然李某最终被二本院校录取，但这并非顾某服务的直接结果。顾某未能履行协议中承诺的专科录取，且服务存在瑕疵，应当承担相应的责任。经过慎重权衡，法院作出判决，顾某退还70%的服务费，即1.4万元。这一判决既考虑了协议的约定，也兼顾了公平原则，为这起志愿填报服务纠纷画上了句号。自述吃了春晚药后有多疯狂www.51cao.gov.cn开场仅8分钟，迈阿密国际就丢球，几乎是自带0-1入场。不过，当你拥有梅西时，你可以期待奇迹的出现。第47分钟，特拉斯科为迈阿密国际扳平。第54分钟，轮到梅西的表演：班主任的评价，其实不少学生都很重视。所以，除了说到哪里做得好，哪里做得不好，不妨也点明一些学生的发展方向，给学生一些建议，定一个小目标。
                            

                                20251207 🔞 自述吃了春晚药后有多疯狂“我们认为不能等到人生病的时候再给他治疗。”新加坡国立大学特聘教授Brian Kennedy在主旨演讲中强调，“在人健康的时候，就应该对他们进行干预。”这种从“治疗”到“预防”的理念转变，核心在于精准量化和干预衰老过程。WWW.88888.GOV.CN不过，原始性能并不能定义现实世界的表现。虽然 DeepSeek-R1（0528）在技术能力上可能与 Claude 相当，但其是否可以在日常工作流程中提供媲美 Claude 的用户体验，这些需要更多的实际验证。
                            

📸 张谦赏记者翟仕俊摄

                                20251207 👅 自述吃了春晚药后有多疯狂在 WWDC25 全球开发者大会的“利用 Wi-Fi Aware 增强设备连接”环节中，苹果的 Swetank Saha 展示了这一功能：用户只需在双方设备上打开应用，获取附近设备的列表，点击即可发起连接。与 AirDrop 类似，系统还提供了可选的确认码步骤，以确保用户连接到正确的设备。WWW.XJXJXJ18.GOV.CN“他在每个去的球场都会获得起立鼓掌，我想他会和家人一起尽情享受，我很高兴。当然，他是球队中拥有标志性地位的伟大球员，能和他共用一个更衣室并在同一个球场上比赛是一种荣幸。”
                            

📸 白敏记者应红秀摄

                            🌸 截至2025年初，AI在心智理论方面还有待突破。大语言模型有时候能猜到你在想什么，但很不稳定，而且这不是它的正式用法。我们期待AI智能体（agent）有一定的自我计划能力，但目前还不成熟。zjzjzjzjzjy.gov.cn