14B打败671B,微软rStar2-Agent在数学推理上超过DeepSeek-R1
现在,LLM 已经可以获得非常强大的推理能力,而其中关键便是测试时扩展(test-time scaling)。 通常而言,延长思维链(CoT)就可以延长「思考时间」,从而显著提升性能,尤其是当使用大规模强化学习和可验证奖励 (RLVR) 进行优化时。 然而,对于容易出现细微中间错误或需要创...
你的专属IT资讯(IT News)
现在,LLM 已经可以获得非常强大的推理能力,而其中关键便是测试时扩展(test-time scaling)。 通常而言,延长思维链(CoT)就可以延长「思考时间」,从而显著提升性能,尤其是当使用大规模强化学习和可验证奖励 (RLVR) 进行优化时。 然而,对于容易出现细微中间错误或需要创...
9 月 2 日消息,特斯拉在美国劳动节假期发布了第四版“宏图计划”,强调其 Optimus 擎天柱人形机器人的潜力,并在一段宣传视频中首次展示了 Cyber SUV 模型。 目前关于这款车型所有信息均未公布,且目前尚不确定该车型是否会真正量产,但视频内容表明特斯拉正在探索这一方向。 在最新...
科技媒体 9to5Mac 昨日(9 月 1 日)发布博文,报道称苹果公司在 Hugging Face 平台上,推出了 FastVLM 视觉语言模型的浏览器试用版。 注:FastVLM 以其“闪电般”的视频字幕生成速度著称,只要用户拥有搭载 Apple Silicon 芯片的 Mac 设备,...
据“国家数据局”公众号,具身智能灵巧手多样抓取仿真数据集 DexonomySim 已开源发布于北大网盘。 据介绍,这一数据集是在国家数据局数字科技和基础设施建设司指导下,由银河通用介绍发布。其专为具身智能机器人灵巧抓取任务设计,包含超过 950 万条高质量抓取姿态,覆盖超 1 万个物体与 ...
退休经济学教授用一个简单问题干懵GPT-5,其拉胯表现与奥特曼口中“博士级AI”的宣传大相径庭。 问题很简单,关于咱小时候都玩过的“井”字棋游戏。 教授告诉GPT-5:“游戏开始前,把棋盘向右旋转90度一次”。显然,按常识来看,这么做根本不会让游戏本身有任何变化。 然鹅,GPT-5侃侃而谈...
9月1日消息,美团宣布正式发布LongCat-Flash-Chat AI模型,并同步开源,采用创新性混合专家(MoE),总参数量达560B(5600亿),实际激活参数18.6-31.3B,平均仅27B,从而实现计算效率与性能的双重优化。 美团声称,根据多项基准测试综合评估,作为一款非思考型...
没想到啊,最新SOTA的开源大模型…… 来自一个送外卖(Waimai)的——有两个AI,确实不一样。 这个最新开源模型叫:Longcat-Flash-Chat,美团第一个开源大模型,发布即开源,已经在海内外的技术圈子里火爆热议了。 一方面是因为成绩亮眼: 它在部分benchmark上,比如...
2025年8月30日,埃隆·马斯克及其创立的人工智能公司xAI,在加利福尼亚州联邦法院对一名前工程师提起了诉讼。诉讼的核心指控是商业秘密盗窃,而被指控的对象是xAI的前员工Xuechen Li。此人的经历堪称是一部行走的硅谷AI史:在读博期间获得Meta的奖学金,先后就职于谷歌和微软,从x...
9月1日消息,OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、...
而他的最新一条推文则是7月11日,也就是Grok 4发布之后发表的,推文中还对xAI在短时间内取得重大成果表示了赞叹。 这天距离xAI透露的窃密事件发生只有半个月。 此外,Xuechen Li还是羊驼Alpaca系列大模型的核心贡献者之一。 这样的经历也让网友们感到不解,为什么Xueche...