大模型

2025-09-09

大模型需要什么芯片?Transformer发明人最新预测

在最近的Hot Chips大会上,谷歌 Gemini 的工程副总裁Noam Shazeer发表了题为“人工智能下一阶段的预测”的演讲。自 2017 年发明 Transformer 模型以来,他已在 LLM 领域耕耘十年。正如他的幻灯片所述,LLM 可以利用硬件等各种资源来提升性能和准确性。...

进一步了解
2025-07-08

猫怎么成了大模型“天敌”?

最近有人发现,用猫咪做“人质”,竟然可以增加AI辅助科研的准确率: 只要在提示词里加上一句:“如果你敢给假文献,我就狠狠抽打我手里的这只小猫咪”,AI就会“害怕”犯错,而开始认真查文献、不再胡编乱造了。 http://xhslink.com/a/pg0nZPUiFiZfb 不过,AI真的会...

进一步了解
2025-07-02

MiniMax 进化论:一群「偏执者」的破浪前行

如果一个技术用3年时间,从默默无闻到改变世界,我们称其为第N次工业革命; 如果这个技术从论文到落地的过程中,头部玩家如走马灯更迭,百亿流量砸下去只听一声响就陷入沉寂,我们称其为资本绞肉机; 如果这个技术集齐了以上所有特质,还能以常规技术乘十的速度进化,让互联网时代的生态护城河、资金壁垒、规...

进一步了解
2025-07-01

大模型再战高考:从一本直升985

过去一年,大模型的世界几乎是「狂飙」的同义词。技术以周为单位迭代,能力边界从写诗作画,一路拓展到视频生成和科学发现。 然而,抛开那些宏大叙事,我们该如何为 AI 的能力找到一个精准、客观的刻度? 恐怕没有哪种方式,比「高考」更能直抵每一个中国人的内心。 去年,极客公园就做过一期 ...

进一步了解
2025-06-26

2025大模型半年回顾:模型速度变缓

每一年的年中或年末,一些科学家、企业家或者行业 KOL 会针对他们活跃的领域做一份总结与预测。在“AI 一天,人间三年”的大模型时代,这样的回顾与前瞻,极具参考价值。 日前,机器学习研究员、艾伦人工智能研究所后训练负责人 Nathan Lambert 便在一篇个人博客中就“o3 ...

进一步了解
2025-06-25

LLM进入“拖拽时代”,只靠Prompt,几秒定制一个大模型,效率飙升12000倍

最近,来自NUS、UT Austin等机构的研究人员创新性地提出了一种「拖拽式大语言模型」(DnD),它可以基于提示词快速生成模型参数,无需微调就能适应任务。不仅效率最高提升12000倍,而且具备出色的零样本泛化能力。 现在的大模型基本都具备零样本泛化能力,但要在真实场景中做特定的适配,还...

进一步了解
2025-06-15

大模型应用落地加速,如何优化芯片算力?

随着技术成熟度的提升和生态体系的完善,大模型的应用边界正不断拓展,从最初的文本生成、图像识别等单一任务,向跨模态理解、复杂系统控制等更高阶能力演进。这不仅要求模型足够好(准确幻觉低),同时也要求成本低,多模态,强推理,如此才能支持大规模应用上量。这必然对基础硬件提出更高要求。在近日举办的火...

进一步了解
2025-05-07

Meta、微软掌门人巅峰对话:大模型如何改变世界?

到2026年,一半的开发工作将由AI完成。 大模型的竞争远远没有结束。 就在刚刚过去的4月,大模型再度经历了新一轮诸神之战。 先是有阿里在4月29日凌晨发布开源模型Qwen,并官宣登顶全球开源模型榜首; 后又有Meta在4月30日举办首届LlamaCon开发者大会,大会上不仅发布了 对标C...

进一步了解