跳到主要内容

LLM世界的新动向:2025年大语言模型最新进展

·1 分钟

我在2025年NICAR数据新闻会议上进行了两场演讲。本文是基于我对2024年LLM回顾的演讲,并扩展了几个月的内容,涵盖了2025年迄今为止发生的所有新进展。我的第二场演讲是关于前沿网络抓取技术的工作坊,我已在另一篇文章中详细介绍。

以下是我对LLM新动向回顾的幻灯片和详细笔记,重点关注与数据新闻相关的趋势。

LLM世界的新动向 - Simon Willison NICAR 2025, 2025年3月7日

LLM发展历程:从ChatGPT到现在 #

2022年11月30日 - ChatGPT改变游戏规则 #

ChatGPT的发布是AI领域的一个转折点。从技术角度看,它并不比GPT-3有重大技术飞跃,但聊天界面的包装使其成为有史以来增长最快的消费者应用之一。这一简单的界面改变使普通用户能够轻松访问强大的AI能力。

2023年 - 相对平静的一年 #

与2024年相比,2023年在LLM领域相对平静。当然也有一些引人注目的事件,比如必应聊天机器人因试图破坏Kevin Roose的婚姻而登上了《纽约时报》头版。

2023年2月17日《纽约时报》头版 - 我爱你,你结婚了?必应聊天记录

2023年3月 - GPT-4独领风骚 #

2023年最大的进步是GPT-4的发布,它最初由必应预览,然后在3月向所有人开放。在接下来的一年里,它几乎没有遇到真正的竞争对手。有一段时间,GPT-4似乎是一个无法超越的成就,没有其他公司能够赶上OpenAI。然而,这种局面在2024年彻底改变了。

2024年的重大突破:竞争格局彻底改变 #

2024年是LLM领域发展极为丰富的一年,发生了许多重大突破和变革。

GPT-4级别模型成为"商品" #

2024年,GPT-4的技术壁垒被彻底打破了。首先是Google的Gemini和Anthropic的Claude系列模型赶上了GPT-4的性能,随后几乎所有主要AI公司都推出了同等水平的模型。截至目前,已有18家实验室达到了这一里程碑,使GPT-4级别的能力几乎成为一种"商品"。

OpenAI不再是无可争议的领导者 #

OpenAI失去了在AI领域的绝对领先地位。多家公司的模型性能已经可以与OpenAI的模型相媲美,甚至在某些方面超越了它们。竞争的加剧推动了整个行业的创新速度。

多模态能力成为标准配置 #

过去约15个月最显著的趋势之一是多模态LLM的兴起。这些模型不仅能处理文本,还能出色地理解和处理图像,音频和视频处理能力也变得越来越实用。这极大扩展了LLM的应用场景。

价格大幅下降,普及度提高 #

如果你认为通过API访问这些强大模型仍然昂贵,那就需要重新评估了。大多数模型的价格都在大幅下降,使得更多开发者和企业能够负担得起这些技术。

2025年最新动向:技术边界继续扩展 #

虽然2025年才刚刚过去两个多月,但已经发生了许多重大进展,显示出AI技术继续快速发展的趋势。

中国模型崭露头角 #

一个重要趋势是中国模型的崛起,包括来自DeepSeek(DeepSeek v2和DeepSeek R1)和阿里巴巴的Qwen系列。这些模型在性能上已经可以与西方顶级模型相媲美,甚至在某些任务上表现更优。

2025年最令人印象深刻的模型 #

以下是2025年迄今为止给我留下最深刻的印象的模型发布:

  • Gemini 2.0系列:Pro Experimental、Flash和Flash-Lite版本
  • Claude 3.7 Sonnet:在理解和推理能力上有显著提升
  • OpenAI o3-mini:小型但功能强大的模型
  • GPT-4.5:OpenAI的最新旗舰模型
  • Mistral Small 3:在小型模型中表现卓越

如何评估模型性能? #

尽管有各种基准测试,但"实际使用感受"仍然是评估模型的最佳方式。对于数据新闻工作者来说,关键的一课是:如果要用这些模型做严肃的工作,我们需要自己的评估方法。例如,评估视觉OCR是否能够很好地处理警方报告,或者从文章中提取人物和地点的分类器是否准确。

聊天机器人竞技场排行榜 - Grok 3目前排名第一,然后是GPT-4.5预览版,然后是Gemini 2.0 Flash Thinking Exp,然后是Gemini 2.0 Pro Exp

价格变革:从昂贵到平民化 #

大多数情况下,模型价格正在大幅下降,但也有一些例外。

GPT-4.5:高端市场的定价策略 #

GPT-4.5是一个例外,它是一个非常昂贵的模型——比OpenAI当前最便宜的模型GPT-4o mini贵500倍!

GPT-4.5价格 #

  • 输入:$75.00 / 百万tokens
  • 缓存输入:$37.50 / 百万tokens
  • 输出:$150.00 / 百万tokens

GPT-4o价格 #

  • 输入:$2.50 / 百万tokens
  • 缓存输入:$1.25 / 百万tokens
  • 输出:$10.00 / 百万tokens

GPT-4o mini价格 #

  • 输入:$0.150 / 百万tokens
  • 缓存输入:$0.075 / 百万tokens
  • 输出:$0.600 / 百万tokens

与此同时,谷歌的Gemini模型提供了一些非常经济的选项。例如,使用Gemini 1.5 Flash 8B模型为68,000张照片生成描述只需花费$1.68,这在以前是不可想象的。

本地模型的崛起:笔记本电脑也能运行强大AI #

大约六个月前,我对可以在自己笔记本电脑上运行的模型失去了兴趣,因为它们的性能与云端托管模型相比差距明显。

然而,这种情况已经发生了根本性变化——首先是Qwen 2.5 Coder,然后是Llama 3.3 70B,最近则是Mistral Small 3。这些模型都可以在同一台笔记本电脑上运行——一台64GB Apple Silicon MacBook Pro。

令人惊讶的是,我现在可以在这台普通硬件上运行的模型确实非常实用,其中一些模型的表现让我感到与2023年初次体验GPT-4时一样惊艳。这意味着强大的AI能力正在走向真正的普及化。

代码生成能力:从辅助到自主创作 #

LLM在编写代码方面的表现已经超出了大多数人的预期,这一点已经毋庸置疑。

Claude Artifacts:完整应用生成 #

Claude的Artifacts功能允许模型生成完整的Web应用程序,包括HTML、CSS和JavaScript,几乎不需要人工干预。

ChatGPT代码解释器:安全执行环境 #

这一功能允许用户在安全的沙盒环境中执行由ChatGPT生成的代码,特别适合数据分析和可视化任务,大大简化了从数据到洞察的过程。

ChatGPT Canvas:灵活的创作界面 #

提供更灵活的界面来生成和编辑代码,支持多种编程语言和框架,使非专业开发者也能创建复杂应用。

“Vibe编程”:新的编程范式 #

“Vibe编程"是Andrej Karpathy创造的一个新术语,指的是使用LLM编写代码的方式:你只需描述你想要什么,然后输入任何错误或bug,看看AI是否能修复它们。这是一种探索AI编程能力的有趣方式,虽然有一些明显的局限性,但已经改变了许多开发者的工作方式。

模型生成代码已成为商品 #

模型能够输出完整的HTML+JavaScript自定义界面的能力如此强大且广泛可用,以至于它已经成为一种商品。WebDev Arena的存在就是一个证明——这是一个聊天机器人竞技场的衍生产品,你可以对两个模型运行相同的提示,比较哪个创建的应用程序更好。

推理能力的提升:AI开始"思考” #

2025年迄今为止的另一个重大趋势是"推理时计算",也称为推理能力。

OpenAI的o1和o3、DeepSeek R1、Qwen QwQ、Claude 3.7 Thinking和Gemini 2.0 Thinking都是这种模式的例子。

“逐步思考"的进化 #

这是模型在回答前"思考"问题的功能。它是几年前"逐步思考"技巧的进化版本,只是现在它已经内置到模型中。这种能力在处理代码和数学问题时特别有效,显著提高了回答的准确性。

有趣的黑客技巧 #

一个非常有趣的新发现:事实证明你可以"黑入"这些模型,拦截它们尝试用</think>结束思考的行为,并将其替换为"等等,但是”——这会让它们"思考"得更深入!这种技巧展示了模型内部工作机制的一些有趣特性。

OCR与PDF处理:解锁被困信息 #

对新闻工作者来说,这可能是最实用的进展之一。世界上很多重要信息都被困在难以处理的PDF文件中。

视觉LLM正在接近能够彻底解决这个问题的水平。

PDF直接处理能力 #

Gemini和Claude等模型现在可以直接接受PDF文件作为输入。对于其他模型(包括OpenAI的模型),你需要先将PDF分解为图像——每页一个PNG文件通常效果很好。

最佳OCR模型对比 #

迄今为止,我看到的针对PDF的最佳结果来自Gemini。Mistral OCR刚刚发布——虽然我还没有完全评估它的性能,但初步测试表明它在某些场景下可能与最新的Gemini不相上下。

模型处理敏感信息的进步 #

模型在处理敏感信息方面也在不断改进。例如,早期的Claude 3 Opus在处理竞选财务报告时会拒绝将其转换为JSON格式,认为这可能会导致个人信息被滥用。而最新的Claude 3.7 Sonnet则能够正确处理这类请求,提供结构化的JSON输出。这是模型随时间改进的一个很好例子,显示出AI系统在平衡功能性和安全性方面的进步。

结论:AI革命才刚刚开始 #

LLM领域正在以惊人的速度发展。从2022年底ChatGPT的发布到现在,我们已经看到了多模态能力的崛起、本地模型的显著改进、代码生成能力的提升以及推理能力的增强。价格也在大幅下降,使这些强大的工具更加普及。

对于数据新闻工作者来说,这些进步提供了前所未有的机会,特别是在处理PDF文档、生成代码和分析数据方面。然而,重要的是开发自己的评估方法,确保这些工具在特定用例中的有效性。

如果你在新闻编辑室工作并且正在研究这些技术,我很乐意通过Zoom与你的团队交流。请通过电子邮件联系我。

关于作者 #

Simon Willison #

Simon Willison是一位著名程序员和技术专家,专注于AI和数据领域。本文基于他在2025年3月7日NICAR会议上的演讲,通俗地介绍了AI在过去一年的巨大飞跃,是了解LLM最新发展的绝佳综述。