LLM世界的新动向：2025年大语言模型最新进展

我在2025年NICAR数据新闻会议上进行了两场演讲。本文是基于我对2024年LLM回顾的演讲，并扩展了几个月的内容，涵盖了2025年迄今为止发生的所有新进展。我的第二场演讲是关于前沿网络抓取技术的工作坊，我已在另一篇文章中详细介绍。

以下是我对LLM新动向回顾的幻灯片和详细笔记，重点关注与数据新闻相关的趋势。

LLM世界的新动向 - Simon Willison NICAR 2025, 2025年3月7日

LLM发展历程：从ChatGPT到现在 #

2022年11月30日 - ChatGPT改变游戏规则 #

ChatGPT的发布是AI领域的一个转折点。从技术角度看，它并不比GPT-3有重大技术飞跃，但聊天界面的包装使其成为有史以来增长最快的消费者应用之一。这一简单的界面改变使普通用户能够轻松访问强大的AI能力。

2023年 - 相对平静的一年 #

与2024年相比，2023年在LLM领域相对平静。当然也有一些引人注目的事件，比如必应聊天机器人因试图破坏Kevin Roose的婚姻而登上了《纽约时报》头版。

2023年3月 - GPT-4独领风骚 #

2023年最大的进步是GPT-4的发布，它最初由必应预览，然后在3月向所有人开放。在接下来的一年里，它几乎没有遇到真正的竞争对手。有一段时间，GPT-4似乎是一个无法超越的成就，没有其他公司能够赶上OpenAI。然而，这种局面在2024年彻底改变了。

2024年的重大突破：竞争格局彻底改变 #

2024年是LLM领域发展极为丰富的一年，发生了许多重大突破和变革。

GPT-4级别模型成为"商品" #

2024年，GPT-4的技术壁垒被彻底打破了。首先是Google的Gemini和Anthropic的Claude系列模型赶上了GPT-4的性能，随后几乎所有主要AI公司都推出了同等水平的模型。截至目前，已有18家实验室达到了这一里程碑，使GPT-4级别的能力几乎成为一种"商品"。

OpenAI不再是无可争议的领导者 #

OpenAI失去了在AI领域的绝对领先地位。多家公司的模型性能已经可以与OpenAI的模型相媲美，甚至在某些方面超越了它们。竞争的加剧推动了整个行业的创新速度。

多模态能力成为标准配置 #

过去约15个月最显著的趋势之一是多模态LLM的兴起。这些模型不仅能处理文本，还能出色地理解和处理图像，音频和视频处理能力也变得越来越实用。这极大扩展了LLM的应用场景。

价格大幅下降，普及度提高 #

如果你认为通过API访问这些强大模型仍然昂贵，那就需要重新评估了。大多数模型的价格都在大幅下降，使得更多开发者和企业能够负担得起这些技术。

2025年最新动向：技术边界继续扩展 #

虽然2025年才刚刚过去两个多月，但已经发生了许多重大进展，显示出AI技术继续快速发展的趋势。

中国模型崭露头角 #

一个重要趋势是中国模型的崛起，包括来自DeepSeek（DeepSeek v2和DeepSeek R1）和阿里巴巴的Qwen系列。这些模型在性能上已经可以与西方顶级模型相媲美，甚至在某些任务上表现更优。

2025年最令人印象深刻的模型 #

以下是2025年迄今为止给我留下最深刻的印象的模型发布：

Gemini 2.0系列：Pro Experimental、Flash和Flash-Lite版本
Claude 3.7 Sonnet：在理解和推理能力上有显著提升
OpenAI o3-mini：小型但功能强大的模型
GPT-4.5：OpenAI的最新旗舰模型
Mistral Small 3：在小型模型中表现卓越

如何评估模型性能？ #

尽管有各种基准测试，但"实际使用感受"仍然是评估模型的最佳方式。对于数据新闻工作者来说，关键的一课是：如果要用这些模型做严肃的工作，我们需要自己的评估方法。例如，评估视觉OCR是否能够很好地处理警方报告，或者从文章中提取人物和地点的分类器是否准确。

聊天机器人竞技场排行榜 - Grok 3目前排名第一，然后是GPT-4.5预览版，然后是Gemini 2.0 Flash Thinking Exp，然后是Gemini 2.0 Pro Exp

价格变革：从昂贵到平民化 #

大多数情况下，模型价格正在大幅下降，但也有一些例外。

GPT-4.5：高端市场的定价策略 #

GPT-4.5是一个例外，它是一个非常昂贵的模型——比OpenAI当前最便宜的模型GPT-4o mini贵500倍！

GPT-4.5价格 #

输入：$75.00 / 百万tokens
缓存输入：$37.50 / 百万tokens
输出：$150.00 / 百万tokens

GPT-4o价格 #

输入：$2.50 / 百万tokens
缓存输入：$1.25 / 百万tokens
输出：$10.00 / 百万tokens

GPT-4o mini价格 #

输入：$0.150 / 百万tokens
缓存输入：$0.075 / 百万tokens
输出：$0.600 / 百万tokens

与此同时，谷歌的Gemini模型提供了一些非常经济的选项。例如，使用Gemini 1.5 Flash 8B模型为68,000张照片生成描述只需花费$1.68，这在以前是不可想象的。

本地模型的崛起：笔记本电脑也能运行强大AI #

大约六个月前，我对可以在自己笔记本电脑上运行的模型失去了兴趣，因为它们的性能与云端托管模型相比差距明显。

然而，这种情况已经发生了根本性变化——首先是Qwen 2.5 Coder，然后是Llama 3.3 70B，最近则是Mistral Small 3。这些模型都可以在同一台笔记本电脑上运行——一台64GB Apple Silicon MacBook Pro。

令人惊讶的是，我现在可以在这台普通硬件上运行的模型确实非常实用，其中一些模型的表现让我感到与2023年初次体验GPT-4时一样惊艳。这意味着强大的AI能力正在走向真正的普及化。

代码生成能力：从辅助到自主创作 #

LLM在编写代码方面的表现已经超出了大多数人的预期，这一点已经毋庸置疑。

Claude Artifacts：完整应用生成 #

Claude的Artifacts功能允许模型生成完整的Web应用程序，包括HTML、CSS和JavaScript，几乎不需要人工干预。

ChatGPT代码解释器：安全执行环境 #

这一功能允许用户在安全的沙盒环境中执行由ChatGPT生成的代码，特别适合数据分析和可视化任务，大大简化了从数据到洞察的过程。

ChatGPT Canvas：灵活的创作界面 #

提供更灵活的界面来生成和编辑代码，支持多种编程语言和框架，使非专业开发者也能创建复杂应用。

“Vibe编程”：新的编程范式 #

“Vibe编程"是Andrej Karpathy创造的一个新术语，指的是使用LLM编写代码的方式：你只需描述你想要什么，然后输入任何错误或bug，看看AI是否能修复它们。这是一种探索AI编程能力的有趣方式，虽然有一些明显的局限性，但已经改变了许多开发者的工作方式。

模型生成代码已成为商品 #

模型能够输出完整的HTML+JavaScript自定义界面的能力如此强大且广泛可用，以至于它已经成为一种商品。WebDev Arena的存在就是一个证明——这是一个聊天机器人竞技场的衍生产品，你可以对两个模型运行相同的提示，比较哪个创建的应用程序更好。

推理能力的提升：AI开始"思考” #

2025年迄今为止的另一个重大趋势是"推理时计算"，也称为推理能力。

OpenAI的o1和o3、DeepSeek R1、Qwen QwQ、Claude 3.7 Thinking和Gemini 2.0 Thinking都是这种模式的例子。

“逐步思考"的进化 #

这是模型在回答前"思考"问题的功能。它是几年前"逐步思考"技巧的进化版本，只是现在它已经内置到模型中。这种能力在处理代码和数学问题时特别有效，显著提高了回答的准确性。

有趣的黑客技巧 #

一个非常有趣的新发现：事实证明你可以"黑入"这些模型，拦截它们尝试用</think>结束思考的行为，并将其替换为"等等，但是”——这会让它们"思考"得更深入！这种技巧展示了模型内部工作机制的一些有趣特性。

OCR与PDF处理：解锁被困信息 #

对新闻工作者来说，这可能是最实用的进展之一。世界上很多重要信息都被困在难以处理的PDF文件中。

视觉LLM正在接近能够彻底解决这个问题的水平。

PDF直接处理能力 #

Gemini和Claude等模型现在可以直接接受PDF文件作为输入。对于其他模型（包括OpenAI的模型），你需要先将PDF分解为图像——每页一个PNG文件通常效果很好。

最佳OCR模型对比 #

迄今为止，我看到的针对PDF的最佳结果来自Gemini。Mistral OCR刚刚发布——虽然我还没有完全评估它的性能，但初步测试表明它在某些场景下可能与最新的Gemini不相上下。

模型处理敏感信息的进步 #

模型在处理敏感信息方面也在不断改进。例如，早期的Claude 3 Opus在处理竞选财务报告时会拒绝将其转换为JSON格式，认为这可能会导致个人信息被滥用。而最新的Claude 3.7 Sonnet则能够正确处理这类请求，提供结构化的JSON输出。这是模型随时间改进的一个很好例子，显示出AI系统在平衡功能性和安全性方面的进步。

结论：AI革命才刚刚开始 #

LLM领域正在以惊人的速度发展。从2022年底ChatGPT的发布到现在，我们已经看到了多模态能力的崛起、本地模型的显著改进、代码生成能力的提升以及推理能力的增强。价格也在大幅下降，使这些强大的工具更加普及。

对于数据新闻工作者来说，这些进步提供了前所未有的机会，特别是在处理PDF文档、生成代码和分析数据方面。然而，重要的是开发自己的评估方法，确保这些工具在特定用例中的有效性。

如果你在新闻编辑室工作并且正在研究这些技术，我很乐意通过Zoom与你的团队交流。请通过电子邮件联系我。

关于作者 #

Simon Willison #

Simon Willison是一位著名程序员和技术专家，专注于AI和数据领域。本文基于他在2025年3月7日NICAR会议上的演讲，通俗地介绍了AI在过去一年的巨大飞跃，是了解LLM最新发展的绝佳综述。