您现在的位置是:首页 > 区块资讯区块资讯
AI模型“规模大”不再等于“效果好”
zhoucl 2025-01-10 13:41:06 区块资讯 已有人查阅
导读责编 | 夏萌
作者 | The Economist 译者 | 明明如月
责编 | 夏萌
出品 | CSDN(ID:CSDNnews)
图片
为了实现更强大的功能,AI 需要利用更少的资源。
“大型语言模型”(LLMs),如 OpenAI 的 GPT,是现代 AI 系统的核心。GPT-3 拥有 1750 亿个参数,训练耗资超过 460 万美元。然而,随着模型规模不断增长,成本和资源消耗也急剧增加。GPT-4 拥有约 1 万亿个参数,开发成本超过 1 亿美元。这种“越大越好”的趋势正面临挑战。
如果训练成本每十个月翻一倍,到 2026 年可能超过十亿美元。高质量文本数据也可能在相同时间内耗尽。此外,运行大型模型的成本也非常高。摩根士丹利估算,若 Google 搜索使用 GPT 类型程序处理,每年将多支出 60 亿美元。
因此,许多专家认为,继续依赖大规模模型已不可行。开发者需要在有限资源下提升性能。
量化紧缩
研究人员开始关注提高模型效率的方法。一种方法是减少参数数量并增加训练数据。Google 的 DeepMind 在 1.4 万亿字的语料库上训练了一个拥有 700 亿参数的 LLM Chinchilla,尽管参数比 GPT-3 少,但表现更好。
另一种方法是降低浮点数精度。奥地利科学技术研究所的研究人员证明,四舍五入可以大幅减少内存消耗,使模型在单个高端 GPU 上运行。
微调通用 LLM 以专注于特定任务也是一种方法。华盛顿大学的研究人员通过低秩自适应技术,在一天内用单个 GPU 创建了新模型 Guanaco,性能损失极小。这种方法使得计算能力较弱的设备也能胜任任务,提供更好的隐私保护。
Google 团队还开发了一种从大模型中提取知识并转化为小型专业化模型的方法。他们成功训练了一个 77 亿参数的学生模型,在特定任务上超过了 5400 亿参数的教师模型。
优化代码
更多地关注代码实现细节可以带来巨大收益。斯坦福大学的研究人员改进了注意力算法,使 GPT-2 的训练速度提高了三倍。
更好的工具也可以简化代码。Meta 发布的新版 PyTorch 框架使模型训练速度提高一倍。初创公司 Modular 推出的 Mojo 编程语言,基于 Python,代码运行速度可快数千倍。
改进运行代码的芯片也是关键。GPU 虽然适用于 AI 模型,但对于推理任务并不完美。Google、Meta 和 Amazon 正在设计更专业的硬件。
这些简单改变展示了巨大的性能提升潜力。未来,神经架构可能会更加先进,带来更多改进空间。
本文标签:
很赞哦! ()
相关文章
- IOTA 通过与 LayerZero 的全新集成,可连接 150 多条区块链和 550 多种资产。
- 美联储降息预期推动比特币和以太坊年末上涨:风险承受能力强的投资者迎来战略性入场点?
- 币安推出“币安Junior”,何易出任联席CEO,标志着交易所开启新篇章。
- Hayden Adams猛烈抨击Citadel向美国证券交易委员会(SEC)提出的将DeFi归类为传统金融的申请。
- 嘉信理财确认将于2026年推出比特币和以太坊现货交易,资产规模达12万亿美元。
- Blob费用:决定以太坊未来发展唯一重要的事情?
- 比特币的强劲势头和不断演变的加密货币格局:动荡市场中的战略切入点和机构资产配置
- 数字货币交易所排行前9 交易所排名
栏目推荐
IOTA 通过与 LayerZero 的全新集成,可连接 150 多条区块链和 550 多种资产。
所有新闻均经过区块链领域顶尖专家和资深业内人士的严格事实核查和审核。
美联储降息预期推动比特币和以太坊年末上涨:风险承受能力强的投资者迎来战略性入场点?
美联储预计将在2025年底降息,这重新燃起了加密货币市场的乐观情绪。
币安推出“币安Junior”,何易出任联席CEO,标志着交易所开启新篇章。
Hayden Adams猛烈抨击Citadel向美国证券交易委员会(SEC)提出的将DeFi归类为传统金融的申请。
Citadel 敦促美国证券交易委员会像监管传统金融一样监管 去中心化金融,这促使 H