你的位置：ky体育app最新版下载 > 新闻中心 > kaiyun体育作家也原意快速运行中使用的一些情势不太可能彭胀-ky体育app最新版下载

kaiyun体育作家也原意快速运行中使用的一些情势不太可能彭胀-ky体育app最新版下载

时间：2025-12-26 09:30 点击：164 次

机器之心报谈kaiyun体育

剪辑：泽南、小舟

租用 H100 的钱只需 233 好意思元。

还谨记 Andrej Karpathy 纯 C 说话复现 GPT-2 大模子的姿色吗？

本年 4 月，AI 范围大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上杀青 GPT-2 考验的姿色「llm.c」已经激励机器学习社区的厉害盘考。

llm.c 旨在大幅简化大模子的考验，ta 使用纯 C 说话 / CUDA，不需要 245MB 的 PyTorch 或 107MB 的 cPython。不外即使是这么的优化，复现 GPT-2 级别的模子也需要在 8 块 H100 上破耗 45 分钟进行考验。

没思到几个月当年，业界水平确切有了指数级的耕作，让 Karpathy 本东谈主王人感到咋舌：

在 GitHub 上出现了一个新姿色「Modded-NanoGPT」，对期间进行了大幅度的迭代，面前杀青换取的适度只需要 5 分钟。该辩论的作家 Keller Jordan 曾在 Hive AI 责任，一直以来的辩论方针王人防护于模子考验的优化。他在本周三默示，利器具有大序列长度的 FlexAttention，他已把速率的记载从 7.2 分钟耕作到了 5 分钟。

面前有了 FlexAttention 和较大的 seqlen，文档的拆分更少了，因此说话建模在考验和考证时王人变得更容易。该记载在 HellaSwag 上的准确率略有缩小，约为 29%，而之前的记载和 Andrej Karpathy 的原始考验准确率约为 30%。

让咱们望望他是怎么作念的：

姿色鸠合：https://github.com/KellerJordan/modded-nanogpt/tree/master

Modded-NanoGPT

该姿色名为「Modded-NanoGPT」，它是 llm.c 存储库的 PyTorch GPT-2 考验器的篡改变体：

10B tokens-->1B tokens8xH100 上花 45 分钟考验 -->8xH100 上花 5 分钟考验

Modded-NanoGPT 弃取如下期间：

先进的架构：旋转镶嵌、QK-Norm 和 ReLU^2；新优化器：Muon；镶嵌中的 Untied Head；投影和分类层开动化为零（muP-like）；架构 shortcut：值残差和镶嵌 shortcut（部分罢免论文《Value Residual Learning For Alleviating Attention Concentration In Transformers》）；动量（Momentum）warmup；Tanh soft logit capping（罢免 Gemma 2）；FlexAttention。

要进行考验，请运行以下三个敕令：

pip install -r requirements.txtpip install--pre torch --index-url https://download.pytorch.org/whl/nightly/cu124 —upgrade # install torch 2.6.0python data/cached_fineweb10B.py 10# downloads only the first 1.0B training tokens to save time./run.sh

在蚁合鸠合精致的 8xH100 上，考验应在 20 分钟内完成。

适度将是一个具有 124M 活跃参数的 transformer，在 10 亿 Fineweb tokens 上考验了 1875 steps，杀青了约 3.278 的考证亏损。比较之下，默许的 llm.c PyTorch 考验器在 100 亿 tokens 上考验了 19560 steps 后，考证亏损 >3.28。

值得一提的是，要在更少的 GPU 上运行 Modded-NanoGPT，只需修改 run.sh 以赢得不同的 --nproc_per_node。淌若内存不及，只需在 train_gpt2.py 中将 device_batch_size 削弱到 16 或 32。

这里有一个适用于全新 8xH100 实例的启动剧本：

sudo apt-get updatesudo apt-getinstall vim tmux python3-pip python-is-python3 -ygit clone https://github.com/KellerJordan/modded-nanogpt.gitcd modded-nanogpttmuxpip install numpy==1.23.5 huggingface-hub tqdmpip install--upgrade torch &python data/cached_fineweb10B.py 18

淌若 CUDA 或 NCCL 版块与你现时的系统成就不兼容，Docker 不错成为一种灵验的替代决议。这种情势门径化了 CUDA、NCCL、CUDNN 和 Python 的版块，减少了依赖性问题并简化了成就。精明：系统上必须已装配 NVIDIA 驱动法子。

sudo docker build -t modded-nanogpt .sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt python data/cached_fineweb10B.py 18sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt sh run.sh

有一个问题在于，NanoGPT 考验很快是很好，但它可能无法彭胀，仅仅过拟合了 val 亏损？Keller Jordan 默示，这很难反驳，因为「按范围」是一个无尽类别（淌若这些情势对 >100T 的模子就不生效了怎么办？），因此无法彻底解说。此外，作家也原意快速运行中使用的一些情势不太可能彭胀。但淌若读者温煦 1.5B 模子，他们可能会被这个适度劝服：

径直将快速运行（10/18/24 版块）彭胀到 1.5B 参数不错得到一个具有 GPT-2（1.5B）级 HellaSwag 性能的模子，它要比 Karpathy 的基线低廉 2.5 倍（233 好意思元对比 576 好意思元）：

Muon optimizer

除了在前东谈主的肩膀上探索，新姿色也使用了 Keller Jordan 自研的优化姿色。比如这个 Muon 优化器，据他所说是面前已知最快的优化器，适用于包括 CIFAR-10 和 GPT-2 范围说话建模在内的多样考验场景。

Muon 的界说如下：

其中 NewtonSchulz5 是 Newton-Schulz 之后的迭代，它类似地用 U @ V.T 替换 G，其中 U, S, V = G.svd ()。

@torch.compiledefzeroth_power_via_newtonschulz5 (G, steps=5, eps=1e-7):assertlen (G.shape) == 2a,b, c = (3.4445, -4.7750, 2.0315)X = G.bfloat16 () / (G.norm () + eps)ifG.size (0) > G.size (1):X = X.T for_ in range (steps):A = X @ X.TB = b * A + c * A @ AX = a * X + B @ XifG.size (0) > G.size (1):X = X.T returnX.to (G.dtype)

关于这种考验场景，Muon 具有以下成心特质：

内存使用量比 Adam 低采样效果提高约 1.5 倍挂钟支出小于 2%

归来

作家默示，生成此优化器的好多弃取王人是通过追求 CIFAR-10 快速运行而通过实验赢得的。其中值得一提的教诲包括：

在更新中使用 Nesterov 动量，在动量之后运用正交化。使用特定的五次 Newton-Schulz 迭代当作正交化情势。使用五次多项式的非管理所有这个词以最大化零处的斜率，从而最小化必要的 Newton-Schulz 迭代次数。事实解说，方差履行上并不那么蹙迫，因此咱们最终得到一个五次多项式，它在重迭运用后（快速）管理到 0.68、1.13 的范围，而不是到 1。在 bfloat16 中运行 Newton-Schulz 迭代（而 Shampoo 杀青频繁依赖于在 fp32 或 fp64 中运行的逆 pth 根）。

使用 Newton-Schulz 迭代进行正交化的情势不错回首到 Bernstein & Newhouse (2024)，他们建议将其当作联想 Shampoo 预治理器的情势，并从表面上探索了莫得预治理器蕴蓄的 Shampoo。Keller Jordan 罕见感谢了论文作家之一 Jeremy Bernstein 的协助。

淌若咱们在这里使用 SVD 而不是 Newton-Schulz 迭代，那么这个优化器就会因为太慢而无法使用。Bernstein & Newhouse 还指出，莫得预治理器蕴蓄的 Shampoo 绝顶于谱范数中的最陡下落，因此 Shampoo 不错被合计是一种平滑谱最陡下落的情势。所提议的优化器不错被合计是平滑谱最陡下落的第二种情势，与 Shampoo 比较，它具有不同的内存和运行时量度。

上一篇：kaiyun体育统筹数据交往阵势优化布局-ky体育app最新版下载
下一篇：kaiyun.com来协助退货、退款等纠纷-ky体育app最新版下载

新闻中心

XINWENZHONGXIN

kaiyun体育北极熊与企鹅的“冰雪奇遇记”还将演出-ky体育app最新版下载

上周是北极熊“团子”“圆子”两周岁的生辰，老虎滩极地馆成心为小哥俩举办了一场别开生面、相亲相爱的生辰派对。生辰本日，有好多可爱北极熊的小一又友们来到极地馆一同给它们庆生，饲养员将小一又友们用心准备的自助生果大餐与极地馆为小哥俩特制的生辰蛋糕一王人献上，全场唱起生辰祝颂歌。除了生辰惊喜派对，举止中还有专科的极地动物科普诚挚为大家辅助对于寰宇上最大的陆地食肉动物北极熊的“冷”常识。本年冬天，北极熊与企鹅的“冰雪奇遇记”还将演出，请青睐极地动物、念念亲眼见证此次跳跃南北半球“会晤”的旅客一又友们

kaiyun官方网站倍内菲凭借其稀奇的家具品性和优秀的研发翻新才能-ky体育app最新版下载

2024年12月18日，在苏州海外会议货仓举行的2024宠物新国货大会上，倍内菲凭借其稀奇的家具品性和优秀的研发翻新才能，一举斩获 “年度翻新家具-猫主粮-至护烘焙系列”及“年度专科买家之选-金标系列”两项大奖，成为大会的焦点之一。倍内菲这次在2024宠物新国货大会上的奖牌双丰充，无疑是其在宠物主粮领域深耕细作的有劲见证。获奖的至护烘焙系列宠粮，关怀犬猫除基础养分外的个体养护需求，平衡膳食细节养护；金标系列宠粮畅销宇宙，兑现犬猫富余养分供给，多元膳食配方，助益平淡养分处理。伸开剩余39%

kaiyun云铲屎官的心态也发生变化-ky体育app最新版下载

现时社会，宠物也曾成为了提供情感价值蹙迫的一员，它们在百行万企开启甜甜的交易。火遍大城冷巷的猫咖、狗咖就不说了，用户不错在这里尽情开撸，思如何摸就如何摸。甚而，宠物新式交易阵势也令东说念主目不暇接，举例有网友就响应：我方作念猫猫专车，果然一上车就有猫咪，全程在行程中伴随，这样的猫咪甚而还有责任证。而在赛博云领养领域，线上养宠物也成为了年青东说念主新潮又调养的文娱当作，如今，云铲屎官的心态也发生变化，从励志“躺平”，到禁止宠物成为24小时AI牛马，玩得不亦乐乎。伸开剩余73% 要说赛博宠

kaiyun官方网站勤苦于为品牌提供一站式电商处分有绸缪-ky体育app最新版下载

跟着天猫平台买卖生态的徐徐完善，越来越多品牌商家选拔通过专科的天猫代运营公司来提高运营后果和市集竞争力。揣度词，在广大运营公司中，如何找到真的实力强、值得信托的合作伙伴kaiyun官方网站，是商家们多量濒临的鬈曲。咱们经过工作品性、团队实力、功绩发扬、客户口碑等多个维度的精采化筛选，详细评估出天猫代运营公司十大名次榜单。这些公司凭借专科的运营智商和丰富的实战训戒，匡助品牌冲破流量瓶颈，结束功绩快速增长与品牌价值提高。第别称：融趣传媒融趣传媒专注于为品牌提供全见识的电商代运营工作，涵盖店铺

kaiyun官方网站芯片的供电电压范围为2.0V到5.5V-ky体育app最新版下载

SC8P052中微OTP芯片是一款具有平淡应用长进的单片微拆开器kaiyun官方网站。SC8P052中微OTP芯片的手艺特质与应用长进小序 SC8P052中微OTP芯片是一款具有平淡应用长进的单片微拆开器。跟着科技的不断跨越，微拆开器在当代电子产物中通晓着越来越伏击的作用。相配是在物联网（IoT）、智能家居、消费电子和工业拆开等范畴，需求日益增长。中微科技在此配景下推出的SC8P052芯片，凭借其高性能、低功耗和丰富的外设接口，成为了繁密计算师和工程师的新宠。 1. SC8P052芯片的基本