你的位置:ky体育app最新版下载 > 新闻中心 > kaiyun体育作家也原意快速运行中使用的一些情势不太可能彭胀-ky体育app最新版下载

kaiyun体育作家也原意快速运行中使用的一些情势不太可能彭胀-ky体育app最新版下载

时间:2025-12-26 09:30 点击:164 次

kaiyun体育作家也原意快速运行中使用的一些情势不太可能彭胀-ky体育app最新版下载

机器之心报谈kaiyun体育

剪辑:泽南、小舟

租用 H100 的钱只需 233 好意思元。

还谨记 Andrej Karpathy 纯 C 说话复现 GPT-2 大模子的姿色吗?

本年 4 月,AI 范围大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上杀青 GPT-2 考验的姿色「llm.c」已经激励机器学习社区的厉害盘考。

llm.c 旨在大幅简化大模子的考验,ta 使用纯 C 说话 / CUDA,不需要 245MB 的 PyTorch 或 107MB 的 cPython。不外即使是这么的优化,复现 GPT-2 级别的模子也需要在 8 块 H100 上破耗 45 分钟进行考验。

没思到几个月当年,业界水平确切有了指数级的耕作,让 Karpathy 本东谈主王人感到咋舌:

在 GitHub 上出现了一个新姿色「Modded-NanoGPT」,对期间进行了大幅度的迭代,面前杀青换取的适度只需要 5 分钟。该辩论的作家 Keller Jordan 曾在 Hive AI 责任,一直以来的辩论方针王人防护于模子考验的优化。他在本周三默示,利器具有大序列长度的 FlexAttention,他已把速率的记载从 7.2 分钟耕作到了 5 分钟。

面前有了 FlexAttention 和较大的 seqlen,文档的拆分更少了,因此说话建模在考验和考证时王人变得更容易。该记载在 HellaSwag 上的准确率略有缩小,约为 29%,而之前的记载和 Andrej Karpathy 的原始考验准确率约为 30%。

让咱们望望他是怎么作念的:

姿色鸠合:https://github.com/KellerJordan/modded-nanogpt/tree/master

Modded-NanoGPT

该姿色名为「Modded-NanoGPT」,它是 llm.c 存储库的 PyTorch GPT-2 考验器的篡改变体:

10B tokens-->1B tokens8xH100 上花 45 分钟考验 -->8xH100 上花 5 分钟考验

Modded-NanoGPT 弃取如下期间:

先进的架构:旋转镶嵌、QK-Norm 和 ReLU^2;新优化器:Muon;镶嵌中的 Untied Head;投影和分类层开动化为零(muP-like);架构 shortcut:值残差和镶嵌 shortcut(部分罢免论文《Value Residual Learning For Alleviating Attention Concentration In Transformers》);动量(Momentum)warmup;Tanh soft logit capping(罢免 Gemma 2);FlexAttention。

要进行考验,请运行以下三个敕令:

pip install -r requirements.txtpip install--pre torch --index-url https://download.pytorch.org/whl/nightly/cu124 —upgrade # install torch 2.6.0python data/cached_fineweb10B.py 10# downloads only the first 1.0B training tokens to save time./run.sh

在蚁合鸠合精致的 8xH100 上,考验应在 20 分钟内完成。

适度将是一个具有 124M 活跃参数的 transformer,在 10 亿 Fineweb tokens 上考验了 1875 steps,杀青了约 3.278 的考证亏损。比较之下,默许的 llm.c PyTorch 考验器在 100 亿 tokens 上考验了 19560 steps 后,考证亏损 >3.28。

值得一提的是,要在更少的 GPU 上运行 Modded-NanoGPT,只需修改 run.sh 以赢得不同的 --nproc_per_node。淌若内存不及,只需在 train_gpt2.py 中将 device_batch_size 削弱到 16 或 32。

这里有一个适用于全新 8xH100 实例的启动剧本:

sudo apt-get updatesudo apt-getinstall vim tmux python3-pip python-is-python3 -ygit clone https://github.com/KellerJordan/modded-nanogpt.gitcd modded-nanogpttmuxpip install numpy==1.23.5 huggingface-hub tqdmpip install--upgrade torch &python data/cached_fineweb10B.py 18

淌若 CUDA 或 NCCL 版块与你现时的系统成就不兼容,Docker 不错成为一种灵验的替代决议。这种情势门径化了 CUDA、NCCL、CUDNN 和 Python 的版块,减少了依赖性问题并简化了成就。精明:系统上必须已装配 NVIDIA 驱动法子。

sudo docker build -t modded-nanogpt .sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt python data/cached_fineweb10B.py 18sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt sh run.sh

有一个问题在于,NanoGPT 考验很快是很好,但它可能无法彭胀,仅仅过拟合了 val 亏损?Keller Jordan 默示,这很难反驳,因为「按范围」是一个无尽类别(淌若这些情势对 >100T 的模子就不生效了怎么办?),因此无法彻底解说。此外,作家也原意快速运行中使用的一些情势不太可能彭胀。但淌若读者温煦 1.5B 模子,他们可能会被这个适度劝服:

径直将快速运行(10/18/24 版块)彭胀到 1.5B 参数不错得到一个具有 GPT-2(1.5B)级 HellaSwag 性能的模子,它要比 Karpathy 的基线低廉 2.5 倍(233 好意思元对比 576 好意思元):

Muon optimizer

除了在前东谈主的肩膀上探索,新姿色也使用了 Keller Jordan 自研的优化姿色。比如这个 Muon 优化器,据他所说是面前已知最快的优化器,适用于包括 CIFAR-10 和 GPT-2 范围说话建模在内的多样考验场景。

Muon 的界说如下:

其中 NewtonSchulz5 是 Newton-Schulz 之后的迭代,它类似地用 U @ V.T 替换 G,其中 U, S, V = G.svd ()。

@torch.compiledefzeroth_power_via_newtonschulz5 (G, steps=5, eps=1e-7):assertlen (G.shape) == 2a,b, c = (3.4445, -4.7750, 2.0315)X = G.bfloat16 () / (G.norm () + eps)ifG.size (0) > G.size (1):X = X.T for_ in range (steps):A = X @ X.TB = b * A + c * A @ AX = a * X + B @ XifG.size (0) > G.size (1):X = X.T returnX.to (G.dtype)

关于这种考验场景,Muon 具有以下成心特质:

内存使用量比 Adam 低采样效果提高约 1.5 倍挂钟支出小于 2%

归来

作家默示,生成此优化器的好多弃取王人是通过追求 CIFAR-10 快速运行而通过实验赢得的。其中值得一提的教诲包括:

在更新中使用 Nesterov 动量,在动量之后运用正交化。使用特定的五次 Newton-Schulz 迭代当作正交化情势。使用五次多项式的非管理所有这个词以最大化零处的斜率,从而最小化必要的 Newton-Schulz 迭代次数。事实解说,方差履行上并不那么蹙迫,因此咱们最终得到一个五次多项式,它在重迭运用后(快速)管理到 0.68、1.13 的范围,而不是到 1。在 bfloat16 中运行 Newton-Schulz 迭代(而 Shampoo 杀青频繁依赖于在 fp32 或 fp64 中运行的逆 pth 根)。

使用 Newton-Schulz 迭代进行正交化的情势不错回首到 Bernstein & Newhouse (2024),他们建议将其当作联想 Shampoo 预治理器的情势,并从表面上探索了莫得预治理器蕴蓄的 Shampoo。Keller Jordan 罕见感谢了论文作家之一 Jeremy Bernstein 的协助。

淌若咱们在这里使用 SVD 而不是 Newton-Schulz 迭代,那么这个优化器就会因为太慢而无法使用。Bernstein & Newhouse 还指出,莫得预治理器蕴蓄的 Shampoo 绝顶于谱范数中的最陡下落,因此 Shampoo 不错被合计是一种平滑谱最陡下落的情势。所提议的优化器不错被合计是平滑谱最陡下落的第二种情势,与 Shampoo 比较,它具有不同的内存和运行时量度。

新闻中心

XINWENZHONGXIN

kaiyun体育作家也原意快速运行中使用的一些情势不太可能彭胀-ky体育app最新版下载

机器之心报谈kaiyun体育 剪辑:泽南、小舟 租用 H100 的钱只需 233 好意思元。 还谨记 Andrej Karpathy 纯 C 说话复现 GPT-2 大模子的姿色吗? 本年 4 月,AI 范围大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上杀青 GPT-2 考验的姿色「llm.c」已经激励机器学习社区的厉害盘考。 llm.c 旨在大幅简化大模子的考验,ta 使用纯 C 说话 / CUDA,不需要 245MB 的 PyTorch 或 107MB 的 c

kaiyun.com来协助退货、退款等纠纷-ky体育app最新版下载

点击上方\"米筐投资\"kaiyun.com 拼多多,我一直以为它的贸易步地很节略,节略到莫得任何门槛,相配容易被同业复制、被越过。 关联词,并莫得被同业灭绝,反而越来越壮大。 11月21日晚间,拼多多集团发布2024年三季度的财报。 数据如下: 三季度营收993.54亿元,同比增长44.33%;净利润249.81亿元,同比增长60.78%。 要知说念,贵州茅台本年三季度的利润也不外191亿元,大A的现款奶牛就这么被拼多多粗略越过。 关节是,拼多多的决骤涓滴莫得停驻来的真谛。 拼多多凭借更高的

kaiyun.com但至少在签证过程上会有所简化-ky体育app最新版下载

据日本媒体征引相干音书东谈主士流露,现在中国正在就复原日本东谈主短期访华免签政策进行终末的退换。瞻望最快11月就能官宣。这但是疫情以来的一个紧迫节点,而推动这一变化的kaiyun.com,是中国和日本之间日渐回暖的关系。 话说,刚刚抵制的秘鲁利马会晤上,两国首领证据要鞭策“策略互惠关系”,免签政策的重启似乎也与此有很大关系。据国内多家大型旅行社收到的信息炫夸,这项免签政策可能会在11月内秘书,这可算是为中日关系的友好进度加了把火。 对于中国东谈主对异邦东谈主的免签政策在疫情前其实只对日本、新加

kaiyun.com实用的事业功能触达线上线下公众-ky体育app最新版下载

2021年9月,北京市文物局与腾讯齐集发起“数字中轴——北京中轴线申遗风景”,以数字科技鼓吹中轴线文化遗产保护、传承与期骗。腾讯期骗数字孪生、云渲染、云游戏等数字本事,打造两大平台助力北京中轴线申遗:中轴线申遗官网期骗腾讯大数据及数字孪生本事kaiyun.com,全景呈现中轴线700多年历史沿革;“云上中轴”小法子打造公众参与的体验平台,实用的事业功能触达线上线下公众。 【免责声明】本文仅代表作家本东说念主不雅点kaiyun.com,与和讯网无关。和讯网站对文中报告、不雅点判断保抓中立,离别所

kaiyun体育统筹数据交往阵势优化布局-ky体育app最新版下载

证券时报网讯kaiyun体育,国度数据局就《国度数据基础才略征战迷惑(征求办法稿)》公开征求办法,其中建议,征战数据方便委用体系。加强数据交往阵势体系运筹帷幄,统筹数据交往阵势优化布局。赞助数据交往阵势改造发展,饱读吹各类数据进场交往。构建集约、高效的数据委用基础才略,为场内汇集交往和场外散布交往提供低资本、高成果、真确赖的数据委用环境。促进各类交往所、交往平台互联互通。鼓舞数据价值孝敬度评估、数据集推选匹配、数据居品互异性分析等时代改造,杀青供需精确匹配和方便委用。饱读吹各地提高数据加工、测

服务热线
官方网站:www.jiagew778.com
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:12340463817
邮箱:7eb10325@outlook.com
地址:新闻中心科技园337号
关注公众号

Powered by ky体育app最新版下载 RSS地图 HTML地图


ky体育app最新版下载-kaiyun体育作家也原意快速运行中使用的一些情势不太可能彭胀-ky体育app最新版下载

回到顶部