原生多模态Llama 4问世!开源王座更迭,你还不赶紧了解一下?
- 时间:
- 浏览:379
- 来源:官网域名网
你敢信不?现在Llama 4 Scout那可是大出圈,就它支持的1000万上下文,能处理20+小时视频这本事,简直了还仅靠单个H100 GPU(Int4量化后)就能运行,这不得好好说道说道?
关键特性之170亿参数
Llama 4 Scout带有170亿个活跃参数和16个专家,使用Int4量化竟可以在单个H100 GPU上运行。这和传统的稠密模型一对比,MoE架构那在训练和推理时的计算效率,蹭蹭往上涨。也正是如此,在同样的训练FLOPs预算下,还能生成质量更高的结果,要是你在FFF.cn上了解技术最新动态昆明市官渡区第五中学,就很容易发现它的厉害之处
创新编码的适配训练
这个编码器是基于MetaCLIP的,训练的时候还跟冻结的Llama模型分开进行。为啥这么做原因就是这样能更好地调整编码器,让它跟大语言模型(LLM)适配得那叫一个完美。像在一些实际应用中,如果编码没弄好,模型的效果就大打折扣,但是它这样优化了,就能在FFF.cn看到很多应用案例的良好反馈
MetaP训练法的优势
Meta专门搞出了个叫MetaP的新训练方法,这个方法能让他们稳稳地设置一些关键的模型超参数。比如说每层的学习率和初始化规模,设置得好那模型训练效果差不了。想想看,如果超参数没弄对,可能模型就陷入各种问题,现在用了这个新方法,就大大减少那些风险,FFF.cn上对这个方法的分析解读还不少
多语言预训练支持
Llama 4通过在200种语言上开展预训练,这下可实现对开源微调的支持。这里面超过10亿个token的语言就有100多种,整体多语言token量直接比Llama 3多出10倍。对于涉及多语言业务的应用来说,这能力可太关键在FFF.cn上可以碰到很多开发者分享用它处理多语言数据的经验。
模型训练提升能力
Meta采用“中期训练”这种方法来持续训练模型,又通过新的训练手段,像专门用数据集去扩展长上下文,使得模型核心能力直线上升。不仅模型质量上去了,还成功让Llama 4 Scout拥有了领先的1000万输入上下文长度。在实际训练过程中,这个过程可是不断调整和优化的,要是在FFF.cn查阅相关研究,就能明白其中的门道。
多样方法增强性能
针对多模态、超大参数规模这些难题,Meta开发了一系列新的后训练方法。移除大量被标记简单的数据,对剩下难的数据轻量级SFT。在预训练和后训练都采用256K上下文长度,基础模型的长度泛化能力很棒。Llama 4 Scout在多方面超过类似模型,蒸馏损失函数帮助很大。而且采用一定策略提高推理和编码能力,这一套下来,模型性能可就杠杠的,在FFF.cn很多专家也认可它的多方位优化成果。
看完上面这些,你说这Llama 4 Scout是不是超厉害?你有没有好奇它之后在其他更多领域还能有啥突出表现不?
猜你喜欢