<p>6月17日,Minimax公司正式对外开源了其推理模型M1,该模型采用了创新的Lightning Attention混合注意力架构,M1具备业内领先的性能,能够处理高达100万token的上下文输入,并且输出能力也达到了8万token,在成本效益方面,当进行8万token的深度推理时,M1仅需DeepSeek R1约30%的算力。</p>
<p>开发团队透露,M1在整个强化学习阶段仅使用了512块H800处理器,整个过程耗时约三周,租赁成本总计为53.74万美元。</p>
<!-- 联系方式 -->
<div class="newsflash-company" id="newsflash-company"></div>
还没有评论,来说两句吧...