[Industry News] 开源大模型江湖之争,安迪和比尔都直呼内行!
Tofloor
poster avatar
流浪的加菲
deepin
2024-03-20 10:48
Author

最近大模型这块的新闻不断,全都是戏啊,果然社会是个大舞台呢doubt

马斯克:开源 Grok-1 大模型,314B 参数,可以商用哦

image.png

谷歌:全新的开源大模型Gemma,可以商用哦

OpenAI:那我开源个Transformer Debugger分析工具给大家玩玩吧

英伟达:全新Blackwell GPU 架构的B100 GPU 献给大家

马斯克开源 Grok-1 大模型

2024年3月18日,马斯克兑现了他的承诺——开源了Grok-1 大模型。开源后短短一天的时间里,它就斩获了超过 23K 的 Star 而且还在以肉眼可见的速度增长着。

image.png

Grok-1 是由马斯克的 xAI 公司开源的 314B 参数、MoE(混合专家模型)的大型语言模型,采用 Apache 2.0 开源协议允许商用,训练数据截止至 2023 年 10 月,由于模型规模较大,所以需要有足够 GPU 内存(600GB 以上)的机器才能运行。

image.png

项目地址:https://github.com/xai-org/grok-1

谷歌推出全新的开源大模型Gemma

北京时间2024年2月21日深夜,谷歌宣布推出全新开源模型Gemma。本次发布的Gemma有两个版本:Gemma 2B(20亿参数)和Gemma 7B(70亿参数)。每种规模都提供了预训练和指令微调版本。

当前,Gemma 2B和7B允许所有组织(无论规模大小)负责任地进行商用和分发。而为了方便开发者,谷歌不仅开源模型,还附带开发套装,包括全新的“负责任生成式AI工具包”,为基于Gemma开发安全的人工智能应用程序提供了必要指导和工具,以及跨主流框架(如JAX、PyTorch及原生Keras 3.0下的TensorFlow)的推理和监督微调(SFT)工具链。

推理引擎地址:https://github.com/google/gemma.cpp

PyTorch地址:https://github.com/google/gemma_pytorch

OpenAI 开源 Transformer Debugger分析工具

2024年3月12日,OpenAI 开源了一款用于分析小型语言模型内部行为的工具:Transformer Debugger (TDB),它将自动可解释性技术与稀疏自动编码器相结合,无需写代码就能快速探索模型。基于 Transformer 的语言模型就像个黑盒,该项目可以解密 Transfomer 的内部结构和预测行为。

具体来说,TDB 能够在需要编写代码之前进行快速探索,并能够干预前向传递,帮助人们查看它是如何影响模型特定行为的。TDB 可用于回答诸如「为什么模型在此提示(prompt)中输出 token A 而不是 token B?」之类的问题或「为什么注意力头 H 会在这个提示下关注 token T?」

项目地址:https://github.com/openai/transformer-debugger

为了给上面的大佬们提供更加专业的厮杀工具,黄教主也是很努力的(挣钱的)blush

英伟达发布 Blackwell GPU 架构,首款 GB200 芯片年底上市

英伟达正在用更强大的芯片吸引客户,以刺激新订单。

2024年3 月 19 日消息,英伟达备受期待的 GTC 大会在美国圣何塞会议中心正式开幕。为巩固其作为人工智能公司首选供应商的市场地位,英伟达在 GTC 大会上发布了运行人工智能模型的新一代 Blackwell GPU 架构及 B100 GPU,首款 Blackwell 芯片名为 GB200。

黄仁勋对此表示:「Blackwell 不是一款芯片,它是平台的名称。」

英伟达还推出名为 NIM 的创新软件,使部署人工智能变得更容易,为客户在竞争日益激烈的领域中坚持使用英伟达芯片提供了又一个理由。

与此同时,英伟达还宣布了一个用于制造类人机器人的硬件和软件平台——「艾萨克」(Isaac),改平台包括一个为机器人和 AI 提供动力的计算机系统,以及一套包括生成式 AI 和其他工具在内的软件,以制造类人机器人。

Reply Favorite View the author
All Replies

No replies yet