当前位置: 纯净基地 >  微软资讯 >  TensorRT LLM加速Gemma!NVIDIA与谷歌牵手,RTX助推AI聊天:NVIDIA推出最新AI聊天技术,谷歌合作加速发展

TensorRT LLM加速Gemma!NVIDIA与谷歌牵手,RTX助推AI聊天:NVIDIA推出最新AI聊天技术,谷歌合作加速发展

更新时间:2024-02-23 11:31:32作者:czlaby
NVIDIA日前在其官方博客中表示,与谷歌合作在所有NVIDIA AI平台上为Gemma推出了优化。Gemma是谷歌最先进的新轻量级2B(20亿)和7B(70亿)参数开放语言模型,可以在任何地方运行,降低了成本,加快了特定领域用例的创新工作。TensorRT LLM加速Gemma!NVIDIA与谷歌牵手,RTX助推AI聊天:NVIDIA推出最新AI聊天技术,谷歌合作加速发展

这两家公司的团队密切合作,主要是使用NVIDIA TensorRT LLM加速谷歌Gemma开源模型的性能。开源模型Gemma采用与Gemini模型相同的底层技术构建,而NVIDIA TensorRT LLM是一个开源库,用于在数据中心的NVIDIA GPU、云服务器以及带有NVIDIA RTX GPU的PC上运行时,可以极大优化大型语言模型推理。这也这使得开发人员能够完全利用全球超过1亿台数量的RTX GPU AI PC完成自己的工作。

TensorRT LLM加速Gemma!NVIDIA与谷歌牵手,RTX助推AI聊天:NVIDIA推出最新AI聊天技术,谷歌合作加速发展

同时,开发人员还可以在云计算服务器中的NVIDIA GPU上运行Gemma,包括在谷歌云基于H100 Tensor Core GPU,以及很快谷歌将于今年部署的NVIDIA H200 TensorCore GPU——该GPU具有141GB的HBM3e内存,内存带宽可以达到4.8TB/s。

TensorRT LLM加速Gemma!NVIDIA与谷歌牵手,RTX助推AI聊天:NVIDIA推出最新AI聊天技术,谷歌合作加速发展

另外,企业开发人员还可以利用NVIDIA丰富的工具生态系统,包括具有NeMo框架的NVIDIA AI Enterprise和TensorRT LLM,对Gemma进行微调,并在其生产应用程序中部署优化模型。

TensorRT LLM加速Gemma!NVIDIA与谷歌牵手,RTX助推AI聊天:NVIDIA推出最新AI聊天技术,谷歌合作加速发展

NVIDIA表示,先期上线支持Gemma的是Chat with RTX,这是一款NVIDIA技术演示应用,使用检索增强生成和TensorRT LLM扩展,在基于RTX GPU的本地Windows PC上为用户提供生成式AI应用的功能。通过RTX聊天,用户可以轻松地将PC上的本地文件连接到大型语言模型,从而使用自己的数据对聊天机器人进行个性化设置。

由于该模型在本地运行,因此可以快速提供结果,并且用户数据保留在设备上。与基于云的LLM服务不同,使用Chat with RTX聊天可以让用户在本地PC上处理敏感数据,而无需与第三方共享或连接互联网。

相关教程

copyright ©  2012-2024 纯净基地 m.czlaby.com 版权声明