Llama 3.2 登场：从 1B 纯文本到 90B 多模态，端侧最强 AI 模型

原标题：Llama 3.2 登场：从 1B 纯文本到 90B 多模态，端侧最强 AI 模型

导读：

最近花杨幂正在拍摄新剧生万物相关路透也引发了热议该剧是一部农村题材大戏也是杨幂的转型之作备受关注由于杨幂今年上半年三部作品都遭遇不同程度的差评杨幂能否翻身成功似乎就看这部戏之家...

85花杨幂正在拍摄新剧《生万物》，相关路透也引发了热议。该剧是一部农村题材大戏，也是杨幂的转型之作，备受关注。由于杨幂今年上半年三部作品都遭遇不同程度的差评，杨幂能否翻身成功，似乎就看这部戏。

IT之家 9 月 26 日消息，Meta 公司昨日（9 月 25 日）发布博文，正式推出了 Llama 3.2 AI 模型，其特点是开放和可定制，开发者可以根据其需求定制实现边缘人工智能和视觉革命。

Llama 3.2 提供了多模态视觉和轻量级模型，代表了 Meta 在大型语言模型（LLMs）方面的进展，在各种使用案例中提供了更强大的功能和更广泛的适用性。

其中包括适合边缘和移动设备的中小型视觉 LLMs （11B 和 90B），以及轻量级纯文本模型（1B 和 3B），此外提供预训练和指令微调（instruction-tuned）版本。

IT之家附上 4 个版本 AI 模型简介如下：

Llama 3.2 90B Vision（文本 + 图像输入）：Meta 最先进的模型，是企业级应用的理想选择。该模型擅长常识、长文本生成、多语言翻译、编码、数学和高级推理。它还引入了图像推理功能，可以完成图像理解和视觉推理任务。该模型适合以下用例：图像标题、图像文本检索、视觉基础、视觉问题解答和视觉推理，以及文档视觉问题解答。

Llama 3.2 11B Vision（文本 + 图像输入）： 适合内容创建、对话式人工智能、语言理解和需要视觉推理的企业应用。该模型在文本摘要、情感分析、代码生成和执行指令方面表现出色，并增图像推理能力。该模型的用例与 90B 版本类似：图像标题、图像文本检索、视觉基础、视觉问题解答和视觉推理，以及文档视觉问题解答。

Llama 3.2 3B（文本输入）：专为需要低延迟推理和有限计算资源的应用而设计。它擅长文本摘要、分类和语言翻译任务。该模型适合以下用例：移动人工智能写作和客户服务应用。

Llama 3.2 1B（文本输入）：Llama 3.2 模型系列中最轻量级的模型，适合边缘设备和移动应用程序的检索和摘要。该模型适合以下用例：个人信息管理和多语言知识检索。

其中 Llama 3.2 1B 和 3B 模型支持 128K 标记的上下文长度，在边缘本地运行的设备用例（如摘要、指令跟踪和重写任务）中处于领先地位。这些模型在天就支持高通和联发科硬件，并针对 Arm 处理器进行了优化。

Llama 3.2 11B 和 90B 视觉模型可直接替代相应的文本模型，同时在图像理解任务方面优于 Claude 3 Haiku 等闭源模型。

与其他开源多模态模型不同的是，预训练模型和对齐模型都可以使用 torchtune 针对自定义应用进行微调，并使用 torchch 进行本地部署。开发者还可以使用智能 Meta AI 试用这些模型。

Meta 将分享首批 Llama Stack 发行版，这将大大简化开发人员在不同环境（包括单节点、内部部署、云和设备）中使用 Llama 模型的方式，实现检索增强生成（RAG）和工具支持型应用的交钥匙部署，并集成安全性。

Meta 一直在与 AWS、D ab cks、Dell Technologies、Fireworks、Infosys 和 Together AI 等合作伙伴密切合作，为他们的下游企业客户构建 Llama Stack 发行版。设备分发通过 PyTorch ExecuTorch，单节点分发通过 Ollama。

标签：模型视觉图像