要点:1、NExT-GPT支持任意模态的输入和输出,实现了从任一模态到任一模态的转换。2、NExT-GPT通过组合开源的编码器、语言模型和解码器实现了全能的多模态能力。3、NExT-GPT实现了端到端的训练和指令微调,具有较好的多模态表示对齐能力。9月18日消息:继各类单一模态输入的多模态语言模型后,新加坡国立大学的华人团队最近开源了全能多模态模型NExT-GPT。该模型支持任意模态的输入和输出,可以实现文本、图像、语音和视频之间的自由转换,是第一个实现从任一模态到任一模态转换的通用多模态系统。项目地址:https://next-gpt.github.io代码地址:https://github.com/NExT-GPT/NExT-GPT论文地址:https://arxiv.org/abs/2309.05519NExT-GPT的优势在于它实现了真正意义上的任意模态输入到任意模态输出,而不是仅仅支持某一种固定的输入输出模式。用户可以随意组合不同模态进行查询,NExT-GPT都可以进行理解并用请求的模态形式给出响应。这充分模拟了人类处理信息的能力,是向通用人工智能目标迈进的重要一步。在技术上
可乐
一个爱折腾的互联网I人