阿里开源首个全模态大模型,将给产业带来哪些机会? · 科技

Thomas 125 0

3月27日凌晨,阿里巴巴发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni,可同时处理文本、图像、音频和视频等多种输入,并实时生成文本与自然语音合成输出。

目前,市场全模态大模型较为有限。在此之前,国内外主流科技公司只有OpenAI发布全模态大模型GPT-4oGPT-4o参数规模为200BQwen2.5-Omni仅为7B这一尺寸对于端侧部署特别是手机本地部署十分友好

在一系列同等规模的单模态模型权威基准测试中,Qwen2.5-Omni展现出了全球最强的全模态优异性能。其中,Hugging Face测试显示Qwen2.5-Omni在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的Qwen2-Audio以及Qwen2.5-VL模型,且语音生成测评分数(4.51)达到了与人类持平的能力。

界面新闻了解Qwen2.5-Omni参数规模情况下全模态性能表现优异主要原因技术的创新突破Qwen2.5-Omni采用了通义团队全新首创的Thinker-Talker双核架构、Position Embedding(位置嵌入)融合音视频技术、位置编码算法TMRoPE(Time-aligned Multimodal RoPE)。相比之下GPT-4o的基础仍然是Transformer架构只是针对多模态数据进行了优化

具体来讲Transformer架构是单一流式计算采用自注意力机制,一次性处理整个输入序列,不区分“思考”和“表达”,所有计算都在同一层次上完成,导致大模型在推理复杂问题时计算开销较高。Thinker-Talker双核架构区分“思考”和“表达”Thinker负责深度推理、逻辑思维和复杂认知任Talker负责将思考结果高效转化为流畅的语言表达或其他输出。Thinker进行多步推理,而Talker只需高效生成结果,从而优化计算效率。

全新技术架构这款全模态模型的交互能力又上了一个新的台阶,不仅让阿里AI在C端(用户)的应用多了几分想象空间,也给智能终端行业带来了更多想象空间

以接近人类的多感官方式交互,还能感知情绪

界面新闻对话用户选择语音或者视频通过Qwen2.5-Omni进行交互

可以使用QQ音乐上面很多唱歌

在播放歌曲《老男孩》的一个片段时Qwen2.5-Omni能够听出来这是一段民谣曲风音乐还能听出来这是C大调同时推荐赵雷成都周杰伦七里香询问使用者是否喜欢

多人场景Qwen2.5-Omni还能够理解不同说话人的语音和视频的对应关系,定位到不同说话人的穿着等状态,判断意识流视频里的情绪,这是以往单一模态的模型和AI应用所不具备的能力。

体验之后界面新闻几年前智能音箱相比Qwen2.5-Omni不再只是单纯回复用户给出指令还会主动询问用户问题聊天变成一个可持续过程

除了日常对话之外界面新闻一位阿里云内部人士了解Qwen2.5-Omni还能处理更加复杂专业问题比如医疗领域诊断通常需要结合影像、病历文本患者语言描述完成Qwen2.5-Omni多模态能力能够满足这些需求相关医疗机构使用大模型辅助诊断无需为不同模态任务部署独立模型,降低开发和维护成本。

C端应用呼之欲出

Qwen2.5-Omni接近人类交互方式感知到情绪这让此前业界看好AI陪伴应用有了规模化落地空间

界面新闻了解阿里AI to C应用尝试这个方向去年12阿里旗下AI应用“通义”近期正式从阿里云分拆,并入阿里智能信息事业群。调整后通义PC及App团队与智能搜索产品“夸克”平级通义To C方向的产品经理以及相关的工程团队,他们将一并调整至阿里智能信息事业群。

界面新闻从一位阿里智能信息事业群人士了解架构调整之后夸克通义定位进行区分夸克主要解决用户学习工作场景问题通义主要解决用户生活问题以及情感陪伴需求

Qwen2.5-Omni发布之后,底层模型能力已经能够满足用户各种复杂需求通义团队需要产品打磨抢占先机

除此之外Qwen2.5-Omni小尺寸方便智能终端行业进行部署在GPT-4o仍然保持闭源的情况下,Qwen2.5-Omni以宽松的Apache2.0协议开源,且阿里云百炼平台提供API服务,所有人均可下载和商用。无论手机智能音箱还是家电寻求更好用户交互体验Qwen2.5-Omni交互能力这些行业更多想象空间

比如目前老板电器等厨房电器企业正在探索通过大模型菜谱推荐、智能烹饪、个性化交互整合到全流程服务中,打造更智能的厨房体验。全模态大模型的核心优势在于能够理解文本、语音、图像、视频、传感器数据多种模态的数据,从而提供更加自然、精准的烹饪辅助。

Qwen2.5-Omni具备视觉、听觉、语音等多感官交互能力,在家庭机器人领域有着较为广阔的应用前景。它不仅能完成日常任务,还能更智能地理解用户需求、实时适应环境,并提供更加人性化的互动。尤其家庭陪伴护理场景识别老人摔倒异常情况以及识别用户低落情绪非常关键底层能力

此前阿里巴巴联合创始人、董事局主席蔡崇信确认苹果和阿里巴巴将合作为中国iPhone用户开发AI功能。实际上OPPO、vivo、荣耀、传音等国内超90%的手机品牌都已接入千问。Qwen2.5-Omni出现或许也这些品牌手机带来新用户交互体验

阿里AI大模型布局显示出非常决心阿里巴巴集团CEO吴泳铭此前宣布,未来三年,阿里将投入超过3800亿元,用于建设云和AI硬件基础设施,总额超过过去十年总和

AI资本市场重估阿里价值2025年以来,阿里巴巴美股股价已上涨55.96%。

  • 评论列表

留言评论