微信多模态大模型POINTS 1.5，开启智能交互新篇章

一、发布背景与意义

近日，距离 POINTS 1.0 发布已经过去两个月的时间，腾讯微信团队乘胜追击，正式推出了 POINTS 1.5 版本，这一举措标志着微信在人工智能领域的深度探索又迈出了坚实且意义重大的一步。

在如今这个科技飞速发展的时代，人工智能领域的竞争愈发激烈，各大科技巨头都在不断发力，致力于打造更先进、更智能的模型。微信的 POINTS 系列多模态大模型也在持续迭代升级，POINTS 1.5 的登场，无疑是微信在智能交互探索道路上的又一璀璨成果，它承载着团队对于提升用户体验、拓展应用场景的诸多期望，为未来智能交互体验设立了全新的标杆，有望让用户在使用微信相关功能时，享受到更加自然、流畅且贴合需求的交互感受，进一步拉近人与智能科技之间的距离，开启智能交互的新纪元。

二、模型架构解析

沿用架构说明

POINTS 1.5 沿用了 POINTS 1.0 中使用的经典 LLaVA 架构，这一架构主要由 vision encoder（视觉编码器）、projector（投影层）和大语言模型这三大部分组成。视觉编码器在整个架构里扮演着十分关键的角色，它能够处理来自图像模态的 token，其质量高低对于大语言模型能否准确理解图像有着至关重要的影响。而投影层则起着衔接视觉信息与语言信息的作用，助力二者更好地融合。大语言模型则是负责进行语言层面的理解、生成等相关任务，是实现智能交互的重要环节所在。

视觉编码器更新

在视觉编码器方面，POINTS 1.5 采用了 NaViT 风格的视觉编码器，替换了 POINTS 1.0 中使用的 CLIP 视觉编码器。POINTS 1.0 为了支持任意分辨率的图像，遵循了如 LLaVA-Next 和 InternVL 等最近的研究工作，会将大图像分割成视觉编码器可以处理的若干小块。但这种做法存在固有缺点，它破坏了图像内各块之间的空间关系，即便后续添加行分割标记（例如 “\n”），以及引入全局视图等策略来缓解这个问题，可问题依然没能彻底解决。

而 NaViT 风格的视觉编码器就不一样了，它能够原生处理任意分辨率的图像，无需像 CLIP 视觉编码器那样进行图像分割，很好地避免了破坏图像内各块之间空间关系的问题。不过，随着 NaViT 的引入，批量前向传播面临了新的挑战。CLIP 视觉编码器可以沿着批量大小维度将图像连接起来，而 NaViT 在图像被分块后处理的图像序列长度各不相同。为应对这一情况，研究人员采用了一种受大型语言模型（LLMs）启发的策略，即将多个图像序列打包成一个长序列，然后记录每个图像序列的起始和结束索引，以此确保自注意力机制仅在当前图像序列的边界内应用。

投影层与大语言模型特点

投影层沿用了两层 MLP 作为基础架构，同时在两层线性层之间增加了一层 GELU 来增加非线性，通过这样的设置，能够使投影层更好地融合视觉和语言信息，提升整个模型在多模态交互方面的能力。

在大语言模型上，POINTS 1.5 使用了 Qwen2.5-7B-Instruct。并且在预训练阶段采用了 Qwen2.5-7B-Instruct 中使用的对话模板，对比 POINTS 1.0 中的续写模板有性能提升。在 POINTS 1.0 的预训练阶段，采用的是续写模板来打包数据，这和指令微调版 LLM 使用的模板有所不同。而在 POINTS 1.5 版本中，采用新的对话模板后，由于预训练数据是图像 – 标题对，还在每个数据样本中添加了类似于 “请描述这张图片。” 这样的提示，为使提示多样化，创建了一个候选提示池，会为每个数据样本随机抽取一个提示。此外，为了区分视觉标记和文本标记，在视觉标记周围添加了图像前缀和后缀标记，以此进一步优化模型的性能表现。

三、性能表现亮点

排名情况

据 OpenCompass Leaderboard 的情况（截图截止的时间为 2024.12.8）显示，POINTS 1.5-7B 在全球 10B 以下开源模型中位居榜首，超越了诸如 Qwen2-VL、InternVL2 和 MiniCPM-V-2.5 等业界领先的模型。这一出色的排名，充分彰显了 POINTS 1.5 在同类型模型中的强大竞争力，也意味着其在多模态处理等方面的能力得到了权威认可，为后续在更多领域的应用和拓展奠定了坚实基础。

多场景测试

除了 OpenCompass 用于排名所使用的 8 个 benchmark 之外，研究人员还对 POINTS 1.5 在更多的 benchmark 上进行了测试，这些 benchmark 包含 ChartQA、MME、LLaVA-Wild、SEEDBench、MEGABENCH、ScienceQA、MATH-Vision、MathVerse 等。测试结果表明，POINTS 1.5-7B 的表现令人惊艳，尤其在数学相关的 Benchmark 上表现格外出色，与其他竞品之间拉开了较大的差距。例如在一些复杂的数学应用题与图像结合的测试场景中，POINTS 1.5 能够精准地理解题目意图，快速给出准确的解答思路和答案，展现出了其优秀的多模态信息融合处理能力以及深厚的逻辑推理能力。

真实场景应用

在真实场景应用方面，POINTS 1.5 的表现也可圈可点。从复杂场景的 OCR（光学字符识别）、推理能力、关键信息提取、Latex 公式提取、数学、图片翻译、物体识别等几个方面对其进行测试，它都展现出了不错的实力。在 OCR 场景中，面对各种复杂字体、模糊背景的图片文字内容，它能够较为准确地识别并提取出文字信息；在推理能力上，无论是基于文本描述还是图文结合的情况，都可以进行合理的逻辑推导；在关键信息提取方面，能迅速从大量文本和图像信息里抓取核心要点；对于 Latex 公式提取、数学相关应用，更是发挥出了优势，助力解决诸多专业场景下的难题；在图片翻译上可以实现对图片中文字内容的准确翻译转换；物体识别时也能精准判断图片里的各类物体。总之，POINTS 1.5 在实际应用中有着很大的潜力，有望在众多领域为人们提供更高效、便捷的服务。

四、数据处理与优化

中文预训练数据集创建

在 POINTS 1.0 的基础上，创建 POINTS 1.5 的中文预训练数据集采用了两步程序。首先，运用 CapFusion 技术，将视觉语言模型生成的标题与图像的原始标题进行合并，以此生成最终标题。例如，对于一张风景图片，视觉语言模型生成的标题为 “美丽的山水景色”，原始标题为 “某景区风光”，通过 CapFusion 就能整合出更全面准确的标题。

接着，使用困惑度对生成的标题进行过滤，按照困惑度的数值将这些数据标记按升序排列，选择前 20%（约 100 万）用于预训练阶段。随后，把这部分精心筛选出来的中文数据集与原始的 100 万英文数据集相结合，共同用于 POINTS 1.5 的预训练工作，为模型打下坚实的数据基础，使其能够更好地理解和处理不同类型的信息，提升其在多模态任务中的表现能力。

中文指令微调数据策略

POINTS 1.5 在中文指令微调数据方面，先是继承了 POINTS 1.0 中的所有视觉指令调优数据集，保证了数据的连贯性和基础优势。同时，还采用了多种策略来创建中文视觉指令调优数据集。

其一，将现有的英文数据集（包含问题和答案）翻译成中文，比如一些在英文语境下关于图像描述、场景问答的数据集，通过专业的翻译流程转化为中文版本，使其适用于中文交互场景。

其二，利用现有数据集中的图像和问题，借助视觉语言模型生成相应的答案，比如针对一张包含多种物品的室内图片，原数据集中有关于图片中物品数量、颜色等问题，利用模型生成合理准确的中文答案。

其三，从互联网上收集图像，并手动设计与之匹配的问题，然后再由视觉语言模型生成答案，最后由人工标注员进行验证，确保数据的准确性和合理性，通过这样多维度的策略丰富和优化中文视觉指令调优数据集，助力模型更好地适应中文用户的使用需求。

指令微调数据过滤措施

在对视觉指令调优数据集进行过滤时，研究团队采取了严谨的手动检查方式，对 POINTS 1.0 中使用的每个数据集都进行了细致梳理。在这个过程中，着重发现并解决了一些可能影响数据质量的问题。

例如，过滤掉那些可以在不参考图像的情况下就能回答的问题，像一些纯文本逻辑推理且与图像内容无关的问题，就将其筛除，避免干扰模型对于图像相关信息的学习和理解。同时，对于存在大量语法错误的数据也进行清理，因为语法错误可能导致模型在学习过程中出现理解偏差或者生成不符合规范的回复内容，通过这样严格的数据过滤手段，有效地提高了数据质量，从而让 POINTS 1.5 模型能够基于更优质的数据进行训练，保障其性能的稳步提升。

五、应用场景拓展

社交互动升级

在微信的朋友圈互动中，POINTS 1.5 展现出了强大的助力作用。比如当用户发布了一张旅行时拍摄的绝美风景照或者一段记录精彩瞬间的视频后，POINTS 1.5 能够自动识别其中的关键元素、场景氛围等内容，随之生成个性化的文案建议。像是针对海边日出的照片，它或许会生成 “晨曦破晓，金色的阳光洒在海平面上，波光粼粼，这样的美景让人沉醉，今日份的浪漫是这片海给的呀” 这类生动且贴合画面的文案，让用户无需再为想不出合适的配文而烦恼，更轻松地分享生活点滴。

而在聊天场景里，POINTS 1.5 同样表现出色。当好友们在讨论一部热门电影时，它能够智能地分析聊天上下文，假如大家正在探讨电影中的某个精彩情节或者角色，它就可以基于对这些内容的理解，为用户提供更加贴心的回复建议，像 “那个主角在关键时刻的抉择确实很让人意外呀，也正是这个决定让整个故事更加跌宕起伏了呢”，使聊天的过程更加顺畅和有趣，仿佛有一个懂行又贴心的朋友在参与对话一般，极大地提升了社交体验。

智能客服优化

对于微信的智能客服系统来说，POINTS 1.5 的作用不容小觑。以往用户咨询问题时，可能会因为表述不够清晰或者问题较为复杂，导致客服系统难以快速准确地理解核心诉求。但有了 POINTS 1.5 后，情况大为改观。

例如，当用户向智能客服咨询关于某商品退换货的具体流程，但描述中夹杂了一些对商品使用感受等无关紧要的内容时，POINTS 1.5 能够迅速过滤掉这些干扰信息，快速理解用户咨询的问题核心其实是退换货流程，然后从海量的知识库中精准筛选出与之匹配的准确答案，再以清晰、简洁的语言回复用户，像是 “您好，该商品如需退换货，您可先在订单页面申请，填写相关信息提交后，等待我们工作人员审核通过，按照提示寄回商品即可哦，如有疑问可继续咨询呢”。通过这样的方式，大大提高了问题解决率，缩短了用户等待时间，有效提升了用户满意度，让智能客服变得更加 “智能”、高效。

小程序生态赋能

在小程序生态方面，POINTS 1.5 为微信小程序开发者提供了强大的智能交互能力支持，使得小程序能够更好地理解用户需求，进而提供更加个性化的服务。

以电商小程序为例，POINTS 1.5 可以依据用户过往的浏览历史，清楚地知晓用户经常关注的商品品类，是时尚服饰、电子产品还是家居用品等；同时结合购买行为，比如购买的价格区间、常购买的品牌等数据，为用户推荐符合其兴趣和需求的商品。当用户打开电商小程序时，看到的都是自己可能感兴趣的商品展示，模型还能进一步引导用户完成购买流程，比如提醒用户商品有优惠活动即将截止、推荐与之搭配购买更划算的其他商品等。通过这样精准的推荐和引导，能够提高小程序的用户转化率，让更多的浏览用户变成实际购买用户，而且也有助于提高用户留存率，使用户更愿意多次使用该电商小程序，促进整个小程序生态更加繁荣地发展。

六、行业影响深远

对社交与人工智能融合的推动

简述：讲述 POINTS 1.5 如何推动社交与人工智能深度融合，为其他社交平台和开发者树立标杆，促使行业加大相关投入研发力度。

腾讯微信多模态大模型 POINTS 1.5 的发布，无疑为社交与人工智能的深度融合注入了强大动力。在社交领域，以往的交互往往局限于简单的文字、语音沟通，而 POINTS 1.5 的出现打破了这一局限，让社交互动变得更加智能、丰富。

例如在微信的日常使用场景中，无论是朋友圈分享还是私聊对话，POINTS 1.5 都能够深度参与进来。当用户发布一张旅游风景照时，它能精准识别照片中的元素、氛围等关键信息，随即生成契合画面的优美文案建议，辅助用户更好地表达分享的心情和感受，让朋友圈的互动不再只是简单的点赞、评论，而是增添了更多有深度、有意思的内容交流。在私聊场景里，它可以根据聊天的上下文，理解大家讨论的话题核心，像大家在探讨一部电影时，它能针对其中的情节、角色等方面给出贴心又专业的回复建议，让聊天更加顺畅且充满趣味，仿佛给每个聊天窗口都配备了一个智能又懂行的社交助手。

这种将人工智能深度融入社交的模式，为其他社交平台树立了全新的标杆和榜样。众多社交平台看到了 POINTS 1.5 带来的良好社交效果和用户体验提升，纷纷意识到多模态人工智能技术在社交领域的巨大潜力，进而促使整个行业开始加大在这方面的投入和研发力度。更多的开发者也被吸引，积极探索如何在自家的社交产品中借鉴类似的技术应用，不断挖掘社交与人工智能融合的新玩法、新场景，推动整个社交行业朝着更加智能化的方向大步迈进，加速了行业的创新与发展进程。

对智能生态领域的带动

简述：说明该模型应用为智能硬件、智能家居等相关领域带来新机遇，拓展应用场景和提升用户体验，推动智能生态繁荣的积极影响。

POINTS 1.5 模型的应用不仅在社交领域大放异彩，对于智能硬件、智能家居等相关领域而言，同样带来了诸多新的机遇。

在智能硬件方面，像智能摄像头、智能穿戴设备等产品可以借助 POINTS 1.5 强大的多模态处理能力，实现更多创新功能。例如智能摄像头以往可能只是简单地进行画面录制和存储，有了 POINTS 1.5 后，它能够对拍摄到的画面内容进行实时分析，不仅可以识别画面中的人物、物体，还能理解场景含义，如判断是室内聚会场景还是户外运动场景等，进而基于这些分析为用户提供更有价值的提醒和服务。智能穿戴设备也能通过与 POINTS 1.5 结合，更好地理解用户所处的环境以及身体状态等多模态信息，比如当用户运动时，它能根据周边环境以及用户的运动数据，给出合理的运动建议等。

而在智能家居领域，POINTS 1.5 更是拓展了丰富的应用场景。以智能音箱为例，以往它可能只是根据语音指令来控制家电开关、调节音量等基础操作。现在，借助 POINTS 1.5，它可以识别展示在屏幕上的家居设备操作指南图片，帮助用户更准确地完成复杂的设备调试等工作；还能通过分析室内环境图像，比如判断室内的光照、整洁程度等，自动调节智能灯具的亮度、提醒用户进行清洁等，全方位提升家居生活的智能化体验。

Paragoger衍生者AI训练营。发布者：風之旋律，转载请注明出处：https://www.shxcj.com/archives/7920

微信多模态大模型POINTS 1.5，开启智能交互新篇章

一、发布背景与意义