智谱大模型突然开源,性能追平顶尖水准,图片却难显示

哈喽,大家好,今天小墨这篇评论,主要来分析智谱GLM-4.6V开源爆火,性能惊艳却藏小遗憾。
AI圈刚炸了个大消息,智谱毫无预兆地把重磅多模态大模型GLM-4.6V系列开源了。这波操作直接让不少开发者连夜蹲守下载,毕竟能免费用到接近顶尖水准的模型,放在以前想都不敢想。
更让人意外的是,连去年就火过一把的AutoGLM智能体也同步开源。这款被业内视为“全球首个具备手机操作能力的AI Agent”的工具,功能类似刚发布技术预览版的豆包手机助手,这下普通用户也能上手体验了。

双版本开源诚意拉满,价格直接打到底
这次智谱一次性放出两个版本的GLM-4.6V模型,针对性做得很明确。基础版GLM-4.6V(106B-A12B)主打云端和高性能集群场景,轻量版GLM-4.6V-Flash(9B)则适合本地部署,满足低延迟应用需求。
最关键的是价格诚意,GLM-4.6V系列比上一代GLM-4.5V降价50%,API调用输入仅1元/百万tokens,输出3元/百万tokens。轻量版更直接全面免费,这对个人开发者和小团队来说,简直是降维福利。

开源地址也给得很全,GitHub、Hugging Face和魔搭社区都能找到,体验地址 直接就能上手试。有个做自媒体的朋友,看到消息后立马下载了轻量版部署到自己的电脑上,不用再担心调用API的费用问题。
值得一提的是,AutoGLM的开源也填补了手机端AI Agent的开源空白。每日经济新闻12月1日报道,字节跳动刚发布豆包手机助手技术预览版,主要和手机厂商合作推进。

而AutoGLM作为更早出现的同类工具,如今开源后,开发者或许能基于它做出更多个性化的手机助手功能。
性能硬实力够顶,多项测试反超同类模型
GLM-4.6V的性能确实对得起大家的期待,官方数据显示它在多模态交互、逻辑推理和长上下文等关键能力上都取得了SOTA表现。这可不是空口说白话,有实打实的测试数据支撑。
9B版本的GLM-4.6V-Flash在34项测试中,有22项分数超过了Qwen3-VL-8B。106B参数12B激活的基础版更厉害,表现和参数量是它两倍的Qwen3-VL-235B不相上下。

它的核心升级点很突出,上下文窗口提升到128k tokens,相当于能一次性处理150页文档、200页PPT或者一小时视频。还首次在模型架构中将Function Call能力原生融入视觉模型,工具调用更流畅。
有个做AI办公工具的小团队,用它测试长文档处理功能。他们上传了三篇网络平台治理领域的论文,包含两篇中文和一篇英文文献,让模型生成学习笔记。

结果不到三分钟,模型就输出了逻辑清晰的笔记,把每篇文献的核心观点都准确罗列了出来,英文文献也没有出现错漏。
在视频理解方面表现也很稳定,上传一段6分48秒的视频制作技巧分享视频,几秒钟内就能解析出视频思路、叙事技巧和镜头运用方式,还能给出成为摄影博主的建议。

体验藏遗憾,图片显示问题成最大槽点
虽然性能够顶,但实际体验中还是暴露了一些小问题,最明显的就是图片显示问题。官方介绍它支持智能图文混排与内容创作,可实际测试时却频频掉链子。
智东西的测试中,上传GLM-4.5V的技术报告,让它生成图文并茂的微信公众号文章。模型1到2分钟就完成了完整的文章框架,包含标题、导语、五个章节和结语,但不管怎么尝试,生成的图片就是无法显示。

不止一家媒体遇到这个问题,有科技博主测试长文档理解功能时,生成的学习笔记里,本该有的图片位置也是空白。除了图片显示问题,面对模糊指令时,模型的理解也会出现偏差。
比如测试网页复刻功能时,让它把X平台登录页面的图标X改为Z,模型却误生成了向上箭头的形状。

不过好在常规功能都很稳定,像识图购物比价功能,输入“搜索iPhone 17 Pro Max各平台价格”,就能自动生成包含商品链接的比价表格,点击就能跳转购买。
有电商从业者尝试用它搜索《疯狂动物城2》中尼克狐的同款眼镜,模型通过图像搜索功能,很快就找出了同款眼镜的实拍图,精准度还是值得肯定的。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。
