体育游戏app平台……相较于本年 5 月的模子才能全方向评估-开云(中国)kaiyun体育网址-登录入口
大模子最新综测效果体育游戏app平台,今天极新出炉!
2024 年 12 月 19 日,智源究诘院发布并解读国表里 100 余个开源和生意闭源的谈话、视觉谈话、文生图、文生视频、语音谈话大模子玄虚及专项评测效果。
论断包括:
2024 年下半年大模子发展更聚焦玄虚才能普及与本体运用。多模态模子发展赶紧,涌现了不少新的厂商与新模子,谈话模子发展相对放缓。
模子开源生态中,除了握续刚烈开源的海表里机构,还出现了新的开源孝顺者。
谈话模子主不雅评测要点检会模子汉文才能,效果自满字节高出 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo 位居第一、第二。
文生视频模子方面,国产玩家起首环球。
K12 学科履行,大模子仍与海淀学生平均水平存在差距;大齐存在"文强理弱"的偏科情况。
……
相较于本年 5 月的模子才能全方向评估,本次智源评测扩张、丰富、细化了任务处置才能内涵,新增了数据处理、高档编程和器具调用的干系才能与任务;初度加多了面向着实金融量化来回场景的运用才能评估,测量大模子的收益优化和性能优化等才能;初度探索基于模子辩说的对比评估方式,对模子的逻辑推理、不雅点交融、谈话抒发等中枢才能进行深化分析。
具体细节,沿途来看。
多种模态评测玄虚榜单,袒护文本、语音、图片、视频交融与生成
评测效果指出,谈话模子,针对一般汉文场景的灵通式问答大要生成任务,模子才能已趋于富余平稳,然则复杂场景任务的发达,国内头部谈话模子仍然与海外一活水平存在权臣差距。
谈话模子主不雅评测要点检会模子汉文才能,效果自满字节高出 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴 Qwen-Max-0919排行第五。
在谈话模子客不雅评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest位列第一、第二,阿里巴巴 Qwen-max-0919、字节高出 Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排行前五。
视觉谈话多模态模子,天然开源模子架构趋同(谈话塔 + 视觉塔),但发达不一,其中较好的开源模子在图文理罢黜务上正在舒服与头部闭源模子的才能差距,而长尾视觉知识与笔墨识别以及复杂图文数据分析才能仍有普及空间。
评测效果自满,OpenAI GPT-4o-2024-11-20与字节高出 Doubao-Pro-Vision-32k-241028先后起首于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴 Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随自后。
文生图多模态模子,本年上半年参评的模子大齐无法生成正确的汉文笔墨,但这次参评的头部模子依然具备汉文笔墨生成才能,但举座大齐存在复杂场景东谈主物变形的情况,针对学问或知识性推理任务,小于 3 的数目关系任务发达存所普及,大于 3 的数目关系依然无法处理,波及中国文化和古诗词交融的场景关于模子而言是不小的挑战。
评测效果自满,腾讯 Hunyuan Image位列第一,字节高出 Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL · E 3、快手可图次之。
文生视频多模态模子,画质进一步普及,动态性更强,镜头谈话更丰富,专场更流通,但大齐存在大幅度动作变形,无法交融物理规矩,物体淹没、暴露、穿模的情况。
评测效果自满,快手可灵 1.5(高品性)、字节高出即梦 P2.0 pro、爱诗科技 PixVerse V3、Minimax 海螺 AI、Pika 1.5位列前五。
语音谈话模子,收货于文本大模子的进步,才能普及纷乱,袒护面更全,但在具体任务上与巨匠模子还存在一定差距,举座而言,性能好、通用才能强的开源语音谈话模子偏少。
专项评测效果自满,阿里巴巴 Qwen2-Audio位居第一,香港汉文大学 & 微软 WavLLM、清华大学 & 字节高出 Salmon位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU均插足前五。
四大专项评测榜单,多维度探索模子才能领域与运用潜能
本次评测,智源究诘院再次纠合与海淀区锻练进修学校新编了 K12 全学段、多学科试卷,进一步检会大模子与东谈主类学生的才能互异,其中,谜底不独一的主不雅题依然由海淀锻练亲身评卷。
收货于多模态才能的带动发展,模子本次 K12 学科履行玄虚得分相较于半年前普及了 12.86%,然则仍与海淀学生平均水平存在差距;在英语和历史文科试题的发达上,已有模子越过了东谈主类考生的对等分;模子大齐存在"文强理弱"的偏科情况。
FlagEval 大模子角斗场,是智源究诘院本年 9 月推出的面向用户灵通的模子对战评测就业,以反应用户对模子的偏好。
当今,FlagEval 袒护国表里约 50 款大模子,复古谈话问答、多模态图文交融、文生图、文生视频四大任务的自界说在线或离线盲测。
这次评测,共有 29 个谈话模子、16 个图文问答多模态模子、7 个文生图模子、14 个文生视频模子参评。评测发现,用户对模子的响适时候有更高条目,对模子输出的内容倾向于更结构化、尺度化的花式。
动作模子对战评测就业 FlagEval 大模子角斗场的延展,本年 10 月智源究诘院推出了模子辩说平台 FlagEval Debate,对模子的逻辑推理、不雅点交融以及谈话抒发等中枢才能进行深化评估,以甄别谈话模子的才能互异。
本次评测发现,大模子大齐缺少辩说框架意志,不具备对辩题以举座逻辑进行玄虚论说;大模子在辩说中依然存在"幻觉问题",论据经不起磋议;大模子更擅长反驳,各个模子发达杰出的辩说维度趋同,在不同的辩题中,模子发达差距权臣。
FlagEval Debate 评测效果标明,Anthropic Claude-3-5-sonnet-20241022、零一万物 Yi-Lighting、OpenAI o1-preview-2024-09-12 为前三名。
这次评测,智源究诘院探索了基于本体运用场景的全新武艺,通过评测模子的量化代码杀青才能,探索模子在金融量化来回领域的潜在运用才能和生意价值。
评测发现,大模子依然具备生成有回撤收益的战略代码的才能,能诞生量化来回典型场景里的代码;在知识问答方面,模子举座互异较小,举座分数偏高,但在本体代码生成任务上,模子互异较大,举座才能偏弱;头部模子才能已接近低级量化来回员的水平。金融量化来回评测效果自满,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest 位列前三。
智源评测体系 FlagEval 再迭代,袒护环球 800+ 开闭源模子
本次评测依托智源究诘院自 2023 年 6 月上线的大模子评测平台 FlagEval,过程数次迭代,当今已袒护环球 800 多个开闭源模子,包含 20 多种任务,90 多个评测数据集,超 200 万条评测题目。
在评测武艺与器具上,智源究诘院纠合寰宇 10 余家高校和机构合营共建,探索基于 AI 的扶持评测模子 FlagJudge 和天真全面的多模态评测框架 FlagEvalMM,并构建面向大模子新才能的有挑战的评测集,包括与北京大学共建的 HalluDial 幻觉评测集、与北师大共建的 CMMU 多模态评测集、多谈话跨模态评测集 MG18、复杂代码评测集 TACO 以及长视频交融评测 MLVU 等,其中与北京大学共建的 HalluDial 是当今环球范围最大的对话场景下的幻觉评测集,有 18000 多个轮次对话,和 14 万多个复兴。
为藏匿数据集暴露风险以及数据集富余度问题,本次评测吸纳了近期发布的数据集并握续动态更新评测数据,替换了 98% 的题目,并普及了题谋划难度。
智源究诘院副院长兼总工程师林咏华在评测发布会上暗示,FlagEval 评测体系一直信守科学、巨擘、公平、灵通的准则,通过期期武艺平台握续改进,打造丈量模子才能的标尺,为大模子时期生态发展提供知悉。2025 年,FlagEval 评测体系的发展将进一步探索动态评测与多任务才能评估体系,以评测为标尺感知大模子的发展趋势。
* 本文系量子位获授权刊载,不雅点仅为作家通盘。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 跟踪 AI 时期和居品新动态
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再见 ~