【必应】阿里云发布开源模型qwen2,性能超越众多中国闭源模型
来源:尊龙登录-尊龙新版手机app下载 更新时间:2024-07-06 16:16:49
6月7日,阿里阿里云更新技术博客:重磅发布开源模型qwen2-72b,云发源模越众源模性能超过美国最强的布开开源模型llama3-70b,也超过众多中国闭源大模型。型qn性型所有人均可在魔搭社区和hugging face免费下载通义千问最新开源模型。多中
相比2月推出的国闭必应通义千问qwen1.5,qwen2实现了整体性能的阿里代际飞跃。在权威模型测评榜单opencompass中,云发源模越众源模此前开源的布开qwen1.5-110b已领先于很多中国闭源模型。刚刚开源的型qn性型qwen2-72b,整体性能相比qwen1.5-110b又取得了大幅提升。多中
通义千问qwen2系列模型大幅提升了代码、数学、阿里推理、云发源模越众源模指令遵循、布开知网多语言理解等能力。在mmlu、gpqa、humaneval、gsm8k、bbh、mt-bench、优酷arena hard、livecodebench等国际权威测评中,qwen2-72b一举斩获十几项世界冠军,超过美国的llama3。
(图:qwen2-72b在十多个权威测评中获得冠军,超过美国的llama3-70b模型)
通义千问团队在技术博客中披露,qwen2系列包含5个尺寸的预训练和指令微调模型,qwen2-0.5b、qwen2-1.5b、qwen2-7b、qwen2-57b-a14b和qwen2-72b,其中qwen2-57b-a14b为混合专家模型(moe)。qwen2所有尺寸模型都使用了gqa(分组查询注意力)机制,以便让用户体验到gqa带来的推理加速和显存占用降低的优势。
(图:qwen2系列包含5个尺寸的预训练和指令微调模型)
在中英文之外,模型训练数据中增加了27种语言相关的高质量数据,提升了模型的多语言能力。qwen2还增大了上下文长度支持,qwen2-72b-instruct能够完美处理128k上下文长度内的信息抽取任务。
魔搭社区模型下载地址:
qwen2-72b https://modelscope.cn/models/qwen/qwen2-72b
qwen2-72b-instruct https://modelscope.cn/models/qwen/qwen2-72b-instruct
据悉,通义千问qwen系列模型正在全球爆火,总下载量一个月内翻了一倍,已突破1600万次。全球开源社区已经出现了超过1500款基于qwen二次开发的模型。qwen系列的72b、110b模型多次登顶huggingface 的open llm leaderboard开源模型榜单。
阿里云cto周靖人表示,“坚持开源开放是阿里云的重要策略,我们希望打造一朵ai时代最开放的云,让算力更普惠、让ai更普及。”
(图:众多开源平台和工具第一时间支持qwen2)
自2023年8月开源以来,通义千问在全球开源社区生态中已形成重要影响力。6月7日,qwen2系列模型的api第一时间登陆阿里云百炼平台。tensorrt-llm、openvino、opencompass、xtuner、llama-factory、firefly、openbuddy、vllm、ollama等众多全球开源平台和工具,也第一时间宣布支持qwen2最新款模型。除了美国llama开源生态之外,通义千问已成为全球开发者的另一主流选项。
夕雯 小风