产品中心
快盈app官方网站登录:双双夺冠!盛大旗下AI模型分别问鼎BFCL与OpenLLM榜首
产品名称:

双双夺冠!盛大旗下AI模型分别问鼎BFCL与OpenLLM榜首

来源:快盈app官方网站登录    发布时间:2025-04-04 02:11:09

Watt-tool-70B是由盛大旗下Watt团队研发的旗舰模型,目前位列BFCL Leader

  Watt-tool-70B是由盛大旗下Watt团队研发的旗舰模型,目前位列BFCL Leaderboard总榜单第一,其提交的8B 小模型也排到榜单第四。

  BFCL(Berkeley Function-Calling Leaderboard)是由加州大学伯克利分校开发的评估LLM工具调用能力的基准测试平台。工具调用(Function-Calling)是目前大语言模型(LLM)最热门的研究方向之一,让LLM理解、并能够准确使用API,来执行更复杂而具体的任务。

  该榜单近一年来长期被OpenAI的GPT系列模型霸榜,在近期公布的最新一轮评估结果中,Watt的“多轮对话执行能力”很有显著的领先,相较于排名第二的GPT-4o 领先了11分,和排名第十的Gemini-1.5-Pro 相比则领先了将近40分。

  除了在常见的COT(思维链)和SFT(监督微调)下工夫,Watt还有两个核心攻关方向:

  2.基于自研的AI研发效能平台鲁班Lupan Platform来实现快速大批量的API接入,大幅强化了工程上的后勤能力,全方面使用LLM对更深层的效能建设做升级。

  “这个模型架起了SaaS时代与AI时代的桥梁,加速大模型落地的“融合”过程。”Watt负责这个的人说,“这是从底层数据标注到人机交互的的体系化建设,让大模型实现从‘光说不练’到‘能文能武’的初步落地。”

  Open LLM Leaderboard V2是由Hugging Face维护的开源语言模型评测平台的升级版本,它采用更全面和严格的评估标准,对各类开源大语言模型进行多维度测试和排名。该平台关切模型在实际应用场景中的表现,包括推理能力、数学运算、代码生成等多个关键领域,是评测开源模型使用最广泛、最重要的benchmark之一。

  Newsbang/homer-72B的训练全程深层次地融合前沿的数据合成技术,尤其重视提升模型在推理和思考方面的能力。团队打造了大规模的推理性与指令性数据集,搭配严苛的数据筛选机制,基于优质的开源Qwen2.5-72B Base Model重新进行了posttraining,让模型在多个核心评测维度(MMLU-Pro、IFEval、MATH、BBH)有大幅的性能提升。

  1)在第一阶段,基于大量开源的数学、代码和综合型数据集,通过一个精心设计的ThinkingAgent来对原数据来进行扩充,得到扩充后包含思维链的数据集。之后采用了APO的方式对数据来进行进一步的精炼,得到CoT_Refine数据集。为了能够更好的保证模型的通用性能和instructionfollowing能力,我们采取了Mix策略对原始数据集和CoT_Refine数据集进行混合,并完成了SFT训练。

  2)第二阶段,则基于CoT_Refine数据集进行了pairwise的正负样本数据构造,并通过RewardModel对数据来进行筛选,筛选出置信度最高的数据,在SFT的模型上进一步进行了DPO训练。

  根据公开信息,盛大集团创始人陈天桥自2023年初宣布All in AI战略以来,一直以新锐姿态进军AI赛道,并为内部孵化的AI公司可以提供“50%的利润直接分配给员工,另外50%持续投入研发”的突破性激励政策。去年10月,盛大联合多家顶尖高校发表了AI与长期记忆论文,其自研的OMNE大模型多智能体框架登上GAIA 基准测试排行榜榜首。

  去年以来,陈天桥创办的天桥脑科学研究院与《Science》杂志合作推出了全球AI驱动科学大奖,并举办和支持了包括AI+精神健康在内的各种高水平国际会议和夏校项目,致力于培养跨学科的青年AI人才,并持续欢迎优秀AI人才加盟。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  商务部:中方愿与美方通过平等对话磋商解决各自关切;中欧双方同意尽快重启电动汽车反补贴案价格承诺谈判

  中办、国办:废止妨碍全国统一大市场建设和公平竞争的价格政策 防止政府对价格形成的不当干预

  鲁比奥宣称“中国在圭亚那所建公路差点让人脑震荡”,外交部:并非中企承建,不知道为啥睁眼说瞎线

  川普发动全面关税战!商务部专家:不排除会将中国“顶”上全球第一大进口国位置

  新消费日报 美团王兴宣布多项组织调整和人员任命;多家品牌首饰金价突破960元/克……

  宝宝的眼里都是害怕,动也不敢动哭也不敢哭,宝宝:也不知道后面是什么动物