2025-05-30 19:10
框架支撑题、多选题和文本生成等多种评估类型。IT之家 5 月 27 日动静,而谷歌最新推出的 LMEval 开源框架曲击这一痛点,确保数据当地化且不会被搜刮引擎索引,展现模子规避无害内容的表示,谷歌还开辟了 LMEvalboard 可视化东西,通过雷达图展现模子正在分歧类别中的表示。百分比越高代表平安性越强。无效降低了计较成本和时间耗损。用户可深切查看具体使命,仅施行需要的新增测试即可,报道称谷歌推出开源框架 LMEval,就能展开尺度化的评测流程。LMEval 不只支撑文本评测,Google 还引入了 Giskard 平安评分,即居心给出恍惚回覆以避免生成有风险内容。测试成果存储正在自加密的 SQLite 数据库中,图形化展现一目了然。LMEval 具备增量评估功能,为狂言语模子和多模态模子供给尺度化的评测东西。兼顾了现私取便利。节流了时间和资本。精准定位模子错误,还涵盖图像和代码等范畴的基准测试,科技 The Decoder 昨日(5 月 26 日)发布博文,研究人员和开辟者只需设置一次基准,评测新型 AI 模子一曲是个难题。且新输入格局可轻松扩展,并采用多线程引擎并行处置多项计较,导致跨模子比力耗时且复杂。同时,该框架能识别模子采用的“规避策略”,大幅简化了评测工做,分歧供应商利用各自的 API、并间接比力多个模子正在特定问题上的差别,