• 官方首页
  • 火币注册
  • 平台快讯
  • 比特币行情
  • 区块链新闻

上海交大发布大模型双语编程评估基准 CodeApex

2024-8-15 7:21

据机器之心报道,上海交通大学 APEX 实验室推出了 CodeApex,一个专注于评估 LLMs 的编程理解和代码生成能力的双语基准数据集。

在评估大语言模型的编程理解能力上,CodeApex 设计了三种类型的选择题:概念理解、常识推理和多跳推理。此外,CodeApex 也利用算法问题和相应的测试用例来评估 LLMs 的代码生成能力。CodeApex 总共评估了 14 个大语言模型在代码任务上的能力。其中 GPT3.5-turbo 表现出最好的编程能力,在这两个任务上分别实现了大约 50% 和 56% 的精度。可以看到,大语言模型在编程任务上仍有很大的改进空间。

原文链接

最新发布

  • 总收入、收益和其他收入为8,570万英镑
  • 00上线REZ1-50倍U本位永续合约
  • Sushi提出去中心化治理结构改革方案,计划分阶段成立三个委员会
  • 稳定币战争:Tether 对 Ripple 发起猛烈攻击
  • Sui宣布与Google Cloud达成合作

热点资讯

  • 区块链新闻
  • 平台快讯
  • 比特币行情

标签

交易,就用火币


立刻注册

关于我们

立刻注册