研讨:网络充满低质机翻内容 大言语模型练习需警觉数据圈套
发布时间: 2024-02-07 05:47:57    作者:电竞比赛押注平台app


  IT之家 2 月 4 日音讯,亚马逊云核算AI实验室的研讨人员发现,网络上很多内容来自机器翻译 (MT) 生成,这些跨过多种言语的翻译内容质量遍及较低。研讨团队着重,这凸显了在练习大型言语模型 (LLM) 时,数据质量和来历考量的重要性。

  研讨还发现,机器生成内容在资源较少言语的翻译中很遍及,并占网络内容的很大一部分。

  IT之家注意到,研讨团队开发了名为多维 cc 矩阵 (MWccMatrix) 的巨大资源,以更好地了解机器翻译内容的特征。该资源包含 90 种言语中 64 亿个共同的语句,并包含翻译元组,即彼此翻译的一组语句。

  这项研讨之后发现很多网络内容通常被翻译成多种言语,主要是经过机器翻译完结。这种内容不仅在资源较少言语的翻译中都会存在,并且在这些言语的一切网络内容中也占很大一部分。

  研讨人员还注意到,出于广告收入等意图,被翻译成多种言语的内容存在挑选性误差。

  论文的结论是:“机器翻译技能在曩昔十年里取得了明显前进,但仍达不到人类质量水平。多年来,运用其时可用的机器翻译体系将机器翻译内容添加到网络上,因而网络上大部分机器翻译内容依照现代规范或许质量很低。这有几率会使 LLM 模型发生更多‘错觉’ ,而挑选误差标明即便不考虑机器翻译过错,数据质量也或许较低。数据质量关于 LLM 练习至关重要,其间高质量的语料库,如书本和文章,通常会进行屡次向上采样。”

  每日头条、业界资讯、热门资讯、八卦爆料,全天盯梢微博播报。各种爆料、内情、花边、资讯一扫而光。百万互联网粉丝互动参加,TechWeb官方微博等待您的重视。

  《庆余年》《大奉打更人》等当选阅文全球华语IP榜单 2024或将敞开爆款之年

  印度Yotta将再向英伟达订货1.6万块GPU 上一年已收购1.6万块H100

  音讯称苹果最快2026年推出小尺度可折叠屏iPad 将替代iPad mini

  苹果无人驾驶轿车上一年加州路测路程增至72万公里 但与Waymo仍有不小距离

  青云QingCloud EHPC 打造即买即用的全流程SaaS化超算服务

  蚂蚁链发布BTN:可将区块链网络吞吐量提高186% 带宽本钱下降80%

  蚂蚁自研数据库OceanBase宣告开源 300万行中心代码向社区敞开