研讨：网络充满低质机翻内容大言语模型练习需警觉数据圈套_电竞比赛押注平台官方版app

IT之家 2 月 4 日音讯，亚马逊云核算AI实验室的研讨人员发现，网络上很多内容来自机器翻译 (MT) 生成，这些跨过多种言语的翻译内容质量遍及较低。研讨团队着重，这凸显了在练习大型言语模型 (LLM) 时，数据质量和来历考量的重要性。

研讨还发现，机器生成内容在资源较少言语的翻译中很遍及，并占网络内容的很大一部分。

IT之家注意到，研讨团队开发了名为多维 cc 矩阵 (MWccMatrix) 的巨大资源，以更好地了解机器翻译内容的特征。该资源包含 90 种言语中 64 亿个共同的语句，并包含翻译元组，即彼此翻译的一组语句。

这项研讨之后发现很多网络内容通常被翻译成多种言语，主要是经过机器翻译完结。这种内容不仅在资源较少言语的翻译中都会存在，并且在这些言语的一切网络内容中也占很大一部分。

研讨人员还注意到，出于广告收入等意图，被翻译成多种言语的内容存在挑选性误差。

论文的结论是：“机器翻译技能在曩昔十年里取得了明显前进，但仍达不到人类质量水平。多年来，运用其时可用的机器翻译体系将机器翻译内容添加到网络上，因而网络上大部分机器翻译内容依照现代规范或许质量很低。这有几率会使 LLM 模型发生更多‘错觉’ ，而挑选误差标明即便不考虑机器翻译过错，数据质量也或许较低。数据质量关于 LLM 练习至关重要，其间高质量的语料库，如书本和文章，通常会进行屡次向上采样。”

每日头条、业界资讯、热门资讯、八卦爆料，全天盯梢微博播报。各种爆料、内情、花边、资讯一扫而光。百万互联网粉丝互动参加，TechWeb官方微博等待您的重视。

《庆余年》《大奉打更人》等当选阅文全球华语IP榜单 2024或将敞开爆款之年

印度Yotta将再向英伟达订货1.6万块GPU 上一年已收购1.6万块H100

音讯称苹果最快2026年推出小尺度可折叠屏iPad 将替代iPad mini

苹果无人驾驶轿车上一年加州路测路程增至72万公里但与Waymo仍有不小距离

青云QingCloud EHPC 打造即买即用的全流程SaaS化超算服务

蚂蚁链发布BTN：可将区块链网络吞吐量提高186% 带宽本钱下降80%

蚂蚁自研数据库OceanBase宣告开源 300万行中心代码向社区敞开

上一篇：可穿戴式的实时语音翻译器ili（咿哩）专为游览会话场景而生

下一篇：方言都能翻译这款翻译器专治语言障碍