成本差异铸成 AI 鸿沟？牛津：汉语训练费用是英语的 2 倍

2023-07-31 15:35:45 ZAKER科技

①牛津大学的一项研究表明，从诸多大型语言模型（LLM）的计费方式看，英语的输入和输出比其他语言要便宜得多；

②简体中文的训练费用约是英语的 2 倍，而缅甸掸语的费用为 15 倍；

(资料图片)

③语言的成本差异导致英语使用者和其他语言使用者之间形成 AI 鸿沟。

财联社 7 月 31 日讯（编辑周子意）如今的大型语言模型（LLM）可以理解世界上很多语言，甚至是一些记载较少的语言。不过，大模型处理不同语言之间时，其性能上存在很大的差异，这是由于模型成本与其所训练的语言紧密挂钩。

牛津大学最近进行的一项研究表明，从诸多语言模型的计费方式看，英语的输入和输出比其他语言的输入和输出要便宜得多。例如，西班牙语的成本约为英语的 1.5 倍，简体中文的价格约为 2 倍以上，缅甸掸语在 15 倍以上。

成本的差异也间接导致英语使用者和世界其他语言使用者之间形成 AI 鸿沟。

成本差异主要是因数据标记化所带来的。标记化就是将训练文本分解成更小的单元，这个更小的单元就是标记（Token）。这是一个人工智能（AI）公司将用户输入转换为计算成本的过程。

研究显示，使用英语以外的语言访问和训练模型的成本都更高。例如中文，无论是在语法上还是在字符数量上，都有更复杂的结构，从而导致更高的标记化（Token）率。

举例来看，基于 OpenAI 公司的 GPT2 模型，对于 " 国家不同，所得税的结构是不同的，税率和税率等级也有很大的差异 " 这句话的处理来看，在简体中文处理中运用到了 66 个 Token，在英语处理中仅用到了 24 个 Token，而在禅语处理中使用到了 468 个 Token。

就每次输出所需的费用而言，汉语的成本是英语的两倍。所以在 AI 相关的费用中，英语的成本效益是最高的。

当涉及到语言模型时，设计者的主要目标是实现低成本和高效功能之间的平衡。随着 AI 领域的不断发展，科技公司必须仔细考虑语言选择对成本和可访问性的影响。

这种成本差异促使中国、印度等国家纷纷开发自己的母语 LLM 项目。

关键词：

责任编辑：宋璟

成本差异铸成 AI 鸿沟？牛津：汉语训练费用是英语的 2 倍

相关新闻

成本差异铸成 AI 鸿沟？牛津：汉语训练费用是英语的 2 倍

海电运维业绩向上 2022年现金流数据双降净现比0.26

华联股份（000882）7月31日13点12分触及涨停板

洋县：加强水源地保护确保一泓清水永续北上

“大飞机”核心技术已突破！这家企业，股价有望从25元到100元

记者手记：“村超”总决赛落幕但“村超”大幕刚启

国际油价涨势再起！俄乌拉尔油价破60美元西方限价令何去何从

2万余名人员昼夜抢修停电用户恢复供电超九成

人民银行：二季度末中长期贷款增速提升较多房地产贷款增速回落

7月31日外盘CFR中国PTA主流价格

涉嫌职务犯罪！上市公司董事长被留置并立案调查！公司曾是“新冠概念股”…

上半年洛阳发放公积金贷款36.54亿元

长虹美菱：7月28日融资买入968.27万元，融资融券余额8522.83万元

成都大运会丨艺术体操——中国队获得集体全能冠军

猜猜是多少RMC：皇马将以“极低的侮辱性价格”报价姆巴佩

开车前不要吃的水果！

LPL季后赛首个3比0！JDG达成七擒BLG成就，首支S赛队伍诞生

胡润专访④｜中国企业此时走全球化布局是最合适时机

遭遇强降雨，西城区椿树街道全面启动红色应急响应机制

保证书离婚时有效吗

洛克王国雪灵兽（洛克王国雪灵兽几点可以刷出）

万辰生物：定增申请获得深交所受理

湖北省新增2个国家物流枢纽

西门子全球执行副总裁肖松：中国是全球产业链供应链关键一环

日本央行“弹性化”政策未改变宽松立场

北京养护集团2300余名抢险人员备勤

南京：着眼顶层谋划再谋产业强市

百度摇号助手查询码忘了（百度摇号）

青岛智美好医整形医院怎么样快进来看

仰韶酒史馆 “揭秘”历代酒风陶韵

2023厦门工博会“聚焦新工业” 吹响“智造”集结号

高考成绩600分，却被民办三本院校录取，家长欲哭无泪

江苏省肿瘤医院结对帮扶淮安，共创共建淮安市区域肿瘤医疗中心

电脑鼠标总是在左下角电脑鼠标总是卡顿

哈尔滨香坊十大景点（哈尔滨香坊十大特产）