成本差异铸成 AI 鸿沟?牛津:汉语训练费用是英语的 2 倍
①牛津大学的一项研究表明,从诸多大型语言模型(LLM)的计费方式看,英语的输入和输出比其他语言要便宜得多;
②简体中文的训练费用约是英语的 2 倍,而缅甸掸语的费用为 15 倍;
(资料图片)
③语言的成本差异导致英语使用者和其他语言使用者之间形成 AI 鸿沟。
财联社 7 月 31 日讯(编辑 周子意)如今的大型语言模型(LLM)可以理解世界上很多语言,甚至是一些记载较少的语言。不过,大模型处理不同语言之间时,其性能上存在很大的差异,这是由于模型成本与其所训练的语言紧密挂钩。
牛津大学最近进行的一项研究表明,从诸多语言模型的计费方式看,英语的输入和输出比其他语言的输入和输出要便宜得多。例如,西班牙语的成本约为英语的 1.5 倍,简体中文的价格约为 2 倍以上,缅甸掸语在 15 倍以上。
成本的差异也间接导致英语使用者和世界其他语言使用者之间形成 AI 鸿沟。
成本差异主要是因数据标记化所带来的。标记化就是将训练文本分解成更小的单元,这个更小的单元就是标记(Token)。这是一个人工智能(AI)公司将用户输入转换为计算成本的过程。
研究显示,使用英语以外的语言访问和训练模型的成本都更高。例如中文,无论是在语法上还是在字符数量上,都有更复杂的结构,从而导致更高的标记化(Token)率。
举例来看,基于 OpenAI 公司的 GPT2 模型,对于 " 国家不同,所得税的结构是不同的,税率和税率等级也有很大的差异 " 这句话的处理来看,在简体中文处理中运用到了 66 个 Token,在英语处理中仅用到了 24 个 Token,而在禅语处理中使用到了 468 个 Token。
就每次输出所需的费用而言,汉语的成本是英语的两倍。所以在 AI 相关的费用中,英语的成本效益是最高的。
当涉及到语言模型时,设计者的主要目标是实现低成本和高效功能之间的平衡。随着 AI 领域的不断发展,科技公司必须仔细考虑语言选择对成本和可访问性的影响。
这种成本差异促使中国、印度等国家纷纷开发自己的母语 LLM 项目。
关键词:
责任编辑:宋璟
-
成本差异铸成 AI 鸿沟?牛津:汉语训练费用是英语的 2 倍
-
海电运维业绩向上 2022年现金流数据双降净现比0.26
-
华联股份(000882)7月31日13点12分触及涨停板
-
洋县:加强水源地保护 确保一泓清水永续北上
-
“大飞机”核心技术已突破!这家企业,股价有望从25元到100元
-
记者手记:“村超”总决赛落幕 但“村超”大幕刚启
-
国际油价涨势再起!俄乌拉尔油价破60美元 西方限价令何去何从
-
2万余名人员昼夜抢修 停电用户恢复供电超九成
-
人民银行:二季度末中长期贷款增速提升较多 房地产贷款增速回落
-
7月31日外盘CFR中国PTA主流价格
-
涉嫌职务犯罪!上市公司董事长被留置并立案调查!公司曾是“新冠概念股”…
-
上半年洛阳发放公积金贷款36.54亿元
-
长虹美菱:7月28日融资买入968.27万元,融资融券余额8522.83万元
-
成都大运会丨艺术体操——中国队获得集体全能冠军
-
猜猜是多少RMC:皇马将以“极低的侮辱性价格”报价姆巴佩
-
开车前不要吃的水果!
-
LPL季后赛首个3比0!JDG达成七擒BLG成就,首支S赛队伍诞生
-
胡润专访④|中国企业此时走全球化布局是最合适时机
-
遭遇强降雨,西城区椿树街道全面启动红色应急响应机制
-
保证书离婚时有效吗
-
洛克王国 雪灵兽(洛克王国雪灵兽几点可以刷出)
-
万辰生物:定增申请获得深交所受理
-
湖北省新增2个国家物流枢纽
-
西门子全球执行副总裁肖松:中国是全球产业链供应链关键一环
-
日本央行“弹性化”政策未改变宽松立场
-
北京养护集团2300余名抢险人员备勤
-
南京:着眼顶层谋划 再谋产业强市
-
百度摇号助手查询码忘了(百度摇号)
-
青岛智美好医整形医院怎么样 快进来看
-
仰韶酒史馆 “揭秘”历代酒风陶韵
-
2023厦门工博会“聚焦新工业” 吹响“智造”集结号
-
高考成绩600分,却被民办三本院校录取,家长欲哭无泪
-
江苏省肿瘤医院结对帮扶淮安,共创共建淮安市区域肿瘤医疗中心
-
电脑鼠标总是在左下角 电脑鼠标总是卡顿
-
哈尔滨香坊十大景点(哈尔滨香坊十大特产)