(北京16日综合电)最近,中国的深度求索DeepSeek大模型引发关注,通讯领域专家、复旦大学中国研究院特邀研究员汪涛日前分析,中文在人工智慧时代具有技术优势。他认为,DeepSeek充分利用了中文优势,所以在它爆火之后,很多人开始关注到这个问题。
汪涛与复旦大学中国研究院院长张维为11日在东方卫视“这就是中国”对谈,汪涛发表演讲提到,DeepSeek爆火,不是技术获得突破性进展,而是其效率获得了数量级的提升,在相同性能情况下,成本可以下降将近20多倍。
DeepSeek的团队几乎充份挖掘各种可能提升效率的技术,如采用底层编码的语言PTX,采用降低精度、“蒸馏”等方法,极大减少参数数量,还有混合专家架构(MoE)、多头潜在注意力技术(MLA)等。汪涛称,这些技术不完全是DeepSeek独创,但为什么DeepSeek能充份利用这些技术?他认为DeepSeek充份利用了中文的优势。

汪涛回顾,甲午战争失败以后,很多知识阶层反思自身,有认为汉字阻碍中国进入现代科技文明,或认为应改成拼音字母。到了电脑资讯时代,中文输入存在一定困难,直到上世纪80年代“万码奔腾”,很大程度降低中文电脑输入的困难。在大陆较著名的,有王永民发明的五笔字型输入法,另一个常用的是拼音输入法。
他认为,到了人工智慧时代,情况发生很大逆转,中文在人工智慧存在技术优势,主要跟中文的三个特质有关。首先,汉字在书写大小、发音长短非常整齐规整。语音识别时,每个字都是声母加韵母,相对容易区分出一句话中的每字发音。但英文单词长度不一,很多英文句子发音连读,需要更大的运算量,且几乎所有的字母文字都存在这个问题。
其次,汉字是表意文字,资讯密度一般比字母文字要高,内涵丰富,可用词组、成语、文言文等很少的汉字表达丰富含义。对人工智慧来说,绝大多数在相同内容情况下,中文训练的储存和计算量较少。但他也强调这并非完全绝对,因为英文也有自身优点,比如相对比较严谨,像在严谨的论文或法律文书,英文的资讯密度与中文差异就没有那么大。
第三点是中文的稳定性,汪涛指,今天使用的汉字与几千年前的甲骨文其实挺接近;对新出现的事物,汉字是透过常用字去建立新的词组,其稳定性让人工智慧的训练参数可以更少,有效的重覆训练可以更多、准确性更高。 相比之下,英文每年都会增加大量的新词,常用词都可能会发生变化。
汪涛指,从不同技术时代,看待中文技术的优劣势变化过程中,希望大家能更客观、科学态度去看待自己的文化。所谓利弊或优劣,永远是相对特定的要求来说的。不能因为遇到某种劣势就简单否定自己的文化,也不能遇到优势就自我膨胀。
文 综合报导
图 互联网