惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Forbes - Security
Forbes - Security
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
F
Fortinet All Blogs
B
Blog
T
The Blog of Author Tim Ferriss
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI
Y
Y Combinator Blog
Microsoft Azure Blog
Microsoft Azure Blog
L
LangChain Blog
Recent Announcements
Recent Announcements
U
Unit 42
Martin Fowler
Martin Fowler
M
MIT News - Artificial intelligence
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
The Register - Security
The Register - Security
Recorded Future
Recorded Future
C
Check Point Blog
V
V2EX
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Hugging Face - Blog
Hugging Face - Blog
WordPress大学
WordPress大学
Google DeepMind News
Google DeepMind News
酷 壳 – CoolShell
酷 壳 – CoolShell
F
Full Disclosure
小众软件
小众软件
A
About on SuperTechFans
云风的 BLOG
云风的 BLOG
宝玉的分享
宝玉的分享
Last Week in AI
Last Week in AI
有赞技术团队
有赞技术团队
MongoDB | Blog
MongoDB | Blog
爱范儿
爱范儿
P
Proofpoint News Feed
罗磊的独立博客
量子位
D
Docker
博客园_首页
D
DataBreaches.Net
Project Zero
Project Zero
博客园 - 司徒正美
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
博客园 - Franky
Security Latest
Security Latest
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
N
Netflix TechBlog - Medium
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
博客园 - 三生石上(FineUI控件)
H
Hackread – Cybersecurity News, Data Breaches, AI and More
大猫的无限游戏
大猫的无限游戏

方永、南天紫雲

linux透明代理 技术的边界 停机问题通俗说明 Rust与oracle、redis集群的纠结 学习能力的增长 微信调试的原语 mac外接移动硬盘安装ArchLinux linux的死机问题 linux下全键盘操作 漂亮又好用的bspwm linux本机透明代理 ssh、mosh、autossh linux不能待机又一例 从WordPress切换到Hugo 折腾电脑开机 linux系统QQ新思路 Arch Linux的字体渲染 svn管理之submin OpenWrt自动fucking墙記錄 二维码(qrcode)名片的一些事儿 用lua nginx module搭建一个二维码(qr code)生成器 CentOS 7 安裝註記 php程序連接MySQL时只能127.0.0.1而localhost無法連接的問題 ThinkPad之FAN_ERROR、hi fi聲卡 jetty多端口部署 OpenWrt簡單暴力限網 linux中cron之PATH变量 OpenWrt的WDS無線橋接模式 再敘OpenWrt下的rtl8187無線中繼 sed之模擬tail 終端進化之二零一三 linux下的郵件服務器:postfix_dovecot_roundcube 一次性密碼/動態口令卡原理 xl2tp之VPN靜態地址分配 rtl2838U2832试用记 linux中pptp协议VPN搭建 glances监控工具安装 CentOS6.4硬盘安装 Debian Wheezy硬盤/U盤安裝小記 Kirby小試 zsh shell怎么打开常用的目录? OpenWrt SSH免密码使用密钥登录 linux中的vsftpd的匿名(anonymous)用户配置 無光驅無USB無軟驅,怎麼修復硬盤MBR? 那些個人網站 linuxFreeBSD下的dnspod动态域名客户端 Windows系统盘的32K之殇 一枚Chrome插件引起的大量磁盤IO問題 用批處理切換網卡的IP(適用Win7、Win8) Windows中的DHCP服务器 Win8啓動時出現“您的電腦需要修復”問題的解決辦法 Windows8睡眠(待机)模式异常处理 最强大好用而又小巧的计算器 Windows8運行不能保存歷史命令 Win8下的红警2尤里复仇 为cmd添加readline,如Bash Shell般使用cmd 手动添加修改win8 win+x菜单 Win8運行卸載程序時提示2503之解決一法 烽火HG110提权一法 缓解眼疲劳有效的办法 mintty乱码解决办法 糟糠美妾 免费易用的Win8 ArchLinux的類box環境音量調節二三事 使用OpenWrt与curl挂QQ OpenWrt的安全 OpenWrt BCM63xx rtl8187使用注意事项 Arch Linux之systmed使用简介 Archlinux 2012.07.15之后发布的镜像新手安装完全向导 FreeBSD 9.0 安装简记 记一由FreeBSD引发的午夜惊魂 Jekyll or handmade wi-fi无线破解过程与原理简要介绍 修复QQ影音异常卸载后的文件关联 吐槽一下000webhost 为OpenWrt的luci Web界面加速 最小的sed for Windows linux的磁盘自动挂载 OpenWrt中crontab -e的使用 sddns(dnspod client for OpenWrt)使用说明 OpenWrt中vsftp添加新用户 php+markdown写博客 linux arp防火墙之p2p终结者 墙外的世界很精彩 OpenWrt使用dnspod的动态域名解析(ddns)功能 OpenWrt架设nginx php网站 openwrt架设uhttpd+php+sqlite网站 vim自动跳到上次离开的光标位置 OpenWrt无线中继配置文件 修行八支 漫步者R201T打摩升级改造 阿里(Ali)3328系dvb接收机软件升级方法 db120刷OpenWrt固件并使用ppp方式ADSL拨号 移动短信助手 chrome tips一则 cdate,显示中国传统农历日期 更改硬盘模式为AHCI后Windows及linux的调整 使用grub2加载软盘和光盘镜像 电脑用数据线连接手机上网 电脑通过蓝牙连接手机GPRS上网
[转载]世界上都有什么语言?
zola · 2011-07-06 · via 方永、南天紫雲

from:http://www.360doc.com/content/09/1015/18/320191_7324318.shtml

世界上都有什么语言?

2007-07-04 15:11

总的来说,语言学能够指出两种语言有多么相似,但是认定是否同种语言的问题,更多地是依赖于国家、民族、政治、历史等多种因素。比如克罗地亚语(Croatian)和塞尔维亚语(Serbian)其实完全是一种语言(统称塞尔维亚-克罗地亚语,Serbo-Croatian),只是前者采用了罗马字母,而后者采用的是西里尔字母(Cyrillic,就是俄语所用的字母),这与两个民族的历史文化有关。与此类似,捷克语和斯洛伐克语之间可以毫不费力地听懂对方,就象两种方言一样,但是人们传统上还是把它们看作两种不同的语言。

一种语言可以由两种书写符号(字母)表示,同样地两种语言也可以共用一套书写符号。如藏语,就是由于公元七世纪一个西藏喇嘛到克什米尔进修后引入了梵语字母(Sanskrit,即印地语的前身)这使它们看上去有些相似,然而这两种语言之间毫无联系:藏语属于汉藏语系而印地语属于印欧语系。

我们熟悉的汉语、日语和朝鲜语,由于后两者在中世纪时大量借用了汉字,人们一直怀疑它们之间有某种联系,然而至今为止尚未发现任何令人信服的证据证明它们之间有联系,实际上日语和朝鲜语与当今世界上任何已知的语言,无论是“活着的”还是“死了的”语言,都没有发现任何肯定的联系。

在研究了世界上一些主要语言以后,语言学家也象生物学家那样,把世界上的语言按相似程度分为语系、语族、语支和语种。世界上主要的大语系有:

语系 代表语种 占世界总人口比例(约)

印-欧 英语、法语、俄语、印地语、波斯语 48%

汉-藏 汉语、藏语、泰语、缅甸语 24%

尼日尔-刚果 斯瓦希里语 6%

亚-非 阿拉伯语、希伯来语 5%

马来亚-玻利尼西亚 印度尼西亚语、马来西亚语 5%

德拉维达 泰米尔语 3%

阿尔泰 土尔其语、蒙古语、哈萨克语 2%

除了上面这些“可以归类的”语言以外,还有几种所谓的“独立语言”:

日语(2%),朝鲜语(1%)和越南语(1%)。这些独立语言与所有现存的语言没有明显的联系,这当然也和它们研究得不够有一定关系。比如日语与朝鲜语可能有一些关系。具有讽刺意味的是,尽管它们都不同程度地采用了汉字作为书写语言的一部分,它们与汉语都没有联系。

当然谈到“世界的语言”,还应当包括几种“人造语言”,如世界语——Esperanto。尽管还没有人以它们作母语。

印欧语系是世界上最大的语系,覆盖了几乎所有的欧洲、美洲,和亚洲、澳洲的很大一部分。它包括两种伟大的古典语言:古希腊语和拉丁语;包括象英语德语,菏兰语(在比利时也叫佛兰芒语,Flemish)和瑞典语一类的日耳曼语族;包括象法语,意大利语和西班牙语一类的罗曼语族;包括象俄语,波兰语,捷克语和塞尔维亚-克罗地亚语一类的斯拉夫语族;包括象威尔士语和盖尔语(Gaelic,在苏格兰和爱尔兰)这样的塞尔特(Celtic)语族;包括巴尔的(Baltic)诸语言;包括伊朗的国语波斯语;包括诸如印地语、孟加拉语一类的印地语言;等等。

接下来我们可能会问:原始的印欧人生活在什么年代?是从何处“发迹”的?

现在找不到原始印欧人留下的任何“书面材料”,因为人类使用语言的历史远比使用文字的历史久远。所以,最好的办法就是分析他们的语言。我们可以假定如果一个词在大多数印欧语言中都很相似,那就是一个他们已有的概念;反之就可以认为那是一个后来才知道的概念:这就是语言学重现“化石语言”所用的方法。

通过重建古代印欧人的语言,我们大约可以了解到:原始的印欧人生活在寒冷的北方森林中一个不靠近水的地方,他们饲养的家畜有马,牛,羊和狗,他们知道的野生动物有狼和熊,他们知道的金属可能只有铜。许多人认为马和战车使他们在征战中能取得很大优势从而扩展到后来的辽阔地域。(玩过civilization的朋友们知道horse和chariot在古代战争中的作用:-)

一般认为原始印欧文明起自于公元前三千年,也就是五千年以前的东欧某地,大约在公元前二千五百年它分裂了,人们离开故乡分好几路向四面八方迁移。其中一路到了希腊,另一路到了意大利(这两路分别是古希腊和古罗马文化的起源)。另一路穿过中欧一直到达不列颠诸岛(他们是苏格兰人,爱尔兰人和威尔士人的祖先)。还有一路北上到了俄国,同时又有一路跨过伊朗,阿富汗最终到了印度。他们每到一处,就征服或同化当地的土著,把自己的语言传播到那里。应该说他们是一个出色的民族。

许多语言可能是从一个祖先那儿演变出来的,这想法最早是在1786年提出来的,尽管早在十六世纪有人就注意到了梵语和意大利语之间的相似性。到了1818年,有五十多种语言归到了印欧语系中,然后在1854年,人们把独特的阿尔巴尼亚语也归了进来,1875年又加上了亚美尼亚语。如今在欧洲,只有芬兰语、匈牙利语、土耳其语、巴斯克语(在西班牙和法国交界处)

和前苏联境内的几种语言不属于印欧语系。

在亚洲,印欧语言出现在伊朗、阿富汗、巴基斯坦、印度和孟加拉等国家。值得注意的是,虽然在印度,印地语(Hindi)是最大的语言,但是操非印地语的当地原住民势力也很强大。印度有一百五十多种语言,但讲任何一种语言的人都不超过百分之三十。所以它在1947年独立时不得不同时采用印地语和英语作为官方语言——一半以上的印度人根本就不懂印地语嘛。在大约公元前一千年印欧人入侵以前,当地原住民所操的德拉维达语系(如泰米尔语)

和蒙达语系,如今在印度中、南部人口中仍占很大的比例。在巴基斯坦和孟加拉国大部分人讲印欧语言。他们都能在一定程度上听懂印地语,但互相之间却很难听懂。一个学法律的孟加拉朋友告诉我,他认为二十年前巴、孟分裂成两国,除了地理上的隔阂外,语言上的隔阂也是一个重要因素。

印欧语言之间究竟有多象?印欧语言与非印欧语言的差别有多大?看看几个“基本词汇”之间的比较:

英语month mother new nose three

威尔士语mis mam newydd nos tri

德语Monat Mutter neu Nase drei

瑞典语ma^nad moder ny na”sa tre

法语mois me`re nouveau nez trois

西班牙语mes madre nuevo nariz tres

意大利语mese madre nuovo notte tre

俄语mesyats mat’ novy nos tri

希腊语men meter neos rhis treis_ _

波斯语mah madar nau bini se_ _

梵语mas matar nava nas trayas

芬兰语kuukausi a”iti uusi nena” kolme

匈牙利语ho’nap anya u’j orr ha’rom

土耳其语ay anne yeni burun u”c,

(记得去年网上有不少人与锺先生争论说世界语(Esperanto)不是世界语而仅仅是欧洲语言的代表,我们也可以看看它与印欧语言的联系究竟有多强。:-))

英语,作为当今世界事实上的国际社交语言,它取得的成功是史无前例的。从使用它的人口来说,以英语为母语的人数仅次于汉语而居世界第二位,大约有四亿多人。然而以英语作为第二语言、或者在一定程度上使用英语的人数,要远比这多得多,可以说分布在世界的各个角落、各个民族,在这一点上汉语是望尘莫及的。它是怎样发展起来的?

英伦三岛的第一批印欧居民是塞尔特人。原先岛上可能还有更早的居民,但是人烟稀少,所以没有留下多少遗迹。前文提到,塞尔特人是古印欧人的一支,大约在四千五百年前离开他们在东欧的故乡向西迁移,在公元前一千年时(相当于我国商朝末年、西周初年),他们成了德国南部、阿尔卑斯山北麓的一个强大民族。在公元前五百年左右(相当于我国春秋时期),他们开始向西迁移,后来到了英伦诸岛。这就是印欧人的第一次“入侵”。

印欧人的第二次入侵是在公元五世纪中叶,当时生活在现在的德国和丹麦交界处有两个部落,一个是石勒苏益格(Schleswig)的盎格鲁(Angles),另一个是霍尔施坦因(Holstein)的萨克森(Saxon)。石勒苏益格/霍尔施坦因现在是德国最北面的两个州,是第一次世界大战时德国从丹麦那里“取得”的。这两个部落从那里跨过北海,占据了英格兰,原来的塞尔特人很快地后退到威尔士、爱尔兰和苏格兰高地。English一词就出自Angles,原意为“角落”,意即他们来自欧洲大陆的一角。在古英语中Angle写作Engle,他们的语言叫做Englisc(在古英语中“sc”读如“sh”,如“sceap”—— “sheep”)。顺便说一句,“塞尔特”(Celt)中的c可以读如s或k,所以也叫“凯尔特”,美国人中有许多来自苏格兰和爱尔兰,所谓的“美国腔”可能是凯尔特口音。波士顿不是有个著名的球队叫“凯尔特人队”嘛。

古英语一直发展到公元1066年法国的诺曼人入侵。在此以前,由于受北欧人和罗马人的影响,许多斯堪地那维亚词汇和拉丁词汇溶了进来。前者如egg,cake,skin,leg,window,husband,sky,fellow,skill,anger,flat,ugly,odd,get,give,take,raise,call,die,they,their,them;后者如street,kitchen,kettle,cup,cheese,wine。塞尔特语的遗迹大多留在地名中,如Thames,Kent,Dover。

诺曼人的入侵为英语带来了大量的法语词汇,这使得现代英语中存现大量的同义/近义词:shut/close,answer/reply,smell/odor,yearly/annual,ask/demand,room/chamber,wish/desire,might/power(英语词/法语词)。有一个有趣的现象是产肉的动物多是英语词,如ox,cow,calf,sheep,swine,deer,而它们的肉则是法语词,如beef,veal,mutton,pork,bacon,venison。大概持法语的多为贵族统治者,只注意他们餐桌上的肉,并不在意牲畜们叫什么。

另外在已有的英语/斯堪地那维亚语同义词基础上,如英语的wrath和斯堪地那维亚语的anger之外,法语又加了个ire。连我们汉语也贡献了几个词:kowtow(叩头),typhoon(台风),sampan(舢板),kaolin(高岭土),tea(闽方言),shanghai(不是地名:-))。

这些外来语使英语成为一个表达力丰富的语言。尽管溶入了如此众多的“外来语”,古英语仍然构成了它的核心——不到五千的古英语单词一直保持到了今天。在此期间英语逐渐向高层发展,1399年继承王位的亨利四世是第一个以英语为母语的英国国王。在十四世纪快要结束的时候,乔叟(Chaucer)完成了『坎特伯雷的传说』(Canterbury Tales),以伦敦方言为代表的现代英语终于开始出现:一个来自当年“角落”的语言。

在结束讨论印欧语言时,再顺便举个例子说明语言学研究对于其它学科的帮助,如史学和民族学。欧洲有个民族叫吉卜赛,他们是什么人?从哪儿来?这问题长期没有答案,好象他们自己也说不清楚,因为直到不久前他们中的大多数还是文盲,没有文字记载的历史。以前有人根据英语“吉卜赛”(Gypsy)

一词认为他们来自埃及(Egypt)。后来通过对他们语言的仔细研究发现他们来自印度——从他们的语言(叫做Romany)与梵语及后来的印地语的共同特征中得不出任何别的结论。吉卜赛人从公元(后)一千年左右开始向西迁移,途经的波斯、亚美尼亚和希腊都在他们的语言中留下了不同时期的痕迹。现在听到一些老美爱说“pal”,这词就来自吉卜赛语phral,意为“兄弟”。

好,终于轮到汉-藏语系的故事了。汉藏语系里有一个“大家伙”,不用猜就知道。它占汉藏语系总人口的85%以上。不过,对于非印欧语言的语言学研究都不如印欧语系那样深入,它的起源、发展、演变等都有许多问题有待解决。

有一个笑话说,从前有个人认字只看个大概,一次有个不识字的问他路边一家铺子叫什么字号,那店铺上书:“天义斋”(用大五码看“天義齋”)。他看了一眼说:

“叫‘大盖齐’”。咱现在也只能来他个“大概齐”了……。

汉藏语系分四个语族:汉语自成一家;藏-缅语族,包括藏语和缅甸语这两大语种,以及彝、僳僳、纳西、拉祜、景颇、京等上百个小语种;泰-老语族,包括泰语和老挝语这两个国语,以及壮、布依、侗等几个小语种(壮语不应算小语种!有一千多万人讲壮语,比一些小的语系还大,他们不是还有自己的自治区嘛);还有一个苗-瑶语族,由苗语和瑶语组成。另外,不少人认为越南语与汉语有远亲关系,事实上越南语有一半的词来源于汉语,但是它们的关系仍有待进一步研究。

讲汉藏语言的人除了在中国以外,还分布在缅甸、印度、尼泊尔、泰国、老挝等国,以及在东南亚和世界各地的华人中。总之,持汉藏语言的各民族中,汉族生活在最北面。

汉语是论人口世界上最大的语言,有十多亿人以汉语为母语:这包括在台湾的二千万、马来西亚的五百万、泰国的五百万、香港的五百万、新加坡的二百万、印度尼西亚的一百万、越南的一百万等。汉语是联合国1945年成立时的五种工作语言之一(1974年又加上了阿拉伯语)。

汉语有七种主要的方言:北方方言约占总人口的四分之三,所覆盖的地域包括中国的东北、华北、西北、山东、河南、湖北和安徽、江苏的长江以北部分、四川、云南和贵州的汉族人聚居区,在另外还有一些北方方言的“孤岛”在福建、广西和海南;吴方言,通行于江苏的长江以南部分、浙江和上海市,人口有七千万,是第二大方言;粤方言,主要流行于广东、广西和海外华人中间,约有六千万人;闽方言,通行于福建、台湾和东南亚诸国,约有六千万人,其中情形十分复杂,到了互不通行的程度,可能是汉人在秦汉时代南侵时与当地的语言交互的结果;湘方言通行于湖南;赣方言通行于江西,这两种方言的特征不太突出,受周围方言的影响较大;还有客家话,主要分布于广东、广西、福建和台湾。这些“方言”之间差别常常是很大——比如北京人听广州人讲话,决不比英国人听法国人讲话轻松,台湾人去听陕西话,也会听得一头雾水。是什么理由语言学仍把这些方言统统归为一种语言?除了长期以来的统一民族、统一文化和统一国家这些因素以外,还有一个重要的原因是文字——汉字。

从商朝的甲古文开始,汉字有三千多年的连续历史,三千多年来汉字的字形、字义的变化都是连续的。与大多数其它语言不同的是,汉字的发展经历了一条象形—表意—形声的途径。这条道路产生了两个主要效应:第一,随着文明的不断发展,语言所要表达的概念不断增加,使得汉字拥有了一个数量庞大的字符集(虽然现代汉语已经不用增加字符来表达新的概念,而是创造新词,这在一定程度上减少了使用的字数)。汉字的庞大的字符集使它显得非常复杂:难学、难记、难用;第二,历史上的汉字作为表意文字(ideograph),文字与语音没有直接关系,无论用哪种语言或方言去读,意义没有变化。这是几千年来各种口语分化交熔变迁,而汉字一直作为一种统一的文字被所有人认同的原因。这一优势甚至体现在当它被别的语言借用的时候:哪怕不懂日语的人也能读懂一半意思吧。汉字使操不同口语的人互相交流成为可能,而隔膜是统一的主要障碍。

后来,随着汉字的演变,汉字已不再是纯粹的表意文字,许慎『说文解字』中的9353字里面,“形声字”占了80%以上,“会意字”不到20%,而甲骨文中形声字仅占20%多。特别是近年来多音词的比例急剧上升,汉字已向表音文字方向发展。(关于“形声字”、“会意字”,后面还要提到。)

现代汉语的文字仍有几万字之多,但是使用频率极不平衡。据北京语言学院1985年的统计结果,最常出现的前十个字及其出现频率为:

的 4.16% (你每说二十五个字就要说一个!)

一 1.84%

了 1.71%

是 1.52%

不 1.37%

我 1.28%

在 1.08%

有 0.98%

人 0.97%

这 0.93%

累计 15.85%

前100字的累计字频已达47.34%,500字到了79.76%,2000字覆盖了98.07%,如果你认识4000字(就象我一样),你读一万个字只有四个不认得(当然读我写的东西再多你也不会有不认得的字,因为我认的字和你一样多)。

语言学院还统计了词:共计出31159个不同的词,其中单音节词(一个字的)占12.2%,双音节词73.6%,三音节词7.6%,四音节词6.4%五以上的占0.2%,平均词长2.09。前100词的累计频率为41.7%,2000词为82.2%,9000词为95.85%。不同汉字的构词能力(与别的字组成新词的能力)也不一样,最多的是“子”字,构词668个。

汉字是怎样起源、怎样演变的?据汉代纬书『春秋元命苞』:“仓颉生而能书,及受河图录字,于是穷天地之变,仰视奎星圜曲之势,俯察鱼文鸟语,山川指掌,而创文字。”文字虽美,实无所据。传说仓颉为黄帝的史官,而黄帝的生存年代及其事迹都属传说史的范围,具体内容多不可究,“仓颉造字”实在太玄了。又『易经』云:“上古结绳而治,后世圣卜易之以书契。”,意思是说从前的人结绳记事,后来有“圣人”把这改造成了文字。绳结与文字差距甚大,不以为然也。

后世的汉文字学家一般持两种看法:起源于原始氏族社会晚期的陶器符号,或起源于原始图画。得到考古支持的商代甲骨文最早出现在三千三百年前,这比古埃及的文字及两河流域的苏美尔文字都要晚近二千年,汉字学家因而不服,他们认为最早的甲骨文被发现时已有了一定程度的会意和形声成分,所以文字的出现应当比那时早得多(范文澜:『中国通史』,人民出版社1954),因而推断说例如山东龙山文化中的陶器符号可能是原始的文字(龙山文化据今四至五千年)。这些目前仍缺少考古证据和足够的研究。顺便提一句,至今共发现了五千个以上的甲骨文单字,其中可以认识的约有一千七百字。

总之不管从哪儿来、来了多久,从“帝盘庚迁殷”(约在公元前1312年)时开始,汉字开始了它的长达三千多年的连续发展史,中华文明史也开始了连续至今的文字记载。可以想象,一开始的象形文字(hieroglyphs)工作得不错。可是随着汉语的不断丰富,有些语言不能用形象表达了,怎么办?

古埃及人和苏美尔人开始创造一些仅代表发音的符号来记录这些语言;玛雅人(美洲印第安人)开始借用那些画得出来的同音字来表达它们(例如,借用画得出来的“eye”来表示画不出来的“I”,汉语中叫“通假字”);而中国人则想出了一种叫做“形声字”的“中庸之道”:用两部分拼成一个字,一半表示发音一半表示意思(属性),象“中-盅-忠-钟-种-肿,羊-洋-痒-样”之类。这真是一个好办法:既能表达大量的新概念又与旧的文字体系“兼容”,于是大喜,到秦篆时形声字大增,汉字总数已数万,每当出现一种新概念我就发明一个新字来对付你,一字一意,文章简短,节约用纸。汉字的表达能力大大增加,形成了一个完备的文字体系。春秋战国时期的文化大发展与此不无关系。

原来我们从小学习表意文字,觉得从象形文字演变到现在的汉字非常自然,觉得从象形文字演变到拼音文字很不可思议:现在看来后者比前者好象更自然一点。拼音文字的演变想在讨论中、近东语言的时候再提。

作为语言发展历史的一部分,会意字、表音字和通假字也不同程度地存在于汉语中。会意字如“日+月=明,女+子=好”,这类字是在原始象形文字基础上意义的扩展,但是因为表达能力仍受限制,所以它们占的比例也不太大。通假字在古汉语中出现得比现代汉语多得多(如“说-悦”),说明当时人们也想从这方面想办法,后来认识到这不现实。试想,如果所有的抽象概念都用同音异字表示,那文章读起来大概是太累了,而且多半读不懂。事实上没有一种文字能纯粹用这办法解决问题,最多是部分地采用这技术,多了就不灵了。汉字也有少量的表音字,如“阿”,没有任何意义,只表示一个音节。自春秋时期开始形声字得到了极大的发展,具有了很强的表达能力,这可能反而抑制了向表音文字的进一步发展——表音文字在汉语中至今仍处于初级阶段。

在结束汉-藏语言的讨论前,再看一眼我们的邻居们。在中国境内的语言是多种多样的,北方的语言多属阿尔泰语系,有属阿尔泰语系突厥语族的维吾尔语、哈萨克语、乌孜别克语、柯尔克孜语、塔塔尔语(鞑靼语)、撒拉语(青海境内的撒拉族);阿尔泰语系通古斯语族的满语、锡伯语、鄂温克语和鄂伦春语;阿尔泰语系蒙古语族的蒙古语、达斡尔语、东乡语和土语(青海土族的语言);还有印欧语系的俄语和伊朗语族的塔吉克语等等。南方的语言多属汉藏语系,除了上文提到的汉-藏语系诸语言外,尚有属南亚语系孟-高棉语族的佤语和德昂语、布朗语,以及属南亚语系印度尼西亚语族的高山语(台湾高山族)。

中国境内文字的种类同样多种多样。除了使用(或部分使用)汉字的语言以外,还有许多使用罗马拼音文字,如壮文。这其中又有不少是原本没有文字的,“新中国成立后,当地人民政府依照本民族人民的意愿,为他们创造了以拼音字母为基础的文字。”还有使用梵语字母的如藏文,使用阿拉伯语字母的如维吾尔文,使用“十三世纪维吾尔文”的蒙文、满文、锡伯文(维吾尔人后来丢了自己的文字用了阿拉伯文,呜乎),有些民族使用自己的表意文字,如彝文。还有用象形文字的纳西文(可能现在已经不用了)。至今没有自己文字的民族都借用了就近的大语种文字。

朝鲜族用的朝鲜文是维一东方自己发明的“纯粹”拼音字母。说它是“纯粹”,因为它有表达元音和辅音的完整音素集合。音素(phone)是人能分辨的最小语音单位。与此相对的是日语的假名,虽然也是拼音文字,但是每个假名表达的是整个音节(syllable)而不是音素。朝鲜语在语法结构上最象日语,但是它们的词汇并不相似,所以它们的关系仍有待于进一步研究。另一方面,朝鲜语又从汉语借走好多词汇,但在语法结构上又非常不一样。有人认为朝鲜最早的居民是一万年以前从北方移入的通古斯人一部。朝鲜文字母发明于十五世纪中叶(相当我国明朝前期),共有二十五个字母——字母在哪儿?

你要是仔细看就可以看出,虽然它们看上去象一个个的“方块字”,但每个“方块字”其实是由一些更小的“小零件”组成,这每个“小零件”就是一个字母,它们的种类是有限的,对吗?他们的字母不象其它拼音文字那样排成一条线,而是上下左右错落有致地拼在一个方块内,非常别致。象“眼泪”这个词,它们读作nunmul(nun意为“眼睛”,mul意为“水”),写成从左到右两个“方块字”:

nmuunl

在亚洲的东南部,不是还有菲律宾、马来西亚、印度尼西亚等国吗,他们的语言是什么样子的?

他们的语言属于马来亚-玻利尼西亚语系,又有人把这语系与孟-高棉语系(主要是柬埔寨的高棉语)和印度南部的蒙达语系合称“南亚语系”。这一系语言横跨了半个地球:东起夏威夷诸岛,西达非洲东南的大岛“马达加斯加”(Madagascar),包括了几乎所有的印度洋和太平洋岛屿(包括密克罗尼西亚、美拉尼西亚和玻利尼西亚诸岛,但不包括巴布亚新几内亚和澳洲)。

它包括四种国语:马来西亚语、印度尼西亚语、他加禄语(菲律宾语)和马拉加斯语(马达加斯加),总人数有二亿多。关于他们的祖先,有人类学家认为是生活在中国大陆东南沿海地区,在公元前二千纪至一千纪之间汉族人开始南侵的同时,他们的航海技术也发展到了一定的水平,开始向海外移居(不知是不是受到了汉族的压力),台湾高山人可能就是他们的后裔。在其后的二千年间,他们遍布了如此众多的海岛,占据了如此辽阔的海域,这应当算一大奇迹——尽管他们自己可能倒没意识到。有人说,是航海、贸易与殖民造就了今日的资本主义,那他们的航海要比西方的“厉害”得多,也早得多,为什么一点儿也没有“发达”的意思?

澳大利亚和巴布亚新几内亚的语言和上面讲到的马来亚-玻利尼西亚语言又有很大不同。

所谓澳大利亚语言,当然是指生活在那儿的土著居民,白种人们自然是讲英语。

今天在澳大利亚的土著人只剩下数万人,可是他们仍在讲数百种语言!对这些语言的研究进行得很不充分,连它们是否属于一个单一的语系也没搞清楚。由于澳大利亚自人类出现时就已经成为一块独立的陆地,所以,所谓的“当地土著”,肯定也是什么时候从其它地方迁来的。澳大利亚本地的哺乳动物都是非常原始的有袋类,离进化到人类还差十万八千里。现代许多人类学家认为当地人是新石器时代某个时候从马来亚——印度尼西亚渡海而来,可这还没有找到足够的语言学方面的证据支持(其它方面可能有证据,我不清楚)。今天,许多当地的语言都面临绝灭,可怜它们作为历史的遗迹只在英语中留下了象kangaroo,koala等少数几个词汇。

在巴布亚新几内亚的情况与此相似:三百多万人说着五、六百种语言,从这不难想到,有些语言肯定只有很少的人使用,有的可能只有一个村子,甚至一个家庭。邻村的人可能互相都听不懂,许多人尚生活在石器时代。所有这些给独立后的政府提出了很大的难题:不可能找到一种(甚至几种)当地语言作为官方语言来发号施令。所幸的是,在几百年的殖民统治以后,当地土著居民发明了一种叫“洋泾浜英语”的交流工具,它取得了官方语言的地位。

“洋泾浜”是俗称,正式的称呼是皮钦英语(Pidgin English)。“洋泾浜”一词来自上海原来的一条河,就是现在的延安路。当时在上海英租界也有自己的“洋泾浜英语”,“假洋鬼子”们常常使用。