人人都是艺术家！谈谈那些奇怪的字符

本文主要是介绍人人都是艺术家！谈谈那些奇怪的字符，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前言

编码，是每个程序员绕不开的话题。对于前端工程师而言，字符更是会直观地展示在界面上。
提起文字，大部分人的脑中，都会定式为规整排列的字符。但是林子大了什么鸟都有，世界上可是存在着6800+种文字，难免会飞出来一些诡异的鸟…
而号称“万国码”的Unicode，在实现编码与展示的时候，也会不会遇到一些奇葩的事情呢？

事实上，可能你早已见识过了：

x̙͈̝͍͕̙̄͛̽̆͌́̕͟g̘̣̠̝̟̤̥̼̼̽͑͋̈̑̒͟͞q̛̤̦̝̘͎͋̔̋͌͒̆̋̚͡f̵̢̙͇̮̠̋̀͌̅̉̃̔͜͜͠͡r̢̜̩͙̭̲͓͈̈̀͑̆͋̚͢͜m̷̛͙̝̣̲̭͍͉̊̓̾̈̋̿̚͢͟͠s̷̡̩͔̮͈̜̊̽͂̆̈́̃̓͋̏

热҈的҈字҈都҈出҈汗҈了҈

你的屏幕被蓝翔挖掘机给挖坏了不信你看;̷̸̨̀͒̏̃ͦ̈́̾̀́̎͢҉̵̶͚̼͉͖̺̥͔͇̰̹̮͙͉̻̼̭̻͕̮͇ͨͬͪ͗̇̑̽͋̀̋̊͌ͧͨͭ̓̅͐ͥ̂̔̊ͧ͊҉̶̵̷̞̩̦̳̺̳̬̬̩̣̫͇̯̥͖͍͕̠̦̼̗ͯ̽͌̔ͪͯ́́͋̍ͨ̿̿̎͒ͤ̓̅̀͂ͧ͋̏ͫͣ̔͘͜͠͏̶̵̸̧̧̥̺͓̘̺͎̜̥͕͈̝̫͎̺̮̱̤̠̠͖̳̻̥̣̪͍͕͇̮͙̹̪ͮͧͫ͂͒ͤͣ̌̽ͨͪ͒̄̄̉̒̊ͩ̅͆͘̚͘͘̚͟͟͝ͅ

今天我们就来探讨一下这些奇怪的字符。

一、文字可以戴帽子和穿鞋子

提起泰文，很多朋友都会立即想到：萨瓦迪卡（你好）。
但这句话是怎么写的呢？
其实这句你好，男生和女生之间还有差异，男生写法是：สวัสดีครับ，女生则是：สวัสดีค่ะ。

不过这并不重要，重要的是，我们发现某些字的上面，还带了特殊的符号。就好像是戴上了帽子。
事实上，泰文字符不仅会“戴帽子”，偶尔还会“穿鞋子”。
比如下面三个字符：ผ ผู ผู้

如果脑洞再大一点，有人就会想，那是不是还可以戴多顶帽子呢？
的确如此…泰文允许你穿一双鞋子，并且戴两顶帽子。完整的形式是这样的：

所以，平时看惯了中英文的我们，需要改变一下思路了。
世界上的文字，并不全是规规整整横向排列的格子，也存在像泰文这种变形金刚组合式的文字。

虽然标准的泰文里，“帽子”和“鞋子”的数量是有限制的，但由于国际码的迷之设计（先卖个关子），在计算机里显示的泰文字符，却可以拥有无数的帽子和鞋子。也就是说，它变成了一款可以在Y轴无限拓展的文字！

并且，咱不光可以往上喷，还可以有一定角度…

还可以，简直是不讲道理。

（由于一些系统会崩溃，这里使用截图）

二、人与机器的矛盾

然后我们会质问Unicode，你为何不讲道理？
如此的设计，近乎是一个bug；但即使是bug，也应该早就修复了呀。

事实上，这样的设计，是为了解决一个问题：人与机器的矛盾。

首先是存储的矛盾。
如果把每个组合好的泰文用一个编码来表示，那么至少需要44×21×4=3696个编码（实际上可能要比这还多）。用如此多的编码来处理基本元素只有69个的文字是非常浪费的，因此电脑采用一套称为复杂文字编排（CTL）的设计来解决矛盾。
简单的说，泰文的每个基本字符对应一个编码，用户在输入法里依次输入多个基本字符进行拼合，最后敲一个特殊的“结束字符”；这时前面输入的基本字符，就拼合成了一个单独的泰文字符，在屏幕中显示。这样就解决了存储的空间浪费问题。

但这样就带来了第二个矛盾，识别的问题。
人可以轻松地识别一个泰文合字是否拼写正确、有意义；但机器在显示时却很难进行判断，即使可以也会带来相应的性能问题。
如何解决呢？如今会在输入法上做一些文章，比如打一个声调符号后就不能再输入了。不过，由于泰文这种基于结束标志合成字符的本质，你还是没法避免“艺术家”们使用复制粘贴、手工撰改字符位置等方式去进行创造，只能起到一些限制作用。

其次，在比较新版本的Webkit里，在显示上会阻止这种往上下冒的字符，这样至少不影响排版。所以有部分字符已经不会出现上下叠加的情形了，你可以在不同浏览器，观察一下这个字符的显示：ส็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็