我的汉字输入法编码方案

本文主要是介绍我的汉字输入法编码方案，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

很早就有了这个东西，因为一直没学会编写输入法程序，所以就没有拿出来现眼。
方案尽量简化，主要从汉字本身就具备的偏旁部首出发，用偏旁部首的读音的声母字符，按笔画顺序编码即是。

从前不知道，几乎每一个偏旁部首其实都是有读音有含义的。因为怕学五笔，拼音重码又多——那时紫光还没出来，所以想借用Windows中的输入法生成器做一个简单好用的输入法，查阅了康熙字典和汉语大字典，慢慢就研究了起来——呵呵，谈不上“研究”。

既然花了不少心思做出来，现在还是把它放到这里，虽然现在输入法大战基本上都结束了，我的这个方案也没啥特出的，但可能还是有那么一点点的价值吧。——何况是自己的博客，放啥自己说了算，呵呵 :) ——如果你真的想要看看这个方案，建议先看下面3张图片，是偏旁部首的部件集，看图片容易一目了然。

就目前我的观点，各方面表现都十分优秀的输入法好像还没有？从汉字人文的角度上看，台湾的仓颉输入法应该是最有意义的——可惜它在内地没有市场。个人认为输入法的使用其实是有潜移默化的作用的，对汉字的拆字编码应该做到合乎文字本身内在的规律才好！

废话少说，拖出小媳妇来......见公婆咯。。。。

字根部件集：（见下面3张图）

====方案重点节录=========================================================================

拆字规律：

部件规范原则。字中的构字部件不应只取其形似，部件应是按正确的顺序和规范的笔划书写而成的。如“里”字，不应拆为‘田’+ ‘土’，也不应为‘日’+‘土’，而应是‘日’+ ‘丨’+‘二’（当然，前两者可作为容错码）；“求”字，应拆为‘一（横）’+‘氺（水）’ +‘丶（点）’，而非‘十’+‘冫’+‘丶’。
部件取大原则。如部首‘音’，可视为部首‘立’+‘日’，当前者作为构字部件出现时，不可将之拆成后两者。例如“韶”字，应拆为‘音’+‘刀’+‘口’（ydk），而非‘立’+ ‘日’+‘口’（lrk）。
必拆原则。除单笔划字无法拆分外（如‘乙’），所有字皆必须拆分（例如输入部件字本身时）。如“音”，是一个独自成立的单字，此时应拆为‘立’+‘日’（lr）。
先成原则。当笔划所归属部件有歧义时，该笔划划归先形成的部件（按字的书写顺序）。如“元”字，既可看为‘二’+‘儿’，亦可看作‘一（横）’+‘兀’，此时按先成原则确定为前者。

取码规则：

按汉字的正常书写顺序，考虑规范编码和功能划分：
对单字：取第一、第二和最后一个部件的码元（即部件声母首字符）。若单字取不足三码，可重复取最后一码，也即所有单字都有三码，如“码”字，只有两个码元（sm），但编写码表时取为smm；如“乙”字，可取为ooo。
对双字词组：取首字首码、首字末码＋末字首码、末字末码（即：11+13+21+23）。
对三字词组：取首字首码＋中字首码＋末字首码＋末字末码（即：11+21+31+33）。
对四字以上词语：取首字首码＋次字首码＋第三字首码＋第四字首码（即：11+21+31+41）。
对高频字：取单字首码。
对快捷双字词：取首字首码＋末字首码（11+21）。

容错考虑：

部件本身可能会出现一字多音，这样，组码时一个字就可能会有多个编码。我们可以以标准读音为主（标准读音是指能代表部件本身含义的那个字的读音），兼顾其它常用读音作容错考虑。此类部件可属于多个码元。如‘厂’，标准读音为“hǎn”（音罕。《说文》山石之崖巖，人可居。象形。高鸿缙《中国字例》“厂字本象石岸之形。……”），正常应属于码元‘h’，但简体字中大多将其作为“廠”字的简化字（似忘其本）。作为容错，它也归属于码元‘c’。
字的书写顺序不是很明确时（可能源于书法的原因），可适当考虑多种书写方式时的拆字规则。这也会产生字词的多个编码。如“曹”字，标准书写顺序为12512212511（引自 “金山词霸”中汉语词典资料。1～5分别代表基本笔划“横、竖、撇、点＋捺、折＋勾”），拆字为‘一’+‘丨’+‘日’（hor），但也可能拆为‘艹’+ ‘曰’+‘日’（cyr或crr。部件‘曰’正属码元‘y’，容错划归于码元‘r’）。
因单字容错码的存在，故由单字组成的词组和短语也将存在容错的情形（其数量可能不小）。

========================================================================================

【部件集】详细说明图示

字根部件B-M：