词组练习成本回报率量化

***纯理论研究，仅供参考***
词组练习价值，包含主观价值和客观价值。主观价值因人而异，比如你已练同一个词无数遍，那么它的主观价值已经为0.
而本文，只研究客观价值部分。
法一：词组练习价值3要素八级评估法
任何一种输入法在单字码表固定的那一刻，就产生了高、低价值词组分布比重的博弈。
用户之所以追求“高价值词组”形成固有记忆，不外乎是因为三个因素：实用性、准确性、便捷性。它们依次对应词频、四码唯一性、和复杂单字替换率。
即——词组练习价值3要素：
【1阶要素：词频】相对高频/低频，分别记作１/０；
【2阶要素：四码唯一性】相对唯一/重码，分别记作１/０；（参考多种不同五笔输入法，虽有重码但默认排在首位，同样可记作１，此时用“五码顶屏”功能实现和“四码上屏”相同的效果）
【3阶要素：复杂单字替换率】简化单字码长相对较多/较少，分别记作１/０.
价值由高到低依次分为八级，下面以86五笔为例
高级：
１１１一级，例如：市场、希望、买票、判刑、忧愁
１１０二级，例如：检查、取出、财产、好啊、比较
１０１三级，例如：请您、等等、感触、告辞、抖音
中级：
１００四级，例如：还是、还要、还能、还好
０１１五级，例如：茅盾、李逵、朝晖、霉素、浪子回头金不换
低级：
０１０六级，例如：台风、工分
００１七级，例如：韬略
０００八级，例如：二伏
通过优化练习内容，能完美避开重码和单字长码两大难点
初学者常流传“词组重码比单字严重”的观点，并不总是准确。
例如：词组“倡导”是直接上屏的，但若强拆成单字，上屏就曲曲折折。极点在打出WJJG后，1号位是“但是”，“倡”排在2号位。
“高价值词组”很常见，是遵循输入法中码与字词的内在规律，天然形成的，如“自己”、“这些”、“谢谢”、“市场”……直接四码上屏或五码顶屏。
顺便提一下，现在新出的形码很少有看到使用算法提高“高价值词组”的所占比例的；相反，“低价值词组”的比例升高的结果，就是用户打词组的体验感大为下降，而产生放弃打词转投单字的意愿。86五笔经久不衰，不是没有根据的。
另外，要素1、3的组合词组，能避免部分高频单字在码长上的劣势，如“谁都”，8码简化为4码；若再结合要素2，可谓一举多得；再加上词组读音在潜意识里可对单字读音反向强化，想打、听打无压力；固定4码，不像单字参差不齐，几乎能解决纯单字练习的所有难点。如果为图简便而只练单字，反而是缘木求鱼。
“字作字练，词作词练”符合输入法使用的实际习惯，也符合汉语言习惯。具备成词能力的单字，按单字练是可以的；但不具备成词能力的单字，如“蝴”、“蜘”，它们单字模式几乎用不到，所以必须按“蝴蝶”、“蜘蛛”来练。参考资料：《语素与词：语言中的基础单位与结构》、《现代汉语常用词表第2版》。
需注意，文学领域的词表和输入法的词表总会有一些不默契的地方，这是由“码表生词的博弈特性”决定的。输入法的总词表只有一部分是“高价值词组”，在平常练习中多留心，将它们按3要素八级评估法在脑海中标记。
法二：将3要素等价换算，得到可量化价值的评估法
相比而言，第一种评估法在理解上更直观一些，也是能很快掌握的，不足之处就是在词频上标记1或0 有点“非黑即白”，归类模棱两可。就比如“台风”，在天气圈里就是高频词组，在内陆生活圈就是低频词组。第二种就在理论上完美解决了这个问题，但需要借助大数据。
原理：将法一中3个要素统一换算为码长。“记忆投入成本”以“记忆码元长度”为单位，选重动作记作至少一个长度；“记忆产出价值”是该词组在语料库总共节省的记忆码元（含击键）长度。
每个字词都对应它的“记忆回报率”Memory-ROI，又称M回报率，或M（），是记忆产出价值和记忆投入成本的比值。
同时每个二字以上词组也对应它的“空间回报率”Space-ROI，又称S回报率，或S（），这个简单，是词所包含的字数和词出现次数的乘积。
综合回报率Comprehensive-ROI，又称C回报率，或C（），是M（）和S（）两者取加权平均数。
具体方法如下。
先假设字库只有10个字：祝、大、家、过、年、好、新、春、快、乐。
那么会引申出31个词组：祝、大家、过年好、新春快乐、新年快乐、大家好、新年好、过年、大年、过大年、新春、新年、快乐、快快乐乐、好、过；大过年、大过、过大、过家家、家家、新家、大好、好大、好过、过好、好快、快好、快快、好好、好好过。
产生了19种常用随机组合祝福语，刚好100字，构成了语料库的主要部分：
大家好、过年好、新年好、新年快乐、祝新年快乐、祝新春快乐、祝大家快乐、祝大家过年好、祝大家新年好、祝大家新春快乐、祝大家新年快乐、大家过年好、大家新年好、大家新春快乐、大家新年快乐、快乐过大年、快快乐乐过大年、快乐过新年、快快乐乐过新年。
这个语料库，若词组按尽量复合，实际上只用到了至少12个词组：祝、大家、过年好、新春快乐、新年快乐、大家好、新年好、过大年、新年、快乐、快快乐乐、过。
重复出现总数41次。
（若词组按复合、离散全统计，实际上至多16个词组：祝、大家、过年好、新春快乐、新年快乐、大家好、新年好、过年、大年、过大年、新春、新年、快乐、快快乐乐、好、过）
我这里勉强才做到让词库容量多于字库容量，也是没办法的事。现实情境中，词库容量相对于字库容量，倍数在10倍以上才算正常。所以微型语料库体现出“畸形”特征是免不了的。我取了这个1.2倍的……
该语料库总共单字容量为100，将排满这100个“作文格子”作为本次演示过程。
所有字如果按单字打，其“M回报率”也就等于它的出现次数。
祝－字频为7%－码PYK长为3，最劣击键数为4，单字M（祝）=7
大－字频为12%－码DD长为2，最劣击键数为3，单字M（大）=12
家－字频为10%－码PE长为2，最劣击键数为3，单字M（家）=10
过－字频为7%－码FP长为2，最劣击键数为3，单字M（过）=7
年－字频为14%－码RH长为2，最劣击键数为3，单字M（年）=14
好－字频为7%－码VB长为2，最劣击键数为3，单字M（好）=7
新－字频为12%－码USR长为3，最劣击键数为4，单字M（新）=12
春－字频为3%－码DW长为2，最劣击键数为3，单字M（春）=3
快－字频为14%－码NNW长为3，最劣击键数为4，单字M（快）=14
乐－字频为14%－码QI长为2，最劣击键数为3，单字M（乐）14
如果按词组打，“M回报率”需强调它相对于单字在整体码长上的节省比率。同时也产生了“S回报率”
"祝"－词频为7/41≈17.07%，记忆码元4， M（祝）=节省码元比率（4/4）×出现次数7=7，S（祝）=1×出现次数7
"大家"－词频为9/41≈21.95%，记忆码元4，M（大家）=节省码元比率（6/4）×出现次数9=13.5，S（大家）=2×出现次数9=18
"过年好"－词频为3/41≈7.32%，记忆码元4， M（过年好）=节省码元比率（9/4）×出现次数3=6.75，S（过年好）=3×出现次数3=9
"新春快乐"－词频为3/41≈7.32%，记忆码元4， M（新春快乐）=节省码元比率（14/4）×出现次数3=10.5，S（新春快乐）=4×出现次数3=12
故在此“年味”微型词库中，词组M回报率（这里先无视一下S回报率）：“大家”＞“新春快乐”＞“祝”＞“过年好”。而这一切是按照“此词库外再无词”的前提逻辑来确立的；在日常大环境下，按“此词库外仍有词”的前提，“大家”＞“祝”＞“新春快乐”＞“过年好”的情况更为合理，因为能与“祝”匹配的词组增多，使“祝”的出现次数得到了巨幅提升。
以上结果还可以观察到一个大致规律，如果把单音节词如“祝”，和四字词组如“新春快乐”放在一起比较，单音节词的出现次数至少要大于或等于四字词组的3.5倍，M回报率才能大于四字词组，而此微例中的“祝”的出现次数仅为“新春快乐”的2.33倍，是远未达标的。
再看看剩下的8个词组，大家可验证一下词频、出现次数的正确性：
“新年快乐”－词频为4/41≈9.76%，M（新年快乐）=14÷4×出现次数4=14，S（新年快乐）=16
“大家好”－词频为1/41≈2.44%，M（大家好）=9÷4×出现次数1=2.25，S（大家好）=3
“新年好”－词频为3/41≈7.32%，M（新年好）=10÷4×出现次数3=7.5，S（新年好）=9
“过大年”－词频为2/41≈4.88%，与“未成年”选重，使记忆码元+1，且搜狗原生无此词组，使记忆码元再+1，M（过大年）=9÷6×出现次数2=3，S（过大年）=6
“新年”－词频为2/41≈4.88%，与“新”选重，使记忆码元+1，M（新年）=7÷5×出现次数2=2.8，S（新年）=4
“快乐”－词频为3/41≈7.32%，M（快乐）=7÷4×出现次数3=5.25，S（快乐）=6
“快快乐乐”－词频为2/41≈4.88%，搜狗原生无此词组，使记忆码元+1，M（快快乐乐）=14÷5×出现次数2=5.6，S（快快乐乐）=8
“过”－词频为2/41≈4.88%，M（过）=3÷3×出现次数2=2，S（过）=2
上述结果中，“祝”按单字和词组打，M回报率都为7，原因是它没有被分配到复合词组里。另一个反例则是“过”字，按单字打，M回报率为7，而按单音节词打，M回报率只有2，是因为存在另外两个复合词组“过大年”和“过年好”挤占了它的价值。微型语料库的弊端又显现了！
可以看出，无论是按单字，还是按词组，M回报率普遍是在2-14之间浮动，单字平均为10，词组平均为6.68.
是否就说明词组的M回报率要低于单字呢？如果只看记忆成本，确实是这样的。但很多打字高手在记忆上付出高额的代价，只为了一点点的速度提升，他们就是在追求“空间回报率”（Space-ROI，S回报率）了。
在词组中，S回报率在2-18之间浮动且普遍高于M回报率，平均为8.33，平均数虽低于单字，但“暴伤”比较高，很容易超过单字“平砍”的上限14.但在微型语料库中，这个优势被无限磨平了，因为前面说过正常语料库的词组、单字的比例要大于10，我们这个只有1.2
例如：“过年好”这个词组，虽然M（过年好）只有6.75，但S（过年好）为9，要完成这个语料库的三个“过年好”，只需打出FRVB-FRVB-FRVB总共12键。而按照纯单字需要打出FP RH VB FP RH VB FP RH VB总共27键，速度只有前者的44.44%，高下立判。至于M（）和S（）各应该起到多大作用,这里就要引入“权重”的概念了。
可能在高手眼里，综合回报率C（）=（1-k）* M（）+k* S（）之中的k值要大于0.5且越来越接近1。
总结一点，M（）主要是在初学阶段体现出它的价值；后期记忆固化了，S（）的比重就会越大。
要统计出所有词组的真实频率难度极大，可以想象一下这个工程会是什么样子的。
首先，我们可以假设按频率较低的某个词以出现100次作为参照，在一个庞大的对话记录区间（语料库）中去寻找10000个词组。那么，词频倒数第二的可能就是出现101次的，倒数第三的出现102次……第一的可能出现10099次（实际并非等差数列）。所以出现次数大约会有10099÷100=100.99的最大浮动倍率，再加上字数导致的1-3.5的浮动倍率，姑且认为单音节词频率普遍靠前，那么浮动倍率限制在100.99÷3.5≈28.85
假如这10000个词组中频率最低的那个词以出现1000次作为参照，那又是另一回事了……第一可能是出现10999次。这回对应的是10999÷1000÷3.5≈3.14浮动倍率。
假如是以10000次开始呢？19999÷10000÷3.5≈0.57
不管是28.85，3.14还是0.57，它都是一个正数。值越小，价值就越低；反之价值就越高。我们应该避免被上面那个“新春祝福微型语料库”的几个数值范围蒙蔽了眼睛。
以上只是完全理想化的模型，实际上练习者并不需要搞得那么清楚，也不太可能拿到很精确的结果。反而你在这上面花的时间越多，越影响自己的提高，就像作者我一样。
掌握其中的哲学思想，来作为练习指导，比掌握数据更重要。练习也不能光打词组，实现流畅听打、想打，才是最终的目标。

看到几个***号，我还以为是ai，然后查了下ai率发现不是

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

3回复贴，共1页

<<返回五笔吧

分享到:

日	一	二	三	四	五	六