网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
05月21日漏签0天
五笔吧 关注:34,287贴子:702,695
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 3回复贴,共1页
<<返回五笔吧
>0< 加载中...

词组练习成本回报率量化

  • 只看楼主
  • 收藏

  • 回复
  • 黑案厨师
  • 五笔高人
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
***纯理论研究,仅供参考***
词组练习价值,包含主观价值和客观价值。主观价值因人而异,比如你已练同一个词无数遍,那么它的主观价值已经为0.
而本文,只研究客观价值部分。
法一:词组练习价值3要素八级评估法
任何一种输入法在单字码表固定的那一刻,就产生了高、低价值词组分布比重的博弈。
用户之所以追求“高价值词组”形成固有记忆,不外乎是因为三个因素:实用性、准确性、便捷性。它们依次对应词频、四码唯一性、和复杂单字替换率。
即——词组练习价值3要素:
【1阶要素:词频】相对高频/低频,分别记作1/0;
【2阶要素:四码唯一性】相对唯一/重码,分别记作1/0;(参考多种不同五笔输入法,虽有重码但默认排在首位,同样可记作1,此时用“五码顶屏”功能实现和“四码上屏”相同的效果)
【3阶要素:复杂单字替换率】简化单字码长相对较多/较少,分别记作1/0.
价值由高到低依次分为八级,下面以86五笔为例
高级:
111一级,例如:市场、希望、买票、判刑、忧愁
110二级,例如:检查、取出、财产、好啊、比较
101三级,例如:请您、等等、感触、告辞、抖音
中级:
100四级,例如:还是、还要、还能、还好
011五级,例如:茅盾、李逵、朝晖、霉素、浪子回头金不换
低级:
010六级,例如:台风、工分
001七级,例如:韬略
000八级,例如:二伏
通过优化练习内容,能完美避开重码和单字长码两大难点
初学者常流传“词组重码比单字严重”的观点,并不总是准确。
例如:词组“倡导”是直接上屏的,但若强拆成单字,上屏就曲曲折折。极点在打出WJJG后,1号位是“但是”,“倡”排在2号位。
“高价值词组”很常见,是遵循输入法中码与字词的内在规律,天然形成的,如“自己”、“这些”、“谢谢”、“市场”……直接四码上屏或五码顶屏。
顺便提一下,现在新出的形码很少有看到使用算法提高“高价值词组”的所占比例的;相反,“低价值词组”的比例升高的结果,就是用户打词组的体验感大为下降,而产生放弃打词转投单字的意愿。86五笔经久不衰,不是没有根据的。
另外,要素1、3的组合词组,能避免部分高频单字在码长上的劣势,如“谁都”,8码简化为4码;若再结合要素2,可谓一举多得;再加上词组读音在潜意识里可对单字读音反向强化,想打、听打无压力;固定4码,不像单字参差不齐,几乎能解决纯单字练习的所有难点。如果为图简便而只练单字,反而是缘木求鱼。
“字作字练,词作词练”符合输入法使用的实际习惯,也符合汉语言习惯。具备成词能力的单字,按单字练是可以的;但不具备成词能力的单字,如“蝴”、“蜘”,它们单字模式几乎用不到,所以必须按“蝴蝶”、“蜘蛛”来练。参考资料:《语素与词:语言中的基础单位与结构》、《现代汉语常用词表第2版》。
需注意,文学领域的词表和输入法的词表总会有一些不默契的地方,这是由“码表生词的博弈特性”决定的。输入法的总词表只有一部分是“高价值词组”,在平常练习中多留心,将它们按3要素八级评估法在脑海中标记。
法二:将3要素等价换算,得到可量化价值的评估法
相比而言,第一种评估法在理解上更直观一些,也是能很快掌握的,不足之处就是在词频上标记1或0 有点“非黑即白”,归类模棱两可。就比如“台风”,在天气圈里就是高频词组,在内陆生活圈就是低频词组。第二种就在理论上完美解决了这个问题,但需要借助大数据。
原理:将法一中3个要素统一换算为码长。“记忆投入成本”以“记忆码元长度”为单位,选重动作记作至少一个长度;“记忆产出价值”是该词组在语料库总共节省的记忆码元(含击键)长度。
每个字词都对应它的“记忆回报率”Memory-ROI,又称M回报率,或M(),是记忆产出价值和记忆投入成本的比值。
同时每个二字以上词组也对应它的“空间回报率”Space-ROI,又称S回报率,或S(),这个简单,是词所包含的字数和词出现次数的乘积。
综合回报率Comprehensive-ROI,又称C回报率,或C(),是M()和S()两者取加权平均数。
具体方法如下。
先假设字库只有10个字:祝、大、家、过、年、好、新、春、快、乐。
那么会引申出31个词组:祝、大家、过年好、新春快乐、新年快乐、大家好、新年好、过年、大年、过大年、新春、新年、快乐、快快乐乐、好、过;大过年、大过、过大、过家家、家家、新家、大好、好大、好过、过好、好快、快好、快快、好好、好好过。
产生了19种常用随机组合祝福语,刚好100字,构成了语料库的主要部分:
大家好、过年好、新年好、新年快乐、祝新年快乐、祝新春快乐、祝大家快乐、祝大家过年好、祝大家新年好、祝大家新春快乐、祝大家新年快乐、大家过年好、大家新年好、大家新春快乐、大家新年快乐、快乐过大年、快快乐乐过大年、快乐过新年、快快乐乐过新年。
这个语料库,若词组按尽量复合,实际上只用到了至少12个词组:祝、大家、过年好、新春快乐、新年快乐、大家好、新年好、过大年、新年、快乐、快快乐乐、过。
重复出现总数41次。
(若词组按复合、离散全统计,实际上至多16个词组:祝、大家、过年好、新春快乐、新年快乐、大家好、新年好、过年、大年、过大年、新春、新年、快乐、快快乐乐、好、过)
我这里勉强才做到让词库容量多于字库容量,也是没办法的事。现实情境中,词库容量相对于字库容量,倍数在10倍以上才算正常。所以微型语料库体现出“畸形”特征是免不了的。我取了这个1.2倍的……
该语料库总共单字容量为100,将排满这100个“作文格子”作为本次演示过程。
所有字如果按单字打,其“M回报率”也就等于它的出现次数。
祝-字频为7%-码PYK长为3,最劣击键数为4,单字M(祝)=7
大-字频为12%-码DD长为2,最劣击键数为3,单字M(大)=12
家-字频为10%-码PE长为2,最劣击键数为3,单字M(家)=10
过-字频为7%-码FP长为2,最劣击键数为3,单字M(过)=7
年-字频为14%-码RH长为2,最劣击键数为3,单字M(年)=14
好-字频为7%-码VB长为2,最劣击键数为3,单字M(好)=7
新-字频为12%-码USR长为3,最劣击键数为4,单字M(新)=12
春-字频为3%-码DW长为2,最劣击键数为3,单字M(春)=3
快-字频为14%-码NNW长为3,最劣击键数为4,单字M(快)=14
乐-字频为14%-码QI长为2,最劣击键数为3,单字M(乐)14
如果按词组打,“M回报率”需强调它相对于单字在整体码长上的节省比率。同时也产生了“S回报率”
"祝"-词频为7/41≈17.07%,记忆码元4, M(祝)=节省码元比率(4/4)×出现次数7=7,S(祝)=1×出现次数7
"大家"-词频为9/41≈21.95%,记忆码元4,M(大家)=节省码元比率(6/4)×出现次数9=13.5,S(大家)=2×出现次数9=18
"过年好"-词频为3/41≈7.32%,记忆码元4, M(过年好)=节省码元比率(9/4)×出现次数3=6.75,S(过年好)=3×出现次数3=9
"新春快乐"-词频为3/41≈7.32%,记忆码元4, M(新春快乐)=节省码元比率(14/4)×出现次数3=10.5,S(新春快乐)=4×出现次数3=12
故在此“年味”微型词库中,词组M回报率(这里先无视一下S回报率):“大家”>“新春快乐”>“祝”>“过年好”。而这一切是按照“此词库外再无词”的前提逻辑来确立的;在日常大环境下,按“此词库外仍有词”的前提,“大家”>“祝”>“新春快乐”>“过年好”的情况更为合理,因为能与“祝”匹配的词组增多,使“祝”的出现次数得到了巨幅提升。
以上结果还可以观察到一个大致规律,如果把单音节词如“祝”,和四字词组如“新春快乐”放在一起比较,单音节词的出现次数至少要大于或等于四字词组的3.5倍,M回报率才能大于四字词组,而此微例中的“祝”的出现次数仅为“新春快乐”的2.33倍,是远未达标的。
再看看剩下的8个词组,大家可验证一下词频、出现次数的正确性:
“新年快乐”-词频为4/41≈9.76%,M(新年快乐)=14÷4×出现次数4=14,S(新年快乐)=16
“大家好”-词频为1/41≈2.44%,M(大家好)=9÷4×出现次数1=2.25,S(大家好)=3
“新年好”-词频为3/41≈7.32%,M(新年好)=10÷4×出现次数3=7.5,S(新年好)=9
“过大年”-词频为2/41≈4.88%,与“未成年”选重,使记忆码元+1,且搜狗原生无此词组,使记忆码元再+1,M(过大年)=9÷6×出现次数2=3,S(过大年)=6
“新年”-词频为2/41≈4.88%,与“新”选重,使记忆码元+1,M(新年)=7÷5×出现次数2=2.8,S(新年)=4
“快乐”-词频为3/41≈7.32%,M(快乐)=7÷4×出现次数3=5.25,S(快乐)=6
“快快乐乐”-词频为2/41≈4.88%,搜狗原生无此词组,使记忆码元+1,M(快快乐乐)=14÷5×出现次数2=5.6,S(快快乐乐)=8
“过”-词频为2/41≈4.88%,M(过)=3÷3×出现次数2=2,S(过)=2
上述结果中,“祝”按单字和词组打,M回报率都为7,原因是它没有被分配到复合词组里。另一个反例则是“过”字,按单字打,M回报率为7,而按单音节词打,M回报率只有2,是因为存在另外两个复合词组“过大年”和“过年好”挤占了它的价值。微型语料库的弊端又显现了!
可以看出,无论是按单字,还是按词组,M回报率普遍是在2-14之间浮动,单字平均为10,词组平均为6.68.
是否就说明词组的M回报率要低于单字呢?如果只看记忆成本,确实是这样的。但很多打字高手在记忆上付出高额的代价,只为了一点点的速度提升,他们就是在追求“空间回报率”(Space-ROI,S回报率)了。
在词组中,S回报率在2-18之间浮动且普遍高于M回报率,平均为8.33,平均数虽低于单字,但“暴伤”比较高,很容易超过单字“平砍”的上限14.但在微型语料库中,这个优势被无限磨平了,因为前面说过正常语料库的词组、单字的比例要大于10,我们这个只有1.2
例如:“过年好”这个词组,虽然M(过年好)只有6.75,但S(过年好)为9,要完成这个语料库的三个“过年好”,只需打出FRVB-FRVB-FRVB总共12键。而按照纯单字需要打出FP RH VB FP RH VB FP RH VB总共27键,速度只有前者的44.44%,高下立判。至于M()和S()各应该起到多大作用,这里就要引入“权重”的概念了。
可能在高手眼里,综合回报率C()=(1-k)* M()+k* S()之中的k值要大于0.5且越来越接近1。
总结一点,M()主要是在初学阶段体现出它的价值;后期记忆固化了,S()的比重就会越大。
要统计出所有词组的真实频率难度极大,可以想象一下这个工程会是什么样子的。
首先,我们可以假设按频率较低的某个词以出现100次作为参照,在一个庞大的对话记录区间(语料库)中去寻找10000个词组。那么,词频倒数第二的可能就是出现101次的,倒数第三的出现102次……第一的可能出现10099次(实际并非等差数列)。所以出现次数大约会有10099÷100=100.99的最大浮动倍率,再加上字数导致的1-3.5的浮动倍率,姑且认为单音节词频率普遍靠前,那么浮动倍率限制在100.99÷3.5≈28.85
假如这10000个词组中频率最低的那个词以出现1000次作为参照,那又是另一回事了……第一可能是出现10999次。这回对应的是10999÷1000÷3.5≈3.14浮动倍率。
假如是以10000次开始呢?19999÷10000÷3.5≈0.57
不管是28.85,3.14还是0.57,它都是一个正数。值越小,价值就越低;反之价值就越高。我们应该避免被上面那个“新春祝福微型语料库”的几个数值范围蒙蔽了眼睛。
以上只是完全理想化的模型,实际上练习者并不需要搞得那么清楚,也不太可能拿到很精确的结果。反而你在这上面花的时间越多,越影响自己的提高,就像作者我一样。
掌握其中的哲学思想,来作为练习指导,比掌握数据更重要。练习也不能光打词组,实现流畅听打、想打,才是最终的目标。


  • buww
  • 五笔侠客
    4
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


2025-05-21 02:00:16
广告
  • 小萌の喵
  • ✝︎
  • 五笔烈士
    13
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
看到几个***号,我还以为是ai,然后查了下ai率发现不是


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 3回复贴,共1页
<<返回五笔吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示