新宋吧 关注:367,920贴子:28,681,724
  • 14回复贴,共1

数据为什么会说谎

只看楼主收藏回复

一楼希 特 老司机


来自Android客户端1楼2016-11-28 19:22回复
    【财新】(专栏 何宝宏)大数据如同“钻石矿”,要求“除了上帝,任何人都必须用数据说话”。但另一方面,大数据需要人的介入,需要使用人造的算法工具来开采、提炼、加工和展示。有人的地方就有江湖,就有谎言。


    来自Android客户端2楼2016-11-28 19:22
    回复
      应采样什么数据,是有预设目的的。历史上留存最多数据的“记录”,主要是在天文和人口方面。东方的朝廷和西方的教会都会投入巨资观测天体,不仅是为了农业生产,更是为了统治的需要。你是上天的儿子,你是上帝的代言人,老爹的脾气秉性你应该最清楚,是吧。统治阶级费劲扒拉地计算地上的人口,可不是为了给你发放养老金,而是为了税收和征兵。


      来自Android客户端3楼2016-11-28 19:23
      回复
        一切历史数据,都是可以任意打扮的小姑娘。古代世俗统治者或精神统治者斥巨资编纂《永乐大典》、《四库全书》、《圣经》等时,如何采样是根据是否正统来决定的,保留和传播正统的信息,抑制、篡改或消灭非正统信息。如何定义正统,根据“工作”需要。“焚书”是为了消除信息,“坑儒”是为了消灭信息源,“文字狱”是大数据分析的结果。


        来自Android客户端4楼2016-11-28 19:23
        回复
          受资源和技术条件的限制,很多情况下无法对一个事物做“全息”描述,于是出现了统计采样的实用新型发明。采样和统计,是对事物信息的有损压缩和解压缩。大数据技术的爆发,是因为摩尔定律、云计算和算法等的进步,以降低压缩比和牺牲更多IT资源为代价,换取物体信息的更高清晰度、更多维度。


          来自Android客户端5楼2016-11-28 19:23
          回复
            但技术限制没有消失,只是明显降低了。认为大数据可以把更大数据集合当作全体,是一种妄想。数据本身可能还是不完整的、不正确的或过时的。数据量增大后,可能会让信号更明显,但也可能会让信号更加深藏于“噪音”中。更多的数据,会让结果中的小数点后多上几位,看起来更加精确。但结果看起来越精确,就越容易诱导人去相信它,但却与正确与否无关,是“精”而不“确”。


            来自Android客户端6楼2016-11-28 19:24
            回复
              算法工具是人设计的。很多大数据算法是不公开,是黑箱操作的,外界无法了解其设计方法和选择过程。对于需要处理的众多输入数据,算法赋予它们的权重有可能是主观的。很可能会由于前面算法的选择,会影响了后续一系列的选择和结果,产生“蝴蝶效应”。个性化的推荐服务,会缩小而不是扩大用户的选择范围。


              来自Android客户端7楼2016-11-28 19:24
              回复
                给定一组数据,可以通过科学方法得到差异极大的结果。比如平均数和中位数,都可以衡量一组数据的“中间位置”或“中心趋势”。平均数是所有数据之和除以数据个数,中位说是位于中间的那个数据。无论是平均数还是中位数,很多场景下都不代表真实的情况。比如一组工资数据(1000元,2000元,3000元,4000元,100000元),5个人的平均工资数是22000元,中位数是3000元。看到这样的平均工资水平,你又拖后腿了吧?这不科学。


                来自Android客户端8楼2016-11-28 19:25
                回复
                  香农提出了“比特”的概念,奠定了信息的计量单位,开创了信息时代。大数据不仅会开创一个新的时代,还会加深“数字鸿沟”,产生新的偏见和歧视,产生新的不公。世界上最远的距离,是你在沟这边发微信给我,一个甜美的女声告诉你,“您呼叫的用户没有手机”,而我在沟那边正骑着毛驴给你送鸡毛信呢。


                  来自Android客户端12楼2016-11-28 19:28
                  回复
                    用可视化方法,很容易欺骗我们的眼睛和大脑。人的决策并非都是理性的,不仅存在着直觉的偏差,而且还存在着对框架效应,经常会在不同的时候对同一问题,做出不同的甚至是相互矛盾的选择。不仅要看算法处理的结果,还要看人的“眼商”。


                    来自Android客户端13楼2016-11-28 19:29
                    回复
                      数据不会说谎,但人会说谎。数据不会说谎,但人是非理性的。数据不会说谎,但会存在偏见。数据不会说谎,但有些数据没有发出声音。数据不会说谎,但算法可能会有歧视或偏见。相信数据不会说谎,就像相信用计算机给人算命更科学一些一样。


                      来自Android客户端14楼2016-11-28 19:29
                      回复
                        上帝从来就没有用数据说过话,上帝一直就默不作声。但哥白尼开始用数据说话,让上帝换了住处;达尔文开始用数据说话,让上帝不再偏爱人类。弗洛伊德通过“不科学”的精神分析,让上帝住在我们心里都悬了。


                        来自Android客户端15楼2016-11-28 19:30
                        回复
                           上帝死了,数据永生。■
                            作者为中国信息通信研究院技术与标准研究所副所长


                          来自Android客户端16楼2016-11-28 19:30
                          回复
                            慕容羽澈30003新浪微博
                            搜集统计数据的过程本身都脱离不开主观性与客观外在的共同创造的作用、不存在真正“客观”的数据,只是看对系统地描述是否更有用更能自洽和用于作出有效预期而已


                            来自Android客户端17楼2016-11-28 19:31
                            回复


                              来自Android客户端18楼2016-11-28 19:35
                              回复