论文常见的统计学错误分析

2019-02-15

医学论文在写作的过程中需要数据的支撑，在数据处理统计时需要注意的地方有很多，具体看一下常见的统计学错误有哪些？

1. 统计结论的描述不确切

数理统计的基础是概率论，对统计分析的资料下结论的依据是小概率事件在一次试验中是不可能发生的。一般统计上习惯把概率P≤0.05或P≤0.01认为是小概率事件。

一般统计上说的“差异显著”（P≤0.05)，“差异非常显著”（ P≤0.01)是统计学的术语，它不同于一般意义上的“显著”概念。

为了不至于混淆这两者的概念，现在统计学上主张用差异无显著意义或无统计意义、差异有显著意义或有统计意义、差异有非常显著意义或高度统计意义来代替以前常用的“差异不显著”、“差异显著”和“差异非常显著”。

下结论时，不仅根据统计学的结论，还要根据专业知识来判断。有的人只凭少量的统计资料就作出“有差异”、“无差异”的判断，并对所调查的数据下结论，是不科学的。而“有差异”、“无差异”这样的说法也是不对的。

例如调查吸烟者与不吸烟者的慢性气管炎的患病情况（P<0.01)，只能说明吸烟者与不吸烟者患慢性气管炎差异有非常显著性意义，即吸烟者更容易患慢性气管炎，至于两者患病率相差是否显著，要结合专业知识来判断，而不能说非常显著。

2. 统计指标的误用

在来稿中，经常遇到统计指标的误用，常出现率与构成比，发病率与患病率，死亡率与病死率等的混淆。

2.1 把构成比当率构成比是说明事物或现象内部各构成部分的比重，率为表示某种现象发生的频率或强度。它们都是相对数指标，用百分数表示。有一篇题为“某年某地5类传染病疫情分析”，该文作者认为，5类传染病的发病率依次为痢疾48.62％（3685/7579)、肝炎27.85％（2111/7579)、乙脑11.22％（850/7579)、流脑6.89％（522/7579)、麻疹5.42％（411/7579)。该资料是构成比，不是发病率，故犯了“以比代率”的错误。

2.2 发病率与患病率发病率是指观察期内（年、季、月等)新发生某病的例数与同期平均人口数之比，强调在观察期内的新发病例数。而患病率则指观察时点的某病的现患病例数与该时点人口数之比，强调的是该观察时点上某病的现患（新、旧病例)情况。有人调查男性7674人，沙眼患者6235人，发病率为81.25％；女性调查2896人，沙眼患者2225人，发病率为76.83％。这显然是错误的，应该是患病率。发病率是指平均每1000人口中新发生的病例数。其计算公式为：某病发病率等于某年（期)内所发生的新病例数除以同年（期)平均人口数乘1000‰。例如某地某年年平均人口数为2500人，白喉发病28人，该地白喉年发病率为11.20‰。

3. 对照设计不合理

“有比较才能有鉴别”，设立对照组是为了科学地鉴别。医学科学研究设立对照尤为重要。一些科研论文科学性不强的主要原因是对照不合理，甚至有的根本不设对照组。临床上不少疾病，都有一定的自愈率，病情自行缓解的现象更为普遍，影响疾病过程的因素就更为复杂，除治疗因素外，精神、环境、休息、营养、气候等都对疾病发生影响。如果不通过严格对照试验，很难作出正确判断。

4. 样本选择不当

样本的选择要符合随机化的原则，这样才能使样本客观地反映总体。在来稿中我们发现不少作者对随机化分组的意义和方法不够了解，有的交待了随机抽样，而没有交待抽样和分配的具体方法；有的虽知道随机化分组的原则，但因怕麻烦，而没有认真执行；有的甚至为了提高论文的刊用率，而冠以随机化的字眼。为解决上述问题，编辑部在审稿时要求作者补充研究对象随机化抽样和分配的具体方法。前者如单纯随机抽样、系统抽样、分层抽样、整群抽样等；后者如完全随机化设计、配对设计、配伍设计、拉丁方设计、序贯设计、正交试验设计等。

5. 随机分组不均衡

对照组与试验组必须遵循均衡化的原则，也就是说对照组除了缺少实验处理因素外，其它条件应与实验组基本一致，从而排除非处理因素对结果的影响。如果分组时未注意到对照组与实验组的均衡关系，那么对照组与实验组就会出现差异，使实验的可比性减少，统计学意义下降。

6. 非参数不能用参数统计方法

对计量资料的统计数据经常用t检验或F检验，但也经常出现把非参数计量资料的数据用参数统计方法进行处理。如微量元素（血铅、血锌、尿汞)等数据经常出现偏态分布。当数据呈偏态分布时小样本（n<50)不能用参数统计方法（t检验或F检验)，而应该用非参数统计方法（参比差值法或秩和检验)或进行数据转换（倒数或对数)后用参数统计方法[4]。

7. 统计表图不规范

在疾病防治中，我们使用大量的统计表图，以阐说疾病发生发展的客观规律，评价防治措施的效果。正确的统计表应该是简单、明了，能够说明各统计量之间关系和差异的三线式统计表。不宜过繁、过多，不能把几种不同性质的统计量罗列到同一表格内。

8.统计方法的选择与使用不正确

选用统计方法之前应首先确定是计数资料还是计量资料。

计数资料是先将观察单位按性质或类别进行分组，然后清点各观察单位的个数所得的资料，如根据治疗结果计算出的治愈率、有效率、病死率、阳性率等。

计量资料是对每个观察单位用定量方法测定某项指标数值大小所得的资料，如身高、体重、脉搏、血压、浓度、白细胞总数等。计数资料最常用的统计方法为χ2检验或U检验，计量资料最常用的统计方法为t检验（或F检验)，但在来稿中时有发生相互混淆。

另外，应用t检验的条件是：①当样本含量较小时，要求样本符合或近似正态分布；②当两样本均数比较时，两样本方差相等；医学全在.线提供③当样本不符合正态分布时，应采用t’检验代替t检验；④当两样本方差不等时，应采用秩和检验或t’检验。有的作者在使用t检验时未考虑到上述因素而盲目使用。对于等级资料（如治愈、显效、好转、无效)要比较疗效只能用非参数检验。

本文来源：纽顿学术，版权归原作者所有。

宝宝起名起名

本站所有相关知识仅供大家参考、学习之用，部分来源于互联网，其版权均归原作者及网站所有，如无意侵犯您的权利，请与小编联系，我们将会在第一时间核实并给予反馈。