科技论文中常见的统计学问题及解决意见
发布时间:2019-06-04 点击率:0
[摘要]科技论文是总结和传播科学研究成果的文献形式,其统计学原理和具体的统计方法使用得正确与否直接影响到科技论文的科学性与严谨性。本文结合编辑工作实践,以医学论文为例,探讨科技论文中常见的涉及统计学的问题(如科研设计问题、统计描述问题、统计推断问题、论文中统计方法的说明问题等),并提出解决科技论文统计学问题的几点意见。
[关键词]科技论文 统计学问题 对策
[中图分类号]G23 [文献标识码]A
科技论文是科研工作的总结和成果传播的重要形式,其撰写的逻辑过程应当与科研的工作过程一致,即提出研究问题、设计研究方案、收集数据、统计分析数据和得出结论。统计学原理和方法贯穿于整个研究工作,是科研工作不可或缺的重要工具。因此,在科技论文中应当规范合理地体现研究工作所使用的统计学原理和具体的统计方法。美国统计协会在《统计实践的伦理指导》中特别指出,在发表论文时作者有责任清楚地报告足够的相关统计分析信息。随着科学技术的快速发展。越来越多的科技论文被发表,然而由于各种原因,科技论文中涉及统计学的问题层出不穷,严重地影响了论文的科学性和严谨性。笔者拟结合编辑工作实践,就科技论文中经常出现的统计学问题进行分析。并提出解决这些问题的几点意见。
一、科技论文中常见的统计学问题
1 科研设计问题
为了保证研究的科学性、客观性和严谨性。需要制订科学周密的研究计划。并在此计划的指导下安排研究进程,收集、整理和分析数据。制订一个良好的科研设计方案,需要根据专业的要求。运用科学的统计思想和手段来完成。然而。目前一些研究者在认识上仍存在误区。只重视数据分析时的统计工作,忽视了设计时的统计要求。从逻辑上说,如果设计上存在严重缺陷,后续的统计分析可能就会失去意义。目前,由于论文篇幅所限。一些科技论文在材料和方法部分要么不说明研究设计方案,要么说明过于简略。使读者无法清晰地了解该研究的设计方案。甚至无法重复、验证该项实验。
(1)研究设计方案交代不清楚
以笔者从事的医学期刊所接触的稿件为例。目前。医学研究大体可以分为基础医学研究、临床医学研究和社区人群研究三大类。基础医学研究的对象主要是动物、组织、细胞和基因等。在这类研究文章中研究者对实验动物的选择、分组和随访,细胞培养和分组等方面常常交代不明确。临床医学研究的主要对象是病人,在这类研究文章中对于病人的选择和筛选,研究组的设立或随机化方式交代不清。此外,这类研究文章的一个突出问题是对照的选择说明不清晰。在对照研究中,合理规范地设立对照是研究因素被单独清晰显现的重要手段,但常见的问题是对照人数偏少,选择方式没有说明等。在社区人群研究方面,由于影响研究的因素更加复杂。所以对于这类研究文章在研究设计中更需要对可能影响研究的混杂因素进行详细的说明。
(2)随机化问题
随机化是统计分析的理论基础,相关的统计分析方法都建立在随机抽样和随机分组的基础上。遵循随机化可以使样本更具有代表性。组间更加均衡。科技论文中关于随机化的主要问题是从论文中无法看出该研究是否做了随机化抽样或随机化分组,作者常在此问题上表述不清。
(3)样本量问题
统计分析是个概率研究问题,必要的重复(样本量)是其又一个重要的理论基础。样本量过小使得样本无法代表总体,可能会把偶然事件当作规律性事件,也可能使得研究结果无法重复。例如,医学研究论文中常见的问题是没有给出样本量估算的方式或依据。关于样本是否足够完成研究也没有说明。其次。临床研究中,样本量过小是个突出的问题。再次,有些临床研究只重视病例样本量,而忽视对照的样本量。造成组间样本量过于悬殊。在分子生物学的研究中,样本量过小直接影响到实验重复次数的问题,在这类研究中,研究者常常忽视这一点,只做一次实验就得出结论,而无法进行统计学分析。
(4)非研究因素的控制
科学研究主要是为了观察研究因素所产生的效应。但需要注意的是。必须控制或安排好非研究因素,因为它们可能会干扰对研究因素的观察。所以,在研究设计时应当充分考虑到这些因素的作用。在论文中应对此进行必要的说明。目前,医学论文中对于这个问题常常阐述不清,主要表现在:对这些因素的发现、识别和选择的依据不明确,或在材料方法部分回避该问题。
2 统计描述问题
统计学的一项重要工作就是对数据进行合理的描述。来揭示数据呈现的规律或特征。这也是统计结果表达的重要步骤。在科技论文中。应当对数据进行合理的统计描述。目前,科技论文中常见的统计描述问题首先表现为数据资料类型不清楚,进而无法选择合适的描述指标。统计资料主要分为计量资料和计数资料两种。计量资料是用某种测量工具测量所获得的具有单位的数据,这样的数据主要是描述数据的集中趋势(平均数)和离散程度(变异度);计数资料则是根据某种分类标准将数据分类,然后清点每个分类的观察单位的数量,这类数据通常需要通过相对数(率/比)进行描述。所以,分清资料的类型是进行正确统计描述的前提。其次,计量资料的统计描述。多数研究者选择用算术均数进行平均水平的描述。其实有时并不一定合适。描述平均水平的指标与数据的分布状态有关,而不是一概用算术均数。算术均数是在数据符合正态分布或对称分布时合适,如果数据是偏态分布,则应当选择中位数。与之相应的变异度指标也需要根据数据的分布情形来选择。第三,计数资料的统计描述,常见的问题是计算相对数时分母过小,这样计算的率等指标常不稳定。无法说明问题。如泉观察例数太少,建议以数进行表达。此外。率和构成比常容易混淆。常以构成比来说明率的问题。这种问题常发生在以数据为基础统计的分析中。
3 统计推断问题
对于抽样性研究来说,还需要进行必要的统计推断。根据研究问题的不同,统计推断主要有可信区间和假设检验。
(1)可信区间
可信区间(confidence interval,CI)是用来对总体特征进行估计的方法。它是从概率的角度把抽样误差考虑在内估计总体均数(率)所在的范围。研究论文中常出现计算了相应的样本均数(率)后没有进行可信区间估计的问题,这样的点估计无法说明抽样误差对估计的影响。
(2)假设检验
假设检验是进行总体间比较的统计方法。在应用假设检验时需要对各种方法的使用条件有所了解,否则容易造成方法误用。论文中假设检验方法使用不当,其重要原因就是对各种方法的使用条件缺乏了解。合理应用假设检验要注意两个基本前提:资料类型和研究问题(设计)。资料类型决定了假设检验方法的大类区分,如计量资料对应t检验和方差分析等,而计数资料对应卡方检验等。在大类确定后需要根据研究的问题和设计类型选择具体的检验方法。
随着计算机的普及,统计分析软件的推广,许多复杂的高级统计方法得以推广,多元线性回归模型和多元Logistic回归模型是使用为广泛的高级统计方法,同时也出现了很多研究者滥用这些统计方法的情形。这些方法的使用有明确的条件和要求,回归模型从逻辑上讲是分析原因和结果的问题。因此,对于符合前因后果时序的数据是合适的。如前瞻性研究、干预性研究。此外,这些方法对数据也有一定的要求。Logistic回归模型就要求数据为分类数据,然而,论文中常出现使用连续性数据的情况。
4 论文中统计方法的说明
在科技论文中常常缺乏对所使用的统计学原理和具体统计方法的必要说明。在材料方法部分应当对研究设计的相关问题进行说明,在统计部分应当说明所使用的具体统计方法。对于复杂的统计模型,应当给出必要的变量定义和过程说明。此外,应当给出该研究假设检验使用的检验水准。
统计图表是统计分析结果表达的有力工具。目前,科技论文中的统计图表不规范,欠自明性和逻辑相关性,图表过于复杂或过于简单。
二、解决科技论文中统计学问题的几点意见
避免或减少科技论文中运用统计学出现的问题。需要作者、审稿专家和编辑人员的共同努力。
1 提高作者对统计学重要性的认识及基本统计技能
许多研究者认为统计学只是帮助他们计算平均数的简单工具,没有充分认识到统计学原理和方法在科学研究中的不可或缺性。统计学不是几个公式和方法,而是涉及一整套科学的逻辑思维方式方法及其运用。所以。应加强研究者在这方面的训练,提高研究者对科研设计中统计应用的重视程度。
2 建立论文发表前的统计学审稿制度
由于统计学具有较强的专业性,对于其他专业的学者来说灵活应用有一定难度,因此有必要请统计专业人士对论文的统计学应用进行评价,及时发现其中的统计学问题并给予合理的建议,这样有助于减少统计问题的发生。提高论文的质量。
3 科技期刊应增加论文撰写的统计学要求
科技期刊可以考虑与统计专业人士合作制定论文撰写时的统计学要求。如规范的统计学表达方法、文章中必须出现的统计学内容等。目前。多数科技论文的研究设计部分不清晰。有必要进行规范。否则审稿专家也无法判断研究是否合适。对于有严重统计学问题的论文可以考虑要求作者提供原始数据进行核查。
4 编辑人员应该在论文的统计把关方面有所作为
编辑人员对科技论文的科学性、创新性和规范性负有不可推卸的甄别责任。但是,许多编辑人员只重视专业知识及编辑业务知识的学习,而忽视了对统计学知识的学习,以致对文稿中存在的统计学问题缺乏甄别能力,在审阅修改时未能及时发现存在的问题。因此,在这方面应该引起编辑同人的重视。,要提高认识。在科技论文中出现统计学问题或瑕疵,会大大降低论文的科学性和学术质量,进而影响到刊物的质量。第二,要加强学习。加强对统计学知识的学习。不断提高应用统计学知识的能力。特别是对实际工作中遇到的统计学问题,能够及时请教,相互交流,弄清问题所在,真正达到“去粗取精、去伪存真、优者刊出、劣者淘汰”的目的。
来源:中国编辑 2009年5期
.—— END ——.