有用数据:为描述跨存储库的临床研究数据开发标准

提高透明度的运动导致与具体临床试验有关的越来越多的文件、期刊出版物和原始数据集被纳入广泛的存储库。这是该领域的一个很好的方向,但如果我们要以最有效的方式使用这些“数据对象”,我们需要在这些存储库之间建立描述它们的方式(从而可搜索)的一致性。来自欧洲临床研究基础设施网络的Steve Canham和Christian Ohmann最近进行了研究发表了《方法论》试用提出了一致描述这些数据对象的标准,在这里,两位作者都强调了它对该领域的重要性,并总结了他们的建议。

试验人员正承受着越来越大的压力,来自资助方、期刊编辑,以及向科学完全透明转变的普遍文化,要求他们将研究的原始数据和文件提供给其他人。

系统正在缓慢发展以支持这种访问,包括各种数据存储库的开发。但一个基本的问题,“发现”,之前需要解决的全部承诺这个新的透明度可以实现,考虑到不同的数据对象(任何文档或数据集的通用术语可用在电子格式)可能分散在不同的存储库,出版商和机构。

临床研究社区需要为临床研究数据对象商定一个简单、一致的元数据方案,并部署它…

具体来说,我们需要人类和机器的系统,可以用来定位和描述研究中存在的各种数据集和文件,以及申请访问这些数据集和文件所需的信息。但是我们相信,只有在各种数据对象在源上以一致的方式描述的情况下——提供可以由软件系统定期收集的数据,这才能以一种经济有效的方式(因此也是可持续的)实现。

简而言之,我们断言临床研究社区需要为临床研究数据对象商定一个简单的、一致的元数据方案,并将其部署,或至少映射到该数据对象的所有不同位置。

任何这样的模式都必须:

  1. 明确地标识数据对象所涉及的研究(或从其中生成/使用的研究)。
  2. 描述研究对象本身的特征,例如它的类型、作者、内容、大小、语言等。
  3. 描述对象的位置和它可用的访问机制。如果不是公开的,则需要对该机制进行足够详细的描述,以便潜在用户能够申请访问。
  4. 要足够轻,以便于应用,特别是对于那些首先生成数据对象的对象。
  5. 尽可能使用现有数据模式中的元素

今天发表在试用,我们提出了这样一个模式,它基于广泛使用的DataCite标准来描述数据或文档本身,但有两个扩展,以覆盖临床研究人员的特定需求。

这些数据提供:a)研究识别数据,包括临床试验注册id; b)数据包括数据对象的位置、所有权和访问权限。表1总结了我们的建议,并指出哪些数据点是强制性的、推荐的或可选的。

强制性的 推荐 可选
A.1来源研究标题* A.2研究标识符记录*

由研究主题*

责任DOI (1)

B.3对象标题

B.5版本

B.2对象其他标识符

B.4对象附加标题*

C.1创造者* C.2贡献者*
D.1创造年 D.2日期*
E.1资源类型通用 E.2资源类型

E.3描述*

E.5语言

E.6相关标识符*

E.4(数据对象的)对象*
F.1出版商

F.3访问类型

F.4查阅资料(2)

F.5接触人(2)

五班资源*

F.2其他主办院校*

高考生的权利*

(1)对于公开可访问的数据对象是强制性的,对于所有其他数据对象都是推荐的;

(2)如果访问是非公共的,则为强制访问。

相反,我们认为使用公共元数据模式是实现能够持续发现和索引临床研究数据对象的系统的绝对先决条件。

我们很清楚这个问题,总结为著名的漫画在https://xkcd.com/927/,试图开发任何新的通用标准的风险仅仅是在现有标准列表中再增加一个标准(即使这些标准目前通常特定于特定的存储库系统)。我们也承认,为研究和数据对象开发明确的标识符可能存在问题,但我们不认为这些是不可克服的。

相反,我们认为使用公共元数据模式是实现能够持续发现和索引临床研究数据对象的系统的绝对先决条件。因此,它是支持数据共享和临床研究资源有效编目的关键。

我们最初的建议是用的意图发起一场辩论中感兴趣的利益相关者,并邀请其他存储库,实验和标准开发组织——评论在他们身上并讨论这些建议的方式,或任何模式的发展,可以实现为一种广泛使用的标准。请与我们联系您的意见!

在“医学”网站上可以看到最新的文章

评论