UNIPROT How-To series

今天师弟问了一个问题:

由于 rab-db 提供的水稻 loc ID 和 Os ID 的转换服务不能用了,有没有其他资源可以提供 ID 转化呢?

我答:

可以使用 uniprot 整理好的 ID。从下载的 uniprot text 的 OrderedLocusNames 属性提取。

其实,这只是 uniprot 数据库的一个简单的应用。作为世界最大的蛋白质数据库,uniprot 可是说是 biocuration 工作的集大成者。我觉得有必要写一个系列来讲讲 uniprot 的各种有趣的用处。本文作为这个系列的第一篇。

Mr.Wiki 说:

UniProt is a comprehensive, high-quality and freely accessible database of protein sequence and functional information, many entries being derived from genome sequencing projects. It contains a large amount of information about the biological function of proteins derived from theresearch literature.

作为一个 uniprot 的老用户,个人认为三大特性当之无愧:

  • comprehensive: 自动化的流程对多个数据库资源的深度整合(有没有百宝箱的感觉?)
  • high-quality: 进行了大量的人工校正
  • freely accessible

uniprot 的最大亮点还在于 research literature 的文献挖掘。这点让大量的文献标准化,从而可以被标准化地分析利用。


UNIPROT 的数据格式



–To be continued–