近期论文中的数据集整理0409

佚名 7年前 (2019-04-09) 随笔 858人围观抢沙发百度已收录

1.已训练好的词向量

//自己训练词向量需要对应领域非常大的文本库，收集处理过程是很费时的，所以使用已有的资源即可。

1.1生物方面：http://bio.nlplab.org/

这里的词向量是使用word2vec工具在PubMed和PMC上文本生成的。

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

下载链接：http://evexdb.org/pmresources/vec-space-models/

引用论文:Distributional Semantics Resources for Biomedical Text Processing. Sampo Pyysalo, Filip Ginter, Hans Moen, Tapio Salakoski and Sophia Ananiadou. LBM 2013.

1.2化学方面：参见（6）.

训练的50维的词向量，使用的数据集是以‘chemical’为搜索词，从Pubmed上下载了1918662篇MEDLINE摘要训练的，并且加上CHEMDNER语料库进行训练词向量，是用了word2vec工具，和上述是一样的。

1.3多方面https://nlp.stanford.edu/projects/glove/

a。六十亿的token，40万的字典，包括50维、100维、200维、300维的词向量。

b。等等。

2.Attending to Characters in Neural Sequence Labeling Models

这篇论文是一个独立于语料库的序列标注，并且其代码：https://github.com/marekrei/sequence-labeler

将词向量word-level和char-level结合起来，并且不是进行直接粘贴，而是通过NN训练了一个权重，减少了参数使用量。

3.Transfer learning for biomedical named entity recognition with neural networks

首先是在SSC上进行预训练，之后又转移到GSC上进行训练、验证和测试，实现了迁移学习。

代码: https://github.com/Franck-Dernoncourt/NeuroNER/

提供了进行预处理好的SSC，是Brat格式的文件：https://github.com/BaderLab/Transfer-Learning-BNER-Bioinformatics-2018/

Brat格式：标注是与被标注文档单独并且排序存储的，所以对语料库中的每一个文本文档，都有一个单独的标注文件，这两个文件通过文件命名约定关联，它们的基本名称（不带后缀的文件名）是相同的。

所有的标注都有同样的规则：每一行都包含一个标注，一个标注包括：ID、起始下标、终止下标、标签。

4.关于NeuroNER

安装过程之前博客里有过。

调用过程：

C:\Users\XXX\AppData\Roaming\Python\Python35\site-packages\neuroner>python __main__.py 
--train_model=False --use_pretrained_model=True --dataset_text_folder=./data/example_unannotated_texts --pretrained_model_folder=./trained_models/conll_2003_en
//上面这个可以运行成功，看来是需要跑到那个下面去，并且直接运行main文件就可以，里面有进行构建模型的函数，就是主函数，
//那么通过这个我能够知道以后也是可以这么运行的了。