PROSAGA码农传奇-Nlp-使用Stanford NLP训练n-gram NER

0# 我头上有犄角 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”>
  
    这是一个漫长的等待回答。我无法找到使用Stanford Core完成任务的方法。但任务完成了。我使用了LingPipe NLP库。只是在这里引用答案，因为我认为其他人可以从中受益。
  
  
    请查看
    <a href="http://alias-i.com/lingpipe/web/licensing.html" rel="noreferrer">
      Lingpipe牌
    </A>
     如果您是开发人员或研究人员或者曾经做过什么，那么在深入了解实施之前。
  
  
    Lingpipe提供各种NER方法。
  
  
    1）基于字典的NER
  
  
    2）统计NER（基于HMM）
  
  
    3）基于规则的NER等
  
  
    我使用了字典以及统计方法。
  
  
    第一个是直接查找方法，第二个是基于培训。
  
  
    可以找到基于字典的NER的示例
    <a href="http://alias-i.com/lingpipe/demos/tutorial/ne/src/DictionaryChunker.java" rel="noreferrer">
      这里
    </A>
  
  
    历史方法需要培训文件。我使用了以下格式的文件 - 
  
   <pre class="lang-xml prettyprint-override">
 <code>
 <root>
<s> data line with the <ENAMEX TYPE="myentity">entity1</ENAMEX> to be trained</s>
...
<s> with the <ENAMEX TYPE="myentity">entity2</ENAMEX> annotated </s>
</root>

</code>
 </pre>
  
    然后我使用以下代码来训练实体。
  
   <pre class="lang-java prettyprint-override">
 <code>
 import java.io.File;
import java.io.IOException;

import com.aliasi.chunk.CharLmHmmChunker;
import com.aliasi.corpus.parsers.Muc6ChunkParser;
import com.aliasi.hmm.HmmCharLmEstimator;
import com.aliasi.tokenizer.IndoEuropeanTokenizerFactory;
import com.aliasi.tokenizer.TokenizerFactory;
import com.aliasi.util.AbstractExternalizable;

@SuppressWarnings("deprecation")
public class TrainEntities {

static final int MAX_N_GRAM = 50;
    static final int NUM_CHARS = 300;
    static final double LM_INTERPOLATION = MAX_N_GRAM; // default behavior

public static void main(String[] args) throws IOException {
        File corpusFile = new File("inputfile.txt");// my annotated file
        File modelFile = new File("outputmodelfile.model");

System.out.println("Setting up Chunker Estimator");
        TokenizerFactory factory
            = IndoEuropeanTokenizerFactory.INSTANCE;
        HmmCharLmEstimator hmmEstimator
            = new HmmCharLmEstimator(MAX_N_GRAM,NUM_CHARS,LM_INTERPOLATION);
        CharLmHmmChunker chunkerEstimator
            = new CharLmHmmChunker(factory,hmmEstimator);

System.out.println("Setting up Data Parser");
        Muc6ChunkParser parser = new Muc6ChunkParser();  
        parser.setHandler( chunkerEstimator);

System.out.println("Training with Data from File=" + corpusFile);
        parser.parse(corpusFile);

System.out.println("Compiling and Writing Model to File=" + modelFile);
        AbstractExternalizable.compileTo(chunkerEstimator,modelFile);
    }

}

</code>
 </pre>
  
    为了测试NER，我使用了以下课程
  
   <pre class="lang-java prettyprint-override">
 <code>
 import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.util.ArrayList;
import java.util.Set;

import com.aliasi.chunk.Chunk;
import com.aliasi.chunk.Chunker;
import com.aliasi.chunk.Chunking;
import com.aliasi.util.AbstractExternalizable;

public class Recognition {
 public static void main(String[] args) throws Exception {
 File modelFile = new File("outputmodelfile.model");
 Chunker chunker = (Chunker) AbstractExternalizable
 .readObject(modelFile);
 String testString="my test string";
 Chunking chunking = chunker.chunk(testString);
 Set<Chunk> test = chunking.chunkSet();
 for (Chunk c : test) {
 System.out.println(testString + " : "
 + testString.substring(c.start(), c.end()) + " >> "
 + c.type());

}
    }
}

</code>
 </pre>
  
    代码礼貌：谷歌:)
  
</DIV>

1# 筱梨 | 2019-08-31 10-32

2# 听风～ | 2019-08-31 10-32