PROSAGA码农传奇-Nlp-阿拉伯语词义化和斯坦福NLP

阿拉伯语词义化和斯坦福NLP

作者: 机器设备维修
发布时间: 2024-04-08 01:22:46 (1月前)
转自：

<div class =“post-text”itemprop =“text”>
  
    斯坦福阿拉伯语分段符不能做真正的词形还原。但是，有可能训练一个新的模型来做类似于词干的事情：
  
  <UL>
    <LI>
      ??????锟？+ ??? +？
    </LI>
    <LI>
      ????锟？+ ???
    </LI>
  </UL>
  
    如果非常重要的是输出是真正的阿拉伯语引理（“???”不是真正的引理），那么使用像MADAMIRA这样的工具可能会更好（
    <a href="http://nlp.ldeo.columbia.edu/madamira/">
      http://nlp.ldeo.columbia.edu/madamira/
    </A>
    ）。
  
  
    
      阐述：
    
     斯坦福阿拉伯语分段器仅使用这些操作逐个字符地生成其输出（在
     <code>
 edu.stanford.nlp.international.arabic.process.IOBUtils
 </code>
    ）：
  
  <UL>
    <LI>
      在两个字符之间拆分一个字
    </LI>
    <LI>
      将lil-（???）转换为li + al-（？+ ???）
    </LI>
    <LI>
      将ta（？）或ha（？）转换为ta marbuta（？）
    </LI>
    <LI>
      将ya（？）或alif（？）转换为alif maqsura（？）
    </LI>
    <LI>
      将alif maqsura（？）转换为ya（？）
    </LI>
  </UL>
  
    那么lemmatizing ????到？+ ????需要实施一个额外的规则，即在ya或ta之后插入一个alif。某些不规则形式的词形还原是完全不可能的（例如，????????????????????
  
  
    可供下载的斯坦福分段器的版本也只是断开代词和粒子：
  
  
    ??????????锟？+？+ ??????? +？
  
  
    但是，如果您可以访问LDC阿拉伯语树库或类似的丰富的阿拉伯语文本来源并注释形态分割，则可以训练您自己的模型以删除所有形态词缀，这更接近词形还原：
  
  
    ??????????锟？+？+？+ ???? +？ +？
  
  
    注意 ”？？？？”不是一个真正的阿拉伯语单词，但是分段器至少应该始终如一地产生“????”对于??????? ，????? ，如果这是可以接受的，则需要更改ATB预处理脚本，而不是使用形态分割注释。您可以通过替换调用的脚本来完成此操作
     <code>
 parse_integrated
 </code>
     使用这样的修改版本：
    <a href="https://gist.github.com/futurulus/38307d98992e7fdeec0d">
      https://gist.github.com/futurulus/38307d98992e7fdeec0d
    </A>
  
  
    然后按照自述文件中的“培训SEGMENTER”说明进行操作。
  
</DIV>