Spark:stanford-nlp的火花速度太慢了


仙风道骨刘憨憨
2025-03-05 05:09:38 (7天前)
  1. 在我的应用程序中,我运行


NLP
</跨度>
工作

斯坦福
</跨度>

NLP
</跨度>
。该

斯坦福
</跨度>
解析模型打包在一个jar中,并且作为UDF,我使用sqlContext.sql来使用它。但我觉得它运行得这么慢。任何人都可以帮忙

2 条回复
  1. 0# 庸人自扰 | 2019-08-31 10-32



    您可以试用Spark的Stanford CoreNLP包装器。它应该简化使用,并希望加快您的代码。这里是

    git页面

    其中还包括可用的命令。如图所示

    简短的安装指南

    您可以使用以下命令直接将语言模型附加到Spark上下文:




    1. val version = 3.6.0
      val model = sstanford-corenlp-$version-models // append “-english” to use the full English model
      val jars = sc.asInstanceOf[{def addedJars: scala.collection.mutable.Map[String, Long]}].addedJars.keys // use sc.listJars in Spark 2.0
      if (!jars.exists(jar => jar.contains(model))) {
      import scala.sys.process._
      swget http://repo1.maven.org/maven2/edu/stanford/nlp/stanford-corenlp/$version/$model.jar -O /tmp/$model.jar”.!!
      sc.addJar(s”/tmp/$model.jar”)
      }

    2. </code>


    对于支持的型号,您可以看到CoreNLP网站。


登录 后才能参与评论