crf.pdf


立即下载 一瓶泡沫
2024-12-20
照片 标注 标签 句子 单词 名词 特征 函数 词性 随机场
202.3 KB

[翻译]Introduction to Conditional Random Fields
Translated by hittlle(QQ:519234757)
source: http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/
假设你有 Justin Bieber(译注:加拿大著名歌手和作词人)一天的生活照片,你想根据每张
照片的内容给照片打标签(诸如吃饭,睡觉,开车等标签)。应该怎么做呢?
一个办法就是忽略照片之间的顺序关系,给每一张照片构建一个分类器。譬如,根据标注好
的一个月数量的照片,你可以得出早上 6 点左右拍的照片可能是表示睡觉,照片上亮色比较
多的可能表示跳舞,照片里有车可能表示正在开车等等。
这样做,你会丢掉很多有用的信息。譬如,如果有张照片里有一张紧闭的嘴,那它表示什么
呢?是表示吃饭还是唱歌呢?如果你知道这张照片的前一张照片是 Justin Bieber在吃饭或者
在做饭,那么这张照片很有可能就是在吃饭。但是,如果前一张照片是 Justin Bieber 在唱歌
或者跳舞,那么这张照片很有可能就是在唱歌。
所以,为了增加标签的可靠性,我们应该把相邻的照片考虑进来,这正是条件随机场
(Conditional Random Field, CRF)做的事。
词性标注
让我们用比较常用的词性标注为例进一步说明。
词性标注的目标就是给句子(一些列单词或记号)标上诸如形容词、名词、代词、动词、介
词,副词、冠词等标签。
譬如,给这样一个句子
Bob drank coffee at Starbucks
可能的标注会是:Bob(名词) drank(动词) coffee(名词) at(介词)Starbucks(名词)
让我们构建一个条件随机场来对句子做词性标注。和其它分类器一样,我们首先要做的就是
构建一系列特征函数 fi。
CRF 中的特征函数
在条件随机场中,每个特征函数接受如下的输入参数
* 句子
* 句子中单词的位置 i
* 当前单词的标签 il
* 前一个单词的标签 1il
每个特征函数输出一个实值数(这个值经常要么是 0 要么是 1)
(注意:将特征函数限制成当前词的标注只和前一个词有关,而


照片/标注/标签/句子/单词/名词/特征/函数/词性/随机场/ 照片/标注/标签/句子/单词/名词/特征/函数/词性/随机场/
-1 条回复
登录 后才能参与评论
-->