| Perfil de 云华WalkerBlogListasRed | Ayuda |
|
06 diciembre Information Extraction, 路向何方? 下午李航博士给Speech组做了Information Extraction的报告,我们几个WSM组的同学也去蹭了一把。虽然内容都是我熟悉的,但是听完后,又是一番感受。 HMM在语音识别中的成功应用,让大家有了第一种做IE的经典模型。然而HMM需要做特征独立的假设,不容易扩展feature空间,需要生成所有的Observation,而且由于Generative model求解的是联合概率,与IE的真正目标并不一致,所以导致了其自身发展受限制。 直到二十世纪九十年代中后期,由于classification技术的成熟,大家想到了用Maximum Entropy来解决IE问题,将sequence lebal转化成tocken的classification问题。 ME模型虽然能使用更丰富的feature,但是由于丧失了sequence的信息,使得其在IE中的应用仍然有继续提升的余地,因此MEMM应运而生。MEMM引入了state之间转移的条件概率,一定程度上结合了HMM和ME的优点,的确提高了IE的性能。 然而,MEMM仍然是一个局部模型,训练时考虑的是局部的优化,而全局优化是通过decoding来实现,并没有结合到训练的过程中,而且还存在label bias问题,所以Lafferty提出了一个Global的模型,结合Random Fields的特性,很好地解决了前几种IEmodel的问题。这个模型就是目前IEmodel发展的顶峰:CRF。唯一美中不足的是,CRF的训练耗时较大。因此,Collins提出的Voted Perceptron,无意中成了CRF的简化版本。虽然效果差一点,但速度得到了很大的提高,也算是功德无量。至于Taskar后来引入的maximum margin思想,将IE问题转化为分类问题,但个人认为,这个转化并不十分漂亮,而且与CRF相比并非非常的impresive。 纵观CRF的发展,IE model似乎走向成熟。然而,事实真的是这样的吗?我们真的揭示了IE问题的本质了吗??下一步,我们将走向何方? Comentarios (7)Para agregar un comentario, inicia sesión con tu cuenta de Windows Live ID (si utilizas Hotmail, Messenger o Xbox LIVE, ya tienes una cuenta de Windows Live ID). Iniciar sesión ¿No tienes una cuenta de Windows Live ID? Regístrate
Vínculos de referenciaLa dirección URL del vínculo de referencia de esta entrada es: http://xjtuyhhu.spaces.live.com/blog/cns!59C33836F9362475!108.trak Weblogs que hacen referencia a esta entrada
|
|
|