Perfil de 云华WalkerBlogListasRed Herramientas Ayuda

Blog


    06 diciembre

    Information Extraction, 路向何方?

        下午李航博士给Speech组做了Information Extraction的报告,我们几个WSM组的同学也去蹭了一把。虽然内容都是我熟悉的,但是听完后,又是一番感受。
        高屋建瓴,用来形容他的讲座毫不过分。他先介绍了一下Information Extraction, Information Retrieval和 Data Mining的关系,让大家宏观上有了一个感性的认识。然后把sequence data labeling问题的两种不同解决途径,即Generative model和Discriminative model, 做了对比介绍; 接着以chain model为例,把HMM, ME, MEMM, CRF和Voted Perceptron几种典型的模型都串在一起,让大家了解这几种模型的发展历程,详细介绍了这几种模型的特点和本质。最后简要介绍了一个典型应用,给出了一个初步但清晰的结论。
        由于今天是做大致的介绍,所以他没有涉及太多的detail,而是从宏观的角度,从模型的本质来介绍。整体介绍的颗粒度比较一致,没有涉及太多的detail,基本概念很清楚,思路比较一致,的确反映了他的功底。由于talk是交互式的,所以中间会被打断。这些打断虽然可能暂时让talk偏移了讨论的重点,但加深了大家的理解。不过也因为打断,使得思路不太连续,详略控制的不太好,有些细节的地方并没有太讲透。当然这些都是暇不掩玉的,即使我对这些比较熟悉了,还是受益非浅。我相信其他人估计也会有同感吧。

        HMM在语音识别中的成功应用,让大家有了第一种做IE的经典模型。然而HMM需要做特征独立的假设,不容易扩展feature空间,需要生成所有的Observation,而且由于Generative model求解的是联合概率,与IE的真正目标并不一致,所以导致了其自身发展受限制。 直到二十世纪九十年代中后期,由于classification技术的成熟,大家想到了用Maximum Entropy来解决IE问题,将sequence lebal转化成tocken的classification问题。    ME模型虽然能使用更丰富的feature,但是由于丧失了sequence的信息,使得其在IE中的应用仍然有继续提升的余地,因此MEMM应运而生。MEMM引入了state之间转移的条件概率,一定程度上结合了HMM和ME的优点,的确提高了IE的性能。    然而,MEMM仍然是一个局部模型,训练时考虑的是局部的优化,而全局优化是通过decoding来实现,并没有结合到训练的过程中,而且还存在label bias问题,所以Lafferty提出了一个Global的模型,结合Random Fields的特性,很好地解决了前几种IEmodel的问题。这个模型就是目前IEmodel发展的顶峰:CRF。唯一美中不足的是,CRF的训练耗时较大。因此,Collins提出的Voted Perceptron,无意中成了CRF的简化版本。虽然效果差一点,但速度得到了很大的提高,也算是功德无量。至于Taskar后来引入的maximum margin思想,将IE问题转化为分类问题,但个人认为,这个转化并不十分漂亮,而且与CRF相比并非非常的impresive。

        纵观CRF的发展,IE model似乎走向成熟。然而,事实真的是这样的吗?我们真的揭示了IE问题的本质了吗??下一步,我们将走向何方?

    Comentarios (7)

    Espera...
    El comentario que has escrito es demasiado largo. Acórtalo.
    No has escrito nada. Vuelve a intentarlo.
    No se puede agregar tu comentario en este momento. Vuelve a intentarlo más tarde.
    Para agregar un comentario, necesitas permiso de tus padres. Pedir permiso
    Tus padres han desactivado los comentarios.
    No se puede eliminar tu comentario en este momento. Vuelve a intentarlo más tarde.
    Has superado el número máximo de comentarios que se puede dejar en un día. Vuelve a intentarlo en 24 horas.
    Se ha deshabilitado la capacidad de tu cuenta de dejar comentarios porque nuestros sistemas indican que podrías estar enviando correo no solicitado a otros usuarios. Si crees que tu cuenta se ha deshabilitado por error, ponte en contacto con el servicio de soporte técnico de Windows Live.
    Para terminar de dejar tu comentario, realiza la siguiente comprobación de seguridad.
    Los caracteres que escribas en la comprobación de seguridad deben coincidir con los de la imagen o el audio.

    Para agregar un comentario, inicia sesión con tu cuenta de Windows Live ID (si utilizas Hotmail, Messenger o Xbox LIVE, ya tienes una cuenta de Windows Live ID). Iniciar sesión


    ¿No tienes una cuenta de Windows Live ID? Regístrate

    Imagen de Anónimo
    JinzhuLi escribió:
    云华兄, 开张大吉! :)
    11 Dic
    Imagen de Anónimo
    周密 escribió:
    恭喜恭喜,大牛终于决定把大智慧付诸于书稿了,呵呵
    9 Dic
    Imagen de Anónimo
    DreamstudioMSRA escribió:
    顶一下~~
    8 Dic
    Imagen de Anónimo
    万万万岁 escribió:
    呵呵,朕也来灌一瓢水,爱卿果然有长进阿
    8 Dic
    Imagen de Anónimo
    肖益民 escribió:
    很深奥啊!
    看不懂,捧个人场!
    8 Dic
    Imagen de Anónimo
    yangzhang_chn escribió:
    大牛银的blog啊,拜读了一番,赞

    能把ie、ir和dm的关系展开讲两句就更好了^_^
    8 Dic
    Imagen de Anónimo
    黄际洲 escribió:
    呵呵,先占着,慢慢看
    8 Dic

    Vínculos de referencia

    La dirección URL del vínculo de referencia de esta entrada es:
    http://xjtuyhhu.spaces.live.com/blog/cns!59C33836F9362475!108.trak
    Weblogs que hacen referencia a esta entrada
    • Ninguno