云华's profileWalkerBlogListsNetwork Tools Help

Blog


    September 04

    博士论文标题的特点

        正在准备偶的博士论文,想看看博士论文标题都有什么特点。顺便做了个小小的调研,看到一些有意思的规律,把结果罗列一下。
        统计数据:
        总共480篇博士论文的标题,清华30篇,浙大440篇。其中06年64篇,05年114篇,04年91篇,03年82篇,02年74篇,01年45篇。
        高频词统计:
        跟论文的主要目标相关的:研究(370次),应用(118次)
        跟论文的主要侧重点相关的:系统 (125次),技术(122次),方法(65次),理论(42次),过程(35次),算法(33次),建模(30次),模型(31次),数据(32次),分析 (25),设计(24次)
        跟具体领域相关的:挖掘(22次),识别(16次)
        还有两个曝光率“相当的”高的介词:基于(132次),面向(22次)
        另外还有:若干(36次),关键(37次),智能 (36次)
        论文模板:
       a. ××系统(技术、方法、模型……)的研究
       例如:群体Agent合作求解方法的研究,音频隐写与分析技术研究,……  
       这类论文多是具体内容的研究,一篇文章即一个研究点。
        b. 基于/面向××的××系统(技术、理论、方法……)的研究
        例如:基于脑电信号的脑—计算机接口的研究,基于统计学习的人脸图像合成方法研究,面向大规模图像库的索引和检索机制研究,……
       这类论文多强调运用某个技术,在某个条件下进行的研究。
        c. ××中的××(和××)的研究
        例如:Web挖掘中的降维和分类方法研究,计算网格环境中任务管理的研究,……
        这类论文多强调的是大研究方向、应用环境中的一点。
        d. ××的研究及其在××中的应用
        例如:隐马尔可夫模型的研究及其在图像识别中的应用,被动测试理论及其在协议故障检测中的应用,……
        这类最负责,几乎包括前面三种情况。
        e.××的××
        例如:时空联合的视频对象分割, 视频文本的提取, 人脸表情的识别、重建与合成,……
     
        权衡一下,还是选择一个大众化的标题模板和高频词做我的论文标题算了,就叫:基于监督学习的文档元数据自动抽取
        请大家多提意见:)
     

     
    July 06

    第一次被采访

        生平第一次正儿八经接受采访,回头想想还挺有意思的。
        因微软的实习生计划从而得到这次西雅图之行面见Bill的机会,可以说相当~的幸运。可是说要面临媒体采访,还真是没想到过。虽然Eileen姐已经提前告诉过我们,但真正面临时,还是有点感触的。
        开始的时候很紧张,不知道这个看起来造人不倦毁人也不倦的媒体会怎么样面对我们。尤其是看着renzhong远在大洋彼岸还要接听记者电话,真是新鲜好奇又外加羡慕,还有点想笑。
        真正轮到我上场的时候,还真是巧了,采访我的是家乡的记者,而且是我的校友!加上他人很好说话,观点独到,挺合我胃口的,所以基本没有距离感。讲了几句就像跟朋友聊天一样,把自己知道的炒豆子一样都给蹦出来了。呵呵,还好这位记者老乡RP好,居然也能忍受。最后还能从叽里呱啦的谈话中总结一点出来,真是不简单。看来记者也还是要有两把刷子的!后来自己去看报道,也没见抖露出什么让我为难的事。后来有点后怕,要是娱乐记者来采访的明星也像我这样,估计会被弄出n条爆炸新闻。
        可能天生就比较淡泊,真被采访了,也觉得没什么。不知道会不会被人扁:)只是在自己的亲人看到这个消息的时候,有点高兴而已。而自己呢,也还是一样的过。好好做自己的事,可能对我来说意义最大,对会炒作的人来说真是机会浪费啊:)
        不记得记者都写了什么。反倒是他最后对我说的话让我映象深刻。考虑到有人看到后会晕倒,我还是不说出来的好,呵呵。不过我还是会努力的,至少现在可能多一个人在看着我呢。
    June 26

    BBQ三部曲之三-----花絮盘点

        梦幻般的西雅图之行结束了,可是故事还远没有结束。期间的有趣经历,可能一直说不完。随便捡一些,跟大家分享。
     
    外号大颁奖
    姓名:Eileen
    外号:VP Creator
    理由:给大家安排会议,协调日程,管吃管住,外加处理日常紧急事务,让大家享受与VP同等的待遇,…… 曾经的VP Creator似乎想继续培养下一代VP,这个奖项舍她其谁!
     
    姓名:Zhu Jun
    外号:浪漫的队长
    理由:为队员鞠躬尽瘁;浪漫的大手笔采购;甘感冒风险的Seattle海边冲浪;Work hard, Play harder的完美执行者。浪漫的队长,实至名归!
     
    姓名:Li Jian
    外号:Bill的对手
    理由:头脑清晰,行动敏捷,语出惊人,挑战彪哥乒乓球技并誓言击败Bill,不是Bill的对手却又是谁?
     
    姓名:Tsai Mingfeng
    外号:梦幻魔术师
    理由:简单的道具变换出精彩的魔术,在不经意间将大家无聊的时间变走,同时也变来了众人特别是mm们仰慕的目光。
     
    姓名:Luan Qing
    外号:吸引眼球的中国娃娃
    理由:玩魔术的时候,Mingfeng是焦点;在Bill家的时候,Bill是焦点;其他的时候,Luan Qing是焦点^-^ 这个思维敏捷口语很棒的漂亮中国娃娃,连大名鼎鼎的Jim Gray也忍不住伸手去抱啊......(别砸我啊,基本属实,详情参考Luan Qing的Blog)
     
    姓名:Ren Zhong
    外号:未来领导者
    理由:大家一致公认具有专业水准的领导者,不仅说话办事有领导风范,连照相Pos都摆得那么酷;BBQ回来的标准新闻播报再次让大家折服;平时也不乏惊人之语,建议收集整理成领导语录。
     
    姓名:Sun Tiantian
    外号:天才主持人
    理由:Mingfeng玩魔术的时候如果缺少Tiantian,就像美味的菜里少放了盐;积极参与的无比热情和绘声绘色的准确播报无疑再现元旦联谊晚会主持人的风采;下次出游,如果没有天才主持,谁知道会怎样?
     
    姓名:Tan Quan
    外号:游戏人生的高手
    理由:及时Blog报道之第一人;无声无息又无处不在;XBox游戏仗义出山替众人雪耻;离开Seattle时还不忘给大家表演“路见不平,五体投地”,真乃游戏人间的高手!
     
    姓名:Xie Yu
    外号:搞笑天才儿童
    理由:大家的开心果;夸张的眼睛,永远合不拢的大嘴,出人意料的发问,奠定了天才儿童牢不可撼的地位;猥琐专辑前12本已被队友定购一空。
     
    姓名:Wu Fazhou
    外号:当仁不让的语言专家
    理由:不愧是做自然语言处理的,时时不忘给大家提示,坐飞机要关手机,过马路要看灯……其语言逻辑绝对可以让队友超级聪明的大脑占用率达100%,当然本人除外,因为我曾在自然语言组呆过:)
     
    姓名:Zhang Yunqiao
    外号:人小心大的勇敢者
    理由:只抗议一次就让所有人记住了名字;走在队伍边上但永远不会被甩掉;虽然一度忘了机票还胜利完成日本东京的远征,勇者无畏啊。
     
    姓名:Yang Guang
    外号:甘当小弟的阳光男孩
    理由:人高马大却要被当作小弟,几经反抗终于接受这个事实;人如其名,阳光灿烂。
     
    姓名:Hu Yunhua(就是我了)
    外号:无
    理由:没想好
    由于文笔、精力有限,不能很好概括大家,见谅见谅。欢迎大家拍砖:)
     
    June 24

    BBQ三部曲之二-----人在美国

        美国之行,发生了很多非常有趣的事情,学习了很多,也感受了很多。由于其他队友已经有很多有意思的描述,我就简单总结感受比较深的如下几点。

        紧凑的行程
        整个美国之行安排的非常紧张,一看就具有微软作风:)大致行程是这样的,第一天:早上到旧金山,之后转乘飞机到Redmond小旅馆住下,下午购物,晚上Eillen姐请吃饭;第二天:上午参观波音公司,下午游玩漂亮的deception pass公园,晚上洪院长请客;第三天:白天与微软公司的大牛们座谈、了解总部的情况以及各个研究组的研究内容,晚上去Bill家BBQ;第四天:上午与MSN group的研究员座谈,参观微软的未来之家,下午与XBox组的研究人员座谈并亲自体验XBox360,然后到华盛顿大学参观访问;晚上大家集体聚餐,享受美味的海鲜大餐;第五天,乘机返京。这几天时间,让我们有机会体会西雅图的风土人情,感受微软研究院的文化,体验牛人们以及Bill本人的风采,有机会得到牛人们直接和间接的指导,的确十分值得。

        牛人的风采
        在微软研究院的两天,也就是整个行程的第三天和第四天,是我们整个美国之行的重点。我们跟Rico,学东,自成,Rick Rashid,Yimin,Zhao Feng等人分别进行了座谈。在他们风趣、清楚的描述中,我们对微软总部的研究有了初步的认识,对他们各自从事的研究也有了一些了解,当然更重要的是得到了他们很多很好的意见和指点。
        比如Rico,他是Distinguished Engineer,也是微软公司Redmond研究院的director,给我们介绍了研究院的研究内容,并做了精彩的演示。其中一个能根据说话人方位自动降噪的麦克风,引起了我们的很大兴趣,以至于后来大家在微软的未来之家,大家又提了关于它的问题。比如学东,他是Incubation组的General Manager,给我们在创新能力和执行能力方面做了很多有益的指导;还有掌管所有研究院的大头Rick^-^,他深入浅出的给我们讲了微软研究院的定位,与高校计算机系的区别和联系,以及我们实习学生应该重点学习的内容等;当然还有Yimin非常有意思的“不要排队”的理论让我们在大笑之余,更加深刻的体会了创新的重要性;跟MSN和XBox组的研究员的座谈,也让我们进一步体会了什么才是真正的商业软件,什么才是面向市场和用户......
        跟他们座谈完之后,我有两点印象非常深刻:第一点是这些人有很强的communication skills,他们讲的内容非常清晰易懂;第二点就是牛人们都很谦虚很好接近。我甚至都觉得,即使不能见到彪哥(Eileen姐说应该叫彪叔^-^),这一趟都值了。

        跟彪哥握手
        在写下这个小标题之后,我突发奇想搜索了一把,发现网上已经有很好的介绍http://www.peacehall.com/news/gb/misc/2006/06/200606190123.shtml,而我的队友栾青他们也都已经有了详细的描述,发现自己可以不用再写了。其实这个时刻,也并非文字能描述的。我想还是等到以后再仔细回忆吧。只是有个细节,一想起来就想笑:见到彪哥时,我正握着装满冰水的杯子。轮到我握手时,我突然意识到握手应该是右手,于是赶紧把杯子换到左手,然后把冰凉的右手伸了出去握了一把。不知道彪哥会不会对我有深刻的映象,估计还从来没人能让他觉得如此清醒:)

        英语的遗憾
        人在美国,欣赏西雅图美丽的风光,感受牛人们别具一格的风采,可以说有太多的感悟和收获。只是感慨的是,自己的英语口语确实太烂。虽然阅读写作还算过得去,没想到把英语说出来竟然如此蹩脚,而且没想到主人们还能勉强听懂,不由得让我肃然起敬。洪院长倒是挺大度的,鼓励大家多说,说慢些,这个难关就可以过了。我想也是时候提高口语技能了。

        多赚钱
        永恒不变的话题,再次强烈感受,再次强调:)

    June 22

    BBQ三部曲之一-----迟到的前奏

        终于从美国回来,踏上祖国国土的那一刻,心里踏实了许多。突然觉得,太长时间没有更新Blog了,有股想写的冲动。晚上回来刚收拾妥当,来不及倒时差,先补上这次BBQ三部曲的前奏。虽然有点迟,我想这些经历,可能很长时间都不会忘记。
     
        入围 由糊涂到清醒
    一直没明白自己怎么就成了MSRA年度十佳最佳实习生。记得当初接到Eileen姐的信,还以为看错了,因为我向来跟这些奖项无缘,除非在竞赛中。后来才明白,原来mentor李航推荐了我,加上侥幸在SIGIR等国际会议上发了些文章,平时工作还算卖力,大家对我印象还不错,就这么成了候选人。在朋友的鼓励和帮助下,我参与了竞争,有幸最终入围。当然这都是这两天跟Eileen姐以及其他manager聊天时了解的,只是没料到我们的信息被他们掌握得这么清楚,难怪员工要比学生辛苦得多:)
     
        BBQ 给我一个不去的理由
        对于最佳实习生,据说最大的荣誉就是可以到Bill Gates家去Barbecue。BBQ对于在西安呆了将近10年的我来说实在熟悉不过。自己到西安的回民街吃过,跟班里同学在野外烧烤过,在餐馆也品尝过,虽然觉得好吃,也没觉得到底有多特别。难道Bill家的Barbecue,难道就这么有意义吗?就连入围后,我还是没想通。
        当然我的想法很快就被跟我熟悉的微软员工们鄙视了:)当我问他们时,他们用羡慕甚至嫉妒的口气说,研究院的研究员们都非常难有这个待遇。在微软公司全球七万多员工中,据说工作n年以上并且业绩突出的少数员工,才可以被Bill邀请去家里BBQ。实习学生相对幸运得多,微软总部每年都会挑选一些实习学生参加这个party。而微软亚洲研究院,因为过去几年在研究领域的突出成就以及harry院长的大力推荐,从去年开始获准选派10个学生参加年度的BBQ。
        除了荣誉之外,当然BBQ还有其他重要的意义。因为可以跟Bill本人近距离接触,领略一个时代最具神话色彩的一代牛人的风采,甚至直接跟他对话。同时,还能见识Bill身边成群的大牛们。因为在这个盛宴上,一些平时神龙见首不见尾的牛人们,还有些极具潜力的员工和学生们,都会被要求出席。能跟这些牛人见见面,聊一聊,也算是快慰平生。例如这次我们就有幸见到负责微软研究院事务的全球副总裁Rick Rashid和数据库事务处理方面的顶尖专家、号称Technical Fellow的Jim Gray等。听说微软当初请Rick出山的时候,就允诺让他建一个可与CMU计算机系相抗衡的研究机构。而Jim Gray就更神了,就因为他不喜欢西雅图的阴天,Bill给他在硅谷另建了个研究院。
     
        Homework人未至,声先闻
        今年去Bill家BBQ的实习生代表团领队是Eileen姐。这位人称VP creater(开复开创中国研究院时招聘的第一个员工?开复和亚勤这两位全球副总裁的秘书)的员工,就像一位大姐姐一样,让我们领略了微软员工做事一丝不苟的风采。在去美国之前,据统计,她曾经组织大家开过14次碰头会。从签证的准备到行程的安排,从就餐的礼仪到礼物的设置,从邀请研究员做报告到组内轮流对将要见到的牛人的了解,基本涉及了我们去美国可能遇到的各种问题。在没有去之前,我们这些实习生,就已经有所收获了。每次会议之后,Eillen姐都会给大家留的Homework,让大家确定自己去Bill家烧烤的目的,需要了解哪些牛人,了解西雅图的环境等等。等到出行时,大家都有底气了。事实证明,这样的Homework给大家带来了极大的好处,这是后话,暂且不表:)
     
     
    May 24

    签证&开题

          最近运气不错,连过两道难关,忍不住跟大家分享一下:)
          先是跟Eileen姐舌战美国签证官,拿到赴美的visa。 即使面对签证官时我自始至终只说了两句话,但不说的话估计也不能全线大捷啊,所以还是有我的功劳滴~^-^。
          因为是团队一起签证,领队Eileen姐回答了签证官n个问题,排第一的队长同学也回答了几个,到后面的同学时几乎没问什么正经问题。等轮到倒数第二个的我时就更离谱了,两句话搞定。我对签证官第一句就是在她问我有没有带简历时,我说“Please wait for a minute”。掏出简历后我说了第二句“Here you are”。面对我竖起的耳朵和摆好的pos,签证官居然视而不见,马上转向我们同组的美眉,让我失去了继续检验英语口语和听力的机会。当然我后面的美眉待遇更好,只说了一句话,就被pass了。那句话就是告诉签证官她的简历已经交上去了:)
          第二件开心的事是顺利通过博士开题报告。虽然有点仓促,也算如我所愿:)
          我从周一开始写开题报告书,周二下午因赴京暂停撰写,星期三到京后继续写了一段,周四签证回来时已是下午5点,又利用余下的时间,终于整理好一个完整的版本。周四晚需要继续坐9点的火车回西安,可是这时候我的slides还没开始做。等我趴在T43的卧铺上,终于搞定slides的提纲时,已是晚上12点多。周五更是疯狂的一天,下火车后我直扑实验室,到下午两点slides终于新鲜出炉,这个时候离开题时间只有半个小时。等到5点多,听开题报告的教授们通过我的报告后,我已经不知道自己该说什么好了。
          总结一下,凡是都需要积累。如果没有Eileen姐周全的准备,估计我们就会被卡在签证官要求的evidence of microsoft internship上。如果没有平时撰写的一堆slides以及被李航老师再三修改的论文,估计开题报告就得推迟到下半年了。但是时间上有些紧张,如果提早做准备,可能不会这么紧张了。
    May 12

    “以人为本”- 记在微软实习的日子

        离开微软亚洲研究院(MSRA)已经有一段时间,中间经历了难忘的五一,终于可以静下心来总结一下在微软度过的这段宝贵的时光。大部分是自己个人的感受,如有夸张不实之处,请大家批评指正。
     
        与南方相比,北方的春天来得更加令人激动。眼看着北京的春天踩过冬的痕迹,沉寂的大地开始铺上生命的绿意,我忽然明白了人与植物的差别:植物的季节是由自然所决定的,而人的季节是由自己决定的!万物萧索的冬季,却正是我在微软亚洲研究院(MSRA)不断成长的春季。
     
        如果说牛顿的成功,是靠着自己的努力“站到了巨人的肩膀上”,那么MSRA无疑就是直接为我们提供了类似的环境。作为世界上顶级的研究机构,它给大家带来太多的全新体验。新鲜、刺激、震撼、感动、充实,可能是在微软实习过的学生的共同感受。刚来时,我们参观MSRA以中国的四大发明和微软的主打产品命名的会议室,享受drinking room里丰富的免费饮料,聆听来自世界各地的计算机领域顶级专家的精彩讲座,领略无处不在的交互式白板文化,以及现代公司高效的工作模式……无一不挑战自己的感观和固有思维习惯。第二次来MRSA,用自然语言处理组manager周明老师的玩笑说,这算是我二进宫了。再次实习的机会,让我能跟随行业内科学家踏入前沿研究领域,感受他们谦和宽厚的为人处事和兢兢业业的科研精神,加深我对于科研的理解和对将来人生发展的认识,使我更有激情,更有信心面对未来。两次的实习经历,带给我太多的感受,而且穿插在我的求学生涯中,对我来说意义非凡。其中感受最深刻的,是MSRA“以人为本”的理念。
     
        在MSRA期间,无处不感受到热情和乐观,感受到关怀。记得当时认识我指导老师李航的时候,心里的确忐忑不安,不知道以自己无名小辈的身份,该怎么跟这些研究界的大牛们打交道。等到李老师乐呵呵的给大家介绍、演示他们的研究工作后,我马上被他的热情和平易近人打动了。而且我很快发现,这不是他一个人的特点,几乎接触的研究员们都很好打交道。经常可以发现研究员跟学生们很开心地聊工作的事,甚至在吃饭的时候,都能看见他们兴奋的眼神,听到那些爽朗的笑声。在平时举办的各种活动中,经常能惊奇的发现这些在研究上兢兢业业的学者们居然玩的时候也很有一套。每个月末的Wine down,大家经常不是被酒喝翻而是被研究员们的幽默机智笑翻。其他工作人员,心态也非常积极乐观,而且对学生关怀备至。主管学生项目的Eileen Chen,被大家亲切的叫Eileen姐。经过一次小插曲,我才知道连学生晚归的事,她都会操心。这种热情和乐观,也直接影响着学生。我第一次实习回校后,连我身边的同学都感慨,出来一年后,人幽默了不少,而且成熟了不少。
     
        得到学术领域里顶尖研究员面对面的指导,是每个实习学生最自豪的事。刚来时,不太会做slides,给大家汇报工作也会特别紧张,讲得没有激情,连自己都昏昏欲睡。后来李航老师在每次我们报告之前都会帮我们检查、修改slides,让我们改掉没有生气、老套的报告习惯,教我们从听众的角度思考问题。每个星期的工作进展,他也会经常了解,帮我们改掉一些不良的工作习惯,及时发现、纠正我们的问题,提高工作效率。他还经常跟学生们交流,讨论问题,不时组织一些优秀论文阅读,跟我们探讨一些前言的研究问题。最让人印象深刻的是,他对科研的每一个环节都要求到精益求精的地步。曾经有一次我遇到数据标注标准的问题,他跟我从晚上九点一直讨论到十一点,直到把最后一个小疑点消除了才放心。在论文写作上更是如此,在李航老师的指导下,我发表的第一篇国际会议论文来来回回居然修改三十多次,后来他还告诉我其实修改次数一点都不算多。有同学跟我说,他在学校发第一篇中文论文时,经过老板的指导改了十来个回合时就快崩溃了。后来我把自己的经历跟其他实习学生讲的时候,惊奇的发现他们中间居然也有很多人跟我有类似的经历。曾有好友更直接了当的说,这些研究员跟自己在学校的指导老师没什么区别、甚至在学术上指导更细致一些,唯一的区别是他们的名字不会被署在毕业论文的封面。当然现在的学生更幸福,因为不少顶尖研究人员可以直接在高校带学生了。
     
        奔驰的列车,不仅需要强有力的车头,还需要众多车轮的全力配合。MSRA,正象飞驰的列车,在计算机相关的众多领域里,一路领先。而大家的团队合作,就像配合默契的车轮,推动着MSRA向前推进,这是我在MSRA实习的另一个深刻感受。以前我也曾很注意团队合作的训练,在自己的实验室里,体验过合作开发的威力;在学校的微软俱乐部中,也体会到合作共事的乐趣。然而,就在来实习之前,MSRA组织的创新杯”软件设计大赛,再次让我提前感受到这份团队合作精神。当时我们六个人的团队中,只有三个队员编过程序,一个队员有不多的项目开发经验,最后我们却在全国数百支队伍中拿到了三等奖的好成绩。这份成绩背后,也不乏MSRA通过高校微软俱乐部辐射的团队合作的影响力。因为当时这支团队有个共同的特点―队员都是微软俱乐部成员,大家平时受MSRA的直接影响,都有不错的团队合作意识。可以说,正是靠集体的力量我们才赢得了胜利。后来在MSRA的实习活动中,这种理念又得到了进一步的深化。
     
        对学生来说,最典型的团队合作要算Group study了。实习学生们在员工的组织下,每隔一段时间,会挑些经典的论文来阅读。理解较深的同学会给别人讲解,其他听众会也会对发现的疑点穷追猛打,大有不搞懂誓不罢休之势。这样一问一答中,大家的知识水平都有提升。拿我自己来说,会经常向别人推销我的观点,也经常在跟别人的讨论中得到启发。一段时间后,大家都知道我的研究领域,而我推荐的算法工具也马上流传开来。研究工作有时比较复杂繁琐,可能经常要跨越不同研究小组去交流,如果不具备团队合作精神,很难顺利完成。幸运的次,我每次都能得到别人热心、真诚的帮助,不管他们是员工还是学生。这一点,即使在高校里同一个系的不同实验室之间可能都少见。其他形式的团队合作也从来没断过,打球,旅游,踢毽子,甚至逛街,都成了大家的集体活动。在MSRA实习一段时间后,志同道合的朋友不知不觉增加了很多。团队合作,是MSRA给我们赠送的另一个最好的礼物。
     
        人的因素,是企业成功的最重要因素。“这里最重要的是有这群牛人,如果没有他们,可能会黯然失色。”上次母校微软俱乐部的几个同学过来参加活动,我带他们参观后,有人感慨地说。是的,在这里,学生们能受到很大程度的肯定,能得到顶尖科学家的指导,能获取很宽松自由的研究环境,很多人的潜力都得到了激发。正如微软的广告词所说,“您的潜力,我的动力”,有了以人为本的研究理念,还有什么不能成功的呢?
     
        其实,MSRA带给实习学生的感受,还远不止这些。就连很多没来过的同学,也有所耳闻。第一次实习结束回校时,很多学生都想了解实习的情况,以至于学校电信科协和微软俱乐部特意主办了一次活动。在那次活动里,我曾非常荣幸的给大家介绍了我的感受。后来在自己的Blog里,也曾记录过一些点点滴滴。总的说来,对我而言,实习已经不仅仅是一段工作经历,已然是成长的重要环节。
     
        “随风潜入夜,润物细无声。”在MSRA实习的日子,正如这点点春雨,无声无息地滋润着我,不断催生新的希望。我相信,若干年后,MSRA的这段经历,会如故宫的砖,长城的瓦,永远铭刻在我心中。
     
        感谢好友叶谦、聪慧的修改:)希望这篇小文,能给大家带来一点启发。
    April 27

    去Bill Gates家BBQ去

        终于得到正式通知,有幸入选MSRA年度Top10实习生之列。作为奖励,大家被邀请到MS在美国Redmond的总部参观,参加Bill G家草坪上的BBQ,甚至和Bill G本人直接交流。


        的确有些兴奋。这个最富有传奇色彩的人,可能永远是大家津津乐道的话题之一。在微软亚洲研究院实习了不短时间,听一些跟他直接交流过的研究员说起过他,也曾在北京二十一世纪计算的会场上隔着数道人墙见过他,但是,面对面的交流,却是从来没敢想过。不是因为他身份显赫财富惊人,而是因为他凭着当初的让每个家庭都能用上个人计算机的念头从而成功成为软件产业的领头羊的经历。本人一直好奇,每个人都有梦想,为什么他能如此成功。也许,亲身感受一下,会更有感触。


        通知是下来了,接下来要面临麻烦的签证。刚好面临自己久拖不决的论文快脱手的当口,注定要忙的一团糟了。改天有时间再来瞎掰:)

    April 25

    此路不通

    从去年10月份起,到现在也有大半年了吧,仔细总结一下,却发现研究进展非常缓慢,几乎没有突破。很多的猜想和假设,被一个一个否决;预期的效果,总是无法达到;辛辛苦苦完成的工作,却发现很难得出一个好的结论......有些疲惫,也有些烦了。好在有朋友的安慰和分析,帮助我更清楚的认识自己,也不失为一种收获。不管怎样,研究上也还是有些收获的,至少证明了此路不通。
    December 22

    明天,我不再沉默

        从北航出发,先迈左脚可以走到西格玛,而先迈右脚却无法到达。你相信吗?
        我就碰到了类似的问题。前段时间写了个程序,要实现一堆数跟一个很小的数相乘再求和,结果我是先求和再相乘的,而运行结果居然有不小的差异!仔细调试了一把,发现是浮点数搞的鬼。
        因为涉及浮点数运算的地方较多,所以连续几天加班,跟浮点数打架。搞定之后,我也感冒了。杀敌三千,自损八百啊。今天嗓子还不舒服,继续保持沉默。不过估计明天嗓子就能好了。
        所以,我决定,明天不再沉默。
    December 20

    Some Useful Papers about Information Extraction Models

    1. SVM for IE
    I. Tsochantaridis, T. Joachims, T., and Y. Altun. Large Margin Methods for Structured and Interdependent Output Variables. JMLR'05
     
    2. Conditional Random Fields (CRF)
    J. Lafferty, A. McCallum, and F. Pereira. Conditional random fields: probabilistic models for segmentation and labeling sequence data. ICML’01
    F. Sha and F. Pereira. Shallow parsing with conditional random fields. NAACL’03
     
    3. Maximum Entropy (ME)
    A.L. Berger, S.A.D. Pietra, and V.J.D. Pietra. A maximum entropy approach to natural language processing. Computational Linguistics’96
     
    4. Maximum Entropy Markov Model (MEMM)
    A. McCallum, and F. Pereira. Maximum entropy Markov models for information extraction and segmentation. ICML’00
     
    5. Hidden Markov Model (HMM)
    Z. Ghahramani, and M.I. Jordan. Factorial hidden markov models. Machine Learning, 29:245-273, 1997.

    别看了,说的就是你

    有一伙人在四处打听你,
    还说逮住你不会轻饶你,
    他们一个叫财神,
    一个叫顺利 ,
    领头的叫幸福!
     
    我问过烦恼了,
    它根本不爱你,
    还说永远不理你,
    让我转告你不要自做多情!
     
    还有健康,
    让我带封情书给你;
    它暗恋你好久了,
    并且一生不变!
     
    提前祝各位:圣诞快乐、新年快乐。
    December 19

    从好友离开MSRA回学校所想到的

        好友徐君在研究院呆了28个月后,终于回去写毕业论文了,从此MSRA的vs中少了一个老怪级的人物,而Employee中可能即将多一个新生力量。从研究院回学校,自然有另外一番心情,联想起自己在学校呆以及在MSRA的经历,不禁产生这样的疑问,同为研究机构,学校的实验室与微软的研究院有什么样的区别呢?
     
        如果这个题目要展开的话,我想,出一本书都不为过。在这里,对于我们学生来说,让我我感受最深的地方,既不是每晚180的标准间,也不是蕴藏丰富的免费饮料和食品,更不是每个月不算低的补助,而是人,是来自国内外相关领域的顶尖研究人员,是从四面八方慕名而来的优秀学生,以及他们所营造的良好学术氛围。
     
        专注,是研究员们显著的特点,也是MSRA区别于学校的关键之处。中国文化历来重视仕官,学术领域也不例外。只要在这方面崭露头角,就必然会谋求仕途上的发展。否则科研经费、实验环境建设可能就没有保障。君不见国内学术界年轻有为的学者,很多都在四处奔走,忙于递申请,找门路,拉关系,要项目。很多宝贵的脑力,就浪费在这些方面。就连学生培养的工作,也没有多少投入。而在研究院,没有那个研究员不专注于自己的工作。他们积极了解国内外科研的最新进展,在很多学术领域进行开创性的工作,潜心推动研究的纵深拓展;他们积极培养指导访问学生,让学生在技术能力、学习方法和思维方式等得到切实的锻炼和提高。试想,一个几乎什么都要操心的学者,和专注于自身研究领域的研究人员,谁更能取得成功?
     
        激情,是这些研究人员区别于很多学者的另外一个标志。在这里几乎每个人都被上紧了发条,眼睛里闪耀着智慧的光芒,语气中透露强烈的自信,连快乐都写在脸上。这些研究人员,没有几个是满身书呆子气,没有几个面色凝重,眉头紧锁或者满脸憔悴。他们永远都朝气蓬勃,极富感染力。我时常很诧异,为什么我们在做自己工作的时候,都很少有这种激情,而他们肩负更重的担子,做更重要的工作,却比我们更有活力?

        自信,可能是他们充满激情的原因。我的mentor李航曾经这样跟我说,要做一流的研究,而不仅仅是写高水平的论文。他们都把做世界一流的研究做自己的目标,相信自己的工作对人类具有重要的价值(抑或是对公司有重要的作用,借此让更多的人享受技术带来的便利),而且也有着实现的信心和勇气。这种追求,不就是我们儿时的梦想吗?在这里,能让我们更清楚的看到自己的目标。而学校里有些地方,很多人都忙于在小范围内证明自己的确是优秀的,而且一旦有了一点成就,很可能要吹上好一阵子,让真正的内行看了都脸红。自信和自负,产生的却是截然不同的结果。

        因为专注,所有充满激情;因为激情,所以自信;因为自信,所以成功。这可能是我能感受到MSRA区别于学校科研机构的最强列的地方。我从来不怀疑国内的科研力量,也不怀疑我们真正下决心去做学问时会做不好。可是,如果国内大部分优秀的科研团队,要是都能像MSRA一样,我想,中华民族的伟大复兴,就不再是一个梦。
     
    December 11

    Large Margin,一统江湖

    最近看了Tsochantaridis,Joachims,Hofmann和Altun的一篇文章《Large Margin Methods for Structured and Interdependent Output Varables》,真是又可惜又佩服。可惜的是,我好不容易发现Sequence Data Labeling和Multiclass Classification可以用统一框架来解释,就发现了这篇文章,而且是在machine learning community中具有崇高地位的Journal of Machine Learning Research中发表的。虽然自己没法将这个idea变成论文了,但又不得不佩服Large Margin,在经历了10来年的发展之后,还可以大行其道,甚至“一统江湖”。可能这就是所谓的本质吧。
     
    December 06

    Information Extraction, 路向何方?

        下午李航博士给Speech组做了Information Extraction的报告,我们几个WSM组的同学也去蹭了一把。虽然内容都是我熟悉的,但是听完后,又是一番感受。
        高屋建瓴,用来形容他的讲座毫不过分。他先介绍了一下Information Extraction, Information Retrieval和 Data Mining的关系,让大家宏观上有了一个感性的认识。然后把sequence data labeling问题的两种不同解决途径,即Generative model和Discriminative model, 做了对比介绍; 接着以chain model为例,把HMM, ME, MEMM, CRF和Voted Perceptron几种典型的模型都串在一起,让大家了解这几种模型的发展历程,详细介绍了这几种模型的特点和本质。最后简要介绍了一个典型应用,给出了一个初步但清晰的结论。
        由于今天是做大致的介绍,所以他没有涉及太多的detail,而是从宏观的角度,从模型的本质来介绍。整体介绍的颗粒度比较一致,没有涉及太多的detail,基本概念很清楚,思路比较一致,的确反映了他的功底。由于talk是交互式的,所以中间会被打断。这些打断虽然可能暂时让talk偏移了讨论的重点,但加深了大家的理解。不过也因为打断,使得思路不太连续,详略控制的不太好,有些细节的地方并没有太讲透。当然这些都是暇不掩玉的,即使我对这些比较熟悉了,还是受益非浅。我相信其他人估计也会有同感吧。

        HMM在语音识别中的成功应用,让大家有了第一种做IE的经典模型。然而HMM需要做特征独立的假设,不容易扩展feature空间,需要生成所有的Observation,而且由于Generative model求解的是联合概率,与IE的真正目标并不一致,所以导致了其自身发展受限制。 直到二十世纪九十年代中后期,由于classification技术的成熟,大家想到了用Maximum Entropy来解决IE问题,将sequence lebal转化成tocken的classification问题。    ME模型虽然能使用更丰富的feature,但是由于丧失了sequence的信息,使得其在IE中的应用仍然有继续提升的余地,因此MEMM应运而生。MEMM引入了state之间转移的条件概率,一定程度上结合了HMM和ME的优点,的确提高了IE的性能。    然而,MEMM仍然是一个局部模型,训练时考虑的是局部的优化,而全局优化是通过decoding来实现,并没有结合到训练的过程中,而且还存在label bias问题,所以Lafferty提出了一个Global的模型,结合Random Fields的特性,很好地解决了前几种IEmodel的问题。这个模型就是目前IEmodel发展的顶峰:CRF。唯一美中不足的是,CRF的训练耗时较大。因此,Collins提出的Voted Perceptron,无意中成了CRF的简化版本。虽然效果差一点,但速度得到了很大的提高,也算是功德无量。至于Taskar后来引入的maximum margin思想,将IE问题转化为分类问题,但个人认为,这个转化并不十分漂亮,而且与CRF相比并非非常的impresive。

        纵观CRF的发展,IE model似乎走向成熟。然而,事实真的是这样的吗?我们真的揭示了IE问题的本质了吗??下一步,我们将走向何方?

    December 05

    Blog开张大吉

    今天是个值得纪念的日子,因为我的Blog开张了,呵呵。
     
    我的Blog将以我在做Research中的一些体会为主题,附带我认为经典的共享资源,夹杂一些自己的随笔,实用为王嘛。
     
    真心希望能给大家带来一些有用的信息,也希望结交更多的朋友。