| 云华's profileWalkerBlogListsNetwork | Help |
|
September 04 博士论文标题的特点 正在准备偶的博士论文,想看看博士论文标题都有什么特点。顺便做了个小小的调研,看到一些有意思的规律,把结果罗列一下。
统计数据:
总共480篇博士论文的标题,清华30篇,浙大440篇。其中06年64篇,05年114篇,04年91篇,03年82篇,02年74篇,01年45篇。
高频词统计:
跟论文的主要目标相关的:研究(370次),应用(118次)
跟论文的主要侧重点相关的:系统 (125次),技术(122次),方法(65次),理论(42次),过程(35次),算法(33次),建模(30次),模型(31次),数据(32次),分析 (25),设计(24次)
跟具体领域相关的:挖掘(22次),识别(16次)
还有两个曝光率“相当的”高的介词:基于(132次),面向(22次)
另外还有:若干(36次),关键(37次),智能 (36次)
论文模板:
a. ××系统(技术、方法、模型……)的研究
例如:群体Agent合作求解方法的研究,音频隐写与分析技术研究,……
这类论文多是具体内容的研究,一篇文章即一个研究点。 b. 基于/面向××的××系统(技术、理论、方法……)的研究
例如:基于脑电信号的脑—计算机接口的研究,基于统计学习的人脸图像合成方法研究,面向大规模图像库的索引和检索机制研究,……
这类论文多强调运用某个技术,在某个条件下进行的研究。
c. ××中的××(和××)的研究
例如:Web挖掘中的降维和分类方法研究,计算网格环境中任务管理的研究,……
这类论文多强调的是大研究方向、应用环境中的一点。
d. ××的研究及其在××中的应用 例如:隐马尔可夫模型的研究及其在图像识别中的应用,被动测试理论及其在协议故障检测中的应用,……
这类最负责,几乎包括前面三种情况。
e.××的××
例如:时空联合的视频对象分割, 视频文本的提取, 人脸表情的识别、重建与合成,……
权衡一下,还是选择一个大众化的标题模板和高频词做我的论文标题算了,就叫:基于监督学习的文档元数据自动抽取
请大家多提意见:)
July 06 第一次被采访 生平第一次正儿八经接受采访,回头想想还挺有意思的。
因微软的实习生计划从而得到这次西雅图之行面见Bill的机会,可以说相当~的幸运。可是说要面临媒体采访,还真是没想到过。虽然Eileen姐已经提前告诉过我们,但真正面临时,还是有点感触的。
开始的时候很紧张,不知道这个看起来造人不倦毁人也不倦的媒体会怎么样面对我们。尤其是看着renzhong远在大洋彼岸还要接听记者电话,真是新鲜好奇又外加羡慕,还有点想笑。
真正轮到我上场的时候,还真是巧了,采访我的是家乡的记者,而且是我的校友!加上他人很好说话,观点独到,挺合我胃口的,所以基本没有距离感。讲了几句就像跟朋友聊天一样,把自己知道的炒豆子一样都给蹦出来了。呵呵,还好这位记者老乡RP好,居然也能忍受。最后还能从叽里呱啦的谈话中总结一点出来,真是不简单。看来记者也还是要有两把刷子的!后来自己去看报道,也没见抖露出什么让我为难的事。后来有点后怕,要是娱乐记者来采访的明星也像我这样,估计会被弄出n条爆炸新闻。
可能天生就比较淡泊,真被采访了,也觉得没什么。不知道会不会被人扁:)只是在自己的亲人看到这个消息的时候,有点高兴而已。而自己呢,也还是一样的过。好好做自己的事,可能对我来说意义最大,对会炒作的人来说真是机会浪费啊:)
不记得记者都写了什么。反倒是他最后对我说的话让我映象深刻。考虑到有人看到后会晕倒,我还是不说出来的好,呵呵。不过我还是会努力的,至少现在可能多一个人在看着我呢。 June 26 BBQ三部曲之三-----花絮盘点 梦幻般的西雅图之行结束了,可是故事还远没有结束。期间的有趣经历,可能一直说不完。随便捡一些,跟大家分享。
外号大颁奖
姓名:Eileen
外号:VP Creator 理由:给大家安排会议,协调日程,管吃管住,外加处理日常紧急事务,让大家享受与VP同等的待遇,…… 曾经的VP Creator似乎想继续培养下一代VP,这个奖项舍她其谁! 姓名:Li Jian
外号:Bill的对手 理由:头脑清晰,行动敏捷,语出惊人,挑战彪哥乒乓球技并誓言击败Bill,不是Bill的对手却又是谁? 姓名:Tsai Mingfeng
外号:梦幻魔术师 理由:简单的道具变换出精彩的魔术,在不经意间将大家无聊的时间变走,同时也变来了众人特别是mm们仰慕的目光。 姓名:Luan Qing
外号:吸引眼球的中国娃娃 理由:玩魔术的时候,Mingfeng是焦点;在Bill家的时候,Bill是焦点;其他的时候,Luan Qing是焦点^-^ 这个思维敏捷口语很棒的漂亮中国娃娃,连大名鼎鼎的Jim Gray也忍不住伸手去抱啊......(别砸我啊,基本属实,详情参考Luan Qing的Blog) 姓名:Ren Zhong
外号:未来领导者 理由:大家一致公认具有专业水准的领导者,不仅说话办事有领导风范,连照相Pos都摆得那么酷;BBQ回来的标准新闻播报再次让大家折服;平时也不乏惊人之语,建议收集整理成领导语录。 姓名:Sun Tiantian
外号:天才主持人 理由:Mingfeng玩魔术的时候如果缺少Tiantian,就像美味的菜里少放了盐;积极参与的无比热情和绘声绘色的准确播报无疑再现元旦联谊晚会主持人的风采;下次出游,如果没有天才主持,谁知道会怎样? 姓名:Tan Quan
外号:游戏人生的高手 理由:及时Blog报道之第一人;无声无息又无处不在;XBox游戏仗义出山替众人雪耻;离开Seattle时还不忘给大家表演“路见不平,五体投地”,真乃游戏人间的高手! 姓名:Xie Yu
外号:搞笑天才儿童 理由:大家的开心果;夸张的眼睛,永远合不拢的大嘴,出人意料的发问,奠定了天才儿童牢不可撼的地位;猥琐专辑前12本已被队友定购一空。 姓名:Wu Fazhou
外号:当仁不让的语言专家 理由:不愧是做自然语言处理的,时时不忘给大家提示,坐飞机要关手机,过马路要看灯……其语言逻辑绝对可以让队友超级聪明的大脑占用率达100%,当然本人除外,因为我曾在自然语言组呆过:) 姓名:Zhang Yunqiao
外号:人小心大的勇敢者 理由:只抗议一次就让所有人记住了名字;走在队伍边上但永远不会被甩掉;虽然一度忘了机票还胜利完成日本东京的远征,勇者无畏啊。 姓名:Yang Guang
外号:甘当小弟的阳光男孩 理由:人高马大却要被当作小弟,几经反抗终于接受这个事实;人如其名,阳光灿烂。 姓名:Hu Yunhua(就是我了)
外号:无 理由:没想好 由于文笔、精力有限,不能很好概括大家,见谅见谅。欢迎大家拍砖:)
June 24 BBQ三部曲之二-----人在美国美国之行,发生了很多非常有趣的事情,学习了很多,也感受了很多。由于其他队友已经有很多有意思的描述,我就简单总结感受比较深的如下几点。 紧凑的行程 牛人的风采 跟彪哥握手 英语的遗憾 多赚钱 June 22 BBQ三部曲之一-----迟到的前奏 终于从美国回来,踏上祖国国土的那一刻,心里踏实了许多。突然觉得,太长时间没有更新Blog了,有股想写的冲动。晚上回来刚收拾妥当,来不及倒时差,先补上这次BBQ三部曲的前奏。虽然有点迟,我想这些经历,可能很长时间都不会忘记。
入围 -由糊涂到清醒
一直没明白自己怎么就成了MSRA年度十佳最佳实习生。记得当初接到Eileen姐的信,还以为看错了,因为我向来跟这些奖项无缘,除非在竞赛中。后来才明白,原来mentor李航推荐了我,加上侥幸在SIGIR等国际会议上发了些文章,平时工作还算卖力,大家对我印象还不错,就这么成了候选人。在朋友的鼓励和帮助下,我参与了竞争,有幸最终入围。当然这都是这两天跟Eileen姐以及其他manager聊天时了解的,只是没料到我们的信息被他们掌握得这么清楚,难怪员工要比学生辛苦得多:) BBQ -给我一个不去的理由
对于最佳实习生,据说最大的荣誉就是可以到Bill Gates家去Barbecue。BBQ对于在西安呆了将近10年的我来说实在熟悉不过。自己到西安的回民街吃过,跟班里同学在野外烧烤过,在餐馆也品尝过,虽然觉得好吃,也没觉得到底有多特别。难道Bill家的Barbecue,难道就这么有意义吗?就连入围后,我还是没想通。 当然我的想法很快就被跟我熟悉的微软员工们鄙视了:)当我问他们时,他们用羡慕甚至嫉妒的口气说,研究院的研究员们都非常难有这个待遇。在微软公司全球七万多员工中,据说工作n年以上并且业绩突出的少数员工,才可以被Bill邀请去家里BBQ。实习学生相对幸运得多,微软总部每年都会挑选一些实习学生参加这个party。而微软亚洲研究院,因为过去几年在研究领域的突出成就以及harry院长的大力推荐,从去年开始获准选派10个学生参加年度的BBQ。 除了荣誉之外,当然BBQ还有其他重要的意义。因为可以跟Bill本人近距离接触,领略一个时代最具神话色彩的一代牛人的风采,甚至直接跟他对话。同时,还能见识Bill身边成群的大牛们。因为在这个盛宴上,一些平时神龙见首不见尾的牛人们,还有些极具潜力的员工和学生们,都会被要求出席。能跟这些牛人见见面,聊一聊,也算是快慰平生。例如这次我们就有幸见到负责微软研究院事务的全球副总裁Rick Rashid和数据库事务处理方面的顶尖专家、号称Technical Fellow的Jim Gray等。听说微软当初请Rick出山的时候,就允诺让他建一个可与CMU计算机系相抗衡的研究机构。而Jim Gray就更神了,就因为他不喜欢西雅图的阴天,Bill给他在硅谷另建了个研究院。 Homework-人未至,声先闻
今年去Bill家BBQ的实习生代表团领队是Eileen姐。这位人称VP creater(开复开创中国研究院时招聘的第一个员工?开复和亚勤这两位全球副总裁的秘书)的员工,就像一位大姐姐一样,让我们领略了微软员工做事一丝不苟的风采。在去美国之前,据统计,她曾经组织大家开过14次碰头会。从签证的准备到行程的安排,从就餐的礼仪到礼物的设置,从邀请研究员做报告到组内轮流对将要见到的牛人的了解,基本涉及了我们去美国可能遇到的各种问题。在没有去之前,我们这些实习生,就已经有所收获了。每次会议之后,Eillen姐都会给大家留的Homework,让大家确定自己去Bill家烧烤的目的,需要了解哪些牛人,了解西雅图的环境等等。等到出行时,大家都有底气了。事实证明,这样的Homework给大家带来了极大的好处,这是后话,暂且不表:) May 24 签证&开题 最近运气不错,连过两道难关,忍不住跟大家分享一下:) 先是跟Eileen姐舌战美国签证官,拿到赴美的visa。 即使面对签证官时我自始至终只说了两句话,但不说的话估计也不能全线大捷啊,所以还是有我的功劳滴~^-^。 因为是团队一起签证,领队Eileen姐回答了签证官n个问题,排第一的队长同学也回答了几个,到后面的同学时几乎没问什么正经问题。等轮到倒数第二个的我时就更离谱了,两句话搞定。我对签证官第一句就是在她问我有没有带简历时,我说“Please wait for a minute”。掏出简历后我说了第二句“Here you are”。面对我竖起的耳朵和摆好的pos,签证官居然视而不见,马上转向我们同组的美眉,让我失去了继续检验英语口语和听力的机会。当然我后面的美眉待遇更好,只说了一句话,就被pass了。那句话就是告诉签证官她的简历已经交上去了:) 第二件开心的事是顺利通过博士开题报告。虽然有点仓促,也算如我所愿:) 我从周一开始写开题报告书,周二下午因赴京暂停撰写,星期三到京后继续写了一段,周四签证回来时已是下午5点,又利用余下的时间,终于整理好一个完整的版本。周四晚需要继续坐9点的火车回西安,可是这时候我的slides还没开始做。等我趴在T43的卧铺上,终于搞定slides的提纲时,已是晚上12点多。周五更是疯狂的一天,下火车后我直扑实验室,到下午两点slides终于新鲜出炉,这个时候离开题时间只有半个小时。等到5点多,听开题报告的教授们通过我的报告后,我已经不知道自己该说什么好了。 总结一下,凡是都需要积累。如果没有Eileen姐周全的准备,估计我们就会被卡在签证官要求的evidence of microsoft internship上。如果没有平时撰写的一堆slides以及被李航老师再三修改的论文,估计开题报告就得推迟到下半年了。但是时间上有些紧张,如果提早做准备,可能不会这么紧张了。 May 12 “以人为本”- 记在微软实习的日子 离开微软亚洲研究院(MSRA)已经有一段时间,中间经历了难忘的五一,终于可以静下心来总结一下在微软度过的这段宝贵的时光。大部分是自己个人的感受,如有夸张不实之处,请大家批评指正。
与南方相比,北方的春天来得更加令人激动。眼看着北京的春天踩过冬的痕迹,沉寂的大地开始铺上生命的绿意,我忽然明白了人与植物的差别:植物的季节是由自然所决定的,而人的季节是由自己决定的!万物萧索的冬季,却正是我在微软亚洲研究院(MSRA)不断成长的春季。
如果说牛顿的成功,是靠着自己的努力“站到了巨人的肩膀上”,那么MSRA无疑就是直接为我们提供了类似的环境。作为世界上顶级的研究机构,它给大家带来太多的全新体验。新鲜、刺激、震撼、感动、充实,可能是在微软实习过的学生的共同感受。刚来时,我们参观MSRA以中国的四大发明和微软的主打产品命名的会议室,享受drinking room里丰富的免费饮料,聆听来自世界各地的计算机领域顶级专家的精彩讲座,领略无处不在的交互式白板文化,以及现代公司高效的工作模式……无一不挑战自己的感观和固有思维习惯。第二次来MRSA,用自然语言处理组manager周明老师的玩笑说,这算是我二进宫了。再次实习的机会,让我能跟随行业内科学家踏入前沿研究领域,感受他们谦和宽厚的为人处事和兢兢业业的科研精神,加深我对于科研的理解和对将来人生发展的认识,使我更有激情,更有信心面对未来。两次的实习经历,带给我太多的感受,而且穿插在我的求学生涯中,对我来说意义非凡。其中感受最深刻的,是MSRA“以人为本”的理念。
在MSRA期间,无处不感受到热情和乐观,感受到关怀。记得当时认识我指导老师李航的时候,心里的确忐忑不安,不知道以自己无名小辈的身份,该怎么跟这些研究界的大牛们打交道。等到李老师乐呵呵的给大家介绍、演示他们的研究工作后,我马上被他的热情和平易近人打动了。而且我很快发现,这不是他一个人的特点,几乎接触的研究员们都很好打交道。经常可以发现研究员跟学生们很开心地聊工作的事,甚至在吃饭的时候,都能看见他们兴奋的眼神,听到那些爽朗的笑声。在平时举办的各种活动中,经常能惊奇的发现这些在研究上兢兢业业的学者们居然玩的时候也很有一套。每个月末的Wine down,大家经常不是被酒喝翻而是被研究员们的幽默机智笑翻。其他工作人员,心态也非常积极乐观,而且对学生关怀备至。主管学生项目的Eileen Chen,被大家亲切的叫Eileen姐。经过一次小插曲,我才知道连学生晚归的事,她都会操心。这种热情和乐观,也直接影响着学生。我第一次实习回校后,连我身边的同学都感慨,出来一年后,人幽默了不少,而且成熟了不少。
得到学术领域里顶尖研究员面对面的指导,是每个实习学生最自豪的事。刚来时,不太会做slides,给大家汇报工作也会特别紧张,讲得没有激情,连自己都昏昏欲睡。后来李航老师在每次我们报告之前都会帮我们检查、修改slides,让我们改掉没有生气、老套的报告习惯,教我们从听众的角度思考问题。每个星期的工作进展,他也会经常了解,帮我们改掉一些不良的工作习惯,及时发现、纠正我们的问题,提高工作效率。他还经常跟学生们交流,讨论问题,不时组织一些优秀论文阅读,跟我们探讨一些前言的研究问题。最让人印象深刻的是,他对科研的每一个环节都要求到精益求精的地步。曾经有一次我遇到数据标注标准的问题,他跟我从晚上九点一直讨论到十一点,直到把最后一个小疑点消除了才放心。在论文写作上更是如此,在李航老师的指导下,我发表的第一篇国际会议论文来来回回居然修改三十多次,后来他还告诉我其实修改次数一点都不算多。有同学跟我说,他在学校发第一篇中文论文时,经过老板的指导改了十来个回合时就快崩溃了。后来我把自己的经历跟其他实习学生讲的时候,惊奇的发现他们中间居然也有很多人跟我有类似的经历。曾有好友更直接了当的说,这些研究员跟自己在学校的指导老师没什么区别、甚至在学术上指导更细致一些,唯一的区别是他们的名字不会被署在毕业论文的封面。当然现在的学生更幸福,因为不少顶尖研究人员可以直接在高校带学生了。
奔驰的列车,不仅需要强有力的车头,还需要众多车轮的全力配合。MSRA,正象飞驰的列车,在计算机相关的众多领域里,一路领先。而大家的团队合作,就像配合默契的车轮,推动着MSRA向前推进,这是我在MSRA实习的另一个深刻感受。以前我也曾很注意团队合作的训练,在自己的实验室里,体验过合作开发的威力;在学校的微软俱乐部中,也体会到合作共事的乐趣。然而,就在来实习之前,MSRA组织的创新杯”软件设计大赛,再次让我提前感受到这份团队合作精神。当时我们六个人的团队中,只有三个队员编过程序,一个队员有不多的项目开发经验,最后我们却在全国数百支队伍中拿到了三等奖的好成绩。这份成绩背后,也不乏MSRA通过高校微软俱乐部辐射的团队合作的影响力。因为当时这支团队有个共同的特点―队员都是微软俱乐部成员,大家平时受MSRA的直接影响,都有不错的团队合作意识。可以说,正是靠集体的力量我们才赢得了胜利。后来在MSRA的实习活动中,这种理念又得到了进一步的深化。
对学生来说,最典型的团队合作要算Group study了。实习学生们在员工的组织下,每隔一段时间,会挑些经典的论文来阅读。理解较深的同学会给别人讲解,其他听众会也会对发现的疑点穷追猛打,大有不搞懂誓不罢休之势。这样一问一答中,大家的知识水平都有提升。拿我自己来说,会经常向别人推销我的观点,也经常在跟别人的讨论中得到启发。一段时间后,大家都知道我的研究领域,而我推荐的算法工具也马上流传开来。研究工作有时比较复杂繁琐,可能经常要跨越不同研究小组去交流,如果不具备团队合作精神,很难顺利完成。幸运的次,我每次都能得到别人热心、真诚的帮助,不管他们是员工还是学生。这一点,即使在高校里同一个系的不同实验室之间可能都少见。其他形式的团队合作也从来没断过,打球,旅游,踢毽子,甚至逛街,都成了大家的集体活动。在MSRA实习一段时间后,志同道合的朋友不知不觉增加了很多。团队合作,是MSRA给我们赠送的另一个最好的礼物。
人的因素,是企业成功的最重要因素。“这里最重要的是有这群牛人,如果没有他们,可能会黯然失色。”上次母校微软俱乐部的几个同学过来参加活动,我带他们参观后,有人感慨地说。是的,在这里,学生们能受到很大程度的肯定,能得到顶尖科学家的指导,能获取很宽松自由的研究环境,很多人的潜力都得到了激发。正如微软的广告词所说,“您的潜力,我的动力”,有了以人为本的研究理念,还有什么不能成功的呢?
其实,MSRA带给实习学生的感受,还远不止这些。就连很多没来过的同学,也有所耳闻。第一次实习结束回校时,很多学生都想了解实习的情况,以至于学校电信科协和微软俱乐部特意主办了一次活动。在那次活动里,我曾非常荣幸的给大家介绍了我的感受。后来在自己的Blog里,也曾记录过一些点点滴滴。总的说来,对我而言,实习已经不仅仅是一段工作经历,已然是成长的重要环节。
“随风潜入夜,润物细无声。”在MSRA实习的日子,正如这点点春雨,无声无息地滋润着我,不断催生新的希望。我相信,若干年后,MSRA的这段经历,会如故宫的砖,长城的瓦,永远铭刻在我心中。
感谢好友叶谦、聪慧的修改:)希望这篇小文,能给大家带来一点启发。 April 27 去Bill Gates家BBQ去终于得到正式通知,有幸入选MSRA年度Top10实习生之列。作为奖励,大家被邀请到MS在美国Redmond的总部参观,参加Bill G家草坪上的BBQ,甚至和Bill G本人直接交流。
April 25 此路不通从去年10月份起,到现在也有大半年了吧,仔细总结一下,却发现研究进展非常缓慢,几乎没有突破。很多的猜想和假设,被一个一个否决;预期的效果,总是无法达到;辛辛苦苦完成的工作,却发现很难得出一个好的结论......有些疲惫,也有些烦了。好在有朋友的安慰和分析,帮助我更清楚的认识自己,也不失为一种收获。不管怎样,研究上也还是有些收获的,至少证明了此路不通。 December 22 明天,我不再沉默 从北航出发,先迈左脚可以走到西格玛,而先迈右脚却无法到达。你相信吗?
我就碰到了类似的问题。前段时间写了个程序,要实现一堆数跟一个很小的数相乘再求和,结果我是先求和再相乘的,而运行结果居然有不小的差异!仔细调试了一把,发现是浮点数搞的鬼。
因为涉及浮点数运算的地方较多,所以连续几天加班,跟浮点数打架。搞定之后,我也感冒了。杀敌三千,自损八百啊。今天嗓子还不舒服,继续保持沉默。不过估计明天嗓子就能好了。
所以,我决定,明天不再沉默。 December 20 Some Useful Papers about Information Extraction Models1. SVM for IE
I. Tsochantaridis, T. Joachims, T., and Y. Altun. Large Margin Methods for Structured and Interdependent Output Variables. JMLR'05 2. Conditional Random Fields (CRF)
J. Lafferty, A. McCallum, and F. Pereira. Conditional random fields: probabilistic models for segmentation and labeling sequence data. ICML’01 F. Sha and F. Pereira. Shallow parsing with conditional random fields. NAACL’03 3. Maximum Entropy (ME)
A.L. Berger, S.A.D. Pietra, and V.J.D. Pietra. A maximum entropy approach to natural language processing. Computational Linguistics’96 4. Maximum Entropy Markov Model (MEMM)
A. McCallum, and F. Pereira. Maximum entropy Markov models for information extraction and segmentation. ICML’00 5. Hidden Markov Model (HMM) Z. Ghahramani, and M.I. Jordan. Factorial hidden markov models. Machine Learning, 29:245-273, 1997. 别看了,说的就是你有一伙人在四处打听你,
还说逮住你不会轻饶你,
他们一个叫财神,
一个叫顺利 ,
领头的叫幸福!
我问过烦恼了,
它根本不爱你,
还说永远不理你,
让我转告你不要自做多情!
还有健康,
让我带封情书给你;
它暗恋你好久了,
并且一生不变!
提前祝各位:圣诞快乐、新年快乐。 December 19 从好友离开MSRA回学校所想到的 好友徐君在研究院呆了28个月后,终于回去写毕业论文了,从此MSRA的vs中少了一个老怪级的人物
如果这个题目要展开的话,我想,出一本书都不为过。在这里,对于我们学生来说,让我我感受最深的地方,既不是每晚180的标准间,也不是蕴藏丰富的免费饮料和食品,更不是每个月不算低的补助,而是人,是来自国内外相关领域的顶尖研究人员,是从四面八方慕名而来的优秀学生,以及他们所营造的良好学术氛围。
专注,是研究员们显著的特点,也是MSRA区别于学校的关键之处。中国文化历来重视仕官,学术领域也不例外。只要在这方面崭露头角,就必然会谋求仕途上的发展。否则科研经费、实验环境建设可能就没有保障。君不见国内学术界年轻有为的学者,很多都在四处奔走,忙于递申请,找门路,拉关系,要项目。很多宝贵的脑力,就浪费在这些方面。就连学生培养的工作,也没有多少投入。而在研究院,没有那个研究员不专注于自己的工作。他们积极了解国内外科研的最新进展,在很多学术领域进行开创性的工作,潜心推动研究的纵深拓展;他们积极培养指导访问学生,让学生在技术能力、学习方法和思维方式等得到切实的锻炼和提高。试想,一个几乎什么都要操心的学者,和专注于自身研究领域的研究人员,谁更能取得成功?
激情,是这些研究人员区别于很多学者的另外一个标志。在这里几乎每个人都被上紧了发条,眼睛里闪耀着智慧的光芒,语气中透露强烈的自信,连快乐都写在脸上。这些研究人员,没有几个是满身书呆子气,没有几个面色凝重,眉头紧锁或者满脸憔悴。他们永远都朝气蓬勃,极富感染力。我时常很诧异,为什么我们在做自己工作的时候,都很少有这种激情,而他们肩负更重的担子,做更重要的工作,却比我们更有活力?
自信,可能是他们充满激情的原因。我的mentor李航曾经这样跟我说,要做一流的研究,而不仅仅是写高水平的论文。他们都把做世界一流的研究做自己的目标,相信自己的工作对人类具有重要的价值(抑或是对公司有重要的作用,借此让更多的人享受技术带来的便利),而且也有着实现的信心和勇气。这种追求,不就是我们儿时的梦想吗?在这里,能让我们更清楚的看到自己的目标。而学校里有些地方,很多人都忙于在小范围内证明自己的确是优秀的,而且一旦有了一点成就,很可能要吹上好一阵子,让真正的内行看了都脸红。自信和自负,产生的却是截然不同的结果。 因为专注,所有充满激情;因为激情,所以自信;因为自信,所以成功。这可能是我能感受到MSRA区别于学校科研机构的最强列的地方。我从来不怀疑国内的科研力量,也不怀疑我们真正下决心去做学问时会做不好。可是,如果国内大部分优秀的科研团队,要是都能像MSRA一样,我想,中华民族的伟大复兴,就不再是一个梦。 December 11 Large Margin,一统江湖最近看了Tsochantaridis,Joachims,Hofmann和Altun的一篇文章《Large Margin Methods for Structured and Interdependent Output Varables》,真是又可惜又佩服。可惜的是,我好不容易发现Sequence Data Labeling和Multiclass Classification可以用统一框架来解释,就发现了这篇文章,而且是在machine learning community中具有崇高地位的Journal of Machine Learning Research中发表的。虽然自己没法将这个idea变成论文了,但又不得不佩服Large Margin,在经历了10来年的发展之后,还可以大行其道,甚至“一统江湖”。可能这就是所谓的本质吧。
December 06 Information Extraction, 路向何方? 下午李航博士给Speech组做了Information Extraction的报告,我们几个WSM组的同学也去蹭了一把。虽然内容都是我熟悉的,但是听完后,又是一番感受。 HMM在语音识别中的成功应用,让大家有了第一种做IE的经典模型。然而HMM需要做特征独立的假设,不容易扩展feature空间,需要生成所有的Observation,而且由于Generative model求解的是联合概率,与IE的真正目标并不一致,所以导致了其自身发展受限制。 直到二十世纪九十年代中后期,由于classification技术的成熟,大家想到了用Maximum Entropy来解决IE问题,将sequence lebal转化成tocken的classification问题。 ME模型虽然能使用更丰富的feature,但是由于丧失了sequence的信息,使得其在IE中的应用仍然有继续提升的余地,因此MEMM应运而生。MEMM引入了state之间转移的条件概率,一定程度上结合了HMM和ME的优点,的确提高了IE的性能。 然而,MEMM仍然是一个局部模型,训练时考虑的是局部的优化,而全局优化是通过decoding来实现,并没有结合到训练的过程中,而且还存在label bias问题,所以Lafferty提出了一个Global的模型,结合Random Fields的特性,很好地解决了前几种IEmodel的问题。这个模型就是目前IEmodel发展的顶峰:CRF。唯一美中不足的是,CRF的训练耗时较大。因此,Collins提出的Voted Perceptron,无意中成了CRF的简化版本。虽然效果差一点,但速度得到了很大的提高,也算是功德无量。至于Taskar后来引入的maximum margin思想,将IE问题转化为分类问题,但个人认为,这个转化并不十分漂亮,而且与CRF相比并非非常的impresive。 纵观CRF的发展,IE model似乎走向成熟。然而,事实真的是这样的吗?我们真的揭示了IE问题的本质了吗??下一步,我们将走向何方? December 05 Blog开张大吉今天是个值得纪念的日子,因为我的Blog开张了,呵呵。
我的Blog将以我在做Research中的一些体会为主题,附带我认为经典的共享资源,夹杂一些自己的随笔,实用为王嘛。
真心希望能给大家带来一些有用的信息,也希望结交更多的朋友。
|
|
|