background preloader

Research

Facebook Twitter

Untitled. 1 推荐引擎简介 互联网快速发展的今天,数据爆发式的增长,使得用户在浏览网页时不得不花费大量时间用以筛选目标信息。 推荐引擎的核心使命就在于,采用数据挖掘和机器学习方法,替用户发现自己感兴趣的事物,迅速定位用户真实所需。 推荐引擎随着电子商务的蓬勃发展越来越受到业界的关注,再加上web2.0的兴起,推荐引擎在SNS领域也越来越发挥出巨大的潜力。 从用户的角度来讲,面对各种信息源,以及层出不穷的社交网站使得用户自主获取资讯方式非常低效;从企业角度来讲,互联网高速发展的十年中,已积攒了大量数据,合理挖掘这些大量数据的价值,已成为互联网公司提高产品渗透率或盈利的有效途径。 推荐引擎通过数据挖掘和机器学习的方法,分析用户资料和历史行为,定位用户的兴趣爱好,将用户可能感兴趣的物品或内容推荐给用户。 2 人人网社会化推荐框架 2.1 社交图谱的构建 人人网是一家发展迅速的实名制社交网站,社交图谱(Social Graph)是人人网的基础,它是真实人际关系的映射。 团体发现 团体发现一般通过分析社会网络的拓扑结构,找到属于同一团体的成员。 亲密度 亲密度用于度量两个用户之间的距离,对应于社交图谱中边的权值或用户之间最短加权路径。 用户模型 用户模型是网站提供个性化服务的基础。 2.2社会化过滤方法的应用 早期的好友推荐系统只考虑用户与二度好友的共同好友数目。 从图中看到,我们所采用的好友推荐是多种推荐策略融合的结果。 候选集生成 为了弥补通过二度好友的共同好友数目推荐好友的不足,我们采用好友聚类的方法来更加准确定位用户的社交圈子,并将圈子内的好友推荐给用户。 在线排序 在线排序是指根据用户历史行为和当前页面的上下文给推荐位的好友进行排序。 个性化推荐 排序的策略保证了推荐结果的准确性,但是好友推荐往往需要结果具备多样性和新颖性。 结束语 多策略融合是推荐系统提高综合性能的有效途径。 感谢张龙对本文的审校。 给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。 本体 (信息科学) 作为一种关于现实世界或其中某个组成部分的知识表达形式,本体目前的应用领域包括(但不仅限于):人工智能、语义网、软件工程、 生物医学信息学、图书馆学以及信息架构。 二十世纪下半叶,哲学家们就如何构建本体的可行方法或途径展开过广泛的讨论,但实际上他们自己却并没有真正“构建”出任何非常精细详尽的本体。

与此相比,计算机科学家们当时则正在构建着一些大型而又稳健的本体(如WordNet和Cyc),但相对来说却很少针对“如何”构建本体而进行辩论。 在二十一世纪伊始的头几年,认知科学的跨学科项目一直在将这两个领域的学者群体拉得更近[來源請求]。 例如,有人谈到“哲学领域当中的计算机化转变”。 在这种转变当中,包括哲学家们分析计算机科学领域所编制的形式化本体(有时甚至还在工作中直接运用计算机软件),而与此同时,计算机科学领域的研究人员也在越来越多地引用那些致力于本体论的哲学家们的研究工作(有时甚至还是后者方法的直接结果)。 不过,在这两个领域当中,依然有许多学者并未顺从认知科学的这种发展趋势,并且仍继续相互独立地开展着自己的工作,分别从事着各自的所关心的事情。 交通工具本体的局部:“Car”(汽车)这个类拥有两个子类“2-Wheel Drive Car”(两轮驱动型汽车)和“4-Wheel Drive Car”(四轮驱动型汽车) 就现有的各种本体而言,无论其在表达上采用的究竟是何种语言,在结构上都具有许多的相似性。 常见的本体构成要素包括: 通用形式化本体(General Formal Ontology,GFO)的基本分类树 领域本体(domain ontology或者说domain-specific ontology,即领域特异性本体)所建模的是某个特定领域,或者现实世界的一部分。

上层本体(upper ontology或者说foundation ontology,即基础本体)是指一种由那些在各种各样的领域本体之中都普遍适用的共同对象所构成的模型。 Gellish本体则是一个关于上层本体与领域本体彼此组合的例子。 领域本体在表达概念时采用的是非常特殊而又往往具有选择性的方式,因而它们常常缺乏兼容性。 当前,对于那些并非依据同一部基础本体所编制的本体的合并工作,在很大程度上还是一种手工过程,因而既耗费时间又成本高昂。 本体一般都是采用本体语言来编制的。 可视化方式展现的本体示例:Mason本体。 Ontology (Science) Cyc. Cyc 是一个致力于将各个领域的本体及常识知识综合地集成在一起,并在此基础上实现知识推理的人工智能项目。 其目标是使人工智能的应用能够以类似人类推理的方式工作。 这个项目是由Douglas Lenat在1984年设立的,由Cycorp公司开发并维护。 该项目的一部分以OpenCyc形式发布,OpenCyc项目以开源许可的形式向开发者和使用者提供API,可下载的数据集(特别是为语义万维网实践者提供了OWL版本的数据集)等。 概述[编辑] Cyc项目始于1984年,由当时的微电子与计算机技术公司开发。 该项目最开始的目标是将上百万条知识编码成机器可用的形式,用以表示人类常识。

CycL是Cyc项目专有的知识表示语言,这种知识表示语言是基于一阶关系的[1]。 "Cyc"名字的来源是 "encyclopedia",发音很像syke,是美国德克萨斯州奥斯丁的Cycorp公司的有效注册商标,Cycorp是一家由Douglas Lenat领导的致力于实现人工智能的公司。 Cyc知识库中表示的知识一般形如“每棵树都是植物”、“植物最终都会死亡”。 目前Cyc项目大部分的工作仍然是以知识工程为基础的。 Cyc公司与很多公司具有相同的梦想,即采用Cyc自然语言理解工具解析整个互联网并从中抽取结构化数据[3]。 2008年,研究人员将Cyc资源被映射到许多维基百科的文章上[4],这使得Cyc与类似于DBpedia、Freebase这样的数据集进行连接变得更为容易. 知识库[编辑] Cyc中的概念被称为“常量(constants)”。 个体,即individuals:例如 #$BillClinton 又如 #$France。

Cyc中的谓词最重要的是 #$isa 以及 #$genls。 (#$isa #$BillClinton #$UnitedStatesPresident) 表示 “Bill Clinton属于美国总统集合”; (#$genls #$Tree-ThePlant #$Plant) 表示“所有的树都是植物”; (#$capitalCity #$France #$Paris) 表示“巴黎是法国的首都”。 句子中可以包含变量,变量字符串以 "? " (#$implies (#$and (#$isa ? Cyc知识库是由许多“microtheories” (Mt)构成的,概念集合和事实集合一般与特定的Mt关联。 推理引擎[编辑] Ontology. Philosophical study of being and existence When used as a countable noun, the words ontology and ontologies refer not to the science of being but to theories within the science of being. Ontological theories can be divided into various types according to their theoretical commitments. Monocategorical ontologies hold that there is only one basic category, but polycategorical ontologies rejected this view. Hierarchical ontologies assert that some entities exist on a more fundamental level and that other entities depend on them.

Flat ontologies, on the other hand, deny such a privileged status to any entity. Etymology[edit] onto- (Greek: ὄν, on;[note 1] GEN. ὄντος, ontos, 'being' or 'that which is') and -logia (-λογία, 'logical discourse').[3][4] While the etymology is Greek, the oldest extant records of the word itself is a Neo-Latin form ontologia, which appeared in 1606 in the Ogdoas Scholastica by Jacob Lorhard (Lorhardus), and Overview[edit] Particulars and universals[edit] Identity[edit] D. 本体 (信息科学) 作为一种关于现实世界或其中某个组成部分的知识表达形式,本体目前的应用领域包括(但不仅限于):人工智能、语义网、软件工程、 生物医学信息学、图书馆学以及信息架构。 二十世纪下半叶,哲学家们就如何构建本体的可行方法或途径展开过广泛的讨论,但实际上他们自己却并没有真正“构建”出任何非常精细详尽的本体。 与此相比,计算机科学家们当时则正在构建着一些大型而又稳健的本体(如WordNet和Cyc),但相对来说却很少针对“如何”构建本体而进行辩论。 在二十一世纪伊始的头几年,认知科学的跨学科项目一直在将这两个领域的学者群体拉得更近[來源請求]。 例如,有人谈到“哲学领域当中的计算机化转变”。 在这种转变当中,包括哲学家们分析计算机科学领域所编制的形式化本体(有时甚至还在工作中直接运用计算机软件),而与此同时,计算机科学领域的研究人员也在越来越多地引用那些致力于本体论的哲学家们的研究工作(有时甚至还是后者方法的直接结果)。

不过,在这两个领域当中,依然有许多学者并未顺从认知科学的这种发展趋势,并且仍继续相互独立地开展着自己的工作,分别从事着各自的所关心的事情。 交通工具本体的局部:“Car”(汽车)这个类拥有两个子类“2-Wheel Drive Car”(两轮驱动型汽车)和“4-Wheel Drive Car”(四轮驱动型汽车) 就现有的各种本体而言,无论其在表达上采用的究竟是何种语言,在结构上都具有许多的相似性。 常见的本体构成要素包括: 通用形式化本体(General Formal Ontology,GFO)的基本分类树 领域本体(domain ontology或者说domain-specific ontology,即领域特异性本体)所建模的是某个特定领域,或者现实世界的一部分。 上层本体(upper ontology或者说foundation ontology,即基础本体)是指一种由那些在各种各样的领域本体之中都普遍适用的共同对象所构成的模型。

Gellish本体则是一个关于上层本体与领域本体彼此组合的例子。 领域本体在表达概念时采用的是非常特殊而又往往具有选择性的方式,因而它们常常缺乏兼容性。 当前,对于那些并非依据同一部基础本体所编制的本体的合并工作,在很大程度上还是一种手工过程,因而既耗费时间又成本高昂。 本体一般都是采用本体语言来编制的。 可视化方式展现的本体示例:Mason本体。 Main Page - DO-Wiki. 【研究】怎样成为一名优秀的科学家? 编者按:做一个好的科学家需要具备什么样的素质呢? 微软亚洲研究院互联网搜索与挖掘组高级研究员李航博士总结出了六点特质,并以九名在机器学习、统计学等领域成就卓绝的科学家的真实故事为例,与读者分享这些特质所体现的耐人寻味的品格。 曾经有同学问我:“做一个好的科学家需要有什么样的素质?” 这是一个不好回答的问题。 让我总结,大概有以下几点:(1)酷爱研究,(2)勤奋好学,(3)思想深刻,(4)想象丰富,(5)功底扎实,(6)为人谦和。 “数学太有趣了”——伊藤清 伊藤清(Kiyoshi Ito)是当代最伟大的数学家之一。 让孩子们喜欢数学——里奥·布雷曼 里奥·布雷曼(Leo Breiman)是杰出的统计学家,曾发明CART与Bagging算法。 魔术师出身的数学家——佩尔西·戴康尼斯 佩尔西·戴康尼斯(Persi Diaconis)是著名的统计学家。

童心未泯,充满好奇心——拉凯什·阿格拉瓦 拉凯什·阿格拉瓦(Rakesh Agrawal)提出了许多数据挖掘的重要概念与方法,例如关联规则挖掘算法。 每晚睡前读一篇论文——迈克尔·乔丹 迈克尔·乔丹(Michael I. 一切发现都在情理之中——罗伯特·夏皮尔 罗伯特·夏皮尔(Robert Schapire)因为发明了著名的机器学习算法AdaBoost与Yoav Freund一起获得了计算理论界最高奖歌德尔奖。 Idea如泉涌,当今的爱因斯坦——爱德华·威滕 有人说爱德华·威滕(Edward Witten)是有史以来最伟大的理论物理学家,还有人说他是当今的爱因斯坦。 深厚的理论功底——彼得·巴特利特 彼得·巴特利特(Peter Bartlett)创立了学习泛化能力的分析手法,是机器学习理论的领军人物。 绅士风度,为人谦和——罗斯·昆兰 罗斯·昆兰(Ross Quinlan) 2011年获得了数据挖掘领域最高荣誉奖KDD创 新奖。 (本文图片来源网络,作者为微软亚洲研究院互联网搜索与挖掘组高级研究员及主任研究员。) 参考文献. Editorial SystemTM. IPDPS - IEEE International Parallel & Distributed Processing Symposium. 广东省科技业务综合管理系统. 科研之友.