传统的关键词检索论文,浩如烟海的结果让你无所适从?试试人工智能检索引擎。根据你的研究兴趣和偏好,便捷而靠谱帮你找论文。
这么多的论文里,你该读哪些?以什么顺序来阅读?
要圆满解决这些问题,你可能需要拥有一张完整的领域知识地图。
image
可惜,人类的阅读速度,都跟不上新论文的发表速度了。几乎没有哪个人能拥有这张知识地图(而且还恰好愿意为你提供咨询服务)。
检索
我为你推荐的这个论文检索引擎,叫做arXiv-sanity。
这是首页的样子。
第一次使用的时候,建议你点击这个链接(https://youtu.be/S2GY3gh6qC8)查看介绍视频。
看着中规中矩,对吧?
而在arXiv-sanity中搜索同样的关键词,结果是这样的:
如果你暂时还没有确立自己的研究方向与兴趣,也没有关系。
这套论文检索系统充分利用了人类用户的群体智慧(crowd wisdom),即观察和分析他人的行为,来帮你找到可能感兴趣的论文。
尝试一下,点击屏幕上方的“top recent”按钮。
系统会根据他人在文献库收藏的情况,为你推荐一周内最受欢迎的论文。
当然你也可以自己选择时间尺度。我们来尝试一下“All Time”(全部时间段)。
你可以试试把鼠标滑动到某个Twitter用户头像上,直接看TA说了什么。
被收藏的文章,存盘按钮变成了蓝色。
进到我们的文献库里看看。
的检索、阅读和保存等动作都在给arXiv-sanity系统传递信号。
依据这些信息,以及其他用户的使用习惯和偏好数据,平台就可以分析你的研究兴趣,并且可以推荐文章给你了。
因为底色原因,可能看不太清楚,这里我给你清晰列出:
Serving last 41211 papers from cs.[CV|CL|LG|AI|NE]/stat.ML
后面那些奇怪的代码,是什么意思呢?
它们其实是arXiv这个预印本平台上的论文分类编号。
具体来说,它们的含义如下:
-
cs.CV: Computer Vision and Pattern Recognition 计算机视觉与模式识别;
-
cs.CL:Computation and Language 计算语言学;
-
cs.LG:Learning 机器学习(计算机科学);
-
cs.AI:Artificial Intelligence 人工智能;
-
cs.NE:Neural and Evolutionary Computing 神经与演化计算;
-
stat.ML:Machine Learning 机器学习(统计学)。
这样,你大体就能了解arXiv-sanity平台上包含的论文类别了。
本文写作时,该平台检索论文的范围为41211篇。
你可能对这里论文的数量嗤之以鼻——也太少了吧!
确实不多。
但是近年来相关论文数量增长趋势明显。
image
目前人工智能领域的最优秀作者,论文写作后首发平台都是arXiv。这样一来,arXiv-sanity便可以立即检索到这篇文章。
如果你研究相关领域,可以在有鱼的地方钓鱼,不轻易放过好文献。
但这些智慧功能,仅能局限在arXiv人工智能领域文章推荐吗?
不是。
点击首页右上角的“Fork me on Github”按钮,你可以看到arXiv-sanity的Github源代码。
image
作者Andrej Karpathy说得非常清楚:
image
你可以用他提供的源码,对任意的arXiv文章子集进行智能化检索服务。
你可以把服务搭建在自己的电脑上,也可以部署在亚马逊AWS这样的云平台上面。
回过头去,看看arXiv论文都包含哪些学科,我知道你一定很不满足。
image
你的专业,有可能不在arXiv涵盖的范围内。
这样的论文能不能用arXiv-sanity的服务呢?
很遗憾。答案在目前还是否定的。
因为arXiv-sanity的智能,是建立在全文可获取的前提下的。
可是,目前世界上很多的论文版权,还牢牢地掌握在几大出版商手中。
下载论文全文并用来提供公众服务,是挑战他们底线的行为,往往会遭到严厉的打击。
天才少年Aaron Swartz的人生悲剧,就是这样酿成的。
image
但是至少,我们看到了一种未来发展的可能性。
英雄
作为附加内容,我给你介绍一下:我是怎么发现arXiv-sanity这个好用的论文检索服务的。
毕竟授人以鱼,不如授人以渔嘛。
原因很简单,我看到资料介绍,说它的创建者是Andrej Karpathy。
image
我立即确认,这个检索工具一定很靠谱。
因为Andrej Karpathy是个深度学习领域的达人。
Andrew Ng的课程中,有过对他的专访,放在了“深度学习英雄”(Heroes of Deep Learning)系列中。
你可以点击这个链接(http://sina.lt/fn96)查看这段访谈。
image
在我自己的课程中,也曾经介绍过他开发的char-rnn模型(https://github.com/karpathy/char-rnn)。
image
这个模型能干什么呢?
很多。
其中之一是,制作游戏关卡,哄人类玩家玩儿。
在学习了《超级马里奥兄弟》的32个关卡后,机器自动生成了下面这个场景构建:
image
玩儿起来的效果如何?你可以点击这段视频的链接(https://youtu.be/_-Gc6diodcY),自己评判一番。
image
正因为Andrej Karpathy这种超强技术实力,和长期不断的内容输出,人们对他开发的论文智能检索系统,才会有如此高的信任度。
讨论
你之前是如何检索文献的?使用过哪些好工具?有没有查找自己感兴趣论文的小窍门呢?欢迎留言,把你的经验和思考分享给大家,我们一起交流讨论。
转载于:玉树芝兰 简书
也希望大家关注我的博客或者公众号:https://home.cnblogs.com/u/Python1234/
Python学习交流