Magi

基于机器学习的信息抽取和检索系统

Magi 是什么?

Magi 是由 Peak Labs 研发的基于机器学习的信息抽取和检索系统,它能将任何领域的自然语言文本中的知识提取成结构化的数据,通过终身学习持续聚合和纠错,进而为人类用户和其他人工智能提供可解析可检索可溯源的知识体系。

Magi 能做什么?

如果您是从 magi.com 来到这里的话,那么恭喜您发现了 Magi 的一半!这个长得很像搜索引擎的网站就是 Magi 的公众版本,但与搜索引擎不同,Magi 不仅收录互联网上的海量文本,还会去尝试理解并学习这些文本中蕴含的知识和数据。

不妨在 magi.com使用帮助)尝试搜索一些您关心的事物,或者直接提出问题,Magi 都将竭力为您提供高度聚合的结构化知识结果:每条信息会用颜色表示其可信度,点击可展开看到 Magi 是从哪些具体来源习得的该知识。

我们为 Magi 从零研发了一套互联网搜索引擎,所以 magi.com 同时提供全网规模的普通搜索结果。因此,即使不巧没有结构化结果,您也不会白来。

值得一提的是,上述的学习过程是在无人干预的情况下 7 x 24 小时不间断运行的,实时新闻事件中的知识一般只需要 5 分钟就会被掌握。随着可交叉验证的信息源不断增加,先前学习到的知识的可信度会被重新评估,使结果中的错误被自动纠正。

Magi 的使命

目前,互联网上只有极少数知识被人类手工整理成了机器可以解析的格式,如各种百科栏目和垂直领域数据库,然而这些信息仅仅是沧海之一粟,无论是覆盖范围更新频率可靠程度都无法满足日益增长的自动化和智能化需求。

其根本矛盾在于:读懂自然语言对人类来说不难,但人的精力有限,无法跟上有价值信息的产生速度,也不能保证稳定和客观;机器虽然不知疲倦且速度超群,但面对纷繁复杂的自由文本却难以利用,使得不可估量的价值被埋没于字里行间。

试想一下,假如有一个不断自动更新的数据库,包含着互联网各处的文本信息提取而成的便于程序和算法处理的数据结构,那么也许:

  • 各种语音助手不会再对您说:“对不起,我不清楚。”;
  • 商业智能可获得广泛的背景知识来做出更好的判断;
  • 金融信息服务的数据收集与验证的效率将显著提升;
  • … …

作为公众版本的 magi.com 为人类用户提供了与互联网数据交互的新方式,而 Magi 系统背后的技术平台则承载着另一半重要的意义:让机器像人一样能理解并充分利用互联网中无穷无尽的知识