close
正在加载
对话 Kaito CEO:搭建 Web3 的终极 GPT
互联网 · 2023-09-18 13:45:11
币界网报道:
数据分析时代,Web3 带来的机遇会完全改变这种科技公司垄断数据的经济逻辑。


撰文:Sunny

受访者:Yu Hu,Kaito CEO


如何高效获取 Web3 信息?对于普通用户而言,推特、Discord、Telegram 及媒体网站是获取准确信息的主要途径。对于更有分析能力的用户来说,他们可能会选择使用链上数据浏览器、链上数据分析产品或者咨询报告。Web3 信息相对于 Web2 更碎片化,主要分散在多个加密原生的社交应用和分析应用中,就像是寻宝一样,与以谷歌为代表的搜索理念大相径庭。


每个行业的发展都会经历从混乱到有序的过程。在搜索引擎诞生之前,信息同样极度分散。在 Etherscan 出现之前,普通用户要查找区块链信息就像大海捞针一样困难。而后来出现的 The Graph 为 Web3 提供了去中心化的 SQL 服务。除链上数据外,语义检索仍是大多数人认识 Web3 的主要途径,但现有的大型语义搜索引擎并不能满足 Web3 用户的搜索需求。


而 Kaito 的创始人兼 CEO Yu Hu 早在 2020 年就看到了 Web3 信息的特点:分散,缺乏组织。当时,他从事传统金融二级交易工作时发现,他自己的需求实际上正是整个行业的需求。因此,他果断地辞去了工作,全身心地投入到打造 Web3 搜索引擎的事业中。正如 Yu 所言:「我希望为全行业的从业者提供一款优秀工具,使他们能真正获取高质量信息。」


Kaito 的搜索引擎通过运用 Auto GPT 框架和多个 ChatGPT 后端,共同构建了一个代理网络,可以处理各种任务,包括搜索、信息处理、数据清洗和标注,旨在提供更高质量的 Web3 信息服务,并积极探索以用户共创的方式来优化体验和扩大经济收益。


在与 Yu 的深度对话中,我们讨论了如何通过 AI 大语言模型来助力 Web3 用户,并探讨了如何构建基于社区共创的去中心化 AI 搜索引擎的未来发展。作为媒体,我们还与 Yu 探讨了如何将传统媒体与人工智能相结合,以提升信息的真实性和独特性的途径。


精彩摘要


  1. 在数据分析时代,我深信 Web3 带来的机遇会完全改变这种科技公司垄断数据的经济逻辑。
  2. 在 WEB2 时代,所有信息存储在公开的互联网上。而在 WEB3 的世界中,很多信息存在于区块链上,区块链是和互联网完全不同的信息架构。爬取区块链上的信息需要设置节点,而不能像 Google 那样使用通用的爬虫体系。
  3. 我们希望未来能与用户共创。如果用户在我们的平台上看到不实或虚假的信息,我们希望能有一个反馈机制,让用户参与其中,共同改进信息的质量。
  4. 在 Web3 的环境下,我们重视数据的所有权,因此希望用户能参与到数据处理过程以及产品的共创中来。只有用户更多地使用,我们的模型能力才会更加地强大。
  5. 搜索引擎和媒体之间本质上是一个上下游的关系,媒体是合作引擎信息源的一部分,这是最本质的关系。


掉入加密兔子洞


TechFlow:你是如何从剑桥的优秀学生,到 Citadel 员工,再到 Cryptopunk 持有者,最后创办一家专注 Web3 和 AI 的创业公司的?


Yu:我的背景是商科经济系背景,在传统金融领域工作了约十年。我先后在投资银行和对冲基金工作,最后在 Citadel 等公司从事二级市场交易。然而,我在 2017 年左右接触到加密货币,对这项新兴技术产生浓厚兴趣,并开始在业余时间进行相关研究,因为这不仅涉及到新技术,还是全新的资产类别。


在 2020 年的 DeFi 夏季,我投入大量时间进行研究。DeFi 是一个相对基础的概念,不同于其他的点,因为在 DeFi 中,你可以看到所有的存仓量、收入和其他指标数据,从而进行基本面分析。我当时做了很多这方面的研究,并寻找机会。


当时,我深刻感受到信息在加密行业中的传播非常混乱和散乱,类似于我在传统金融市场中遇到的信息差异很大。在传统金融领域,有很多优秀的金融工具可以帮助大家检索信息。


但在区块链领域,连搜索引擎都无法有效地检索区块链相关信息,比如推特、Discord 等社交平台上的信息。这让信息收集变得非常痛苦。


到了 2021 年,我购买了 CryptoPunk,这个 NFT 标志着整个行业的一个重要时刻。我对 Web3 的未来充满信心,这个信心一直延续到现在。


在考虑了行业的发展和自己的兴趣后,我在 2021 年底决定辞职,创业开发一款产品。我希望开发一款能够解决信息检索难题的产品,帮助像我这样的人。这就是我创业的初衷。


TechFlow:2017-2021 年间,你的研究重点是什么?有哪些关键的启示?自 2017 年以来,你对行业的启发有何变化?


Yu:我觉得他对我来说最大的启发是对整个历程的长线思维。


最早期的启发是关于不同金融交互方式的认知,因为我之前从事操作金融领域。这个启发在基础框架下引发了对所有权概念不同定价的思考。


我认为这是一个深刻的观点,因为它演化成了各个行业方面的基本属性。


在 2020 年和 2021 年,我开始思考过去 20 年科技巨头崛起的科技红利,比如 Google、Facebook 等科技巨头的发展。


然而,我更深层次的想法是,如果延续这种模式,再往后 50 年、100 年,科技的格局可能会完全改变,其中最重要的部分可能就是数据的所有权。


我们现在可以免费使用 Google、Instagram、Facebook 等科技产品,但真正的价值在于这些产品背后巨大的数据。用户没有真正意识到数据的价值,而这些数据完全掌握在科技公司手中。


在数据分析时代,我深信 Web3 带来的机遇会完全改变这种经济逻辑。


数据的所有权将回到用户手中,新产品将以社区共创的方式出现。这些新产品会在不同层面上影响我们对未来的看法,也会改变数据和用户交互的逻辑和关系。


Web3 的信息规模和特征:去中心化和互操作性


TechFlow:在 Kaito,你如何整合并实现 Web3 信息的互操作性?这与 Web2 时代的方法有何不同?


Yu:我先简单介绍一下,Kaito 有两个核心的产品。


一个是机构端的,为专业人士提供服务(包括研究学者、媒体人员和行业建设者等)。他们需要花大量时间查阅相关信息。


另一个面向全体 C 端用户市场的搜索引擎,类似于 Web3 的 Google。在这里,你可以找到与 Web3 相关的信息,这些信息通常散落在不同的地方,如推特、Discord、中心化和去中心化媒体、链上的数据等。我们作为一个垂类搜索引擎,可以为这个社区提供独立的新价值。


我们主要的整合过程可以分为三个方面。


首先是源头,我们要了解哪些数据与 Web3 相关。例如,我们要筛选出推特和 Discord 等平台上的相关信息,然后通过技术整合它们。


第二步是整理,我们对这些数据进行清洗和标注,将非结构化的数据转化为结构化的数据。我们会在自己的数据库中进行标注,也可能利用 AI 和大模型进行理解。


第三步是让这些数据可读,即如何与用户交互。这可能采用不同的形式,如检索、信息流、图表甚至是聊天。最终目标是与用户建立紧密的互动,让这些数据更易于操作。


这三个步骤是我们整合数据并提供可操作性的关键。


Web3 和 Web2 的信息不同主要有三个方面。


首先,信息传播方式完全不同。在 WEB3 时代,信息本质上更加去中心化和混乱。与 Web2 时代不同,信息在 Web3 时代通常不仅仅依赖官方媒体发布,即使是官方账号,如 FTX,在发布重大事件时也更多关注来自社区的账号。例如,在 Discord 等平台上,信息传播就会更加去中心化。


第二个不同在于信息承载的基建。在 WEB2 时代,所有信息存在于公开的互联网上。而在 WEB3 的世界中,很多信息存在于区块链上,区块链是和互联网完全不同的信息架构。爬取区块链上的信息需要设置节点,而不能像 Google 那样使用通用的爬虫体系。


第三个不同在于信息交互方式。在 WEB2 时代,数据清洗和标注等过程是高度中心化进行的,像 Google 和 ChatGPT 等都有大团队来进行这些工作。而在 WEB3 时代,很多东西可以与用户共创,通过激励共创行为来实现。比如在 Web3 的范畴内,社区和开发者共同创造了全新的搜索引擎,为 Web3 社区带来新的搜索体验。


TechFlow:Web3 的公有领域和私有领域数据的当前规模是多大?预计未来会有怎样的变化?


Yu: 从我们自己收集的数据来看,我们每天会处理约百万条来自机构的信息。如果加上公域数据,这个数字可能会扩大到千万级别,而一旦再加上私域数据,如 Telegram、Discord 等,这个数目肯定会超过亿级别。这是我们每天的数据量。至于未来的发展趋势,我们可以预见到这一数据量将会继续增长,因为随着用户数量的增加以及信息来源的日益增多,无论是区块链还是相关的中心化企业,都将面临这一趋势。


另外,信息的性质也可能发生变化。目前,大多数信息涉及交易等方面,但随着区块链应用范围的扩大,其他领域的信息也将迅速增加。


人工智能助力 Web3


TechFlow: 你们是如何利用大语言模型模型构建你们的 AI 工作系统的?此外,你们是如何处理各种数据源并确定最佳答案的?


Yu: 目前,我们采用了 Auto GPT 的架构,将多个 ChatGPT 模型部署在后端,这些模型一起构成了一个代理工作系统。


每个代理负责不同的任务。当用户提出一个搜索请求时,我们的第一个代理会分析其语义和需求,并确定应在哪个数据源中搜索答案。我们可能拥有多个代理,每个代理在不同领域有其专长,比如在推特、Discord、研究等不同的数据源中搜索信息。


这些代理之间会交流,找到最佳答案,然后我们会评估这个答案是否符合用户的问题。在这个框架下,我们目前使用 ChatGPT 作为底层的大模型,但同时也在探索 fine-tuning 自己的模型或完全自主训练我们的模型。


ChatGPT 是一个预训练的模型。它可以利用自身的知识库回答用户的问题,但是对于超出其知识范围的内容,它就无法回答。我们和 ChatGPT 的对接方式是利用它的语义理解和逻辑推理能力,让它学习当前正在发生的事件,这就是所谓的上下文学习。


我们需要优化的内容很多,因此有必要使用代理网络。对于某些问题,我们可能需要使用更复杂的模型,如 GPT-4,而一般来说,比较简单的模型就可以满足需求。这与人类在处理信息时根据不同情况调用不同的认知能力类似。对于深度文献,我们可能需要高度集中去理解,而对于简单问题,则更容易获取答案。


同样地,在数据库的层面,我们会根据需求方的网络来运行。未来我们可能会将数据库也纳入去中心化管理,这样能更高效地进行扩容。


在数据的清洗、标注和处理过程中,我们希望与用户共同创造价值,因为数据对于任何 AI 公司来说都非常重要。


在 Web3 的环境下,我们重视数据的所有权,因此希望用户能参与到数据处理过程中,与我们共同打造我们的产品。只有用户越多地使用,我们的模型能力才会更加强大。用户体验也会更好,进而吸引更多用户使用产品,而大家也能在这个过程中分享经济收益,这是我们希望实现的共创理念。


TechFlow:Kaito 如何帮助用户应对区块链行业中的虚假信息并保证数据质量?


Yu:我们目前的重点工作有三个方面。


首先,我们对信息源进行筛选。以推特为例,我们利用社交图谱的方法来筛选用户以排除垃圾信息。


其次,我们注重提供信息的来源。平时用户使用大型语言模型,如 ChatGPT 时,用户并不知道搜索结果是如何生成的,而我们为搜索结果都标注了信息来源,以帮助用户更好地判断信息的可信度。这一点是我们在传统大语言模型上做出的重要技术优化。


最后,我们希望能与用户共创。如果用户在我们的平台上发现无用或虚假信息,我们也会提供一个反馈机制,让用户参与其中,共同提高信息的质量。


去中心化助力人工智能


TechFlow:你如何看待 AI 在 Web3 时代的发展潜力,特别是关于其自我学习和数据共享的能力?同时,您认为区块链的哪些核心特性可能对 AI 的未来发展产生影响?


Yu:OpenAI 和区块链之间实际上没有直接关系,OpenAI 是一个非常重要的 AI 产出。其训练模型是通过大量数据和文献进行训练,并且人工标注也是通过雇佣和人来进行的,训练过程是中心化的运营。而 Web3 在其本身可能打开了一个新的格局,并且具有颠覆性。现在,有一些人还没有完全意识到 Web3 的颠覆性内核。


人工智能的潜力


最近,人工智能领域的教父 Geoff Hinton 指出:「humanity is just a 'passing phase' in the evolution of intelligence」。ChatGPT 尽管已经非常厉害,但依然只是 AI 产物的一小部分。所以长远来看,人工智能产业有非常大的发展潜力。


不同于我们人类,AI 同一模型的多个副本可以共享新学习到的东西,这是 AI 的潜在优势。


现阶段,AI 尚未完成自己的使命,但我相信它的未来不可限量。其中,有一项重要的假设:AI 的发展不可能放缓,因为发展 AI 有着强大的驱动力,即使一个国家放缓了 AI 的研究,其他国家也会继续推进 AI 技术的发展。因此,AI 的发展趋势将是稳定、持久、而且不可遏制的。


区块链的属性


在这个过程中,区块链的核心是什么?公平、可信、稳定和个人掌控权,我认为这些是区块链最重要的核心,因为任何中心化的组织都有可能带来巨大的危险。这也可以解释为什么马斯克对于 OpenAI 已经变成了 Close AI 感到非常不满。


在某种程度上,我能理解他的观点。然而,在这个框架下,如果我们能够从另一个角度对这些东西进行一些限制,比如数据的所有者,或者其他方面的限制,那么我们整个系统将会有一个比较强大的负反馈原则。


这个思考可能更多是哲学性和抽象性的,但我认为有很多可以验证的方向。Web3 在 AI 市场崛起之后变得越来越重要,我认为这是最近我得到的一个思考。


时间将揭示真正的去中心化


在 Web3 中,我认为本质上并没有太多的中心化因素,它是一个非常去中心化的东西。比如行业中有一些负面的例子,从去年到现在发生了许多灾难性的事件,比如 FTX 的问题,还有一些新闻报道,或者是 USDC 的 Depeg 事件,它们本质上都涉及到一些中心化的研发。


但真正完全去中心化的东西,比如比特币和以太坊等协议,运行非常稳定,它们本身有一个非常强的服务原则,这是非常重要的。而在刚才讲到的一些衍生出来的东西中,可能还包括公平的社区共创等,这些都是在非常去中心化的基础上产生的。


传统媒体与 AI 搜索引擎的关系


TechFlow: AI 搜索引擎将如何影响媒体行业?你认为 AI 能够取代媒体,让每个人都能创造高质量内容吗?


Yu:搜索引擎和媒体之间本质上是一个上下游的关系,就好比媒体是合作引擎信息源的一部分,这是最本质的关系。


在大型语言模型出现之前,搜索引擎一直存在,甚至包括国内的今日头条等媒体聚合平台也在使用 AI 公司进行一些浅层的快讯、梳理和总结等工作,这些都已经应用了 AI 的能力。


但我认为一些东西永远不会或者不太会被取代,例如一些专有的信息,比如专访、调查报道等,这些都是媒体的独家价值。


区块链私有数据的隐私保护与数据共创


TechFlow: 你能分享一下就是对未来链上数据和行为隐私保护的看法。Kaito 有什么策略来应对这些挑战?


Yu: 我认为这个话题本身是非常重要的。


在这个问题上,我们是一个中立的引擎,简单来说,无论是在互联网上还是区块链上,我们会收录任何公开的信息。但是,对于私有或受保护的信息,我们现在及将来都不会进行收录。因为这些信息并非所有人都能够访问。


在共创数据的过程中,我们非常希望站在区块链和人工智能的交叉点上,与用户一起共同努力,创造新的数据价值。我们将目标定位为解决区块链这个领域的问题,因此本质上更像一家人工智能公司。我们的团队成员大多来自规模较大的公司,拥有人工智能相关的背景,同时他们对 Web3 的前景充满信心。我们早期的团队成员都来自 Web3 社区,聚在一起齐心协力创造我们自己的产品。


至于 AI 和区块链的平衡,我认为在我们的发展过程中,并不存在一个明确的平衡点。我们运用 AI 技术解决我们热爱的垂直领域的需求,无论是信息索引、分发,还是其他可能涉足的领域,都是为了服务于特定的行业。我们运用新技术,以更有效率和好的方式提供有用的服务,将其纳入相应行业中。


传统商业模式 Vs.基于社区共创的经济模型


TechFlow: 所以你目前团队有考虑过的一种就是社区共建有哪些方式,就是有哪些激励用户的方式?


Yu:我认为最简单直白的方式就是让所有用户贡献的数据具有一定的经济效益,并且在监管和合规范围内运作。在这个平台上,每个用户的搜索、浏览和行为都帮助优化平台的模型,从而提供更好的用户体验。通过这种正向激励,我们鼓励每个用户积极参与社区共创。这正是我们的目标所在。


目前,Kaito 有两种商业模式。一种是机构版,采用传统的订阅方式,为机构提供付费服务。另一种是大众版,完全免费,但可能会存在一些额外的付费功能,例如类似于 ChatGPT 的功能。另外,我们还提供一些数据的 API 服务,为行业中的其他去中心化协议提供数据支持,这是另外一套商业模式。


TechFlow:你们是否考虑采用其他激励方式或使用代币收款来吸引用户?


Yu:我认为这实际上是两个问题。


首先,我们是否需要代币,以及在整个生态中代币有什么用途?


我觉得代币是有价值的。虽然如果没有代币,项目肯定可以正常运转,只要能提供出色的产品和自给自足的盈利模式,比如通过数据或广告收入,就可以实现良好的营收。


但是对我们来说,更令人兴奋的是在早期阶段就能打造出与社区共创的概念。在这样的框架下,我们认为需要代币。


具体如何操作,或者后续的想法,需要根据发展情况来决定。至于订阅等收费模式是否可以通过代币来支持,这可能是另一个话题。对我们而言,代币的好处显而易见,无论是从效率还是商业价值的角度来看,代币都比其他方式更简单。


另外,从商业角度来看,我们可以完全跳过第三方中介,不必依赖像 Stripe 这样的支付公司。然而,我们也面临一个挑战,就是在整个行业中,我们还没有找到特别好的第三方服务公司,能够让我们轻松与所有合规平台,包括政府和税务机构进行申报。


在当前行业阶段,这可能是我们遇到的一个问题。


TechFlow: 那么就是在代币的社区治理方面,你最近有研究到什么比较有意思的经济模型吗?


最近在加密行业发生了一些大的变化,特别是在代币治理方面。以前很多代币被视为纯粹的治理代币,但现在越来越多的代币能捕获经济价值,例如 DYDX 等。这引发了一些担忧,大家希望能实现一个社区能捕获经济价值的状态,而不仅仅是治理价值。


TechFlow:最后一个问题就是能否提供给我们一些独家内容,比如揭示一下 kaito 即将到来的里程碑和发展计划,有没有什么我们能期待看到的特别激动人心的新功能或新合作?


Yu:我们计划在未来使用户能够以全新的方式应用搜索引擎,比如通过截取价格走势图进行分析,甚至与电商链下信息源进行交互,实现多模态搜索。


我们的愿景是为所有人提供一个完全不同的、最好的、最便捷的访问所有相关信息的方式。我们相信未来的潜力非常巨大,我们将逐步完善并实现这个愿景。我们希望未来的搜索引擎能够带来与现在截然不同的全新体验。目前整个行业仍处于早期阶段,我们正在探索如何更好地将大语言模型与搜索引擎结合,以提供简单而颠覆性的用户体验。


搜索引擎的进步和创新已经产生了翻天覆地的变化。几年前,旅行者没有 Google 地图,在探索世界时只能依赖于 Lonely Planet 这样的纸质指南书籍。现在随着 Google 搜索引擎的出现,我们现在已经可以轻松便捷地搜索到所需的信息。然而,我们相信未来的搜索引擎将以一种超越我们的想象力的方式,带来更加激动人心和颠覆性的变革。

s_logo
App内打开