新闻 发表于 2025-6-27 18:50

AI 实践分享|听度小满、微博、通义千问、Dify 聊聊如何用 OceanBase 做 AI 创新

作者:微信文章


6 月 21 日,由 OceanBase 社区与度小满联合主办的“OceanBase 城市交流会 · SQL 遇上 AI ”在北京度小满总部成功举办。本次活动以"数据库多场景实践及 AI 融合探索"为核心议题,汇聚度小满、新浪微博等头部企业的技术专家,围绕通义千问、Dify、KubeSphere 等前沿 AI 技术,深入探讨人工智能与数据库技术协同演进的技术路径和企业实践。



度小满 CTO 张文斌以全局视野开启致辞,他指出:“AI 与数据库的深度融合正在重塑产业竞争格局,高质量数据资产已成为 AI 能力跃迁的核心生产要素”。

针对传统数据库在自然语言处理、非结构化数据治理等领域的技术瓶颈,张总重点分享了 OceanBase 通过分布式架构创新带来的突破性价值,助力度小满技术优化降低成本,提升查询效率,并在风险管理方面产生了积极影响。当前,双方正携手探索向量数据库在智能信贷中的应用,以进一步推动 AI 在信贷业务中的落地。



度小满 CTO张文斌

OceanBase CTO 杨传辉在致辞中首先对度小满联合举办本次技术活动表示诚挚感谢。接下来在回顾行业发展历程时,杨传辉分享了行业最新进展:“数据库技术正迈入 AI 驱动的新纪元”。基于蚂蚁集团 15 年分布式数据库技术积淀,OceanBase 已构建起三大核心优势:

👉 海量数据存储:领先的产品性能(TPC-C 基准测试)、系统稳定性及成本控制能力。

👉 实时分析能力:达到行业一流水准,具备 MySQL 兼容性。

👉 创新应用场景:推动生成式 AI 与向量计算的产业融合实践。

同时将推出更轻量化的产品,让用户更便捷地使用 OceanBase;诚挚邀请开发者参与开源项目共建。OceanBase 将立足国内,致力于构建一个更加全球化的开源社区,与中国及海外开发者共同推动技术不断向前发展。最后杨传辉表示:“我们期待与全球开发者携手,共同打造新一代智能数据库基础设施,让技术真正服务于产业数字化转型。”



OceanBase CTO 杨传辉

接下来一起来看看精华分享汇总吧~

度小满 × OceanBase 实践:

统一架构驱动效率与成本双突破



度小满技术委员会负责人赵辉分享了公司在使用自研存储引擎如基于 MySQL 的 DDBS、类似 Redis 的 CKV 和基于磁盘的 KV 存储引擎时遇到的问题,包括高学习成本、工具生态建设欠缺、运维压力以及资源利用率低下等。随着业务发展,这些问题在扩容和实时大数据场景下尤为突出。

为统一技术架构、降低复杂性,度小满经过多轮评估后,考虑到迁移成本、业务收益、成本节约、学习成本和运维成本等因素,最终选择 OceanBase 作为核心统一技术方案。

(一)OceanBase 的实际应用场景与成效


海量数据低延迟查询场景:单表亿+级数据量下,传统 MySQL 需手动分表,导致业务逻辑复杂度高。OceanBase 原生分布式能力,在同等数据量级下平响 1ms,其他操作基本控制在 8ms 以内,有效满足业务需求,避免分表改造,降低开发成本。通过绑定执行计划规避复杂查询的全表扫描风险,确保稳定性。



实时数仓高性能加工场景:之前依赖 DDBS 处理增量数据、Eggroll 处理存量数据,链路复杂(Kafka+Flink+DDBS+Eggroll),交付周期长(6天)。全链路切换至 OceanBase 后,开发仅需掌握单一接口,交付周期缩短至 2-4 天,存储成本降低 3 倍,扩容效率提升至小时级。



变量数据吞吐优化:由于存在 T+1 数据入库效率低,依赖 HBase 类方案的痛点,通过 OceanBase SDK 直接对接对象存储协议,实现远程读取直接入库,结合 K8s 弹性分片,吞吐量提升显著。



AI 与 KV 场景突破:OceanBase 在混合查询(向量+标量)场景中的向量检索性能优于 Elasticsearch 10%-20%,已在试点推广。KV 性能符合业务 60 万 QPS 的查询需求,可替代原有 CKV 系统,预期稳定性与成本优势显著。


(二)实践中的挑战与应对策略


跨分区 RPC 通信:通过业务模型设计(如分区信息嵌入业务逻辑)减少跨节点调用,提升查询性能。



热点写冲突:启用 OceanBase 的“Early Lock Release”特性,提前处理冲突,降低长尾延迟。



存量数据写压力:通过资源隔离(如独立队列)避免批量任务与业务请求争抢资源。



链路简化:探索用 OceanBase Binlog 替代 Kafka,目标 QPS 从 25 万提升至 50-60 万,进一步优化实时数仓架构。


度小满赵辉强调:“OceanBase 对于度小满的意义,不仅是替换传统关系型数据库来降本,更大的意义在于将关系型/KV 型/海量稀疏型/AI 向量型等众多在线存储技术栈进行统一,实现开发与运维的双重提效。”

微博 × OceanBase 实践:

从 MySQL 到 OceanBase 的转型之路



新浪微博数据库技术负责人杨尚刚分享,微博当前数据库规模达数万个实例,涵盖 OLTP、OLAP 系统及搜索场景,日均数据量达万亿级,访问峰值超 1 亿次。然而,业务增长与资源扩张带来多重挑战:人力成本攀升、资源管理复杂、数据库稳定性风险增加,以及成本控制与业务扩展的平衡难题。

(一)MySQL 的痛点与优化策略


核心问题:长期数据增长导致机械硬盘/SSD 成本压力大,存储成本高。分表策略带来运维负担,异步复制同步引发高可用性风险,增加管理复杂度,以及单机存储容量限制、长尾数据占用资源等性能瓶颈。



解决方案:按场景使用 SSD(低延迟)与机械硬盘(低成本),探索 S3 长期归档,存储进行分级。测试软件/硬件压缩方案,结合 OceanBase 分布式数据库降低 MySQL 压缩性能损耗。


(二)OceanBase 实践与成效


应用场景与优势


👉 兼容性:MySQL 协议兼容性降低迁移成本,单表/分区设计简化业务逻辑。

👉 性能提升:50T 数据压缩至 27T,与当前业务场景需求匹配度高,高可用无需额外组件。

👉 成本优化:调整分表策略,数据一致性问题显著改善。


挑战与应对


👉 分布式事务:写入多维度数据时需谨慎处理一致性。

👉 管理复杂度:分表数量增长带来运维压力,需通过 OCP 平台整合优化。

👉 未来规划:在场景扩展上,探索高吞吐、低时延场景应用。在资源隔离上,结合 K8s 与 OceanBase 多租户能力优化调度。在自动化升级上,推进数据迁移、性能调优与容灾能力建设。

(三)技术细节与优化实践


分区表设计:与 MySQL 相比,OceanBase 支持灵活分区,建议大数据量场景使用分区表保障性能。OceanBase 分区键需为组件子集,避免随机数据写入以减少分布不均。

统计信息管理:可优化查询执行路径,需平衡采样精度与资源消耗。需要低峰期并发采集、动态调整采样比例、锁定长期无更新表的统计信息。



ARM 架构适配:具备 ARM 单实例性能相比同配置的 x86 有提升、成本也更低等优势。适配难点在于编译指令与 GCC 支持差异需额外开发投入,MySQL 适配复杂度更高。


杨尚刚强调,微博数据库优化不仅是技术迭代,更是业务价值的重塑。通过 MySQL 痛点的针对性解决、 OceanBase 的高效实践以及未来多数据库协同策略,构建多样化、更弹性、低成本、高稳定性的数据底座,为内容生态与业务增长提供坚实支撑。

OceanBase 在 AI 时代的

创新实践与生态扩展



OceanBase 高级技术专家傅榕锋分享了向量数据库的研发进展。早在 2023 年, OceanBase 便启动了向量库的研发工作,并于 2024 年推出了首个可投入生产环境的版本。基于该版本,团队进一步开发了 RAG 应用,并于 2024 年 6 月正式上线 OceanBase 社区,作为“OB 社区小助手”。为加速生态整合,OceanBase 在 2024 年 9 月通过 PyPI 平台发布了向量数据库的 Python SDK,这一举措为 10 月正式发布的向量数据库 4.3.3 版本提供了技术铺垫,使其能够快速适配 Dify、LlamaIndex 等主流 AI 平台与工具。通过这一系列技术实践,OceanBase 为开发者和企业构建了一条低门槛的 AI 应用落地路径,显著降低了向量数据库的使用复杂度与开发成本。

(一)AI 能力构建与应用场景验证

通过三大典型 AI Demo 验证技术可行性:基于向量检索的图搜图应用、基于向量与全文索引的 RAG 知识库、基于多模融合查询的 AI 文旅小助手。这些 Demo 展示了如何将图片、文档进行向量化并存储到数据库中,进行向量和全文索引查询,以及如何通过输入多种条件进行多模融合查询。这些场景验证了数据库在处理结构化与非结构化数据的双重能力。

(二)Dify 平台集成与架构优化实践

傅榕锋分享了 Dify 平台强大的工程编排能力,特别是其逻辑控制、可编程节点和可复用流程的功能。同时,提到了在实际应用中遇到的挑战,尤其是其复杂的数据库架构和维护问题。为了解决这些问题,提出了将 Dify 的数据库全部替换为 OceanBase 的方案:存储系统 OceanBase = PostgreSQL + 向量库 + Redis。

集成实践的优势体现在以下几个方面:

👉 提升稳定性:7x24 小时企业级高可用能力;支持跨机房容灾。

👉 提升扩展性:支撑数据无限扩展,单机到分布式;HNSW 内存优化,有效避免内存 OOM。

👉 强化多租户:基于社区版即可实现多租户。

👉 节省成本:一套系统替换多套存储系统,极致压缩,节省资源 30%。

👉 统一技术栈:降低运维成本、降低学习成本。

(三)在企业级应用与挑战应对

在数据库替换实践中,OceanBase 展现出独特技术优势:通过 OBKV 组件替代 Redis,OceanBase 原生支持向量库功能。为解决元数据库兼容问题,OceanBase 社区维护了 dify-on-mysql (https://github.com/oceanbase/dify)分支,以适配 MySQL 协议满足元数据库的需求。在大规模应用实践中,OceanBase 原生分布式架构可轻松完成水平扩容,业务无感知地实现节点扩展,显著降低运维复杂度。同时,OceanBase 多租户具备完善的资源隔离能力,通过资源池化与动态调度,基于一套数据库可支撑多套 Dify 应用实例,从而实现应用层面的“多租户”。

(四)垂直场景的 AI 应用


戒毒所心理辅导系统


问题痛点:人工谈话效率低,问卷测试信息深度不足。

解决方案:利用通义千问大模型自动化评分与问题引导,结合 OB Cloud 的向量索引和全文索引,实现心理测验与评估的机器替代。通过 Dify 可视化编排能力和 OB Cloud 强大的索引能力,即使是小白也可以快速构建自己的 AI 应用。


某东南亚快递公司智能客服


挑战:泰语等小语种分词困难,增量数据处理压力大。

解决方案:

🔎 向量方案:优化 HNSW 算法内存开销,有效避免内存 OOM;数据量更大后,升级到 IVF-SQ8 算法,节省内存;快速索引重建仅 25 分钟。

🔎 分词插件:使用分词插件功能,只需要实现两个函数即可快速加入对应语言的分词器,提高全文检索效果。

傅榕锋强调,OceanBase 将持续深化 AI 与数据库的融合创新:


在技术层面,将在内核层面支持强化多模融合搜索能力,支撑更多用户在多元场景中落地。

在生态建设方面,在持续深入与 Dify、魔搭等已经适配的社区合作的同时链接更多行业上下游的合作伙伴。

在智能化升级上,OCP 和 ODC 都在最新版的版本中引入了不同的 AI 功能,同时 OceanBase 也推出开箱即用的 RAG 知识库产品 PowerRAG。


AI 应用提速的主题分享



阿里云通义实验室互联网业务负责人仇冰雪在近期分享中指出,随着多模态模型与大语言模型(LLM)的性能跃升,AI 技术正加速从“实验室验证”走向“产业规模化落地”。产业资本的密集投入、开发者生态的繁荣发展,以及社会对 AI 应用的广泛认可,共同为 2025 年成为 AI 应用爆发元年奠定了坚实基础。

(一)多模态模型的技术突破与场景拓展

核心技术演进路径具体包括数据规模翻倍和推理强化学习。其中,数据规模翻倍是指预训练数据规模翻倍,覆盖知识密集型任务的定向增强。推理强化学习则是通过长上下文链式推理(COT)与快慢思考融合,解决复杂决策问题。未来将投入智能体协同训练,从单一模型训练过渡到智能体协作,提升复杂任务处理能力。

(二)AI 应用规模化落地的技术支撑


直播与金融质检场景


在直播场景中,直播互动增强,通过弹幕意图分析,为主播提供实时互动建议,提升直播间活跃度与转化率。在金融客服质检场景中,通过构建“大模型+小模型”双飞轮机制,结合领域数据蒸馏与强化学习,实现服务合规性与质量的双重保障。


OceanBase 数据库的底层赋能


在数据处理效率上实现 QPS 性能突破,在 22c174g 规格机器上,OceanBase QPS 性能较 Milvus 和 PGVector 提升 1 倍以上(测试条件:768 维度、100 万数据量,90% 召回率)。

在混合检索能力方面,自动策略选择可基于代价模型自动选择最优执行计划;通过自研向量算法库,深度集成数据库内核,兼顾查询效率与准确性。内核级多模融合支持更丰富的“模”(如文本、图像、语音)高效融合查询。

在资源优化与生态协同方面,组件式向量库升级,一体化数据库设计节省组件间 RPC 调用,降低资源消耗。在生态联动方面,与阿里云 Agent Store、繁花计划深度融合,加速 AI 应用部署。

仇冰雪总结道:“2025 年的 AI 应用爆发将会是模型能力、推理服务与开发工具的协同进化以及产业生态协同发展的必然结果,业务场景与 AI 的融合是双向奔赴的苦恋大戏,更是千锤百炼后的丝般顺滑,AI 将深度渗透教育、金融、娱乐等垂直领域,重塑产业价值链,其商业价值与社会影响将进一步释放,开启智能化时代”。

KubeSphere 携手 OceanBase:

构建云原生 AI 生态的新范式



青云科技云原生产品经理孔玮在此次活动中系统性地分享了 KubeSphere 如何通过技术创新与生态共建,推动 AI 原生能力与云服务的深度融合,并以 OceanBase 数据库的实践案例为切入点,揭示了云原生架构在智能化运维、分布式计算及生态协作中的核心价值。

作为青云科技自研的云原生平台,KubeSphere 自 2018 年启动以来,已发展成为支持多云管理与微服务治理的开放架构标杆。其核心架构基于 Kubernetes(K8s)构建,采用分布式可扩展设计,前端通过微模块化实现“In-Tree”与“Out-of-Tree”组件的灵活配置,后端则依托 API 网关统一认证、授权与请求代理功能,形成高度可配置的生态协作体系。

架构的技术突破体现在三方面:

👉 动态扩展与安全隔离:通过模块化设计,系统可按需动态扩展资源,同时通过严格的隔离机制保障上层应用稳定;

👉 生态兼容性:与 OceanBase 等合作伙伴的 API 深度集成,支持一键式部署与业务逻辑定制;

👉 性能优化:结合容器化与自动化运维工具,显著降低资源消耗与运维成本。

(一)AI 原生能力的云服务化探索

孔玮强调,云原生技术正成为 AI 负载的基石。KubeSphere 通过 AI 工具链的原生集成,实现了开发运维(DevOps)的智能化升级。例如,基于 KubeSphere 构建的 MCP Server 已在实际运维场景中落地,通过机器学习算法优化资源调度与故障预测,相关代码已开源并提供实践案例参考。

(二)OceanBase:云原生数据库的生态价值

OceanBase 作为青云科技重点合作的分布式数据库,凭借其 80% 以上数据管理问题的解决能力,成为云原生生态的关键组件。其核心优势包括:

👉 分布式架构:支持多副本对等节点,无需共享存储设备,保障高可用性与强一致性;

👉 多租户管理:通过弹性资源分配满足高并发场景需求,适配金融、互联网等对稳定性要求严苛的领域;

👉 云原生适配:与 KubeSphere 深度集成,用户可通过 K8s 一键部署,实现灵活扩展与低成本运维。

孔玮表示,开源用户期望 KubeSphere 与 OceanBase 的集成能够更加简便,提供直观的用户界面和清晰的文档指导,降低使用门槛。希望不断改进解决方案的性能,特别是在大规模数据处理和高并发场景下,能够提供更优的资源利用率和数据处理速度。同时期待 KubeSphere 与 OceanBase 能够支持更多的功能扩展,如更丰富的数据类型支持、更强大的数据分析工具等,以满足不断变化的业务需求。提供更多的技术支持和交流机会,共同推动解决方案的发展和完善。

社区展望:开源开放,共建智能未来



在活动尾声,OceanBase 开源生态技术部总经理封仲淹对本次技术交流会进行了总结。他强调社区始终秉持“开源开放、生态共赢”的理念,期待与度小满等合作伙伴深化协作,共同推动技术创新,并欢迎用户通过社区渠道反馈问题、参与交流。

针对未来发展方向,封仲淹透露了 OceanBase 社区的重点工作计划:

👉 AI 技术深化:聚焦向量化与 AI 能力研发,推出一系列 AI 相关项目,探索数据库与生成式 AI、机器学习等技术的融合场景。通过优化算法与模型集成,提升数据库在智能查询、自动化运维等领域的应用潜力。

👉 AP 能力升级:实施多项分析型处理(AP)项目,强化 OceanBase 在复杂查询、实时分析等高负载场景下的性能表现。结合分布式架构优势,优化资源调度与计算效率,满足金融、互联网等行业的高并发需求。

(一)开源生态共建进展

在生态对接层面,加大与主流开源工具链的整合力度,例如与 Dify、KubeSphere 等项目的深度合作,推动 AI 上下游生态建设。通过代码贡献、技术文档完善及开发者激励计划,增强社区活跃度与技术输出能力,吸引更多开发者参与共建,提升影响力。

(二)社区用户运营策略

针对用户规模扩大带来的支持压力,OceanBase 社区将启动专项运营计划。


实战培训计划面向社区企业用户的实战培训课程,覆盖典型问题排查与解决方案。通过“以练代教”的模式,帮助用户快速掌握深度应用场景的技术要点,提升自主解决问题的能力。



通过长期赋能机制建立分级用户支持体系,为开发者、企业用户提供差异化服务,降低技术支持成本。定期举办技术沙龙与线上研讨会,促进用户间的经验交流与生态协作。


封仲淹强调,OceanBase 社区的目标不仅是提供高性能的数据库产品,更致力于构建开放、协作的技术生态。通过 AI 能力突破、AP 性能优化及用户赋能计划,社区将持续为开发者与企业创造价值,助力行业数字化转型。

特别鸣谢本场主持人:同程旅游分布式数据库负责人田帅萌



本次 “OceanBase 城市交流会·SQL 遇上 AI”不仅展示了 OceanBase 在数据库技术与 AI 融合领域的创新成果,更通过企业实践案例与生态协同探索,描绘了智能时代的技术蓝图。随着 AI 与数据库的深度融合,OceanBase 社区将持续以开放姿态拥抱技术变革,携手全球开发者与企业,共同构建新一代智能数据库基础设施,为数字经济注入澎湃动能。未来已来,让我们以数据为舟,以 AI 为帆,驶向产业智能化的星辰大海!





往期推荐









▼ 点击「阅读原文」,报名进入 OceanBase 社区
页: [1]
查看完整版本: AI 实践分享|听度小满、微博、通义千问、Dify 聊聊如何用 OceanBase 做 AI 创新