阿里云OpenSearch-LLM智能问答故障的一天

2023-12-27 13:15

本文主要是介绍阿里云OpenSearch-LLM智能问答故障的一天,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

上周五使用阿里云开放搜索问答版时,故障了一整天,可能这个服务使用的人比较少,没有什么消息爆出来,特此记录下这几天的阿里云处理过程,不免让人怀疑阿里云整体都外包出去了,反应迟钝,水平业余,却又很在意KPI。

1. 什么是智能开放搜索OpenSearch

在抨击阿里云服务之前,还是要肯定open search问答版挺好用的,解决了公司想要根据内部知识内容搭建大模型,进行内部AI的数据问答,在这之前我也试用过模型服务灵积的定制模型,但作为传统型公司,训练模型所需要的语料库根本没有,公司的诉求更多是给一堆内部文档,然后对此进行提问回答,省去过往人工查找,还能将内部知识进行概括总结,给出所属的知识来源文档,所以要想生成基于问答形式的语料库不太现实。或者还有更好的方法我还没探索出来吧。

基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,目前为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。通过内置各行业的查询语义理解、机器学习排序算法等能力,以及充分开放的文本向量检索引擎能力,助力开发者快速搭建智能搜索服务。

OpenSearch LLM智能问答版

2. 故障过程

因为还属于开发阶段,出于成本考虑,我们的实例并不是一直运行的,LLM模型的费用分为实例资源运行费+调用处理费,实例资源运行时按小时0.2元/小时,每次问答调用差不多0.13元/次。

早上新建了实例后,通过Python将结构化后的文档数据通过API传到实例中,发现怎么都传不上去,返回参数正常,通过控制台也不行,显示上传成功,但不展示数据内容,只有空Id列表,以为是实例创建错误,先自己进行尝试。

  1. 先销毁了几次实例,创建了好几个不同App名称的实例进行试验,都不行
  2. 怀疑自己运行了十多次的Python代码有问题,可能是官方sdk库更新,重新下载了官方文档代码,发现还不行
  3. 切换了网络,切换了数据集,切换了控制台,都不行

3. 提报工单

总结了下我这里应该是没问题,有点怀疑是阿里云的问题,索性提个工单吧,看看工程师怎么说。

一直到下午五点多,阿里云才开始正式处理,不知道中间这两个小时在干什么,可能他们觉得是用户的问题,什么参数没有配置对,等五点半开始看的时候发现真的崩了,五点半开始给我打了四五个电话,都是阿里云的工程师直接联系我,让提供上传的文档,截图,代码,API开发过程,想要复现问题,但我不理解直接工程师本地复现不就行吗。

经过一个多小时,我都下班回家了,工程师又打来电话让试下有没有恢复,确实是好了,从早上崩溃到工单提报处理也有五六个小时的时间,真正问题定位处理用了一个多小时,在我们过往线上问题处理中,一个小时才能定位处理的事故,已经很严重了。

4. 退钱退钱

在周五提报工单时一直没有销毁实例,阿里云工程师打电话时也说先别销毁,想通过这个实例来复现问题,等晚上处理结束打电话通知我好了以后,我问了下今天宕机一天的费用怎么办,服务虽然不能用,但费用一点也没少扣,工程师说后续可以补偿,但也就没了后续。。。

周一想起来这事发现还没人联系我,就在之前的工单里继续询问,虽然没有多少钱,不过就这么点钱你们也不想处理,我只能自己催了。

中途又让我自己导出账单,自己进行核算,就暴脾气突然上来了,好好说就拖着不给好好解决,6块钱的代金券也是要了一整天,下午六点才确认回复,六点多连着打了两个电话让我关闭工单,可能是从周五一直拖到现在,影响到平均处理时长的考核KPI吧。

5. 说实话

上个月阿里云的大故障也不知道后续怎么处理的,反正没有我公司什么事,公司在阿里云上有三万多的资源,但用户量不大所以没有核算什么损失,阿里云也没有一点点动静,也是因为这些资源,使得很多云服务都得继续用阿里云的,可以说是深度绑定。这次故障之前也有很多小问题,提个工单也不怎么处理,后来索性点投诉才能继续推进。

这次问题让我感觉到阿里云处理能力挺差的

  1. 像AI这类新业务没有主动检测预警:正常这些大的业务板块都会有服务检测,监控接口或者日志等数据,在用户感知之前就能同步响应到阿里云后台,这次崩了这么久也没当回事,应该就是没什么人用,提了工单也没当回事,第一反应是用户的使用问题,后来发现真的报错了才慌了(后来多次打电话时语气有点焦急)
  2. 线上事故处理能力差:在工单里我已经很详细的描述了问题,但他们还是啰嗦的要了各种截图,文件,代码来复现,其实自己连上去就可以操作,反复咨询用户只会让人觉得很不专业。
  3. 用户补偿机制不完善:或者说国内这些厂商也没想着补偿用户,发现问题第一反应是:就你事多,我们已经给你处理了,你还想怎么样呢,如果我不去要补偿,可能也不会再去联系我,毕竟多一事不如少一事。

这篇关于阿里云OpenSearch-LLM智能问答故障的一天的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/543251

相关文章

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

智能交通(二)——Spinger特刊推荐

特刊征稿 01  期刊名称: Autonomous Intelligent Systems  特刊名称: Understanding the Policy Shift  with the Digital Twins in Smart  Transportation and Mobility 截止时间: 开放提交:2024年1月20日 提交截止日

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

单片机毕业设计基于单片机的智能门禁系统的设计与实现

文章目录 前言资料获取设计介绍功能介绍程序代码部分参考 设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订

【多系统萎缩患者必看】✨维生素补充全攻略,守护你的健康每一天!

亲爱的朋友们,今天我们要聊一个既重要又容易被忽视的话题——‌多系统萎缩患者如何科学补充维生素‌!🌟 在这个快节奏的生活中,健康成为了我们最宝贵的财富,而对于多系统萎缩(MSA)的患者来说,合理的营养补充更是维护身体机能、提升生活质量的关键一步。👇 🌈 为什么多系统萎缩患者需要特别关注维生素? 多系统萎缩是一种罕见且复杂的神经系统疾病,它影响身体的多个系统,包括自主神经、锥体外系、小脑及锥

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需