Semantic Kernel 直接调用本地大模型与阿里云灵积 DashScope

本文主要是介绍Semantic Kernel 直接调用本地大模型与阿里云灵积 DashScope，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本文主要介绍如何在无需网关，无需配置 HttpClient 的情况下，使用 Semantic Kernel 直接调用本地大模型与阿里云灵积 DashScope 等 OpenAI 接口兼容的大模型服务。

1. 背景

一直以来，我们都在探索如何更好地利用大型语言模型（LLM）的能力。Semantic Kernel 作为一个微软开源的语义内核 SDK，它提供了一种高效的方式让用户可以在自己的应用程序中集成大语言模型 (LLM) 的强大功能。

同时，随着 OpenAI 的发展，其接口调用方式已被广泛采用和认可，成为了众多大型语言模型的标准接口或兼容标准。在 .Net 使用的 OpenAI 库，大家之前一直广泛使用的是 Azure.AI.OpenAI ，但是因为设计上的一些限制，我们无法直接调用本地大模型或者一些兼容 OpenAI 接口的大模型服务。因为内部审计，统一管理，成本分摊，无法直接访问或自建服务等原因，可以方便的修改服务地址，一直是大家的迫切需求。

近期 OpenAI 正式发布了第一个官方 .NET 版的测试 SDK，Azure.AI.OpenAI 的 2.x 版本，这个版本的 SDK 也将基于这个新的 SDK 进行开发。但是目前这个 SDK 还处于测试阶段。

在这里插入图片描述

在之前的文章中，我也介绍了如何在 Semantic Kernel 中使用本地大模型的临时方案。当前随着 Semantic Kernel 的不断完善，我们有了更方便的方式来调用本地大模型与阿里云灵积 DashScope 等一些兼容 OpenAI 接口的大模型服务。

2. 本地服务

相信大家都有自己的本地大模型服务，或者是一些兼容 OpenAI 接口的大模型服务。本地大模型部署的方式有很多种，也越来越简单，我们可以方便的使用 Ollama、llama-server（llama.cpp）等开源项目，来运行 Llama 3， Phi 3， Qwen2， Mistral，Gemma 等流行的大模型。

在这里我介绍一下我近期的一个开源项目 LLamaWorker，一个基于 LLamaSharp 的 ASP.NET 项目，提供 OpenAI 兼容的接口，感兴趣的同学可以了解一下。

虽然都是开源项目，但相比较而言，Ollama 更适合普通用户。而 llama.cpp 和 LLamaWorker 更适合开发者，可以更方便的进行二次开发和项目集成。

3. 代码实现

在 Semantic Kernel 中，提供了一个实验性的功能，在 OpenAI 连接器中提供了自定义服务端点的功能。这个功能可以让我们直接调用本地大模型或者一些兼容 OpenAI 接口的大模型服务。

我们可以通过 AddOpenAIChatCompletion() 创建自定义的 OpenAI 服务。对于

var services = new ServiceCollection();
services.AddKernel();
services.AddOpenAIChatCompletion("qwen-long", new Uri("https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions"), "you key");