首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
deepseek专题
一文通透DeepSeek-V2(改造Transformer的中文模型):从DeepSeek LLM到DeepSeek-V2的MLA与MoE
前言 成就本文有以下三个因素 24年5.17日,我在我司一课程「大模型与多模态论文100篇」里问道:大家希望我们还讲哪些论文 一学员朋友小栗说:幻方发布的deepseek-v224年5.24日,我司一课程「大模型项目开发线上营1」里的一学员朋友问我:校长最近开始搞deepseek了吗?刚看了论文,没搞懂MLA那块的cache是怎么算的,我总觉得他的效果应该类似MQA才对,但是反馈是挺好的 我当
阅读更多...
DeepSeek 数学大模型现可一键部署!LongWriter-6k数据集上线,助力大模型万字长文输出
公共资源速递 This Weekly Snapshots ! 5 个数据集: * LongWriter-6k 长上下文输出数据集 * Yoga-16 人体瑜伽动作图像数据集 * HUST-OBS 甲骨文识别数据集 * UAVDT 无人机目标检测追踪视频数据集 * SWE-bench Verified 代码生成评估基准 1 个模型: * DeepSeek-Prover-V1.5-R
阅读更多...
不用写一行代码,deepseek结合腾讯云语音识别来批量转录Mp3音频
首先,打开window系统中的cmd命令行工具,或者powershell,安装腾讯云tencentcloud的Python库 pip install -i https://mirrors.tencent.com/pypi/simple/ --upgrade tencentcloud-sdk-python 然后,开通腾讯云的对象存储COS服务, 把要转录成文本的mp3音频文件上
阅读更多...
AI网络爬虫:用deepseek批量提取gptstore.ai上的gpts数据
网站首页:https://gptstore.ai/gpts/categories/finance 翻页规律如下: https://gptstore.ai/_next/data/S9vKNrHo4K82xWjuXpw-O/en/gpts/categories/finance.json?slug=finance&page=2 https://gptstore.ai/_next/data/
阅读更多...
深度求索DeepSeek-Coder-V2:打破代码智能闭源模型的障碍
DeepSeek(深度求索)成立于2023年,是一家致力于让AGI成为现实的中国公司。 DeepSeek-Coder-V2,这是一种开源专家混合 (MoE) 代码语言模型,它在特定于代码的任务中实现了与 GPT4-Turbo 相当的性能。具体来说,DeepSeek-Coder-V2 是通过 DeepSeek-Coder-V2-Base 使用来自高质量、多源语料库的 6 万亿个代币进行进一步预
阅读更多...
开源的代码语言模型DeepSeek-Coder-V2;Runway推出Gen-3;多层架构整合多个大语言模型;大规模钢琴手部动作数据集和基准
✨ 1: DeepSeek-Coder-V2 开源的多专家代码语言模型,支持338种编程语言。 DeepSeek-Coder-V2 是一个开源的代码语言模型,专为代码生成、代码补全、代码修复以及数学推理等任务而设计。该模型通过在大量高质量的多源语料库上进一步训练,显著提升了其在代码生成和数学推理方面的能力,同时在一般语言任务中的表现也保持在同等水平。DeepSeek-Coder-V2
阅读更多...
DeepSeek-V2-Chat多卡推理(不考虑性能)
@TOC 本文演示了如何使用accelerate推理DeepSeek-V2-Chat(裁剪以后的模型,仅演示如何将权值拆到多卡) 代码 import torchfrom transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfigfrom accelerate import init_empty_wei
阅读更多...
【Unity+AI01】在Unity中调用DeepSeek大模型!实现AI对话功能!
要在Unity中调用DeepSeek的API并实现用户输入文本后返回对话的功能,你需要遵循以下步骤: 获取API密钥: 首先,你需要从DeepSeek获取API密钥。这通常涉及到注册账户,并可能需要订阅相应的服务。 集成HTTP请求库: Unity本身不直接支持HTTP请求,因此你需要集成一个HTTP请求库,如UnityWebRequest或第三方库如LitJson、Newtonsoft
阅读更多...
在Unity中调用DeepSeek的API并实现用户输入文本后返回对话
要在Unity中调用DeepSeek的API并实现用户输入文本后返回对话的功能,你需要遵循以下步骤: 获取API密钥: 首先,你需要从DeepSeek获取API密钥。这通常涉及到注册账户,并可能需要订阅相应的服务。 集成HTTP请求库: Unity本身不直接支持HTTP请求,因此你需要集成一个HTTP请求库,如UnityWebRequest或第三方库如LitJson、Newtonsoft.J
阅读更多...
基于 vLLM 搭建 DeepSeek-V2 Chat 服务
直奔主题。 安装vLLM 官方实现的代码还没有 merge 到 vLLM 主分支,所以直接 git clone DeepSeek 的分支。 git clone https://github.com/zwd003/vllm.gitcd vllmpip install -e . 源码安装大概耗时 10 分钟。 OpenAI 接口规范启动 官方 Github 放的是单条推理代码,如果需
阅读更多...
DeepSeek API文档:创建对话补全的指南
DeepSeek平台不仅提供了一个用户友好的聊天界面,还为开发者提供了强大的API接口,使他们能够创建和集成智能对话补全功能。以下是关于如何使用DeepSeek API创建对话补全的详细介绍。 DeepSeek API概述 DeepSeek的API允许开发者通过编程方式与DeepSeek的MoE模型进行交互,实现自定义的对话生成和补全。这为构建聊天机器人、虚拟助手或其他需要自然语言处理的应用
阅读更多...
deepseek-coder模型量化
1 简介 DeepSeek-Coder在多种编程语言和各种基准测试中取得了开源代码模型中最先进的性能。 为尝试在开发板进行部署,首先利用llama.cpp对其进行量化。 2 llama.cpp安装 git clone之后进入文件夹make即可,再将依赖补全pip install -r requirements.txt 3 量化 按照GitHub上DeepSeek和llama.
阅读更多...
DeepSeek发布多模态大型语言模型DeepSeek-VL,技术创新性突出
近日,DeepSeek团队发布了一项创新性突出的多模态大型语言模型DeepSeek-VL。该模型参数规模为1.3B和6.7B,采用了创新的联合视觉和语言预训练方法,旨在解决传统的单模态预训练方法的局限性。 DeepSeek-VL在数据准备、模型架构和训练方法等多方面都有创新工作。在数据准备方面,采用了策略性数据采样方法,平衡了多模态数据和纯文本数据的比例,避免影响语言模型原有的语言理解能力。在模型
阅读更多...
3月12日 工作记录 DeepSeek-VL阅读笔记
昨天考完试,晚上把那个讨人厌的项目做了阶段结果给合作者展示去了,然后就看到deepseek发布了vision language的技术报告,于是打算今天上午看看。 DeepSeek VL 很多内容直接翻译自其 DeepSeek-VL,下面的我们指的的是deepseek vl的作者。 数据构建 预训练数据 我们努力确保我们的数据是多样化的,可扩展的,并广泛覆盖现实世界的场景,包括web
阅读更多...
国产DeepSeek Coder 33B开源:创新代码AI,性能优于CodeLlama
引言 近日,国产AI领域迎来了一项重大突破:DeepSeek团队正式发布了DeepSeek Coder 33B模型,这一基于最新人工智能技术的代码生成模型不仅完全开源,而且在多项评测中显示出优于同类产品CodeLlama的卓越性能。 Huggingface模型下载: https://huggingface.co/deepseek-ai AI快站模型免费加速下载: https://aifas
阅读更多...