llms专题

大语言模型(LLMs)能够进行推理和规划吗?

大语言模型(LLMs),基本上是经过强化训练的 n-gram 模型,它们在网络规模的语言语料库(实际上,可以说是我们文明的知识库)上进行了训练,展现出了一种超乎预期的语言行为,引发了我们的广泛关注。从训练和操作的角度来看,LLMs 可以被认为是一种巨大的、非真实的记忆库,相当于为我们所有人提供了一个外部的系统 1(见图 1)。然而,它们表面上的多功能性让许多研究者好奇,这些模型是否也能在通常需要系

AI 大模型企业应用实战(10)-LLMs和Chat Models

1 模型 来看两种不同类型的模型--LLM 和聊天模型。然后,它将介绍如何使用提示模板来格式化这些模型的输入,以及如何使用输出解析器来处理输出。 LangChain 中的语言模型有两种类型: 1.1 Chat Models 聊天模型通常由 LLM 支持,但专门针对会话进行了调整。提供者 API 使用与纯文本补全模型不同的接口。它们的输入不是单个字符串,而是聊天信息列表,输出则是一条人工智能

AI推介-大语言模型LLMs论文速览(arXiv方向):2024.06.05-2024.06.10

文章目录~ 1.Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation2.Reasoning in Token Economies: Budget-Aware Evaluation of LLM Reasoning Strategies3.Low-Rank Quantization-Aware Tra

UniAudio 1.5:大型语言模型(LLMs)驱动的音频编解码器

大型语言模型(LLMs)在文本理解和生成方面展示了卓越的能力,但它们不能直接应用于跨模态任务,除非进行微调。本文提出了一种跨模态上下文学习方法,使未进行进一步训练的LLMs能够在少量示例的情况下,无需任何参数更新就能完成多种音频任务。核心思想是通过将音频模态压缩到训练有素的LLMs的令牌空间中,减少文本和音频之间的模态异质性。这样,音频表示可以被视为一种新的语言,LLMs可以通过几个

Redis作者长文总结LLMs, 能够取代99%的程序员

引言 这篇文章并不是对大型语言模型(LLMs)的全面回顾。很明显,2023年对人工智能而言是特别的一年,但再次强调这一点似乎毫无意义。相反,这篇文章旨在作为一个程序员个人的见证。自从ChatGPT问世,以及后来使用本地运行的LLMs,我广泛使用了这项新技术。目的是加速编写代码的能力,但这并非唯一目的。还有一个意图是不在编程的不值得花费精力的方面浪费精神能量。无数小时花在寻找关于特殊、智力上不感兴

如何高效使用大型语言模型 LLMs 初学者版本 简单易上手

第一条也是最重要的一条规则是 永远不要要求LLM提供你无法自己验证的信息, 或让它完成你无法验证其正确性的任务。 唯一例外的情况是那些无关紧要的任务, 例如,让大型语言模型提供公寓装修灵感之类的是可以的 。 首先请看两个范例 不佳示范:“使用文献综述最佳实践,总结过去十年乳腺癌的研究成果。” (这是一个不够好的请求,因为我们无法直接检查它是否正确地总结了文献。) 较好的示范:“给我

LLMs:《A Decoder-Only Foundation Model For Time-Series Forecasting》的翻译与解读

LLMs:《A Decoder-Only Foundation Model For Time-Series Forecasting》的翻译与解读 导读:本文提出了一种名为TimesFM的时序基础模型,用于零样本学习模式下的时序预测任务。 背景痛点:近年来,深度学习模型在有充足训练数据的情况下已成为时序预测的主流方法,但这些方法通常需要独立在每个数据集上训练。同时,自然语言处理领域的大规模预训练

QLoRA:高效的LLMs微调方法,48G内存可调65B 模型

文章:https://arxiv.org/pdf/2305.14314.pdf代码:https://github.com/artidoro/qlora 概括 QLORA是一种有效的微调方法,它减少了内存使用,足以在单个48GB GPU上微调65B参数模型,同时保留完整的16位微调任务性能。QLORA通过冻结的4位量化预训练语言模型将梯度反向传播到低秩适配器(Low Rank Adapter

机器学习之Transformer模型和大型语言模型(LLMs)

Transformer模型和大型语言模型(LLMs)是现代自然语言处理(NLP)和人工智能(AI)领域的前沿技术。这些模型革新了机器理解和生成人类语言的方式,使得从聊天机器人和自动翻译到复杂的内容生成和情感分析的应用成为可能。 Transformer模型 概述 Transformer模型是现代自然语言处理(NLP)和深度学习领域的核心技术之一。它由Vaswani等人在2017年提出的论文《A

大型语言模型(LLMs)的后门攻击和防御技术

大型语言模型(LLMs)通过训练在大量文本语料库上,展示了在多种自然语言处理(NLP)应用中取得最先进性能的能力。与基础语言模型相比,LLMs在少样本学习和零样本学习场景中取得了显著的性能提升,这得益于模型规模的扩大。随着模型参数的增加和高质量训练数据的获取,LLMs更能识别语言中的固有模式和语义信息。     尽管部署语言模型有潜在的好处,但它们因易受对抗性攻击、越狱攻击和后门攻击的脆

LLMs,即大型语言模型

LLMs,即大型语言模型,是一类基于深度学习的人工智能模型,它们通过海量的数据和大量的计算资源进行训练,可以理解和生成自然语言。LLMs的核心架构是Transformer,其关键在于自注意力机制,使得模型能够同时对输入的所有位置进行“关注”,从而更好地捕捉长距离的语义依赖关系。      LLMs在众多领域都有广泛的应用,如自然语言理解(NLU),语言生成,以及语音识别和合成等。例如,

AI视频教程下载:用LangChain开发 ChatGPT和 LLMs 应用

在这个快速变化的人工智能时代,我们为您带来了一场关于语言模型和生成式人工智能的革命性课程。这不仅仅是一个课程,而是一次探险,一次深入人工智能核心的奇妙之旅。 在这里,您将开启一段激动人心的旅程,探索语言模型的奥秘和生成式人工智能的无限可能。从基础的**引言**开始,我们将带您领略人工智能的宏伟蓝图,然后深入到**语言模型简介**,让您对这一领域有一个全面的认识。 随着旅程的深入,您将学习到**

【Text2SQL 论文】How to prompt LLMs for Text2SQL

论文:How to Prompt LLMs for Text-to-SQL: A Study in Zero-shot, Single-domain, and Cross-domain Settings ⭐⭐⭐⭐ arXiv:2305.11853, NeurlPS 2023 Code: GitHub 一、论文速读 本文主要是在三种常见的 Text2SQL ICL settings 评估不

LLMs之Embedding:FlagEmbedding(一款用于微调/评估文本嵌入模型的工具)的简介、安装和使用方法、案例应用之详细攻略

LLMs之Embedding:FlagEmbedding(一款用于微调/评估文本嵌入模型的工具)的简介、安装和使用方法、案例应用之详细攻略 目录 FlagEmbedding的简介 1、该项目采用的原理主要包括: FlagEmbedding的安装和使用方法 1、安装 T1、使用pip T2、从源代码安装 T3、对于开发环境,请以可编辑模式安装: 2、使用方法 (1)、数据准备

LLMs Can’t Plan, But Can Help Planning in LLM-Modulo Frameworks

更多精彩内容,请关注微信公众号:NLP分享汇 原文链接:LLMs Can’t Plan, But Can Help Planning in LLM-Modulo Frameworks 你是怎么理解LLM的规划和推理能力呢,来自亚利桑那州立大学最近的一篇论文,对LLM的规划、推理能力提出了一些新看法。 在看这篇文章时,你不妨可以带入以下角色进行理解: 乐观型:认为只要采用了合适的提

[论文笔记]MemGPT: Towards LLMs as Operating Systems

引言 今天介绍一篇论文MemGPT: Towards LLMs as Operating Systems。翻过过来就是把LLM看成操作系统。 大语言模型已经在人工智能领域引起了革命性的变革,但受到有限上下文窗口的限制,在扩展对话和文档分析等任务中的效用受到了阻碍。为了能够利用超出有限上下文窗口的上下文,作者提出了虚拟上下文管理技术,这种技术受传统操作系统中层次化内存系统的启发,通过在物理内存和

LLMs之PEFT之Llama-2:《LoRA Learns Less and Forgets LessLoRA学得更少但遗忘得也更少》翻译与解读

LLMs之PEFT之Llama-2:《LoRA Learns Less and Forgets LessLoRA学得更少但遗忘得也更少》翻译与解读 导读:该论文比较了LoRA与完全微调在代码与数学两个领域的表现。 背景问题:微调大规模语言模型需要非常大的GPU内存。LoRA这一参数高效微调方法通过仅微调选择性权重矩阵的低秩扰动来节省内存。 解决方案:LoRA假设微调后的权重矩阵的变化可以近

大模型面试--大模型(LLMs)基础面

大模型(LLMs)基础面 1. 目前主流的开源模型体系有哪些? 目前主流的开源大模型体系有以下几种: 1. Transformer 系列 Transformer 模型是深度学习中的一类重要模型,尤其在自然语言处理(NLP)领域。以下是一些主流的 Transformer 模型: GPT 系列 GPT-2 和 GPT-3:由 OpenAI 开发的生成式预训练变换器模型,用于生成高质量的文本

LLMs的简单科普

LLMs指的是“Large Language Models”,即大语言模型。 首先,它是一个语言模型,是现代自然语言处理(Natural Language Processing, NLP)领域的核心组成部分,能够处理和理解大量的文本数据,并生成新的、有意义的文本。 其次,这是个大模型,建立在海量的数(语料库)训练基础之上。 这个“大”字才是模型的核心,威力的体现,其参数动辄十几亿甚至上万

『大模型笔记』Phidata 为LLMs添加了记忆、知识和工具!

Phidata 为LLMs添加了记忆、知识和工具! 文章目录 零. LLM OS一. 什么是 Phidata?二. 为什么选择 phidata?三. 工作原理四. 参考文献 零. LLM OS 基于 GPT-4o 实现的 LLM OS 形态如下:1. GPT-4o 作为内核 - 操作系统2. 模型调用计算资源:Tools,结合 Memory3. 可以读写内容、世界知识、访

【LangChain系列 15】语言模型——LLMs(一)

原文地址:【LangChain系列 15】语言模型——LLMs(一) 本文速读: 异步API 自定义LLM Fake LLM HumanInput LLM 本文将介绍LLMs在LangChain中的一些用法,帮助我们更好地了解LLM模块。 01 异步API LangChain通过异步库实现了对异步的支持,异步对于多LLM的并发调用是非常有用的。目前,OpenAI、P

深入探讨利用大型语言模型的力量的策略 (LLMs)

Note:  提示词工程是一门融合了艺术和科学的学科——它既是对技术的理解,也是对创造力和战略思维的理解。 本文为对LLMS策略分享内容学习后的整理,尝试抛开网上广泛讨论和记录的传统提示词工程技术,展示通过实验学到的新见解,以及对理解和处理某些技术的不同的一些看法。 目录 本文涵盖以下内容,其中 🔵 指适合初学者的提示技巧,而 🔴 指高级策略: 1. [🔵] 使用 CO-STAR 框

LLMs之GPT4ALL:GPT4ALL的简介、安装和使用方法、案例应用之详细攻略

LLMs之GPT4ALL:GPT4ALL的简介、安装和使用方法、案例应用之详细攻略 目录 GPT4ALL的简介 0、新功能 1、特点 2、功能 3、技术报告 GPT4ALL的安装和使用方法 1、安装 2、使用方法 GPT4ALL的案例应用 LLMs之LLaMA3:基于GPT4ALL框架对LLaMA-3实现模型部署并推理—通过加载训练后LLaMA-3的gguf模型文件然

如何使用提示测试为LLMs构建单元测试?

原文地址:how-to-build-unit-tests-for-llms-using-prompt-testing 确保您的人工智能交付:快速测试完美生成应用程序的基本指南 2024 年 4 月 26 日 如果你曾经编写过软件,你就会知道测试是开发过程中必不可少的一部分。特别是单元测试,它是一种强大的技术,开发人员在编写代码时要测试小的、孤立的功能片段。通过编写全面的单元测试,你可以及

LLMs之MiniCPM:MiniCPM(揭示端侧大语言模型的无限潜力)的简介、安装和使用方法、案例应用之详细攻略

LLMs之MiniCPM:MiniCPM(揭示端侧大语言模型的无限潜力)的简介、安装和使用方法、案例应用之详细攻略 目录 MiniCPM的简介 0、更新日志 1、公开的模型 2、局限性 3、文本模型评测 越级比较: 同级比较: Chat模型比较: DPO后模型比较: MiniCPM-2B-128k 模型评测 MiniCPM-MoE-8x2B模型评测 多模态模型

把私有数据接入 LLMs:应用程序轻松集成 | 开源日报 No.236

run-llama/llama_index Stars: 29.9k License: MIT llama_index 是用于 LLM 应用程序的数据框架。 该项目解决了如何最佳地利用私有数据增强 LLMs,并提供以下工具: 提供数据连接器,以摄取现有的数据源和各种格式(API、PDF、文档、SQL 等)。提供结构化数据的方式(索引、图形),使这些数据可以轻松与 LLMs 一起使用。在您