LLM生成模型在生物基因DNA应用:HyenaDNA

2024-04-14 17:04

本文主要是介绍LLM生成模型在生物基因DNA应用:HyenaDNA,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考:
https://github.com/HazyResearch/hyena-dna

整体框架基本就是GPT模型架构
不一样的就是𝖧𝗒𝖾𝗇𝖺𝖣𝖭𝖠 block ,主要是GPT的多重自注意力层引入了cnn在这里插入图片描述在这里插入图片描述

特征向量提取

# python huggingface.py

#@title Single example
import json
import os
import subprocess
# import transformers
from transformers import PreTrainedModeldef inference_single():'''this selects which backbone to use, and grabs weights/ config from HF4 options:'hyenadna-tiny-1k-seqlen'   # fine-tune on colab ok'hyenadna-small-32k-seqlen''hyenadna-medium-160k-seqlen'  # inference only on colab'hyenadna-medium-450k-seqlen'  # inference only on colab'hyenadna-large-1m-seqlen'  # inference only on colab'''# you only need to select which model to use here, we'll do the rest!pretrained_model_name = 'hyenadna-small-32k-seqlen'max_lengths = {'hyenadna-tiny-1k-seqlen': 1024,'hyenadna-small-32k-seqlen': 32768,'hyenadna-medium-160k-seqlen': 160000,'hyenadna-medium-450k-seqlen': 450000,  # T4 up to here'hyenadna-large-1m-seqlen': 1_000_000,  # only A100 (paid tier)}max_length = max_lengths[pretrained_model_name]  # auto selects# data settings:use_padding = Truerc_aug = False  # reverse complement augmentationadd_eos = False  # add end of sentence token# we need these for the decoder head, if usinguse_head = Falsen_classes = 2  # not used for embeddings only# you can override with your own backbone config here if you want,# otherwise we'll load the HF one in Nonebackbone_cfg = Nonedevice = 'cuda' if torch.cuda.is_available() else 'cpu'print("Using device:", device)# instantiate the model (pretrained here)if pretrained_model_name in ['hyenadna-tiny-1k-seqlen','hyenadna-small-32k-seqlen','hyenadna-medium-160k-seqlen','hyenadna-medium-450k-seqlen','hyenadna-large-1m-seqlen']:# use the pretrained Huggingface wrapper insteadmodel = HyenaDNAPreTrainedModel.from_pretrained('./checkpoints',pretrained_model_name,download=True,config=backbone_cfg,device=device,use_head=use_head,n_classes=n_classes,)# from scratchelif pretrained_model_name is None:model = HyenaDNAModel(**backbone_cfg, use_head=use_head, n_classes=n_classes)# create tokenizertokenizer = CharacterTokenizer(characters=['A', 'C', 'G', 'T', 'N'],  # add DNA characters, N is uncertainmodel_max_length=max_length + 2,  # to account for special tokens, like EOSadd_special_tokens=False,  # we handle special tokens elsewherepadding_side='left', # since HyenaDNA is causal, we pad on the left)#### Single embedding example ##### create a sample 450k long, preparesequence = 'ACTG' * int(max_length/4)tok_seq = tokenizer(sequence)tok_seq = tok_seq["input_ids"]  # grab ids# place on device, convert to tensortok_seq = torch.LongTensor(tok_seq).unsqueeze(0)  # unsqueeze for batch dimtok_seq = tok_seq.to(device)# prep model and forwardmodel.to(device)model.eval()with torch.inference_mode():embeddings = model(tok_seq)print(embeddings.shape)  # embeddings here!# # uncomment to run! (to get embeddings)
inference_single()

这篇关于LLM生成模型在生物基因DNA应用:HyenaDNA的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/903536

相关文章

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

浅析如何使用Swagger生成带权限控制的API文档

《浅析如何使用Swagger生成带权限控制的API文档》当涉及到权限控制时,如何生成既安全又详细的API文档就成了一个关键问题,所以这篇文章小编就来和大家好好聊聊如何用Swagger来生成带有... 目录准备工作配置 Swagger权限控制给 API 加上权限注解查看文档注意事项在咱们的开发工作里,API

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

Java使用POI-TL和JFreeChart动态生成Word报告

《Java使用POI-TL和JFreeChart动态生成Word报告》本文介绍了使用POI-TL和JFreeChart生成包含动态数据和图表的Word报告的方法,并分享了实际开发中的踩坑经验,通过代码... 目录前言一、需求背景二、方案分析三、 POI-TL + JFreeChart 实现3.1 Maven

本地私有化部署DeepSeek模型的详细教程

《本地私有化部署DeepSeek模型的详细教程》DeepSeek模型是一种强大的语言模型,本地私有化部署可以让用户在自己的环境中安全、高效地使用该模型,避免数据传输到外部带来的安全风险,同时也能根据自... 目录一、引言二、环境准备(一)硬件要求(二)软件要求(三)创建虚拟环境三、安装依赖库四、获取 Dee

DeepSeek模型本地部署的详细教程

《DeepSeek模型本地部署的详细教程》DeepSeek作为一款开源且性能强大的大语言模型,提供了灵活的本地部署方案,让用户能够在本地环境中高效运行模型,同时保护数据隐私,在本地成功部署DeepSe... 目录一、环境准备(一)硬件需求(二)软件依赖二、安装Ollama三、下载并部署DeepSeek模型选

5分钟获取deepseek api并搭建简易问答应用

《5分钟获取deepseekapi并搭建简易问答应用》本文主要介绍了5分钟获取deepseekapi并搭建简易问答应用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需... 目录1、获取api2、获取base_url和chat_model3、配置模型参数方法一:终端中临时将加

JavaScript中的isTrusted属性及其应用场景详解

《JavaScript中的isTrusted属性及其应用场景详解》在现代Web开发中,JavaScript是构建交互式应用的核心语言,随着前端技术的不断发展,开发者需要处理越来越多的复杂场景,例如事件... 目录引言一、问题背景二、isTrusted 属性的来源与作用1. isTrusted 的定义2. 为