山东大学软件学院创新项目实训开发日志——第10周

2024-05-05 17:04

本文主要是介绍山东大学软件学院创新项目实训开发日志——第10周,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

山东大学软件学院创新项目实训开发日志——第10周

项目名称:ModuFusion Visionary:实现跨模态文本与视觉的相关推荐

-------项目目标:

  • 本项目旨在开发一款跨模态交互式应用,用户可以上传图片或视频,并使用文本、点、框等提示,精确分割出图片或视频中指定的物体,或者无提示地分割出所有物体。
  • 基于分割出的物体,用户可以选择生成感兴趣的其他图片或视频。
  • 内置推荐算法可以自动根据分割结果,推荐与之相关的信息。

本周完成的任务

1、添加了项目新功能:图生图
(1)所依赖模型:Stable-Diffusion
  • Stable-Diffusion在具有“文生图”功能的同时,也提供了“图生图”功能。
  • 并且“图生图”可以加入文本对其修改方向进行控制,具有一定的可控度。
  • 模型部署在服务器上,本地通过将指定指令上传到服务器,服务器将生成结果写回本地,再传给前端展示。
    在这里插入图片描述
(2)功能概述:
  • 用户点击侧边栏的“Generate”选项,即可进入图生图界面,用户可以在这里根据之前上传的图片生成与之相关的图片。
  • 提供了“Strength”拖动条,用户可以选择合适的“strength”参数,用于控制生成的图片相对于原图片的变化幅度。
  • 当用户不给予任何文本提示时,默认对原图片进行内容抽象;当用户给予文本提示时,会在原图片的基础上修改文本提示的内容。
(3)功能示例:

对于下面这张图片,当我们希望改变图中女人的穿着时,输入文本提示,“the woman wears a red shirt”,同时设置“strength”为0.75,生成的图片中女人便穿上了“red shirt”。
原图
生成图

2、优化了图片分析功能

之前的图片分析功能是,当点击侧边栏的“Analyze”时,便自动开始对图片进行分析,期间将陷入很长时间的等待,这对于用户的体验非常不好,因为在此期间并不能看到分析界面究竟是什么样子,因此对其进行了功能分离:

  • 当点击“Analyze”时,不再是直接陷入处理等待,而是进入"Analyze"界面。
  • "Analyze"界面展示用户上传的图片,并提供了操作提示,引导用户进行操作。
  • 用户可以点击“分析”按钮,对图片内容进行分析,分析结果将展示出来。
  • 用户可以根据分析的结果点击“Recommend”按钮,系统将为其推荐相关图片。
  • 添加了功能:用户可以自行输入文本,系统将根据用户输入的文本内容进行推荐,即实现“文生图”的裸自由性。

在这里插入图片描述

3、区别:

新功能“图生图”可以输入文本内容进行生成,而图片分析那里也可以输入文本内容进行生成,这两者有什么区别呢?

  • “图生图”侧重在于根据原始图片的内容进行生成,生成的新图片都是在原图片的基础上改变的。
  • 图片分析那里的图片生成则是纯粹的“文生图”。

下一阶段工作计划

  • 优化当前界面响应逻辑,处理当前存在的小bug。
  • 尽快部署完成视频帧定位功能。

这篇关于山东大学软件学院创新项目实训开发日志——第10周的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/962203

相关文章

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

如何用Docker运行Django项目

本章教程,介绍如何用Docker创建一个Django,并运行能够访问。 一、拉取镜像 这里我们使用python3.11版本的docker镜像 docker pull python:3.11 二、运行容器 这里我们将容器内部的8080端口,映射到宿主机的80端口上。 docker run -itd --name python311 -p

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

OpenHarmony鸿蒙开发( Beta5.0)无感配网详解

1、简介 无感配网是指在设备联网过程中无需输入热点相关账号信息,即可快速实现设备配网,是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理 手机和智能设备之间的信息传递,利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力,实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后,即可发送相关配网数据。同时还支持与常规Sof

活用c4d官方开发文档查询代码

当你问AI助手比如豆包,如何用python禁止掉xpresso标签时候,它会提示到 这时候要用到两个东西。https://developers.maxon.net/论坛搜索和开发文档 比如这里我就在官方找到正确的id描述 然后我就把参数标签换过来

在cscode中通过maven创建java项目

在cscode中创建java项目 可以通过博客完成maven的导入 建立maven项目 使用快捷键 Ctrl + Shift + P 建立一个 Maven 项目 1 Ctrl + Shift + P 打开输入框2 输入 "> java create"3 选择 maven4 选择 No Archetype5 输入 域名6 输入项目名称7 建立一个文件目录存放项目,文件名一般为项目名8 确定

软件设计师备考——计算机系统

学习内容源自「软件设计师」 上午题 #1 计算机系统_哔哩哔哩_bilibili 目录 1.1.1 计算机系统硬件基本组成 1.1.2 中央处理单元 1.CPU 的功能 1)运算器 2)控制器 RISC && CISC 流水线控制 存储器  Cache 中断 输入输出IO控制方式 程序查询方式 中断驱动方式 直接存储器方式(DMA)  ​编辑 总线 ​编辑

Linux_kernel驱动开发11

一、改回nfs方式挂载根文件系统         在产品将要上线之前,需要制作不同类型格式的根文件系统         在产品研发阶段,我们还是需要使用nfs的方式挂载根文件系统         优点:可以直接在上位机中修改文件系统内容,延长EMMC的寿命         【1】重启上位机nfs服务         sudo service nfs-kernel-server resta

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。