x265中量化函数neon汇编实现分析

2024-04-12 05:44

本文主要是介绍x265中量化函数neon汇编实现分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

// uint32_t quant_c(const int16_t* coef, const int32_t quantScale, int32_t* deltaU, int16_t* qCoef, int qBits, int add, int numCoeff)
function x265_quant_neon
    mov             w9, #1  //x9的低32位 = 1
    lsl             w9, w9, w4 //w9 = 1 << qBits;
    dup             v0.2s, w9 //16bits为单位 = w9 2s ? 
    neg             w9, w4 //w4 = 0 - w9
    dup             v1.4s, w9 //v1, 4字节signed = w9
    add             w9, w9, #8 //w8 += 8
    dup             v2.4s, w9 //v2 4字节signed = w9
    dup             v3.4s, w5 //v3 4字节signed = w5 参数add
    
    mov                w11, w1 //w11 = w1 //w11 = quantScale

    lsr             w6, w6, #2 //w6 = w6 >> 2 numCoeff 参数, 一组4个系数
    eor             v4.16b, v4.16b, v4.16b //v4 = 0
    eor             w10, w10, w10 //w10 = 0;
    eor             v17.16b, v17.16b, v17.16b //v17 = 0

.loop_quant:

    ld1             {v18.4h}, [x0], #8 //coef 加载 4个系数,到v18的低64位
    //ld1             {v7.4s}, [x1], #16
    dup             v7.4s, w11 //v7 4字节为单位的signed = quantScale
    sxtl            v6.4s, v18.4h //v18 本来是16bits extern 到 32bits 存入v6

    cmlt            v5.4s, v6.4s, #0 //v5的值小于寄存器v6的值,判断v6 系数是否 > 0

    abs             v6.4s, v6.4s //求绝对值


    mul             v6.4s, v6.4s, v7.4s //系数 = 系数 * qscale  int tmplevel = abs(level) * quantScale;

    add             v7.4s, v6.4s, v3.4s //得到的结果加上偏移, tmplevel += add
    sshl            v7.4s, v7.4s, v1.4s //逻辑左移 qBits 位 

    mls             v6.4s, v7.4s, v0.s[0] //level << qBits  level <<= qBits 存入v6
    sshl            v16.4s, v6.4s, v2.4s //level << qBits >> qBits8 左移 -qBits8 >> 右移qBits8
    st1             {v16.4s}, [x2], #16 //deltaU[blockpos] = ((tmplevel - (level << qBits)) >> qBits8); 数据存入deltaU

    // numsig
    cmeq            v16.4s, v7.4s, v17.4s //v7和v17做比较,结果存储到v16, v17 = 0在这里 
    add             v4.4s, v4.4s, v16.4s //系数个数累加 
    add             w10, w10, #4 //处理了四个系数 

    // level *= sign
    eor             v16.16b, v7.16b, v5.16b //符号位通过异或  这里是相当于取反
    sub             v16.4s, v16.4s, v5.4s // 然后加1
    sqxtn           v5.4h, v16.4s //v16 4字节宽,缩小到2字节, 存储到v5
    st1             {v5.4h}, [x3], #8 //存入量化后的系数,数组 

    subs            w6, w6, #1 //w6 = w6 - 1  处理完一组4个系数
    b.ne             .loop_quant

    addv            s4, v4.4s
    mov             w9, v4.s[0]
    add             w0, w10, w9
    ret
endfunc

这篇关于x265中量化函数neon汇编实现分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/896265

相关文章

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

hdu1171(母函数或多重背包)

题意:把物品分成两份,使得价值最接近 可以用背包,或者是母函数来解,母函数(1 + x^v+x^2v+.....+x^num*v)(1 + x^v+x^2v+.....+x^num*v)(1 + x^v+x^2v+.....+x^num*v) 其中指数为价值,每一项的数目为(该物品数+1)个 代码如下: #include<iostream>#include<algorithm>

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

Kubernetes PodSecurityPolicy:PSP能实现的5种主要安全策略

Kubernetes PodSecurityPolicy:PSP能实现的5种主要安全策略 1. 特权模式限制2. 宿主机资源隔离3. 用户和组管理4. 权限提升控制5. SELinux配置 💖The Begin💖点点关注,收藏不迷路💖 Kubernetes的PodSecurityPolicy(PSP)是一个关键的安全特性,它在Pod创建之前实施安全策略,确保P

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者