本文主要是介绍[总结] 视频广告秒级语义解析 代码总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
0. 目录
1. 环境配置
1.0 环境配置:
pip install tensorflow==1.14
pip install scenedetect[opencv] #分割镜头的时候用到
pip install baidu-aip
1.1 链接数据集
将 VideoStructuring/dataset 链接到主目录 /home/tione/notebook/algo-2021/dataset
!ln -s /home/tione/notebook/algo-2021/dataset /home/tione/notebook/VideoStructuring/dataset
2. 视频时序分割 模型训练
对于structuring任务,训练需要分为两步,视频切分与标签预测。
对于视频切分,需要完成特征提取(./run.sh seg_extract)与数据集生成(./run.sh seg_gt)两项任务。
为了简化操作,baseline已完成了前置步骤,用户可以直接使用下列脚本进行视频切分模型的训练。
训练完成后,模型存在于VideoStructuring/SceneSeg/run/目录下。
!sudo chmod a+x ./run.sh && ./run.sh seg_train
3. 视频幕多标签分类 模型预测
对于标签预测,需要完成 特征提取(./run.sh tag_extract)与 数据集生成(./run.sh tag_gt)两项任务。
为了简化操作,baseline已完成了前置步骤,用户可以直接使用下列脚本进行 视频标签模型 的训练。
训练完成后,模型存在于VideoStructuring/MultiModal-Tagging/checkpoints/目录下。
!sudo chmod a+x ./run.sh && ./run.sh tag_train
4. 模型测试
Baseline的测试可以直接使用 ./run.sh test [CHECKPOINT_DIR] 进行,成功执行后会在VideoStructuring/MultiModal-Tagging/results/目录下生成 structuring_tagging_5k.json结果文件。
提交这个文件就可以参与排名。
注意: ./run.sh test 也分为 视频切分 与 标签预测 两个步骤,视频切分的时间比较长(32小时左右),用户可以尝试进行优化,标签预测的时间在30分钟左右。
!sudo chmod a+x ./run.sh && ./run.sh test checkpoints/structuring_train5k/export/step_7000_0.7875
这篇关于[总结] 视频广告秒级语义解析 代码总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!