# 支持模型及下载

# 百度网盘下载地址

按需下载即可:https://pan.baidu.com/s/1dlZxWEMULnaietMDUJh38g?pwd=1234

# 人脸模型

# 人脸检测模型(FaceDetection、FaceLandmarkExtraction)

支持功能:

  • 人脸检测
  • 5点人脸关键点定位
模型名称 引擎 模型简介 模型开源网站
MTCNN(均衡) PyTorch 使用最广泛的模型之一,经典多阶段人脸检测,速度与精度均衡 Github (opens new window)
SeetaFace6(均衡模型) C++ 中科视拓最新开放的开源免费的全栈人脸识别工具包 Github (opens new window)
RetinaFace(高精度) PyTorch 基于单阶段检测的多尺度人脸检测 Github (opens new window)
RetinaFace_1080x720(高精度) OnnxRuntime 针对高分辨率图像优化的 RetinaFace 模型 Github (opens new window)
RetinaFace_640x640(高精度) OnnxRuntime 针对低分辨率图像优化的 RetinaFace 模型 Github (opens new window)
yolov5face_n_0.5_320x320(极速) OnnxRuntime YOLOv5 小型人脸检测模型,设计轻量,适合快速推理
yolov5face_m_640x640(极速) OnnxRuntime YOLOv5 中型人脸检测模型
UltraLightFastGenericFace(极速) PyTorch 针对边缘计算设备设计的轻量人脸检测模型 Github (opens new window)

# 人脸识别模型(FaceRecognition)

支持功能:

  • 人脸512维特征提取
  • 人脸对齐(人脸矫正)
  • 人脸特征比对(内积[IP]、欧氏距离[L2]、余弦相似度[COSINE])
模型名称 引擎 模型简介 模型开源网站
InsightFace_IR-SE50(高精度) PyTorch 这是对 ArcFace(论文)和 InsightFace(GitHub)的 PyTorch 重新实现 Github (opens new window)
InsightFace_Mobilefacenet(极速) PyTorch (轻量级)这是对 ArcFace(论文)和 InsightFace(GitHub)的 PyTorch 重新实现 Github (opens new window)
FaceNet(均衡) PyTorch 基于 PyTorch 的 Inception ResNet(V1)模型仓库 Github (opens new window)
ElasticFace(高精度) PyTorch 基于 CVPRW2022 论文《ElasticFace: Elastic Margin Loss for Deep Face Recognition》实现的人脸识别模型 Github (opens new window)
SeetaFace6(均衡) C++ 中科视拓最新开放的开源免费的全栈人脸识别工具包 Github (opens new window)

# 静态活体检测(RGB)模型(Silent face-anti-spoofing、FaceLivenessDetection)

支持功能:

  • 检测图片中的人脸是否为来自认证设备端的近距离裸拍活体人脸对象(裸拍活体正面人脸是指真人未经重度PS、风格化、人工合成等后处理的含正面人脸)
模型名称 引擎 模型简介 模型开源网站
MiniVision OnnxRuntime 小视科技的静默活体检测 Github (opens new window)
IIC_FL(cv_manual_face-liveness_flrgb) OnnxRuntime 阿里通义工作室人脸活体检测模型-RGB 魔塔 (opens new window)
SeetaFace6 C++ 中科视拓最新开放的开源免费的全栈人脸识别工具包 Github (opens new window)

# 人脸表情识别模型(FacialExpressionRecognition、fer)

支持功能:

  • 支持识别7种表情:neutral(中性)、happy(高兴)、sad(悲伤)、surprise(惊讶)、fear(恐惧)、disgust(厌恶)、anger(愤怒)
模型名称 引擎 模型简介 模型开源网站
DensNet121 PyTorch FaceLib的densnet121表情识别模型 Github (opens new window)
FrEmotion OnnxRuntime FaceRecognition-LivenessDetection-Javascript Github (opens new window)

# 人脸属性识别模型(GenderDetection、AgeDetection、EyeClosenessDetection、FacePoseEstimation)

支持功能:

  • 性别检测
  • 年龄检测
  • 闭眼检测
  • 人脸姿态检测
  • 戴口罩检测
模型名称 模型简介 模型开源网站
SeetaFace6 中科视拓最新开放的开源免费的全栈人脸识别工具包 Github (opens new window)

# 人脸质量评估模型(FaceQualityAssessment)

支持功能:

  • 亮度评估
  • 清晰度评估
  • 完整度评估
  • 姿态评估
  • 遮挡评估
模型名称 模型简介 模型开源网站
SeetaFace6 中科视拓最新开放的开源免费的全栈人脸识别工具包 Github (opens new window)

# 通用视觉模型

支持功能:

  • 自训练模型推理
  • yolov3~yolov12 系列

# 目标检测-YOLO 系列

模型名称 引擎 模型简介 模型开源网站
YOLOV12 OnnxRuntime 最流行的目标检测模型 Github (opens new window)
YOLOV11 OnnxRuntime 最流行的目标检测模型 Github (opens new window)
YOLOV8 OnnxRuntime 最流行的目标检测模型 Github (opens new window)

# 目标检测-Tensorflow系列

仅测试了以下Tensorflow目标检测模型

模型名称 引擎 模型简介 模型开源网站
EfficientDet Tensorflow Tensorflow目标检测 Github (opens new window)
SSD MobileNet V2 Tensorflow Tensorflow目标检测 Github (opens new window)
Faster RCNN Inception Resnet V2 Tensorflow Tensorflow目标检测 Github (opens new window)

# 目标检测-SSD 系列

模型名称 引擎 骨干网络 输入尺寸
训练数据集
精度(mAP)
推理速度
适用场景
SSD_300_RESNET5 PyTorch ResNet‑50 300×300 COCO 中等 精度需求一般
SSD_512_RESNET50_V1_VOC PyTorch ResNet‑50 512×512 Pascal VOC 稍高 中等 精度优先、可接受略低速度的场景
SSD_512_VGG16_ATROUS_COCO MXNet VGG‑16 512×512 COCO 较高 中等 通用场景;对小目标有一定提升
SSD_300_VGG16_ATROUS_VOC MXNet VGG‑16 300×300 Pascal VOC 中等偏上 VOC 数据集同类任务;资源受限时使用
SSD_512_MOBILENET1_VOC MXNet MobileNet‑1.0 512×512 Pascal VOC 中等 嵌入式/移动端设备;算力和内存都很有限

# 语义分割模型

模型名称 引擎 模型简介 模型开源网站
DeepLabv3 PyTorch DeepLabv3 是一种图像分割模型,可以把图片里的每个像素分类出来

# 实例分割模型

模型名称 引擎 模型简介 模型开源网站
YOLOV8-SEG OnnxRuntime Ultralytics在COCO 数据集 上训练的模型 Github (opens new window)
YOLOV11-SEG OnnxRuntime Ultralytics在COCO 数据集 上训练的模型 Github (opens new window)
Mask R-CNN MXNet Mask R-CNN 是一种在目标检测基础上,同时为每个物体生成像素级分割区域的深度学习模型

# OBB旋转框目标检测模型

模型名称 引擎 模型简介 模型开源网站
YOLOV11-OBB OnnxRuntime Ultralytics在DOTAv1 数据集 上训练的模型、通过引入一个额外的角度来更准确地定位图像中的对象 Github (opens new window)

# 行人检测模型

模型名称 引擎 模型开源网站
YOLOV8_PERSON OnnxRuntime Github (opens new window)

# 人类动作识别模型

模型名称 引擎
VIT_BASE_PATCH16 PyTorch
INCEPTIONV3_KINETICS400 OnnxRuntime
INCEPTIONV1_KINETICS400 OnnxRuntime
RESNET_V1B_KINETICS400 OnnxRuntime

# 姿态估计模型

模型名称 引擎 模型开源网站
YOLO11N-POSE OnnxRuntime Github (opens new window)
YOLO8N-POSE OnnxRuntime Github (opens new window)
SIMPLE_POSE MXNet

# OCR 模型

支持功能:

  • 支持简体中文、繁体中文、英文、日文四种主要语言
  • 手写、竖版、拼音、生僻字
  • 方向矫正

# 文本检测模型

模型名称 模型简介 模型开源网站
PP-OCRv5_server_det 服务端文本检测模型,精度更高,适合在性能较好的服务器上部署 Github (opens new window)
PP-OCRv5_mobile_det 轻量文本检测模型,效率更高,适合在端侧设备部署 Github (opens new window)
PP-OCRv4_server_det 服务端文本检测模型,精度更高,适合在性能较好的服务器上部署 Github (opens new window)
PP-OCRv4_mobile_det 轻量文本检测模型,效率更高,适合在端侧设备部署 Github (opens new window)

文本识别模型

模型名称 模型简介 模型开源网站
PP-OCRv5_server_rec (服务端)致力于以单一模型高效、精准地支持简体中文、繁体中文、英文、日文四种主要语言,以及手写、竖版、拼音、生僻字等复杂文本场景的识别。在保持识别效果的同时,兼顾推理速度和模型鲁棒性,为各种场景下的文档理解提供高效、精准的技术支撑。 Github (opens new window)
PP-OCRv5_mobile_rec (轻量)致力于以单一模型高效、精准地支持简体中文、繁体中文、英文、日文四种主要语言,以及手写、竖版、拼音、生僻字等复杂文本场景的识别。在保持识别效果的同时,兼顾推理速度和模型鲁棒性,为各种场景下的文档理解提供高效、精准的技术支撑。 Github (opens new window)
PP-OCRv4_server_rec (服务端)推理精度高,可以部署在多种不同的服务器上 Github (opens new window)
PP-OCRv4_mobile_rec (轻量) 效率更高,适合在端侧设备部署 Github (opens new window)

# 文本方向分类模型(cls)

模型名称 模型简介 模型开源网站
ch_ppocr_mobile_v2.0_cls 原始分类器模型,对检测到的文本行文字角度分类 Github (opens new window)
PP_LCNET_X0_25 (轻量)基于PP-LCNet_x0_25的文本行分类模型 Github (opens new window)
PP_LCNET_X1_0 基于PP-LCNet_x1_0的文本行分类模型 Github (opens new window)

# 表格结构识别(Table Structure Recognition)

模型名称 模型简介 模型开源网站
SLANet 该模型通过轻量级骨干 PP-LCNet、CSP-PAN 融合与 SLA Head 解码,有效提升表格结构识别的精度与速度。 Github (opens new window)
SLANet_plus (增强版)该模型通过轻量级骨干 PP-LCNet、CSP-PAN 融合与 SLA Head 解码,有效提升表格结构识别的精度与速度。 Github (opens new window)

# 车牌检测模型(License Plate Detection)

模型名称 模型简介 模型开源网站
YOLOV5 基于YOLOV5训练,支持12种中文车牌 Github (opens new window)
yolov7-lite-t (超小型模型)YOLOv7-Lite 架构的轻量级车牌检测模型 Github (opens new window)
yolov7-lite-s YOLOv7-Lite 架构的轻量级车牌检测模型 Github (opens new window)

# 车牌识别模型(License Plate Recognition)

模型名称 模型简介 模型开源网站
PLATE_REC_CRNN CRNN中文字符识别 Github (opens new window)

# 机器翻译模型

支持功能

  • 200多语言互相翻译
模型名称 模型简介 模型官网
NLLB-200 Meta AI 开发的一个先进的单一多语言机器翻译模型 Github (opens new window)
OPUS_MT_ZH_EN Helsinki-NLP团队开发的中英翻译模型,基于Transformer架构 huggingface (opens new window)
OPUS_MT_EN_ZH Helsinki-NLP团队开发的英中翻译模型,基于Transformer架构 huggingface (opens new window)

# 语音识别模型

这里仅介绍模型的开源项目,每个开源项目通常包含多个具体模型,本文不逐一列出。

模型名称 模型简介 模型官网
Whisper OpenAI 开源的通用语音识别(ASR)模型,支持多语言转写和翻译,具有较高的识别精度,尤其在嘈杂环境中表现良好,适合离线和批量音频处理。 Github (opens new window)
Vosk 一个轻量级离线语音识别工具包,支持多种语言和平台(包括移动端与嵌入式设备),可在低资源环境中运行,适合实时语音识别场景。 Github (opens new window)