# 支持模型及下载
# 百度网盘下载地址
按需下载即可:https://pan.baidu.com/s/1dlZxWEMULnaietMDUJh38g?pwd=1234
# 人脸模型
# 人脸检测模型(FaceDetection、FaceLandmarkExtraction)
支持功能:
- 人脸检测
- 5点人脸关键点定位
模型名称 | 引擎 | 模型简介 | 模型开源网站 |
---|---|---|---|
MTCNN(均衡) | PyTorch | 使用最广泛的模型之一,经典多阶段人脸检测,速度与精度均衡 | Github (opens new window) |
SeetaFace6(均衡模型) | C++ | 中科视拓最新开放的开源免费的全栈人脸识别工具包 | Github (opens new window) |
RetinaFace(高精度) | PyTorch | 基于单阶段检测的多尺度人脸检测 | Github (opens new window) |
RetinaFace_1080x720(高精度) | OnnxRuntime | 针对高分辨率图像优化的 RetinaFace 模型 | Github (opens new window) |
RetinaFace_640x640(高精度) | OnnxRuntime | 针对低分辨率图像优化的 RetinaFace 模型 | Github (opens new window) |
yolov5face_n_0.5_320x320(极速) | OnnxRuntime | YOLOv5 小型人脸检测模型,设计轻量,适合快速推理 | 无 |
yolov5face_m_640x640(极速) | OnnxRuntime | YOLOv5 中型人脸检测模型 | 无 |
UltraLightFastGenericFace(极速) | PyTorch | 针对边缘计算设备设计的轻量人脸检测模型 | Github (opens new window) |
# 人脸识别模型(FaceRecognition)
支持功能:
- 人脸512维特征提取
- 人脸对齐(人脸矫正)
- 人脸特征比对(内积[IP]、欧氏距离[L2]、余弦相似度[COSINE])
模型名称 | 引擎 | 模型简介 | 模型开源网站 |
---|---|---|---|
InsightFace_IR-SE50(高精度) | PyTorch | 这是对 ArcFace(论文)和 InsightFace(GitHub)的 PyTorch 重新实现 | Github (opens new window) |
InsightFace_Mobilefacenet(极速) | PyTorch | (轻量级)这是对 ArcFace(论文)和 InsightFace(GitHub)的 PyTorch 重新实现 | Github (opens new window) |
FaceNet(均衡) | PyTorch | 基于 PyTorch 的 Inception ResNet(V1)模型仓库 | Github (opens new window) |
ElasticFace(高精度) | PyTorch | 基于 CVPRW2022 论文《ElasticFace: Elastic Margin Loss for Deep Face Recognition》实现的人脸识别模型 | Github (opens new window) |
SeetaFace6(均衡) | C++ | 中科视拓最新开放的开源免费的全栈人脸识别工具包 | Github (opens new window) |
# 静态活体检测(RGB)模型(Silent face-anti-spoofing、FaceLivenessDetection)
支持功能:
- 检测图片中的人脸是否为来自认证设备端的近距离裸拍活体人脸对象(裸拍活体正面人脸是指真人未经重度PS、风格化、人工合成等后处理的含正面人脸)
模型名称 | 引擎 | 模型简介 | 模型开源网站 |
---|---|---|---|
MiniVision | OnnxRuntime | 小视科技的静默活体检测 | Github (opens new window) |
IIC_FL(cv_manual_face-liveness_flrgb) | OnnxRuntime | 阿里通义工作室人脸活体检测模型-RGB | 魔塔 (opens new window) |
SeetaFace6 | C++ | 中科视拓最新开放的开源免费的全栈人脸识别工具包 | Github (opens new window) |
# 人脸表情识别模型(FacialExpressionRecognition、fer)
支持功能:
- 支持识别7种表情:neutral(中性)、happy(高兴)、sad(悲伤)、surprise(惊讶)、fear(恐惧)、disgust(厌恶)、anger(愤怒)
模型名称 | 引擎 | 模型简介 | 模型开源网站 |
---|---|---|---|
DensNet121 | PyTorch | FaceLib的densnet121表情识别模型 | Github (opens new window) |
FrEmotion | OnnxRuntime | FaceRecognition-LivenessDetection-Javascript | Github (opens new window) |
# 人脸属性识别模型(GenderDetection、AgeDetection、EyeClosenessDetection、FacePoseEstimation)
支持功能:
- 性别检测
- 年龄检测
- 闭眼检测
- 人脸姿态检测
- 戴口罩检测
模型名称 | 模型简介 | 模型开源网站 |
---|---|---|
SeetaFace6 | 中科视拓最新开放的开源免费的全栈人脸识别工具包 | Github (opens new window) |
# 人脸质量评估模型(FaceQualityAssessment)
支持功能:
- 亮度评估
- 清晰度评估
- 完整度评估
- 姿态评估
- 遮挡评估
模型名称 | 模型简介 | 模型开源网站 |
---|---|---|
SeetaFace6 | 中科视拓最新开放的开源免费的全栈人脸识别工具包 | Github (opens new window) |
# 通用视觉模型
支持功能:
- 自训练模型推理
- yolov3~yolov12 系列
# 目标检测-YOLO 系列
模型名称 | 引擎 | 模型简介 | 模型开源网站 |
---|---|---|---|
YOLOV12 | OnnxRuntime | 最流行的目标检测模型 | Github (opens new window) |
YOLOV11 | OnnxRuntime | 最流行的目标检测模型 | Github (opens new window) |
YOLOV8 | OnnxRuntime | 最流行的目标检测模型 | Github (opens new window) |
# 目标检测-Tensorflow系列
仅测试了以下Tensorflow目标检测模型
模型名称 | 引擎 | 模型简介 | 模型开源网站 |
---|---|---|---|
EfficientDet | Tensorflow | Tensorflow目标检测 | Github (opens new window) |
SSD MobileNet V2 | Tensorflow | Tensorflow目标检测 | Github (opens new window) |
Faster RCNN Inception Resnet V2 | Tensorflow | Tensorflow目标检测 | Github (opens new window) |
# 目标检测-SSD 系列
模型名称 | 引擎 | 骨干网络 | 输入尺寸 | 训练数据集 | 精度(mAP) | 推理速度 | 适用场景 |
---|---|---|---|---|---|---|---|
SSD_300_RESNET5 | PyTorch | ResNet‑50 | 300×300 | COCO | 中等 | 快 | 精度需求一般 |
SSD_512_RESNET50_V1_VOC | PyTorch | ResNet‑50 | 512×512 | Pascal VOC | 稍高 | 中等 | 精度优先、可接受略低速度的场景 |
SSD_512_VGG16_ATROUS_COCO | MXNet | VGG‑16 | 512×512 | COCO | 较高 | 中等 | 通用场景;对小目标有一定提升 |
SSD_300_VGG16_ATROUS_VOC | MXNet | VGG‑16 | 300×300 | Pascal VOC | 中等偏上 | 快 | VOC 数据集同类任务;资源受限时使用 |
SSD_512_MOBILENET1_VOC | MXNet | MobileNet‑1.0 | 512×512 | Pascal VOC | 中等 | 快 | 嵌入式/移动端设备;算力和内存都很有限 |
# 语义分割模型
模型名称 | 引擎 | 模型简介 | 模型开源网站 |
---|---|---|---|
DeepLabv3 | PyTorch | DeepLabv3 是一种图像分割模型,可以把图片里的每个像素分类出来 | 无 |
# 实例分割模型
模型名称 | 引擎 | 模型简介 | 模型开源网站 |
---|---|---|---|
YOLOV8-SEG | OnnxRuntime | Ultralytics在COCO 数据集 上训练的模型 | Github (opens new window) |
YOLOV11-SEG | OnnxRuntime | Ultralytics在COCO 数据集 上训练的模型 | Github (opens new window) |
Mask R-CNN | MXNet | Mask R-CNN 是一种在目标检测基础上,同时为每个物体生成像素级分割区域的深度学习模型 | 无 |
# OBB旋转框目标检测模型
模型名称 | 引擎 | 模型简介 | 模型开源网站 |
---|---|---|---|
YOLOV11-OBB | OnnxRuntime | Ultralytics在DOTAv1 数据集 上训练的模型、通过引入一个额外的角度来更准确地定位图像中的对象 | Github (opens new window) |
# 行人检测模型
模型名称 | 引擎 | 模型开源网站 |
---|---|---|
YOLOV8_PERSON | OnnxRuntime | Github (opens new window) |
# 人类动作识别模型
模型名称 | 引擎 |
---|---|
VIT_BASE_PATCH16 | PyTorch |
INCEPTIONV3_KINETICS400 | OnnxRuntime |
INCEPTIONV1_KINETICS400 | OnnxRuntime |
RESNET_V1B_KINETICS400 | OnnxRuntime |
# 姿态估计模型
模型名称 | 引擎 | 模型开源网站 |
---|---|---|
YOLO11N-POSE | OnnxRuntime | Github (opens new window) |
YOLO8N-POSE | OnnxRuntime | Github (opens new window) |
SIMPLE_POSE | MXNet | 无 |
# OCR 模型
支持功能:
- 支持简体中文、繁体中文、英文、日文四种主要语言
- 手写、竖版、拼音、生僻字
- 方向矫正
# 文本检测模型
模型名称 | 模型简介 | 模型开源网站 |
---|---|---|
PP-OCRv5_server_det | 服务端文本检测模型,精度更高,适合在性能较好的服务器上部署 | Github (opens new window) |
PP-OCRv5_mobile_det | 轻量文本检测模型,效率更高,适合在端侧设备部署 | Github (opens new window) |
PP-OCRv4_server_det | 服务端文本检测模型,精度更高,适合在性能较好的服务器上部署 | Github (opens new window) |
PP-OCRv4_mobile_det | 轻量文本检测模型,效率更高,适合在端侧设备部署 | Github (opens new window) |
文本识别模型
模型名称 | 模型简介 | 模型开源网站 |
---|---|---|
PP-OCRv5_server_rec | (服务端)致力于以单一模型高效、精准地支持简体中文、繁体中文、英文、日文四种主要语言,以及手写、竖版、拼音、生僻字等复杂文本场景的识别。在保持识别效果的同时,兼顾推理速度和模型鲁棒性,为各种场景下的文档理解提供高效、精准的技术支撑。 | Github (opens new window) |
PP-OCRv5_mobile_rec | (轻量)致力于以单一模型高效、精准地支持简体中文、繁体中文、英文、日文四种主要语言,以及手写、竖版、拼音、生僻字等复杂文本场景的识别。在保持识别效果的同时,兼顾推理速度和模型鲁棒性,为各种场景下的文档理解提供高效、精准的技术支撑。 | Github (opens new window) |
PP-OCRv4_server_rec | (服务端)推理精度高,可以部署在多种不同的服务器上 | Github (opens new window) |
PP-OCRv4_mobile_rec | (轻量) 效率更高,适合在端侧设备部署 | Github (opens new window) |
# 文本方向分类模型(cls)
模型名称 | 模型简介 | 模型开源网站 |
---|---|---|
ch_ppocr_mobile_v2.0_cls | 原始分类器模型,对检测到的文本行文字角度分类 | Github (opens new window) |
PP_LCNET_X0_25 | (轻量)基于PP-LCNet_x0_25的文本行分类模型 | Github (opens new window) |
PP_LCNET_X1_0 | 基于PP-LCNet_x1_0的文本行分类模型 | Github (opens new window) |
# 表格结构识别(Table Structure Recognition)
模型名称 | 模型简介 | 模型开源网站 |
---|---|---|
SLANet | 该模型通过轻量级骨干 PP-LCNet、CSP-PAN 融合与 SLA Head 解码,有效提升表格结构识别的精度与速度。 | Github (opens new window) |
SLANet_plus | (增强版)该模型通过轻量级骨干 PP-LCNet、CSP-PAN 融合与 SLA Head 解码,有效提升表格结构识别的精度与速度。 | Github (opens new window) |
# 车牌检测模型(License Plate Detection)
模型名称 | 模型简介 | 模型开源网站 |
---|---|---|
YOLOV5 | 基于YOLOV5训练,支持12种中文车牌 | Github (opens new window) |
yolov7-lite-t | (超小型模型)YOLOv7-Lite 架构的轻量级车牌检测模型 | Github (opens new window) |
yolov7-lite-s | YOLOv7-Lite 架构的轻量级车牌检测模型 | Github (opens new window) |
# 车牌识别模型(License Plate Recognition)
模型名称 | 模型简介 | 模型开源网站 |
---|---|---|
PLATE_REC_CRNN | CRNN中文字符识别 | Github (opens new window) |
# 机器翻译模型
支持功能
- 200多语言互相翻译
模型名称 | 模型简介 | 模型官网 |
---|---|---|
NLLB-200 | Meta AI 开发的一个先进的单一多语言机器翻译模型 | Github (opens new window) |
OPUS_MT_ZH_EN | Helsinki-NLP团队开发的中英翻译模型,基于Transformer架构 | huggingface (opens new window) |
OPUS_MT_EN_ZH | Helsinki-NLP团队开发的英中翻译模型,基于Transformer架构 | huggingface (opens new window) |
# 语音识别模型
这里仅介绍模型的开源项目,每个开源项目通常包含多个具体模型,本文不逐一列出。
模型名称 | 模型简介 | 模型官网 |
---|---|---|
Whisper | OpenAI 开源的通用语音识别(ASR)模型,支持多语言转写和翻译,具有较高的识别精度,尤其在嘈杂环境中表现良好,适合离线和批量音频处理。 | Github (opens new window) |
Vosk | 一个轻量级离线语音识别工具包,支持多种语言和平台(包括移动端与嵌入式设备),可在低资源环境中运行,适合实时语音识别场景。 | Github (opens new window) |