Label Studio
开源数据标注平台,打通AI数据飞轮
支持40+数据类型,集成主流AI框架,实现人机协同高效标注

核心功能
多模态标注
支持文本、图像、音频、视频、时间序列等40多种数据类型,一次性解决所有标注需求
AI辅助预标注
接入ML后端调用本地模型或云端LLM,自动生成初始标注,人工只需审核修正
Prompt批量化
在平台内直接调用OpenAI、Anthropic等模型,通过LLM Prompt实现规模化自动标注
活跃学习闭环
模型识别低置信度数据推送给人工优先标注,新标注数据再训练模型,形成效率正循环
质量控制与审核
内置标注员一致性评分(Cohen's Kappa)、重叠标注和三级审核机制,确保数据质量
团队分级协作
支持组织、工作区、项目三层权限隔离,可分配标注员、审核员和管理员不同角色
数据云端直连
直接对接S3、GCP和Azure Blob等云存储进行标注,无需先下载到本地
开源可私有化
社区版完全开源免费,支持自托管和Airgap隔离部署,企业版提供SSO和细粒度RBAC
产品特色
- 01
Apache 2.0开源,完全免费自托管
社区版采用Apache 2.0授权,可免费下载、私有化部署和二次商用,没有供应商锁定
- 02
极度灵活的配置引擎
官方提供十余种内置模板,也支持XML自定义标注界面,甚至可以嵌入React组件做深度定制
- 03
数据安全始终掌握在自己手里
数据不上传第三方服务器,标注操作全程在本地或私有云完成,敏感数据不出公司
- 04
年跃迁式更新节奏,生命态势积极
版本号已迭代至1.23.0,长期保持高频提交,代码生命体处于高度活跃状态
- 05
产出的标注格式原生兼容主流框架
支持COCO、Pascal VOC、JSON等20+格式,导出的数据可直接扔进机器学习框架开始训练
- 06
Slack社区聚集2万+全球标注者的底气
遇到任何部署或配置问题,去官方Slack频道提问,大概率有同行已经踩过坑并给出了解决方案
应用场景
✅ 大语言模型微调
制作RLHF偏好数据集、监督微调的多轮对话语料、模型安全性评估样本等高质量微调数据
✅ 计算机视觉训练
标注物体检测框、多边形分割蒙版、关键点定位和视频目标追踪,配合预标注功能将效率提升3到5倍
✅ 语音识别与合成
为音频文件做转写文字、说话人分离和情感标记,构建语音领域的精细化训练数据集
✅ RAG系统评估
评估检索相关内容的相关性,对比多个LLM对同一个问题的回答质量,为智能问答产品迭代提供评测依据
✅ 企业级大规模标注管理
在组织-工作区-项目三层架构下管理多个团队和项目,通过Webhook将标注结果实时回传给模型触发下一轮训练
✅ 学术研究与合作
实验室内部用自托管环境收集领域专家标注,把数据集作为论文成果的一部分公开发布
常见问题
解答您关于"Label Studio"的常见疑问,让您更好地使用这款AI工具
-
社区版完全免费,基于Apache 2.0开源协议,可自托管和商用。另有SaaS版99美元/月起和企业版按年订阅
-
支持文本、图像、音频、视频、时间序列共40余种数据类型,涵盖NLP、CV和语音等多个AI方向
-
通过Label Studio ML后端SDK将模型包装为Web服务,连接后在平台内自动生成预标注结果,人工审核修正即可
-
通过重叠标注(多人标同一任务)和审核员二级校验进行质量控制,系统实时计算标注员一致性评分
-
不需要。自托管版本数据完全留在本地服务器,支持离线部署和Airgap隔离环境,企业敏感数据无需外传
-
通过REST API、Python SDK和Webhooks与ML pipelines无缝集成,标注完成后自动触发下一轮训练流程
-
支持pip一键安装本地运行,也支持Docker和Kubernetes Helm部署。Vultr等云平台官方还提供过详细的Docker Compose一键部署教程
立即体验 Label Studio
Label Studio是HumanSignal开发的开源数据标注平台,社区版基于Apache 2.0协议完全免费,支持文本、图像、音频、视频和时间序列等40多种数据类型。它与Hugging Face、OpenAI API、PyTorch等主流框架深度集成,可通过ML后端实现预标注和主动学习闭环。界面完全可配置,按需定制标注模板,支持团队协作和企业级私有化部署。无论是微调LLM、训练视觉模型还是优化语音识别,Label Studio都能帮你把原始数据高效转化为高质量的训练集。