PRIVACY POLICY
方言语料库隐私政策
诗韵中心 | 草案 v0.1(正式发布前请执业律师审阅)
本政策只讲人话,说清五件事:收什么、为什么收、放在哪、留多久、您能怎么办。
1. 我们收集什么
| 类别 | 内容 | 性质 |
|---|---|---|
| 语音录音 | 您朗读/讲述的方言音频 | 敏感个人信息(生物识别) |
| 转写文本 | 录音对应的文字与标注 | 一般信息 |
| 语言背景 | 方言片区、年龄段、性别(区间选项) | 一般信息(可拒填) |
| 账号信息 | 登录凭据、勾选记录与时间戳 | 一般信息 |
不收集:精确出生日期、身份证件、录音与真名的公开绑定、任何第三人的声音。
2. 用来做什么
仅限您在《方言语料贡献协议》中勾选同意的用途:语料库建设(A)、模型训练(B)、匿名公开数据集(C)。没有勾选的用途,一概不做。不用于广告,不出售,不与第三方共享原始录音。
3. 放在哪里
录音文件存储于 Cloudflare R2 私有存储桶(境外云服务商,存储桶不对公网开放,访问需密钥且留痕);语料元数据与协议记录存于 Cloudflare D1 数据库;模型训练在诗韵中心自有服务器上进行,训练时按您的授权范围从存储桶拉取。账号身份与录音文件分离存储:录音仅以随机编号标识,编号与账号的映射单独保存、仅管理员可查。
跨境提示:由于存储服务商位于境外,若您在中华人民共和国境内参与贡献,您的录音将跨境传输至境外存储。我们在采集页面明确提示这一数据流向,并以您的单独同意作为跨境提供的合法性基础;您可选择不参与。
4. 留多久
- 原始录音与转写:保存至您撤回授权或注销账号,随后 30 日内删除;
- 已发布的匿名公开数据集(仅 C 项勾选者):因已去除可识别信息,发布后不再撤回;
- 服务器日志:最长保存 6 个月。
5. 您的权利与行使方式
查询、下载、更正、删除自己的语料,撤回任一项授权,注销账号——均可在「我的语料」页面自助完成,或联系管理员处理。我们在 15 个工作日内响应。
已训练模型的技术边界:模型训练完成后无法从模型中「取出」某一条语料,撤回授权对已完成的训练不具追溯力;这也是我们把 B 项设为单独勾选、并在录音前就告知的原因。
6. 未成年人
未满 18 周岁者的语料须监护人代为同意;发现未经监护人同意的未成年人语料将立即删除。
7. 政策更新
重大变更(新增用途、变更存储方式)将提前通知并重新征得同意;文末永远标注当前版本号与生效日期。
—— 诗韵中心 · 方言语料库 · 版本 v0.1