你是否是Bangumi 番组计划用户?
你是否发现了Bangumi 番组计划一些不尽如人意的地方,想要改进却得不到站方的响应?
你是否曾急于查找某位CV的资料或向他人安利某个作品,却遇到Bangumi 番组计划服务器宕机,只能遗憾作罢?
你是否最近自己开始使用或安利朋友来使用Bangumi 番组计划,却因为其永久对新注册用户无原则地屏蔽部分条目(如这个条目),以及很大一部分条目的图片(如这个条目的图片),导致你或你的朋友使用体验很差?(注:有老账户的用户退出登录即可复现)
你是否想要出一份力来改变现状,拯救最大的中文ACGN作品数据库(及批评空间)?
我们正在启动一个全新的泛ACGN作品数据库计划,在以可靠保留和提供当前Bangumi 番组计划所有数据为优先的前提下,创建一个更加开放、平等、可用的知识共享及文化交流平台。
- 项目平台(不包括项目过程中开发的其他工具)将在一定阶段后开源,并欢迎社区开发者贡献功能
- 将会提供 Open API ,符合要求的第三方将可以访问全部资料类数据
- 我们相信任何作品的价值是生而平等的,项目运营期间将不会为了考虑在部分地区和国家的可访问性而屏蔽作品和条目
- 同时将会制定可广泛接受的内容准则保证平台在大部分地区和国家可用
- 平台将使用经商业大用户验证的前沿技术构建,保证更高服务可用率,并提供事故中的功能受限访问支持
- 实现对 bgm.tv 资料类数据冷抓取爬虫
实现并维护各类条目页面数据解析器[已完成,需要维护]实现适应大规模并行的数据下载器[需要重构]规定用于数据保存阶段的数据结构[已制定,待讨论]- 实现简单遍历蜘蛛
- 完成一次全站数据抓取
- 实现对 bgm.tv 资料类数据热更新抓取爬虫
- 实现对条目、章节等内容的冷热数据区分
- 实现有一定效率的热数据更新蜘蛛
- 实现对 bgm.tv 社交类数据冷抓取爬虫
- 实现对 bgm.tv 社交类数据热更新抓取爬虫
- 规划并实现自有资料类数据结构
- 确定 Nagi 自有资料类数据结构
- 将数据保存阶段获得的资料类数据迁移至新数据结构
- 完成爬虫对新数据结构支持
- 实现对访客用户只读的数据内容展示站点
- 初步确定前端项目技术栈
- 完成数据单向绑定的查询用前端界面
- 实现具有社交功能的资料库平台
- 细节待定
满足以下任意需求均可
- 有非使用现有框架的 python 项目架构经验
- 熟练使用 BeautifulSoup ,或有一定规模的网站数据抓取项目经验
- 有使用 gevent 进行 python 协程开发的经验,或其他 python 异步网络开发经验
- 对爬虫算法有一定研究,编写过一定规模的爬虫项目
- 对使用 JSON-serialized object 的通信协议或 API 有一定了解和开发经验
- 对 key-value / document-oriented 型等 NoSQL 数据库有一定开发经验