【预告贴】夜空文库??6月27日更新进度,求天空vip账号_wknd123

本站致力营造轻松、舒适的交友环境。
另有小说阅读站点,网罗包括训诫文、腐文在内的全网书源。

第1回

谷地似乎不能发可以直接看的图片?
 简单来说,楼主打算兑现之前的诺言,用python把暗夜上的文章爬下来,整个数据库。后续看进度扩展到小贝家园的那些陈年旧帖
 谷地还是算了,cookie太复杂,搞不定=_=
 侵删
 ————————————————————————-
 6月23日更新:
 爬虫进度:
 pearl bay(458/458)
 译介局(415/415)
 希德嘉的藏书院(807/807)
 希德嘉的密室(0/103)
 下一步的计划:
 巴特角、旧采石场、索拉尼斯(这个不太合楼主口味,可能不爬了)
 
 另外,计划对爬到的文章进行初步的分类,想听听大家的建议,应该设置哪些分类项目?
 目前我自己想到的有:
 主/被身份:如F/M,M/M等,M、F表示成年男、女,m、f表示未成年男、女,b、g表示boy和girl
 古风:是或否
 sp动机:双方自愿的实践,暴力机器或机构的刑罚,一方非自愿的管教
 其它惩罚要素:不含其他要素,或含有以下额外要素:guan肠,姜罚等其它要素(楼主口味轻,不在这里列举太多)
 篇幅分类:短/中/长
 完结状态分类:完结或未完结(坑)
 中外分类:国产文或外国译文
 个人偏好分类:好看/一般/不好看???? hhh这个分类就由楼主自己决定了
 
 对这些分类的实现方法正在探索中,初步计划通过搜索文章关键词配合楼主人脑分类实现。大家有什么好的建议欢迎提出~[ 此帖被wknd123在2019-06-30 22:56重新编辑 ]

school1379:以前那些老文章也可以吗 (2019-06-23 12:35) 
 

 您指的是哪些?可以发个题目,我找找有没有。
 我爬下来的是目前的暗夜论坛可以访问的文章。

我不相信:求交流代码和技术 (2019-06-23 13:53) 
 

 很简单的,就是一般的python爬虫技术。先爬目录页获取帖子的地址和作者,再顺藤摸瓜爬文章

————————-
 6月24日更新进度
 
 惊闻小贝家园数据库毁于火灾,可谓世事无常。小贝家园的论坛和暗夜同源,因此爬虫不需要另起炉灶,之前本来计划爬完暗夜就去爬小贝家园,可惜还是晚了一步。
 目前暗夜的文章除索拉尼斯及同文馆外均已爬完,但楼主悲剧的发现自己的玫瑰币不够了,少了30多枚。现向大家求借一个暗夜账号,玫瑰币在280枚以上的,用于购买用户组进行索拉尼斯板块的爬虫。如有需要,我可以将爬下来的属于“索拉尼斯”板块的文章数据作为答谢。有意者请私信我账号密码。谢谢!
 另:全部数据库考虑到潜在的版权问题,日后再决定以何种形式向大家分享。
 ——————–
 账号已借到,感谢~[ 此帖被wknd123在2019-06-24 18:08重新编辑 ]

图片:pywk.png[删除]

图片:pypy.png[删除]

  图片:ppyy.png[删除]

————————- 
 6月27日更新进度 
  
 暗夜文章已全部爬完,共计2000余篇。楼主已计划好采取一种妥善的方式将数据与站友共享,请大家耐心等待。
 目前正在对痛快天空进行爬取。
 天空文章数目巨大,初步估计有约6000+,且大多为原创文章,独占率高。想问问大家,有没有同好愿意提供一个天空的vip账号进行爬虫。爬虫时间视网络状况,可能需要2-3天。爬虫期间不影响账号的正常使用。作为感谢,楼主可以提供爬取到的全部数据。将来数据库更新后也会提供对应的新版本。
 
 ————————

————————-  
 6月30日更新进度  
  
 如大家所见,这个项目从最初计划爬取暗夜一站的数据,变成了现在的集百家之言的“大工程”。目前暗夜、小贝家园、紫藤部落的小说数据已全部爬取完毕,天空账号已借到,但近期天空网站访问异常,等待其恢复中。谷地的数据也正在搜集。
 
 项目进行的如此顺利,离不开谷地各位同好们的支持和帮助,谢谢大家!
 
 关于爬取数据的使用,初步计划通过将爬下来的内容通过谷地文库的形式向大家分享。具体的整理工作估计仍需要一些时间。
 
 另外,由于楼主个人时间并不是十分充裕,原计划对小说进行去重、分类、整理,这一工作可能要交给有能力和时间的同好们了。
  
 ————————

© 版权声明
THE END
喜欢就支持一下吧
点赞0
评论 抢沙发
头像
欢迎评论!若上传图片,请点击左侧导航栏的图床工具,获取图片链接。
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容