第1回
谷地似乎不能发可以直接看的图片?
简单来说,楼主打算兑现之前的诺言,用python把暗夜上的文章爬下来,整个数据库。后续看进度扩展到小贝家园的那些陈年旧帖
谷地还是算了,cookie太复杂,搞不定=_=
侵删
————————————————————————-
6月23日更新:
爬虫进度:
pearl bay(458/458)
译介局(415/415)
希德嘉的藏书院(807/807)
希德嘉的密室(0/103)
下一步的计划:
巴特角、旧采石场、索拉尼斯(这个不太合楼主口味,可能不爬了)
另外,计划对爬到的文章进行初步的分类,想听听大家的建议,应该设置哪些分类项目?
目前我自己想到的有:
主/被身份:如F/M,M/M等,M、F表示成年男、女,m、f表示未成年男、女,b、g表示boy和girl
古风:是或否
sp动机:双方自愿的实践,暴力机器或机构的刑罚,一方非自愿的管教
其它惩罚要素:不含其他要素,或含有以下额外要素:guan肠,姜罚等其它要素(楼主口味轻,不在这里列举太多)
篇幅分类:短/中/长
完结状态分类:完结或未完结(坑)
中外分类:国产文或外国译文
个人偏好分类:好看/一般/不好看???? hhh这个分类就由楼主自己决定了
对这些分类的实现方法正在探索中,初步计划通过搜索文章关键词配合楼主人脑分类实现。大家有什么好的建议欢迎提出~[ 此帖被wknd123在2019-06-30 22:56重新编辑 ]
school1379:以前那些老文章也可以吗 (2019-06-23 12:35)
您指的是哪些?可以发个题目,我找找有没有。
我爬下来的是目前的暗夜论坛可以访问的文章。
我不相信:求交流代码和技术 (2019-06-23 13:53)
很简单的,就是一般的python爬虫技术。先爬目录页获取帖子的地址和作者,再顺藤摸瓜爬文章
————————-
6月24日更新进度
惊闻小贝家园数据库毁于火灾,可谓世事无常。小贝家园的论坛和暗夜同源,因此爬虫不需要另起炉灶,之前本来计划爬完暗夜就去爬小贝家园,可惜还是晚了一步。
目前暗夜的文章除索拉尼斯及同文馆外均已爬完,但楼主悲剧的发现自己的玫瑰币不够了,少了30多枚。现向大家求借一个暗夜账号,玫瑰币在280枚以上的,用于购买用户组进行索拉尼斯板块的爬虫。如有需要,我可以将爬下来的属于“索拉尼斯”板块的文章数据作为答谢。有意者请私信我账号密码。谢谢!
另:全部数据库考虑到潜在的版权问题,日后再决定以何种形式向大家分享。
——————–
账号已借到,感谢~[ 此帖被wknd123在2019-06-24 18:08重新编辑 ]
图片:pywk.png[删除]
图片:pypy.png[删除]
图片:ppyy.png[删除]
————————-
6月27日更新进度
暗夜文章已全部爬完,共计2000余篇。楼主已计划好采取一种妥善的方式将数据与站友共享,请大家耐心等待。
目前正在对痛快天空进行爬取。
天空文章数目巨大,初步估计有约6000+,且大多为原创文章,独占率高。想问问大家,有没有同好愿意提供一个天空的vip账号进行爬虫。爬虫时间视网络状况,可能需要2-3天。爬虫期间不影响账号的正常使用。作为感谢,楼主可以提供爬取到的全部数据。将来数据库更新后也会提供对应的新版本。
————————
————————-
6月30日更新进度
如大家所见,这个项目从最初计划爬取暗夜一站的数据,变成了现在的集百家之言的“大工程”。目前暗夜、小贝家园、紫藤部落的小说数据已全部爬取完毕,天空账号已借到,但近期天空网站访问异常,等待其恢复中。谷地的数据也正在搜集。
项目进行的如此顺利,离不开谷地各位同好们的支持和帮助,谢谢大家!
关于爬取数据的使用,初步计划通过将爬下来的内容通过谷地文库的形式向大家分享。具体的整理工作估计仍需要一些时间。
另外,由于楼主个人时间并不是十分充裕,原计划对小说进行去重、分类、整理,这一工作可能要交给有能力和时间的同好们了。
————————
暂无评论内容