如何爬取直播弹幕(直播弹幕数据如何爬取?教你一个个攻破难点)
手机斗鱼如何设置弹幕直播弹幕数据?教你一个个突破难关
如今,随着直播的普及,越来越多的人沉迷其中。直播中的弹幕也是人们喜欢看直播的一个原因。现在我们将在直播中抓取弹幕。既然我们只想运行程序一次,我就抓取下面录制播出的弹幕。
我们选择了我最喜欢的英雄联盟主播东北大鹌鹑,作为我们弹幕的抓取对象,看看我们嘟嘟怪的弹幕是不是这么好玩。
一.导入爬虫所需的python库
由于宇都网页是一个动态网页,我们使用selenium这一自动化测试工具进行抓取。在使用这个模块之前,我们需要安装chromedriver,chromedriver的版本需要对应你的chrome浏览器的版本。二.分析网页
我们用谷歌浏览器的开发者工具F12来看看我们的目标。我们进入这个录制的页面,然后就有这个弹幕列表的按钮。我们需要点击这个按钮点击后,右边会排列出弹幕,这就是我们想要的。我们的下一个目标是点击拖动栏,然后保存弹幕的所有内容和弹幕的发送时间
三.开始敲代码
初始化该类并设置参数。代码如下我们在分析网页的时候已经提到,需要先点击弹幕列表,网页才能更新弹幕的内容。代码如下
经过上一步,网页的内容已经更新。我们需要得到弹幕的内容和弹幕的发送时间,或者需要通过xpath得到一个数据。我们可以得到当前页面所有的弹幕内容以及弹幕的发送时间。另一点是,我们可以 点击后不能立即得到它,我们需要等待页面加载,否则我们不能 我什么也没得到。代码如下
现在我们已经得到了当前页面的所有弹幕以及所有弹幕的发送时间,我们需要进入下一步,就是滑动拖动栏,继续更新我们的弹幕列表。通过chrome的开发者工具,我们可以得到拖拽条的长度为30px,总长度为540px。通过调试,我们知道一次拖动拖动条2px,正好可以更新整个弹幕内容
所以让我们 s代码直接
四.将爬取的结果保存到文件
目前有两种方式保存抓取的结果,一种是保存到本地文件(txt,csv,),另一种是保存到数据库中。1.保存到本地文件并直接编码
2.保存到数据库
五.爬虫的完整代码
六.对爬下来的弹幕做词云分析
现在我们已经爬下了斗鱼的弹幕,我们需要对抓取的内容做一个简单的分析。这次选择做一个词云,看看主播弹幕的主要关键词是什么。让 让我们从它开始需要使用wordcloud模块WordCloud,需要先安装,还需要安装一个字体包。连接如下
S3-us-west-2 . Amazon AWS.com/idea-static/b 869 CB 0 c 7 f 4 e 4c 909 a 069 eaebbd 2 b 7 ad/simsun . TTF
然后下载simsun.ttf
因为中国文化博大精深,所以需要对汉语句子进行切分。中文分词的工具有很多。有些是免费的,有些是收费的。
什么我 我今天白癜风网小编要向大家介绍的是如何在笔记本电脑上 Python进行中文分词。
我们使用的工具有一个独特的名字,叫做 口吃的词分割和。。你可以通过pip install jieba安装这个工具。
七.结果展示
怎么样?符合东北鹌鹑的主播形象吗?之一民族服装,艾Xi ;s嘟嘟嘟嘟,和妹妹的套路很奇怪,直播给因为 疼不得不停播的鹌鹑哥哥。如何爬直播弹幕如何爬直播弹幕