午夜精品久久久久久久99老熟妇,天堂中文www官网,未满十八18勿进黄网站,太粗太深了太紧太爽了,天天爽夜夜爽夜夜爽

CDA數(shù)據(jù)分析師

CDA數(shù)據(jù)分析師

考試報(bào)名
考試報(bào)名
考試內(nèi)容
考試大綱
在線客服
返回頂部

回顧2021!爬取12萬(wàn)數(shù)據(jù)盤(pán)點(diǎn)熱門(mén)大事件

2022-01-29

作者:閑歡

來(lái)源:Python 技術(shù)

2021年已經(jīng)過(guò)去了,但是這一年發(fā)生了很多令人難忘的事情,相信每個(gè)人心目中都有很多感慨。

為了回顧2021年都發(fā)生了哪些大事,我打算從熱搜下手,看看2021年都有哪些熱搜事件。

大家都知道,微博熱搜是實(shí)時(shí)更新的,并且沒(méi)有歷史記錄,所以從微博的網(wǎng)站上找不到歷史的熱搜數(shù)據(jù)。我們只能另想它法了。經(jīng)過(guò)我不懈的摸索,終于找到了一個(gè)網(wǎng)站,它記錄了每日的微博實(shí)時(shí)熱搜,并且是一分鐘一次。也可以在網(wǎng)站上通過(guò)日期查詢當(dāng)天的數(shù)據(jù)。

回顧2021!爬取12萬(wàn)數(shù)據(jù)盤(pán)點(diǎn)熱門(mén)大事件

下載數(shù)據(jù)

有了目標(biāo)網(wǎng)站就好說(shuō),我們想辦法從目標(biāo)網(wǎng)站下載數(shù)據(jù)就好。這個(gè)網(wǎng)站提供了付費(fèi)下載數(shù)據(jù)的方式。我這里為了給大家演示使用 Python 爬蟲(chóng)爬取數(shù)據(jù),就不付費(fèi)下載了。

網(wǎng)站的請(qǐng)求也比較簡(jiǎn)單,大家打開(kāi)網(wǎng)頁(yè)的開(kāi)發(fā)工具,可以很快定位到獲取請(qǐng)求的 URL 。這里就不贅述了,直接上代碼:

headers = { "Host": "google-api.zhaoyizhe.com", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36" } def scrapy(date): print('開(kāi)始爬取%s' % date)
    url = 'https://google-api.zhaoyizhe.com/google-api/index/mon/sec?date=%s' % date try:
        time.sleep(random.randint(1, 3))
        res = requests.get(url, headers=headers).json()
        result = res['data'] return result except Exception as err:
        print(err) return None 

我們定義一個(gè)爬取的函數(shù),通過(guò)傳入日期來(lái)爬取一天的熱搜數(shù)據(jù)。整個(gè)2021年的數(shù)據(jù)我們只需要循環(huán)請(qǐng)求每一天即可。

整個(gè)數(shù)據(jù)下載下來(lái)一共12萬(wàn)多條:

回顧2021!爬取12萬(wàn)數(shù)據(jù)盤(pán)點(diǎn)熱門(mén)大事件

制作詞云

分析熱點(diǎn)事件,最好的方法就是把這些事件描述制作成詞云,突出顯示的就是最熱門(mén)的,一目了然。

def gen_wc_split_text(data_list=[], max_words=None, background_color=None, # font_path='/System/Library/Fonts/PingFang.ttc', font_path=r'C:WindowsFontssimhei.ttf',
                      output_path='', output_name='',
                      mask_path=None, mask_name=None,
                      width=400, height=200, max_font_size=100, axis='off'): stopwords = open(r'c:pworkspacemypypythontechweibohotstopwords.txt', 'r', encoding='utf-8').read().split('n')[:-1]
    words_dict = {} for data in data_list:
        text = data['topic']
        hotNumber = data['hotNumber'] if hotNumber is None:
            hotNumber = 1 all_seg = jieba.cut(text, cut_all=False) for seg in all_seg: if seg in stopwords or seg == 'unknow': continue if seg in words_dict.keys():
                words_dict[seg] += hotNumber else:
                words_dict[seg] = hotNumber # 設(shè)置一個(gè)底圖 mask = None if mask_path is not None:
        mask = np.array(Image.open(path.join(mask_path, mask_name)))

    wordcloud = WordCloud(background_color=background_color,
                          mask=mask,
                          max_words=max_words,
                          min_font_size=15,
                          max_font_size=80,
                          width=300,
                          height=400, # 如果不設(shè)置中文字體,可能會(huì)出現(xiàn)亂碼 font_path=font_path)
    myword = wordcloud.generate_from_frequencies(words_dict) # 展示詞云圖 # plt.imshow(myword) # plt.axis(axis) # plt.show() # 保存詞云圖 wordcloud.to_file(path.join(output_path, output_name))

制作詞云我們選擇試用 jieba 分詞,使用我們熟悉的 wordcloud 來(lái)制作詞云。

我們先來(lái)看看2021年全年的詞云圖片:

回顧2021!爬取12萬(wàn)數(shù)據(jù)盤(pán)點(diǎn)熱門(mén)大事件

看著這張?jiān)~云圖片,是不是有好多熟悉的詞匯?

接下來(lái),我們按月份來(lái)統(tǒng)計(jì)熱門(mén)事件,具體需要做的就是將每個(gè)月的熱搜事件歸集起來(lái),然后根據(jù)熱度以及出現(xiàn)頻率疊加,來(lái)輸出詞云。

代碼還是跟上面類(lèi)似,只不過(guò)是將事件按月分類(lèi)而已。

我們直接來(lái)看每個(gè)月的圖片吧。

1月

回顧2021!爬取12萬(wàn)數(shù)據(jù)盤(pán)點(diǎn)熱門(mén)大事件

2021年在疫情中開(kāi)啟,在大家喊著“告別2020,開(kāi)啟2021”時(shí),石家莊疫情爆發(fā),進(jìn)入戰(zhàn)時(shí)狀態(tài)。

薇婭也在這個(gè)月開(kāi)始直播年貨。

最后以陳翔出軌關(guān)曉彤導(dǎo)致工作室互懟結(jié)束。

2月

回顧2021!爬取12萬(wàn)數(shù)據(jù)盤(pán)點(diǎn)熱門(mén)大事件

這個(gè)月最熱門(mén)的事件肯定是我們的傳統(tǒng)春節(jié)了。

賈玲的導(dǎo)演處女作《你好,李煥英》,一上映就口碑炸裂。

這個(gè)月我們失去了兩位明星,分別是趙英俊和吳孟達(dá),一個(gè)時(shí)代的記憶就此落幕。

3月

回顧2021!爬取12萬(wàn)數(shù)據(jù)盤(pán)點(diǎn)熱門(mén)大事件

這個(gè)月明星白敬亭出盡風(fēng)頭。

HM、耐克等眾多我們熟知的國(guó)外品牌抵制新疆棉花,遭到央視點(diǎn)評(píng),全民憤怒。

這個(gè)月中美高層對(duì)話,71歲的楊潔篪老爺子怒懟東道主美國(guó)。

4月

回顧2021!爬取12萬(wàn)數(shù)據(jù)盤(pán)點(diǎn)熱門(mén)大事件

4月,各地大規(guī)模全員動(dòng)員打疫苗。

也是這個(gè)月,日本宣布把福島核廢水排進(jìn)太平洋。

這個(gè)月趙麗穎和馮紹峰宣布離婚,明星事件真是層出不窮。

5月

回顧2021!爬取12萬(wàn)數(shù)據(jù)盤(pán)點(diǎn)熱門(mén)大事件

最令人痛心的事件是雜交水稻之父袁老爺子走了,舉國(guó)哀悼。

而就在同一天,“中國(guó)肝膽外科之父”吳孟超院士也去世了。

5月20日,全網(wǎng)盼離的佟丫丫,終于宣布和陳思誠(chéng)離婚。

6月

回顧2021!爬取12萬(wàn)數(shù)據(jù)盤(pán)點(diǎn)熱門(mén)大事件

6月的大事件當(dāng)屬高考。

這個(gè)月,汪小菲和大S頻上熱搜。

這個(gè)月,神舟十二號(hào)飛船成功發(fā)射,3名航天員飛到了“天宮”。

7月

回顧2021!爬取12萬(wàn)數(shù)據(jù)盤(pán)點(diǎn)熱門(mén)大事件

這個(gè)月,河南鄭州暴雨成災(zāi),舉國(guó)矚目。

這個(gè)月,東京奧運(yùn)會(huì)開(kāi)幕,林丹和李宗偉一起看奧運(yùn)。

這個(gè)月,吳亦凡翻車(chē),都美竹爆料,網(wǎng)友又多了一個(gè)“吳簽”的梗。

8月

回顧2021!爬取12萬(wàn)數(shù)據(jù)盤(pán)點(diǎn)熱門(mén)大事件

這個(gè)月,奧運(yùn)會(huì)捷報(bào)頻傳,全紅嬋、蘇炳添進(jìn)入大眾視野。

吳亦凡事件繼續(xù)發(fā)酵,都美竹對(duì)吳亦凡的指控成真讓他成為內(nèi)娛被刑拘愛(ài)豆第一人。

演員張哲瀚被爆出進(jìn)入靖國(guó)神社內(nèi)部,拍攝多張開(kāi)心比“耶”的照片,剛翻紅就掉下去了。

9月

回顧2021!爬取12萬(wàn)數(shù)據(jù)盤(pán)點(diǎn)熱門(mén)大事件

孟晚舟在被困加拿大近三年后,終于回國(guó)。

體育盛事全運(yùn)會(huì)刷屏。

全國(guó)人民中秋節(jié)一起吃月餅賞月。

10月

回顧2021!爬取12萬(wàn)數(shù)據(jù)盤(pán)點(diǎn)熱門(mén)大事件

國(guó)慶檔大片《長(zhǎng)津湖》打破8項(xiàng)影史記錄。

知名鋼琴家李云迪嫖娼被抓。朝陽(yáng)群眾又立一功。

上海一個(gè)獨(dú)居女孩,被裝進(jìn)行李箱拋尸。

11月

回顧2021!爬取12萬(wàn)數(shù)據(jù)盤(pán)點(diǎn)熱門(mén)大事件

電競(jìng)戰(zhàn)隊(duì)EDG再奪冠,轟動(dòng)全球。

上海迪士尼幾萬(wàn)人封園做核酸。

雙十一,董明珠隆重推出22歲的女助理孟羽童,“明珠羽童精選”直播間開(kāi)播。

12月

回顧2021!爬取12萬(wàn)數(shù)據(jù)盤(pán)點(diǎn)熱門(mén)大事件

娛樂(lè)圈優(yōu)質(zhì)偶像王力宏被曝渣男,徹底崩塌。

直播女王薇婭因偷漏稅被罰了13.4億。吃瓜群眾驚呼,原來(lái)直播這么暴力。

西安出現(xiàn)“多源頭不明的點(diǎn)狀社區(qū)傳播”,緊急“封城”。

總結(jié)

2021年是不平凡的一年,這一年,我們見(jiàn)證了太多。新冠疫情始終是籠罩我們上空的一團(tuán)烏云。在這個(gè)特別的年份里,娛樂(lè)圈也是精彩不斷,各種離婚事件層出不窮,幾大優(yōu)質(zhì)形象瞬間成渣。

2022年也將是不平凡的一年,愿疫情早點(diǎn)過(guò)去,世界和我們都能更好!

完 謝謝觀看


完 謝謝觀看