午夜精品久久久久久久99老熟妇,天堂中文www官网,未满十八18勿进黄网站,太粗太深了太紧太爽了,天天爽夜夜爽夜夜爽

CDA數(shù)據(jù)分析師

CDA數(shù)據(jù)分析師

考試報名
考試報名
考試內(nèi)容
考試大綱
在線客服
返回頂部

回顧2021!爬取12萬數(shù)據(jù)盤點熱門大事件

2022-01-29

作者:閑歡

來源:Python 技術(shù)

2021年已經(jīng)過去了,但是這一年發(fā)生了很多令人難忘的事情,相信每個人心目中都有很多感慨。

為了回顧2021年都發(fā)生了哪些大事,我打算從熱搜下手,看看2021年都有哪些熱搜事件。

大家都知道,微博熱搜是實時更新的,并且沒有歷史記錄,所以從微博的網(wǎng)站上找不到歷史的熱搜數(shù)據(jù)。我們只能另想它法了。經(jīng)過我不懈的摸索,終于找到了一個網(wǎng)站,它記錄了每日的微博實時熱搜,并且是一分鐘一次。也可以在網(wǎng)站上通過日期查詢當天的數(shù)據(jù)。

回顧2021!爬取12萬數(shù)據(jù)盤點熱門大事件

下載數(shù)據(jù)

有了目標網(wǎng)站就好說,我們想辦法從目標網(wǎng)站下載數(shù)據(jù)就好。這個網(wǎng)站提供了付費下載數(shù)據(jù)的方式。我這里為了給大家演示使用 Python 爬蟲爬取數(shù)據(jù),就不付費下載了。

網(wǎng)站的請求也比較簡單,大家打開網(wǎng)頁的開發(fā)工具,可以很快定位到獲取請求的 URL 。這里就不贅述了,直接上代碼:

headers = { "Host": "google-api.zhaoyizhe.com", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36" } def scrapy(date): print('開始爬取%s' % date)
    url = 'https://google-api.zhaoyizhe.com/google-api/index/mon/sec?date=%s' % date try:
        time.sleep(random.randint(1, 3))
        res = requests.get(url, headers=headers).json()
        result = res['data'] return result except Exception as err:
        print(err) return None 

我們定義一個爬取的函數(shù),通過傳入日期來爬取一天的熱搜數(shù)據(jù)。整個2021年的數(shù)據(jù)我們只需要循環(huán)請求每一天即可。

整個數(shù)據(jù)下載下來一共12萬多條:

回顧2021!爬取12萬數(shù)據(jù)盤點熱門大事件

制作詞云

分析熱點事件,最好的方法就是把這些事件描述制作成詞云,突出顯示的就是最熱門的,一目了然。

def gen_wc_split_text(data_list=[], max_words=None, background_color=None, # font_path='/System/Library/Fonts/PingFang.ttc', font_path=r'C:WindowsFontssimhei.ttf',
                      output_path='', output_name='',
                      mask_path=None, mask_name=None,
                      width=400, height=200, max_font_size=100, axis='off'): stopwords = open(r'c:pworkspacemypypythontechweibohotstopwords.txt', 'r', encoding='utf-8').read().split('n')[:-1]
    words_dict = {} for data in data_list:
        text = data['topic']
        hotNumber = data['hotNumber'] if hotNumber is None:
            hotNumber = 1 all_seg = jieba.cut(text, cut_all=False) for seg in all_seg: if seg in stopwords or seg == 'unknow': continue if seg in words_dict.keys():
                words_dict[seg] += hotNumber else:
                words_dict[seg] = hotNumber # 設(shè)置一個底圖 mask = None if mask_path is not None:
        mask = np.array(Image.open(path.join(mask_path, mask_name)))

    wordcloud = WordCloud(background_color=background_color,
                          mask=mask,
                          max_words=max_words,
                          min_font_size=15,
                          max_font_size=80,
                          width=300,
                          height=400, # 如果不設(shè)置中文字體,可能會出現(xiàn)亂碼 font_path=font_path)
    myword = wordcloud.generate_from_frequencies(words_dict) # 展示詞云圖 # plt.imshow(myword) # plt.axis(axis) # plt.show() # 保存詞云圖 wordcloud.to_file(path.join(output_path, output_name))

制作詞云我們選擇試用 jieba 分詞,使用我們熟悉的 wordcloud 來制作詞云。

我們先來看看2021年全年的詞云圖片:

回顧2021!爬取12萬數(shù)據(jù)盤點熱門大事件

看著這張詞云圖片,是不是有好多熟悉的詞匯?

接下來,我們按月份來統(tǒng)計熱門事件,具體需要做的就是將每個月的熱搜事件歸集起來,然后根據(jù)熱度以及出現(xiàn)頻率疊加,來輸出詞云。

代碼還是跟上面類似,只不過是將事件按月分類而已。

我們直接來看每個月的圖片吧。

1月

回顧2021!爬取12萬數(shù)據(jù)盤點熱門大事件

2021年在疫情中開啟,在大家喊著“告別2020,開啟2021”時,石家莊疫情爆發(fā),進入戰(zhàn)時狀態(tài)。

薇婭也在這個月開始直播年貨。

最后以陳翔出軌關(guān)曉彤導(dǎo)致工作室互懟結(jié)束。

2月

回顧2021!爬取12萬數(shù)據(jù)盤點熱門大事件

這個月最熱門的事件肯定是我們的傳統(tǒng)春節(jié)了。

賈玲的導(dǎo)演處女作《你好,李煥英》,一上映就口碑炸裂。

這個月我們失去了兩位明星,分別是趙英俊和吳孟達,一個時代的記憶就此落幕。

3月

回顧2021!爬取12萬數(shù)據(jù)盤點熱門大事件

這個月明星白敬亭出盡風(fēng)頭。

HM、耐克等眾多我們熟知的國外品牌抵制新疆棉花,遭到央視點評,全民憤怒。

這個月中美高層對話,71歲的楊潔篪老爺子怒懟東道主美國。

4月

回顧2021!爬取12萬數(shù)據(jù)盤點熱門大事件

4月,各地大規(guī)模全員動員打疫苗。

也是這個月,日本宣布把福島核廢水排進太平洋。

這個月趙麗穎和馮紹峰宣布離婚,明星事件真是層出不窮。

5月

回顧2021!爬取12萬數(shù)據(jù)盤點熱門大事件

最令人痛心的事件是雜交水稻之父袁老爺子走了,舉國哀悼。

而就在同一天,“中國肝膽外科之父”吳孟超院士也去世了。

5月20日,全網(wǎng)盼離的佟丫丫,終于宣布和陳思誠離婚。

6月

回顧2021!爬取12萬數(shù)據(jù)盤點熱門大事件

6月的大事件當屬高考。

這個月,汪小菲和大S頻上熱搜。

這個月,神舟十二號飛船成功發(fā)射,3名航天員飛到了“天宮”。

7月

回顧2021!爬取12萬數(shù)據(jù)盤點熱門大事件

這個月,河南鄭州暴雨成災(zāi),舉國矚目。

這個月,東京奧運會開幕,林丹和李宗偉一起看奧運。

這個月,吳亦凡翻車,都美竹爆料,網(wǎng)友又多了一個“吳簽”的梗。

8月

回顧2021!爬取12萬數(shù)據(jù)盤點熱門大事件

這個月,奧運會捷報頻傳,全紅嬋、蘇炳添進入大眾視野。

吳亦凡事件繼續(xù)發(fā)酵,都美竹對吳亦凡的指控成真讓他成為內(nèi)娛被刑拘愛豆第一人。

演員張哲瀚被爆出進入靖國神社內(nèi)部,拍攝多張開心比“耶”的照片,剛翻紅就掉下去了。

9月

回顧2021!爬取12萬數(shù)據(jù)盤點熱門大事件

孟晚舟在被困加拿大近三年后,終于回國。

體育盛事全運會刷屏。

全國人民中秋節(jié)一起吃月餅賞月。

10月

回顧2021!爬取12萬數(shù)據(jù)盤點熱門大事件

國慶檔大片《長津湖》打破8項影史記錄。

知名鋼琴家李云迪嫖娼被抓。朝陽群眾又立一功。

上海一個獨居女孩,被裝進行李箱拋尸。

11月

回顧2021!爬取12萬數(shù)據(jù)盤點熱門大事件

電競戰(zhàn)隊EDG再奪冠,轟動全球。

上海迪士尼幾萬人封園做核酸。

雙十一,董明珠隆重推出22歲的女助理孟羽童,“明珠羽童精選”直播間開播。

12月

回顧2021!爬取12萬數(shù)據(jù)盤點熱門大事件

娛樂圈優(yōu)質(zhì)偶像王力宏被曝渣男,徹底崩塌。

直播女王薇婭因偷漏稅被罰了13.4億。吃瓜群眾驚呼,原來直播這么暴力。

西安出現(xiàn)“多源頭不明的點狀社區(qū)傳播”,緊急“封城”。

總結(jié)

2021年是不平凡的一年,這一年,我們見證了太多。新冠疫情始終是籠罩我們上空的一團烏云。在這個特別的年份里,娛樂圈也是精彩不斷,各種離婚事件層出不窮,幾大優(yōu)質(zhì)形象瞬間成渣。

2022年也將是不平凡的一年,愿疫情早點過去,世界和我們都能更好!

完 謝謝觀看


完 謝謝觀看