來源:中國報業(yè) 2018-06-14 10:19:43
但當(dāng)數(shù)據(jù)量達(dá)到上十萬或者百萬時,Excel就會開始顯得有些力不從心,有時光是打開表格就要處理很久。這樣一組結(jié)構(gòu)整齊,數(shù)量龐大的數(shù)據(jù)稱為數(shù)據(jù)庫。同屬于微軟辦公軟件的Access是一款容易上手的數(shù)據(jù)庫軟件, 如果每個Excel 表格是一個子文件,那么 Access就是存儲和調(diào)用這些表格的工具。使用數(shù)據(jù)庫軟件可以方便管理、查詢、訪問、調(diào)取庫中的具體信息。沒有經(jīng)過處理的數(shù)據(jù)被記者當(dāng)作一手資料使用,找到這樣的數(shù)據(jù)令記者興奮不已,因為那里可能就有下一條獨家新聞。但處理原始數(shù)據(jù)往往是最消耗時間的,對記者的數(shù)據(jù)能力也是一個很大的考驗。錯誤的拼寫,不連貫的格式,以及中間缺失的信息,這些都是最常見的數(shù)據(jù)問題。而若想從政府部門獲取更加準(zhǔn)確和完整的數(shù)據(jù),得到的答復(fù)往往是滯后的。為了滿足新聞的時效性,記者需要學(xué)會一些處理“骯臟”數(shù)據(jù)的技巧:比如在數(shù)據(jù)庫中建立一個“錯字表”,將錯誤的拼寫和正確的拼寫分別錄入兩列中,然后通過對比“錯字表”和原始數(shù)據(jù),找出數(shù)據(jù)庫中所有出現(xiàn)錯誤的地方,再將它們統(tǒng)一替換為正確的拼寫。整個過程一分鐘都不需要。而且也便于日后追蹤和更新記錄。
對于熟悉編程的記者來說,還可以使用數(shù)據(jù)庫語言SQL直接對數(shù)據(jù)下達(dá)各種指令,至于電腦如何實現(xiàn)這個指令,則是不需要用戶去考慮的。此外,在處理數(shù)據(jù)方面,Python和R被數(shù)據(jù)記者廣泛使用。Python是一款多功能的計算機(jī)語言,由于其功能全面,語法簡單,成為不少編程入門者的首選。不同于軟件,編程語言允許用戶在高層數(shù)據(jù)結(jié)構(gòu)上工作,功能也更加強(qiáng)大。比如Python中一款熱門的繪圖插件Matplotlib,讓用戶可以直觀地看到數(shù)據(jù)的走勢發(fā)展或是同類對比,這些通常是記者最感興趣的地方。
三、數(shù)據(jù)分析在實際工作中的運用
在課程設(shè)計上,美國的新聞學(xué)院整體走實用路線,lede項目也不例外。個人作業(yè)和小組項目貫穿整個課程。這樣的安排不僅讓學(xué)員有更多機(jī)會練手,豐富個人作品集,為畢業(yè)后找工作鋪路。此外,對于編程新手來說,一個主要障礙是自己寫的程序經(jīng)常出現(xiàn)“bug”,而又不知道問題出在哪兒。 幸運的是網(wǎng)絡(luò)上關(guān)于編程的資源很多,大部分問題在谷歌、百度上搜一下就能找到答案。 對于應(yīng)用為主的數(shù)據(jù)記者而言,能夠找到解決代碼問題的方法,甚至比學(xué)習(xí)編程本身更有意義,而課堂練習(xí)的目的也正在于此。
每學(xué)期末,學(xué)員都要完成一篇獨立的數(shù)據(jù)新聞報道,題材不限。我的選題是利用自然語言處理,分析微博網(wǎng)友對去年五一期間“成都女司機(jī)變道被打”這個熱點議題的態(tài)度和立場。通過對7000多條微博的分析,我發(fā)現(xiàn)在女司機(jī)劣跡斑斑的駕駛記錄被公開之前, 97%的網(wǎng)友表示了對她的同情和支持,而這一比例在她劣跡斑斑的駕駛記錄被曝光后,迅速跌至38.4%。這個語義分析用到了機(jī)器學(xué)習(xí)中兩個使用廣泛的模型:決策樹和樸素貝葉斯。我將自己人工分析的大約1000條微博錄入到模型中,而它通過一系列復(fù)雜的運算,建立起一個分類器,將剩下的6000條微博按照語義進(jìn)行分類。概括來說,就是將數(shù)據(jù)按比例分成培訓(xùn)用和測試用兩部分,先人工處理培訓(xùn)用的數(shù)據(jù),然后將它們“喂給”你所選擇的統(tǒng)計模型,讓電腦“學(xué)習(xí)”你的處理結(jié)果,再將測試用的數(shù)據(jù)盡可能地按照你的邏輯思維去分類。
近年來,科學(xué)家不斷地在機(jī)器學(xué)習(xí)(machinelearning)方面有所突破,人工智能離我們的生活越來越近,而自然語言處理一直是機(jī)器學(xué)習(xí)的一個重要領(lǐng)域。《紐約時報》和英國廣播公司(BBC)率先在公司內(nèi)部建立起新聞實驗室,讓電腦學(xué)習(xí)語法結(jié)構(gòu),自動生成新聞稿件。去年《紐約時報》制作了一個名為“Blossom”的機(jī)器人,可以預(yù)測新聞在社交媒體上的點擊率,從而幫助編輯選擇應(yīng)該發(fā)布的內(nèi)容。截止目前,有不少媒體都開始嘗試更加復(fù)雜的數(shù)據(jù)分析和處理!哆_(dá)拉斯早報》在一篇調(diào)查德州學(xué)生作弊的新聞中使用統(tǒng)計學(xué)中的回歸模型分析學(xué)生的成績分布;《洛杉磯時報》利用聚類分析法,計算出每個社區(qū)的犯罪情況,并對犯罪率有可能上升的地區(qū)做出預(yù)報;路透社去年通過一系列復(fù)雜的模型分析,調(diào)查出美國最高法院的判決結(jié)果是由一小群精英律師主導(dǎo)著,這則報道后來被普利策獎提名。
四、技能固然重要,但內(nèi)容才是新聞的靈魂
Lede課程已經(jīng)舉辦了兩屆,學(xué)員來自不同國家,背景多種多樣。在我的這些同學(xué)中,既有編輯室的主編,也有剛畢業(yè)的大學(xué)生,既有學(xué)新聞出身的,也有學(xué)社會學(xué)和其他人文學(xué)科的。大家參加這個項目的目的各有不同,有些人想集中學(xué)習(xí)一下數(shù)據(jù)技巧,然后返回編輯室繼續(xù)工作;有些人希望通過這個項目申請計算機(jī)或是數(shù)據(jù)科學(xué)的研究生。在與同學(xué)的交流中,我開始了解數(shù)據(jù)新聞在其他國家的發(fā)展,以及不同國家的記者最關(guān)注的話題,這個項目也讓我認(rèn)識了不少同行。
離開學(xué)校回到編輯室,我更加意識到,數(shù)據(jù)技能固然重要,但并非數(shù)據(jù)新聞的全部。想要做出好故事,依舊不能忽略傳統(tǒng)新聞中采訪和寫作的重要性。數(shù)據(jù)可以幫助我們找到突破口,可視化可以幫助我們豐富畫面,但內(nèi)容才是新聞的靈魂。因此,在談?wù)摂?shù)據(jù)新聞時,我們不能只依賴電腦和網(wǎng)絡(luò)上的信息,而是要繼續(xù)親自走訪現(xiàn)場,采訪專家和線人,調(diào)查取證,一遍遍修改稿件,核實內(nèi)容的準(zhǔn)確性,這樣才能讓報道更加準(zhǔn)確、深入、全面,具有影響力。
相關(guān)推薦:
小升初試題、期中期末題、小學(xué)奧數(shù)題
盡在奧數(shù)網(wǎng)公眾號
歡迎使用手機(jī)、平板等移動設(shè)備訪問幼教網(wǎng),幼兒教育我們一路陪伴同行!>>點擊查看