“快筆小新”:新華社第一位機器人記者

原標題:“快筆小新”:新華社第一位機器人記者

  “快筆小新”兩年多時間不眠不休,盡職盡責,“撰寫”了大量體育和財經報道,差錯為零;捕捉、發現網絡熱點,成績頗佳。如今它又有了新的“愛好”,文本復述、語音交互、看圖寫話、智能生成模板等都是它正在涉足的工作。

  “快筆小新” 機器人寫稿 人工智能

  2015年11月7日,在新華社84歲生日之際,新華社的編輯記者們迎來了一位特別的同事,名字叫“快筆小新”,這是新華社第一位機器人記者。經過兩年多的不斷迭代開發,“快筆小新”具備了更強大的“寫稿”能力。

  “快筆小新”上線運行后,7×24小時不間斷工作。每逢重要體育賽事,或股市開收盤、突破整數關口,或國債開收盤,或是上市公司年報季報等金融信息發布之時,它會自動根據所公布的信息快速生成新聞稿件。編輯在編輯系統對“快筆小新”生成的稿件進行核對后正式簽發。

  “快筆小新”是如何工作的?

  在財經和體育報道中,“快筆小新”可以同時完成多項任務?!翱旃P小新”的寫稿可以分為“采集清洗”“計算分析”和“模板匹配”三個流程。依托大數據技術對數據進行實時采集、清洗和標準化處理,再根據業務需求定制相應的算法模型,對數據進行實時計算和分析,最后,根據計算和分析結果選取合適的模板生成CNML中文新聞置標語言標準的稿件,自動進入到待編稿庫,供編輯審核后簽發。

  機器人“快筆小新”有一套能和技術人員交流的“語言”,技術人員會告訴小新按照什么樣的規則和樣式生成什么樣的稿件。這個過程我們稱之為“模板定制”。有了定制好的模板,機器人就會自動采集數據,進行進一步清洗、分析、加工后,再根據計算和分析的結果按照定義好的格式自動生成新聞稿件。

  “快筆小新”雖然是根據固定格式模板寫稿,但寫出來的稿件并非是一成不變的。一方面我們可以在模板定制的過程中,通過為每個報道場景建立領域知識庫,針對不同的場景賦予其豐富的稿件樣式,在具體運用模板的過程中,對每個知識點對應的模板賦予不同的權重,利用規則庫的信息計算出權值,最后根據權值自動匹配出最佳的稿件。這其實就是建立模板庫和規則庫的過程。另一方面,通過建立完善的歷史數據庫,例如財經類的季報、年報、歷史報價等數據庫,體育類的賽事等基礎數據庫,并針對業務報道需求,研發計算同比、環比、指數、累計進球數、積分排名等各種指標的歷史統計模型和趨勢分析模型等,提高“快筆小新”新聞報道內容的豐富性。

  “快筆小新”能為編輯記者提供什么?

  體育、財經類相關稿件是“快筆小新”的強項。面對互聯網公布的大量紛繁冗雜的數據,比如失業經濟數據、股價報盤、人民幣匯率報價、上市公司公告和財報、個股資金凈流入流出、融資融券數據、中超比賽結果和積分公報、CBA比賽結果和積分公報等,“快筆小新”能迅速采集整理相關數據,準確編寫新聞稿件。其中也包括國外的相關數據,如英國CPI、英國失業率情況、歐元區失業率數據、全球主要股票市場開收盤情況,都可以迅速處理,生成相應的稿件。

  “快筆小新”運用文本摘要技術實現上市公司公告摘要。上市公司每天都要發布大量上市公司公告,編輯記者很難對每篇公告都進行詳細閱讀和跟蹤。通過使用文本摘要技術,對于原文中的句子分析、評估和抽取,根據已經設計好的算法模型,自動分析和摘取其中的要點和知識點,輸出短小的摘要,為編輯記者提供素材服務。這極大地降低了編輯記者的工作量。

  “快筆小新”能夠實時關注網上的熱點新聞。網絡用戶既是內容的消費者,也是內容的生產者。自媒體時代,人人都可以寫稿,人人都可以發聲,微博、微信等UGC平臺正在變成一個巨大的信息匯聚場所,一些熱點事件往往首先從微博和微信平臺發布出來。機器人從微博、微信等UGC平臺上獲取并整理這些信息,提醒編輯記者發現熱點。目前,“快筆小新”通過采集新浪微博上多位在金融領域有權威和聲望的專家微博,動態關注并采集其發在微博的相關言論,對其相關內容進行關聯分析,分析結果作為素材供編輯記者參考。

  “快筆小新”的實際工作成效怎樣?

  上線兩年多,“快筆小新”在工作崗位上不眠不休,盡職盡責,是一位名副其實的“業務能手”。在擅長的體育和財經領域,無論是CBA和中超的體育比賽,還是諸如財經領域的股市行情觸發、年報等財報的實時分析,原來需要編輯記者用15~30分鐘時間完成的稿件,“快筆小新”只需要3~5秒鐘就能完成,極大地降低了編輯記者的工作強度,提升了新聞信息的生成能力和發稿時效性,讓編輯記者從基礎數據信息的采寫中解放出來,將更多時間用于采寫深度分析稿件。