行業分(fēn)享:文本數據标注的整體(tǐ)流程、類型與應用場(chǎng)景

發布時(shí)間(jiān):2022-02-11 15:00:44 閱讀次數:772

  自然語言對話(huà)是網絡大數據語義理(lǐ)解的主要挑戰之一(yī),被譽為(wèi)人(rén)工智能(néng)皇冠上(shàng)的寶石,而文本數據标注就(jiù)是這(zhè)一(yī)系列工作(zuò)中最基礎、最重要的環節。自然語言對話(huà)系統的研究是希望機器(qì)人(rén)能(néng)夠理(lǐ)解人(rén)類的自然語言,同時(shí)實現(xiàn)個(gè)性化(huà)的情感表達、知識推理(lǐ)和信息彙總等功能(néng)。

  文本标注的目标則是幫助機器(qì)理(lǐ)解人(rén)類的自然語言,通過标注數據中的标簽,例如(rú)關(guān)鍵字、符号、短語或句子(zǐ),甚至是隐含的各種情緒,教會機器(qì)識别文本中的人(rén)類意圖或者情感,并促使機器(qì)人(rén)對人(rén)類的情感做出精準定位。

  什(shén)麽是文本數據标注

  作(zuò)為(wèi)常見數據标注類型之一(yī),文本标注指将文字、符号在内的文本進行标注,讓計算(suàn)機能(néng)夠讀懂識别,從而應用于人(rén)類的生(shēng)産生(shēng)活領域!

  文本數據标注的重要性

  在人(rén)工智能(néng)的三要素數據、算(suàn)力和算(suàn)法中,數據相當于AI算(suàn)法的燃料。簡單理(lǐ)解,文本數據标注相當于為(wèi)“投喂”AI準備“飼料”。機器(qì)學習中的監督學習和半監督學習都需要人(rén)工标注好(hǎo)的數據進行學習,其訓練集、驗證集和測試集都是标注過的數據。

  當前,雖然有很多公開的語料庫可供使用,但(dàn)對于垂直領域來(lái)說(shuō),還是需要構建自己的專業語料庫後訓練模型效果比較理(lǐ)想,也(yě)經常會出現(xiàn)自己根據實際業務(wù)需求而進行數據标注的情況。

  實際上(shàng),與圖片、語音(yīn)、視(shì)頻等其他模态的數據标注相比,文本标注更具有其自身(shēn)的特點,這(zhè)也(yě)就(jiù)産生(shēng)了(le)後續一(yī)些(xiē)十分(fēn)經典的标注故事(shì)。

  文本數據标注的類型

  文本是最常用的數據類型。70%的公司均離不開文本。文本的數據标注包括各種标注,如(rú)情緒、意圖、屬性、關(guān)系、實體(tǐ)、類别和搜索等類型

  01命名實體(tǐ)标注

  實體(tǐ)标注; 實體(tǐ)标注需要将一(yī)句話(huà)中的實體(tǐ)提取出來(lái),如(rú)電視(shì),足球,門等。有時(shí)候還需要将劃分(fēn)這(zhè)句話(huà)的類别如(rú)音(yīn)樂(yuè),百科,新(xīn)聞等或者是标注出文本中的動作(zuò)指令(開門,播放(fàng)等),許多企業都會在各種應用場(chǎng)景中應用命名實體(tǐ)标注功能(néng)。

  02情感标注

  情感标注∶此類标注通常需要判定一(yī)句話(huà)包含的情感,如(rú)三級情感标注(正向,中性,負向),要求高的會分(fēn)成六級甚至十二級情感标注。為(wèi)了(le)獲得這(zhè)些(xiē)數據,經常要用到人(rén)工标注者,因為(wèi)他們可以評估所有網絡平台(包括社交媒體(tǐ)和電商(shāng)網站(zhàn))上(shàng)的情緒和評論内容,并能(néng)夠标記和報(bào)告中辱罵、敏感的關(guān)鍵字或新(xīn)詞。

  03關(guān)系标注

  關(guān)系标注是對複句的句法關(guān)聯和語義關(guān)聯做出重要标示的一(yī)種任務(wù),是複句自動分(fēn)析的形式标記。下(xià)面對涉及關(guān)系标注的知識圖譜做簡要介紹。

  知識圖譜,也(yě)叫知識庫,客戶用來(lái)做查詢和推理(lǐ)用。知識圖譜的結構包括實體(tǐ)、屬性和關(guān)系。例如(rú),用戶提問“北緯38”56.東經116”20的城市(shì)在哪個(gè)國家",機器(qì)回答(dá)“這(zhè)個(gè)城市(shì)是北京,且在中國”

  04意圖标注

  随着人(rén)們越來(lái)越多地使用人(rén)機交互進行交流,機器(qì)必須能(néng)夠理(lǐ)解自然語言和用戶意圖。多意向數據收集和分(fēn)類可将意向劃分(fēn)為(wèi)若幹關(guān)鍵類别,包括請求、命令、預訂、推薦和确認。

  如(rú)客戶要明确查詢天氣,裏面有“查詢天氣”“查詢氣象-雨”“查詢氣象-霧”“查詢氣象-氣溫”等意圖

  05語義标注

  語義标注既可以改進産品列表,又可以确保客戶能(néng)夠找到想要的産品。這(zhè)有助于把浏覽者轉化(huà)為(wèi)買家。語義标注服務(wù)通過标記産品标題和搜索查詢中的各個(gè)組件,幫助訓練算(suàn)法,以識别各組成部分(fēn),提高總體(tǐ)搜索相關(guān)性

  不同文本數據标注示例

  文本數據标注的流程介紹

  數據标注一(yī)般都分(fēn)為(wèi)采集、清洗、标注、質檢等幾個(gè)步驟,文本數據标注也(yě)不例外,大緻流程為(wèi)處理(lǐ)、标注(線上(shàng)标注、線下(xià)标注)、質檢、驗收,數據處理(lǐ)和數據交付。

  具體(tǐ)到各個(gè)步驟,操作(zuò)細節如(rú)下(xià):

  (1)預處理(lǐ):根據數據的規範要求,對數據進行算(suàn)法的初步處理(lǐ)

  (2)标注:根據項目要求,可以将标注分(fēn)為(wèi)線上(shàng)标注(數據+平台)和線下(xià)标注

  ①線上(shàng)标注:将源數據上(shàng)傳到“數據+平台",通過互聯網進行操作(zuò)

  ②線下(xià)标注:通過線下(xià)小工具或線下(xià)文本(TXT、Excel等)進行操作(zuò)

  (3)質檢:根據數據合格率要求,由理(lǐ)解定義規範的人(rén)員(yuán)對已标注數據進行抽查

  (4)驗收:由數據質量中心對質檢合格數據進行再次驗證

  (5)數據處理(lǐ):利用技術處理(lǐ)成客戶需要的格式(如(rú)JSON、UTF-8文本或Excel等)

  (6)數據交付:數據加密後交付客戶

  文本數據标注的應用場(chǎng)景

  文本标注應用範圍很廣泛,具體(tǐ)來(lái)說(shuō),文本數據标注應用比較多的場(chǎng)景包括新(xīn)零售行業、客服行業、廣告行業、金(jīn)融行業和醫(yī)療行業等:應用類型主要有數據清洗、語義識别、實體(tǐ)識别、場(chǎng)景識别、情緒識别以及應答(dá)識别等。

  01客服行業

  在客服行業文本标注主要集中在場(chǎng)景識别和應答(dá)識别,客服基本可分(fēn)為(wèi)人(rén)工客服和電子(zǐ)客服,其中人(rén)工客服又可細分(fēn)為(wèi)文字客服、視(shì)頻客服和語音(yīn)客服三類

  以不少電商(shāng)平台的智能(néng)客服機器(qì)為(wèi)例,當用戶在購(gòu)物遇到問題,需要與機器(qì)人(rén)溝通交流時(shí)人(rén)工智能(néng)将根據用戶的咨詢内容且對應的場(chǎng)景,然後讓用戶選擇更細分(fēn)的應答(dá)模式,再定位到用戶的實際場(chǎng)景中,根據用戶的具體(tǐ)問題給出對應的回答(dá),整個(gè)過程就(jiù)好(hǎo)比是把用戶的問題的用漏鬥狀的篩子(zǐ)過一(yī)遍

  在初期建立應答(dá)體(tǐ)系的時(shí)候,需要對海量用戶咨詢語言所産生(shēng)的文字材料進行分(fēn)類,把應對的用戶咨詢的問題事(shì)先标記好(hǎo),然後放(fàng)進對應的模型中,例如(rú)我看到的這(zhè)台電視(shì)電腦CPU是什(shén)麽型号

  在這(zhè)一(yī)步中,數據标注的具體(tǐ)工作(zuò)就(jiù)是給句子(zǐ)的場(chǎng)景打标,将用戶問題細分(fēn)應對的場(chǎng)景中,在進行這(zhè)種标注時(shí)需要人(rén)工智能(néng)非常熟悉本行業的業務(wù)邏輯數,其實這(zhè)就(jiù)是建立機器(qì)人(rén)的應答(dá)知識庫,機器(qì)人(rén)在收到用戶發出的指令時(shí),需要識别這(zhè)些(xiē)指令和哪個(gè)細分(fēn)問題的,你額度最高,然後選取哪個(gè)問題的答(dá)案作(zuò)為(wèi)給用戶的答(dá)案

  02新(xīn)零售行業

  新(xīn)零售是指個(gè)人(rén)、企業以互聯網為(wèi)依托,通過運用大數據、人(rén)工智能(néng)等先進技術手段,對商(shāng)品的生(shēng)産、流通與銷售過程進行升級改造,進而重塑業态結構與生(shēng)态圈,并對線上(shàng)服務(wù)、線下(xià)體(tǐ)驗以及現(xiàn)代物流進行深度融合的零售新(xīn)模式。

  在此過程中,需要對客戶的問題進行精準定位,既需要對客戶的問題進行量身(shēn)定制,又需要考慮多數客戶的共性要求,這(zhè)就(jiù)需要借助文本數據标注的方法,将顧客的相應問題做出标記。

  03金(jīn)融行業

  線上(shàng)平台标注和線下(xià)表格标注是金(jīn)融行業文本标注主要的标注形式。以現(xiàn)代商(shāng)業的企業簽約舉例:在企業的商(shāng)務(wù)合同中,對關(guān)鍵信息的讀取就(jiù)顯得尤為(wèi)重要

  例如(rú),合同中提到的公司名稱,合同編号、發票(piào)編号、相關(guān)金(jīn)額,到期日期和風(fēng)險提示等,這(zhè)些(xiē)内容囊括了(le)甲乙雙方公司的核心信息。對于一(yī)個(gè)規模較大的公司來(lái)說(shuō),每天的簽約合同非常之多,如(rú)果采用一(yī)個(gè)或幾個(gè)人(rén)對這(zhè)些(xiē)合同中的相關(guān)信息加以提收乃至核對,這(zhè)項任務(wù)就(jiù)顯得十分(fēn)繁重而且意義不大。

  在人(rén)工智能(néng)時(shí)代,可以考慮建立一(yī)個(gè)企業合同分(fēn)析模型,對合同中的相關(guān)信息進行提取,從而可以減少勞動量,降低(dī)人(rén)力成本,提高工作(zuò)效率。

  04廣告行業

  廣告行業是在市(shì)場(chǎng)經濟充分(fēn)發展的條件下(xià)逐步形成的,從單一(yī)的廣告活動發展成為(wèi)獨立的廣告行業經曆了(le)漫長的過程。廣告制作(zuò)作(zuò)為(wèi)廣告行業的重點工作(zuò)之一(yī),都需要廣告設計工作(zuò)者的辛勤勞動

  考慮到未來(lái)商(shāng)品市(shì)場(chǎng)的發展趨勢。以及單個(gè)商(shāng)品的文案設計與廣告其他工作(zuò),類别相近且銷量較高的商(shāng)品文案可相互借鑒,将已有的單個(gè)商(shāng)品文案進行綜合,取其精華、去其根粕,通過文本數據标注将文案中的“精華”與“糟粕”标記出來(lái),讓文案設計工作(zuò)者可以在案例中進行提取綜合,這(zhè)無疑将提高工作(zuò)效率

  05醫(yī)療行業

  在醫(yī)療行業對自然語言進行标注處理(lǐ),對專業度要求比較高,需要專門的醫(yī)學人(rén)才才能(néng)進行标注,往往本行業的标注的對象是從病列中抽取出來(lái)的一(yī)些(xiē)字段,病例裏面的體(tǐ)查項和既往病史是有模闆的,直接識别可以,替換項的結果就(jiù)可以,這(zhè)往往比較容易的。但(dàn)是主訴和醫(yī)生(shēng)對患者的描述通常每次都會有所差異

  我們在做标注的時(shí)候可以這(zhè)樣處理(lǐ),首先明确每個(gè)詞的屬性,記每個(gè)詞在這(zhè)種語境下(xià)面具備怎樣的屬性,然後标注每個(gè)詞在句子(zǐ)中的作(zuò)用,舉個(gè)例子(zǐ)患者主訴為(wèi)腰痛2年,伴左下(xià)肢放(fàng)射痛10日餘


在線客服 聯系方式 二維碼

電話(huà)

17791672784

掃一(yī)掃,關(guān)注我們