客戶端程式

若用戶端不想自行撰寫程式,可前往線上資源取得詞庫小組所釋出的免授權資源。

資料格式

用戶端傳送用TCP socket傳送XML格式的文本資料,字元編碼須為 big5, utf-8, utf-16le,格式如下:

<?xml version="1.0" ?>
<wordsegmentation version="0.1">
<option showcategory="1" />
<authentication username="iis" password="iis" />
<text>台新金控12月3日將召開股東臨時會進行董監改選。</text>
</wordsegmentation>

username 及 password 為用戶端所申請之帳號及密碼,<text> 區段內包含文本,請注意此文本不應包含會使XML格式錯誤之字元如 "<" 及 ">",請預先加以適當處理(例如轉換為全形符號),以免造成處理錯誤的結果。文本不需預先進行斷句,伺服器會自行判斷句子的邊界。

關於文本資料格式的限制請仔細參閱注意事項。

處理結果

伺服器傳回的處理結果 XML 如下:

<?xml version="1.0" ?>
<wordsegmentation version="0.1">
<processstatus code="0">Success</processstatus>
<result>
  <sentence> 台新(N) 金控(N) 12月(N) 3日(N) 將(ADV) 召開(Vt) 股東(N) 臨時會(N) 進行(Vt) 董監(N) 改選(Vt) ,(COMMACATEGORY) </sentence>
</result>
</wordsegmentation>

其中 <processstatus> 區段為處理的結果,除了 code=0 表示成功外,另外有三種可能的處理結果:

<processstatus code="1">Service internal error</processstatus>
<processstatus code="2">XML format error</processstatus>
<processstatus code="3">Authentication failed</processstatus>

code=1 表示伺服器內部發生錯誤,可能是由不預期的字元或是過於複雜的句子結構所造成;code=2 表示接收到的XML格式有錯誤;code=3 表示帳號或密碼錯誤。斷詞過的所有句子包含在 <result> 區段內,每一句儲存於 <sentence> 區段中,每個詞以全形空白隔開。

注意事項

  • 本服務會一直持續進行改良,因此不保證斷詞結果的一致性與正確性
  • 本服務之斷詞正確率約為 95%-96%,因此斷詞結果中仍會有部份錯誤;用戶若對斷詞結果有任何建議或疑問,歡迎來信指教,我們會研究各種錯誤並嘗試改正,但恕無法保證能即時改正所有斷詞的錯誤
  • 本服務預定每天上午六點進行系統維護,每次預計十到十五分鐘,可能暫時無法提供服務
  • 本服務會將用戶的帳號進行鎖定,即使從不同來源進行連線,同一個帳號同時僅能進行一次服務,因此請勿將帳號與他人共用,若有特殊需要請申請多個帳號
  • 傳送大小限制:

    本服務一次對一個文本進行斷詞與未知詞抽取,因此用戶傳送之文本大小應控制在一合理範圍(例如一篇新聞文章),如此未知詞的抽取結果會較為合理,且處理速度亦較快速

    • 每次傳送:
      傳送一次request時,大小需在約 7900 字元內,否則傳送回結果:

      <processstatus code="2">XML format error</processstatus>

    • 多次傳送:
      請勿密集傳送大量文本,否則經過一短時間(約數分鐘)後斷詞結果尚未產生,系統會強迫中斷處理以利其他用戶使用。大約每傳送42000字元內,最好就要等待一段時間或所有結果回傳再送),否則發生錯誤訊息:

      Fatal error:Maximum execution time of 30 seconds exceeded

    • 每句字數:
      斷詞系統本身處理的單位是句,一句的字數越多處理的越慢,所以盡量送來一些合理的句子,每句字數避免超過80個字,尤其應該避免一些不斷重覆詞的句子,如果遇到像是bbs或blog這些非正式文章有省略標點符號的情形,最好先過濾或斷句後再送過來。
  • 本服務可能因為過於忙碌而無法完成用戶端的需求,或是接收資料不完全造成 XML 格式判斷錯誤,用戶可以根據斷詞結果的錯誤訊息重試數次;若仍無法接收到資料,則可能是因為不預期的字元或是過於複雜的句子結構所造成,請用戶放棄傳送該文本