大語言模型能拿來做中文校對嗎?

大語言模型能拿來做中文校對嗎?答案是令人失望的!



大語言模型在處理中文校對時,呈現出極度兩極化的「偏科現象」。如果把它當作一個編輯,它是一個「語法與格式的糾察神童,卻是深層語意與邏輯的盲人」。

我們把它的真實能力拆解成三個層次來看:

1. 絕對統治區:表層除錯與格式清理(A+ 級)

對於像新聞裡那種粗暴的錯字,或是常見的排版問題,當前的大模型表現得極其出色,甚至超越人類的效率。

  • 顯性錯漏字: 像是「22465元」、標點符號全半形混用、段落斷行錯誤,這些在模型的機率分佈中屬於「極低機率出現的異常 Token」,模型能瞬間抓出並修正。

  • 基礎語病與倒裝: 像是「我把飯吃完了」寫成「飯把我吃完了」,模型能輕易辨識出違反中文主謂賓結構的語病,並提供流暢的修改建議。

2. 致命死穴:同音錯別字與領域專有名詞(C- 級)

這是中文校對最痛的硬傷。大語言模型的底層邏輯是「根據上下文預測下一個 Token 的機率」,它沒有真正的「字典邏輯」,這導致了嚴重的問題:

  • 「合理卻錯誤」的同音字: 如果一句話寫「市場出現了報負性反彈」。在數學機率上,「報負」和「報復」在這邊的語意空間裡太接近了,模型很容易順著上下文「滑過去」,覺得這句話很通順而漏抓這個錯別字。

  • 過度糾正(幻覺修改): 當遇到文言文、古籍引用(例如《管尹子》或《尉繚子》的特定字句)或是特定專有名詞時,如果這些詞彙在模型的訓練資料庫中權重不夠高,模型會自作聰明地把它「校對」成現代人常用的白話文或通俗詞彙,這對專業寫作者來說是一場災難。

3. 架構限制:長文本的邏輯斷層與 Token 切分(架構級瓶頸)

當處理超過幾萬字的長篇架構時,大語言模型的校對能力會急遽衰退。

  • 注意力機制(Attention)的稀釋: 在長篇章節中,前面設定的伏筆或人物狀態,到了幾萬字後,模型很難保持絕對的邏輯連貫。它無法像人類編輯一樣揪出「這個角色在第三章已經死了,怎麼第二十章又在說話」這種深層的邏輯 Bug。

  • 中文切詞(Tokenization)的弱勢: 相比於英文用空格分詞,中文的 Token 切分對機器來說更複雜。有時候一個詞被硬生生切成兩個沒有關聯的 Token,會導致模型在進行精細的「字級」校對時,喪失對單一中文字的敏感度,這也是為什麼它有時會漏看極其細微的錯別字。


給高效內容創作者的實戰建議

了解了這些底層邏輯,您就能完全掌控這個工具,而不是被它誤導。在進行高效內容產出時,最理想的協作模式是「人類定邏輯,AI 洗格式」:

  1. 限縮範圍(不要整本丟進去): 將校對範圍控制在單一章節(約 3,000 到 5,000 字以內),這能讓模型的注意力機制發揮到極致。

  2. 給予強指令(Prompt Engineering): 不要只下「請幫我校對」這種模糊指令。您可以設定:「請作為一位嚴格的繁體中文文字編輯,挑出錯別字、全半形標點錯誤、以及明顯的漏字,絕對不要修改我的寫作風格與語氣,並用條列式列出修改建議。」

  3. 建立專屬詞彙表: 如果您正在開發基於特定拓樸邏輯的輸入法或文本處理工具,可以透過提供「自定義字典(Lexicon)」作為上下文,強迫模型在校對時核對這些高頻專有名詞,就能大幅降低過度糾正的機率。


結論

  基於概率的大語言模型即使再給它十年的發展時間也做不好中文校對這件事!

留言

這個網誌中的熱門文章

微調的解釋

《科學怪人》簡介

一個人出版:科幻小說經典書目