【杜蘭說AI】“編”出來的AI幻覺 到底要如何應對?
2025年05月22日 18:30
AI越來越聰明,
也越來越會說胡話了。
我最近用大模型幫忙找領域相關論文,
一看標題和出處覺得穩了,
結果一搜好多都是假的,
前段時間#防止DeepSeek亂編文獻的方法#上了熱搜,
點進去一看,
又是現編法律條文,
又是虛構理論知識,
關鍵是AI在回答時還特別煞有介事,
答案看上去也特別詳細、豐富、充滿邏輯,
但一核實,
就是在“一本正經地胡說八道”,
這就是AI幻覺(AI hallucination)。
很多人都有誤解啊,
覺得是因為互聯網上的假信息太多了,
數據是AI幻覺的根源,
但其實這是兩回事。
AI會出現幻覺,
其實是因為現在大部分AI在生成答案時,
本質上就是“根據上文編下文”,
你給一句“陰雨連綿,他卻_____”的填空,
AI會關注“陰雨”這個詞語確定語境,
然後再根據“卻”的轉折語義,
最終預測出最有關聯性的詞語,
可能是“沒帶傘”,
或者“冒雨出門”。
在這個過程里,
AI不理解每個詞的含義,
也不區分信息真假,
只是按統計關聯性選擇看似“最可能”的組合,
這種“拼湊”或者說“預測”,
當然有可能出現事實性錯誤。
算法層面的缺陷沒法根除,
但卻可以減輕,
所以最後再教大家三種方法。
第一,明確約束。
在你的問題後直截了當地加上
“請基於已有事實回答,不要進行推測”。
第二,設定邊界。
主動給出你想要AI參考的數據範圍,
比如“請在2024年Nature期刊發表的研究範圍內進行搜索”。
第三,分批輸出。
AI是根據概率來生成的,
一次生成的內容越多,
就越容易出現幻覺,
所以也可以主動限制它的輸出數量,
“先寫一段200字的開頭”,
等這部分滿意了,
再繼續寫下一段。
也越來越會說胡話了。
我最近用大模型幫忙找領域相關論文,
一看標題和出處覺得穩了,
結果一搜好多都是假的,
前段時間#防止DeepSeek亂編文獻的方法#上了熱搜,
點進去一看,
又是現編法律條文,
又是虛構理論知識,
關鍵是AI在回答時還特別煞有介事,
答案看上去也特別詳細、豐富、充滿邏輯,
但一核實,
就是在“一本正經地胡說八道”,
這就是AI幻覺(AI hallucination)。
很多人都有誤解啊,
覺得是因為互聯網上的假信息太多了,
數據是AI幻覺的根源,
但其實這是兩回事。
AI會出現幻覺,
其實是因為現在大部分AI在生成答案時,
本質上就是“根據上文編下文”,
你給一句“陰雨連綿,他卻_____”的填空,
AI會關注“陰雨”這個詞語確定語境,
然後再根據“卻”的轉折語義,
最終預測出最有關聯性的詞語,
可能是“沒帶傘”,
或者“冒雨出門”。
在這個過程里,
AI不理解每個詞的含義,
也不區分信息真假,
只是按統計關聯性選擇看似“最可能”的組合,
這種“拼湊”或者說“預測”,
當然有可能出現事實性錯誤。
算法層面的缺陷沒法根除,
但卻可以減輕,
所以最後再教大家三種方法。
第一,明確約束。
在你的問題後直截了當地加上
“請基於已有事實回答,不要進行推測”。
第二,設定邊界。
主動給出你想要AI參考的數據範圍,
比如“請在2024年Nature期刊發表的研究範圍內進行搜索”。
第三,分批輸出。
AI是根據概率來生成的,
一次生成的內容越多,
就越容易出現幻覺,
所以也可以主動限制它的輸出數量,
“先寫一段200字的開頭”,
等這部分滿意了,
再繼續寫下一段。