AI 搜尋工具大亂鬥

探討不同 AI 工具 (包括 ChatGPTCopilotPerplexityGoogle GeminiFelo) 搜尋公司背景資訊的能力。文章設計了三個難度不同的問題,可以看到目前 AI 工具網路搜尋功能的侷限性,建議要求 AI 工具 (1) 提供原始資料連結,方便進行人工確認。(2) 使用中英文交叉提問,獲得更全面的搜尋結果。

Photo by Javier Diaz on StockSnap

星等符號說明

  1. 🟢 理解與正確拆解問題、引用的網頁資料可以支持解答的邏輯
  2. 🟡 AI 工具認知自己的能力不足,不回答問題
  3. 🔴 錯誤理解問題、或是引用的網頁段落無法支持解答的邏輯


問題1:Appier 是哪一國家的公司?

困難度:簡單。這一題算是送分題,只要搜尋網路就可以知道答案。機器人的回答提到台灣公司,就算通過。

比賽結果:

  1. 🟢 免費版 ChatGPT 4o-mini:通過,但忽略提示而沒有列出原始網路連結。
  2. 🟢 付費版 ChatGPT 4o:通過,有列出原始網路連結。
  3. 🟢 付費版 ChatGPT o1-preview:通過,但忽略提示而沒有列出原始網路連結。
  4. 🟢 免費版 Copilot:通過,有列出原始網路連結。 (share chat)
  5. 🟢 免費版 Perplexity:通過,有列出原始網路連結。 (share chat)
  6. 🟢 免費版 Google Gemini:通過,有列出原始網路連結 (share chat)。
  7. 🟢 免費版 Felo:通過,有列出原始網路連結 (share chat)。

 ChatGPT 4o 詢問結果

Perplexity 詢問結果

問題2:dify.ai 是哪一國家的公司?

困難度:中等。需要先從產品名稱「dify.ai」,找到對應的公司,再從公司資料找到國家。機器人的回答提到中國公司,就算通過。

比賽結果:

  1. 🔴 免費版 ChatGPT 4o-mini:回答是法國公司,所以沒有通過,另外忽略提示而沒有列出原始網路連結。
  2. 🟢 付費版 ChatGPT 4o:通過,有列出原始網路連結。
  3. 🟢 付費版 ChatGPT o1-preview:通過,但忽略提示而沒有列出原始網路連結。
  4. 🟢 免費版 Copilot:通過,有列出原始網路連結。 (share chat)
  5. 🔴 免費版 Perplexity:回答是美國公司,所以沒有通過,有列出原始網路連結,但其實跟問題沒有關係。 (share chat)
  6. 🟢 免費版 Google Gemini:通過,並提出自己見解「雖然 Dify.ai 的核心團隊來自中國,但其產品定位和市場都是全球性的。 因此,單純將其歸類為哪一國家的公司並不完全準確」。有列出原始網路連結 (share chat)。
  7. 🟢 免費版 Felo:通過,有列出原始網路連結 (share chat)。

     ChatGPT 4o-mini 詢問結果


    Perplexity 詢問結果

    問題3:2023 年哪一家 RPA 新創,獲得了最大一輪融資

    困難度:難。問之前我也不知道答案,需要根據機器人提供的資料連結,進一步判斷正確性。

    比賽結果:

    1. 🟡 免費版 ChatGPT 4o-mini (中文問句):回答無法搜尋。
    2. 🔴 付費版 ChatGPT 4o (中文問句):回答是 Anthropic 公司,但檢視附的資料出處 Business Insider 和  Intellizence 內容其實跟問題沒有直接關聯。
    3. 🟢 付費版 ChatGPT 4o (英文問句):回答是 UiPath 公司,根據的資料出處有 Bing 的搜尋結果UiPath
    4. 🟡 付費版 ChatGPT o1-preview:明確說明有知識的時間限制。「截至2023年10月,我沒有關於2023年哪家 RPA 新創公司獲得最大一輪融資的資訊。建議您查閱最新的新聞或官方公告以獲取最新資訊。」改用英文問句,也獲得一樣回答。
    5. 🔴 免費版 Copilot  (中文問句):回答是台灣的伊斯酷軟體科技公司,但是引用的資料1資料2沒有提到為什麼這筆是最大一輪的融資 (share chat)。
    6. 🔴 免費版 Copilot  (英文問句):回答是 Automation Anywhere 公司,但是引用的資料是 2018 年的新聞 (share chat)。
    7. 🔴 免費版 Perplexity (中文問句):回答是伊斯酷軟體科技,跟原始資料出處連結符合。但是結果是台灣公司,讓我很驚訝,所以改用英文文句,確認免費版 Perplexity 中文問句和英文問句的結果不一樣。 (share chat)
    8. 🔴 免費版 Perplexity (英文問句):回答是 Automation Anywhere 公司,進一步檢視原始資料出處 (1) Automation Anywhere 是 2018 年的新聞、(2) AlleyWatch 是 2023 年的新聞,但是跟 RPA 有關的公司是 Skydio,跟給的答案不一致。(share chat)
    9. 🟡 免費版 Google Gemini (中文問句):回答資訊可能已經更新,需要自行搜尋。 (share chat)
    10. 🔴 免費版 Google Gemini (英文問句):回答是 Automation Anywhere 公司,進一步檢視原始資料出處 PitchBook 是 2022 年的新聞。 (share chat)
    11. 🔴 免費版 Felo (中文問句):回答提到「UiPath在2023年獲得了一輪總額達到7億美元的融資」,但是附的原始資料無法支撐這樣的結論 (share chat)。
    12. 🔴 免費版 Felo (英文問句):回答是 UiPath 公司,這次改說 2023 年沒有揭露募資金額,但是附的原始資料無法支撐這樣的結論 (share chat)。
    13. 🔴 進階版 Felo Pro (中文問句):回答是中國「珠海金智維信息科技有限公司」,但是引用的資料沒有提到為什麼這筆是最大一輪的融資 (share chat)。
    14. 🔴 進階版 Felo Pro (英文問句):回答是 UiPath 公司,但是引用 2022 年的新聞資料 (share chat)。
    隨著問題的難度增加, AI 工具普遍表現不佳。以 免費版 Felo (中文問句) 為例,詢問 2023 年獲得最大輪資的 RPA 新創。 Felo 回答:
    「UiPath在2023年獲得了一輪總額達到7億美元的融資」
    將滑鼠游標移到解答處,可以看到引用網頁內容的摘錄文字
    「2023 年 9 月 11 日...創投公司為 B2B 軟體新創公司推出 7 億美元基金...瑞典金融科技公司 Tink 獲得迄今為止最大的一輪融資。」
    實際點進去參考資料的網頁 Next-generation automation: what Generative AI means for RPA - Dawn Capital。首先新聞日期「11th September 2023」符合問題要求,第二步找出支持做出這樣結論的網頁段落:
    Robotic Process Automation, or RPA for short, was one of the breakout B2B software technologies of the last decade. It has grown into a large software market, currently valued at $5bn according to Forrester, and remains one of the fastest-growing software categories in enterprise.
    使用 ChatGPT 翻譯:
    流程自動化機器人 (Robotic Process Automation, RPA) 是過去十年中崛起的 B2B 軟體技術之一。根據 Forrester 的數據,該技術已經成長為一個價值 50 億美元的大型軟體市場,並且仍然是企業級市場中增長最快的軟體類別之一。
    Felo 說「7 億美元基金 ... 最大的一輪融資」,跟原始網頁的「價值 50 億美元的大型軟體市場」比較,很明顯是錯誤引用。其他 Copilot、Perplexity 和 Google Gemini 都有回答和原始問題對不起來的錯誤狀況。



    Felo 回答的截圖


    Felo 參考的網頁內容節錄的截圖

    原始網頁 Next-generation automation: what Generative AI means for RPA  截圖


    結語

    從三種不同難易度的網路搜尋任務結果,發現 AI 工具的侷限性,建議:

    問題狀況 1:AI 工具可能只是彙整關鍵字搜尋結果,卻沒有意識到搜尋結果的網頁內容,跟問題沒有關係!

    建議:務必要求搜尋網路資料時,要附上原始資料連結。人工交叉確認。

    問題狀況 2:想要獲得全球的產業調查,AI 工具給的卻是台灣本地的網頁。

    建議:推測 AI 工具根據輸入關鍵字的語言,提供不同語系的搜尋結果。建議使用中文問句和英文問句交叉確認結果。

    問題狀況 3:當問題有時間條件,AI 工具給的卻是過時網頁資訊

    建議:附上原始資料連結。人工交叉確認。


    文章沒有加入 Perplexity 或 Google Gemini 付費版,所以也許付費版的結果會有所不同。歡迎網友留言提供測試結果。

    相關資料

    Prompt

    搜尋網路資料,並附上原始資料連結

    哪家 RPA 新創公司在2023年獲得了最大一輪融資?融資金額是多少?

    提供該家公司 CEO 姓名?


    Search the internet for information and provide links to the original sources.

    Which RPA startup received the largest funding round in 2023? What was the amount of funding?

    Provide the name of the CEO of that company.


    留言