值得一提的是,訊飛星火并不是“PPT發布”,目前已經向大規模開放體驗,發布會現場也演示了星火認知大模型的多種能力。
那么,它的實力究竟如何呢?
構建科學評價體系
對標ChatGPT
自誕生以來,ChatGPT通過高質量清洗海量數據,學習訓練上億參數的模型,實現不斷進化。
最新的GPT-4在文本生成、語言理解、基于思維鏈的邏輯推理、數學和代碼能力等多個領域的表現讓人驚嘆。
訊飛星火想要追趕并超越ChatGPT,首先需要構建一套科學的評測體系。
因為這樣才能知道目前技術達到什么程度、存在哪些不足,還有下一步該往哪走。
根據這套評價體系,目前訊飛星火在文本生成和數學能力(一定程度代表通用認知大模型的智慧水平)已經顯著領先國內同類產品,且相比ChatGPT也具有一定優勢。
而在語言理解和知識問答方面也達到接近ChatGPT水平,處于國內領先水平。
為了測試訊飛星火的實力,科技每日推送也注冊體驗了一番,并設計了多個場景的測試。
我們來問個簡單的腦筋急轉彎,看看它的IQ如何。
可以看到,訊飛星火成功Get到了這是一個玩笑,并沒有掉進陷阱里,還呼吁我們要保護動物不要當真。
同樣,中文十級測試題也沒能難倒它,可以準確理解了我們的語意。
此外,訊飛星火還十分精通國際象棋。
既然邏輯理解沒問題,接下來就上點難度,問它一個經典“電車難題”。
面對這道讓無數男人頭疼的家庭倫理題,訊飛星火不僅給出了合情合理的答案,還會提醒我們救人的同時要注意自身安全。
他真的,我哭死.......
當然,如果你先選擇救媽媽,還能讓它給你支招去和老婆 狡辯 解釋(反之亦然)。
關于長文本生成,例如寫郵件、做方案、講故事、寫新聞稿件這些活兒,訊飛星火也通通不在話下。
比如,我們可以讓它針對即將到來的618寫個促銷方案,還可以讓它不斷調整細節,享受一把當甲方當樂趣。
在數學能力方面,訊飛星火也展示出好學生的氣質,不僅能正確回答,還會展示解題過程和思路。
讓它敲個Python爬蟲代碼,也是幾秒鐘的事情。
存在的不足
當然,訊飛星火也不是百分百完美,在發布會上劉慶峰也表示,目前大模型技術還有待攻克的缺陷。
這是因為認知大模型都是使用歷史數據進行訓練,通過在海量的模型參數中記憶學習,從而實現智慧涌現和觸類旁通。
而這也造成了新知識難以及時更新的問題。
我們也實際測試了一下,在面對“特種兵旅行”這種網絡流行詞匯,訊飛星火也沒有及時更新,就算多次重新生成,答案都不盡如人意。
同時,訊飛星火在回答事實類問題時偶爾會張冠李戴,而在一些史實、傳統典籍上也容易“編造情節”等。
如果我們問“耶穌比劉邦大多少歲”這種“關公戰秦瓊”的題目,它很可能會給出錯誤的答案。
在回答“唐朝帝王順序”這類歷史問題時,訊飛星火容易搞亂順序,偶爾還會夾雜著英文,這可能跟中英文一起雙語訓練有關。
或者一開始我們就往錯誤的歷史上引導,訊飛星火有時也不會發現。
例如問它“泰坦尼克號為什么會在太平洋沉沒”,它會順著我們的問題說下去,而不是指出泰坦尼克號在大西洋沉沒。
除了上述問題,多模態的輸入和表達也是很多用戶期待的功能。
不僅能生成文案,還可以根據用戶的描述和指令,輸出圖片甚至視頻,帶來更廣泛的應用前景和發展空間。
針對用戶的期待,科大訊飛也坦率承認不足,并表示有非常明確的方法來改進它。
同時,發布會上還給到了今年大模型技術持續升級的三個關鍵里程碑節點:
6月9日,將突破開放式問答、多輪對話能力明顯提升、數學能力再升級;“1+N”全場景布局
除了能“嘮嗑”,訊飛星火認知大模型技術正逐漸為更多行業賦能。
圍繞星火認知大模型“1+N”架構中“N”個領域的內容,科大訊飛還帶來了大模型在教育、辦公、汽車、數字員工等多個方向的行業應用成果。
教育方面,星火大模型的語言能力跟訊飛學習機結合,能達到因材施教的效果。
比如,可對作文進行深度理解,同時自動生成評語和范文,像老師一樣批改作文,并給出優化建議。
它還可以實現寫作思路啟發,利用 AI 潤色技術生成片段優化參考和寫作建議提升,讓孩子在啟發中精準提升。
讓無數家長頭大的英語口語練習,在訊飛星火的幫助下也不再是問題。
它可以實現跟人一樣的自由對話,對話的時候還可以自動進行翻譯評測,目前已覆蓋了所有中小學課標話題。
相比傳統面對面的口語練習,這種學習方法更加靈活高效。它打破了時空限制,學生黨可以隨時隨地和大模型互動交流,利用好零碎時間提升效率。
對于社恐人群來說,這也是一大福音;在大模型的幫助下,他們可以一個人努力練習,再默默驚艷所有人。
辦公方面,在訊飛星火的加持下,根據現有錄音和筆記,訊飛智能辦公本能把一大段錄音轉寫出來的文字生成會議紀要。
甚至可以把一大篇口水稿,通過語篇規整變成更容易閱讀的書面語言,極大減少不必要的工作量。
不僅如此,在訊飛聽見中,只需提供一段錄音,即可生成品宣文案、新聞稿件、工作總結等文案,可以說是無數打工人的夢寐以求的功能。
其他方面,在數字員工場景中,數字員工可以按照事先編寫的腳本,自動操作計算機中的各種軟件,實現業務流程的自動化,輕松勝任各種工作。
而在汽車場景中,訊飛星火不僅可提供自駕游、親子游推薦路線,還能訂餐、買電影票、聽新聞等等,可謂十分方便。
實現智慧涌現
訊飛底氣從何而來?
訊飛星火發布會上,劉慶峰自信表示:訊飛星火完全可以重現OpenAI的智慧涌現。
簡單來說,智慧涌現就是通過自我學習和推理來產生新的知識和洞察力。
要知道,對于人工智能來說,實現智慧涌現是一項非常復雜和困難的任務,需要多學科的知識技能,以及長期的努力和不斷的創新。
劉慶峰這句話的背后,有著科大訊飛長遠的戰略謀劃和充足的技術實力作為支撐。
如果從發展的視角來看,大模型僅僅是人工智能歷程中的一個階段而已。
早在1999年,科大訊飛就致力于讓機器像人一樣能聽會說。
2014年,訊飛啟動訊飛超腦項目,開始布局認知智能,提出要讓機器像人一樣具備能理解會思考的能力,并在2017年開始承載認知智能國家重點實驗室的重任。
正是在相關國家級平臺和訊飛超腦計劃的支撐下,科大訊飛在認知智能領域才能取得一系列全球領先成果,為星火認知大模型的推出和落地應用提供充分鋪墊。
當然,對于大模型來說最重要的還是數據,數據的質量和數量直接影響模型的質量。
科大訊飛在Transformer深度神經網絡算法方面擁有豐富經驗,達到國際領先水平。
同時,作為國內語音AI龍頭,訊飛開放平臺每天有超50億次用戶交互,給大模型投喂海量文本語料和用戶反饋數據,進一步提高模型理解能力,推進更新迭代。
此外,由于超大模型由于參數規模大、數據體量大,因此需要更大的算力支持。
訊飛自建有業界一流的數據中心,目前已建成四城七中心深度學習計算平臺,為大模型訓練平臺建設奠定了可靠的硬件基石。
-最后-
1950年,英國數學家阿倫·圖靈發表了具有里程碑意義的論文《電腦能思考嗎?》,創造性提出“機器思維”的概念,成為人工智能領域的金科玉律。
如今,以ChatGPT為代表的認知大模型,不僅能聽會說,還會理解和思考,讓我們看到了通用人工智能的曙光。
作為后起之秀,訊飛星火體驗下來給我們帶來的驚喜遠遠高于預期。
盡管還存在一些不足,但已燃起星星之火,在不斷更新迭代中,我們也期待星火大模型在未來能實現“智慧涌現”,為我們創造更大的價值。
責任編輯: