檔案從 一月 31st, 2015

四川外國語年夜學2015年保送生報名時光爲2月28日前

星期六, 一月 31st, 2015

摘要: 桂林生活網訊 四川外國語年夜學2015年保送生招生簡章已經宣布,凡切合教育部劃定的具有保送資曆的2015年應屆高中結業生。登錄四川外國語年夜學招生網,入進“四川外國語年夜學網名體系”入行網名。 報名方法實時間: 2015年2月28日前,經地點黉舍推

桂林生活網訊 四川外國語年夜學2015年保送生招生簡章已經宣布,凡切合教育部劃定的具有保送資曆的2015年應屆高中結業生。登錄四川外國語年夜學招生網,入進“四川外國語年夜學網名體系”入行網名。

報名方法實時間:

2015年2月28日前,經地點黉舍推舉報考四川外國語年夜學的學生,在四川外國語年夜學招生網(下載並填寫《四川外國語年夜學2015年保送生推舉表》,由黉舍簽訂推舉定見、校長具名並加蓋公章,由地點中學同一經由過程EMS寄至我辦(四川外國語年夜學不接收考生小我私家報名)。逾期或者資料不全者不予打點(以信件達到時光爲准)。

除推舉表外,還需附身份證複印件(無身份證者使用戶口簿複印件)和學生證複印件、高中階段若有獲請附上獲證書複印件(經地點中學審核並加蓋黉舍公章)。(提醒:所有資料均不退還)

TAG標簽:不接受

澳門再推大專學生學習用品津貼計劃惠及34萬人

星期六, 一月 31st, 2015

中新社澳門1月28日電 (記者 王國安)澳門行政會28日表示,已完成討論《20142015學年大專學生學習用品津貼》行規草案。根據該草案,合資格的澳門大專學生可獲發澳門幣3000元的學習用品津貼,預計受惠學生人數約3.4萬人,而特區開支約爲澳門幣1億元。

行政會稱,增加高等教育的資源投入,持續推行鼓勵升讀高等教育課程的公共輔助措施,爲澳門培養更多具高質素的專業人才,是澳門特區相關領域的施政政策。據此,特區決定繼續發放大專學生學習用品津貼,並制訂了該行規草案。

草案,凡持有澳門特別行政區居民身份證並于20142015學年在澳門或外地修讀獲認可的博士學位、碩士學位、學士學位或學習期不少于兩學年的高等教育課程的學生,在2015年3月31日前辦理相關登記後,可獲發3000元的學習用品津貼。

草案同時,特區高等教育輔助辦公室爲核實和評定學生登記的職權機構,並統籌有關津貼的發放程序。

學習用品津貼將于登記期屆滿之日起計60日內,或自遞交相關文件或補充說件之日起計60日之內,以銀行轉帳或由財政局發出憑證的方式一次性支付。

澳門特區于2012年首次推出大專學生學習用品津貼計劃,以支持澳門的大專學生購買書籍、和學習用品,每年均有3萬多名大專學生受惠。

作者:王國安

美團推薦算法實踐:機器學習重排序模型成亮點

星期六, 一月 31st, 2015

摘要:本文介紹了美團網推薦系統的構建和優化過程中的一些做法,包括數據層、觸發層、融合過濾層和排序層五個層次,采用了HBase、Hive、storm、Spark和機器學習等技術。兩個優化亮點是將候選集進行融合與引入重排序模型。

編者按:在用戶意圖明確時,我們通常用搜索引擎來解決互聯網時代的信息過載問題,但當用戶的意圖不明確或者很難用清晰的語義表達,搜索引擎就爲力。此時,借助推薦系統通過用戶行爲的分析理解其意圖,爲其推送個性化的結果,便成爲一種更好的選擇。美團作爲國內發展較快的O2O網站,有著大量的用戶和豐富的用戶行爲,這些爲推薦系統的應用和優化提供了很好的條件。本文由美團技術團隊撰寫,介紹其推薦系統的構建和優化過程中的一些做法。

框架

從框架的角度看,推薦系統基本可以分爲數據層、觸發層、融合過濾層和排序層。數據層包括數據生成和數據存儲,主要是利用各種數據處理工具對原始日志進行清洗,處理成格式化的數據,落地到不同類型的存儲系統中,供下遊的算法和模型使用。候選集觸發層主要是從用戶的曆史行爲、實時行爲、地理等角度利用各種觸發策略産生推薦的候選集。候選集融合和過濾層有兩個功能,一是對出發層産生的不同候選集進行融合,提高推薦策略的覆蓋度和精度;另外還要承擔一定的過濾職責,從産品、運營的角度確定一些人工規則,過濾掉不符合條件的item。排序層主要是利用機器學習的模型對觸發層篩選出來的候選集進行重排序。

同時,對與候選集觸發和重排序兩層而言,爲了效果叠代是需要頻繁修改的兩層,因此需要支持ABtest。爲了支持高效率的叠代,我們對候選集觸發和重排序兩層進行了解耦,這兩層的結果是正交的,因此可以分別進行對比試驗,不會相互影響。同時在每一層的內部,我們會根據用戶將流量劃分爲多份,支持多個策略同時在線對比。

數據應用

數據乃算法、模型之本。美團作爲一個交易平台,同時具有快速增長的用戶量,因此産生了海量豐富的用戶行爲數據。當然,不同類型的數據的價值和反映的用戶意圖的強弱也有所不同。

用戶主動行爲數據記錄了用戶在美團平台上不同的環節的各種行爲,這些行爲一方面用于候選集觸發算法(在下一部分介紹)中的離線計算(主要是浏覽、下單),另外一方面,這些行爲代表的意圖的強弱不同,因此在訓練重排序模型時可以針對不同的行爲設定不同的回歸目標值,以更細地刻畫用戶的行爲強弱程度。此外,用戶對deal的這些行爲還可以作爲重排序模型的交叉特征,用于模型的離線訓練和在線預測。

負反饋數據反映了當前的結果可能在某些方面不能滿足用戶的需求,因此在後續的候選集觸發過程中需要考慮對特定的因素進行過濾或者降權,降低負面因素再次出現的幾率,提高用戶體驗;同時在重排序的模型訓練中,負反饋數據可以作爲不可多得的負例參與模型訓練,這些負例要比那些展示後未點擊、未下單的樣本顯著的多。

用戶畫像是刻畫用戶屬性的基礎數據,其中有些是直接獲取的原始數據,有些是經過挖掘的二次加工數據,這些屬性一方面可以用于候選集觸發過程中對deal進行加權或降權,另外一方面可以作爲重排序模型中的用戶維度特征。

策略觸發

上文中我們提到了數據的重要性,但是數據的落腳點還是算法和模型。單純的數據只是一些字節的堆積,我們必須通過對數據的清洗去除數據中的噪聲,然後通過算法和模型學習其中的規律,才能將數據的價值最大化。在本節中,將介紹推薦候選集觸發過程中用到的相關算法。

1. 協同過濾

提到推薦,就不得不說協同過濾,它幾乎在每一個推薦系統中都會用到。基本的算法非常簡單,但是要獲得更好的效果,往往需要根據具體的業務做一些差異化的處理。

嘗試不同的相似度計算方法。在實踐中,我們采用了一種稱作loglikelihood ratio[1]的相似度計算方法。在mahout中,loglikelihood ratio也作爲一種相似度計算方法被采用。

則logLikelihoodRatio=2 (matrixEntropy – rowEntropy – columnEntropy)

其中

(entropy爲幾個元素組成的系統的香農熵)

2. location-based

對于移動設備而言,與PC端最大的區別之一是移動設備的是經常發生變化的。不同的地理反映了不同的用戶場景,在具體的業務中可以充分利用用戶所處的地理。在推薦的候選集觸發中,我們也會根據用戶的實時地理、工作地、居住地等地理觸發相應的策略。

3. query-based

搜索是一種強用戶意圖,比較明確的反應了用戶的意願,但是在很多情況下,因爲各種各樣的原因,沒有形成最終的轉換。盡管如此,我們認爲,這種情景還是代表了一定的用戶意願,可以加以利用。具體做法如下:

4. graph-based

對于協同過濾而言,user之間或者deal之間的圖距離是兩跳,對于更遠距離的關系則不能考慮在內。而圖算法可以打破這一,將user與deal的關系視作一個二部圖,相互間的關系可以在圖上。Simrank[2]是一種衡量對等實體相似度的圖算法。它的基本思想是,如果兩個實體與另外的相似實體有相關關系,那它們也是相似的,即相似性是可以的。

5. 實時用戶行爲

目前我們的業務會産生包括搜索、篩選、收藏、浏覽、下單等豐富的用戶行爲,這些是我們進行效果優化的重要基礎。我們當然希望每一個用戶行爲流都能到達的環節,但是事實上遠非這樣。

當用戶産生了下單行爲上遊的某些行爲時,會有相當一部分因爲各種原因使行爲流沒有形成。但是,用戶的這些上爲對我們而言常重要的先驗知識。很多情況下,用戶當時沒有並不代表用戶對當前的item不感興趣。當用戶再次到達我們的推薦展位時,我們根據用戶之前産生的先驗行爲理解並識別用戶的真正意圖,將符合用戶意圖的相關deal再次展現給用戶,引導用戶沿著行爲流向下進,最終達到下單這個終極目標。

目前引入的實時用戶行爲包括:實時浏覽、實時收藏。

6. 替補策略

雖然我們有一系列基于用戶曆史行爲的候選集觸發算法,但對于部分新用戶或者曆史行爲不太豐富的用戶,上述算法觸發的候選集太小,因此需要使用一些替補策略進行填充。

目前我們使用的方法集成了調制和分級兩種融合方法,不同的算法根據曆史效果表現給定不同的候選集構成比例,同時優先采用效果好的算法觸發,如果候選集不夠大,再采用效果次之的算法觸發,依此類推。

候選集重排序

如上所述,對于不同算法觸發出來的候選集,只是根據算法的曆史效果決定算法産生的item的顯得有些簡單,同時,在每個算法的內部,不同item的順序也只是簡單的由一個或者幾個因素決定,這些排序的方法只能用于第一步的初選過程,最終的排序結果需要借助機器學習的方法,使用相關的排序模型,綜合多方面的因素來確定。

1. 模型

非線性模型能較好的捕捉特征中的非線性關系,但訓練和預測的代價相對線性模型要高一些,這也導致了非線性模型的更新周期相對要長。反之,線性模型對特征的處理要求比較高,需要憑借領域知識和經驗人工對特征做一些先期處理,但因爲線性模型簡單,在訓練和預測時效率較高。因此在更新周期上也可以做的更短,還可以結合業務做一些在線學習的嘗試。在我們的實踐中,非線性模型和線性模型都有應用。

目前我們主要采用了非線性的樹模型Additive Groves[4](簡稱AG),相對于線性模型,非線性模型可以更好的處理特征中的非線性關系,不必像線性模型那樣在特征處理和特征組合上花費比較大的精力。AG是一個加性模型,由很多個Grove組成,不同的Grove之間進行bagging得出最後的預測結果,由此可以減小過擬合的影響。

目前應用比較多的線性模型非Logistic Regression莫屬了。爲了能實時捕捉數據分布的變化,我們引入了online learning,接入實時數據流,使用google提出的FTRL[5]方法對模型進行在線更新。

負例:正例一般是用戶産生點擊、下單等轉換行爲的樣本,但是用戶沒有轉換行爲的樣本是否就一定是負例呢?其實不然,很多展現其實用戶根本沒有看到,所以把這樣樣本視爲負例是不合理的,也會影響模型的效果。比較常用的方法是skip-above,即用戶點擊的item以上的展現才可能視作負例。當然,的負例都是隱式的負反饋數據,除此之外,我們還有用戶主動刪除的顯示負反饋數據,這些數據是高質量的負例。

對于非線性模型,上述特征可以直接使用;而對于線性模型,則需要對特征值做一些分桶、歸一化等處理,使特征值成爲0~1之間的連續值或01二值。

總結

以數據爲基礎,用算法去雕琢,只有將二者有機結合,才會帶來效果的提升。對我們而言,以下兩個節點是我們優化過程中的裏程碑:

中國人學英語 甲殼蟲樂隊與哈利·波特幫助最大

星期六, 一月 31st, 2015

摘要:日前,全球領先的教育機構培生集團發布的一項研究顯示,在中國,甲殼蟲樂隊與《哈利·波特》系列電影是幫助中國人學習英語最受歡迎的文化資源,力壓賈斯丁·比伯、麥當娜、凱蒂·佩裏和電視劇《紙牌屋》等競爭對手。

新年伊始,一月正是接受新挑戰的最好時機,而有近三分之一的人將要面臨的挑戰就是學習一門新語言。他們學習外語的動力源自哪裏?有些人是爲了獲得商業上的競爭優勢,有些人是爲了能唱他們最喜愛的歌曲,或者看懂最愛的原聲電影。日前,全球領先的教育機構培生集團發布的一項研究顯示,在中國,甲殼蟲樂隊與《哈利·波特》系列電影是幫助中國人學習英語最受歡迎的文化資源,力壓賈斯丁·比伯、麥當娜、凱蒂·佩裏和電視劇《紙牌屋》等競爭對手。

該項研究由培生教育集團旗下的英語學習部門培生英語委托開展,對全球6,000名英語學習者進行了調查,包括558名中國人,目的是了解人們爲什麽以及如何選擇將英語作爲第二語言。研究發現,在中國,許多人學習英語的主要推動因素是爲了出國旅遊更方便(52%),此外也有52%的受訪者學習英語是爲了改善職業前景。有44%的中國受訪者表示,英語應該作爲商務用語,原因顯而易見。

此項調查讓我們想起LinkedIn最近的一項調查。該調查顯示,有80%的跨國公司同意,英語流利的人在他們公司更有可能獲得成功。

不論出于個人原因還是職業需要,人們都有掌握英語的明確需求;爲了幫助人們了解其英語水平,培生英語推出了全球英語水平測試標准(GSE)——這是全世界首套對個人英語水平進行測試和量化的統一標准。全球英語水平測試標准將爲全世界的學習者提供一個明確的標准,測試自己的英語水平,不論他們學習英語是爲了看懂Lady Gaga的歌詞,還是爲了讓未來的職業發展多一份保障。

研究顯示,中國的受訪者認爲威廉·莎士比亞的英語水平最高,這並不意外。更令人意外的是,他們選擇的名人英語教師——你可能認爲大多數人也許願意跟隨英國皇室威廉王子和凱蒂王妃學習英語,但事實上,最受他們歡迎的是比爾·蓋茨,(支持率爲23%),蓋茨以微弱優勢擊敗了大衛·貝克漢姆(支持率爲18%)。而英語學習者會從哪位名人那裏受到鼓舞?結果顯示,有40%的受訪者認爲非英語母語人士通過學習英語獲得巨大成功的榜樣是歌手席琳·迪翁,遙遙領先于好萊塢女明星佩內洛普·克魯茲(12%)。

受訪者認爲最有用的英文是“Thank you”(謝謝你),而最受歡迎的英文單詞則是“love”(愛),這表明浪漫是不分國界的。