真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

訂單拆單java代碼 拆單軟件代碼編寫

java編程: 1.用遞歸方法編寫:用java語言寫! 輸出如下所示: 1 1 2 1 1 2 3 2 1 的代碼幫我寫下!

理最有效的手段。

成都創(chuàng)新互聯(lián)客戶idc服務(wù)中心,提供德陽機(jī)房托管、成都服務(wù)器、成都主機(jī)托管、成都雙線服務(wù)器等業(yè)務(wù)的一站式服務(wù)。通過各地的服務(wù)中心,我們向成都用戶提供優(yōu)質(zhì)廉價(jià)的產(chǎn)品以及開放、透明、穩(wěn)定、高性價(jià)比的服務(wù),資深網(wǎng)絡(luò)工程師在機(jī)房提供7*24小時標(biāo)準(zhǔn)級技術(shù)保障。

數(shù)據(jù)庫設(shè)計(jì)是指:對于一個給定的應(yīng)用環(huán)境,構(gòu)造最優(yōu)的數(shù)據(jù)庫模式,建立數(shù)據(jù)庫及其應(yīng)用系統(tǒng),有效存儲數(shù)據(jù),滿足用戶信息要求和處理要求。

數(shù)據(jù)庫設(shè)計(jì)的各階段:

A、需求分析階段:綜合各個用戶的應(yīng)用需求(現(xiàn)實(shí)世界的需求)。

B、在概念設(shè)計(jì)階段:形成獨(dú)立于機(jī)器和各DBMS產(chǎn)品的概念模式(信息世界模型),用E-R圖來描述。

C、在邏輯設(shè)計(jì)階段:將E-R圖轉(zhuǎn)換成具體的數(shù)據(jù)庫產(chǎn)品支持的數(shù)據(jù)模型,如關(guān)系模型,形成數(shù)據(jù)庫邏輯模式。然后根據(jù)用戶處理的要求,安全性的考慮,在基本表的基礎(chǔ)上再建立必要的視圖(VIEW)形成數(shù)據(jù)的外模式。

D、在物理設(shè)計(jì)階段:根據(jù)DBMS特點(diǎn)和處理的需要,進(jìn)行物理存儲安排,設(shè)計(jì)索引,形成數(shù)據(jù)庫內(nèi)模式。

1. 需求分析階段

需求收集和分析,結(jié)果得到數(shù)據(jù)字典描述的數(shù)據(jù)需求(和數(shù)據(jù)流圖描述的處理需求)。

需求分析的重點(diǎn):調(diào)查、收集與分析用戶在數(shù)據(jù)管理中的信息要求、處理要求、安全性與完整性要求。

需求分析的方法:調(diào)查組織機(jī)構(gòu)情況、各部門的業(yè)務(wù)活動情況、協(xié)助用戶明確對新系統(tǒng)的各種要求、確定新系統(tǒng)的邊界。

常用的調(diào)查方法有: 跟班作業(yè)、開調(diào)查會、請專人介紹、詢問、設(shè)計(jì)調(diào)查表請用戶填寫、查閱記錄。

分析和表達(dá)用戶需求的方法主要包括自頂向下和自底向上兩類方法。自頂向下的結(jié)構(gòu)化分析方法(Structured Analysis,簡稱SA方法)從最上層的系統(tǒng)組織機(jī)構(gòu)入手,采用逐層分解的方式分析系統(tǒng),并把每一層用數(shù)據(jù)流圖和數(shù)據(jù)字典描述。

數(shù)據(jù)流圖表達(dá)了數(shù)據(jù)和處理過程的關(guān)系。系統(tǒng)中的數(shù)據(jù)則借助數(shù)據(jù)字典(Data Dictionary,簡稱DD)來描述。

2. 概念結(jié)構(gòu)設(shè)計(jì)階段

通過對用戶需求進(jìn)行綜合、歸納與抽象,形成一個獨(dú)立于具體DBMS的概念模型,可以用E-R圖表示。

概念模型用于信息世界的建模。概念模型不依賴于某一個DBMS支持的數(shù)據(jù)模型。概念模型可以轉(zhuǎn)換為計(jì)算機(jī)上某一DBMS支持的特定數(shù)據(jù)模型。

概念模型特點(diǎn):

(1) 具有較強(qiáng)的語義表達(dá)能力,能夠方便、直接地表達(dá)應(yīng)用中的各種語義知識。

(2) 應(yīng)該簡單、清晰、易于用戶理解,是用戶與數(shù)據(jù)庫設(shè)計(jì)人員之間進(jìn)行交流的語言。

概念模型設(shè)計(jì)的一種常用方法為IDEF1X方法,它就是把實(shí)體-聯(lián)系方法應(yīng)用到語義數(shù)據(jù)模型中的一種語義模型化技術(shù),用于建立系統(tǒng)信息模型。

作者: 小靈, 出處:論壇, 責(zé)任編輯: 李書琴, 2007-09-27 15:17

本文詳細(xì)解析了數(shù)據(jù)庫設(shè)計(jì)過程、設(shè)計(jì)技巧以及總結(jié)了數(shù)據(jù)庫命名規(guī)范……

2.1 第零步——初始化工程

這個階段的任務(wù)是從目的描述和范圍描述開始,確定建模目標(biāo),開發(fā)建模計(jì)劃,組織建模隊(duì)伍,收集源材料,制定約束和規(guī)范。收集源材料是這階段的重點(diǎn)。通過調(diào)查和觀察結(jié)果,業(yè)務(wù)流程,原有系統(tǒng)的輸入輸出,各種報(bào)表,收集原始數(shù)據(jù),形成了基本數(shù)據(jù)資料表。

2.2 第一步——定義實(shí)體

實(shí)體集成員都有一個共同的特征和屬性集,可以從收集的源材料——基本數(shù)據(jù)資料表中直接或間接標(biāo)識出大部分實(shí)體。根據(jù)源材料名字表中表示物的術(shù)語以及具有 “代碼”結(jié)尾的術(shù)語,如客戶代碼、代理商代碼、產(chǎn)品代碼等將其名詞部分代表的實(shí)體標(biāo)識出來,從而初步找出潛在的實(shí)體,形成初步實(shí)體表。

2.3 第二步——定義聯(lián)系

IDEF1X模型中只允許二元聯(lián)系,n元聯(lián)系必須定義為n個二元聯(lián)系。根據(jù)實(shí)際的業(yè)務(wù)需求和規(guī)則,使用實(shí)體聯(lián)系矩陣來標(biāo)識實(shí)體間的二元關(guān)系,然后根據(jù)實(shí)際情況確定出連接關(guān)系的勢、關(guān)系名和說明,確定關(guān)系類型,是標(biāo)識關(guān)系、非標(biāo)識關(guān)系(強(qiáng)制的或可選的)還是非確定關(guān)系、分類關(guān)系。如果子實(shí)體的每個實(shí)例都需要通過和父實(shí)體的關(guān)系來標(biāo)識,則為標(biāo)識關(guān)系,否則為非標(biāo)識關(guān)系。非標(biāo)識關(guān)系中,如果每個子實(shí)體的實(shí)例都與而且只與一個父實(shí)體關(guān)聯(lián),則為強(qiáng)制的,否則為非強(qiáng)制的。如果父實(shí)體與子實(shí)體代表的是同一現(xiàn)實(shí)對象,那么它們?yōu)榉诸愱P(guān)系。

2.4 第三步——定義碼

通過引入交叉實(shí)體除去上一階段產(chǎn)生的非確定關(guān)系,然后從非交叉實(shí)體和獨(dú)立實(shí)體開始標(biāo)識侯選碼屬性,以便唯一識別每個實(shí)體的實(shí)例,再從侯選碼中確定主碼。為了確定主碼和關(guān)系的有效性,通過非空規(guī)則和非多值規(guī)則來保證,即一個實(shí)體實(shí)例的一個屬性不能是空值,也不能在同一個時刻有一個以上的值。找出誤認(rèn)的確定關(guān)系,將實(shí)體進(jìn)一步分解,最后構(gòu)造出IDEF1X模型的鍵基視圖(KB圖)。

2.5 第四步——定義屬性

從源數(shù)據(jù)表中抽取說明性的名詞開發(fā)出屬性表,確定屬性的所有者。定義非主碼屬性,檢查屬性的非空及非多值規(guī)則。此外,還要檢查完全依賴函數(shù)規(guī)則和非傳遞依賴規(guī)則,保證一個非主碼屬性必須依賴于主碼、整個主碼、僅僅是主碼。以此得到了至少符合關(guān)系理論第三范式的改進(jìn)的IDEF1X模型的全屬性視圖。

2.6 第五步——定義其他對象和規(guī)則

定義屬性的數(shù)據(jù)類型、長度、精度、非空、缺省值、約束規(guī)則等。定義觸發(fā)器、存儲過程、視圖、角色、同義詞、序列等對象信息。

3. 邏輯結(jié)構(gòu)設(shè)計(jì)階段

將概念結(jié)構(gòu)轉(zhuǎn)換為某個DBMS所支持的數(shù)據(jù)模型(例如關(guān)系模型),并對其進(jìn)行優(yōu)化。設(shè)計(jì)邏輯結(jié)構(gòu)應(yīng)該選擇最適于描述與表達(dá)相應(yīng)概念結(jié)構(gòu)的數(shù)據(jù)模型,然后選擇最合適的DBMS。

將E-R圖轉(zhuǎn)換為關(guān)系模型實(shí)際上就是要將實(shí)體、實(shí)體的屬性和實(shí)體之間的聯(lián)系轉(zhuǎn)化為關(guān)系模式,這種轉(zhuǎn)換一般遵循如下原則:一個實(shí)體型轉(zhuǎn)換為一個關(guān)系模式。實(shí)體的屬性就是關(guān)系的屬性。實(shí)體的碼就是關(guān)系的碼。

數(shù)據(jù)模型的優(yōu)化,確定數(shù)據(jù)依賴,消除冗余的聯(lián)系,確定各關(guān)系模式分別屬于第幾范式。確定是否要對它們進(jìn)行合并或分解。一般來說將關(guān)系分解為3NF的標(biāo)準(zhǔn),即:

表內(nèi)的每一個值都只能被表達(dá)一次。

表內(nèi)的每一行都應(yīng)該被唯一的標(biāo)識(有唯一鍵)。

表內(nèi)不應(yīng)該存儲依賴于其他鍵的非鍵信息。

作者: 小靈, 出處:論壇, 責(zé)任編輯: 李書琴, 2007-09-27 15:17

本文詳細(xì)解析了數(shù)據(jù)庫設(shè)計(jì)過程、設(shè)計(jì)技巧以及總結(jié)了數(shù)據(jù)庫命名規(guī)范……

4. 數(shù)據(jù)庫物理設(shè)計(jì)階段

為邏輯數(shù)據(jù)模型選取一個最適合應(yīng)用環(huán)境的物理結(jié)構(gòu)(包括存儲結(jié)構(gòu)和存取方法)。根據(jù)DBMS特點(diǎn)和處理的需要,進(jìn)行物理存儲安排,設(shè)計(jì)索引,形成數(shù)據(jù)庫內(nèi)模式。

5. 數(shù)據(jù)庫實(shí)施階段

運(yùn)用DBMS提供的數(shù)據(jù)語言(例如SQL)及其宿主語言(例如C),根據(jù)邏輯設(shè)計(jì)和物理設(shè)計(jì)的結(jié)果建立數(shù)據(jù)庫,編制與調(diào)試應(yīng)用程序,組織數(shù)據(jù)入庫,并進(jìn)行試運(yùn)行。 數(shù)據(jù)庫實(shí)施主要包括以下工作:用DDL定義數(shù)據(jù)庫結(jié)構(gòu)、組織數(shù)據(jù)入庫 、編制與調(diào)試應(yīng)用程序、數(shù)據(jù)庫試運(yùn)行 ,(Data Definition Language(DDL數(shù)據(jù)定義語言)用作開新數(shù)據(jù)表、設(shè)定字段、刪除數(shù)據(jù)表、刪除字段,管理所有有關(guān)數(shù)據(jù)庫結(jié)構(gòu)的東西)

●Create (新增有關(guān)數(shù)據(jù)庫結(jié)構(gòu)的東西,屬DDL)

●Drop (刪除有關(guān)數(shù)據(jù)庫結(jié)構(gòu)的東西,屬DDL)

●Alter (更改結(jié)構(gòu),屬DDL)

6. 數(shù)據(jù)庫運(yùn)行和維護(hù)階段

在數(shù)據(jù)庫系統(tǒng)運(yùn)行過程中必須不斷地對其進(jìn)行評價(jià)、調(diào)整與修改。內(nèi)容包括:數(shù)據(jù)庫的轉(zhuǎn)儲和恢復(fù)、數(shù)據(jù)庫的安全性、完整性控制、數(shù)據(jù)庫性能的監(jiān)督、分析和改進(jìn)、數(shù)據(jù)庫的重組織和重構(gòu)造。

7. 建模工具的使用

為加快數(shù)據(jù)庫設(shè)計(jì)速度,目前有很多數(shù)據(jù)庫輔助工具(CASE工具),如Rational公司的Rational Rose,CA公司的Erwin和Bpwin,Sybase公司的PowerDesigner以及Oracle公司的oracle Designer等。

ERwin主要用來建立數(shù)據(jù)庫的概念模型和物理模型。它能用圖形化的方式,描述出實(shí)體、聯(lián)系及實(shí)體的屬性。ERwin支持IDEF1X方法。通過使用 ERwin建模工具自動生成、更改和分析IDEF1X模型,不僅能得到優(yōu)秀的業(yè)務(wù)功能和數(shù)據(jù)需求模型,而且可以實(shí)現(xiàn)從IDEF1X模型到數(shù)據(jù)庫物理設(shè)計(jì)的轉(zhuǎn)變。ERwin工具繪制的模型對應(yīng)于邏輯模型和物理模型兩種。在邏輯模型中,IDEF1X工具箱可以方便地用圖形化的方式構(gòu)建和繪制實(shí)體聯(lián)系及實(shí)體的屬性。在物理模型中,ERwin可以定義對應(yīng)的表、列,并可針對各種數(shù)據(jù)庫管理系統(tǒng)自動轉(zhuǎn)換為適當(dāng)?shù)念愋汀?/p>

設(shè)計(jì)人員可根據(jù)需要選用相應(yīng)的數(shù)據(jù)庫設(shè)計(jì)建模工具。例如需求分析完成之后,設(shè)計(jì)人員可以使用Erwin畫ER圖,將ER圖轉(zhuǎn)換為關(guān)系數(shù)據(jù)模型,生成數(shù)據(jù)庫結(jié)構(gòu);畫數(shù)據(jù)流圖,生成應(yīng)用程序。

二、數(shù)據(jù)庫設(shè)計(jì)技巧

1. 設(shè)計(jì)數(shù)據(jù)庫之前(需求分析階段)

1) 理解客戶需求,包括用戶未來需求變化。

2) 了解企業(yè)業(yè)務(wù)類型,可以在開發(fā)階段節(jié)約大量的時間。

3) 重視輸入(要記錄的數(shù)據(jù))、輸出(報(bào)表、查詢、視圖)。

4) 創(chuàng)建數(shù)據(jù)字典和ER 圖表

數(shù)據(jù)字典(Data Dictionary,簡稱DD)是各類數(shù)據(jù)描述的集合,是關(guān)于數(shù)據(jù)庫中數(shù)據(jù)的描述,即元數(shù)據(jù),不是數(shù)據(jù)本身。(至少應(yīng)該包含每個字段的數(shù)據(jù)類型和在每個表內(nèi)的主外鍵)。

數(shù)據(jù)項(xiàng)描述: 數(shù)據(jù)項(xiàng)名,數(shù)據(jù)項(xiàng)含義說明,別名,數(shù)據(jù)類型,長度,取值范圍,取值含義,與其他數(shù)據(jù)項(xiàng)的邏輯關(guān)系

數(shù)據(jù)結(jié)構(gòu)描述: 數(shù)據(jù)結(jié)構(gòu)名,含義說明,組成:[數(shù)據(jù)項(xiàng)或數(shù)據(jù)結(jié)構(gòu)]

數(shù)據(jù)流描述: 數(shù)據(jù)流名,說明,數(shù)據(jù)流來源,數(shù)據(jù)流去向, 組成:[數(shù)據(jù)結(jié)構(gòu)],平均流量,高峰期流量

數(shù)據(jù)存儲描述: 數(shù)據(jù)存儲名,說明,編號,流入的數(shù)據(jù)流,流出的數(shù)據(jù)流,組成:[數(shù)據(jù)結(jié)構(gòu)],數(shù)據(jù)量,存取方式

處理過程描述: 處理過程名,說明,輸入:[數(shù)據(jù)流],輸出:[數(shù)據(jù)流],處理:[簡要說明]

ER 圖表和數(shù)據(jù)字典可以讓任何了解數(shù)據(jù)庫的人都明確如何從數(shù)據(jù)庫中獲得數(shù)據(jù)。ER圖對表明表之間關(guān)系很有用,而數(shù)據(jù)字典則說明了每個字段的用途以及任何可能存在的別名。對SQL 表達(dá)式的文檔化來說這是完全必要的。

5) 定義標(biāo)準(zhǔn)的對象命名規(guī)范

數(shù)據(jù)庫各種對象的命名必須規(guī)范。

作者: 小靈, 出處:論壇, 責(zé)任編輯: 李書琴, 2007-09-27 15:17

本文詳細(xì)解析了數(shù)據(jù)庫設(shè)計(jì)過程、設(shè)計(jì)技巧以及總結(jié)了數(shù)據(jù)庫命名規(guī)范……

2. 表和字段的設(shè)計(jì)(數(shù)據(jù)庫邏輯設(shè)計(jì))

表設(shè)計(jì)原則

1) 標(biāo)準(zhǔn)化和規(guī)范化

數(shù)據(jù)的標(biāo)準(zhǔn)化有助于消除數(shù)據(jù)庫中的數(shù)據(jù)冗余。標(biāo)準(zhǔn)化有好幾種形式,但Third Normal Form(3NF)通常被認(rèn)為在性能、擴(kuò)展性和數(shù)據(jù)完整性方面達(dá)到了最好平衡。簡單來說,遵守3NF 標(biāo)準(zhǔn)的數(shù)據(jù)庫的表設(shè)計(jì)原則是:“One Fact in One Place”即某個表只包括其本身基本的屬性,當(dāng)不是它們本身所具有的屬性時需進(jìn)行分解。表之間的關(guān)系通過外鍵相連接。它具有以下特點(diǎn):有一組表專門存放通過鍵連接起來的關(guān)聯(lián)數(shù)據(jù)。

2) 數(shù)據(jù)驅(qū)動

采用數(shù)據(jù)驅(qū)動而非硬編碼的方式,許多策略變更和維護(hù)都會方便得多,大大增強(qiáng)系統(tǒng)的靈活性和擴(kuò)展性。

舉例,假如用戶界面要訪問外部數(shù)據(jù)源(文件、XML 文檔、其他數(shù)據(jù)庫等),不妨把相應(yīng)的連接和路徑信息存儲在用戶界面支持的表里。如果用戶界面執(zhí)行工作流之類的任務(wù)(發(fā)送郵件、打印信箋、修改記錄狀態(tài)等),那么產(chǎn)生工作流的數(shù)據(jù)也可以存放在數(shù)據(jù)庫里。角色權(quán)限管理也可以通過數(shù)據(jù)驅(qū)動來完成。事實(shí)上,如果過程是數(shù)據(jù)驅(qū)動的,你就可以把相當(dāng)大的責(zé)任推給用戶,由用戶來維護(hù)自己的工作流過程。

3) 考慮各種變化

在設(shè)計(jì)數(shù)據(jù)庫的時候考慮到哪些數(shù)據(jù)字段將來可能會發(fā)生變更。

4) 表名、報(bào)表名和查詢名的命名規(guī)范

(采用前綴命名)檢查表名、報(bào)表名和查詢名之間的命名規(guī)范。你可能會很快就被這些不同的數(shù)據(jù)庫要素的名稱搞糊涂了。你可以統(tǒng)一地命名這些數(shù)據(jù)庫的不同組成部分,至少你應(yīng)該在這些對象名字的開頭用 Table、Query 或者 Report 等前綴加以區(qū)別。如果采用了 Microsoft Access,你可以用 qry、rpt、tbl 和 mod 等符號來標(biāo)識對象(比如 tbl_Employees)。用 sp_company 標(biāo)識存儲過程,用 udf_ (或者類似的標(biāo)記)標(biāo)識自定義編寫的函數(shù)。

字段設(shè)計(jì)原則:

1) 每個表中都應(yīng)該添加的3 個有用的字段。

dRecordCreationDate,在SQL Server 下默認(rèn)為GETDATE()

sRecordCreator,在SQL Server 下默認(rèn)為NOT NULL DEFAULT USER

nRecordVersion,記錄的版本標(biāo)記;有助于準(zhǔn)確說明記錄中出現(xiàn)null 數(shù)據(jù)或者丟失數(shù)據(jù)的原因

時效性數(shù)據(jù)應(yīng)包括“最近更新日期/時間”字段。時間標(biāo)記對查找數(shù)據(jù)問題的原因、按日期重新處理/重載數(shù)據(jù)和清除舊數(shù)據(jù)特別有用。

2) 對地址和電話采用多個字段

描述街道地址就短短一行記錄是不夠的。Address_Line1、Address_Line2 和Address_Line3 可以提供更大的靈活性。還有,電話號碼和郵件地址最好擁有自己的數(shù)據(jù)表,其間具有自身的類型和標(biāo)記類別。

3) 表內(nèi)的列[字段]的命名規(guī)則(采用前綴/后綴命名)、采用有意義的字段名

對列[字段]名應(yīng)該采用標(biāo)準(zhǔn)的前綴和后綴。如鍵是數(shù)字類型:用 _N 后綴;字符類型:_C 后綴;日期類型:_D 后綴。再如,假如你的表里有好多“money”字段,你不妨給每個列[字段]增加一個 _M 后綴。

作者: 小靈, 出處:論壇, 責(zé)任編輯: 李書琴, 2007-09-27 15:17

本文詳細(xì)解析了數(shù)據(jù)庫設(shè)計(jì)過程、設(shè)計(jì)技巧以及總結(jié)了數(shù)據(jù)庫命名規(guī)范……

假設(shè)有兩個表:

Customer 和 Order。Customer 表的前綴是 cu_,所以該表內(nèi)的子段名如下:cu_name_id、cu_surname、cu_initials 和cu_address 等。Order 表的前綴是 or_,所以子段名是:

or_order_id、or_cust_name_id、or_quantity 和 or_description 等。

這樣從數(shù)據(jù)庫中選出全部數(shù)據(jù)的 SQL 語句可以寫成如下所示:

Select * From Customer, Order Where cu_surname = "MYNAME" ;

and cu_name_id = or_cust_name_id and or_quantity = 1

在沒有這些前綴的情況下則寫成這個樣子(用別名來區(qū)分):

Select * From Customer, Order Where Customer.surname = "MYNAME" ;

and Customer.name_id = Order.cust_name_id and Order.quantity = 1

第 1 個 SQL 語句沒少鍵入多少字符。但如果查詢涉及到 5 個表乃至更多的列[字段]你就知道這個技巧多有用了。

5) 選擇數(shù)字類型和文本類型的長度應(yīng)盡量充足

假設(shè)客戶ID 為10 位數(shù)長。那你應(yīng)該把數(shù)據(jù)庫表字段的長度設(shè)為12 或者13 個字符長。但這額外占據(jù)的空間卻無需將來重構(gòu)整個數(shù)據(jù)庫就可以實(shí)現(xiàn)數(shù)據(jù)庫規(guī)模的增長了。

6) 增加刪除標(biāo)記字段

在表中包含一個“刪除標(biāo)記”字段,這樣就可以把行標(biāo)記為刪除。在關(guān)系數(shù)據(jù)庫里不要單獨(dú)刪除某一行;最好采用清除數(shù)據(jù)程序而且要仔細(xì)維護(hù)索引整體性。

7) 提防大小寫混用的對象名和特殊字符

采用全部大寫而且包含下劃符的名字具有更好的可讀性(CUSTOMER_DATA),絕對不要在對象名的字符之間留空格。

8) 小心保留詞

要保證你的字段名沒有和保留詞、數(shù)據(jù)庫系統(tǒng)或者常用訪問方法沖突,比如,用 DESC 作為說明字段名。后果可想而知!DESC 是 DESCENDING 縮寫后的保留詞。表里的一個 SELECT * 語句倒是能用,但得到的卻是一大堆毫無用處的信息。

9) 保持字段名和類型的一致性

在命名字段并為其指定數(shù)據(jù)類型的時候一定要保證一致性。假如字段在表1中叫做“agreement_number”,就別在表2里把名字改成 “ref1”。假如數(shù)據(jù)類型在表1里是整數(shù),那在表2里可就別變成字符型了。當(dāng)然在表1(ABC)有處鍵ID,則為了可讀性,在表2做關(guān)聯(lián)時可以命名為 ABC_ID。

10) 避免使用觸發(fā)器

觸發(fā)器的功能通??梢杂闷渌绞綄?shí)現(xiàn)。在調(diào)試程序時觸發(fā)器可能成為干擾。假如你確實(shí)需要采用觸發(fā)器,你最好集中對它文檔化。

作者: 小靈, 出處:論壇, 責(zé)任編輯: 李書琴, 2007-09-27 15:17

本文詳細(xì)解析了數(shù)據(jù)庫設(shè)計(jì)過程、設(shè)計(jì)技巧以及總結(jié)了數(shù)據(jù)庫命名規(guī)范……

3. 選擇鍵和索引(數(shù)據(jù)庫邏輯設(shè)計(jì))

參考:《SQL優(yōu)化-索引》一文

4. 數(shù)據(jù)完整性設(shè)計(jì)(數(shù)據(jù)庫邏輯設(shè)計(jì))

1) 完整性實(shí)現(xiàn)機(jī)制:

實(shí)體完整性:主鍵

參照完整性:

父表中刪除數(shù)據(jù):級聯(lián)刪除;受限刪除;置空值

父表中插入數(shù)據(jù):受限插入;遞歸插入

父表中更新數(shù)據(jù):級聯(lián)更新;受限更新;置空值

DBMS對參照完整性可以有兩種方法實(shí)現(xiàn):外鍵實(shí)現(xiàn)機(jī)制(約束規(guī)則)和觸發(fā)器實(shí)現(xiàn)機(jī)制用戶定義完整性:

NOT NULL;CHECK;觸發(fā)器

2) 用約束而非商務(wù)規(guī)則強(qiáng)制數(shù)據(jù)完整性

采用數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)的完整性。這不但包括通過標(biāo)準(zhǔn)化實(shí)現(xiàn)的完整性而且還包括數(shù)據(jù)的功能性。不要依賴于商務(wù)層保證數(shù)據(jù)完整性;它不能保證表之間(外鍵) 的完整性所以不能強(qiáng)加于其他完整性規(guī)則之上。如果你在數(shù)據(jù)層確實(shí)采用了約束,你要保證有辦法把更新不能通過約束檢查的原因采用用戶理解的語言通知用戶界面。

3) 強(qiáng)制指示完整性

在有害數(shù)據(jù)進(jìn)入數(shù)據(jù)庫之前將其剔除。激活數(shù)據(jù)庫系統(tǒng)的指示完整性特性。這樣可以保持?jǐn)?shù)據(jù)的清潔而能迫使開發(fā)人員投入更多的時間處理錯誤條件。

4) 使用查找控制數(shù)據(jù)完整性

控制數(shù)據(jù)完整性的最佳方式就是限制用戶的選擇。只要有可能都應(yīng)該提供給用戶一個清晰的價(jià)值列表供其選擇。這樣將減少鍵入代碼的錯誤和誤解同時提供數(shù)據(jù)的一致性。某些公共數(shù)據(jù)特別適合查找:國家代碼、狀態(tài)代碼等。

5) 采用視圖

為了在數(shù)據(jù)庫和應(yīng)用程序代碼之間提供另一層抽象,可以為應(yīng)用程序建立專門的視圖而不必非要應(yīng)用程序直接訪問數(shù)據(jù)表。這樣做還等于在處理數(shù)據(jù)庫變更時給你提供了更多的自由。

6) 分布式數(shù)據(jù)系統(tǒng)

對分布式系統(tǒng)而言,在你決定是否在各個站點(diǎn)復(fù)制所有數(shù)據(jù)還是把數(shù)據(jù)保存在一個地方之前應(yīng)該估計(jì)一下未來 5 年或者 10 年的數(shù)據(jù)量。當(dāng)你把數(shù)據(jù)傳送到其他站點(diǎn)的時候,最好在數(shù)據(jù)庫字段中設(shè)置一些標(biāo)記,在目的站點(diǎn)收到你的數(shù)據(jù)之后更新你的標(biāo)記。為了進(jìn)行這種數(shù)據(jù)傳輸,請寫下你自己的批處理或者調(diào)度程序以特定時間間隔運(yùn)行而不要讓用戶在每天的工作后傳輸數(shù)據(jù)。本地拷貝你的維護(hù)數(shù)據(jù),比如計(jì)算常數(shù)和利息率等,設(shè)置版本號保證數(shù)據(jù)在每個站點(diǎn)都完全一致。

7) 關(guān)系

如果兩個實(shí)體之間存在多對一關(guān)系,而且還有可能轉(zhuǎn)化為多對多關(guān)系,那么你最好一開始就設(shè)置成多對多關(guān)系。從現(xiàn)有的多對一關(guān)系轉(zhuǎn)變?yōu)槎鄬Χ嚓P(guān)系比一開始就是多對多關(guān)系要難得多。

8) 給數(shù)據(jù)保有和恢復(fù)制定計(jì)劃

考慮數(shù)據(jù)保存策略并包含在設(shè)計(jì)過程中,預(yù)先設(shè)計(jì)你的數(shù)據(jù)恢復(fù)過程。采用可以發(fā)布給用戶/開發(fā)人員的數(shù)據(jù)字典實(shí)現(xiàn)方便的數(shù)據(jù)識別同時保證對數(shù)據(jù)源文檔化。編寫在線更新來“更新查詢”供以后萬一數(shù)據(jù)丟失可以重新處理更新。

9) 用存儲過程讓系統(tǒng)做重活

提供一整套常規(guī)的存儲過程來訪問各組以便加快速度和簡化客戶程序代碼的開發(fā)。數(shù)據(jù)庫不只是一個存放數(shù)據(jù)的地方,它也是簡化編碼之地。

本文詳細(xì)解析了數(shù)據(jù)庫設(shè)計(jì)過程、設(shè)計(jì)技巧以及總結(jié)了數(shù)據(jù)庫命名規(guī)范……

5. 其他設(shè)計(jì)技巧

1) 避免使用觸發(fā)器

觸發(fā)器的功能通??梢杂闷渌绞綄?shí)現(xiàn)。在調(diào)試程序時觸發(fā)器可能成為干擾。假如你確實(shí)需要采用觸發(fā)器,你最好集中對它文檔化。

2) 使用常用英語(或者其他任何語言)而不要使用編碼

在創(chuàng)建下拉菜單、列表、報(bào)表時最好按照英語名排序。假如需要編碼,可以在編碼旁附上用戶知道的英語。

3) 保存常用信息

讓一個表專門存放一般數(shù)據(jù)庫信息非常有用。在這個表里存放數(shù)據(jù)庫當(dāng)前版本、最近檢查/修復(fù)(對Access)、關(guān)聯(lián)設(shè)計(jì)文檔的名稱、客戶等信息。這樣可以實(shí)現(xiàn)一種簡單機(jī)制跟蹤數(shù)據(jù)庫,當(dāng)客戶抱怨他們的數(shù)據(jù)庫沒有達(dá)到希望的要求而與你聯(lián)系時,這樣做對非客戶機(jī)/服務(wù)器環(huán)境特別有用。

4) 包含版本機(jī)制

在數(shù)據(jù)庫中引入版本控制機(jī)制來確定使用中的數(shù)據(jù)庫的版本。時間一長,用戶的需求總是會改變的。最終可能會要求修改數(shù)據(jù)庫結(jié)構(gòu)。把版本信息直接存放到數(shù)據(jù)庫中更為方便。

5) 編制文檔

對所有的快捷方式、命名規(guī)范、限制和函數(shù)都要編制文檔。

采用給表、列、觸發(fā)器等加注釋的 數(shù)據(jù)庫工具。對開發(fā)、支持和跟蹤修改非常有用。

對數(shù)據(jù)庫文檔化,或者在數(shù)據(jù)庫自身的內(nèi)部或者單獨(dú)建立文檔。這樣,當(dāng)過了一年多時間后再回過頭來做第2 個版本,犯錯的機(jī)會將大大減少。

6) 測試、測試、反復(fù)測試

建立或者修訂數(shù)據(jù)庫之后,必須用用戶新輸入的數(shù)據(jù)測試數(shù)據(jù)字段。最重要的是,讓用戶進(jìn)行測試并且同用戶一道保證選擇的數(shù)據(jù)類型滿足商業(yè)要求。測試需要在把新數(shù)據(jù)庫投入實(shí)際服務(wù)之前完成。

7) 檢查設(shè)計(jì)

在開發(fā)期間檢查數(shù)據(jù)庫設(shè)計(jì)的常用技術(shù)是通過其所支持的應(yīng)用程序原型檢查數(shù)據(jù)庫。換句話說,針對每一種最終表達(dá)數(shù)據(jù)的原型應(yīng)用,保證你檢查了數(shù)據(jù)模型并且查看如何取出數(shù)據(jù)。

三、數(shù)據(jù)庫命名規(guī)范

1. 實(shí)體(表)的命名

1) 表以名詞或名詞短語命名,確定表名是采用復(fù)數(shù)還是單數(shù)形式,此外給表的別名定義簡單規(guī)則(比方說,如果表名是一個單詞,別名就取單詞的前4 個字母;如果表名是兩個單詞,就各取兩個單詞的前兩個字母組成4 個字母長的別名;如果表的名字由3 個單詞組成,從頭兩個單詞中各取一個然后從最后一個單詞中再取出兩個字母,結(jié)果還是組成4 字母長的別名,其余依次類推)

對工作用表來說,表名可以加上前綴WORK_ 后面附上采用該表的應(yīng)用程序的名字。在命名過程當(dāng)中,根據(jù)語義拼湊縮寫即可。注意:將字段名稱會統(tǒng)一成大寫或者小寫中的一種,故中間加上下劃線。

作者: 小靈, 出處:論壇, 責(zé)任編輯: 李書琴, 2007-09-27 15:17

本文詳細(xì)解析了數(shù)據(jù)庫設(shè)計(jì)過程、設(shè)計(jì)技巧以及總結(jié)了數(shù)據(jù)庫命名規(guī)范……

舉例:

定義的縮寫 Sales: Sal 銷售;

Order: Ord 訂單;

Detail: Dtl 明細(xì);

則銷售訂單明細(xì)表命名為:Sal_Ord_Dtl;

2) 如果表或者是字段的名稱僅有一個單詞,那么建議不使用縮寫,而是用完整的單詞。

舉例:

定義的縮寫 Material Ma 物品;

物品表名為:Material, 而不是 Ma.

但是字段物品編碼則是:Ma_ID;而不是Material_ID

3) 所有的存儲值列表的表前面加上前綴Z

目的是將這些值列表類排序在數(shù)據(jù)庫最后。

4) 所有的冗余類的命名(主要是累計(jì)表)前面加上前綴X

冗余類是為了提高數(shù)據(jù)庫效率,非規(guī)范化數(shù)據(jù)庫的時候加入的字段或者表

5) 關(guān)聯(lián)類通過用下劃線連接兩個基本類之后,再加前綴R的方式命名,后面按照字母順序羅列兩個表名或者表名的縮寫。

關(guān)聯(lián)表用于保存多對多關(guān)系。

如果被關(guān)聯(lián)的表名大于10個字母,必須將原來的表名的進(jìn)行縮寫。如果沒有其他原因,建議都使用縮寫。

舉例:表Object與自身存在多對多的關(guān)系,則保存多對多關(guān)系的表命名為:R_Object;

作者: 小靈, 出處:論壇, 責(zé)任編輯: 李書琴, 2007-09-27 15:17

本文詳細(xì)解析了數(shù)據(jù)庫設(shè)計(jì)過程、設(shè)計(jì)技巧以及總結(jié)了數(shù)據(jù)庫命名規(guī)范……

2. 屬性(列)的命名

1) 采用有意義的列名

表內(nèi)的列要針對鍵采用一整套設(shè)計(jì)規(guī)則。每一個表都將有一個自動ID作為主健,邏輯上的主健作為第一組候選主健來定義;

A、如果是數(shù)據(jù)庫自動生成的編碼,統(tǒng)一命名為:ID

B、如果是自定義的邏輯上的編碼則用縮寫加“ID”的方法命名,即“XXXX_ID”

C、如果鍵是數(shù)字類型,你可以用_NO 作為后綴;

D、如果是字符類型則可以采用_CODE 后綴

E、對列名應(yīng)該采用標(biāo)準(zhǔn)的前綴和后綴。

舉例:銷售訂單的編號字段命名:Sal_Ord_ID;如果還存在一個數(shù)據(jù)庫生成的自動編號,則命名為:ID。

2) 所有的屬性加上有關(guān)類型的后綴

注意,如果還需要其它的后綴,都放在類型后綴之前。

注: 數(shù)據(jù)類型是文本的字段,類型后綴TX可以不寫。有些類型比較明顯的字段,可以不寫類型后綴。

3) 采用前綴命名

給每個表的列名都采用統(tǒng)一的前綴,那么在編寫SQL表達(dá)式的時候會得到大大的簡化。這樣做也確實(shí)有缺點(diǎn),比如破壞了自動表連接工具的作用,后者把公共列名同某些數(shù)據(jù)庫聯(lián)系起來。

3. 視圖的命名

1) 視圖以V作為前綴,其他命名規(guī)則和表的命名類似;

2) 命名應(yīng)盡量體現(xiàn)各視圖的功能。

4. 觸發(fā)器的命名(盡量不使用)

觸發(fā)器以TR作為前綴,觸發(fā)器名為相應(yīng)的表名加上后綴,Insert觸發(fā)器加'_I',Delete觸發(fā)器加'_D',Update觸發(fā)器加'_U',如:TR_Customer_I,TR_Customer_D,TR_Customer_U。

5. 存儲過程名

存儲過程應(yīng)以'UP_'開頭,和系統(tǒng)的存儲過程區(qū)分,后續(xù)部分主要以動賓形式構(gòu)成,并用下劃線分割各個組成部分。如增加代理商的帳戶的存儲過程為'UP_Ins_Agent_Account'。

6. 變量名

變量名采用小寫,若屬于詞組形式,用下劃線分隔每個單詞,如@my_err_no。

7. 命名中其他注意事項(xiàng)

1) 以上命名都不得超過30個字符的系統(tǒng)限制。變量名的長度限制為29(不包括標(biāo)識字符@)。

2) 數(shù)據(jù)對象、變量的命名都采用英文字符,禁止使用中文命名。絕對不要在對象名的字符之間留空格。

3) 小心保留詞,要保證你的字段名沒有和保留詞、數(shù)據(jù)庫系統(tǒng)或者常用訪問方法沖突

4) 保持字段名和類型的一致性,在命名字段并為其指定數(shù)據(jù)類型的時候一定要保證一致性。假如數(shù)據(jù)類型在一個表里是整數(shù),那在另一個表里可就別變成字符型了。

如何對已合并的訂單做拆分

目前在淘寶主站在該類功能的處理上,一筆交易只能跟蹤一條物流信息,且已實(shí)際生成的訂單為準(zhǔn),不支持拆單和合并操作。API業(yè)務(wù)邏輯上與主站一致,因此無法實(shí)現(xiàn)您描述的業(yè)務(wù)場景。訂單合并的話可以嘗試通過代碼將某一時間段內(nèi)買家和收貨地址相同的訂單使用同一運(yùn)單號進(jìn)行發(fā)貨(業(yè)務(wù)上只檢查運(yùn)單的有效性,不檢查重復(fù)性)

電商之訂單拆單總結(jié)

拆單產(chǎn)生的原因:

用戶在平臺上下了一單。但因商品由不同商家或不同倉庫分別寄給用戶,產(chǎn)生了多張物流單和不同的到貨時間。而到貨時間,又與申請換貨有關(guān)。整個業(yè)務(wù)邏輯耦合程度很高。為了解耦,各大電商平臺便紛紛拆單。保證每張訂單的商品都會一次寄送,同時到達(dá)。

各家的做法:

目前電商主要分為平臺型和自營型,各自的拆單機(jī)制略有不同。

拆單帶來的另一個大問題,原訂單的信息要與新拆單的信息保持一致。其中一個非常頭疼的問題,便是支付問題。如有用戶在訂單中使用了優(yōu)惠卷,如何將優(yōu)惠卷信息,順利均分。

平臺型以天貓舉例,天貓的拆單是按照店家的緯度進(jìn)行拆單。假如用戶使用了天貓自身的優(yōu)惠卷或者積分。那么對于天貓后臺來說,天貓與店家進(jìn)行結(jié)算時,優(yōu)惠卷如何處理;店家與用戶開具發(fā)票時,優(yōu)惠卷又如何處理。這些問題很麻煩,但也是平臺型不得不解決的問題。

方案1:平臺與店家結(jié)算時,以現(xiàn)金的形式支付優(yōu)惠卷金額;店家與用戶結(jié)算發(fā)票時將優(yōu)惠卷金額也開具給用戶。這樣的流程比較簡單,操作起來也比較方便。

方案2:平臺與店家結(jié)算時,以現(xiàn)金的形式支付優(yōu)惠卷金額。店家與用戶結(jié)算發(fā)票時,優(yōu)惠卷金額不結(jié)算,店家再與平臺結(jié)算一次發(fā)票金額。

方案3:平臺與店家結(jié)算時,已現(xiàn)金的形式支付優(yōu)惠卷金額;同時平臺與店家結(jié)算發(fā)票。然后平臺與用戶進(jìn)行結(jié)算和開具發(fā)票。這樣將所有的業(yè)務(wù)邏輯收歸到平臺,對于平臺的財(cái)務(wù)統(tǒng)計(jì)等比較方便。由此產(chǎn)生的退貨牽扯的發(fā)票問題,解決起來也比較容易。

自營型的拆單相對來說就比較簡單了。以京東為例:京東物流查詢等,都是以發(fā)貨倉庫的維度進(jìn)行的。當(dāng)用戶下單需要從多個倉庫發(fā)貨,就會自動拆單,將原訂單自動拆單位兩個新的訂單,這三個訂單對用戶來說都可見,所以看起來怪怪的。

使用java語言爬取自己的淘寶訂單看看買了哪些東西?

Java爬蟲框架WebMagic簡介及使用

一、介紹

webmagic的是一個無須配置、便于二次開發(fā)的爬蟲框架,它提供簡單靈活的API,只需少量代碼即可實(shí)現(xiàn)一個爬蟲。webmagic采用完全模塊化的設(shè)計(jì),功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內(nèi)容抽取、持久化),支持多線程抓取,分布式抓取,并支持自動重試、自定義UA/cookie等功能。

二、概覽

WebMagic項(xiàng)目代碼分為核心和擴(kuò)展兩部分。核心部分(webmagic-core)是一個精簡的、模塊化的爬蟲實(shí)現(xiàn),而擴(kuò)展部分則包括一些便利的、實(shí)用性的功能(例如注解模式編寫爬蟲等)。

WebMagic的結(jié)構(gòu)分為Downloader、PageProcessor、Scheduler、Pipeline四大組件,并由Spider將它們彼此組織起來。這四大組件對應(yīng)爬蟲生命周期中的下載、處理、管理和持久化等功能。而Spider則將這幾個組件組織起來,讓它們可以互相交互,流程化的執(zhí)行,可以認(rèn)為Spider是一個大的容器,它也是WebMagic邏輯的核心。

2.1 WebMagic的四個組件

Downloader

Downloader負(fù)責(zé)從互聯(lián)網(wǎng)上下載頁面,以便后續(xù)處理。WebMagic默認(rèn)使用了Apache HttpClient作為下載工具。

PageProcessor

PageProcessor負(fù)責(zé)解析頁面,抽取有用信息,以及發(fā)現(xiàn)新的鏈接。WebMagic使用Jsoup作為HTML解析工具,并基于其開發(fā)了解析XPath的工具Xsoup。在這四個組件中,PageProcessor對于每個站點(diǎn)每個頁面都不一樣,是需要使用者定制的部分。

Scheduler

Scheduler負(fù)責(zé)管理待抓取的URL,以及一些去重的工作。WebMagic默認(rèn)提供了JDK的內(nèi)存隊(duì)列來管理URL,并用集合來進(jìn)行去重。也支持使用Redis進(jìn)行分布式管理。除非項(xiàng)目有一些特殊的分布式需求,否則無需自己定制Scheduler。

Pipeline

Pipeline負(fù)責(zé)抽取結(jié)果的處理,包括計(jì)算、持久化到文件、數(shù)據(jù)庫等。WebMagic默認(rèn)提供了“輸出到控制臺”和“保存到文件”兩種結(jié)果處理方案。Pipeline定義了結(jié)果保存的方式,如果你要保存到指定數(shù)據(jù)庫,則需要編寫對應(yīng)的Pipeline。對于一類需求一般只需編寫一個Pipeline。

2.2 用于數(shù)據(jù)流轉(zhuǎn)的對象

Request

Request是對URL地址的一層封裝,一個Request對應(yīng)一個URL地址。它是PageProcessor與Downloader交互的載體,也是PageProcessor控制Downloader唯一方式。

Page

Page代表了從Downloader下載到的一個頁面——可能是HTML,也可能是JSON或者其他文本格式的內(nèi)容。Page是WebMagic抽取過程的核心對象,它提供一些方法可供抽取、結(jié)果保存等。

ReusltItems

ReusltItems相當(dāng)于一個Map,它保存PageProcessor處理的結(jié)果,供Pipeline使用。它的API與Map很類似,值得注意的是它有一個字段skip,若設(shè)置為true,則不應(yīng)被Pipeline處理。

2.3 控制爬蟲運(yùn)轉(zhuǎn)的引擎—Spider

Spider是WebMagic內(nèi)部流程的核心。Downloader、PageProcessor、Scheduler、Pipeline都是Spider的一個屬性,這些屬性是可以自由設(shè)置的,通過設(shè)置這個屬性可以實(shí)現(xiàn)不同的功能。Spider也是WebMagic操作的入口,它封裝了爬蟲的創(chuàng)建、啟動、停止、多線程等功能。

對于編寫一個爬蟲,PageProcessor是需要編寫的部分,而Spider則是創(chuàng)建和控制爬蟲的入口。

2.4 WebMagic項(xiàng)目組成

WebMagic項(xiàng)目代碼包括幾個部分,在根目錄下以不同目錄名分開。它們都是獨(dú)立的Maven項(xiàng)目。

WebMagic主要包括兩個包,這兩個包經(jīng)過廣泛實(shí)用,已經(jīng)比較成熟:

webmagic-core

webmagic-core是WebMagic核心部分,只包含爬蟲基本模塊和基本抽取器。

webmagic-extension

webmagic-extension是WebMagic的主要擴(kuò)展模塊,提供一些更方便的編寫爬蟲的工具。包括注解格式定義爬蟲、JSON、分布式等支持。

三、 基本的爬蟲

3.1 爬蟲的流程 (可以參考上邊的框架架構(gòu)圖)

Downloader-頁面下載

頁面下載是一切爬蟲的開始。

大部分爬蟲都是通過模擬http請求,接收并分析響應(yīng)來完成。這方面,JDK自帶的HttpURLConnection可以滿足最簡單的需要,而Apache HttpClient(4.0后整合到HttpCompenent項(xiàng)目中)則是開發(fā)復(fù)雜爬蟲的不二之選。它支持自定義HTTP頭(對于爬蟲比較有用的就是User-agent、cookie等)、自動redirect、連接復(fù)用、cookie保留、設(shè)置代理等諸多強(qiáng)大的功能。

webmagic使用了HttpClient 4.2,并封裝到了HttpClientDownloader。學(xué)習(xí)HttpClient的使用對于構(gòu)建高性能爬蟲是非常有幫助的,官方的Tutorial就是很好的學(xué)習(xí)資料。目前webmagic對HttpClient的使用仍在初步階段,不過對于一般抓取任務(wù),已經(jīng)夠用了

PageProcessor-頁面分析及鏈接抽取

Selector是webmagic為了簡化頁面抽取開發(fā)的獨(dú)立模塊,是整個項(xiàng)目中我最得意的部分。這里整合了CSS Selector、XPath和正則表達(dá)式,并可以進(jìn)行鏈?zhǔn)降某槿。苋菀拙蛯?shí)現(xiàn)強(qiáng)大的功能。即使你使用自己開發(fā)的爬蟲工具,webmagic的Selector仍然值得一試

Jsoup

HtmlParser

Apache tika

HtmlCleaner與Xpath

這里說的頁面分析主要指HTML頁面的分析。頁面分析可以說是垂直爬蟲最復(fù)雜的一部分,在webmagic里,PageProcessor是定制爬蟲的核心。通過編寫一個實(shí)現(xiàn)PageProcessor接口的類,就可以定制一個自己的爬蟲

HTML分析是一個比較復(fù)雜的工作,Java世界主要有幾款比較方便的分析工具:

webmagic的Selector

Scheduler-URL管理

URL管理的問題可大可小。對于小規(guī)模的抓取,URL管理是很簡單的。我們只需要將待抓取URL和已抓取URL分開保存,并進(jìn)行去重即可。使用JDK內(nèi)置的集合類型Set、List或者Queue都可以滿足需要。如果我們要進(jìn)行多線程抓取,則可以選擇線程安全的容器,例如LinkedBlockingQueue以及ConcurrentHashMap。因?yàn)樾∫?guī)模的URL管理非常簡單,很多框架都并不將其抽象為一個模塊,而是直接融入到代碼中。但是實(shí)際上,抽象出Scheduler模塊,會使得框架的解耦程度上升一個檔次,并非常容易進(jìn)行橫向擴(kuò)展,這也是我從scrapy中學(xué)到的。

Pipeline-離線處理和持久化

Pipeline其實(shí)也是容易被忽略的一部分。大家都知道持久化的重要性,但是很多框架都選擇直接在頁面抽取的時候?qū)⒊志没黄鹜瓿?,例如crawer4j。但是Pipeline真正的好處是,將頁面的在線分析和離線處理拆分開來,可以在一些線程里進(jìn)行下載,另一些線程里進(jìn)行處理和持久化。

3.2 使用WebMagic爬取一個壁紙網(wǎng)站

首先引入WebMagic的依賴,webmagic-core-{version}.jar和webmagic-extension-{version}.jar。在項(xiàng)目中添加這兩個包的依賴,即可使用WebMagic。

maven中引入依賴jar包

dependency

groupIdus.codecraft/groupId

artifactIdwebmagic-core/artifactId

version0.5.3/version

/dependency

dependency

groupIdus.codecraft/groupId

artifactIdwebmagic-extension/artifactId

version0.5.3/version

/dependency1234567891012345678910

不使用maven的用戶,可以去中下載最新的jar包。


分享標(biāo)題:訂單拆單java代碼 拆單軟件代碼編寫
瀏覽地址:http://weahome.cn/article/dojihsj.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部