КампутарыТыпы файлаў

Фармат CSV, або Куды ставіць коскай?

Сярод прыкладных задач, з якімі сутыкаецца калі не праграміст, то ўжо прасунуты карыстальнік, імпарт дадзеных з аднаго прыкладанні ў іншае сустракаецца не так ужо рэдка. І даволі часта даводзіцца імпартаваць таблічныя дадзеныя, для чаго, уласна, і быў прыдуманы фармат CSV. Зараз распрацавана ўжо некалькі альтэрнатыўных рашэнняў (лідзіруе сярод іх XML). Але стварэнне файла CSV ў некаторых выпадках застаецца самым зручным рашэннем, а некаторых - самым праблематычным.

Расшыфроўваецца назву фармату як commaseparatedvalues - падзеленыя коскамі значэння. У Нататніку файл выглядае наступным чынам:

00, 01, 02, 03;

01, 15, 34, 11;

16, 27, 33, 06 (у самым канцы знак ставіць не абавязкова)

А ў табліцы Excel або падобнага прыкладання ўжо так:

00 01 02 03
01 15 34 11
16 27 33 06

Але цяпер мы разабралі самы просты выпадак. Праблемы пачынаюцца як раз з-за таго, што дзякуючы вельмі сціснутаму прадстаўленні дадзеных, CSV фармат выкарыстоўваецца для перадачы вялікіх аб'ёмаў інфармацыі. Часцей за ўсё ў базах сустракаюцца разнастайныя значэння: лічбавыя, літарныя, лічба-літарныя, з прабеламі і г.д. Нярэдка ў вялікіх масівах сустракаюцца памылкі, і калі, напрыклад, дзе-то з'явіцца лішняя коска ўнутры змесціва аднаго з палёў, усе вочкі могуць зрушыцца на адну.

Наогул, праблемы, якія ўзнікаюць пры імпарце дадзеных праз фармат файла CSV, можна падзяліць на тры катэгорыі:

1 - Некарэктнае запаўненне палёў.

2 - Няправільнае пераўтварэнне дадзеных пры захаванні файла ў CSV.

3 - Няправільнае распазнаванне фармату праграмай-імпарцёрам.

Першы выпадак мы ўжо часткова разгледзелі. Каб змагацца з праблемай, неабходна прадугледзець сродкі кантролю правільнасці ўводзяцца дадзеных. Напрыклад, калі вам неабходна сабраць базу дадзеных адрасоў для паштовай рассылкі, існуюць спецыяльныя скрыпты, якія правяраюць, увёў Ці чалавек свой e-mail ў патрэбным фармаце. Там, дзе ёсць прабелы, коскі і любыя іншыя дадзеныя, якія могуць счытвацца няправільна, змесціва поля неабходна заключыць у двукоссі (так званыя кампутарныя "").

Другі выпадак звязаны з выбарам кадоўкі. Неабходна высветліць, часцяком дасведчаным шляхам, якую кадыроўку аддасць перавагу праграма-імпарцёр. У Windows паўсюдна ўжываецца 1251, таму калі ў зыходным файле сустрэнецца тэкст у Unicode, ён будзе адлюстроўвацца ў дадатку-атрымальніку як ланцужкі пытанняў. У Excel ёсць магчымасць захоўваць у фармат CSV з рознай кадоўкай і падзельнікамі (акрамя коскі яшчэ выкарыстоўваецца табуляцыя і кропка з коскі), але лепш за ўсё ствараць файл у Notepad ++ або OpenOfficeCalc.

Трэці выпадак - следства другога. Гістарычна склалася, што фармат CSV не мае адзінага стандарту. Многія праграмы ўспрымаюць як CSV таксама файлы фарматаў TSV (падзел табуляцыі) і SCSV (падзел кропкай з коскі), у прыватнасці таму, што пашырэнне файла пра гэта не паведамляе. Пры гэтым дадзеныя счытваюцца памылкова і не размяркоўваюцца па вочках у патрэбным парадку. Лепшае, што можна параіць - ствараць CSV файл ўласнаручна. Як ужо гаварылася, для гэтага трэба скарыстацца зручным рэдактарам.

Хітрасці таго, як утаймаваць фармат CSV, вядомыя праграмістам. Простаму карыстачу досыць прытрымлівацца нашых рэкамендацый адносна стварэння файла. Менш за ўсё праблем узнікае тады, калі файл ствараецца спецыяльна для імпарту ў пэўны дадатак (бывае і па-іншаму). Так прасцей ўлічыць усе магчымыя праблемы, якія ўзнікаюць на шляху перадачы дадзеных.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 be.atomiyme.com. Theme powered by WordPress.