400G оптични модули в съвременните мрежи

Dec 17, 2025|

 

The400G оптичен модулпредставлява едновременно триумф на инженерния прагматизъм и източник на постоянни оперативни главоболия. В основата си той прави нещо просто: прокарва 400 милиарда бита в секунда през стъкло с помощта на светлина. Внедряването се простира в множество форм-фактори, модулационни схеми, конфигурации на дължини на вълните и интерпретации на продавача за това какво всъщност означава „съвместим“. PAM4 модулацията доведе индустрията до този праг на скорост чрез кодиране на два бита на символ вместо един, ефективно удвоявайки пропускателната способност без удвояване на скоростта на предаване-но това решение носи последствия, които се разпростират през всеки слой на стека за разгръщане, от DSP силикона, изгарящ 12 вата вътре в модула, до FEC двигателите на хост платформата, които се борят за коригиране на повишените битови грешки, които PAM4 по своята същност произвежда.

31

 

Войните на форм факторите, които никой не спечели

 

QSFP-DD и OSFP се появиха от процеса на стандартизиране като двама братя и сестри, които не можаха да се споразумеят за нищо, освен че и двамата искат 400G. Индустрията се нуждаеше от осем електрически ленти с 50Gbps всяка и два различни консорциума решиха да решат този проблем по два различни начина.

QSFP-DD спечели аргумента за съвместимост. Пасва на съществуващи клетки QSFP28, ако присвивате достатъчно силно и нямате нищо против втория ред щифтове. Обратната съвместимост има значение, когато имате десетки хиляди разгърнати портове и финансов директор, който задава остри въпроси относно блокираните активи.

OSFP спечели топлинния спор. Малко по-големият корпус и интегрираният радиатор означават, че всъщност можете да разсеете 15-20 вата, които тези модули черпят, без да готвят съседни портове. Виждал съм линейни карти, при които ъгловите QSFP-DD портове постоянно работят с 8 градуса по-горещи от средните, тъй като дизайнът на въздушния поток предполага 100G обвивки на мощността.

Нито един от двамата наистина не спечели. Повечето хиперскалери преминаха към QSFP-DD за опростяване на инвентара. Повечето внедрявания на телекомуникации преминаха към OSFP, защото техните кохерентни модули се нуждаеха от термична височина. Всички останали избраха това, което техният доставчик на комутатори изпрати и продължиха напред.

Вариантът QSFP112 заслужава да бъде споменат, защото обърква всички. Четири ленти по 100G всяка-същият 400G агрегат, по-малко ленти, по-нови SerDes. Има значение за свързването на NIC къде искате сървър-към-TOR връзки без сложността на DSP скоростната кутия. Има по-малко значение, отколкото продавачите твърдят другаде.

 

PAM4 промени всичко (и счупи няколко неща)

 

Ето какво никой не обяснява адекватно, когато ви продават на 400G: PAM4 сигнализирането заменя имунитета срещу шум за ефективност на честотната лента и този компромис не е безплатен.

NRZ кодирането използва две нива на сигнала. Високо или ниско. Едно или нула. Вашият приемник просто трябваше да направи разлика между тези две състояния и очната диаграма ви даде удобни граници. PAM4 използва четири нива-00, 01, 10, 11-което означава, че вашият приемник вече трябва да прави разлика между три преминавания на прагове с една трета от разделянето на напрежението. Теоретичната грешка от 9,54 dB SNR изобщо не е теоретична. Показва се във вашите броячи на BER преди FEC всеки ден.

DSP вътре в 400G модул върши героична работа, компенсирайки това. Изравняване-напред, изравняване на обратна връзка за решение, часовник и възстановяване на данни-всички те работят при 53,125 GBaud на лента. Когато работи, е невидим. Когато не работи, получавате изблици от поправими грешки, прекъснати от случайни некоригируеми, и успех в установяването дали проблемът е вашият модул, вашето оптично влакно, вашият хост или космическата фонова радиация.

 

info-500-197

 

Прекарах две седмици миналата година в преследване на състояние на периодична грешка на DR4 връзка, което се оказа грешка във фърмуера на DSP, която се проявяваше само когато температурата на околната среда надхвърли 31 градуса. Доставчикът призна проблема три месеца след като отворихме случая. Актуализацията на фърмуера, която го коригира, също наруши оперативната съвместимост с една от нашите по-стари платформи за превключване.

Ситуацията с FEC усложнява това. KP4 FEC-RS(544,514) за стандартните грешки-може да коригира до 15 символни грешки на кодова дума, което звучи щедро, докато не разберете колко често имате нужда от това. Пускането на 400G без FEC не е просто непрепоръчително; това е невъзможно за повечето случаи на употреба. Печалбата при кодиране ви купува приблизително 7dB марж, който PAM4 бързо изразходва.

 

Варианти на дължина на вълната: Повече от просто достигане

 

Спецификациите за обхват разказват само част от историята.

400G-SR8 използва 850nm VCSEL в осем успоредни влакна, насочени към 100 метра над OM4. Евтино е. Многомодов е. Изисква конектор MPO-16 с осем TX и осем RX влакна. В стелаж или между съседни стелажи, това работи добре. В момента, в който някой попита за пускането му „само малко по-нататък“, напомнете му, че модалната дисперсия при 850 nm не се преговаря.

400G-DR4 работи при 1310nm върху четири паралелни едномодови-влакна, оценени за 500 метра. Конекторът MPO-12 използва външните осем влакна и оставя четири неизползвани-факт, който обърква кабелните инсталатори приблизително веднъж на внедряване. DR4 се превърна в работния кон за leaf-spine свързаност в еднорежимни инсталации, защото 500 метра покрива повечето геометрии на центрове за данни с свободно място.

400G-FR4 използва CWDM4 дължини на вълните (1271, 1291, 1311, 1331nm), мултиплексирани върху единична двойка влакна чрез дуплекс LC. Два километра обхват. Това е мястото, където 400G започва да се чувства икономичен за междусистемните връзки на кампуса, защото не дърпате осем-оптични MPO ствола между сградите.

400G-LR4 разтяга същия CWDM4 подход до 10 километра с по-висока стартова мощност и по-добри приемници. Скокът на цените от FR4 на LR4 все още изненадва отделите за доставки, които не са актуализирали мисловния си модел от ценообразуването на 100G-LR4.

 

Кохерентният слон

 

400G-ZR заслужава своя собствена секция, защото представлява фундаментално различна технология, облечена в същия форм фактор.

Всичко, което описах досега, използва оптика за директно{0}}откриване. Светлината влиза, фотодиодът я преобразува, DSP я почиства. Кохерентната оптика кодира информация както в амплитуда, така и във фаза през две поляризации едновременно, след което използва локален осцилатор и сложна цифрова обработка на сигнала, за да възстанови всичко в приемника. Резултатът: 400Gbps над 120+ километра неусилено влакно в модул, който може да се включва.

Стандартът OIF 400ZR определя 16QAM модулация при 60 GBaud с двойна поляризация. Конкатенираният FEC (меко-решение вътрешно на Хеминг, твърдо-решение външно стълбище) осигурява около 10,8 dB нетно усилване при кодиране. Цялото нещо черпи 15-20 вата и генерира топлина, която би накарала QSFP-DD модул да плаче.

Виждал съм ZR модули, инсталирани в превключватели, които не са проектирани за това термично натоварване. Шасито на превключвателя отчиташе нормални температури, тъй като сензорите му за всмукване измерваха студен въздух. Модулът отчете 73 градуса, тъй като беше притиснат между два други ZR модула с неадекватен въздушен поток. Връзката работеше-едва-с повишени FEC корекции, които никой не забеляза, докато pre-FEC BER не надхвърли прага и пакетите не започнаха да падат.

Вариантите ZR+ и MZR увеличават обхвата на цената на оперативната съвместимост. Специфичните-подобрения на доставчика за мощност на изстрелване, чувствителност на приемника и FEC алгоритми могат да разширят връзките над 400 км, но вие купувате решение, а не стока.

 

info-500-253

 

Въпросът-на трета страна

 

Водил съм този разговор приблизително шестстотин пъти.

„Можем ли да използваме-оптика 400G на трета страна?“

Технически да. Спецификациите на MSA съществуват точно за да позволят оперативна съвместимост на множество-доставчици. Съвместим QSFP-DD от производител X трябва да се държи идентично с този от производител Y. Стандартите IEEE определят оптичните и електрическите параметри. CMIS (Common Management Interface Specification) стандартизира как хостът говори с модула.

На практика зависи.

Механизмите за удостоверяване на Cisco се развиха от грубия подход „грешка-деактивиране на порта“ на по-старите платформи до по-сложна проверка на доставчика, която регистрира предупреждения, но не деактивира непременно функционалността. Командата за неподдържан{2}}трансивър остава аварийният люк. Arista има тенденция да бъде по-разрешаваща, но ще откаже да поддържа проблеми, които може да произтичат от модули на трети-страни. Позицията на Juniper варира според платформата и версията на софтуера по начини, които изискват справка с техните матрици за съвместимост.

Използвам оптика-на трети страни в лабораторни среди без колебание. За производствени пътеки, носещи приходи от трафик в 2 сутринта, когато нещо се провали? Искам да мога да се обадя на TAC и да ги накарам действително да помогнат, вместо незабавно да се отклонявам към „замяна с поддържани трансивъри“.

Математиката на разходите променя това изчисление за хиперскейлъри, които купуват модули с десетки хиляди и наемат оптични инженери, които могат да характеризират и квалифицират доставчиците независимо. Друга е математиката за предприятия, които купуват стотици модули чрез канали за разпространение с ограничени технически ресурси.

 

Топлинна реалност

 

400G QSFP-DD модул черпи някъде между 10 и 15 вата в зависимост от варианта и доставчика. 400G кохерентен ZR модул черпи 15-20 вата. 800G QSFP-DD800 модул-, който вече е внедрен в AI клъстери, консумира 18-25 вата.

Поставете 64 от тях в 2RU превключвател и ще имате 640 вата само от оптика, преди да отчетете ASIC на превключвателя, паметта, вентилаторите и захранванията. Проблемът с топлинния дизайн се е преместил от „адекватен“ в „критичен“ за едно поколение.

Гледах как термовизионна камера измита напълно-натоварен превключвател за гръбначен стълб 400G по време на квалификационен тест. Най-горещите модули не бяха тези, които бихте очаквали. Ъглови позиции, надолу от изпускателната тръба на ASIC, бяха по-горещи от централните модули на лицевата-плоча, които получиха чист въздух. Стандартните температурни показания на DDM показаха 17 градуса разпръскване между портовете, които се предполагаше, че са идентични.

Спецификациите на модула обещават работа от 0 градуса до 70 градуса, но кривите на производителност не изглеждат по същия начин при 70 градуса, както при 25 градуса. Лазерният прагов ток се увеличава. Ефективността на наклона намалява. Дрейфове на дължината на вълната-и за системите CWDM4 и DWDM дрейфът на дължината на вълната означава кръстосани смущения със съседни канали.

Системите с въздушно{0}}охлаждане наближават своите граници. Течното охлаждане за превключватели остава екзотично, но все по-необходимо за AI/ML клъстери, където GPU и оптика се конкурират за един и същ топлинен бюджет.

 

info-500-246

 

Тестване на реалностите

 

Стандартите IEEE определят точките за съответствие. Те не гарантират, че вашата конкретна връзка ще работи.

TDECQ (Quaternary на предавател и дисперсионно затваряне на очите) е еквивалентът на PAM4 на OMA (амплитуда на оптична модулация), но е по-сложен. Той се опитва да характеризира качеството на предавателя по начин, който предсказва работата на приемника. Измерването изисква референтни приемници и математически трансформации, които варират между доставчиците на тестово оборудване по начини, които предизвикват безкрайни дебати в комисията по стандарти.

Pre-FEC BER тестването е по-важно от всякога. „Пръстовият отпечатък“ на вашите битови грешки-случайни спрямо избухващи, равномерно разпределени спрямо концентрирани в конкретни PAM4 символи-определя дали вашият FEC действително може да ги коригира. Истинските произволни грешки играят добре с кодовете на Рийд-Соломон. Burst грешки от проблеми с възстановяването на часовника или неправилно поведение на DSP могат да надвият FEC дори когато необработеният BER изглежда приемлив.

Научих се да изисквам преди-FEC статистика от всяка 400G връзка, а не само след-FEC. Връзка, показваща 0,00 post-FEC BER, докато се изпълнява pre-FEC BER при 2×10⁻⁴, изглежда страхотно, докато не осъзнаете, че почти не е останало поле. Добавете леко замърсен конектор или остарял лазер и тази връзка ще се преобърне над FEC скалата без предупреждение.

 

Замърсяване на конектора

 

При 400G проблемът със замърсяването става остър. Модулираното око има по-малък запас. Частиците, които биха били невидими при по-ниски скорости, сега намаляват достатъчно, за да имат значение.

Ядрата на едномодовите влакна- са с диаметър 9 микрометра. Конектор MTP/MPO-12 носи осем активни влакнести пътя (четири TX, четири RX) плюс четири неизползвани. Всеки цикъл на чифтосване крие риск от заразяване. Всяка замърсена крайна страна рискува загуба на вмъкване, която изяжда бюджета ви за връзка.

Необходимата дисциплина за почистване не-подлежи на обсъждане, но рядко се спазва последователно. Почистващи-препарати с едно щракване, сухи кърпички със статични проблеми, мокро почистване с изопропилов алкохол, който трябва да се избърше веднага, вместо да се остави да се изпари-всеки метод има привърженици и критици. Това, за което всички са съгласни: проверете с оптичен мерник, преди да свържете, и ако е замърсен, почистете го и проверете отново.

Гледах как екип за внедряване прекара цял следобед в отстраняване на неизправности при прекъсваща 400G-DR4 връзка. Смяна на множество модули. Прегледи на конфигурацията. Най-накрая разби обхвата на инспекцията и откри строителни отпадъци по адаптера на преградата, които никой не се е сетил да провери. Двадесет секунди с почистващ инструмент поправиха това, което четири часа отстраняване на неизправности не можаха.

 

info-500-276

 

Какво означава всичко това за планирането

 

Ако внедрявате нова структура на центъра за данни днес, 400G е базовата линия за гръбначния слой и все повече за връзките нагоре-гръбначния стълб. Цената на бит е спаднала до мястото, където 4×100G пробив от 400G модул често е по-евтин от отделните 100G модули. DR4 за всичко над 30 метра вътре в сграда. FR4 за междусистемни връзки в кампуса. LR4 или ZR, ако достигате между сайтове.

Ако сте предприятие, обмислящо първото си внедряване на 400G, платформите за превключване са узрели, веригата за доставка на модули се е стабилизирала и ценообразуването вече не изисква подпис-изпълнител на всяка поръчка за покупка. Започнете с опресняване на leaf-spine, докажете, че вашата кабелна инфраструктура може да се справи с по-строгия толеранс на замърсяване и разберете, че вашите инструменти за управление трябва да започнат да събират FEC статистически данни, преди действително да имате нужда от тях.

Ако сте хиперскалер, който чете това, вече сте надхвърлили 400G за GPU клъстери и се чудите как всъщност ще се внедри 1.6T. Успех с термичните проблеми; След две години ще чета документите ви.

Самите модули са станали изключително надеждни. Проблемите съществуват навсякъде другаде: замърсени конектори, неправилно конфигурирани FEC режими, топлинни дизайни, които приемат вчерашните обвивки на мощността, и организации за поддръжка, които все още се учат как да отстраняват проблеми с целостта на сигнала PAM4. Небляскавите основи-почистват вашите конектори, измерват температурите ви, разбират бюджета ви за FEC-имат по-голямо значение от дебатите относно спецификациите.

 

Изпрати запитване